Archives pour l'étiquette Prisma Presse

Site web média et presse : Le stockage et l’espace disque

Question matutinal

Si je reformule les deux interrogations  du matin je poserais la question suivante : Quel est l’impact financier le plus important du stockage (news et archive) pour un site web de presse ou média. Est-ce l’espace disque pour le stockage lui même ou la bande passante pour exploiter ce qui à été stocké ?

Je n’ai pas le temps ni l’envie de faire des statistiques, des benchmarck ou de compiler des données. Je vais donc donner mon humble avis en me basant sur mes souvenirs de Prisma-Presse, sur mon actualité chez Mondadori et plus largement sur mon expérience.

L’espace disque

L’espace disque brut en 2014 n’est plus un problème. Je parle bien d’espace disque brut, c’est à dire le disque lui même et pas forcément les moyens de l’exploiter.

Sur Amazon Web Service, qui de par sa position de leader donne la température, 13To de disque magnétique de performance moyen coût légèrement moins de 800$ HT par mois. Chez OVH, leader en France, un NAS incluant les moyens de partager l’espace disque et de l’administrer (cif / nfs / etc) c’est 1000€ HT par mois

13To c’est à peu moins d’un tiers de l’espace disque total nécessaire à un groupe presse de la taille de Prisma Presse ou Mondadori pour faire fonctionner l’ensemble des services.

On vois que les coûts d’espace disque brut sans être négligeable ne sont pas insurmontable.

La bande passante

La bande passante en 2014 n’est pas un problème sauf ponctuellement et encore.

Si ont rependre comme référence Amazon Web Service , OVH ou d’autre (ikoula, Oxalid, iliad etc..) vous aurez à votre disposition des gros tuyaux capable de compenser le pire des complexes phalliques du plus minable des machistes. Bref de l’énorme.

Sur Amazon Web Service, sans optimisation des coûts, 10Go de transfert vers l’internet par jour vous coûtera  35$ par mois. C’est un peu près le volume de donnée pour trois sites web féminin majeur français (je ne cite personne)

Ponctuellement, un scoop, un buzz, un événement peux engendrer une surcharge à l’entré du tuyau :

  • Si vous êtes encore dans une infrastructure dédier et cantonné dans un data center en général la couche firewall et / ou répartiteur de charge est taillé pour assurer à 120 ou 130% de consommation courante.  Payé 30% de plus de capacité et ne pas l’utiliser 99% temps est, financièrement, une sécurité suffisamment coûteuse pour la plupart des dirigeants.  Donc, 24h ou 48h par ans, un scoop tombe et engendre un pic d’audience. Malgré le cache http et les CDN vous n’avez pas la qualité de service optimum et ça râle à l’édito. Vous rappeler le prix du service up a 100% quel que soit les conditions, tout le monde tousse et on passe à la question suivante.
  • Et encore si êtes dans un vrai cloud type IaaS (et pas juste de la virtualisation) vous avez la capacité d’être élastique, agile et réactif. Vous augmenterez votre capacité le temps de la tempête médiatique. Cela peux coûter un peu, mais cela dure juste le temps de la vague.

Il est ou le vrai coût du stockage ?

Le vrais coût du stockage est dans le stack applicatif utilisant le stockage, c.a.d votre site web.

Si votre développement ne sais que écrire ou lire dans un répertoire sans la moindre intelligence vous ne pourrez jamais tirer parti des systèmes de stockages qu’invente les acteurs de l’hébergement web, du cloud et des évolutions en général.

Une stack applicatif capable de changer de backend de storage pour passer d’un disque, à un NAS, puis à du AWS S3 cela a un coût bien supérieur au volume de disque ou à la BP brute. C’est du travail d’architecte web et de développeur, du jus de cerveaux qui à un coût. Soit ponctuellement par un grand big bang pour changer de paradigme de stockage, soit en continu.

Une stack applicatif applicative qui n’est pas économe des ressources de stockage. Qui ne prend pas en compte son propre auto-nettoyage. Qui ne vide pas automatiquement la poubelle, ne supprime pas les versions obsolètes. Un stack applicative de ce type va entasser. En dernier lieu plus personne ne maîtrise, personne ne veut prendre le risque de supprimer du contenu et c’est l’explosion du stockage.

Un autre partie, très souvent négligé, c’est les opérations d’exploitation et de sysadmin. Plus votre stockage augmentent et reste monolithique (cf: lire et écrire dans un répertoire)  plus sa manipulation  devient problématique. Déplacement, duplication, backup, restaurations, migration, synchronisation prendrons un temps précieux et tuerons toute réactivité.

La également votre  stack applicatif doit être capable d’adresser les objets stocker de façon répartie et modulaire (sharding, hachage, migration continue etc.), un peu sur disque et beaucoup dans le cloud. Et nous en revenons au jus de cerveaux et au code.

Le stockage ne coûte plus grand chose. Le tuyau de bande passante, moyen d’origine pour utiliser le stockage ne coûte pas non plus beaucoup. Mais le moyen d’utiliser les différents stockages, voir plusieurs en même temps; de passer de l’un l’autre, de façon répartie et modulaire repose sur le code de votre application. Et ça c’est du jus de cerveau qui à un prix.

Autant du stockage brut doit être considéré comme un coût. Un peu comme de l’essence pour une voiture. Autant la création d’une voiture capable d’utiliser indifféremment carburant est un investissement. Même chose pour vos applications.

L’internet bug a Prisma Presse

Je ne suis pas le seul à partir. 24 des 26 personnes composants la DSI Internet de Prisma Presse partent également. En effet la quasi totalité des personnes assurant l’activité technique de l’internet dans cette entreprise ont souscrit au plan de départ volontaire ouvert dans le cadre d’un plan de sauvegarde de l’emplois.

Développeur, Administrateur système et réseau, Architecte Web, Chef de Projet, Expert SEO, Assistante, Responsable d’application, Chef de Projet Technique et même le Responsable de service on adhéré à ce plan. Cette unanimité a souhaiter partir de la part de personne au cœur d’une activité d’avenir pour l’entreprise soulève forcément beaucoup de question. Il ne m’appartiens pas d’expliquer comme la direction de Prisma Presse à laisser ceci ce produire. Un professeur d’HEC écrira peut être un mémoire de management sur ce plan ou alors un sociologue étudiera cette dynamique de groupe qui conduit tout un service à préférer partir. Mais force est de constater que cette situation n’a jamais été désirée ou voulue de la part de l’entreprise. A mon humble avis la situation ainsi générée devrait induire au moins 20% de coût supplémentaire pour Prisma Presse dans son activité Internet et lui couter quelque point d’audience.

Cafe.com : Is cool !

De Responsable Web Hosting pour Prisma Presse

Je ne suis plus responsable des architectures d’hébergement web du Groupe Prisma Presse depuis le vendredi 20 novembre 2009.

Bilan de trois années d’hébergement

Les trois années au sein de cette entreprise ont été d’une extrème richesse. J’ai eu la chance de participer a la conception et au lancement de Gala.fr, Voici.fr, Geo.fr, Femmes.com, Cuisine-et-recette.fr ainsi que a la refonte de Capital.fr et Tele-loisirs. J’ai également assumé la production de caminteresse.fr, femmeactuelle.fr, tele-2-Semaines.fr, tv-grandes-chaines.fr, VSD.fr; PrismaPub.com, Prisma-Presse.com.

prisma_titres1.jpeg

En près de trois ans de WebHosting à Prisma Presse, Kathryl et moi même avons :

  • Conçus une plate-forme de virtualisation / cloud computing qui héberge l’ensemble du SI du service Internet. De 4 serveurs physiques pour un projet en 2007 sous terminons avec 2 serveurs physiques, 23 serveurs virtuels, 500Go de donnée et 20 sites web maintenues en parallèle.
  • Conçus et / ou gérer 8 plate-formes distinctes de productions pour un total supérieur à 2,5 milliards de pages vue en 3 ans.
  • Réduit la facture mensuelle d’hébergement de Prisma Presse de 40% par rapport à son point le plus haut.
  • Stabilisé le coût d’hébergement annuel. L’année 2009 ayant couté 3% de moins que l’année 2008 ceci alors que l’audience explose.
  • Assuré une monter de l’audience de 66 Millions de page en octobre 2007 à 145 Million en octobre 2009. une progression de + 120% en deux ans.[1]

Merci aux développeurs pour la qualité de leur code, moins de 10 requêtes sql par template eZ c’est un rêve pour bien des acteurs du monde de la presse sur internet[2]. Merci aux chef de projet d’avoir fait accepter un peu de contraintes techniques à nos clients et d’avoir prêché encore et encore pour l’application de nos préconisations. Merci aux SEO d’avoir assuré avec brio la popularité des sites web et d’avoir su avoir un pied dans le marketing et un pied dans la technique.

A Responsable d’exploitation web pour Cafe.com

IsCool

J’ai débuté comme responsable d’exploitation, toujours dans et pour le web, chez Cafe.com un éditeur de jeux online. Je suis très heureux et emballé d’intégrer une entreprise aux nombreux projets et qui à déjà démontré ses qualités avec le succès du jeu Is cool sur facebook. Is cool qui compte déjà 120 000 fan officiel pour presque 3 millions d’utilisateur actif selon AppData.com.

Is.cool.AppData.png

Le portefeuille projet de Cafe.com est impressionnant et comportant j’espère de nouveau blockbuster comme is cool dont j’aurais la responsabilité de la production.

Mais pas d’emballement et je plan sur la comète. Je suis pour le moment en pleine phase d’intégration. Les choix technologie de Cafe.com sont fort et volontaire et je vais devoir rester concentré pour assimiler au plus vite les fondamentaux et travailler avec une équipe d’un très très haut niveau :

  • LAMP / Ubuntu
  • Memcache / Tokyo Cabinet
  • Puppet / Capistrano
  • Amazon Elastic Compute Cloud (Amazon EC2)
  • Amazon Simple Storage Service (Amazon S3)
  • Amazon Elastic Block Store
  • Elastic Load Balancing
  • Amazon Virtual Private Cloud

Cafe.com

Notes

[1] Pas de cout chiffré, juste des pourcentages, confidentialité oblige. L’audience est public grace à l’OJD

[2] Une pensé pour les collègues de Lagardère

Comment connaitre l’audience des grands sites web de presse français ?

L’audience et la page vue

Je vous parle parfois de forte audience sur voici.fr ou gala.fr par exemple au moment de la mort de Mickael Jaskson. J’évoque des fortes charge absorbé avec l’aide de NAS, squid et autre. Mais comme être sur de ce que j’avance ? Comment comparer avec votre architecture ? Est ce que ce les techniques ou solution que je dis utiliser sont si efficace ? Et les autres ils bourrent à combien sur leurs babasse ?

Bref « il est gros à quel point ton site ? »

Continuer la lecture de Comment connaitre l’audience des grands sites web de presse français ?

Tele-loisirs.fr : Pages vues, mon dernier record de production

Record

4 827 131 pages vues en 24H le dimanche 22 février 2009.

Ceci avec une architecture des plus simples:

- 1 serveurs LVS - 5 frontaux LAMP - 1 base de donnée.

Le secret ?

Un code applicatif sur mesure, taillé en fonction du produit, un contenu généré dynamiquement mais à intervalle contrôlé et stocké statiquement, lighttpd en lieu et place d’apache, un Content delivery network pour tout les éléments statiques (images, css, xml etc..).

Coût ?

Disons moins 10 000 k€ par mois