Voici.fr : Optimisation d’un site eZ Publish 4 pour l’utilisation des caches web

Introduction au cache web

Documentation préalable

Si la gestion de cache web est pour vous une notion vague je vous invite à lire cette excellente documentation de Mark Nottingham en français nommée tutoriel de la mise en cache pour les auteurs Web et les webmestres. Vous y apprendrez tout sur les caches de navigateurs les caches de serveurs mandataires nommé proxy et reverses proxy ainsi que tout sur la configuration des en tête ou header du protocole HTTP nécessaire tel quel documenté dans la rfc 2616 section Caching in HTTP

La chaîne des caches.

Les caches web forme sont présent sur tout la chaîne de distribution entre vote site web et l’internaute. Cette chaîne peux être complexe ou très simple mais vous n’en maitrisez pas la structure. Imaginons le cas d’une chaîne complexe, quel sont les chainons ?

  1. Votre serveur web apache
  2. Un reverse proxy en amont de votre serveur sur la même architecture
  3. Un proxy chez le FAI dont dépendant la connexion de l’internaute
  4. Un second proxy en entré du réseau Lan de l’internaute (typique d’un réseau d’entreprise, école, université etc..)
  5. Le cache navigateur du logiciel client utilisé pour l’internaute pour consulté votre site.
  6. Et enfin l’internaute.

Entre votre serveur apache et l’internaute nous avons ici 4 étapes intermédiaires qui sont autant de cache sur la chaîne de distribution. Savoir tirer partie de ces caches est important pour économiser les ressources de votre hébergement et produire un site à l’affichage rapide et sans erreur (qualité indispensable au succès).

L’enjeux est important :

  • Les économies réalisables sont immenses. Dans l’exemple 4 services de cache peuvent répondre à l’internaute avant que votre propre serveur soient consulté.
  • Les dangers sont immenses. Dans l’exemple 4 services de cache peuvent répondre à l’internaute, avant votre propre serveur, une information obsolète que vous n’avez pas maitrisé.

 

Les acteurs: développeur et administrateur système LAMP[1]

La gestion des caches web pour une site eZ publish est le sujet d’exemple de la collaboration nécessaire entre les développeur ou responsable d’application et les responsable d’hébergement ou administrateur système.

Dans le cas ou vous ne maitrisez pas votre hébergement directement, quelque soit la raison, il est nécessaire de vous attacher les compétences de l’administrateur système en charge de votre serveur web.

 

Tâche à la charge du developpeur ou responsable d’application eZ Publish

Le développeur, ayant la haute main sur le code de son application, ce doit pour une parfaite configuration de la chaine des caches web de configurer son instance de eZ Publish pour cela. A cette fin il s’attachera à comprendre les paramètres de configuration de la section HTTPHeaderSettings du fichier site.ini[2]

Header HTTP par defaut de eZ publish

Voici tel que ce présente cette section HTTPHeaderSettings par défaut sans modification après une installation de eZ publish 4.2. Cette configuration par défaut désactive toute possibilité de cache web.

<span style="color: #66cc66;">[</span>HTTPHeaderSettings<span style="color: #66cc66;">]</span> <span style="color: #808080; font-style: italic;"># Enable/disable custom HTTP header data.</span> CustomHeader<span style="color: #66cc66;">=</span>disabled   <span style="color: #808080; font-style: italic;"># Only apply custom headers for anonymous users</span> OnlyForAnonymous<span style="color: #66cc66;">=</span>disabled   <span style="color: #808080; font-style: italic;"># Header list. Contains all HTTP which should override standard ones.</span> HeaderList<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span> HeaderList<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span>Cache<span style="color: #66cc66;">-</span>Control HeaderList<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span>Pragma HeaderList<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span>Expires   <span style="color: #808080; font-style: italic;"># Default Cache-Control header</span> <span style="color: #808080; font-style: italic;"># HTTP Headers are specified using the following format :</span> <span style="color: #808080; font-style: italic;"># &lt;HTTP header&gt;[&lt;eZ Publish path|module{/view}&gt;]=&lt;value&gt;{;&lt;depth&gt;{;&lt;level&gt;}}</span> <span style="color: #808080; font-style: italic;">#</span> <span style="color: #808080; font-style: italic;"># Example :</span> <span style="color: #808080; font-style: italic;"># # Set Pragma HTTP header to no-cache for whole site, except /news, and 2 levels below news.</span> <span style="color: #808080; font-style: italic;"># Pragma[]</span> <span style="color: #808080; font-style: italic;"># Pragma[/]=no-cache;2</span> <span style="color: #808080; font-style: italic;"># Pragma[/news]=;2;0</span>   <span style="color: #808080; font-style: italic;"># Cache-Control values are set directly</span> Cache<span style="color: #66cc66;">-</span>Control<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span> Cache<span style="color: #66cc66;">-</span>Control<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span>no<span style="color: #66cc66;">-</span>cache<span style="color: #66cc66;">,</span> must<span style="color: #66cc66;">-</span>revalidate   <span style="color: #808080; font-style: italic;"># Pragma values are set directly</span> Pragma<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span> Pragma<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span>no<span style="color: #66cc66;">-</span>cache   <span style="color: #808080; font-style: italic;"># Expires specifies time offset compared to current time</span> <span style="color: #808080; font-style: italic;"># Default expired 2 hours ago ( no caching )</span> Expires<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span> Expires<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #cc66cc;">-7200</span>

Header HTTP de eZ publish pour Voici.fr

Sur Voici.fr nous avons fait les choix suivants:

  • Un cache à 5 minutes pour la home page afin d’être réactif tout en utilisant le cache web. Cette période courte offre la possibilité d’avoir une actualisation de site fréquente entre deux visites pour l’internaute tout en lissant le nombre de requêtes à nos serveur durant une même visite.
  • Pour les têtes de rubriques, flux rss et autre sitemap nous avons porté le temps de cache à 15 minutes
  • Pour le compte utilisateur et les fonctions communautaire nous avons configuré un temps de cache négatif en plus d’une instruction pragma no cache afin d’être actualisé à chaque affichage.

Nos paramètre sont donc les suivants (extrait):

<span style="color: #66cc66;">[</span>HTTPHeaderSettings<span style="color: #66cc66;">]</span> CustomHeader<span style="color: #66cc66;">=</span>enabled Cache<span style="color: #66cc66;">-</span>Control<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span> Cache<span style="color: #66cc66;">-</span>Control<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #000000; font-weight: bold;">public</span><span style="color: #66cc66;">,</span>must<span style="color: #66cc66;">-</span>revalidate Cache<span style="color: #66cc66;">-</span>Control<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>potins<span style="color: #66cc66;">-</span>people<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #000000; font-weight: bold;">public</span><span style="color: #66cc66;">,</span>must<span style="color: #66cc66;">-</span>revalidate <span style="color: #66cc66;">...</span> Cache<span style="color: #66cc66;">-</span>Control<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>communaute<span style="color: #66cc66;">/</span>espace<span style="color: #66cc66;">-</span>prive<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span>no<span style="color: #66cc66;">-</span>cache<span style="color: #66cc66;">,</span>must<span style="color: #66cc66;">-</span>revalidate Cache<span style="color: #66cc66;">-</span>Control<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>rss<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #000000; font-weight: bold;">public</span><span style="color: #66cc66;">,</span>must<span style="color: #66cc66;">-</span>revalidate Cache<span style="color: #66cc66;">-</span>Control<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>prismaatom<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #000000; font-weight: bold;">public</span><span style="color: #66cc66;">,</span>must<span style="color: #66cc66;">-</span>revalidate   Expires<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span> Expires<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #cc66cc;">300</span> Expires<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>potins<span style="color: #66cc66;">-</span>people<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #cc66cc;">900</span> <span style="color: #66cc66;">...</span> Expires<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>communaute<span style="color: #66cc66;">/</span>espace<span style="color: #66cc66;">-</span>prive<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #cc66cc;">-7200</span> Expires<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>rss<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #cc66cc;">900</span> Expires<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>prismaatom<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span><span style="color: #cc66cc;">900</span>   Pragma<span style="color: #66cc66;">[</span><span style="color: #66cc66;">]</span> Pragma<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span><span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span> Pragma<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>potins<span style="color: #66cc66;">-</span>people<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span> <span style="color: #66cc66;">...</span> Pragma<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>communaute<span style="color: #66cc66;">/</span>espace<span style="color: #66cc66;">-</span>prive<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span>no<span style="color: #66cc66;">-</span>cache Pragma<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>rss<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span> Pragma<span style="color: #66cc66;">[</span><span style="color: #66cc66;">/</span>prismaatom<span style="color: #66cc66;">]</span><span style="color: #66cc66;">=</span>

Hearder HTTP Home page Voici.fr

Header HTTP de la home page de Voici.fr

 

Taches a la charge du responsable d’hébergement ou administrateur système.

L’administrateur système n’est pas exempt de tache. En tant que responsable de l’hébergement et donc de la configuration serveur il doit mettre en oeuvre la couche LAMP. D’un point de vue système les besoins de eZ Publish sont important au point que la limite entre l’application et le système m’apparais bien flou, surtout si vous visez la haute performance.

Concernant apache il est nécessaire de le configurer avec un vhost comportant un certain nombre de paramètre précis. Entre autre l’utilisation du mod_rewrite est systèmatique avec eZ Publish. En effet tout appel de page doit ce faire au travers du index.php de l’application et uniquement par lui. Tout autre appel de ressources devant être appelé directement et de façon statique.

Le Vhost apache eZ Publish

De ce fait le vhost par défaut de eZ publish tel qu’il est recommandé dans la documentation de la version 4 ressemble à ceci :

<span style="color: #00007f;">NameVirtualHost</span> <span style="color: #ff0000;">128.39</span><span style="color: #ff0000;">.140</span><span style="color: #ff0000;">.28</span>   &lt;VirtualHost <span style="color: #ff0000;">128.39</span><span style="color: #ff0000;">.140</span><span style="color: #ff0000;">.28</span>&gt;     &lt;Directory /var/www/example&gt;         <span style="color: #00007f;">Options</span> <span style="color: #0000ff;">FollowSymLinks</span>         <span style="color: #00007f;">AllowOverride</span> <span style="color: #0000ff;">None</span>     &lt;/Directory&gt;       &lt;IfModule mod_php5.c&gt;         php_admin_flag safe_mode <span style="color: #0000ff;">Off</span>         php_admin_value register_globals    <span style="color: #ff0000;">0</span>         php_value magic_quotes_gpc  <span style="color: #ff0000;">0</span>         php_value magic_quotes_runtime  <span style="color: #ff0000;">0</span>         php_value allow_call_time_pass_reference <span style="color: #ff0000;">0</span>     &lt;/IfModule&gt;       <span style="color: #00007f;">DirectoryIndex</span> index.php       &lt;IfModule mod_rewrite.c&gt;         <span style="color: #00007f;">RewriteEngine</span> <span style="color: #0000ff;">On</span>         <span style="color: #00007f;">RewriteRule</span> content/treemenu/? /index_treemenu.php <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">Rewriterule</span> ^/var/storage/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">Rewriterule</span> ^/var/<span style="color: #66cc66;">[</span>^/<span style="color: #66cc66;">]</span>+/storage/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">RewriteRule</span> ^/var/cache/texttoimage/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">RewriteRule</span> ^/var/<span style="color: #66cc66;">[</span>^/<span style="color: #66cc66;">]</span>+/cache/texttoimage/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">Rewriterule</span> ^/design/<span style="color: #66cc66;">[</span>^/<span style="color: #66cc66;">]</span>+/<span style="color: #66cc66;">(</span>stylesheets|images|javascript<span style="color: #66cc66;">)</span>/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">Rewriterule</span> ^/share/icons/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">Rewriterule</span> ^/extension/<span style="color: #66cc66;">[</span>^/<span style="color: #66cc66;">]</span>+/design/<span style="color: #66cc66;">[</span>^/<span style="color: #66cc66;">]</span>+/<span style="color: #66cc66;">(</span>stylesheets|images|javascripts?<span style="color: #66cc66;">)</span>/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">Rewriterule</span> ^/packages/styles/.+/<span style="color: #66cc66;">(</span>stylesheets|images|javascript<span style="color: #66cc66;">)</span>/<span style="color: #66cc66;">[</span>^/<span style="color: #66cc66;">]</span>+/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">RewriteRule</span> ^/packages/styles/.+/thumbnail/.* - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">RewriteRule</span> ^/favicon\.ico - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #00007f;">RewriteRule</span> ^/robots\.txt - <span style="color: #66cc66;">[</span>L<span style="color: #66cc66;">]</span>         <span style="color: #adadad; font-style: italic;"># Uncomment the following lines when using popup style debug.</span>         <span style="color: #adadad; font-style: italic;"># RewriteRule ^/var/cache/debug\.html.* - [L]</span>         <span style="color: #adadad; font-style: italic;"># RewriteRule ^/var/[^/]+/cache/debug\.html.* - [L]</span>         <span style="color: #00007f;">RewriteRule</span> .* /index.php     &lt;/IfModule&gt;       <span style="color: #00007f;">DocumentRoot</span> /var/www/<span style="color: #00007f;">example</span>     <span style="color: #00007f;">ServerName</span> www.<span style="color: #00007f;">example</span>.com     <span style="color: #00007f;">ServerAlias</span> admin.<span style="color: #00007f;">example</span>.com &lt;/VirtualHost&gt;

Or si le mod_rewrite et les expression régulières ne vous sont pas trop inconnues vous constaterez que tout appel d’image, de css ou de javascript pour le design du site comme ceux du contenue publié bénéficie d’exclusion à la régle de redirection final vers le index.php.

Du fait de ces exclusion les image, css et javascript sont directement fournit par apache sans que les paramètres de configuration des headers du protocole http tel que configuré par le développeur ou responsable d’application ne soit pris en compte.

Le Vhost apache eZ Publish pour Voici.fr

Afin de configurer les headers du protocole HTTP en réponse à chaque requête image, css et javascript il est nécéssaire de mettre en oeuvre des mécanismes propre à apache. L’enjeux est d’importance au regard du poids de l’image dans la volume total d’une page web.

 

Mod_expires pour Voici.fr, ne jeter plus les images après usage

Afin de configurer les header HTTP avec les instructions de mise à cache nous avons utilisé le mod_expire en précisant pour chaque type mime un temps de vie. Dans le cas de notre site nous avons inclus le block suivant dans le vhost apache de voici.fr.

&lt;IfModule mod_expires.c&gt;                 <span style="color: #00007f;">ExpiresActive</span> <span style="color: #0000ff;">on</span>                   <span style="color: #00007f;">ExpiresByType</span> text/css <span style="color: #7f007f;">"access 1 days"</span>                 <span style="color: #00007f;">ExpiresByType</span> application/x-javascript <span style="color: #7f007f;">"access 1 days"</span>                 <span style="color: #00007f;">ExpiresByType</span> text/javascript <span style="color: #7f007f;">"access 1 days"</span>                 <span style="color: #00007f;">ExpiresByType</span> image/gif <span style="color: #7f007f;">"access 1 days"</span>                 <span style="color: #00007f;">ExpiresByType</span> image/jpeg <span style="color: #7f007f;">"access 1 days"</span>                 <span style="color: #00007f;">ExpiresByType</span> image/png <span style="color: #7f007f;">"access 1 days"</span>         &lt;/IfModule&gt;

Hearder HTTP logo Voici.fr

Header HTTP du logo de Voici.fr

 

Mod_gzip pour Voici.fr, le régime des css

Dans le cas de voici.fr nous recherchions à limiter la sollicitation de nos serveurs mais également bande passante utilisée, l’utilisation des headers HTTP est une solution efficace et performante.

Mais nous avons constaté un autre phénomène lié à la vie médiatique du site. La dynamique d’un site comme voici.fr impose des modifications de style, de présentation et de format en continue pour ce distingué de la concurrence répondre au demande SEO ou tout simplement faire « vivre » le site. Une telle vie trépidante à conduit à un hyper croissance des fichiers css.

A chaque nouvelle charte graphique ou mise à jour les fichiers css grossissaient de nouvelle instruction de design. De l’habillage original les têtes de rubrique on commencé à changé, puis le format des articles, plus les formats des videos etc.. D’un css A nous avions maintenant en plus A1 pour les têtes de rubrique, A2 pour les articles, A3 pour les vidéos et ainsi de suite. Chaque css comportant ça propre présentation de balise html courante, chaque webdesigner a ajouter sa patte sans toucher à ce qui a été réalisé précédemment. Un final, dans un tel cas, le fichier css peux atteindre des tailles respectable de l’ordre de 500Ko[3].

Notre solution le mod_gzip qui permet à apache avant de délivrer un fichier css de le zipper. Nous l’avons configuré de façon à ne travailler que sur des fichiers de taille pertinente (ni top gros ni trop petit). Nous l’avons configuré pour qu’il ne zippe que les fichiers texte du type mime css ou javascript.

&lt;IfModule mod_gzip.c&gt; 		mod_gzip_on Yes 		mod_gzip_can_negotiate Yes 		mod_gzip_static_suffix .gz 		<span style="color: #00007f;">AddEncoding</span> gzip .gz 		mod_gzip_update_static No 		mod_gzip_command_version <span style="color: #7f007f;">'/mod_gzip_status'</span> 		mod_gzip_temp_dir /tmp 		mod_gzip_keep_workfiles No 		mod_gzip_minimum_file_size <span style="color: #ff0000;">500</span> 		mod_gzip_maximum_file_size <span style="color: #ff0000;">1000000</span> 		mod_gzip_maximum_inmem_size <span style="color: #ff0000;">60000</span> 		mod_gzip_min_http <span style="color: #ff0000;">1000</span> 		mod_gzip_handle_methods GET POST   		mod_gzip_item_include mime ^text/css$ 		mod_gzip_item_include mime ^text/javascript$ 		mod_gzip_item_include mime ^application/x-javascript$   		mod_gzip_dechunk Yes 		mod_gzip_add_header_count Yes 		mod_gzip_send_vary Yes 	&lt;/IfModule&gt;

Poids Css voici.fr

Poids des css dans la home de Voici.fr

 

Conclusion en forme de scénario

Un internaute consultant le site voici.fr sollicitera nos serveurs pour l’intégralité des éléments de la première page appelée. Dès le seconde page les images et fichiers css du desing du site ne seront plus appelés, les instructions des hearder http donnant l’autorisation au navigateur de ce fournir dans son cache pour ces éléments la précisément, ceci durant 24 heures à partir de l’heure ou il à accédé pour la première fois à l’élément.
Concernant le code html constituant la page web il sera demandé à nos serveur à chaque nouvelle page. Mais si l’internaute retourne sur la home page durant les 5 minutes de temps de vie du cache le navigateur, tout comme pour les images, ce fournira sans son cache sans consulté les serveurs.
Passé 5 minutes toute nouvelle demande de la home page sur le navigateur généra un appel aux serveurs pour le code html, mais pas pour les images.

Il ne vous reste plus qu’a concevoir un architecture de reverse proxy en amont de vos serveurs pour garder en cache toute ces informations et éviter durant les périodes de temps de vie définir de sollicité vos serveurs.

Notes

[1] Linux Apache Mysql Php, pas de windows ici

[2] Attention a la logique de surcharge des fichier ini propre à eZ pulbish

[3] « Que ceux qui aiment Dreamweaver, les popups, les iframes, les Gifs, se retirent »

18 réflexions sur “ Voici.fr : Optimisation d’un site eZ Publish 4 pour l’utilisation des caches web ”

  1. Le code gris sur fond gris c’est pas terrible :-/

    Sinon très intéressant, mais c’est dommage de pas mettre une expiration plus longue sur les éléments statiques et de jouer sur l’adresse (query string ou renommage du fichier) pour forcer son re-téléchargement si un c’est nécessaire, mais c’est vrai que ça demande plus d’organisation au niveau dév pour les CSS et images de design. En revanche tout ce qui sort du var a une URL qui change dès que la ressource change.

    Tient y’a toutes les informations sur les versions logicielles dans l’entête « Server »

  2. Bonjour Damien (je me trompe pas de damien cette fois)

    C’est mieux la présentation du code avec l’encadré ?

    Déjà une journé pour les éléments statique c’est pas mal je pense. C’est à apprécier avec l’effet démultiplicateur des reverses proxys en amont des fermes serveur php. C’est vrais que je ne parle pas ici de l’intérêt de cette couche de reverse proxy, mais elle est bien réelle..

    Ceci dit nous pratiquons la solution temps d’expiration plus long + modification de l’adresse pour le site télé-loisirs.fr. Charge au développeur de renommer la ressource à chaque modification.

  3. c’est beaucoup mieux 🙂 avec un gris plus foncé pour la police ce serait encore mieux (c’est valable pour le formulaire de commentaire en passant) 🙂 bon j’arrête de faire mon chieur.

    Sinon pour l’expiration sans même parler des caches côté FAI, j’imagine que les visiteurs de voici.fr sont des visiteurs réguliers voire très réguliers, du coup le re-téléchargement des ressources statiques d’un jour sur l’autre est souvent superflu. Après c’est sûr que 24h c’est bon compromis entre économies de ressources/facilité de développement et c’est beaucoup mieux qu’une expiration immédiate.

  4. Voici Voila #F1F1F1 pour le bloc à défaut d’une police plus foncée.

    Le visiteur régulier est une chose que nous avons pris en compte. Son cache navigateur est sollicité et joue un rôle dans l’économies des ressources. j’ai expliqué cela dans le mini scénario de conclusion.

    Mais l’effet Google News ou Yahoo Actu est aussi intégré dans la réflexion, principalement en optimisant les headers http de mise en cache pour les serveurs reverse proxy que nous avons en amont de nos fermer php. Une actualité accrocheuse et c’est des milliers d’internaute qui demande la même page ou le m^me article. Le contenu intégrale de cette page est distribué de façon statique durant 15 minutes. Sans cela nous ne pourrions tenir la charge sans avoir des fermes de serveur php digne d’un élevage de bovin argentin et un data center grand comme un département 🙂

    Je reviendrais prochainement sur la configuration de nos reverses proxys et comment nous arrivons à répondre à 92,23 % des requêtes sans solliciter les serveurs PHP.

  5. Nous somme toujours sur apache 1.x pour question de gestion de parc. L’ensemble de nos serveurs php, quelque soit l’application, le CMS, le framework utilise le même serveur http avec exactement la même configuration. Je peux retirer un serveur du pool distribuant voici.fr de la ferme php5 et l’affecté à un autre pool voir une autre ferme en ne modifiant que la versions de php ce qui sur un serveur debian prend moins de 5 minutes. Valider dans notre architecture apache 2.x est un processus long que nous avons débuté. Kathryl à d’ailleurs réalisé la plus grande partie de ce travail de validation vous pouvez aller voir sont document How To serve Php. Nous ne somme pas encore entièrement satisfait, ce projet à des implications croisées avec l’évolution de debian (etch, lenny, squeeze). En outre quelque un de nos développements sont toujours en php4 et version disparait dans lenny et pas question de faire du sur mesure en compilant à droite et à gauche. L’uniformisation des serveurs nous assure leur total interchangeabilité et donc une mutualisation des plate-formes, cela à un prix 🙂

    J’ai lu ton article sur l’utilisation du mod_deflate et du mod_expires avec apache 2.x . Effectivement la solution est techniquement équivalente. Si nous avions une application tournant sur apache 2 la ta doc est le fil rouge à suivre. Ceci dit tu score à C sur Yslow principalement car tu n’a pas de partenaire extérieur apportant des éléments aux pages affichées. Nous entre les images pub, le flash partenaire, le javasript du marketing direct etc.. dont nous ne maîtrisons pas la diffusion nous avons du mal à optimiser l’intégralité.

  6. Ok, merci pour ce retour.

    C’est clair que l’intranet groupe, hormis le cours de bourse fonctionne dans un contexte clos et plus facilement optimisable d’un point de vue infra et code. Intéressant aussi la doc de Kathryl, merci !

    Hormis les sites Vélos qui sont en Debian/Apache 1.3 jsq fin d’année, le reste est sous RHEL 5.X/Apache 2.x – Mon effort de migration est moindre et c’est en quittant le socle historique debian que j’uniformise mon parc et industrialise d’avantage la gestion de serveurs 😉

  7. Faut croire que oui ; en tous cas, on ne s’est pas encore fait attraper / réprimander par qui que ce soit 😉

    Comme il fallait réduire le nombre de distributions linux et que RH était requis par certains applicatifs typa SAP / ou que l’on voulait avoir un support + Debian minoritaire en termes d’instances, le chois fut vite fait…

    En outre notre RSSI n(a pas trop apprécié les dernières blagues Debian (nombre aléaoire non aléatoire) et certaines dépendances foireuses (à ce titre il apprécie pas plus RHEL et préfèrerait du slackware partout 😛 )

  8. bonjour,

    excusez moi pour cette question plus terre a trerre mais etant sous windows je en reconnais pas cette extension : quel est l’extenision visibile sur les copies d’ecran ?

    merci d’avance

  9. @Nicolas Debian n’est pas exempt de reproche mais à mon humble avis elle est la distribution la plus facile à redresser quand justement elle merde.

    @Alex Extension ? C’est Safari 4 avec les outils développeurs. Ils sont inclus dedans c’est pas une extension. Pour les activé j’en parle sur mon post précèdent : Comment activer les outils de développeur web dans safari 4

    @Ronan je vais te faire une réponse de terroriste : je m’en fou ! J’en ai fini de me préoccuper de IE 6. Je pense que google doit être plus coopératif que moi pour avoir une réponse 🙂

  10. @Alex: Pour windows tu peux utiliser google chrome. ctrl+ maj+j puis ressource ou installer firebug et pagespeed sous firefox.

    Très bon article d’ailleurs. Merci à l’auteur.

    Vous avez pu mesurer l’impact entre des instructions dans un .htaccess ou directement dans le vhost d’apache ?

  11. @Nicolas(2) Merci pour le compliment. Concernant la mesure de l’impact en utilisant un .htaccess comment dire….A 12 millions de pages pour voici.fr par mois tu joue pas avec ce type de solution. Tu interdis et bloque l’utilisation du .htaccess directement dans le vhost. Dans le cas contraire ton apache va à chaque hit faire un accès disque pour voir si il y a un .htacces et si il à pas changé. Tu es sur de ralentir monstrueusement ton application.

    Pour la mesure de l’impact de ces solutions je n’ai pas de belle rupture de charge à montrer dans un graphe rrdtool désolé. Je mesure l’impact au fais que mon parc machine n’a pas changé il à même diminué depuis plus d’un an avec maintenant seulement 4 frontaux php (pour Voici.fr, Gala.fr, Geo.fr) et que l’audience de voici.fr à progressé .

  12. Merci pour ce partage d’information. Je vais essayer de modifier le code de dokuwiki en conséquence.

    Pendant que j’y suis, votre serveur web donne bcp d’infos sur lui-même :

     wget -S [http://voici.fr]  --2009-11-13 16:16:04--  [http://voici.fr/]  Résolution de voici.fr... 89.31.146.15  Connexion vers voici.fr|89.31.146.15|:80...connecté.  requête HTTP transmise, en attente de la réponse...    HTTP/1.0 301 Moved Permanently    Date: Fri, 13 Nov 2009 15:16:04 GMT    Server: Apache/1.3.34 (Debian) mod_gzip/1.3.26.1a PHP/5.2.11-0.dotdeb.0 with Suhosin-Patch

    Ça ne gâche rien de changer ServerTokens à Prod et ServerSignature à Off (http://collilieux.net/doc/apache2).

  13. Le jour où il y a une faille critique dans un logiciel, autant essayer de ne pas être identifié comme cible trop rapidement. Ça laisse un peu plus de temps pour mettre à jour.

  14. Ouaie, c’est une bonne idée sur le principe mais jamais personne ne m’a prouver que cela avait effectivement été une protection. bref c’est purement théorique à mes yeux.

Laisser un commentaire