just call me pep

Accueil

samedi 18 novembre 2006

Trafic HTTP : distribution de coups de pied au cul

Publié dans Web(dev|design)

Estampillé humeur  navigateurs  opinion  protocoles  ressources  standards  syndication  web 

Titre alternatif envisagé : Arrête de me sucer la bande avec tes conneries !

Dernièrement, j'ai occupé une partie de mes soirées à éplucher des logs Apache, non par masochisme mais pour une bonne cause. Ce que j'y ai trouvé ne m'a pas surpris outre mesure, seulement déçu. Enfin, énervé serait plus approprié.

J'avais déjà constaté que certains clients Web multipliaient outrageusement les requêtes et/ou se foutaient éperdument des mécanismes de cache HTTP. Mais si ces travers étaient supportables à la petite échelle de fréquentation de mon site, il était consternant de voir à quel point ces négligences pouvaient faire exploser la bande passante d'un site conséquemment fréquenté.

Attention, je ne parle pas du spam de commentaires ou de trackbacks, pain désormais (tristement) quotidien des blogs. Au contraire, je parle bien d'accès légitimes. Et c'est justement pour cela que ça me chauffe.

Voici donc ma liste d'heureux candidats...

Ceux qui s'imaginent déjà Google à la place de Google

C'est décidé : Ils vont sortir le moteur de recherche révolutionnaire. C'est sûr : Aucune page peuplant ce Web sauvage ne passera au travers de leurs filets. C'est clair : Ils seront bientôt les maîtres du monde numérique, les grands aiguilleurs du cyberspace. Ils envoient leurs hordes de crawlers sur tous les sites qui bougent, qui frapperont vite et violemment comme tout bon rapace qui se respecte.

Ils en oublient parfois de consulter le fichier robots.txt du coin, ou pire, l'ignorent avec le plus grand dédain. Et perdent parfois totalement la boule !
Au point qu'on leur claque la porte au nez. Quitte à ne pas avoir son site indexé.

Bah... On s'en fout. De toute manière, il reste toujours Google ... :-)

Exemple : Exalead et leur crawler ExaBot.
Régulièrement, on voit apparaître un article sur la technologie révolutionnaire mise en oeuvre par Exalead, sur sa participation au projet Quaero, etc. Allez savoir pourquoi, ça me laisse sceptique. Peut-être à cause des 4500 requêtes déboulant sur un même site en 7 jours, avec grosso modo 90% d'URLs erronées ...

Ceux qui se lancent dans le beau et fringuant service Web 2.0

Ils font leur popote avec le contenu des blogueurs, ça attire les foules, et c'est tellement hype. Jusque là, pourquoi pas. Mais alors la moindre des choses serait de respecter un peu ces blogueurs qui fournissent le contenu. Oui, respecter. Parce qu'aller piocher régulièrement un même contenu, sans chercher à savoir s'il a été rafraîchi ou non s'apparente à un manque de savoir vivre. Déclencher des requêtes conditionnelles ne demande pas de gros efforts, ni de grandes compétences.

Commence par faire du Web 1.0 correctement, sinon tu s'abstiens ! ...

Exemple : xFruits
Ils proposent un ensemble de services autour de l'agrégation et de la transformation de fils de nouvelles. Aucune de leurs requêtes ne met en oeuvre des mécanismes de cache HTTP. A leur décharge, néanmoins, ils n'inondent pas les sources qu'ils agrègent, en modérant la fréquence de consultation. N'empêche que ...

Ceux qui créent des lecteurs autonomes de fils

Si le but recherché est indiscutablement de présenter des nouvelles fraîches sous une forme sexy aux utilisateurs, il n'en demeure pas moins qu'à la base il y a la récupération des fils par HTTP. Naïvement, si je devais en développer un, je commencerais par soigner cette partie là.

Il faut croire que je fais totalement fausse route : il est préférable d'offrir un maximum de gadgets en tout genre plutôt que de vouloir s'assurer que les quelques milliers d'exemplaires diffusés ne multiplient pas quelques centaines ou milliers de requêtes abusives chacun.

Damn it !

Exemple : RSSOwl
Il s'agit d'un lecteur de fils d'assez bonne facture, multi-plateforme (reposant sur Java). Ca pourrait n'être que du bon, mais voilà... La version 1.2.3 RC1 méprise toujours autant la notion de cache HTTP. Et il semblerait que ce point soit perdu au fin fond de la roadmap. Quand je m'en suis rendu compte, il y a quelques mois, je suis vite allé voir ailleurs ...

et dans une moindre mesure, ceux qui sont morts de faim

Ils ont un beau lecteur de news avec jantes alliages, spoilers et châssis surbaissés. Mais pas forcément avec l'option cache. Ils sont tellement accros de votre blog qu'ils ont configuré la relevée des news toutes les minutes.
Pourtant, ils le savent bien que vous ne publiez qu'une fois par jour ...

Evidemment, ceux-là, on ne peut pas trop leur en vouloir. Au mieux, on peut leur demander de lever un peu pied, voire de changer de véhicule afin d'opter pour un modèle moins polluant.

Exemple : N/A ( Ne me cherchez pas ! Ou je lâche les IPs ! ...)

En conclusion

Au final, sans l'ensemble de ces comportements inadaptés, ce serait jusqu'à environ 25% de votre consommation de bande passante qui serait économisée. Pas la mer à boire ? Moui, peut-être... Nous en reparlerons peut-être le jour où votre site dépassera le gigaoctet journalier de données transférées en conditions normales.

Et puis, n'oubliez pas que, vous aussi, vous êtes en partie responsable de la consommation de bande passante de votre site chéri. Au moment du choix de votre outil de publication, du code que vous écrivez ou de la rédaction de votre contenu, ...

Mais il s'agit là d'une autre histoire. Peut-être y reviendrons-nous plus tard.

3 commentaires | aucun rétrolien

et il y a quelques temps ...

  • Dédicace spéciale pour les utilisateurs d'IE6
  • Migration vers DotClear2 : MacGyver spirit
  • Cette fois, c'est fait, c'est fête !
  • Déménagement : J-2
  • Déménagement : J-7
  • Septembre, en attendant
  • Les pieds dans le tapis
  • Sérénité nocturne
  • Je t'aime. Moi non plus. (bis)
  • Je t'aime. Moi non plus.
gipoco.com is neither affiliated with the authors of this page nor responsible for its contents. This is a safe-cache copy of the original web site.