RSS ou la syndication de contenu
01/05/2003
La masse d’informations disponibles sur les sites web croît sans cesse. L’information. Voila bien le nouveau nerf de la guerre dans la galaxie internet.
Avec sa popularité, Internet est un nouveau média qui compte chaque jour de nouveaux adeptes. Et chose nouvelle, tout un chacun peut produire de l’information. Ce n’est plus un domaine réservé, comme ce peut être le cas des médias télévisuels ou de presse écrite. Ce nouveau phénomène, porté par les weblogs (ou carnet web) pose un nouveau problème. Si l’information est alors plus disponible, et les avis plus variés, la multiplication des sources crée paradoxalement de la sur-information. Il y a donc une place pour des sites Internet “portails” qui aggrège l’information, c’est à dire qui sélectionnent les sources de données pour leur qualité ou leur spécificité et presente cette information d’une façon agréable et lisible.
Par exemple, un site financier peut proposer une liste d’articles décrivant des analyses, un site de sport peut proposer plusieurs canaux de brèves (une par sport), etc… Il est alors possible pour un site portail de “picorer” à droite, à gauche pour former sa propre identité (par exemple, présenter les dernières nouvelles sur des équipes sportives avec des informations financières sur leurs sponsors, des commentaires de sportifs issus de leur weblog…). Le portail se contente d’afficher une liste de brèves avec un design qui lui est propre. Les actualités sportives et financières étant fournies par le site concerné. Ainsi, le site peut présenter une autre façon de voir l’information, plus ciblée.
Pour réaliser cela, deux approches sont possibles :
- lire le fichier HTML contenant l’information, analyser sa structure et extraire les données intéressantes. Cette solution nécessite du code adapté au format du fichier HTML, susceptible de changer à tout moment au gré du fournisseur de contenu (les relookages sur le web sont fréquents).
- utiliser un fichier qui sépare complètement les données de la présentation, éliminant ainsi les défauts décrits ci-dessus. Cette approche est celle de RSS, où, dans un fichier RSS, seul le contenu est présent (avec omission totale d’élements de présentation). Ce format de fichier permet de décrire un ensemble d’informations (sous forme de brèves), offrant pour chacune un lien vers une description plus conséquente. Les nouvelles sont associées à un canal particulier (c’est à dire un type d’information en particulier : sport, finances,…).
Les apports de RSS pour les fournisseurs d’information sont multiples. Le format est défini une fois pour toutes, et il est partagé par tout le monde. De plus, dans un fichier RSS, seuls des titres sont fournis (une collection de liens avec éventuellement par chaque lien une brève description).Le coût de mise en place est donc trés faible : mettre à jour un fichier de contenu !
Deux aspects sont importants pour un fournisseur de contenu :
- communication externe : le fournisseur met à disposition un fichier RSS qu’il actualise selon la fréquence qu’il désire. Il enregistre le lien (URI) vers ce fichier auprés d’aggrégateur(s) de contenu (NewsIsFree, Syndic8, 2rss) et/ou le laisse disponible sur son site. Enfin, il laisse les utilisateurs qui surfent sur différents sites reprenant l’information ainsi publiée (par présentation du fichier RSS) générer du trafic (puisque l’article complet est localisé chez lui)…
- communication interne : des collaborateurs d’une même entreprise localisés à différents endroits peuvent se tenir au courant des activités des différentes équipes. Chaque équipe maintient un fichier RSS décrivant quelles sont les nouvelles sur leur activité.
Le partage d’informations est couramment désigné par le terme de syndication. La pratique qui consiste, pour un site portail par exemple, à regrouper plusieurs canaux à un même endroit est désigné par le terme aggregation.
Histoire de formats…
Le succès grandissant, proposer un format et le déclarer standard est crucial. RSS souffre d’ailleurs de nombreuses guerres à ce sujet, et les formats se succèdent et se multiplient… Actuellement, quatre tendances co-habitent sur le marché, en attendant peut-être une fusion générale ?
- RSS 2.0 : format XML avec des balises dépourvues d’espaces de noms
- RSS 1.0 : format XML agrémentés de RDF, de modules d’extension désignés par des espaces de noms
- RSS 0.9x : format XML précédent le format RSS 2.0, qui reste utilisé de façon significative
- Atom 0.10 : nouvelle proposition utilisant elle aussi les espaces de noms, en passe d’être aprouvé par l’IETF
D’après les statistiques disponibles sur le site syndic8, la répartition des formats serait la suivante :
A noter, que le format Atom est absent des calculs, puisqu’il est récent et en cours de stabilisation.
Pour plus d’informations sur l’historique de RSS, l’apparition des versions, voir les principales dates concernant les différents formats de RSS.
Autres articles :
- RSS 1.1 : reprise des travaux sur la branche RDF de RSS
- 2004, l’année RSS
- RSS et Syndication (partie 1 et partie 2)
- Actualites de RSS en français
- Actualités de RSS en anglais, Lockergnome et therssweblog