Moissonnage ou import massif de notices

La saisie de notices pour alimenter le portail toutsurlenvironnement.fr est une charge d’autant plus lourde que le nombre de ressources est important. Il est parfois possible d’éviter la saisie manuelle de notices, toujours pénible, sous réserve que votre site Internet dispose d’outils spécifiques, ou moyennant un développement particulier.

Le moissonnage : la solution la plus efficace

La solution d’alimentation massive du portail la plus efficace relève de la technologie dite du moissonnage, que l’on va principalement trouver dans les cas :


La technique consiste à établir une liaison entre le portail et le site émetteur, via une adresse internet particulière côté émetteur (appelée « point de moissonnage »), et à utiliser un protocole de communication entre les deux sites. Le portail interrogera alors le point de moissonnage du site émetteur selon une périodicité déterminée, et en retour le site émetteur fournira au portail les fiches créées ou modifiées depuis le dernier moissonnage. La mise à jour des références du site émetteur sur le portail se fera ainsi automatiquement.

Si vous disposez de la technologie correspondante, un certain travail sera cependant nécessaire à l’initialisation, afin d’assurer une bonne connexion avec le portail. Il faudra en particulier être capable de différencier dans le flot de notices que vous proposez au moissonnage celles relevant du périmètre du portail, donc portant sur des ressources environnementales, et permettant un accès libre et gratuit aux documents. Ce tri peut être réalisé :

Il faudra aussi repérer dans vos métadonnées celles que l’on pourra mettre en cohérence avec les thèmes du portail, voire avec la nature de document, le niveau de lecture ou le territoire ; en cas de besoin, en particulier pour les thèmes, un fichier de correspondance entre vos mots clefs et ceux du portail devra être réalisé.

Enfin, il faudra tester la compatibilité des protocoles, et la pertinence des tables de correspondance, avant d’ouvrir totalement le service. Le travail se fait ensuite automatiquement, tant qu’on ne modifie pas les conditions d’accès au service de moissonnage ou le contenu des métadonnées offertes.

Si votre site ne dispose pas des technologies permettant de réaliser le moissonnage, vous pouvez dans certains cas avoir recours à une autre technique, qui revient à extraire/exporter massivement le maximum d’informations sur les ressources disponibles sur tout ou partie d’un site.

Import massif de notices

Cette solution passe par l’export d’un fichier avec, par ressource : l’URL, le titre, le résumé et toute information disponible permettant de retrouver la date de création, l’auteur, les thèmes du portail, voire la nature de document, le niveau de lecture ou le territoire.

Cela suppose en général que les ressources que l’on veut ainsi exporter soient gérées sur le site émetteur dans une base de données suffisamment riche pour permettre de retrouver le maximum d’informations attendues par le portail. Cet export peut être envisagé dans les cas suivants :

Il faudra en général développer une petite interface ou une procédure d’extraction, permettant de réaliser le fichier à la demande, si possible en ne prenant que les ressources modifiées ou créées depuis le dernier chargement sur le portail. Comme pour le moissonnage, il faudra aussi réaliser un fichier de correspondance entre vos mots clefs ou vos rubriques et les thèmes du portail, le territoire... Le tout pourra être intégré, moyennant quelques précautions, dans le tableau Excel d’alimentation du portail, afin de générer les fichiers XML correspondants, qui seront importés dans le portail.

Cette génération de fiches devra être réalisée régulièrement, en relançant le processus à la main à chaque fois. C’est ce qui est réalisé pour une partie des informations du Service de l’Observation et des Statistiques du MEEDDM.

On peut, par cette même méthode, générer directement des fiches XML en Dublin Core, suffisamment conformes aux attentes du portail. C’est ainsi que procède le CERTU, à partir d’une base documentaire spécifique.