Nous travaillons sur Québec Ouvert
Les données ouvertes, qu'est-ce que c'est?
Abonnez-vous au Google Groupe pour suivre les projets!

Si il y a une préoccupation importante pour les organisations qui décident d’ouvrir leur données, c’est bien la question du “combien ça coûte ?”. Dès que l’on parle de technologies de l’information, on pense bien souvent aux fréquents débordements de budget, d’autant plus probables lorsque le sujet nouveau, et où il y a encore peu de modèles existants et pas de solution toute faite.

Même si l’ouverture des données publiques est un phénomène relativement récent, elle n’implique pas pour autant des changements radicaux dans le système d’information de l’organisation qui décide de publier ses données. En fait, si l’on y regarde de plus près, on s’aperçoit qu’il est possible d’entrer dans un processus d’ouverture des données avec relativement peu de moyens:

  • Les données existent déjà, pour la plupart, dans une ou plusieurs formes au sein de l’organisation. Elles sont peut-être stockées dans des bases de données, ou bien dans des chiffriers, ou encore parfois dans des documents texte. L’important étant qu’elles sont stockées dans un format numérique; nous considérons donc ici seulement le cas des données sont déjà numérisées.
  • Ces données sont ensuite injectées au sein d’un ou plusieurs processus de transformation et de publication. A l’image d’une chaîne de montage dans une usine, les données brutes sont traitées, filtrées, agrégées, formatées pour aboutir à un résultat, qui bien souvent est un document téléchargeable (par exemple, un fichier PDF) mis en ligne en interne ou sur le site Web de l’organisation.
  • Il est donc possible, sans modifier la chaîne de traitement des données, d’insérer une sonde qui viendrait saisir les données brutes, et les placer dans un dépôt accessible au public. Ainsi, plutôt que de changer un processus existant, il s’agit simplement d’ajouter un élément en parallèle, qui ne fait que copier et publier les données injectées dans la chaîne de traitement.

Bien sûr, cette sonde qui prend les données et les place dans un dépôt accessible à tous pourrait être plus élaborée, et s’assurer notamment d’anonymiser les éléments qui doivent l’être, ou de s’assurer de la qualité des données, mais ceci n’est pas forcément nécessaire pour tous les ensembles de données.

Ainsi, le premier pas dans le processus d’ouverture des données peut-être aussi simple que d’identifier des données numérisées, ne présentant aucun problème de qualité ou de sécurité particulier, et de simplement les copier et les publier à un endroit accessible à tous. Nul besoin ici d’interface complexe, ou de base de données en ligne, les données brutes son en général exportables dans des fichiers texte, dans des formats tels que le CSV ou un export SQL. Ces fichiers peuvent dont être aisément publiés sur Internet, et les développeurs, journalistes et citoyens intéressés pourront commencer à travailler rapidement avec la matière première que constitue les données publiées.

En effet, il faut considérer le processus d’ouverture des données comme un processus itératif. L’ouverture des données est le début d’un dialogue entre les citoyens et l’organisation qui ouvre ses données: quelles données sont utiles? Est-ce que la qualité des données est suffisante? Est-ce que la quantité ou la fraîcheur de ces données est bonne?

Il est clair qu’il doit y avoir de part et d’autre une tolérance à un processus d’essai-erreur et d’ajustement, comme c’est de toute façon le cas dans tout processus nouveau.

Évidemment, plus les données seront utilisées, plus de nouveaux besoin feront leur apparition. En suivant les principes des données ouvertes, celles-ci devraient être normalisées/standardisées, ce qui représente un effort important, mais qui peut être aisément partagé entre municipalités, provinces et pays. Cela dit, en pratique, mieux vaut des données non-standardisées mais accessibles, que des données qui ne sont pas encore accessibles simplement parce que le standard n’a pas été défini.

Un autre aspect à prendre en compte, est celui de la licence. En effet, il est important que les données soient diffusées « libres de droits » de manière à ce qu’il n’y ait pas de limitation artificielle à leur réutilisation. On pense notamment à la création d’applications et la création de nouveaux ensembles de données recoupant les données publiées. Mettre en place une license ne coûte rien en soi, si ce n’est le temps nécessaire au choix d’une license existante.

Ainsi, il est possible de mettre un pied à l’étrier du processus d’ouverture de données sans engager des moyens importants et sans changer radicalement la manière de fonctionner de l’organisation.