Cartographie des tags des jeux de données Etalab / Data.gouv

Datagov_tags

Pas mal de traitement pour corriger quelques glitch ou des tags « similaires » (singulier / pluriel , accent/sans-accent, tags sans réel valeur genre ‘données’, ‘type’, ‘jusque’ etc… ).

Etalab devrait améliorer sa stratégie de données pour rajouter un minimum de qualité sur les tags fournis. Par exemple rassembler les mots similaires sous un même concept, essayer de distinguer les différentes catégories de tags, par exemple :

  • Geo (« Canton », « Savoie », » Ile De France », »Allemagne » )
  • Theme (« Botanique », « Remonté Mécanique »)
  • Variable (« Statistique », »Durée », »Pourcentage », »Mois », « Année », « Nombre de »)
  • etc…