Faites connaître ce billet :

Intéressé par l’Open Data et plus généralement par les possibilités de traitements statistiques de larges ensembles de données, je me suis intéressé récemment aux adresses postales et à ce qu’elles pouvaient permettre de savoir d’un territoire.

Parmi mes récentes expériences, ce billet vous parle de la base nationale des adresses et plus spécifiquement d’un extrait concernant le département du Doubs.

Vous pourrez y trouver la réponse aux questions suivantes :

  • Comment se présente la Base Adresse Nationale (BAN) ?
  • Pourquoi s’y intéresser et quelles informations y figurent ?
  • Comment rendre un tel fichier exploitable ?
  • Combien y a-t-il de rues et d’adresses dans le Doubs ?
  • Où y en a-t-il le plus ou le moins ?
  • Quels sont les noms les plus utilisés ou les plus originaux ?
  • Zoom sur Besançon
  • Quelles perspectives ?

La Base Adresse Nationale (BAN)

La Base Adresse Nationale est une base de données qui a pour but de référencer l’intégralité des adresses du territoire français, c’est l’ambition affichée sur le site internet qui en est le support de présentation : https://adresse.data.gouv.fr/faq

Elle est constituée par la collaboration entre:

  • des acteurs nationaux tels que l’IGN et La Poste,
  • des acteurs locaux tels que les collectivités, les communes, les SDIS,
  • des citoyens par exemple à travers le projet OpenStreetMap et l’association OpenStreetMap France.

Le projet est co-gouverné par l’Administrateur Général des Données et le Conseil National de l’Information Géographique et le site adresse.data.gouv.fr est développé par la mission Etalab du Secrétariat Général à la Modernisation de l’Action Publique (SGMAP).

On peut l’utiliser de différentes manières…

Quel intérêt et quelles informations ?

La Base Nationale Adresse est déjà un recensement qui se veut le plus exhaustif possible de toutes les adresses de France… opération qui n’est déjà pas une mince affaire. En effet, si des bases de données étaient déjà existantes (notamment chez La Poste ou encore au sein des services fiscaux qui doivent assurer le recensement des propriétés bâties pour des raisons évidentes…) toutes n’étaient pas exhaustives car n’avaient pas les mêmes objectifs.

Les adresses ainsi renseignées le sont de manière cohérente et harmonisée, et c’est précieux car il est très délicat d’exploiter des données qui sont peu qualifiées et très disparates. Par exemple, si la liste d’adresses contenait 1 avenue clémenceau, 3 avenue georges clémenceau, 5 av. clémenceau… tout cela deviendrait vite inexploitable car il deviendrait impossible de procéder à des dénombrements, à des classements, ou à une utilisation « industrielle » à grande échelle.

Mais l’intérêt majeur de cette base, outre son caractère exhaustif, c’est de procéder à une association systématique entre une adresse et des coordonnées géographiques. Ainsi on sait précisément où se trouve l’entrée liée à chaque adresse ce qui présente un intérêt non négligeable pour les services publics (de secours par exemple) comme pour des opérateurs privés.

Enfin l’intérêt qui n’est pas spécifique à cette base en particulier mais qui est pour moi lié à tout jeu de données volumineux, c’est de me permettre de concevoir, tester et même éprouver des systèmes capables de gérer une telle masse d’informations puis de rechercher les manières les plus optimales de les utiliser, qu’il s’agisse de la méthode d’interrogation pour avoir un résultat le plus rapidement possible, ou des méthodes de présentation des résultats obtenus.

Pour le fichier qui nous intéresse dans le cadre de ce billet, la liste des adresses du Doubs, on y trouve un total de 202.778 lignes dans un fichier de plus de 33 Mo contenant 16 colonnes de données.

Voici le descriptif des données renseignées :

Descriptif des données de la base nationale adresse sous licence ODBL

Descriptif des données de la base nationale adresse sous licence ODBL

Comment rendre un tel fichier exploitable ?

Comme je l’ai déjà dit il y a plusieurs manière d’utiliser les informations de la BAN. Toutefois l’utilisation de l’API ou de la carte interactive n’étaient pas adaptées à mon objectif qui était de réaliser des requêtes, notamment de comptage, sur toutes les adresses du département du Doubs.

Il a donc fallu passer du fichier CSV de 33 Mo et 202.778 lignes à une organisation de type « base de données » permettant les requêtes de manière beaucoup plus simples car rendant ces informations « interrogeables » au sein d’un dispositif efficace capable de répondre dans des délais relativement brefs.

Les imports de type direct (téléchargement direct du fichier au sein d’un moteur de base de données puis import à partir de ce fichier) ne fonctionnent plus quand le fichier de données est trop important. En effet, le téléchargement d’un gros fichier est long et sa manipulation par le serveur est souvent défaillante car le plus souvent confrontée à des délais maximum de requête (généralement entre 15 et 20 secondes…) ce qui est insuffisant pour permettre le succès d’un import aussi important.

De manière indirecte, il faut donc télécharger le fichier CSV directement sur le serveur web, puis écrire un script (par exemple en PHP) afin de procéder par « paquet », en faisant en sorte que le traitement de chaque paquet puisse être effectué durant le temps maximum que peut durer une requête, et en faisant en sorte de pouvoir « redémarrer » l’import à partir de n’importe quelle ligne du fichier, afin de finir par le traiter en intégralité.

Les résultats obtenus furent intéressants car il a été noté une moyenne de 476 lignes écrites chaque seconde dans un flux où serveur PHP lisait une ligne du fichier CSV, la « convertissait » en données prêtes à être importées dans la base de données, et l’envoyait dans la base de données SQL. Les 202.777 enregistrements ont ainsi été créés en à peine plus de 7 minutes.

Structure de la base de données SQL accueillant la BAN pour le Doubs

Structure de la base de données SQL accueillant la BAN pour le Doubs

Combien y a-t-il de rues et d’adresses dans le Doubs ?

Il y a 10.441 noms de voie différents pour 202.777 adresses réparties dans 578 communes pour le département du Doubs.

Nombre de rues dans les communes du Doubs (la totalité des communes n'est pas affichée)

Nombre de rues / commune du Doubs

Le traitement des résultats m’a également permis de tester l’utilisation des graphiques JavaScript proposés par Google, ici présentée sous la forme d’une image sans interactivité.

Où y en a-t-il le plus ou le moins ?

La commune comportant le moins de rue dans tout le département est Montivernage qui n’en compte que 3 : une incontournable « grande rue », un « chemin des bichets », et un « chemin du champ du noyer ». On s’en doutait, la commune qui compte le plus grand nombre de rues est Besançon avec pas moins de 844 rues dénombrées. Il y a en tout 10.441 noms de rue différents dans le Doubs, dans lesquelles se répartissent 202.777 adresses. Trois communes sont ex-aequo pour ce qui concerne le plus petit nombre d’adresses recensées, car on n’en trouve que 12 à Urtière, Châtillon-sur-Lison et Châteauvieux-les-Fossés. Le record est logiquement détenu par Besançon (avec 20.562 adresses) et il faut descendre à 5.474 adresses pour trouver le niveau de Montbéliard. Viennent ensuite les très proches Pontarlier (4.471 adresses) et Audincourt (4.211).

Quels sont les noms les plus utilisés ou les plus originaux ?

Le graphique ci-dessous montre les 40 noms de rue les plus populaires. Ainsi, le top 3 est occupé par la « Grande rue » (264 communes sur 578 en comptent une), vient ensuite la « rue de l’église » (178 sur 578), et enfin la « rue de la fontaine » (93 sur 578). Ces chiffres ont été calculés à partir des 202.777 adresses connues dans le département du Doubs au jour de l’extraction. D’autres rues sont très populaires comme celles faisant référence à un stade (85), des tilleuls, vergers ou des moulins (65), mais aussi des châteaux (64). Mairies (60), écoles (58) et gares (51) sont ensuite des repères les plus inspirants, après bien sur les 60 « rue principale ». Notons qu’ici la comparaison est faite mot à mot, « avenue du parc » et « rue du parc » étant considérés comme deux noms différents.

Les noms de rue les plus populaires dans le département du Doubs

Les noms de rue les plus populaires

Mais la base de données adresses du Doubs dans sa version extraite au 1er/11/2017 révèle aussi des noms très originaux puisqu’on ne peut les trouver qu’en un seul exemplaire…

Ainsi, on ne trouve qu’une « impasse du monument » (Abbans-Dessus), « rue de la berge » (Bavans), « derrière l’Église » (Charquemont), « chemin de la gauloise » (Éternoz), « côte aux chiens » (Meslières), chemin du cheminot (Montbéliard), « chemin du tourbillon » (Ornans), « promenade de la cototte » (Roche-lez-Beaupré), « carrefour de l’europe » (Sochaux), « place des ecoliers » (Grandfontaine), « rue des trois tilleuls » (Mancenans), « chemin de la capiche » (Sarrageois), « ruelle des moutons » (Besançon), « champ du pommier » (Magny-Châtelard) ou encore une seule « impasse du tacot » (Tressandans). Ce ne sont là que quelques exemples.

Zoom sur Besançon

Si l’on s’intéresse uniquement à la ville de Besançon, on peut noter qu’elle dispose de 9 allées, de 33 avenues, d’un bois, de 8 boulevards, d’une bretelle, de 131 chemins, de 2 cités, d’un clos, d’une esplanade, de deux faubourgs, d’une grande rue, de 13 impasses, d’un trait d’union, d’une montée, de 4 passages, de 31 places, d’un pont, d’un port, d’une promenade, de 4 quais, d’une rampe, de 6 routes, de 574 rues, de 2 ruelles, de 2 sentiers, de 4 squares, et de 5 voies.

Ces chiffres ne décomptent évidemment que les axes qui comportent au moins une adresse car certaines places et autres allées n’ont aucun habitant.

Perspectives

Il y a de très nombreuses occasions où l’on est obligé de saisir une adresse. Si certains opérateurs sont obligés depuis longtemps de faire préciser la saisie de sorte à n’aboutir qu’à une seule possibilité d’écriture d’une adresse donnée (on peut par exemple penser aux moteurs des opérateurs internet qui permettent de savoir à quels services on peut être raccordé) tel n’est pas le cas dans de très nombreuses situations.

Ainsi, au moment de la saisie, les adresses sont entrées sous une grande variété de forme, parfois même avec des erreurs ou des coquilles, quand il ne s’agit pas de risques importants de confusion quand des noms proches existent (voire quand des adresses sont identiques mais avec un type de voie différent).

Je pense donc que la connexion à l’API de géocodage de la Base Adresse Nationale devrait être un réflexe pour toute application web demandant la saisie d’une adresse postale… car cela permettrait :

  • De faciliter la saisie (qui n’est jamais une opération agréable)
  • De limiter voire supprimer les erreurs
  • D’assurer la cohérence et l’exactitude des informations
  • De permettre à l’issue de disposer de données sur lesquelles on peut faire des requêtes, capacité très réduite lorsque les données sont de mauvaise qualité

En effet, il semble clair qu’un très gros travail est à mener en cette matière, de par les différents fichiers que j’ai déjà pu consulter, je pense notamment à la liste électorale au sein de laquelle les noms de rue sont parfois écrits de 4, 5, 6 voire plus manières différentes… et je ne parle pas d’une même adresse qui se trouve écrite de très diverses façons quand elle comprend un complément… Une fois on trouve B, une fois on trouve Bis, une autre fois on trouve BIS… parfois aux côtés du numéro de voie, parfois dans une colonne de complément… etc.

C’est paradoxal pour des fichiers censés être constitués à partir de documents officiels (par exemple des titres d’identité) ce qui laisse entrevoir le constat que même au sein de documents officiels, les adresses ne sont pas (en tout cas pour l’instant) inscrites de manière harmonisée et « propre ».

Il est très intéressant de se pencher sur les statistiques d’utilisation de l’API de géocodage, car celles-ci semblent montrer que de très grands acteurs privés ont saisi tout l’intérêt de vérifier systématiquement les adresses qu’on leur soumet, par exemple lors de commandes internet… On y trouve en effet « CDiscount » mais aussi l’assureur « MAE » et le site « CarrefourLocation« .

Referers les plus fréquents entre 01-2017 et 11-2017 pour l'API BAN

Referers les plus fréquents entre 01-2017 et 11-2017 pour l’API BAN

Les statistiques globales, elles, sont édifiantes car l’utilisation d’un tel outil est passé de 47 millions de géocodages (pour 2015, dénombrés au 1er janvier 2016) à 443 millions de requêtes (pour 2016, dénombrées au 1er janvier 2017) !

A l’heure où j’écris ce billet, on atteint pour la période se limitant seulement du 1er janvier 2017 au 1er novembre 2017 les 912.547.897 requêtes… ce qui laisse penser que l’on s’approchera voire dépassera le milliard de requêtes pour 2017 ! Le tout avec un nombre de requêtes invalides très bas puisqu’on n’en compte que 9.389 soit 0,001%.

Bref, vous ne vous en rendrez peut-être pas compte, mais il y a fort à parier que dans les prochaines années, vous soyez de plus en plus « aidés » voire « encadrés » dans la saisie des adresses postales françaises sur internet ;-)