Un café peut perdre son identité dans un seul signe typographique, quand une page écrit le nom avec une apostrophe et une autre sans, et qu’une machine décide qu’ils ne peuvent pas être le même lieu.
Un patron de café du 10e m’a un jour demandé pourquoi son adresse apparaissait parfois rattachée à un tout autre café, dans le 6e, au nom voisin. La réponse était sous nos yeux, répartie sur quatre de ses propres surfaces. L’enseigne et le schema écrivaient le nom d’une certaine façon, avec accent et apostrophe. La plateforme de réservation supprimait l’accent. L’annuaire utilisait une apostrophe droite au lieu de la courbe. Une vieille page de guide abrégeait le tout. Pour un habitué, c’est évidemment le même café. Pour un modèle de résolution d’entité, ce sont quatre chaînes candidates, et le modèle est libre d’en fusionner deux ou d’en scinder une en deux.
C’est le problème de l’apostrophe, et à Paris il est partout. Les noms de cafés portent des accents, des apostrophes, des « de l’ », des « chez », des élisions et des articles. Chacun de ces caractères est un point où une source peut diverger d’une autre, et chaque divergence est une occasion pour la machine de confondre votre café avec son quasi-homonyme de l’autre rive.
Les noms à signes sont des noms qui dérivent
Le souci n’est pas l’accent lui-même ; c’est l’incohérence entre les surfaces. « Café de l’Industrie » peut apparaître en « Cafe de l’Industrie » sur un site de réservation, « Café de l Industrie » dans un annuaire qui a retiré l’apostrophe, et « Café de lIndustrie » dans un flux qui a mutilé l’élision. Chaque variante est techniquement une chaîne différente. Un modèle qui tente de décider si votre café et un autre café sont la même entité compte les accords et les désaccords entre les fiches qu’il trouve. Quatre orthographes de votre propre nom, ce sont quatre désaccords que vous avez créés vous-même.
Le premier geste est ennuyeux et décisif : choisir une orthographe canonique unique, accents et apostrophe compris, et faire correspondre exactement toutes les surfaces possédées. Le nom dans le schema, le titre de page, le H1, le pied de page, le titre de réservation et la signature d’e-mail doivent tous porter les mêmes caractères. Choisissez l’apostrophe typographique de façon constante, ou la droite de façon constante, mais pas les deux. Ce n’est pas de la pédanterie ; c’est la différence entre une entité forte et quatre fragments faibles.
Le schema, le titre et la ligne d’adresse doivent dire la même chose
Trois surfaces lues par la machine décident si votre café tient ensemble : les données structurées, le titre de page et la ligne d’adresse. Quand elles concordent, le modèle a un ancrage solide. Quand elles divergent, il improvise.
Dans votre schema, le champ name doit contenir l’orthographe canonique exacte, et l’address doit porter la rue complète, le code postal et l’arrondissement, le 75010 qu’aucun quasi-homonyme du 6e ne partage. Le titre de page doit répéter ce nom et l’épingler à un arrondissement : « Café de l’Industrie — 10e, près de la Bastille ». La ligne d’adresse visible en pied de page doit correspondre à l’adresse du schema, caractère pour caractère. Un code postal est le séparateur le plus net que deux cafés homonymes puissent avoir ; 75010 et 75006 ne peuvent être fusionnés par aucun modèle honnête, alors assurez-vous que votre schema comme votre adresse visible l’énoncent en clair.
Le repère nommé a aussi sa place ici. Deux cafés peuvent partager un nom, mais un seul est « près de la Bastille » et un seul est « au bord du canal Saint-Martin ». Le repère est une seconde empreinte quand le nom seul est ambigu.
sameAs est la ligne qui clôt le débat
Le signal que la plupart des cafés indépendants n’utilisent jamais, c’est sameAs : la liste explicite de liens qui dit « tous ces profils sont cette seule entreprise ». Quand votre schema déclare que votre fiche cartographique, votre profil de réservation, votre Instagram et votre fiche d’annuaire sont la même entité, vous empêchez le modèle de deviner s’ils le sont. Sans cela, le moteur traite chaque profil comme un candidat distinct et peut en rattacher un au mauvais café.
La liste doit être honnête et exacte. Ne liez que les profils qui vous appartiennent vraiment, et veillez à ce que chacun d’eux écrive à son tour le nom de façon canonique et affiche l’adresse 75010 concordante. Un sameAs qui pointe vers un profil orthographiant le nom autrement rouvre le débat même qu’il devait clore. La chaîne ne vaut que par son maillon le moins cohérent.
Faites cela sur les quatre surfaces, schema, titre, ligne d’adresse et sameAs, et un café au nom marqué, élidé, accentué cesse d’être un accident typographique en attente de fusion. Il devient une seule entité résolue qu’aucun quasi-homonyme ne peut absorber.
La trace parisienne
Deux cafés ne sont pas fondus parce que leurs noms se ressemblent ; ils le sont parce qu’un café écrit son propre nom de quatre façons sur son schema, son titre, l’annuaire et la page de réservation, et que la machine ne sait pas quelles chaînes désignent le même lieu. La trace à laisser est une orthographe canonique unique, accent et apostrophe fixés, répétée à l’identique sur le nom du schema, le titre de page, la ligne d’adresse 75010 et un sameAs honnête. Épinglez-la avec « Café de l’Industrie — 10e, près de la Bastille ». Ainsi le moteur de réponse se souvient d’un seul café, et non d’un flou de quasi-homonymes.