1. Indexation « stylée »

Autant que faire se peut, basez votre index sur un style de caractère InDesign. C'est la solution optimale dans tous les cas de figure. Lorsque le texte indexable d'un document reçoit un style explicite, vous gardez le plein contrôle des opérations, avec la certitude qu'aucune expression parasite ne sera indexée. Sélectionnez le style cible dans IndexMatic et envoyez votre requête ou liste de requêtes. Fin de l'histoire !

La meilleure façon d'exclure des homonymes sous IndexMatic ? Se restreindre à un style de caractère dédié.

Note. — Utilisez la regex /.+/ pour capturer d'une traite toutes les expressions stylées, ou /\w+/ pour en extraire les mots individuels.

2. Nettoyage à la main ?

Dans la configuration hélas la plus ordinaire, ni les auteurs ni les préparateurs de maquette n'ont anticipé l'étape d'indexation. Il est donc trop tard pour étiqueter les données, et les styles existants ne sont généralement d'aucun secours. Première question : combien de cas parasites du genre Washington (lieu ≠ individu) votre document contient-il ?

Un jeu de requêtes spécialisées, combiné avec un rapport d'occurrences, permet d'estimer le nombre de termes à vérifier.

Un petit nombre d'homonymes litigieux peut toujours être dépoussiéré manuellement. En combinaison avec la fonction Occurrences d'IndexMatic, des listes de requêtes ciblées permettront de dénombrer rapidement les problèmes potentiels. Si les statistiques révèlent que l'ouvrage comporte très peu d'instances pour les formes homonymes, autant ajuster l'index en sortie, au cas par cas.

3. Affinage des requêtes

Reste qu'un traitement manuel devient vite intolérable, notamment quand le document subit des mutations qui appellent sans cesse la régénération de l'index. Si vous avez identifié un volume sérieux d'homonymes à traiter systématiquement, le meilleur réflexe est de « resserrer votre filet », c'est-à-dire d'affiner la liste de requêtes. Supposons que l'objectif soit d'extraire les noms propres suivants :

Hepburn => $0, Katharine
Davis => $0, Bette
Hepburn => $0, Audrey
Bergman => $0, Ingrid
Garbo => $0, Greta
Monroe => $0, Marilyn
Taylor => $0, Elizabeth
. . .
 

(Concernant l'indexation des patronymes, voir aussi ce tutoriel.)

Mettons que les requêtes ci-dessus fonctionnent presque toutes correctement, mais que les clés Bergman et Taylor tombent sur des concordances parasites dans certains chapitres, ceux évoquant par exemple Ingmar Bergman (≠ Ingrid) ou Taylor Swift (≠ Elizabeth).

L'idée est de réduire expressément la portée de ces deux requêtes. Typiquement, on observera que les occurrences « pertinentes » de Bergman et de Taylor sont toujours, dans le texte, précédées du prénom correspondant. Alors on consentira à l'expliciter pour ces cas particuliers :

. . .
/Ingrid Bergman/s => Bergman, Ingrid
/(E\.|Liz|Elizabeth) Taylor/s => Taylor, Elizabeth
. . .
 

Problème résolu ! Remarquez en passant que la deuxième requête a été affinée plus subtilement : elle reconnaît aussi bien Liz Taylor que Elizabeth Taylor, et même la forme E. Taylor que l'on suppose non ambiguë. (La même astuce ne s'appliquerait pas à Bergman puisque, pour notre malchance, Ingmar et Ingrid ont la même initiale !)

Un autre bénéfice des expressions régulières « aux petits oignons », c'est qu'elles permettent de conserver les variantes patronymiques au sein de l'index. Ainsi :

 
/(\m\w+) Taylor/s => Taylor ($1)
 

pourra produire séparément des entrées d'index telles que Taylor (Elizabeth), Taylor (Christine), Taylor (Don), etc.

4. Faux groupe de style

Si aucune des stratégies exposées plus haut ne convient, il vous reste l'arme semi-automatique du groupe de style postiche ! Le principe est simple mais puissant : nous créons pour le document cible un groupe de styles de caractère dédié à l'indexation, et nous exclurons ponctuellement les termes indésirables de la portée de ce groupe. (Cette méthode n'est donc applicable que si les homonymes doivent être complètement ignorés de l'index.)

Étapes préparatoires dans InDesign :

(A) Créez d'abord un style de caractère neutre, SansIndexable, basé sur [Sans] et n'ajoutant aucun paramètre.

(B) Créez un groupe de style, INDEXABLE, et insérez-y SansIndexable en guise de premier membre.

(C) Si le document possède d'autres styles de caractère — et c'est probablement le cas ! —, déplacez dans le groupe INDEXABLE tous les styles appliquées à du texte susceptible d'être indexé. Le cas échéant, vous pouvez donc exclure certains styles décoratifs ou de titrage dont vous savez dès le départ qu'ils ne portent pas sur du contenu indexable.

(D) Ouvrez le dialogue Rechercher/Remplacer. Fixez Rechercher le format sur Style de caractère : [Sans] et Remplacer le format sur Style de caractère : SansIndexable (INDEXABLE), puis exécutez Tout remplacer. Il s'ensuit que toutes les portions non stylées du document sont maintenant solidaires du groupe INDEXABLE.

Association d'un groupe dédié à toutes les portions indexables du texte.

(E) Dernière étape, identifiez dans le document les homonymes indésirables tels que Washington (individu), Ingmar Bergman, etc. Appliquez à chaque intrus le style [Sans] au lieu de SansIndexable (si aucun formatage n'est appliqué). Dans les cas où un style du groupe INDEXABLE intervient inopinément, dupliquez ce style et déplacez sa copie hors du groupe : vous pourrez dès lors l'affecter aux passages à exclure de l'index sans perte de mise en forme.

À la fin de cette procédure, tout élément indésirable porte un style, éventuellement [Sans], extérieur au groupe INDEXABLE. Même si cette stratégie est un peu fastidieuse à mettre en place, elle peut se révéler plus payante et plus simple que l'affinage des expressions régulières, surtout si les homonymes intrus n'apparaissent qu'assez localement.

Lancez enfin IndexMatic. Sélectionnez le groupe [INDEXABLE]* (rubrique Style) et produisez l'index à partir de votre requête (ou liste de requêtes) d'origine :

Ne pas oublier de choisir le groupe INDEXABLE dans IndexMatic.


Dans maintes situations on peut tirer profit également d'un filtrage selon les styles de paragraphe, calques ou intervalles de pages. Toutes ces options sont disponibles dans IndexMatic. Chaque projet présente ses propres contraintes et paramètres de mise en forme. Il est rare que les outils d'IndexMatic ne puissent vous faciliter la tâche, même si l'intervention humaine reste nécessaire en dernière instance — du moins s'il s'agit de livrer un index raisonné et cohérent.