La représentation des images par des descripteurs géométriques locaux s'est imposée dans nombre d'applications comme la détection d'objets, l'identification de scène, la reconstruction 3D, la création de panorama, etc. Ces descripteurs sont généralement construits autour de points d'intérêt, par exemple sous la forme d'histogrammes locaux d'orientation du gradient de l'image (cas des descripteurs SIFT proposés par D. Lowe), ce qui leur permet d'être invariants ou robustes à de nombreuses transformations et altérations de l'image. Dans cet exposé, on s'intéresse à l'appariement de tels descripteurs. Pour chaque descripteur d'un ensemble de requêtes, on souhaite décider s'il ressemble ou non à certains descripteurs d'une base de données. Dans la littérature, cette étape se résume souvent au choix d'un seuil sur la distance euclidienne au plus proche voisin. La procédure de mise en correspondance que nous proposons utilise d'une part une distance de transport entre descripteurs et d'autre part une approche a contrario qui permet de valider ou pas les mises en correspondance. Cette approche fournit des seuils de validation qui s'adaptent automatiquement à la complexité de chaque descripteur requête et à la diversité de la base de données. Elle permet à la fois de détecter plusieurs occurences d'une même requête et de gérer correctement les cas où aucune de ces requêtes n'est présente dans la base de données. Aux appariements ainsi validés correspondent des transformations dans le plan des images. La détection de groupes spatialement cohérents dans l'espace de ces transformations permet in fine de reconnaître des ``formes globales'' entre les images considérées.