Comment les modèles d'embedding peuvent-ils lier des concepts ?

Résumé

Les humains déterminent facilement quelle couleur appartient à quelle forme dans des scènes multi-objets, une capacité connue sous le nom de liaison conceptuelle (binding). Les modèles d'encastrement vision-langage tels que CLIP peinent avec ce binding : ils reconnaissent des concepts individuels mais échouent à représenter quels concepts forment quels objets. Bien que CLIP se comporte comme un modèle de type sac-de-concepts dans le cadre de la récupération cross-modale, l'information relative aux objets peut être extraite séparément de ses encastrements d'image et de texte. Nous étudions cette tension à travers la fonction de binding, qui associe les concepts aux encastrements de scène. Nous constatons que les encastrements de scène se décomposent de manière additive en représentations d'objets, ce qui explique pourquoi des sondes uni-modales peuvent récupérer l'information objet. Cependant, la fonction de binding de CLIP est de haute complexité, ce qui empêche probablement les encodeurs d'image et de texte d'apprendre un mécanisme de binding partagé qui se généralise à des combinaisons de concepts non vues. Nous nous demandons ensuite si cette limitation est fondamentale. Nous montrons qu'elle ne l'est pas. Dans des modèles de transformateurs contrôlés entraînés à partir de zéro, la généralisation du binding émerge avec une couverture de données suffisante. Ces modèles apprennent des fonctions de binding de faible complexité caractérisées par des interactions multiplicatives entre concepts, permettant une généralisation systématique. Le code est disponible publiquement à l'adresse https://github.com/oshapio/binding-concepts-complexity.

English

Humans easily determine which color belongs to which shape in multi-object scenes, an ability known as concept binding. Vision-language embedding models such as CLIP struggle with binding: they recognize individual concepts but fail to represent which concepts form which objects. Although CLIP behaves like a bag-of-concepts model in cross-modal retrieval, object information is recoverable from its image and text embeddings separately. We study this tension through the binding function, which maps concepts to scene embeddings. We find that scene embeddings decompose additively into object representations, explaining why uni-modal probes can recover object information. However, CLIP's binding function is high-complexity, which likely prevents the image and text encoders from learning a shared binding mechanism that generalizes to unseen concept combinations. We then ask whether this limitation is fundamental. We show that it is not. In controlled transformer models trained from scratch, binding generalization emerges with sufficient data coverage. These models learn low-complexity binding functions characterized by multiplicative interactions between concepts, enabling systematic generalization. Code is publicly available at https://github.com/oshapio/binding-concepts-complexity.