¿Cómo pueden los modelos de incrustación vincular conceptos?

Resumen

Los humanos determinan fácilmente qué color pertenece a qué forma en escenas con múltiples objetos, una capacidad conocida como vinculación de conceptos. Los modelos de incrustación visión-lenguaje como CLIP presentan dificultades con esta vinculación: reconocen conceptos individuales pero no logran representar qué conceptos forman cada objeto. Aunque CLIP se comporta como un modelo de bolsa de conceptos en la recuperación multimodal, la información sobre los objetos puede recuperarse por separado a partir de sus incrustaciones de imagen y texto. Estudiamos esta tensión a través de la función de vinculación, que asigna conceptos a incrustaciones de escena. Descubrimos que las incrustaciones de escena se descomponen aditivamente en representaciones de objetos, lo que explica por qué las sondas unimodales pueden recuperar información sobre los objetos. Sin embargo, la función de vinculación de CLIP es de alta complejidad, lo que probablemente impide que los codificadores de imagen y texto aprendan un mecanismo de vinculación compartido que generalice a combinaciones de conceptos no vistas. Luego nos preguntamos si esta limitación es fundamental. Demostramos que no lo es. En modelos transformadores controlados entrenados desde cero, la generalización de la vinculación surge cuando hay una cobertura de datos suficiente. Estos modelos aprenden funciones de vinculación de baja complejidad caracterizadas por interacciones multiplicativas entre conceptos, lo que permite una generalización sistemática. El código está disponible públicamente en https://github.com/oshapio/binding-concepts-complexity.

English

Humans easily determine which color belongs to which shape in multi-object scenes, an ability known as concept binding. Vision-language embedding models such as CLIP struggle with binding: they recognize individual concepts but fail to represent which concepts form which objects. Although CLIP behaves like a bag-of-concepts model in cross-modal retrieval, object information is recoverable from its image and text embeddings separately. We study this tension through the binding function, which maps concepts to scene embeddings. We find that scene embeddings decompose additively into object representations, explaining why uni-modal probes can recover object information. However, CLIP's binding function is high-complexity, which likely prevents the image and text encoders from learning a shared binding mechanism that generalizes to unseen concept combinations. We then ask whether this limitation is fundamental. We show that it is not. In controlled transformer models trained from scratch, binding generalization emerges with sufficient data coverage. These models learn low-complexity binding functions characterized by multiplicative interactions between concepts, enabling systematic generalization. Code is publicly available at https://github.com/oshapio/binding-concepts-complexity.