ChatPaper.aiChatPaper

埋め込みモデルはどのようにして概念を結びつけることができるのか?

How can embedding models bind concepts?

May 29, 2026
著者: Arnas Uselis, Darina Koishigarina, Seong Joon Oh
cs.AI

要旨

人間は複数物体が存在するシーンにおいて、どの色がどの形状に属するかを容易に判別できる。この能力は概念結合として知られている。CLIPなどの視覚言語埋め込みモデルは結合に困難を示す。すなわち、個々の概念を認識できるものの、どの概念がどの物体を構成するかを表現できない。CLIPはクロスモーダル検索において概念の袋モデルのように振る舞うものの、物体情報は画像埋め込みとテキスト埋め込みからそれぞれ復元可能である。我々はこの緊張関係を、概念をシーン埋め込みに写像する結合関数を通じて研究する。シーン埋め込みは物体表現に加法的に分解されることが判明し、これにより単一モーダルのプローブが物体情報を復元できる理由が説明される。しかし、CLIPの結合関数は高複雑性であり、このことが画像エンコーダとテキストエンコーダが未見の概念組み合わせに汎化する共有結合機構を学習することを妨げている可能性が高い。そこで我々は、この限界が本質的なものかどうかを問う。本質的ではないことを示す。制御されたトランスフォーマーモデルをスクラッチから学習させると、十分なデータカバレッジがあれば結合の汎化が生じる。これらのモデルは、概念間の乗法的相互作用によって特徴づけられる低複雑性の結合関数を学習し、系統的汎化を可能にする。コードは https://github.com/oshapio/binding-concepts-complexity で公開されている。
English
Humans easily determine which color belongs to which shape in multi-object scenes, an ability known as concept binding. Vision-language embedding models such as CLIP struggle with binding: they recognize individual concepts but fail to represent which concepts form which objects. Although CLIP behaves like a bag-of-concepts model in cross-modal retrieval, object information is recoverable from its image and text embeddings separately. We study this tension through the binding function, which maps concepts to scene embeddings. We find that scene embeddings decompose additively into object representations, explaining why uni-modal probes can recover object information. However, CLIP's binding function is high-complexity, which likely prevents the image and text encoders from learning a shared binding mechanism that generalizes to unseen concept combinations. We then ask whether this limitation is fundamental. We show that it is not. In controlled transformer models trained from scratch, binding generalization emerges with sufficient data coverage. These models learn low-complexity binding functions characterized by multiplicative interactions between concepts, enabling systematic generalization. Code is publicly available at https://github.com/oshapio/binding-concepts-complexity.