ChatPaper.aiChatPaper

ExpAlign: オープン語彙グラウンディングのための期待値誘導型視覚言語アラインメント

ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

January 30, 2026
著者: Junyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang
cs.AI

要旨

オープンボキャブラリーグラウンディングは弱い教師信号の下での精密な視覚言語アライメントを必要とするが、既存手法は、細粒度の表現力を欠く文全体の埋め込みに依存するか、明示的な教師信号または重いクロスアテンション設計を伴うトークンレベルのアライメントを導入している。本研究では、理論的に基礎付けられた多重インスタンス学習の定式化に基づく視覚言語アライメントフレームワーク、ExpAlignを提案する。ExpAlignは、トークン-領域類似度に対してアテンションに基づくソフトMILプーリングを行うExpectation Alignment Headを導入し、追加のアノテーションなしで暗黙的なトークン及びインスタンス選択を可能にする。アライメント学習をさらに安定化させるため、エネルギー基底のマルチスケール一貫性正則化スキームを開発した。これには、Top-Kマルチポジティブ対照目的関数と、ラグランジュ未定乗数法による自由エネルギー最小化から導出された幾何学的認識一貫性目的関数が含まれる。大規模な実験により、ExpAlignがオープンボキャブラリー物体検出およびゼロショットインスタンスセグメンテーションを一貫して改善し、特にロングテールカテゴリで効果的であることが示された。特に、LVIS minival分割において36.2 AP_rを達成し、同等のモデル規模を持つ他の最先端手法を凌駕するとともに、軽量で推論効率の高い特性を維持している。
English
Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP_r on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.
PDF32February 3, 2026