ChatPaper.aiChatPaper

ExpAlign : Alignement vision-langage guidé par les attentes pour l'ancrage en vocabulaire ouvert

ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

January 30, 2026
papers.authors: Junyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang
cs.AI

papers.abstract

L'alignement vision-langage à vocabulaire ouvert nécessite un appariement précis sous faible supervision. Pourtant, les méthodes existantes reposent soit sur des embeddings de phrases globaux manquant d'expressivité fine, soit introduisent un alignement au niveau des tokens avec une supervision explicite ou des architectures d'attention croisée lourdes. Nous proposons ExpAlign, un cadre d'alignement vision-langage théoriquement fondé, construit sur une formulation principlée d'apprentissage multi-instances. ExpAlign introduit une tête d'alignement par espérance qui effectue un pooling MIL doux par attention sur les similarités token-région, permettant une sélection implicite des tokens et des instances sans annotations supplémentaires. Pour stabiliser davantage l'apprentissage de l'alignement, nous développons un schéma de régularisation par cohérence multi-échelle basée sur l'énergie, incluant un objectif contrastif multi-positif Top-K et un Objectif de Cohérence Géométrique dérivé d'une minimisation d'énergie libre sous contrainte lagrangienne. Des expériences approfondies montrent qu'ExpAlign améliore constamment la détection à vocabulaire ouvert et la segmentation d'instances zero-shot, particulièrement sur les catégories à longue traîne. Plus notablement, il atteint un AP_r de 36.2 sur le jeu LVIS minival, surpassant d'autres méthodes state-of-the-art à échelle de modèle comparable, tout en restant léger et efficace à l'inférence.
English
Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP_r on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.
PDF32February 3, 2026