ChatPaper.aiChatPaper

ExpAlign: Erwartungsgesteuerte Bild-Sprach-Ausrichtung für Open-Vocabulary-Grounding

ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

January 30, 2026
papers.authors: Junyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang
cs.AI

papers.abstract

Open-vocabulary grounding erfordert eine präzise Vision-Sprache-Abgleichung unter schwacher Supervision. Bisherige Methoden verlassen sich jedoch entweder auf globale Satz-Embeddings, denen eine feinkörnige Ausdrucksfähigkeit fehlt, oder führen Token-Level-Abgleichung mit expliziter Supervision oder aufwändigen Cross-Attention-Architekturen ein. Wir schlagen ExpAlign vor, einen theoretisch fundierten Rahmen für den Vision-Sprache-Abgleich, der auf einer prinzipiellen Formulierung des Multiple Instance Learning basiert. ExpAlign führt einen Expectation Alignment Head ein, der eine aufmerksamkeitsbasierte weiche MIL-Pooling-Operation über Token-Region-Ähnlichkeiten durchführt und so eine implizite Token- und Instanzselektion ohne zusätzliche Annotationen ermöglicht. Um das Abgleichlernen weiter zu stabilisieren, entwickeln wir ein energiebasiertes Regularisierungsschema für Multi-Scale-Konsistenz, das ein Top-K Multi-Positive Contrastive Objective und ein Geometry-Aware Consistency Objective umfasst, das aus einer Lagrangian-beschränkten Minimierung der freien Energie abgeleitet wird. Umfangreiche Experimente zeigen, dass ExpAlign die Open-Vocabulary-Objekterkennung und Zero-Shot-Instanzsegmentierung konsistent verbessert, insbesondere bei Kategorien des Long-Tails. Besonders bemerkenswert ist das Erreichen von 36,2 AP_r auf dem LVIS minival Split, womit es andere state-of-the-art Methoden mit vergleichbarem Modellumfang übertrifft, während es gleichzeitig leichtgewichtig und inferenzeffizient bleibt.
English
Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP_r on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.
PDF32February 3, 2026