ExpAlign: Allineamento Visione-Linguaggio Guidato dalle Aspettative per il Grounding a Vocabolario Aperto

Abstract

Il grounding open-vocabulary richiede un allineamento accurato tra visione e linguaggio con supervisione debole. Tuttavia, i metodi esistenti si basano su embedding di frase globali che mancano di espressività fine, oppure introducono un allineamento a livello di token con supervisione esplicita o progetti di cross-attention complessi. Proponiamo ExpAlign, un framework di allineamento visione-linguaggio teoricamente fondato, basato su una formulazione principled del multiple instance learning. ExpAlign introduce una Testa di Allineamento per Aspettativa (Expectation Alignment Head) che esegue un pooling MIL soft basato su attention sulle similarità token-regione, abilitando una selezione implicita di token e istanze senza annotazioni aggiuntive. Per stabilizzare ulteriormente l'apprendimento dell'allineamento, sviluppiamo uno schema di regolarizzazione della consistenza multi-scala basato sull'energia, includendo un obiettivo contrastivo multi-positivo Top-K e un Obiettivo di Consistenza Consapevole della Geometria, derivato da una minimizzazione dell'energia libera con vincolo lagrangiano. Esperimenti estensivi mostrano che ExpAlign migliora consistentemente il rilevamento open-vocabulary e la segmentazione di istanze zero-shot, particolarmente per categorie a coda lunga. Notevolmente, raggiunge 36.2 AP_r sulla suddivisione LVIS minival, superando altri metodi state-of-the-art con modelli di scala comparabile, rimanendo al contempo leggero ed efficiente nell'inferenza.

English

Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP_r on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.

ExpAlign: Allineamento Visione-Linguaggio Guidato dalle Aspettative per il Grounding a Vocabolario Aperto

ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

Abstract

Support