ExpAlign: Alinhamento Visão-Linguagem Guiado por Expectativa para Grounding de Vocabulário Aberto
ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding
January 30, 2026
Autores: Junyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang
cs.AI
Resumo
A localização de vocabulário aberto requer um alinhamento preciso entre visão e linguagem sob supervisão fraca, mas os métodos existentes dependem de embeddings de sentença globais que carecem de expressividade granular ou introduzem alinhamento em nível de token com supervisão explícita ou designs pesados de atenção cruzada. Propomos o ExpAlign, uma estrutura de alinhamento visão-linguagem fundamentada teoricamente, construída sobre uma formulação principiada de aprendizagem por múltiplas instâncias. O ExpAlign introduz um Cabeçalho de Alinhamento por Expectativa que realiza um agrupamento MIL suave baseado em atenção sobre similaridades token-região, permitindo seleção implícita de tokens e instâncias sem anotações adicionais. Para estabilizar ainda mais o aprendizado de alinhamento, desenvolvemos um esquema de regularização de consistência multiescala baseado em energia, incluindo um objetivo contrastivo multi-positivo Top-K e um Objetivo de Consistência com Consciência Geométrica derivado de uma minimização de energia livre com restrição Lagrangiana. Experimentos extensos mostram que o ExpAlign melhora consistentemente a detecção de vocabulário aberto e a segmentação de instância com zero-shot, particularmente em categorias de cauda longa. Mais notavelmente, ele alcança 36.2 AP_r na divisão minival do LVIS, superando outros métodos state-of-the-art em escala de modelo comparável, mantendo-se leve e eficiente em inferência.
English
Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP_r on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.