ChatPaper.aiChatPaper

ExpAlign: Alineación Visión-Lenguaje Guiada por Expectativas para la Localización de Vocabulario Abierto

ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

January 30, 2026
Autores: Junyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang
cs.AI

Resumen

La localización de vocabulario abierto requiere una alineación precisa entre visión y lenguaje bajo supervisión débil, pero los métodos existentes dependen de embeddings de oraciones globales que carecen de expresividad detallada o introducen alineación a nivel de token con supervisión explícita o diseños de atención cruzada complejos. Proponemos ExpAlign, un marco de alineación visión-lenguaje teóricamente fundamentado basado en una formulación de aprendizaje múltiple de instancias. ExpAlign introduce una Cabezal de Alineación por Expectativa que realiza un agrupamiento MIL suave basado en atención sobre similitudes token-región, permitiendo una selección implícita de tokens e instancias sin anotaciones adicionales. Para estabilizar aún más el aprendizaje de alineación, desarrollamos un esquema de regularización por consistencia multiescala basado en energía, incluyendo un objetivo contrastivo multi-positivo Top-K y un Objetivo de Consistencia con Conciencia Geométrica derivado de una minimización de energía libre con restricciones lagrangianas. Experimentos exhaustivos muestran que ExpAlign mejora consistentemente la detección de vocabulario abierto y la segmentación de instancias de cero disparos, particularmente en categorías de cola larga. Más notablemente, alcanza 36.2 AP_r en la división minival de LVIS, superando a otros métodos state-of-the-art con escala de modelo comparable, manteniéndose ligero y eficiente en inferencia.
English
Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP_r on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.
PDF32February 3, 2026