ChatPaper.aiChatPaper

ExpAlign: Выравнивание зрения и языка с управлением ожиданиями для открытого словарного заземления

ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

January 30, 2026
Авторы: Junyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang
cs.AI

Аннотация

Открытое словарное заземление требует точного согласования визуальной и языковой информации при слабом контроле, однако существующие методы либо полагаются на глобальные эмбеддинги предложений, которым не хватает детальной выразительности, либо вводят пословное выравнивание с явным контролем или использованием сложных кросс-аттенционных механизмов. Мы предлагаем ExpAlign, теоретически обоснованную структуру для согласования визуальной и языковой информации, построенную на принципиальной формулировке обучения с множественными экземплярами. ExpAlign вводит Голову Выравнивания по Математическому Ожиданию, которая выполняет основанный на внимании мягкий MIL-пулинг над сходствами «токен-регион», обеспечивая неявный выбор токенов и экземпляров без дополнительных разметок. Для дальнейшей стабилизации обучения выравниванию мы разработали схему регуляризации на основе энергии для обеспечения согласованности на нескольких масштабах, включающую контрастную цель с несколькими позитивными примерами Top-K и Цель Геометрически-Осознанной Согласованности, выведенную из минимизации свободной энергии с лагранжевыми ограничениями. Многочисленные эксперименты показывают, что ExpAlign стабильно улучшает открытое словарное обнаружение и сегментацию экземпляров с нулевым обучением, особенно для категорий с длинным хвостом. Наиболее показательно, что метод достигает 36.2 AP_r на срезе LVIS minival, превосходя другие современные методы сопоставимого масштама, оставаясь при этом легковесным и эффективным на этапе вывода.
English
Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP_r on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.
PDF32February 3, 2026