ChatPaper.aiChatPaper

ExpAlign: 개방형 어휘 접지를 위한 기대값 기반 비전-언어 정렬

ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

January 30, 2026
저자: Junyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang
cs.AI

초록

오픈-보커블러리 그라운딩은 약한 감독 하에서 정확한 시각-언어 정렬을 요구하지만, 기존 방법들은 미세한 표현력이 부족한 전역 문장 임베딩에 의존하거나, 명시적 감독이나 복잡한 교차 주의 설계를 통한 토큰 수준 정렬을 도입하고 있습니다. 본 논문에서는 이론적으로 근거가 있는 다중 인스턴스 학습 공식화를 기반으로 한 시각-언어 정렬 프레임워크인 ExpAlign을 제안합니다. ExpAlign은 토큰-영역 유사도에 대해 주의 기반의 소프트 MIL 풀링을 수행하는 Expectation Alignment Head를 도입하여 추가 주석 없이도 암묵적인 토큰 및 인스턴스 선택을 가능하게 합니다. 정렬 학습을 더욱 안정화하기 위해, Top-K 다중-양성 대조적 목적함수와 라그랑주 제약 자유 에너지 최소화에서 유도된 기하학-인식 일관성 목적함수를 포함하는 에너지 기반 다중 스케일 일관성 정규화 기법을 개발했습니다. 광범위한 실험 결과, ExpAlign이 오픈-보커블러리 객체 탐지 및 제로-샷 인스턴스 분할 성능을 지속적으로 향상시키며, 특히 장테일(long-tail) 범주에서 뛰어난 성능을 보임을 확인했습니다. 가장 주목할 만하게, 동등한 모델 규모의 다른 최첨단 방법들을 능가하는 LVIS minival 분할에서 36.2 AP_r을 달성하면서도 경량이고 추론 효율성을 유지했습니다.
English
Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP_r on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.
PDF32February 3, 2026