시각적 명령 병목 조정
Visual Instruction Bottleneck Tuning
May 20, 2025
저자: Changdae Oh, Jiatong Li, Shawn Im, Yixuan Li
cs.AI
초록
널리 채택되고 있음에도 불구하고, 다중 모드 대형 언어 모델(MLLMs)은 분포 변화 상황에서 익숙하지 않은 질의를 접할 때 성능 저하를 겪습니다. MLLM의 일반화를 개선하기 위한 기존 방법들은 일반적으로 더 많은 지시 데이터나 더 크고 발전된 모델 아키텍처를 요구하며, 이 둘 모두 상당한 인적 노동력이나 계산 비용을 초래합니다. 본 연구에서는 표현 학습 관점에서 분포 변화 하에서 MLLM의 견고성을 강화하는 대안적 접근법을 취합니다. 정보 병목(IB) 원리에 영감을 받아, MLLM을 위한 IB의 변분 하한을 도출하고 이를 실용적으로 구현한 Visual Instruction Bottleneck Tuning(Vittle)을 고안했습니다. 그런 다음, Vittle과 MLLM의 정보 이론적 견고성 지표 간의 연결을 밝힘으로써 Vittle의 이론적 타당성을 제공합니다. 45개 데이터셋(30개의 변화 시나리오 포함)에 대한 개방형 및 폐쇄형 질문 응답 및 객체 환각 탐지 작업에서 세 가지 MLLM을 실험적으로 검증한 결과, Vittle이 최소 충분 표현 학습을 추구함으로써 변화 하에서 MLLM의 견고성을 지속적으로 개선함을 입증했습니다.
English
Despite widespread adoption, multimodal large language models (MLLMs) suffer
performance degradation when encountering unfamiliar queries under distribution
shifts. Existing methods to improve MLLM generalization typically require
either more instruction data or larger advanced model architectures, both of
which incur non-trivial human labor or computational costs. In this work, we
take an alternative approach to enhance the robustness of MLLMs under
distribution shifts, from a representation learning perspective. Inspired by
the information bottleneck (IB) principle, we derive a variational lower bound
of the IB for MLLMs and devise a practical implementation, Visual Instruction
Bottleneck Tuning (Vittle). We then provide a theoretical justification of
Vittle by revealing its connection to an information-theoretic robustness
metric of MLLM. Empirical validation of three MLLMs on open-ended and
closed-form question answering and object hallucination detection tasks over 45
datasets, including 30 shift scenarios, demonstrates that Vittle consistently
improves the MLLM's robustness under shifts by pursuing the learning of a
minimal sufficient representation.Summary
AI-Generated Summary