COMPACT: 구성적 원자 수준에서 복합 수준으로의 시각적 능력 조정
COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning
April 30, 2025
저자: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 단순한 시각-언어 작업에서는 뛰어난 성능을 보이지만, 객체 인식, 개수 세기, 공간 관계 이해 등 여러 능력을 동시에 요구하는 복잡한 작업에서는 어려움을 겪습니다. 이는 부분적으로 MLLMs의 중요한 훈련 단계인 시각적 지시 튜닝(VIT)이 전통적으로 데이터 규모 확장에 초점을 맞추었지만, 훈련 예제의 구성적 복잡성에는 주의를 기울이지 않았기 때문일 수 있습니다. 우리는 COMPACT(COMPositional Atomic-to-complex visual Capability Tuning)를 제안하며, 이는 훈련 예제의 구성적 복잡성을 명시적으로 제어하여 훈련 데이터셋을 생성합니다. COMPACT의 데이터를 통해 MLLMs는 원자적 능력의 조합을 학습하여 복잡한 능력을 더 효율적으로 습득할 수 있습니다. 모든 벤치마크에서 COMPACT는 LLaVA-665k VIT와 비슷한 성능을 달성하면서도 데이터 예산의 10% 미만을 사용하며, 특히 복잡한 다중 능력 작업이 포함된 몇 가지 작업에서는 이를 능가합니다. 예를 들어, COMPACT는 특히 4개 이상의 원자적 능력을 요구하는 복잡한 질문에서 MMStar에서 83.3%, MM-Vet에서 94.0%의 상당한 개선을 달성했습니다. COMPACT는 복잡한 시각-언어 작업을 개선하기 위한 확장 가능하고 데이터 효율적인 시각적 구성 튜닝 방법을 제공합니다.
English
Multimodal Large Language Models (MLLMs) excel at simple vision-language
tasks but struggle when faced with complex tasks that require multiple
capabilities, such as simultaneously recognizing objects, counting them, and
understanding their spatial relationships. This might be partially the result
of the fact that Visual Instruction Tuning (VIT), a critical training step for
MLLMs, has traditionally focused on scaling data volume, but not the
compositional complexity of training examples. We propose COMPACT
(COMPositional Atomic-to-complex visual Capability Tuning), which generates a
training dataset explicitly controlling for the compositional complexity of the
training examples. The data from COMPACT allows MLLMs to train on combinations
of atomic capabilities to learn complex capabilities more efficiently. Across
all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT
while using less than 10% of its data budget, and even outperforms it on
several, especially those involving complex multi-capability tasks. For
example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0%
improvement on MM-Vet compared to the full-scale VIT on particularly complex
questions that require four or more atomic capabilities. COMPACT offers a
scalable, data-efficient, visual compositional tuning recipe to improve on
complex visual-language tasks.