ChatPaper.aiChatPaper

COMPACT: Настройка визуальных способностей от атомарных к сложным на композиционной основе

COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

April 30, 2025
Авторы: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) преуспевают в простых задачах, связанных с обработкой визуальной и текстовой информации, но испытывают трудности при выполнении сложных задач, требующих одновременного применения нескольких навыков, таких как распознавание объектов, их подсчет и понимание их пространственных отношений. Это может быть частично связано с тем, что визуальная настройка инструкций (VIT), критически важный этап обучения для MLLMs, традиционно сосредоточена на увеличении объема данных, но не на композиционной сложности обучающих примеров. Мы предлагаем метод COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), который создает набор обучающих данных с явным контролем композиционной сложности примеров. Данные, полученные с помощью COMPACT, позволяют MLLMs обучаться на комбинациях базовых навыков для более эффективного освоения сложных задач. На всех тестовых наборах COMPACT демонстрирует сопоставимую производительность с LLaVA-665k VIT, используя менее 10% объема данных, и даже превосходит её в нескольких задачах, особенно тех, которые требуют применения нескольких навыков одновременно. Например, COMPACT показывает значительное улучшение на 83,3% на тесте MMStar и на 94,0% на тесте MM-Vet по сравнению с полномасштабной VIT в особенно сложных вопросах, требующих применения четырех или более базовых навыков. COMPACT предлагает масштабируемый и ресурсоэффективный подход к визуальной композиционной настройке, улучшающий выполнение сложных задач на стыке визуальной и текстовой информации.
English
Multimodal Large Language Models (MLLMs) excel at simple vision-language tasks but struggle when faced with complex tasks that require multiple capabilities, such as simultaneously recognizing objects, counting them, and understanding their spatial relationships. This might be partially the result of the fact that Visual Instruction Tuning (VIT), a critical training step for MLLMs, has traditionally focused on scaling data volume, but not the compositional complexity of training examples. We propose COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), which generates a training dataset explicitly controlling for the compositional complexity of the training examples. The data from COMPACT allows MLLMs to train on combinations of atomic capabilities to learn complex capabilities more efficiently. Across all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT while using less than 10% of its data budget, and even outperforms it on several, especially those involving complex multi-capability tasks. For example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0% improvement on MM-Vet compared to the full-scale VIT on particularly complex questions that require four or more atomic capabilities. COMPACT offers a scalable, data-efficient, visual compositional tuning recipe to improve on complex visual-language tasks.
PDF262May 4, 2025