COMPACT: Ajuste de Capacidade Visual COMPosicional de Atômica para Complexa
COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning
April 30, 2025
Autores: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destacam em tarefas simples de visão e linguagem, mas enfrentam dificuldades quando confrontados com tarefas complexas que exigem múltiplas capacidades, como reconhecer objetos, contá-los e compreender suas relações espaciais simultaneamente. Isso pode ser parcialmente resultado do fato de que o Ajuste de Instrução Visual (VIT), uma etapa crítica de treinamento para MLLMs, tradicionalmente se concentrou em escalar o volume de dados, mas não na complexidade composicional dos exemplos de treinamento. Propomos o COMPACT (Ajuste de Capacidade Visual COMPosicional de Atômico a Complexo), que gera um conjunto de dados de treinamento controlando explicitamente a complexidade composicional dos exemplos. Os dados do COMPACT permitem que os MLLMs treinem combinações de capacidades atômicas para aprender capacidades complexas de forma mais eficiente. Em todos os benchmarks, o COMPACT alcança desempenho comparável ao VIT LLaVA-665k enquanto utiliza menos de 10% do seu orçamento de dados, e até o supera em vários, especialmente aqueles envolvendo tarefas complexas de múltiplas capacidades. Por exemplo, o COMPACT obtém uma melhoria substancial de 83,3% no MMStar e 94,0% no MM-Vet em comparação com o VIT em escala completa em questões particularmente complexas que exigem quatro ou mais capacidades atômicas. O COMPACT oferece uma receita escalável e eficiente em termos de dados para ajuste composicional visual, melhorando o desempenho em tarefas complexas de visão e linguagem.
English
Multimodal Large Language Models (MLLMs) excel at simple vision-language
tasks but struggle when faced with complex tasks that require multiple
capabilities, such as simultaneously recognizing objects, counting them, and
understanding their spatial relationships. This might be partially the result
of the fact that Visual Instruction Tuning (VIT), a critical training step for
MLLMs, has traditionally focused on scaling data volume, but not the
compositional complexity of training examples. We propose COMPACT
(COMPositional Atomic-to-complex visual Capability Tuning), which generates a
training dataset explicitly controlling for the compositional complexity of the
training examples. The data from COMPACT allows MLLMs to train on combinations
of atomic capabilities to learn complex capabilities more efficiently. Across
all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT
while using less than 10% of its data budget, and even outperforms it on
several, especially those involving complex multi-capability tasks. For
example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0%
improvement on MM-Vet compared to the full-scale VIT on particularly complex
questions that require four or more atomic capabilities. COMPACT offers a
scalable, data-efficient, visual compositional tuning recipe to improve on
complex visual-language tasks.