COMPACT: Ajuste de Capacidades Visuales COMPosicionales de Atómico a Complejo
COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning
April 30, 2025
Autores: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) destacan en tareas simples de visión y lenguaje, pero enfrentan dificultades cuando se enfrentan a tareas complejas que requieren múltiples capacidades, como reconocer objetos simultáneamente, contarlos y comprender sus relaciones espaciales. Esto podría ser, en parte, el resultado de que el Ajuste de Instrucción Visual (VIT, por sus siglas en inglés), un paso crítico en el entrenamiento de los MLLMs, tradicionalmente se ha centrado en escalar el volumen de datos, pero no en la complejidad composicional de los ejemplos de entrenamiento. Proponemos COMPACT (Ajuste de Capacidades Visuales de Atómico a Complejo COMPosicional), que genera un conjunto de datos de entrenamiento que controla explícitamente la complejidad composicional de los ejemplos. Los datos de COMPACT permiten que los MLLMs se entrenen en combinaciones de capacidades atómicas para aprender capacidades complejas de manera más eficiente. En todos los puntos de referencia, COMPACT logra un rendimiento comparable al VIT de LLaVA-665k utilizando menos del 10% de su presupuesto de datos, e incluso lo supera en varios, especialmente en aquellos que involucran tareas complejas que requieren múltiples capacidades. Por ejemplo, COMPACT logra una mejora sustancial del 83.3% en MMStar y del 94.0% en MM-Vet en comparación con el VIT a gran escala en preguntas particularmente complejas que requieren cuatro o más capacidades atómicas. COMPACT ofrece una receta escalable, eficiente en datos y de ajuste visual composicional para mejorar en tareas complejas de visión y lenguaje.
English
Multimodal Large Language Models (MLLMs) excel at simple vision-language
tasks but struggle when faced with complex tasks that require multiple
capabilities, such as simultaneously recognizing objects, counting them, and
understanding their spatial relationships. This might be partially the result
of the fact that Visual Instruction Tuning (VIT), a critical training step for
MLLMs, has traditionally focused on scaling data volume, but not the
compositional complexity of training examples. We propose COMPACT
(COMPositional Atomic-to-complex visual Capability Tuning), which generates a
training dataset explicitly controlling for the compositional complexity of the
training examples. The data from COMPACT allows MLLMs to train on combinations
of atomic capabilities to learn complex capabilities more efficiently. Across
all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT
while using less than 10% of its data budget, and even outperforms it on
several, especially those involving complex multi-capability tasks. For
example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0%
improvement on MM-Vet compared to the full-scale VIT on particularly complex
questions that require four or more atomic capabilities. COMPACT offers a
scalable, data-efficient, visual compositional tuning recipe to improve on
complex visual-language tasks.