ChatPaper.aiChatPaper

COMPACT: Ajuste de Capacidades Visuales COMPosicionales de Atómico a Complejo

COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

April 30, 2025
Autores: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) destacan en tareas simples de visión y lenguaje, pero enfrentan dificultades cuando se enfrentan a tareas complejas que requieren múltiples capacidades, como reconocer objetos simultáneamente, contarlos y comprender sus relaciones espaciales. Esto podría ser, en parte, el resultado de que el Ajuste de Instrucción Visual (VIT, por sus siglas en inglés), un paso crítico en el entrenamiento de los MLLMs, tradicionalmente se ha centrado en escalar el volumen de datos, pero no en la complejidad composicional de los ejemplos de entrenamiento. Proponemos COMPACT (Ajuste de Capacidades Visuales de Atómico a Complejo COMPosicional), que genera un conjunto de datos de entrenamiento que controla explícitamente la complejidad composicional de los ejemplos. Los datos de COMPACT permiten que los MLLMs se entrenen en combinaciones de capacidades atómicas para aprender capacidades complejas de manera más eficiente. En todos los puntos de referencia, COMPACT logra un rendimiento comparable al VIT de LLaVA-665k utilizando menos del 10% de su presupuesto de datos, e incluso lo supera en varios, especialmente en aquellos que involucran tareas complejas que requieren múltiples capacidades. Por ejemplo, COMPACT logra una mejora sustancial del 83.3% en MMStar y del 94.0% en MM-Vet en comparación con el VIT a gran escala en preguntas particularmente complejas que requieren cuatro o más capacidades atómicas. COMPACT ofrece una receta escalable, eficiente en datos y de ajuste visual composicional para mejorar en tareas complejas de visión y lenguaje.
English
Multimodal Large Language Models (MLLMs) excel at simple vision-language tasks but struggle when faced with complex tasks that require multiple capabilities, such as simultaneously recognizing objects, counting them, and understanding their spatial relationships. This might be partially the result of the fact that Visual Instruction Tuning (VIT), a critical training step for MLLMs, has traditionally focused on scaling data volume, but not the compositional complexity of training examples. We propose COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), which generates a training dataset explicitly controlling for the compositional complexity of the training examples. The data from COMPACT allows MLLMs to train on combinations of atomic capabilities to learn complex capabilities more efficiently. Across all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT while using less than 10% of its data budget, and even outperforms it on several, especially those involving complex multi-capability tasks. For example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0% improvement on MM-Vet compared to the full-scale VIT on particularly complex questions that require four or more atomic capabilities. COMPACT offers a scalable, data-efficient, visual compositional tuning recipe to improve on complex visual-language tasks.
PDF262May 4, 2025