COMPACT: Sintonizzazione delle Capacità Visive da Atomiche a Complesse con Approccio Composizionale
COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning
April 30, 2025
Autori: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) eccellono in compiti semplici che coinvolgono visione e linguaggio, ma incontrano difficoltà di fronte a compiti complessi che richiedono molteplici capacità, come riconoscere oggetti, contarli e comprenderne le relazioni spaziali simultaneamente. Questo potrebbe essere in parte dovuto al fatto che il Visual Instruction Tuning (VIT), una fase critica di addestramento per gli MLLMs, si è tradizionalmente concentrato sull'aumento del volume dei dati, ma non sulla complessità compositiva degli esempi di addestramento. Proponiamo COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), che genera un dataset di addestramento controllando esplicitamente la complessità compositiva degli esempi. I dati di COMPACT consentono agli MLLMs di addestrarsi su combinazioni di capacità atomiche per apprendere capacità complesse in modo più efficiente. Su tutti i benchmark, COMPACT raggiunge prestazioni comparabili al VIT LLaVA-665k utilizzando meno del 10% del suo budget di dati, e lo supera in diversi casi, specialmente in quelli che coinvolgono compiti complessi multi-capacità. Ad esempio, COMPACT ottiene un miglioramento sostanziale dell'83,3% su MMStar e del 94,0% su MM-Vet rispetto al VIT su larga scala, in particolare su domande complesse che richiedono quattro o più capacità atomiche. COMPACT offre una ricetta scalabile, efficiente in termini di dati e basata su un tuning compositivo visivo per migliorare i compiti complessi di visione e linguaggio.
English
Multimodal Large Language Models (MLLMs) excel at simple vision-language
tasks but struggle when faced with complex tasks that require multiple
capabilities, such as simultaneously recognizing objects, counting them, and
understanding their spatial relationships. This might be partially the result
of the fact that Visual Instruction Tuning (VIT), a critical training step for
MLLMs, has traditionally focused on scaling data volume, but not the
compositional complexity of training examples. We propose COMPACT
(COMPositional Atomic-to-complex visual Capability Tuning), which generates a
training dataset explicitly controlling for the compositional complexity of the
training examples. The data from COMPACT allows MLLMs to train on combinations
of atomic capabilities to learn complex capabilities more efficiently. Across
all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT
while using less than 10% of its data budget, and even outperforms it on
several, especially those involving complex multi-capability tasks. For
example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0%
improvement on MM-Vet compared to the full-scale VIT on particularly complex
questions that require four or more atomic capabilities. COMPACT offers a
scalable, data-efficient, visual compositional tuning recipe to improve on
complex visual-language tasks.