ChatPaper.aiChatPaper

COMPACT : Ajustement des Capacités Visuelles de Composition Atomique à Complexe

COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

April 30, 2025
Auteurs: Xindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky
cs.AI

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) excellent dans les tâches simples combinant vision et langage, mais rencontrent des difficultés face à des tâches complexes nécessitant plusieurs capacités simultanées, telles que la reconnaissance d'objets, leur décompte et la compréhension de leurs relations spatiales. Cela pourrait s'expliquer en partie par le fait que l'ajustement par instruction visuelle (VIT), une étape cruciale de l'entraînement des MLLMs, s'est traditionnellement concentré sur l'augmentation du volume de données, plutôt que sur la complexité compositionnelle des exemples d'entraînement. Nous proposons COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), qui génère un ensemble de données d'entraînement contrôlant explicitement la complexité compositionnelle des exemples. Les données issues de COMPACT permettent aux MLLMs de s'entraîner sur des combinaisons de capacités atomiques pour apprendre des capacités complexes de manière plus efficace. Sur tous les benchmarks, COMPACT atteint des performances comparables à celles du VIT LLaVA-665k tout en utilisant moins de 10 % de son budget de données, et les dépasse même sur plusieurs, en particulier ceux impliquant des tâches complexes nécessitant plusieurs capacités. Par exemple, COMPACT obtient une amélioration substantielle de 83,3 % sur MMStar et de 94,0 % sur MM-Vet par rapport au VIT à grande échelle pour des questions particulièrement complexes nécessitant quatre capacités atomiques ou plus. COMPACT propose une méthode d'ajustement visuel compositionnel évolutive et économe en données pour améliorer les performances sur les tâches complexes combinant vision et langage.
English
Multimodal Large Language Models (MLLMs) excel at simple vision-language tasks but struggle when faced with complex tasks that require multiple capabilities, such as simultaneously recognizing objects, counting them, and understanding their spatial relationships. This might be partially the result of the fact that Visual Instruction Tuning (VIT), a critical training step for MLLMs, has traditionally focused on scaling data volume, but not the compositional complexity of training examples. We propose COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), which generates a training dataset explicitly controlling for the compositional complexity of the training examples. The data from COMPACT allows MLLMs to train on combinations of atomic capabilities to learn complex capabilities more efficiently. Across all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT while using less than 10% of its data budget, and even outperforms it on several, especially those involving complex multi-capability tasks. For example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0% improvement on MM-Vet compared to the full-scale VIT on particularly complex questions that require four or more atomic capabilities. COMPACT offers a scalable, data-efficient, visual compositional tuning recipe to improve on complex visual-language tasks.
PDF262May 4, 2025