Amélioration de l'ajustement à l'instruction visuelle par auto-supervision guidée

Résumé

Les modèles de langage multimodaux (MLLM) obtiennent de bonnes performances sur de nombreuses tâches vision-langage, mais peinent souvent avec les problèmes centrés sur la vision qui nécessitent un raisonnement visuel fin. Des preuves récentes suggèrent que cette limitation ne provient pas de représentations visuelles faibles, mais d'une sous-utilisation de l'information visuelle lors du réglage par instruction, où de nombreuses tâches peuvent être partiellement résolues en utilisant uniquement des prérequis linguistiques. Nous proposons une approche simple et légère qui enrichit le réglage par instruction visuelle avec un petit nombre de tâches auto-supervisées ancrées dans le visuel, exprimées sous forme d'instructions en langage naturel. En reformulant des tâches prétextes auto-supervisées classiques, telles que la prédiction de rotation, l'appariement des couleurs et la correspondance multivue, sous forme de triplets image-instruction-réponse, nous introduisons une supervision qui ne peut être résolue sans s'appuyer sur des preuves visuelles. Notre approche ne nécessite aucune annotation humaine, aucune modification architecturale et aucune étape d'entraînement supplémentaire. Sur plusieurs modèles, régimes d'entraînement et benchmarks, l'injection d'une petite fraction (3 à 10 %) de ces instructions ancrées visuellement améliore constamment les performances sur les évaluations centrées sur la vision. Nos résultats mettent en évidence le réglage par instruction avec des tâches d'auto-supervision ancrées visuellement comme un levier puissant pour améliorer le raisonnement visuel des MLLM via de simples ajustements de la distribution des données d'entraînement. Code disponible à : https://github.com/sirkosophia/V-GIFT

English

Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT

Amélioration de l'ajustement à l'instruction visuelle par auto-supervision guidée

Boosting Visual Instruction Tuning with Self-Supervised Guidance

Résumé

Support