Potenzia l'Addestramento all'Istruzione Visiva con una Guida Auto-Supervisionata

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) ottengono buone prestazioni in molti compiti di visione e linguaggio, ma spesso incontrano difficoltà con problemi di tipo visivo-centrico che richiedono un ragionamento visivo fine. Recenti evidenze suggeriscono che questa limitazione non derivi da rappresentazioni visive deboli, ma da un sottoutilizzo delle informazioni visive durante l'instruction tuning, fase in cui molti compiti possono essere parzialmente risolti utilizzando esclusivamente i preconcetti linguistici. Proponiamo un approccio semplice e leggero che potenzia l'instruction tuning visivo con un piccolo numero di compiti auto-supervisionati ancorati al visivo, espressi come istruzioni in linguaggio naturale. Riformulando classici compiti preliminari auto-supervisionati, come la previsione di rotazione, l'abbinamento dei colori e la corrispondenza tra viste diverse, in triplette immagine-istruzione-risposta, introduciamo una supervisione che non può essere risolta senza fare affidamento sull'evidenza visiva. Il nostro approccio non richiede annotazioni umane, modifiche architetturali né fasi di addestramento aggiuntive. Attraverso molteplici modelli, regimi di addestramento e benchmark, l'iniezione di una piccola frazione (3-10%) di tali istruzioni ancorate al visivo migliora costantemente le prestazioni nelle valutazioni visivo-centriche. I nostri risultati evidenziano come l'instruction tuning con compiti di auto-supervisione ancorati al visivo rappresenti una leva potente per migliorare il ragionamento visivo negli MLLM attraverso semplici aggiustamenti alla distribuzione dei dati di addestramento. Codice disponibile all'indirizzo: https://github.com/sirkosophia/V-GIFT

English

Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT

Potenzia l'Addestramento all'Istruzione Visiva con una Guida Auto-Supervisionata

Boosting Visual Instruction Tuning with Self-Supervised Guidance

Abstract

Support