Verbetering van Visuele Instructieafstemming met Zelf-gesuperviseerde Begeleiding

Samenvatting

Multimodale grote taalmodellen (MLLM's) presteren goed op veel visie-taaltaken, maar hebben vaak moeite met visie-centrische problemen die fijnmazig visueel redeneren vereisen. Recent bewijs suggereert dat deze beperking niet voortkomt uit zwakke visuele representaties, maar uit een onderbenutting van visuele informatie tijdens instructie-afstemming (instruction tuning), waarbij veel taken gedeeltelijk opgelost kunnen worden met alleen taalpriors. Wij stellen een eenvoudige en lichtgewicht aanpak voor die visuele instructie-afstemming versterkt met een klein aantal visueel verankerde zelf-gesuperviseerde taken, uitgedrukt als natuurlijke taal-instructies. Door klassieke zelf-gesuperviseerde pretext-taken, zoals rotatievoorspelling, kleurherkenning en cross-view correspondentie, te herformuleren als beeld-instructie-respons triplets, introduceren we supervisie die niet opgelost kan worden zonder op visueel bewijsmateriaal te vertrouwen. Onze aanpak vereist geen menselijke annotaties, geen architectuurwijzigingen en geen extra trainingsfasen. Over meerdere modellen, trainingsregimes en benchmarks heen, verbetert het injecteren van slechts een kleine fractie (3-10%) van dergelijke visueel verankerde instructies consistent de prestaties op visie-centrische evaluaties. Onze bevindingen benadrukken instructie-afstemming met visueel verankerde SSL-taken als een krachtige hefboom om visueel redeneren in MLLM's te verbeteren door eenvoudige aanpassingen aan de verdeling van de trainingsdata. Code beschikbaar op: https://github.com/sirkosophia/V-GIFT

English

Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT

Verbetering van Visuele Instructieafstemming met Zelf-gesuperviseerde Begeleiding

Boosting Visual Instruction Tuning with Self-Supervised Guidance

Samenvatting

Support