Steigerung des visuellen Anleitungstrainings durch selbstüberwachte Führung

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) schneiden bei vielen Vision-Language-Aufgaben gut ab, haben aber oft Schwierigkeiten mit visuell zentrierten Problemen, die feinkörniges visuelles Denken erfordern. Jüngste Erkenntnisse deuten darauf hin, dass diese Einschränkung nicht auf schwachen visuellen Repräsentationen beruht, sondern auf der unzureichenden Nutzung visueller Informationen während des Instruction Tunings, bei dem viele Aufgaben teilweise allein mit Sprachpräferenzen gelöst werden können. Wir schlagen einen einfachen und leichtgewichtigen Ansatz vor, der das visuelle Instruction Tuning um eine kleine Anzahl visuell verankerter, selbstüberwachter Aufgaben erweitert, die als natürliche Sprachinstruktionen formuliert sind. Durch die Neuformulierung klassischer selbstüberwachter Pretext-Aufgaben wie Rotationsvorhersage, Farbabgleich und perspektivenübergreifende Korrespondenz als Bild-Instruktions-Antwort-Tripel führen wir eine Überwachung ein, die nicht ohne Rückgriff auf visuelle Evidenz gelöst werden kann. Unser Ansatz benötigt keine menschlichen Annotationen, keine architektonischen Änderungen und keine zusätzlichen Trainingsphasen. Über mehrere Modelle, Trainingsregime und Benchmarks hinweg verbessert die Injektion nur eines kleinen Anteils (3-10%) solcher visuell verankerter Instruktionen konsistent die Leistung bei visuell zentrierten Evaluationen. Unsere Ergebnisse unterstreichen das Instruction Tuning mit visuell verankerten SSL-Aufgaben als einen wirksamen Hebel zur Verbesserung des visuellen Denkens in MLLMs durch einfache Anpassungen der Trainingsdatenverteilung. Code verfügbar unter: https://github.com/sirkosophia/V-GIFT

English

Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT

Steigerung des visuellen Anleitungstrainings durch selbstüberwachte Führung

Boosting Visual Instruction Tuning with Self-Supervised Guidance

Zusammenfassung

Support