Aprimorando o Ajuste de Instrução Visual com Orientação Autossupervisionada

Resumo

Os modelos de linguagem multimodal (MLLMs) apresentam bom desempenho em muitas tarefas de visão e linguagem, mas frequentemente têm dificuldades com problemas centrados na visão que exigem raciocínio visual refinado. Evidências recentes sugerem que essa limitação surge não de representações visuais fracas, mas da subutilização de informações visuais durante o ajuste por instrução, onde muitas tarefas podem ser parcialmente resolvidas usando apenas conhecimentos prévios linguísticos. Propomos uma abordagem simples e leve que amplia o ajuste por instrução visual com um pequeno número de tarefas auto supervisionadas visualmente fundamentadas, expressas como instruções em linguagem natural. Ao reformular tarefas clássicas de pretexto auto supervisionadas, como previsão de rotação, correspondência de cores e correspondência entre vistas, como tripletos imagem-instrução-resposta, introduzimos supervisão que não pode ser resolvida sem depender de evidências visuais. Nossa abordagem não requer anotações humanas, modificações arquiteturais nem estágios adicionais de treinamento. Em vários modelos, regimes de treinamento e benchmarks, a injeção de apenas uma pequena fração (3-10%) dessas instruções visualmente fundamentadas melhora consistentemente o desempenho em avaliações centradas na visão. Nossas descobertas destacam o ajuste por instrução com tarefas de auto supervisão visualmente fundamentadas como uma alavanca poderosa para melhorar o raciocínio visual em MLLMs por meio de ajustes simples na distribuição de dados de treinamento. Código disponível em: https://github.com/sirkosophia/V-GIFT

English

Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT

Aprimorando o Ajuste de Instrução Visual com Orientação Autossupervisionada

Boosting Visual Instruction Tuning with Self-Supervised Guidance

Resumo

Support