Potenciación del Ajuste de Instrucciones Visuales con Guía Autosupervisada

Resumen

Los modelos de lenguaje multimodal (MLLM) obtienen buenos resultados en muchas tareas de visión y lenguaje, pero a menudo tienen dificultades con problemas centrados en la visión que requieren un razonamiento visual fino. Evidencias recientes sugieren que esta limitación no surge de representaciones visuales débiles, sino de la subutilización de la información visual durante el ajuste por instrucción, donde muchas tareas pueden resolverse parcialmente utilizando únicamente conocimientos previos lingüísticos. Proponemos un enfoque simple y ligero que aumenta el ajuste por instrucción visual con un pequeño número de tareas auto-supervisadas visualmente fundamentadas, expresadas como instrucciones en lenguaje natural. Al reformular tareas pretexto auto-supervisadas clásicas, como la predicción de rotación, la coincidencia de colores y la correspondencia entre vistas, como tripletas de imagen-instrucción-respuesta, introducimos una supervisión que no puede resolverse sin depender de la evidencia visual. Nuestro enfoque no requiere anotaciones humanas, modificaciones arquitectónicas ni etapas de entrenamiento adicionales. En múltiples modelos, regímenes de entrenamiento y puntos de referencia, la inyección de solo una pequeña fracción (3-10%) de estas instrucciones visualmente fundamentadas mejora consistentemente el rendimiento en evaluaciones centradas en la visión. Nuestros hallazgos destacan el ajuste por instrucción con tareas de autoaprendizaje visualmente fundamentadas como una palanca poderosa para mejorar el razonamiento visual en los MLLM mediante simples ajustes en la distribución de datos de entrenamiento. Código disponible en: https://github.com/sirkosophia/V-GIFT

English

Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT

Potenciación del Ajuste de Instrucciones Visuales con Guía Autosupervisada

Boosting Visual Instruction Tuning with Self-Supervised Guidance

Resumen

Support