Повышение эффективности визуального обучения с инструкциями за счет самоконтролируемого руководства
Boosting Visual Instruction Tuning with Self-Supervised Guidance
April 14, 2026
Авторы: Sophia Sirko-Galouchenko, Monika Wysoczanska, Andrei Bursuc, Nicolas Thome, Spyros Gidaris
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) демонстрируют высокие результаты во многих задачах, связанных с обработкой визуальной информации и языка, но часто испытывают трудности с визуально-ориентированными проблемами, требующими тонкого визуального анализа. Последние данные свидетельствуют, что это ограничение вызвано не слабыми визуальными представлениями, а недостаточным использованием визуальной информации в процессе инструктивного обучения (instruction tuning), когда многие задачи могут быть частично решены с использованием лишь языковых априорных знаний. Мы предлагаем простой и легковесный подход, который дополняет визуальное инструктивное обучение небольшим количеством визуально обоснованных самообучающихся задач, выраженных в виде инструкций на естественном языке. Путем переформулирования классических самообучающихся задач-предлогов (pretext tasks), таких как предсказание поворота, сопоставление цветов и соответствие между разными ракурсами, в виде триплетов "изображение-инструкция-ответ", мы вводим контроль, который невозможно решить без опоры на визуальные данные. Наш подход не требует человеческих аннотаций, модификаций архитектуры или дополнительных этапов обучения. В различных моделях, режимах обучения и тестах внедрение лишь небольшой доли (3-10%) таких визуально обоснованных инструкций последовательно улучшает производительность в визуально-ориентированных оценках. Наши результаты подчеркивают, что инструктивное обучение с визуально обоснованными задачами самообучения (SSL) является действенным рычагом для улучшения визуального мышления в MLLM за счет простых корректировок распределения обучающих данных. Код доступен по адресу: https://github.com/sirkosophia/V-GIFT
English
Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT