ChatPaper.aiChatPaper

Visionary-R1: Mitigación de atajos en razonamiento visual con aprendizaje por refuerzo

Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning

May 20, 2025
Autores: Jiaer Xia, Yuhang Zang, Peng Gao, Yixuan Li, Kaiyang Zhou
cs.AI

Resumen

El desarrollo de capacidades de razonamiento de propósito general ha sido durante mucho tiempo un problema desafiante en la IA. Investigaciones recientes en modelos de lenguaje de gran escala (LLMs), como DeepSeek-R1, han demostrado que técnicas de aprendizaje por refuerzo como GRPO pueden permitir que LLMs preentrenados desarrollen capacidades de razonamiento utilizando pares simples de preguntas y respuestas. En este artículo, nuestro objetivo es entrenar modelos de lenguaje visual (VLMs) para realizar razonamientos sobre datos de imágenes mediante aprendizaje por refuerzo y pares de preguntas y respuestas visuales, sin ninguna supervisión explícita de cadena de pensamiento (CoT). Nuestros hallazgos indican que simplemente aplicar aprendizaje por refuerzo a un VLM —solicitando al modelo que produzca una cadena de razonamiento antes de proporcionar una respuesta— puede llevar al modelo a desarrollar atajos a partir de preguntas fáciles, reduciendo así su capacidad para generalizar en distribuciones de datos no vistas. Argumentamos que la clave para mitigar el aprendizaje de atajos es alentar al modelo a interpretar las imágenes antes de razonar. Por lo tanto, entrenamos al modelo para que siga un formato de salida de descripción-razonamiento-respuesta: primero generando una descripción detallada de una imagen, seguida de la construcción de una cadena de razonamiento extensa. Cuando se entrena con 273K pares de preguntas y respuestas visuales sin CoT y utilizando solo aprendizaje por refuerzo, nuestro modelo, denominado Visionary-R1, supera a modelos multimodales potentes, como GPT-4o, Claude3.5-Sonnet y Gemini-1.5-Pro, en múltiples benchmarks de razonamiento visual.
English
Learning general-purpose reasoning capabilities has long been a challenging problem in AI. Recent research in large language models (LLMs), such as DeepSeek-R1, has shown that reinforcement learning techniques like GRPO can enable pre-trained LLMs to develop reasoning capabilities using simple question-answer pairs. In this paper, we aim to train visual language models (VLMs) to perform reasoning on image data through reinforcement learning and visual question-answer pairs, without any explicit chain-of-thought (CoT) supervision. Our findings indicate that simply applying reinforcement learning to a VLM -- by prompting the model to produce a reasoning chain before providing an answer -- can lead the model to develop shortcuts from easy questions, thereby reducing its ability to generalize across unseen data distributions. We argue that the key to mitigating shortcut learning is to encourage the model to interpret images prior to reasoning. Therefore, we train the model to adhere to a caption-reason-answer output format: initially generating a detailed caption for an image, followed by constructing an extensive reasoning chain. When trained on 273K CoT-free visual question-answer pairs and using only reinforcement learning, our model, named Visionary-R1, outperforms strong multimodal models, such as GPT-4o, Claude3.5-Sonnet, and Gemini-1.5-Pro, on multiple visual reasoning benchmarks.
PDF152May 21, 2025