Visionary-R1: Mitigare le scorciatoie nel ragionamento visivo con l'apprendimento per rinforzo
Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning
May 20, 2025
Autori: Jiaer Xia, Yuhang Zang, Peng Gao, Yixuan Li, Kaiyang Zhou
cs.AI
Abstract
L'apprendimento di capacità di ragionamento general-purpose è da tempo un problema complesso nell'ambito dell'IA. Ricerche recenti sui grandi modelli linguistici (LLM), come DeepSeek-R1, hanno dimostrato che tecniche di apprendimento per rinforzo come GRPO possono consentire a LLM pre-addestrati di sviluppare capacità di ragionamento utilizzando semplici coppie domanda-risposta. In questo articolo, ci proponiamo di addestrare modelli linguistici visivi (VLM) a eseguire ragionamenti su dati immagine attraverso l'apprendimento per rinforzo e coppie domanda-risposta visive, senza alcuna supervisione esplicita di catena di pensiero (CoT). I nostri risultati indicano che applicare semplicemente l'apprendimento per rinforzo a un VLM -- sollecitando il modello a produrre una catena di ragionamento prima di fornire una risposta -- può portare il modello a sviluppare scorciatoie a partire da domande facili, riducendo così la sua capacità di generalizzare su distribuzioni di dati non viste. Sosteniamo che la chiave per mitigare l'apprendimento di scorciatoie sia incoraggiare il modello a interpretare le immagini prima di ragionare. Pertanto, addestriamo il modello a seguire un formato di output descrizione-ragionamento-risposta: inizialmente generando una descrizione dettagliata per un'immagine, seguita dalla costruzione di una catena di ragionamento estesa. Quando addestrato su 273K coppie domanda-risposta visive prive di CoT e utilizzando solo l'apprendimento per rinforzo, il nostro modello, denominato Visionary-R1, supera modelli multimodali robusti, come GPT-4o, Claude3.5-Sonnet e Gemini-1.5-Pro, su molteplici benchmark di ragionamento visivo.
English
Learning general-purpose reasoning capabilities has long been a challenging
problem in AI. Recent research in large language models (LLMs), such as
DeepSeek-R1, has shown that reinforcement learning techniques like GRPO can
enable pre-trained LLMs to develop reasoning capabilities using simple
question-answer pairs. In this paper, we aim to train visual language models
(VLMs) to perform reasoning on image data through reinforcement learning and
visual question-answer pairs, without any explicit chain-of-thought (CoT)
supervision. Our findings indicate that simply applying reinforcement learning
to a VLM -- by prompting the model to produce a reasoning chain before
providing an answer -- can lead the model to develop shortcuts from easy
questions, thereby reducing its ability to generalize across unseen data
distributions. We argue that the key to mitigating shortcut learning is to
encourage the model to interpret images prior to reasoning. Therefore, we train
the model to adhere to a caption-reason-answer output format: initially
generating a detailed caption for an image, followed by constructing an
extensive reasoning chain. When trained on 273K CoT-free visual question-answer
pairs and using only reinforcement learning, our model, named Visionary-R1,
outperforms strong multimodal models, such as GPT-4o, Claude3.5-Sonnet, and
Gemini-1.5-Pro, on multiple visual reasoning benchmarks.