Visionary-R1: Mitigare le scorciatoie nel ragionamento visivo con l'apprendimento per rinforzo

Abstract

L'apprendimento di capacità di ragionamento general-purpose è da tempo un problema complesso nell'ambito dell'IA. Ricerche recenti sui grandi modelli linguistici (LLM), come DeepSeek-R1, hanno dimostrato che tecniche di apprendimento per rinforzo come GRPO possono consentire a LLM pre-addestrati di sviluppare capacità di ragionamento utilizzando semplici coppie domanda-risposta. In questo articolo, ci proponiamo di addestrare modelli linguistici visivi (VLM) a eseguire ragionamenti su dati immagine attraverso l'apprendimento per rinforzo e coppie domanda-risposta visive, senza alcuna supervisione esplicita di catena di pensiero (CoT). I nostri risultati indicano che applicare semplicemente l'apprendimento per rinforzo a un VLM -- sollecitando il modello a produrre una catena di ragionamento prima di fornire una risposta -- può portare il modello a sviluppare scorciatoie a partire da domande facili, riducendo così la sua capacità di generalizzare su distribuzioni di dati non viste. Sosteniamo che la chiave per mitigare l'apprendimento di scorciatoie sia incoraggiare il modello a interpretare le immagini prima di ragionare. Pertanto, addestriamo il modello a seguire un formato di output descrizione-ragionamento-risposta: inizialmente generando una descrizione dettagliata per un'immagine, seguita dalla costruzione di una catena di ragionamento estesa. Quando addestrato su 273K coppie domanda-risposta visive prive di CoT e utilizzando solo l'apprendimento per rinforzo, il nostro modello, denominato Visionary-R1, supera modelli multimodali robusti, come GPT-4o, Claude3.5-Sonnet e Gemini-1.5-Pro, su molteplici benchmark di ragionamento visivo.

English

Learning general-purpose reasoning capabilities has long been a challenging problem in AI. Recent research in large language models (LLMs), such as DeepSeek-R1, has shown that reinforcement learning techniques like GRPO can enable pre-trained LLMs to develop reasoning capabilities using simple question-answer pairs. In this paper, we aim to train visual language models (VLMs) to perform reasoning on image data through reinforcement learning and visual question-answer pairs, without any explicit chain-of-thought (CoT) supervision. Our findings indicate that simply applying reinforcement learning to a VLM -- by prompting the model to produce a reasoning chain before providing an answer -- can lead the model to develop shortcuts from easy questions, thereby reducing its ability to generalize across unseen data distributions. We argue that the key to mitigating shortcut learning is to encourage the model to interpret images prior to reasoning. Therefore, we train the model to adhere to a caption-reason-answer output format: initially generating a detailed caption for an image, followed by constructing an extensive reasoning chain. When trained on 273K CoT-free visual question-answer pairs and using only reinforcement learning, our model, named Visionary-R1, outperforms strong multimodal models, such as GPT-4o, Claude3.5-Sonnet, and Gemini-1.5-Pro, on multiple visual reasoning benchmarks.

Visionary-R1: Mitigare le scorciatoie nel ragionamento visivo con l'apprendimento per rinforzo

Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning

Abstract

Support