Apprendimento dell’Auto-Correzione nei Modelli Visione-Linguaggio tramite Aumento dei Rollout

Abstract

L'autocorrezione è essenziale per risolvere problemi complessi di ragionamento nei modelli visione-linguaggio (VLM). Tuttavia, i metodi di apprendimento per rinforzo (RL) esistenti faticano ad apprenderla, poiché comportamenti efficaci di autocorrezione emergono solo raramente, rendendo i segnali di apprendimento estremamente sparsi. Per affrontare questa sfida, proponiamo *correction-specific rollouts* (Octopus), un framework di aumento dei rollout RL che sintetizza esempi densi di autocorrezione ricombinando rollout esistenti. Questa aumentazione migliora simultaneamente l'efficienza del campionamento grazie al riutilizzo dei rollout e stabilizza l'ottimizzazione RL attraverso una supervisione bilanciata. Inoltre, introduciamo una strategia di *response-masking* che disaccoppia l'autocorrezione dal ragionamento diretto, evitando conflitti di segnale e permettendo ad entrambi i comportamenti di essere appresi efficacemente. Basandoci su questo, introduciamo Octopus-8B, un VLM di ragionamento con capacità di autocorrezione controllabile. Su 7 benchmark, raggiunge prestazioni allo stato dell'arte tra i VLM open-source, superando la miglior baseline RLVR di 1.0 punti pur richiedendo solo 0.72 volte il tempo di addestramento per passo.

English

Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only 0.72times training time per step.

Apprendimento dell’Auto-Correzione nei Modelli Visione-Linguaggio tramite Aumento dei Rollout

Learning Self-Correction in Vision-Language Models via Rollout Augmentation

Abstract

Support