ChatPaper.aiChatPaper

Apprentissage de l’auto-correction dans les modèles vision-langage par augmentation par déploiement

Learning Self-Correction in Vision-Language Models via Rollout Augmentation

February 9, 2026
papers.authors: Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
cs.AI

papers.abstract

L'auto-correction est essentielle pour résoudre des problèmes de raisonnement complexes dans les modèles vision-langage (VLM). Cependant, les méthodes existantes d'apprentissage par renforcement (RL) peinent à l'apprendre, car les comportements efficaces d'auto-correction n'émergent que rarement, rendant les signaux d'apprentissage extrêmement clairsemés. Pour relever ce défi, nous proposons les déroulements spécifiques à la correction (Octopus), un cadre d'augmentation des déroulements RL qui synthétise des exemples d'auto-correction denses en recombinant des déroulements existants. Cette augmentation améliore simultanément l'efficacité de l'échantillonnage grâce à la réutilisation des déroulements et stabilise l'optimisation RL via une supervision équilibrée. De plus, nous introduisons une stratégie de masquage des réponses qui découple l'auto-correction du raisonnement direct, évitant les conflits de signaux et permettant aux deux comportements d'être appris efficacement. Sur cette base, nous présentons Octopus-8B, un VLM de raisonnement doté d'une capacité d'auto-correction contrôlable. Sur 7 benchmarks, il atteint des performances à l'état de l'art parmi les VLM open-source, surpassant la meilleure base de référence RLVR de 1,0 point tout en ne nécessitant que 0,72 fois le temps d'entraînement par étape.
English
Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only 0.72times training time per step.
PDF21February 12, 2026