ChatPaper.aiChatPaper

Selbstkorrektur in visuell-sprachlichen Modellen durch Rollout-Augmentierung erlernen

Learning Self-Correction in Vision-Language Models via Rollout Augmentation

February 9, 2026
papers.authors: Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
cs.AI

papers.abstract

Selbstkorrektur ist entscheidend für die Lösung komplexer Denkaufgaben in Vision-Sprache-Modellen (VLMs). Allerdings haben bestehende Reinforcement-Learning (RL)-Methoden Schwierigkeiten, diese zu erlernen, da effektive Selbstkorrekturverhalten nur selten auftritt, was zu extrem spärlichen Lernsignalen führt. Um diese Herausforderung zu bewältigen, schlagen wir korrekturspezifische Rollouts (Octopus) vor – ein RL-Rollout-Erweiterungsframework, das dichte Selbstkorrekturbeispiele durch die Neukombination vorhandener Rollouts synthetisiert. Diese Erweiterung verbessert gleichzeitig die Stichprobeneffizienz durch Wiederverwendung von Rollouts und stabilisiert die RL-Optimierung durch ausgewogene Überwachung. Darüber hinaus führen wir eine Response-Masking-Strategie ein, die Selbstkorrektur vom direkten Schlussfolgern entkoppelt, um Signalinterferenzen zu vermeiden und beide Verhaltensweisen effektiv erlernbar zu machen. Aufbauend darauf präsentieren wir Octopus-8B, ein schlussfolgerndes VLM mit kontrollierbarer Selbstkorrekturfähigkeit. In 7 Benchmarks erreicht es Spitzenleistungen unter Open-Source-VLMs, übertrifft die beste RLVR-Basislinie um 1,0 Punkte bei nur 0,72-facher Trainingszeit pro Schritt.
English
Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only 0.72times training time per step.
PDF21February 12, 2026