ChatPaper.aiChatPaper

Обучение самокоррекции в визуально-языковых моделях с помощью аугментации rollout

Learning Self-Correction in Vision-Language Models via Rollout Augmentation

February 9, 2026
Авторы: Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
cs.AI

Аннотация

Самоисправление играет ключевую роль в решении сложных логических задач в моделях "визуальный язык" (VLM). Однако существующие методы обучения с подкреплением (RL) не справляются с его освоением, поскольку эффективные стратегии самоисправления возникают крайне редко, что делает обучающие сигналы чрезвычайно разреженными. Для решения этой проблемы мы предлагаем коррекционно-специфичные развертки (Octopus) — фреймворк аугментации RL-разверток, который синтезирует плотные примеры самоисправления путем рекомбинации существующих разверток. Такая аугментация одновременно повышает эффективность использования данных за счет повторного применения разверток и стабилизирует RL-оптимизацию за счет сбалансированного контроля. Кроме того, мы вводим стратегию маскирования ответов, которая отделяет самоисправление от прямого рассуждения, избегая конфликтов сигналов и позволяя эффективно обучать оба типа поведения. На этой основе мы представляем Octopus-8B — VLM для логического вывода с управляемой способностью к самоисправлению. На 7 тестовых наборах модель демонстрирует наилучшие результаты среди открытых VLM, превосходя лучший базовый метод RLVR на 1.0 балл при затратах всего 0.72 от его времени обучения на шаг.
English
Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only 0.72times training time per step.
PDF21February 12, 2026