Aprendizaje de Autocorrección en Modelos de Visión y Lenguaje mediante Aumento de Datos por Despliegue
Learning Self-Correction in Vision-Language Models via Rollout Augmentation
February 9, 2026
Autores: Yi Ding, Ziliang Qiu, Bolian Li, Ruqi Zhang
cs.AI
Resumen
La autocorrección es esencial para resolver problemas de razonamiento complejo en modelos de visión y lenguaje (VLM). Sin embargo, los métodos existentes de aprendizaje por refuerzo (RL) tienen dificultades para aprenderla, ya que los comportamientos efectivos de autocorrección emergen solo raramente, lo que genera señales de aprendizaje extremadamente dispersas. Para abordar este desafío, proponemos *correction-specific rollouts* (Octopus), un marco de aumento de rollouts de RL que sintetiza ejemplos densos de autocorrección recombinando rollouts existentes. Esta aumentación mejora simultáneamente la eficiencia muestral debido a la reutilización de rollouts y estabiliza la optimización de RL mediante una supervisión equilibrada. Además, introducimos una estrategia de enmascaramiento de respuestas que desacopla la autocorrección del razonamiento directo, evitando conflictos de señales y permitiendo que ambos comportamientos se aprendan efectivamente. Sobre esta base, presentamos Octopus-8B, un VLM de razonamiento con capacidad de autocorrección controlable. En 7 benchmarks, logra un rendimiento SoTA entre los VLM de código abierto, superando al mejor baseline RLVR por 1.0 puntos mientras requiere solo 0.72 veces el tiempo de entrenamiento por paso.
English
Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only 0.72times training time per step.