Aprendizagem de Autocorreção em Modelos de Visão e Linguagem via Aumento de Dados por Rollout

Resumo

A autocorreção é essencial para resolver problemas complexos de raciocínio em modelos de visão e linguagem (VLMs). No entanto, os métodos existentes de aprendizagem por reforço (RL) lutam para aprendê-la, uma vez que comportamentos eficazes de autocorreção emergem apenas raramente, tornando os sinais de aprendizagem extremamente esparsos. Para enfrentar este desafio, propomos *correction-specific rollouts* (Octopus), uma estrutura de aumento de rollouts de RL que sintetiza exemplos densos de autocorreção recombinando rollouts existentes. Esta ampliação melhora simultaneamente a eficiência da amostragem devido à reutilização de rollouts e estabiliza a otimização de RL por meio de supervisão equilibrada. Além disso, introduzimos uma estratégia de mascaramento de resposta que desacopla a autocorreção do raciocínio direto, evitando conflitos de sinal e permitindo que ambos os comportamentos sejam aprendidos de forma eficaz. Com base nisso, introduzimos o Octopus-8B, um VLM de raciocínio com capacidade controlável de autocorreção. Em 7 benchmarks, ele alcança desempenho SoTA entre os VLMs de código aberto, superando a melhor linha de base RLVR por 1,0 ponto, enquanto requer apenas 0,72 vezes o tempo de treinamento por etapa.

English

Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only 0.72times training time per step.

Aprendizagem de Autocorreção em Modelos de Visão e Linguagem via Aumento de Dados por Rollout

Learning Self-Correction in Vision-Language Models via Rollout Augmentation

Resumo

Support