Gradeamento de Objetivos de Raciocínio Progressivo (GRPO) para Raciocínio Centrado na Visão

Resumo

Abordagens recentes de aprendizado por reforço (RL), como o GRPO supervisionado por resultados, avançaram o raciocínio de cadeia de pensamento em Modelos de Linguagem Visual (VLMs), mas problemas-chave persistem: (i) dependência de anotações manualmente curadas, custosas e ruidosas, ou de verificadores externos; (ii) esquemas de recompensa planos e esparsos no GRPO; e (iii) inconsistência lógica entre o raciocínio de uma cadeia e sua resposta final. Apresentamos o Puzzle Curriculum GRPO (PC-GRPO), uma receita livre de supervisão para RL com Recompensas Verificáveis (RLVR) que fortalece o raciocínio visual em VLMs sem anotações ou verificadores externos. O PC-GRPO substitui os rótulos por três ambientes de quebra-cabeça auto-supervisionados: PatchFit, Rotação (com recompensas binárias) e Quebra-Cabeça (com crédito parcial graduado que mitiga a esparsidade da recompensa). Para combater recompensas planas e vantagens grupais-relativas que desaparecem, introduzimos um currículo consciente da dificuldade que pondera dinamicamente as amostras e atinge o pico em dificuldade média. Monitoramos ainda a Consistência Raciocínio-Resposta (RAC) durante o pós-treinamento: espelhando relatórios do GRPO padrão em LLMs, a RAC tipicamente sobe no início e depois se degrada; nosso currículo atrasa esse declínio, e esquemas de recompensa que impõem consistência aumentam ainda mais a RAC. A RAC correlaciona-se com a precisão em tarefas downstream. Em diversos benchmarks e com arquiteturas base Qwen-7B e Qwen-3B, o PC-GRPO melhora a qualidade do raciocínio, a estabilidade do treinamento e a precisão na tarefa final, oferecendo um caminho prático para o pós-treinamento por RL escalável, verificável e interpretável para VLMs.

English

Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.

Gradeamento de Objetivos de Raciocínio Progressivo (GRPO) para Raciocínio Centrado na Visão

Puzzle Curriculum GRPO for Vision-Centric Reasoning

Resumo

Support