ChatPaper.aiChatPaper

Gradeamento de Objetivos de Raciocínio Progressivo (GRPO) para Raciocínio Centrado na Visão

Puzzle Curriculum GRPO for Vision-Centric Reasoning

December 16, 2025
Autores: Ahmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk
cs.AI

Resumo

Abordagens recentes de aprendizado por reforço (RL), como o GRPO supervisionado por resultados, avançaram o raciocínio de cadeia de pensamento em Modelos de Linguagem Visual (VLMs), mas problemas-chave persistem: (i) dependência de anotações manualmente curadas, custosas e ruidosas, ou de verificadores externos; (ii) esquemas de recompensa planos e esparsos no GRPO; e (iii) inconsistência lógica entre o raciocínio de uma cadeia e sua resposta final. Apresentamos o Puzzle Curriculum GRPO (PC-GRPO), uma receita livre de supervisão para RL com Recompensas Verificáveis (RLVR) que fortalece o raciocínio visual em VLMs sem anotações ou verificadores externos. O PC-GRPO substitui os rótulos por três ambientes de quebra-cabeça auto-supervisionados: PatchFit, Rotação (com recompensas binárias) e Quebra-Cabeça (com crédito parcial graduado que mitiga a esparsidade da recompensa). Para combater recompensas planas e vantagens grupais-relativas que desaparecem, introduzimos um currículo consciente da dificuldade que pondera dinamicamente as amostras e atinge o pico em dificuldade média. Monitoramos ainda a Consistência Raciocínio-Resposta (RAC) durante o pós-treinamento: espelhando relatórios do GRPO padrão em LLMs, a RAC tipicamente sobe no início e depois se degrada; nosso currículo atrasa esse declínio, e esquemas de recompensa que impõem consistência aumentam ainda mais a RAC. A RAC correlaciona-se com a precisão em tarefas downstream. Em diversos benchmarks e com arquiteturas base Qwen-7B e Qwen-3B, o PC-GRPO melhora a qualidade do raciocínio, a estabilidade do treinamento e a precisão na tarefa final, oferecendo um caminho prático para o pós-treinamento por RL escalável, verificável e interpretável para VLMs.
English
Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.
PDF362February 27, 2026