Aprendizado por Reforço a partir de Feedback Rico com DAgger Distribucional

Resumo

Modelos de raciocínio avançaram rapidamente, mas a receita dominante de aprendizagem por reforço a partir de recompensas verificáveis (RLVR) permanece surpreendentemente restrita: amostrar muitas respostas e recompensar cada uma com um único bit indicando se a resposta final está correta. No entanto, muitos cenários fornecem feedback rico, incluindo traços de execução, saídas de ferramentas, correções de especialistas e autoavaliações do modelo. Estudamos como usar esse feedback por meio de uma variante distribucional do clássico algoritmo de aprendizado por imitação DAgger, onde o aprendiz tem acesso local a uma distribuição especialista sobre estados visitados pela política atual. Isso resulta em um objetivo simples de entropia cruzada direta que aceita um especialista caixa-preta e cujo gradiente em nível de sequência realiza uma atribuição de crédito rica ao propagar o desacordo futuro entre especialista e aluno de volta para decisões anteriores. Mostramos que RL anterior com objetivos de autodestilação baseados em KL reversa ou Jensen-Shannon falham em garantir melhoria monotônica da política: mesmo quando o especialista tem recompensa maior, suas atualizações podem aumentar a probabilidade de ações piores. Em contraste, mostramos que a entropia cruzada direta admite melhoria monotônica da política e possui garantias sobre o arrependimento. Mostramos ainda que nosso objetivo otimiza um limite inferior na verossimilhança de sucesso ponderada pelo professor, levando a um Pass@N melhorado. Empiricamente, nossa abordagem, DistIL, supera RLVR e RL com linhas de base de autodestilação em uma variedade de domínios: raciocínio científico, programação e resolução de problemas matemáticos difíceis.

English

Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.