Anti-Autodestilação para Raciocínio com Aprendizado por Reforço via Informação Mútua Pontual

Resumo

A autodestilação on-policy, em que um estudante é puxado em direção a uma cópia de si mesmo condicionada a um contexto privilegiado (por exemplo, uma solução verificada ou feedback), oferece uma direção promissora para avançar a capacidade de raciocínio sem a necessidade de um professor externo mais forte. No entanto, no raciocínio matemático, os ganhos são inconsistentes, mesmo quando a mesma abordagem é bem-sucedida em outros contextos. Uma análise de informação mútua pontual atribui a falha ao próprio contexto privilegiado: ele infla a confiança do professor em tokens já implícitos pela solução (conectivos estruturais, afirmações verificáveis) e a reduz nos tokens de deliberação ("Espere", "Vamos", "Talvez") que impulsionam a busca em múltiplas etapas. Propomos a Anti-Autodestilação (AntiSD), que ascende uma divergência entre estudante e professor em vez de descendê-la: isso inverte o sinal por token e produz uma vantagem naturalmente limitada em uma única etapa. Uma porta acionada por entropia desativa o termo assim que a entropia do professor colapsa, completando uma substituição direta para a autodestilação padrão. Em cinco modelos de 4B a 30B parâmetros em benchmarks de raciocínio matemático, a AntiSD atinge a precisão da linha de base GRPO em 2 a 10 vezes menos etapas de treinamento e melhora a precisão final em até 11,5 pontos. A AntiSD abre um caminho para a auto-melhoria escalável, onde um modelo de linguagem inicializa seu próprio raciocínio através de seu sinal de treinamento.

English

On-policy self-distillation, where a student is pulled toward a copy of itself conditioned on privileged context (e.g., a verified solution or feedback), offers a promising direction for advancing reasoning capability without a stronger external teacher. Yet in math reasoning the gains are inconsistent, even when the same approach succeeds elsewhere. A pointwise mutual information analysis traces the failure to the privileged context itself: it inflates the teacher's confidence on tokens already implied by the solution (structural connectives, verifiable claims) and deflates it on deliberation tokens ("Wait", "Let", "Maybe") that drive multi-step search. We propose Anti-Self-Distillation (AntiSD), which ascends a divergence between student and teacher rather than descending it: this reverses the per-token sign and yields a naturally bounded advantage in one step. An entropy-triggered gate disables the term once the teacher entropy collapses, completing a drop-in replacement for default self-distillation. Across five models from 4B to 30B parameters on math reasoning benchmarks, AntiSD reaches the GRPO baseline's accuracy in 2 to 10x fewer training steps and improves final accuracy by up to 11.5 points. AntiSD opens a path to scalable self-improvement, where a language model bootstraps its own reasoning through its training signal.