Exposição Adaptativa do Professor para Autodestilação no Raciocínio de LLMs

Resumo

A auto-destilação on-policy tornou-se uma abordagem eficaz para raciocínio de LLMs, onde um professor privilegiado supervisiona os próprios rollouts do aluno enquanto condiciona na solução de referência. No entanto, uma escolha de design compartilhada por quase todos esses métodos tem permanecido inquestionada: o professor sempre vê o raciocínio de referência completo. Defendemos que essa própria configuração padrão faz parte do problema e identificamos uma incompatibilidade de exposição no lado do professor: quando o professor condiciona em um raciocínio muito além da competência atual do aluno, os alvos de tokens resultantes tornam-se fortes demais para serem absorvidos. Uma varredura controlada de exposição fixa torna isso concreto em duas frentes: 1) a exposição completa não é confiavelmente a melhor escolha, e 2) a incompatibilidade aluno-professor cresce monotonicamente à medida que o professor vê mais raciocínio privilegiado. Isso motiva tratar a exposição do professor não como um hiperparâmetro fixo, mas como uma variável de controle aprendível durante o treinamento. Portanto, propomos a Exposição Adaptativa do Professor para Auto-Destilação (ATESD). O ATESD modela a taxa de revelação com um controlador de política Beta leve, condicionado em estatísticas compactas do estado de treinamento, e utiliza uma exposição amostrada para uma curta janela de espera de atualizações do aluno. Para tornar este controlador de exposição aprendível, otimizamo-lo com uma recompensa de progresso de aprendizado com desconto, que pontua cada decisão retida com base em seu efeito na melhoria futura do aluno, em vez de sua mudança imediata de perda, lidando com a atribuição de crédito atrasada induzida pela destilação on-policy. Experimentos no AIME 24, AIME 25 e HMMT 25, utilizando Qwen3-{1.7B, 4B, 8B}, mostram que o ATESD supera consistentemente linhas de base competitivas de auto-destilação e RL, melhorando em relação ao OPSD em +0,95, +2,05 e +2,33 pontos Average@12, respectivamente, estabelecendo a exposição adaptativa do professor como um novo e eficaz eixo para a auto-destilação de raciocínio.

English

On-policy self-distillation has become a strong recipe for LLM reasoning, where a privileged teacher supervises the student's own rollouts while conditioning on the reference solution. A design choice shared by nearly all such methods, however, has gone unquestioned: the teacher always sees the full reference reasoning. We argue that this default itself is part of the problem and identify a teacher-side exposure mismatch: when the teacher conditions on reasoning far beyond the student's current competence, the resulting token targets become too strong to absorb. A controlled fixed-exposure sweep makes this concrete on two fronts: 1) full exposure is not reliably the best choice, and 2) student-teacher mismatch grows monotonically as the teacher sees more privileged reasoning. This motivates treating teacher exposure not as a fixed hyperparameter but as a learnable training-time control variable. We therefore propose Adaptive Teacher Exposure for Self-Distillation (ATESD). ATESD models the reveal ratio with a lightweight Beta-policy controller conditioned on compact training-state statistics, and uses one sampled exposure for a short hold window of student updates. To make this exposure controller learnable, we optimize it with a discounted learning-progress reward that scores each held decision by its effect on the student's future improvement rather than its immediate loss change, addressing the delayed credit assignment induced by on-policy distillation. Experiments on AIME 24, AIME 25, and HMMT 25 across Qwen3-{1.7B, 4B, 8B} show that ATESD consistently outperforms competitive self-distillation and RL baselines, improving over OPSD by +0.95, +2.05, and +2.33 Average@12 points respectively, and establishing adaptive teacher exposure as an effective new axis for reasoning self-distillation.