O Precipício de Extrapolação na Destilação On-Policy de Saídas Estruturadas Quase Determinísticas

Resumo

A destilação on-policy (OPD) é amplamente utilizada no pós-treinamento de LLMs. Quando impulsionada com um coeficiente de extrapolação de recompensa λ > 1, o estudante pode superar o professor em domínio, mas, acima de um limiar λ*, o mesmo passo viola o contrato de saída em tarefas de saída estruturada. Em uma redução de Bernoulli de posição única, derivamos um limite de segurança de clip relativo à base em forma fechada λ*(p,b,c) determinado por três grandezas mensuráveis: a probabilidade modal do professor, a massa de warm-start e a força de clip de amostragem por importância. Acima de λ*, o ponto fixo extrapolado sai da região segura de clip, alterando o treinamento de preservação de formato para colapso de formato. Estendemos a regra para tarefas JSON listwise K-árias calibradas, onde uma única classe de equivalência de vinculação domina o contrato de saída e a SFT retém margem de parsing. Na Amazon Fashion, três testes pré-registrados—um intervalo de cliff de grade fina, um teste de extensão de orçamento e uma predição cruzada de clip pequeno—situam-se dentro de suas janelas de predição travadas, com o valor de clip pequeno correspondendo à predição em forma fechada abaixo da resolução da grade. Operando logo abaixo de λ*, o ListOPD leva um estudante Qwen3 de 1,7B à paridade no domínio com uma linha de base de SFT de 8B com um quinto dos parâmetros. O ganho é impulsionado principalmente pela adesão ao formato: o NDCG@1 nas saídas analisadas permanece estável ao longo de λ, enquanto a validade de parsing muda bruscamente no limite previsto. O diagnóstico de cliff é independente de rubrica, enquanto a afirmação de paridade utiliza uma rubrica avaliada pelo Gemini e herda a exposição desse avaliador.

English

On-policy distillation (OPD) is widely used for LLM post-training. When pushed with a reward-extrapolation coefficient lambda > 1, the student can lift past the teacher in domain, but past a threshold lambda* the same step violates the output contract on structured-output tasks. In a single-position Bernoulli reduction, we derive a closed-form base-relative clip-safety threshold lambda*(p,b,c) determined by three measurable quantities: the teacher modal probability, the warm-start mass, and the importance-sampling clip strength. Above lambda*, the extrapolated fixed point exits the clip-safe region, changing training from format-preserving to format-collapsing. We extend the rule to calibrated K-ary listwise JSON tasks where a single binding equivalence class dominates the output contract and SFT retains parse headroom. On Amazon Fashion, three pre-registered tests--a fine-grid cliff interval, a budget-extension test, and a small-clip cross-prediction--fall within their locked prediction windows, with the small-clip value matching the closed-form prediction below grid resolution. Operating just below lambda*, ListOPD brings a 1.7B Qwen3 student to in-domain parity with an 8B-SFT baseline at one-fifth the parameters. The gain is driven primarily by format adherence: NDCG@1 on parsed outputs remains flat across lambda, while parse validity sharply changes at the predicted boundary. The cliff diagnostic is rubric-independent, whereas the parity claim uses a Gemini-graded rubric and inherits that evaluator's exposure.