Repensando a Utilização de Trajetórias de Especialistas no Pós-treinamento de LLMs

Resumo

Embora o treinamento pós-treinamento eficaz integre o Ajuste Fino Supervisionado (SFT) e o Aprendizado por Reforço (RL), o mecanismo ideal para utilizar trajetórias especialistas permanece não resolvido. Propomos a Estrutura de Plasticidade-Teto para fundamentar teoricamente este panorama, decompondo o desempenho no desempenho SFT fundamental e na subsequente plasticidade do RL. Por meio de uma extensa avaliação comparativa, estabelecemos o pipeline Sequencial SFT-depois-RL como o padrão superior, superando os déficits de estabilidade das abordagens sincronizadas. Além disso, derivamos diretrizes de escalonamento precisas: (1) A transição para o RL na Subfase Estável do SFT ou na Subfase de Superajuste Moderado maximiza o teto final, assegurando o desempenho SFT fundamental sem comprometer a plasticidade do RL; (2) Refutando a ideia de "Menos é Mais" no contexto do escalonamento SFT-depois-RL, demonstramos que a Escala de Dados determina o potencial primário do pós-treinamento, enquanto a Dificuldade da Trajetória atua como um multiplicador de desempenho; e (3) Identificamos que a Perda de Validação Mínima do SFT serve como um indicador robusto para selecionar as trajetórias especialistas que maximizam o teto de desempenho final. Nossas descobertas fornecem diretrizes acionáveis para maximizar o valor extraído das trajetórias especialistas.

English

While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.

Repensando a Utilização de Trajetórias de Especialistas no Pós-treinamento de LLMs

Rethinking Expert Trajectory Utilization in LLM Post-training

Resumo

Support