Aprendizagem por Condução Fraca: Como Agentes Fracos Tornam Agentes Fortes Mais Fortes

Resumo

À medida que a otimização pós-treinamento se torna central para a melhoria de modelos de linguagem de grande porte, observamos um persistente gargalo de saturação: uma vez que os modelos atingem alta confiança, treinamentos adicionais produzem retornos decrescentes. Embora os métodos existentes continuem a reforçar previsões-alvo, descobrimos que sinais supervisionados informativos permanecem latentes nos próprios estados históricos fracos dos modelos. Motivados por essa observação, propomos o WMSS (Agentes Fracos Podem Tornar Agentes Fortes Mais Fortes), um paradigma de pós-treinamento que aproveita checkpoints fracos para orientar a otimização contínua. Ao identificar lacunas de aprendizagem recuperáveis através da dinâmica de entropia e reforçá-las por meio de aprendizagem compensatória, o WMSS permite que agentes fortes melhorem além da saturação convencional de pós-treinamento. Experimentos em conjuntos de dados de raciocínio matemático e geração de código mostram que agentes treinados com nossa abordagem alcançam melhorias de desempenho efetivas, enquanto incorrem em custo zero de inferência adicional.

English

As post-training optimization becomes central to improving large language models, we observe a persistent saturation bottleneck: once models grow highly confident, further training yields diminishing returns. While existing methods continue to reinforce target predictions, we find that informative supervision signals remain latent in models' own historical weak states. Motivated by this observation, we propose WMSS (Weak Agents Can Make Strong Agents Stronger), a post-training paradigm that leverages weak checkpoints to guide continued optimization. By identifying recoverable learning gaps via entropy dynamics and reinforcing them through compensatory learning, WMSS enables strong agents to improve beyond conventional post-training saturation. Experiments on mathematical reasoning and code generation datasets show that agents trained with our approach achieve effective performance improvements, while incurring zero additional inference cost.

Aprendizagem por Condução Fraca: Como Agentes Fracos Tornam Agentes Fortes Mais Fortes

Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

Resumo

Support