Repensando a Generalização no Raciocínio via Aprendizado Supervisionado por Fino Ajuste: Uma Análise Condicional sobre Otimização, Dados e Capacidade do Modelo

Resumo

Uma narrativa predominante no pós-treinamento de LLMs sustenta que o ajuste fino supervisionado (SFT) memoriza, enquanto o aprendizado por reforço (RL) generaliza. Revisitamos essa afirmação para o SFT de raciocínio com supervisão de longa cadeia de pensamento (CoT) e descobrimos que a generalização entre domínios não está ausente, mas é condicional, moldada conjuntamente pela dinâmica de otimização, pelos dados de treinamento e pela capacidade do modelo base. Alguns fracassos relatados são artefatos de subotimização: o desempenho entre domínios primeiro se degrada antes de se recuperar e melhorar com o treinamento estendido (um padrão de queda e recuperação), portanto, checkpoints de treinamento curto podem subestimar a generalização. A qualidade e a estrutura dos dados são importantes: soluções de baixa qualidade prejudicam amplamente a generalização, enquanto rastros de CoT longos e verificados produzem ganhos consistentes entre domínios. A capacidade do modelo é essencial: modelos mais fortes internalizam padrões procedimentais transferíveis (por exemplo, retrocesso) mesmo a partir de um jogo aritmético simples, enquanto os mais fracos imitam a verbosidade superficial. No entanto, essa generalização é assimétrica: o raciocínio melhora enquanto a segurança se degrada, reformulando a questão de *se* o SFT de raciocínio generaliza para *sob quais condições* e *a que custo*.

English

A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.

Repensando a Generalização no Raciocínio via Aprendizado Supervisionado por Fino Ajuste: Uma Análise Condicional sobre Otimização, Dados e Capacidade do Modelo

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Resumo

Support