Replanteando la Generalización en el Razonamiento mediante SFT: Un Análisis Condicional sobre Optimización, Datos y Capacidad del Modelo

Resumen

Una narrativa predominante en el post-entrenamiento de LLM sostiene que el ajuste fino supervisado (SFT) memoriza, mientras que el aprendizaje por refuerzo (RL) generaliza. Revisamos esta afirmación para el SFT de razonamiento con supervisión de cadena de pensamiento (CoT) larga y encontramos que la generalización cruzada de dominios no está ausente, sino que es condicional, configurada conjuntamente por la dinámica de optimización, los datos de entrenamiento y la capacidad del modelo base. Algunos fracasos reportados son artefactos de suboptimización: el rendimiento cruzado de dominios primero se degrada antes de recuperarse y mejorar con un entrenamiento extendido (un patrón de caída y recuperación), por lo que los puntos de control de entrenamiento corto pueden subestimar la generalización. Tanto la calidad como la estructura de los datos son importantes: las soluciones de baja calidad perjudican ampliamente la generalización, mientras que los trazos largos de CoT verificados producen ganancias cruzadas de dominios consistentes. La capacidad del modelo es esencial: los modelos más fuertes internalizan patrones procedimentales transferibles (por ejemplo, backtracking) incluso a partir de un juego aritmético simple, mientras que los más débiles imitan la verbosidad superficial. Sin embargo, esta generalización es asimétrica: el razonamiento mejora mientras que la seguridad se degrada, replanteando la pregunta de si el SFT de razonamiento generaliza a bajo qué condiciones y a qué costo.

English

A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.

Replanteando la Generalización en el Razonamiento mediante SFT: Un Análisis Condicional sobre Optimización, Datos y Capacidad del Modelo

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Resumen

Support