QFFT, Ajuste Fino sin Preguntas para el Razonamiento Adaptativo
QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
June 15, 2025
Autores: Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang
cs.AI
Resumen
Los avances recientes en los modelos de razonamiento de Cadena de Pensamiento Larga (CoT, por sus siglas en inglés) han mejorado el rendimiento en tareas complejas, pero sufren de un exceso de reflexión, lo que genera pasos de razonamiento redundantes, especialmente en preguntas simples. Este artículo revisa los patrones de razonamiento de los modelos de CoT Larga y Corta, observando que los patrones de CoT Corta ofrecen un razonamiento conciso de manera eficiente, mientras que los patrones de CoT Larga sobresalen en escenarios desafiantes donde los patrones de CoT Corta tienen dificultades. Para permitir que los modelos aprovechen ambos patrones, proponemos el Ajuste Fino sin Pregunta (QFFT, por sus siglas en inglés), un enfoque de ajuste fino que elimina la pregunta de entrada durante el entrenamiento y aprende exclusivamente de respuestas de CoT Larga. Este enfoque permite que el modelo emplee de manera adaptativa ambos patrones de razonamiento: prioriza los patrones de CoT Corta y activa los patrones de CoT Larga solo cuando es necesario. Los experimentos en diversos conjuntos de datos matemáticos demuestran que QFFT reduce la longitud promedio de las respuestas en más del 50\%, mientras logra un rendimiento comparable al Ajuste Fino Supervisado (SFT, por sus siglas en inglés). Además, QFFT exhibe un rendimiento superior en comparación con SFT en escenarios ruidosos, fuera de dominio y con recursos limitados.
English
Recent advancements in Long Chain-of-Thought (CoT) reasoning models have
improved performance on complex tasks, but they suffer from overthinking, which
generates redundant reasoning steps, especially for simple questions. This
paper revisits the reasoning patterns of Long and Short CoT models, observing
that the Short CoT patterns offer concise reasoning efficiently, while the Long
CoT patterns excel in challenging scenarios where the Short CoT patterns
struggle. To enable models to leverage both patterns, we propose Question-Free
Fine-Tuning (QFFT), a fine-tuning approach that removes the input question
during training and learns exclusively from Long CoT responses. This approach
enables the model to adaptively employ both reasoning patterns: it prioritizes
the Short CoT patterns and activates the Long CoT patterns only when necessary.
Experiments on various mathematical datasets demonstrate that QFFT reduces
average response length by more than 50\%, while achieving performance
comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits
superior performance compared to SFT in noisy, out-of-domain, and low-resource
scenarios.