QFFT, Réglage fin sans questions pour le raisonnement adaptatif
QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
June 15, 2025
papers.authors: Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang
cs.AI
papers.abstract
Les récents progrès dans les modèles de raisonnement à Longue Chaîne de Pensée (CoT) ont amélioré les performances sur des tâches complexes, mais ils souffrent de surréflexion, ce qui génère des étapes de raisonnement redondantes, en particulier pour des questions simples. Cet article revisite les schémas de raisonnement des modèles à Longue et Courte CoT, observant que les schémas de Courte CoT offrent un raisonnement concis de manière efficace, tandis que les schémas de Longue CoT excellent dans des scénarios difficiles où les schémas de Courte CoT peinent. Pour permettre aux modèles de tirer parti des deux schémas, nous proposons le Question-Free Fine-Tuning (QFFT), une approche de fine-tuning qui supprime la question d'entrée pendant l'entraînement et apprend exclusivement à partir des réponses de Longue CoT. Cette approche permet au modèle d'employer de manière adaptative les deux schémas de raisonnement : il privilégie les schémas de Courte CoT et active les schémas de Longue CoT uniquement lorsque nécessaire. Les expériences sur divers ensembles de données mathématiques démontrent que le QFFT réduit la longueur moyenne des réponses de plus de 50 %, tout en atteignant des performances comparables au Fine-Tuning Supervisé (SFT). De plus, le QFFT montre une performance supérieure par rapport au SFT dans des scénarios bruyants, hors domaine et à faible ressource.
English
Recent advancements in Long Chain-of-Thought (CoT) reasoning models have
improved performance on complex tasks, but they suffer from overthinking, which
generates redundant reasoning steps, especially for simple questions. This
paper revisits the reasoning patterns of Long and Short CoT models, observing
that the Short CoT patterns offer concise reasoning efficiently, while the Long
CoT patterns excel in challenging scenarios where the Short CoT patterns
struggle. To enable models to leverage both patterns, we propose Question-Free
Fine-Tuning (QFFT), a fine-tuning approach that removes the input question
during training and learns exclusively from Long CoT responses. This approach
enables the model to adaptively employ both reasoning patterns: it prioritizes
the Short CoT patterns and activates the Long CoT patterns only when necessary.
Experiments on various mathematical datasets demonstrate that QFFT reduces
average response length by more than 50\%, while achieving performance
comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits
superior performance compared to SFT in noisy, out-of-domain, and low-resource
scenarios.