QFFT, Fragefreies Feinabstimmen für adaptives Denken
QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
June 15, 2025
Autoren: Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Long Chain-of-Thought (CoT)-Modellen haben die Leistung bei komplexen Aufgaben verbessert, jedoch leiden sie unter Überdenken, was redundante Denkschritte erzeugt, insbesondere bei einfachen Fragen. Diese Arbeit untersucht erneut die Denkmuster von Long- und Short-CoT-Modellen und stellt fest, dass die Short-CoT-Muster effizient prägnantes Denken ermöglichen, während die Long-CoT-Muster in herausfordernden Szenarien, in denen die Short-CoT-Muster Schwierigkeiten haben, überzeugen. Um Modellen die Nutzung beider Muster zu ermöglichen, schlagen wir Question-Free Fine-Tuning (QFFT) vor, einen Feinabstimmungsansatz, der die Eingabefrage während des Trainings entfernt und ausschließlich aus Long-CoT-Antworten lernt. Dieser Ansatz ermöglicht es dem Modell, beide Denkmuster adaptiv einzusetzen: Es priorisiert die Short-CoT-Muster und aktiviert die Long-CoT-Muster nur bei Bedarf. Experimente auf verschiedenen mathematischen Datensätzen zeigen, dass QFFT die durchschnittliche Antwortlänge um mehr als 50\% reduziert, während es eine Leistung erzielt, die mit Supervised Fine-Tuning (SFT) vergleichbar ist. Darüber hinaus zeigt QFFT im Vergleich zu SFT eine überlegene Leistung in verrauschten, außerhalb der Domäne liegenden und ressourcenarmen Szenarien.
English
Recent advancements in Long Chain-of-Thought (CoT) reasoning models have
improved performance on complex tasks, but they suffer from overthinking, which
generates redundant reasoning steps, especially for simple questions. This
paper revisits the reasoning patterns of Long and Short CoT models, observing
that the Short CoT patterns offer concise reasoning efficiently, while the Long
CoT patterns excel in challenging scenarios where the Short CoT patterns
struggle. To enable models to leverage both patterns, we propose Question-Free
Fine-Tuning (QFFT), a fine-tuning approach that removes the input question
during training and learns exclusively from Long CoT responses. This approach
enables the model to adaptively employ both reasoning patterns: it prioritizes
the Short CoT patterns and activates the Long CoT patterns only when necessary.
Experiments on various mathematical datasets demonstrate that QFFT reduces
average response length by more than 50\%, while achieving performance
comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits
superior performance compared to SFT in noisy, out-of-domain, and low-resource
scenarios.