QFFT, Fragefreies Feinabstimmen für adaptives Denken

papers.abstract

Jüngste Fortschritte bei Long Chain-of-Thought (CoT)-Modellen haben die Leistung bei komplexen Aufgaben verbessert, jedoch leiden sie unter Überdenken, was redundante Denkschritte erzeugt, insbesondere bei einfachen Fragen. Diese Arbeit untersucht erneut die Denkmuster von Long- und Short-CoT-Modellen und stellt fest, dass die Short-CoT-Muster effizient prägnantes Denken ermöglichen, während die Long-CoT-Muster in herausfordernden Szenarien, in denen die Short-CoT-Muster Schwierigkeiten haben, überzeugen. Um Modellen die Nutzung beider Muster zu ermöglichen, schlagen wir Question-Free Fine-Tuning (QFFT) vor, einen Feinabstimmungsansatz, der die Eingabefrage während des Trainings entfernt und ausschließlich aus Long-CoT-Antworten lernt. Dieser Ansatz ermöglicht es dem Modell, beide Denkmuster adaptiv einzusetzen: Es priorisiert die Short-CoT-Muster und aktiviert die Long-CoT-Muster nur bei Bedarf. Experimente auf verschiedenen mathematischen Datensätzen zeigen, dass QFFT die durchschnittliche Antwortlänge um mehr als 50\% reduziert, während es eine Leistung erzielt, die mit Supervised Fine-Tuning (SFT) vergleichbar ist. Darüber hinaus zeigt QFFT im Vergleich zu SFT eine überlegene Leistung in verrauschten, außerhalb der Domäne liegenden und ressourcenarmen Szenarien.

English

Recent advancements in Long Chain-of-Thought (CoT) reasoning models have improved performance on complex tasks, but they suffer from overthinking, which generates redundant reasoning steps, especially for simple questions. This paper revisits the reasoning patterns of Long and Short CoT models, observing that the Short CoT patterns offer concise reasoning efficiently, while the Long CoT patterns excel in challenging scenarios where the Short CoT patterns struggle. To enable models to leverage both patterns, we propose Question-Free Fine-Tuning (QFFT), a fine-tuning approach that removes the input question during training and learns exclusively from Long CoT responses. This approach enables the model to adaptively employ both reasoning patterns: it prioritizes the Short CoT patterns and activates the Long CoT patterns only when necessary. Experiments on various mathematical datasets demonstrate that QFFT reduces average response length by more than 50\%, while achieving performance comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits superior performance compared to SFT in noisy, out-of-domain, and low-resource scenarios.

QFFT, Fragefreies Feinabstimmen für adaptives Denken

QFFT, Question-Free Fine-Tuning for Adaptive Reasoning

papers.abstract

Support