QFFT, Vraagvrije Fine-Tuning voor Adaptief Redeneren
QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
June 15, 2025
Auteurs: Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang
cs.AI
Samenvatting
Recente vooruitgang in Long Chain-of-Thought (CoT) redeneermodellen heeft de prestaties op complexe taken verbeterd, maar deze modellen lijden aan overdenken, wat overbodige redeneerstappen genereert, vooral bij eenvoudige vragen. Dit artikel heronderzoekt de redeneerpatronen van Long en Short CoT-modellen en constateert dat de Short CoT-patronen efficiënt beknopt redeneren, terwijl de Long CoT-patronen uitblinken in uitdagende scenario's waar de Short CoT-patronen tekortschieten. Om modellen in staat te stellen beide patronen te benutten, stellen we Question-Free Fine-Tuning (QFFT) voor, een fine-tuningbenadering waarbij de invoervraag tijdens de training wordt verwijderd en uitsluitend wordt geleerd van Long CoT-antwoorden. Deze aanpak stelt het model in staat om beide redeneerpatronen adaptief in te zetten: het geeft prioriteit aan de Short CoT-patronen en activeert de Long CoT-patronen alleen wanneer dat nodig is. Experimenten op verschillende wiskundige datasets tonen aan dat QFFT de gemiddelde antwoordlengte met meer dan 50\% vermindert, terwijl het prestaties bereikt die vergelijkbaar zijn met Supervised Fine-Tuning (SFT). Daarnaast presteert QFFT beter dan SFT in scenario's met ruis, buiten het domein en bij beperkte bronnen.
English
Recent advancements in Long Chain-of-Thought (CoT) reasoning models have
improved performance on complex tasks, but they suffer from overthinking, which
generates redundant reasoning steps, especially for simple questions. This
paper revisits the reasoning patterns of Long and Short CoT models, observing
that the Short CoT patterns offer concise reasoning efficiently, while the Long
CoT patterns excel in challenging scenarios where the Short CoT patterns
struggle. To enable models to leverage both patterns, we propose Question-Free
Fine-Tuning (QFFT), a fine-tuning approach that removes the input question
during training and learns exclusively from Long CoT responses. This approach
enables the model to adaptively employ both reasoning patterns: it prioritizes
the Short CoT patterns and activates the Long CoT patterns only when necessary.
Experiments on various mathematical datasets demonstrate that QFFT reduces
average response length by more than 50\%, while achieving performance
comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits
superior performance compared to SFT in noisy, out-of-domain, and low-resource
scenarios.