QFFT, Vraagvrije Fine-Tuning voor Adaptief Redeneren

Samenvatting

Recente vooruitgang in Long Chain-of-Thought (CoT) redeneermodellen heeft de prestaties op complexe taken verbeterd, maar deze modellen lijden aan overdenken, wat overbodige redeneerstappen genereert, vooral bij eenvoudige vragen. Dit artikel heronderzoekt de redeneerpatronen van Long en Short CoT-modellen en constateert dat de Short CoT-patronen efficiënt beknopt redeneren, terwijl de Long CoT-patronen uitblinken in uitdagende scenario's waar de Short CoT-patronen tekortschieten. Om modellen in staat te stellen beide patronen te benutten, stellen we Question-Free Fine-Tuning (QFFT) voor, een fine-tuningbenadering waarbij de invoervraag tijdens de training wordt verwijderd en uitsluitend wordt geleerd van Long CoT-antwoorden. Deze aanpak stelt het model in staat om beide redeneerpatronen adaptief in te zetten: het geeft prioriteit aan de Short CoT-patronen en activeert de Long CoT-patronen alleen wanneer dat nodig is. Experimenten op verschillende wiskundige datasets tonen aan dat QFFT de gemiddelde antwoordlengte met meer dan 50\% vermindert, terwijl het prestaties bereikt die vergelijkbaar zijn met Supervised Fine-Tuning (SFT). Daarnaast presteert QFFT beter dan SFT in scenario's met ruis, buiten het domein en bij beperkte bronnen.

English

Recent advancements in Long Chain-of-Thought (CoT) reasoning models have improved performance on complex tasks, but they suffer from overthinking, which generates redundant reasoning steps, especially for simple questions. This paper revisits the reasoning patterns of Long and Short CoT models, observing that the Short CoT patterns offer concise reasoning efficiently, while the Long CoT patterns excel in challenging scenarios where the Short CoT patterns struggle. To enable models to leverage both patterns, we propose Question-Free Fine-Tuning (QFFT), a fine-tuning approach that removes the input question during training and learns exclusively from Long CoT responses. This approach enables the model to adaptively employ both reasoning patterns: it prioritizes the Short CoT patterns and activates the Long CoT patterns only when necessary. Experiments on various mathematical datasets demonstrate that QFFT reduces average response length by more than 50\%, while achieving performance comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits superior performance compared to SFT in noisy, out-of-domain, and low-resource scenarios.

QFFT, Vraagvrije Fine-Tuning voor Adaptief Redeneren

QFFT, Question-Free Fine-Tuning for Adaptive Reasoning

Samenvatting

Support