QFFT, Ottimizzazione Fine-Tuning Senza Domande per il Ragionamento Adattivo
QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
June 15, 2025
Autori: Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang
cs.AI
Abstract
I recenti progressi nei modelli di ragionamento a Lunga Catena di Pensiero (CoT) hanno migliorato le prestazioni su compiti complessi, ma soffrono di un eccesso di ragionamento, che genera passaggi ridondanti, specialmente per domande semplici. Questo articolo esamina nuovamente i modelli di ragionamento delle Catene di Pensiero Lunghe e Corte, osservando che i modelli a Catena Corta offrono un ragionamento conciso in modo efficiente, mentre i modelli a Catena Lunga eccellono in scenari complessi dove i modelli a Catena Corta faticano. Per consentire ai modelli di sfruttare entrambi i modelli di ragionamento, proponiamo il Fine-Tuning Senza Domanda (QFFT), un approccio di fine-tuning che rimuove la domanda di input durante l'addestramento e apprende esclusivamente dalle risposte delle Catene di Pensiero Lunghe. Questo approccio consente al modello di impiegare in modo adattivo entrambi i modelli di ragionamento: privilegia le Catene di Pensiero Corte e attiva le Catene di Pensiero Lunghe solo quando necessario. Esperimenti su vari dataset matematici dimostrano che QFFT riduce la lunghezza media delle risposte di oltre il 50\%, pur raggiungendo prestazioni comparabili al Fine-Tuning Supervisionato (SFT). Inoltre, QFFT mostra prestazioni superiori rispetto a SFT in scenari rumorosi, fuori dominio e a basso contenuto di risorse.
English
Recent advancements in Long Chain-of-Thought (CoT) reasoning models have
improved performance on complex tasks, but they suffer from overthinking, which
generates redundant reasoning steps, especially for simple questions. This
paper revisits the reasoning patterns of Long and Short CoT models, observing
that the Short CoT patterns offer concise reasoning efficiently, while the Long
CoT patterns excel in challenging scenarios where the Short CoT patterns
struggle. To enable models to leverage both patterns, we propose Question-Free
Fine-Tuning (QFFT), a fine-tuning approach that removes the input question
during training and learns exclusively from Long CoT responses. This approach
enables the model to adaptively employ both reasoning patterns: it prioritizes
the Short CoT patterns and activates the Long CoT patterns only when necessary.
Experiments on various mathematical datasets demonstrate that QFFT reduces
average response length by more than 50\%, while achieving performance
comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits
superior performance compared to SFT in noisy, out-of-domain, and low-resource
scenarios.