QFFT, тонкая настройка без вопросов для адаптивного рассуждения
QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
June 15, 2025
Авторы: Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang
cs.AI
Аннотация
Последние достижения в моделях рассуждений с длинной цепочкой мыслей (CoT) улучшили производительность на сложных задачах, однако они страдают от избыточного анализа, что приводит к генерации лишних шагов рассуждений, особенно для простых вопросов. В данной работе пересматриваются паттерны рассуждений длинных и коротких моделей CoT, отмечая, что короткие паттерны CoT обеспечивают лаконичные и эффективные рассуждения, в то время как длинные паттерны CoT превосходно справляются со сложными сценариями, где короткие паттерны оказываются неэффективными. Чтобы позволить моделям использовать оба паттерна, мы предлагаем метод тонкой настройки без вопроса (QFFT), при котором входной вопрос удаляется во время обучения, и модель обучается исключительно на длинных ответах CoT. Этот подход позволяет модели адаптивно применять оба паттерна рассуждений: она отдает приоритет коротким паттернам CoT и активирует длинные паттерны CoT только в случае необходимости. Эксперименты на различных математических наборах данных показывают, что QFFT сокращает среднюю длину ответа более чем на 50\%, при этом достигая производительности, сопоставимой с контролируемой тонкой настройкой (SFT). Кроме того, QFFT демонстрирует превосходную производительность по сравнению с SFT в условиях шума, вне домена и при ограниченных ресурсах.
English
Recent advancements in Long Chain-of-Thought (CoT) reasoning models have
improved performance on complex tasks, but they suffer from overthinking, which
generates redundant reasoning steps, especially for simple questions. This
paper revisits the reasoning patterns of Long and Short CoT models, observing
that the Short CoT patterns offer concise reasoning efficiently, while the Long
CoT patterns excel in challenging scenarios where the Short CoT patterns
struggle. To enable models to leverage both patterns, we propose Question-Free
Fine-Tuning (QFFT), a fine-tuning approach that removes the input question
during training and learns exclusively from Long CoT responses. This approach
enables the model to adaptively employ both reasoning patterns: it prioritizes
the Short CoT patterns and activates the Long CoT patterns only when necessary.
Experiments on various mathematical datasets demonstrate that QFFT reduces
average response length by more than 50\%, while achieving performance
comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits
superior performance compared to SFT in noisy, out-of-domain, and low-resource
scenarios.