QFFT, тонкая настройка без вопросов для адаптивного рассуждения

Аннотация

Последние достижения в моделях рассуждений с длинной цепочкой мыслей (CoT) улучшили производительность на сложных задачах, однако они страдают от избыточного анализа, что приводит к генерации лишних шагов рассуждений, особенно для простых вопросов. В данной работе пересматриваются паттерны рассуждений длинных и коротких моделей CoT, отмечая, что короткие паттерны CoT обеспечивают лаконичные и эффективные рассуждения, в то время как длинные паттерны CoT превосходно справляются со сложными сценариями, где короткие паттерны оказываются неэффективными. Чтобы позволить моделям использовать оба паттерна, мы предлагаем метод тонкой настройки без вопроса (QFFT), при котором входной вопрос удаляется во время обучения, и модель обучается исключительно на длинных ответах CoT. Этот подход позволяет модели адаптивно применять оба паттерна рассуждений: она отдает приоритет коротким паттернам CoT и активирует длинные паттерны CoT только в случае необходимости. Эксперименты на различных математических наборах данных показывают, что QFFT сокращает среднюю длину ответа более чем на 50\%, при этом достигая производительности, сопоставимой с контролируемой тонкой настройкой (SFT). Кроме того, QFFT демонстрирует превосходную производительность по сравнению с SFT в условиях шума, вне домена и при ограниченных ресурсах.

English

Recent advancements in Long Chain-of-Thought (CoT) reasoning models have improved performance on complex tasks, but they suffer from overthinking, which generates redundant reasoning steps, especially for simple questions. This paper revisits the reasoning patterns of Long and Short CoT models, observing that the Short CoT patterns offer concise reasoning efficiently, while the Long CoT patterns excel in challenging scenarios where the Short CoT patterns struggle. To enable models to leverage both patterns, we propose Question-Free Fine-Tuning (QFFT), a fine-tuning approach that removes the input question during training and learns exclusively from Long CoT responses. This approach enables the model to adaptively employ both reasoning patterns: it prioritizes the Short CoT patterns and activates the Long CoT patterns only when necessary. Experiments on various mathematical datasets demonstrate that QFFT reduces average response length by more than 50\%, while achieving performance comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits superior performance compared to SFT in noisy, out-of-domain, and low-resource scenarios.

QFFT, тонкая настройка без вопросов для адаптивного рассуждения

QFFT, Question-Free Fine-Tuning for Adaptive Reasoning

Аннотация

Support