QFFT, Ajuste Fino Sem Perguntas para Raciocínio Adaptativo
QFFT, Question-Free Fine-Tuning for Adaptive Reasoning
June 15, 2025
Autores: Wanlong Liu, Junxiao Xu, Fei Yu, Yukang Lin, Ke Ji, Wenyu Chen, Yan Xu, Yasheng Wang, Lifeng Shang, Benyou Wang
cs.AI
Resumo
Avanços recentes nos modelos de raciocínio de Cadeia Longa de Pensamento (CoT, na sigla em inglês) têm melhorado o desempenho em tarefas complexas, mas eles sofrem com o excesso de pensamento, que gera etapas de raciocínio redundantes, especialmente para perguntas simples. Este artigo revisita os padrões de raciocínio dos modelos de CoT Longa e Curta, observando que os padrões de CoT Curta oferecem raciocínio conciso de forma eficiente, enquanto os padrões de CoT Longa se destacam em cenários desafiadores onde os padrões de CoT Curta têm dificuldades. Para permitir que os modelos aproveitem ambos os padrões, propomos o Ajuste Fino Sem Pergunta (QFFT, na sigla em inglês), uma abordagem de ajuste fino que remove a pergunta de entrada durante o treinamento e aprende exclusivamente a partir de respostas de CoT Longa. Essa abordagem permite que o modelo empregue adaptativamente ambos os padrões de raciocínio: ele prioriza os padrões de CoT Curta e ativa os padrões de CoT Longa apenas quando necessário. Experimentos em diversos conjuntos de dados matemáticos demonstram que o QFFT reduz o comprimento médio das respostas em mais de 50%, ao mesmo tempo que alcança desempenho comparável ao Ajuste Fino Supervisionado (SFT, na sigla em inglês). Além disso, o QFFT exibe desempenho superior em comparação ao SFT em cenários ruidosos, fora do domínio e com poucos recursos.
English
Recent advancements in Long Chain-of-Thought (CoT) reasoning models have
improved performance on complex tasks, but they suffer from overthinking, which
generates redundant reasoning steps, especially for simple questions. This
paper revisits the reasoning patterns of Long and Short CoT models, observing
that the Short CoT patterns offer concise reasoning efficiently, while the Long
CoT patterns excel in challenging scenarios where the Short CoT patterns
struggle. To enable models to leverage both patterns, we propose Question-Free
Fine-Tuning (QFFT), a fine-tuning approach that removes the input question
during training and learns exclusively from Long CoT responses. This approach
enables the model to adaptively employ both reasoning patterns: it prioritizes
the Short CoT patterns and activates the Long CoT patterns only when necessary.
Experiments on various mathematical datasets demonstrate that QFFT reduces
average response length by more than 50\%, while achieving performance
comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits
superior performance compared to SFT in noisy, out-of-domain, and low-resource
scenarios.