QFFT, Ajuste Fino Sem Perguntas para Raciocínio Adaptativo

Resumo

Avanços recentes nos modelos de raciocínio de Cadeia Longa de Pensamento (CoT, na sigla em inglês) têm melhorado o desempenho em tarefas complexas, mas eles sofrem com o excesso de pensamento, que gera etapas de raciocínio redundantes, especialmente para perguntas simples. Este artigo revisita os padrões de raciocínio dos modelos de CoT Longa e Curta, observando que os padrões de CoT Curta oferecem raciocínio conciso de forma eficiente, enquanto os padrões de CoT Longa se destacam em cenários desafiadores onde os padrões de CoT Curta têm dificuldades. Para permitir que os modelos aproveitem ambos os padrões, propomos o Ajuste Fino Sem Pergunta (QFFT, na sigla em inglês), uma abordagem de ajuste fino que remove a pergunta de entrada durante o treinamento e aprende exclusivamente a partir de respostas de CoT Longa. Essa abordagem permite que o modelo empregue adaptativamente ambos os padrões de raciocínio: ele prioriza os padrões de CoT Curta e ativa os padrões de CoT Longa apenas quando necessário. Experimentos em diversos conjuntos de dados matemáticos demonstram que o QFFT reduz o comprimento médio das respostas em mais de 50%, ao mesmo tempo que alcança desempenho comparável ao Ajuste Fino Supervisionado (SFT, na sigla em inglês). Além disso, o QFFT exibe desempenho superior em comparação ao SFT em cenários ruidosos, fora do domínio e com poucos recursos.

English

Recent advancements in Long Chain-of-Thought (CoT) reasoning models have improved performance on complex tasks, but they suffer from overthinking, which generates redundant reasoning steps, especially for simple questions. This paper revisits the reasoning patterns of Long and Short CoT models, observing that the Short CoT patterns offer concise reasoning efficiently, while the Long CoT patterns excel in challenging scenarios where the Short CoT patterns struggle. To enable models to leverage both patterns, we propose Question-Free Fine-Tuning (QFFT), a fine-tuning approach that removes the input question during training and learns exclusively from Long CoT responses. This approach enables the model to adaptively employ both reasoning patterns: it prioritizes the Short CoT patterns and activates the Long CoT patterns only when necessary. Experiments on various mathematical datasets demonstrate that QFFT reduces average response length by more than 50\%, while achieving performance comparable to Supervised Fine-Tuning (SFT). Additionally, QFFT exhibits superior performance compared to SFT in noisy, out-of-domain, and low-resource scenarios.

QFFT, Ajuste Fino Sem Perguntas para Raciocínio Adaptativo

QFFT, Question-Free Fine-Tuning for Adaptive Reasoning

Resumo

Support