Thinker: Aprendendo a Pensar Rápido e Devagar
Thinker: Learning to Think Fast and Slow
May 27, 2025
Autores: Stephen Chung, Wenyu Du, Jie Fu
cs.AI
Resumo
Estudos recentes mostram que as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) podem ser aprimoradas aplicando Aprendizado por Reforço (RL) a tarefas de perguntas e respostas (QA) em áreas como matemática e programação. Com um comprimento de contexto longo, os LLMs podem aprender a realizar buscas, conforme indicado pelo comportamento de autocorreção observado no DeepSeek R1. No entanto, esse comportamento de busca muitas vezes é impreciso e carece de confiança, resultando em respostas longas e redundantes, destacando deficiências na intuição e na verificação. Inspirados pela Teoria do Processo Duplo em psicologia, introduzimos uma modificação simples na tarefa de QA que inclui quatro estágios: Pensamento Rápido, onde o LLM deve responder dentro de um limite estrito de tokens; Verificação, onde o modelo avalia sua resposta inicial; Pensamento Lento, onde ele refina a resposta inicial com mais deliberação; e Sumarização, onde ele destila o refinamento do estágio anterior em etapas precisas. Nossa tarefa proposta melhora a precisão média de 24,9% para 27,9% no Qwen2.5-1.5B, e de 45,9% para 49,8% no DeepSeek-R1-Qwen-1.5B. Notavelmente, para o Qwen2.5-1.5B, o modo de Pensamento Rápido sozinho alcança 26,8% de precisão usando menos de 1000 tokens, demonstrando ganhos substanciais em eficiência de inferência. Esses achados sugerem que a intuição e o raciocínio deliberativo são sistemas distintos e complementares que se beneficiam de treinamentos direcionados.
English
Recent studies show that the reasoning capabilities of Large Language Models
(LLMs) can be improved by applying Reinforcement Learning (RL) to
question-answering (QA) tasks in areas such as math and coding. With a long
context length, LLMs may learn to perform search, as indicated by the
self-correction behavior observed in DeepSeek R1. However, this search behavior
is often imprecise and lacks confidence, resulting in long, redundant responses
and highlighting deficiencies in intuition and verification. Inspired by the
Dual Process Theory in psychology, we introduce a simple modification to the QA
task that includes four stages: Fast Thinking, where the LLM must answer within
a strict token budget; Verification, where the model evaluates its initial
response; Slow Thinking, where it refines the initial response with more
deliberation; and Summarization, where it distills the refinement from the
previous stage into precise steps. Our proposed task improves average accuracy
from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for
DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone
achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial
inference efficiency gains. These findings suggest that intuition and
deliberative reasoning are distinct, complementary systems benefiting from
targeted training.