Pensamentos estão por toda parte: Sobre a subponderação de LLMs semelhantes a o1.
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
January 30, 2025
Autores: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) como o o1 da OpenAI têm demonstrado habilidades notáveis em tarefas de raciocínio complexo, escalando o cálculo no momento do teste e exibindo um pensamento profundo semelhante ao humano. No entanto, identificamos um fenômeno que denominamos de subpensamento, no qual LLMs semelhantes ao o1 frequentemente alternam entre diferentes pensamentos de raciocínio sem explorar suficientemente caminhos promissores para alcançar uma solução correta. Esse comportamento leva a uma profundidade inadequada de raciocínio e desempenho reduzido, especialmente em problemas matemáticos desafiadores. Para analisar sistematicamente esse problema, realizamos experimentos em três conjuntos de testes desafiadores e dois modelos representativos de código aberto semelhantes ao o1, revelando que a alternância frequente de pensamentos se correlaciona com respostas incorretas. Introduzimos uma métrica inovadora para quantificar o subpensamento, medindo a eficiência de tokens em respostas incorretas. Para lidar com o subpensamento, propomos uma estratégia de decodificação com uma penalidade de alternância de pensamento (TIP) que desencoraja transições prematuras entre pensamentos, incentivando uma exploração mais profunda de cada caminho de raciocínio. Os resultados experimentais demonstram que nossa abordagem melhora a precisão em conjuntos de dados desafiadores sem exigir ajustes finos no modelo. Nossas descobertas contribuem para a compreensão das ineficiências de raciocínio em LLMs semelhantes ao o1 e oferecem uma solução prática para aprimorar suas capacidades de resolução de problemas.
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable
abilities in complex reasoning tasks by scaling test-time compute and
exhibiting human-like deep thinking. However, we identify a phenomenon we term
underthinking, where o1-like LLMs frequently switch between different reasoning
thoughts without sufficiently exploring promising paths to reach a correct
solution. This behavior leads to inadequate depth of reasoning and decreased
performance, particularly on challenging mathematical problems. To
systematically analyze this issue, we conduct experiments on three challenging
test sets and two representative open-source o1-like models, revealing that
frequent thought switching correlates with incorrect responses. We introduce a
novel metric to quantify underthinking by measuring token efficiency in
incorrect answers. To address underthinking, we propose a decoding strategy
with thought switching penalty TIP that discourages premature transitions
between thoughts, encouraging deeper exploration of each reasoning path.
Experimental results demonstrate that our approach improves accuracy across
challenging datasets without requiring model fine-tuning. Our findings
contribute to understanding reasoning inefficiencies in o1-like LLMs and offer
a practical solution to enhance their problem-solving capabilities.Summary
AI-Generated Summary