ChatPaper.aiChatPaper

I Pensieri Sono Ovunque: Sull'Insufficiente Riflessione dei LLM simili a o1

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

January 30, 2025
Autori: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) come l'o1 di OpenAI hanno dimostrato notevoli capacità in complesse attività di ragionamento scalando il calcolo al momento del test e mostrando un pensiero profondo simile a quello umano. Tuttavia, identifichiamo un fenomeno che abbiamo definito sottopensiero, in cui i LLM simili all'o1 passano frequentemente tra diversi pensieri di ragionamento senza esplorare sufficientemente percorsi promettenti per raggiungere una soluzione corretta. Questo comportamento porta a una profondità di ragionamento inadeguata e a una diminuzione delle prestazioni, in particolare su problemi matematici impegnativi. Per analizzare sistematicamente questo problema, conduciamo esperimenti su tre set di test impegnativi e due modelli open-source rappresentativi simili all'o1, rivelando che il frequente passaggio di pensiero correla con risposte incorrette. Introduciamo una nuova metrica per quantificare il sottopensiero misurando l'efficienza dei token nelle risposte sbagliate. Per affrontare il sottopensiero, proponiamo una strategia di decodifica con penalità per il passaggio di pensiero (TIP) che scoraggia le transizioni premature tra i pensieri, incoraggiando un'esplorazione più approfondita di ciascun percorso di ragionamento. I risultati sperimentali dimostrano che il nostro approccio migliora l'accuratezza attraverso set di dati impegnativi senza richiedere un raffinamento del modello. Le nostre scoperte contribuiscono a comprendere le inefficienze di ragionamento nei LLM simili all'o1 e offrono una soluzione pratica per potenziarne le capacità di risoluzione dei problemi.
English
Large language models (LLMs) such as OpenAI's o1 have demonstrated remarkable abilities in complex reasoning tasks by scaling test-time compute and exhibiting human-like deep thinking. However, we identify a phenomenon we term underthinking, where o1-like LLMs frequently switch between different reasoning thoughts without sufficiently exploring promising paths to reach a correct solution. This behavior leads to inadequate depth of reasoning and decreased performance, particularly on challenging mathematical problems. To systematically analyze this issue, we conduct experiments on three challenging test sets and two representative open-source o1-like models, revealing that frequent thought switching correlates with incorrect responses. We introduce a novel metric to quantify underthinking by measuring token efficiency in incorrect answers. To address underthinking, we propose a decoding strategy with thought switching penalty TIP that discourages premature transitions between thoughts, encouraging deeper exploration of each reasoning path. Experimental results demonstrate that our approach improves accuracy across challenging datasets without requiring model fine-tuning. Our findings contribute to understanding reasoning inefficiencies in o1-like LLMs and offer a practical solution to enhance their problem-solving capabilities.

Summary

AI-Generated Summary

PDF6111January 31, 2025