Pianificazione e Budget: Scalabilità Efficace ed Efficiente al Momento del Test nel Ragionamento dei Modelli Linguistici di Grandi Dimensioni

Abstract

I Large Language Model (LLM) hanno ottenuto un successo notevole in compiti di ragionamento complesso, ma la loro inferenza rimane computazionalmente inefficiente. Osserviamo una modalità di fallimento comune in molti LLM diffusi, il cosiddetto "overthinking", in cui i modelli generano tracce di ragionamento prolisse e tangenziali anche per query semplici. Recenti lavori hanno cercato di mitigare questo problema imponendo budget di token fissi, tuttavia, ciò può portare a un "underthinking", specialmente su problemi più difficili. Attraverso un'analisi empirica, identifichiamo che questa inefficienza spesso deriva da strategie di risoluzione dei problemi poco chiare. Per formalizzare questo concetto, sviluppiamo un modello teorico, il BBAM (Bayesian Budget Allocation Model), che modella il ragionamento come una sequenza di sotto-domande con incertezza variabile, e introduciamo la metrica E^3 per catturare il compromesso tra correttezza ed efficienza computazionale. Basandoci sui risultati teorici del BBAM, proponiamo Plan-and-Budget, un framework agnostico rispetto al modello e applicabile al momento del test, che scompone query complesse in sotto-domande e assegna budget di token in base alla complessità stimata utilizzando una schedulazione adattiva. Plan-and-Budget migliora l'efficienza del ragionamento su una gamma di compiti e modelli, ottenendo fino a un +70% di guadagno in accuratezza, una riduzione del 39% dei token e un miglioramento del 187,5% in E^3. In particolare, eleva un modello più piccolo (DS-Qwen-32B) a eguagliare l'efficienza di un modello più grande (DS-LLaMA-70B), dimostrando la capacità di Plan-and-Budget di colmare i divari di prestazione senza necessità di riaddestramento. Il nostro codice è disponibile all'indirizzo anonymous.4open.science/r/P-and-B-6513/.

English

Large Language Models (LLMs) have achieved remarkable success in complex reasoning tasks, but their inference remains computationally inefficient. We observe a common failure mode in many prevalent LLMs, overthinking, where models generate verbose and tangential reasoning traces even for simple queries. Recent works have tried to mitigate this by enforcing fixed token budgets, however, this can lead to underthinking, especially on harder problems. Through empirical analysis, we identify that this inefficiency often stems from unclear problem-solving strategies. To formalize this, we develop a theoretical model, BBAM (Bayesian Budget Allocation Model), which models reasoning as a sequence of sub-questions with varying uncertainty, and introduce the E^3 metric to capture the trade-off between correctness and computation efficiency. Building on theoretical results from BBAM, we propose Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex queries into sub-questions and allocates token budgets based on estimated complexity using adaptive scheduling. Plan-and-Budget improves reasoning efficiency across a range of tasks and models, achieving up to +70% accuracy gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close performance gaps without retraining. Our code is available at anonymous.4open.science/r/P-and-B-6513/.

Pianificazione e Budget: Scalabilità Efficace ed Efficiente al Momento del Test nel Ragionamento dei Modelli Linguistici di Grandi Dimensioni

Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning

Abstract

Support