Pianificazione e Budget: Scalabilità Efficace ed Efficiente al Momento del Test nel Ragionamento dei Modelli Linguistici di Grandi Dimensioni
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
May 22, 2025
Autori: Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou
cs.AI
Abstract
I Large Language Model (LLM) hanno ottenuto un successo notevole in compiti di ragionamento complesso, ma la loro inferenza rimane computazionalmente inefficiente. Osserviamo una modalità di fallimento comune in molti LLM diffusi, il cosiddetto "overthinking", in cui i modelli generano tracce di ragionamento prolisse e tangenziali anche per query semplici. Recenti lavori hanno cercato di mitigare questo problema imponendo budget di token fissi, tuttavia, ciò può portare a un "underthinking", specialmente su problemi più difficili. Attraverso un'analisi empirica, identifichiamo che questa inefficienza spesso deriva da strategie di risoluzione dei problemi poco chiare. Per formalizzare questo concetto, sviluppiamo un modello teorico, il BBAM (Bayesian Budget Allocation Model), che modella il ragionamento come una sequenza di sotto-domande con incertezza variabile, e introduciamo la metrica E^3 per catturare il compromesso tra correttezza ed efficienza computazionale. Basandoci sui risultati teorici del BBAM, proponiamo Plan-and-Budget, un framework agnostico rispetto al modello e applicabile al momento del test, che scompone query complesse in sotto-domande e assegna budget di token in base alla complessità stimata utilizzando una schedulazione adattiva. Plan-and-Budget migliora l'efficienza del ragionamento su una gamma di compiti e modelli, ottenendo fino a un +70% di guadagno in accuratezza, una riduzione del 39% dei token e un miglioramento del 187,5% in E^3. In particolare, eleva un modello più piccolo (DS-Qwen-32B) a eguagliare l'efficienza di un modello più grande (DS-LLaMA-70B), dimostrando la capacità di Plan-and-Budget di colmare i divari di prestazione senza necessità di riaddestramento. Il nostro codice è disponibile all'indirizzo anonymous.4open.science/r/P-and-B-6513/.
English
Large Language Models (LLMs) have achieved remarkable success in complex
reasoning tasks, but their inference remains computationally inefficient. We
observe a common failure mode in many prevalent LLMs, overthinking, where
models generate verbose and tangential reasoning traces even for simple
queries. Recent works have tried to mitigate this by enforcing fixed token
budgets, however, this can lead to underthinking, especially on harder
problems. Through empirical analysis, we identify that this inefficiency often
stems from unclear problem-solving strategies. To formalize this, we develop a
theoretical model, BBAM (Bayesian Budget Allocation Model), which models
reasoning as a sequence of sub-questions with varying uncertainty, and
introduce the E^3 metric to capture the trade-off between correctness and
computation efficiency. Building on theoretical results from BBAM, we propose
Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex
queries into sub-questions and allocates token budgets based on estimated
complexity using adaptive scheduling. Plan-and-Budget improves reasoning
efficiency across a range of tasks and models, achieving up to +70% accuracy
gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it
elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger
model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close
performance gaps without retraining. Our code is available at
anonymous.4open.science/r/P-and-B-6513/.