Razonamiento LLM Consciente del Presupuesto de Tokens
Token-Budget-Aware LLM Reasoning
December 24, 2024
Autores: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI
Resumen
El razonamiento es fundamental para que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) destaquen en una amplia gama de tareas. Si bien métodos como el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) mejoran el rendimiento de los LLMs al descomponer problemas en pasos intermedios, también conllevan un sobrecoste significativo en el uso de tokens, lo que resulta en costos más altos. Observamos que el proceso de razonamiento de los LLMs actuales es innecesariamente extenso y puede ser comprimido al incluir un presupuesto de tokens razonable en la indicación, pero la elección del presupuesto de tokens desempeña un papel crucial en la efectividad real de la compresión. Proponemos entonces un marco de razonamiento de LLM consciente del presupuesto de tokens, que estima dinámicamente los presupuestos de tokens para diferentes problemas basándose en la complejidad del razonamiento y utiliza los presupuestos de tokens estimados para guiar el proceso de razonamiento. Los experimentos muestran que nuestro método reduce efectivamente los costos de tokens en el razonamiento CoT con solo una ligera reducción en el rendimiento, ofreciendo una solución práctica para equilibrar la eficiencia y la precisión en el razonamiento de LLMs. Código: https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide
range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM
performance by decomposing problems into intermediate steps, they also incur
significant overhead in token usage, leading to increased costs. We find that
the reasoning process of current LLMs is unnecessarily lengthy and it can be
compressed by including a reasonable token budget in the prompt, but the choice
of token budget plays a crucial role in the actual compression effectiveness.
We then propose a token-budget-aware LLM reasoning framework, which dynamically
estimates token budgets for different problems based on reasoning complexity
and uses the estimated token budgets to guide the reasoning process.
Experiments show that our method effectively reduces token costs in CoT
reasoning with only a slight performance reduction, offering a practical
solution to balance efficiency and accuracy in LLM reasoning. Code:
https://github.com/GeniusHTX/TALE.Summary
AI-Generated Summary