ChatPaper.aiChatPaper

Razonamiento LLM Consciente del Presupuesto de Tokens

Token-Budget-Aware LLM Reasoning

December 24, 2024
Autores: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI

Resumen

El razonamiento es fundamental para que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) destaquen en una amplia gama de tareas. Si bien métodos como el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) mejoran el rendimiento de los LLMs al descomponer problemas en pasos intermedios, también conllevan un sobrecoste significativo en el uso de tokens, lo que resulta en costos más altos. Observamos que el proceso de razonamiento de los LLMs actuales es innecesariamente extenso y puede ser comprimido al incluir un presupuesto de tokens razonable en la indicación, pero la elección del presupuesto de tokens desempeña un papel crucial en la efectividad real de la compresión. Proponemos entonces un marco de razonamiento de LLM consciente del presupuesto de tokens, que estima dinámicamente los presupuestos de tokens para diferentes problemas basándose en la complejidad del razonamiento y utiliza los presupuestos de tokens estimados para guiar el proceso de razonamiento. Los experimentos muestran que nuestro método reduce efectivamente los costos de tokens en el razonamiento CoT con solo una ligera reducción en el rendimiento, ofreciendo una solución práctica para equilibrar la eficiencia y la precisión en el razonamiento de LLMs. Código: https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM performance by decomposing problems into intermediate steps, they also incur significant overhead in token usage, leading to increased costs. We find that the reasoning process of current LLMs is unnecessarily lengthy and it can be compressed by including a reasonable token budget in the prompt, but the choice of token budget plays a crucial role in the actual compression effectiveness. We then propose a token-budget-aware LLM reasoning framework, which dynamically estimates token budgets for different problems based on reasoning complexity and uses the estimated token budgets to guide the reasoning process. Experiments show that our method effectively reduces token costs in CoT reasoning with only a slight performance reduction, offering a practical solution to balance efficiency and accuracy in LLM reasoning. Code: https://github.com/GeniusHTX/TALE.

Summary

AI-Generated Summary

PDF472December 26, 2024