Raisonnement LLM conscient du budget de jetons
Token-Budget-Aware LLM Reasoning
December 24, 2024
Auteurs: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI
Résumé
Le raisonnement est crucial pour que les grands modèles de langage (LLM) excellent dans une grande variété de tâches. Alors que des méthodes telles que le raisonnement en chaîne de pensée (CoT) améliorent les performances des LLM en décomposant les problèmes en étapes intermédiaires, elles entraînent également une surcharge significative en termes d'utilisation de jetons, ce qui se traduit par des coûts accrus. Nous constatons que le processus de raisonnement des LLM actuels est inutilement long et peut être compressé en incluant un budget de jetons raisonnable dans la requête, mais le choix du budget de jetons joue un rôle crucial dans l'efficacité réelle de la compression. Nous proposons ensuite un cadre de raisonnement LLM conscient du budget de jetons, qui estime dynamiquement les budgets de jetons pour différents problèmes en fonction de la complexité du raisonnement et utilise les budgets de jetons estimés pour guider le processus de raisonnement. Les expériences montrent que notre méthode réduit efficacement les coûts en jetons dans le raisonnement CoT avec seulement une légère réduction des performances, offrant ainsi une solution pratique pour équilibrer l'efficacité et la précision dans le raisonnement LLM. Code : https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide
range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM
performance by decomposing problems into intermediate steps, they also incur
significant overhead in token usage, leading to increased costs. We find that
the reasoning process of current LLMs is unnecessarily lengthy and it can be
compressed by including a reasonable token budget in the prompt, but the choice
of token budget plays a crucial role in the actual compression effectiveness.
We then propose a token-budget-aware LLM reasoning framework, which dynamically
estimates token budgets for different problems based on reasoning complexity
and uses the estimated token budgets to guide the reasoning process.
Experiments show that our method effectively reduces token costs in CoT
reasoning with only a slight performance reduction, offering a practical
solution to balance efficiency and accuracy in LLM reasoning. Code:
https://github.com/GeniusHTX/TALE.Summary
AI-Generated Summary