Token-Budget-bewusstes LLM-Argumentieren
Token-Budget-Aware LLM Reasoning
December 24, 2024
Autoren: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI
Zusammenfassung
Das Argumentieren ist entscheidend für große Sprachmodelle (LLMs), um in einer Vielzahl von Aufgaben herausragende Leistungen zu erbringen. Während Methoden wie Chain-of-Thought (CoT)-Argumentation die Leistung von LLMs verbessern, indem sie Probleme in Zwischenschritte zerlegen, gehen sie auch mit erheblichem Overhead bei der Token-Verwendung einher, was zu erhöhten Kosten führt. Wir stellen fest, dass der Argumentationsprozess aktueller LLMs unnötig lang ist und durch die Einbeziehung eines angemessenen Token-Budgets im Prompt komprimiert werden kann, wobei die Wahl des Token-Budgets eine entscheidende Rolle für die tatsächliche Kompressionswirksamkeit spielt. Anschließend schlagen wir ein Token-Budget-bewusstes LLM-Argumentationsrahmenwerk vor, das dynamisch Token-Budgets für verschiedene Probleme basierend auf der Argumentationskomplexität schätzt und die geschätzten Token-Budgets zur Steuerung des Argumentationsprozesses verwendet. Experimente zeigen, dass unsere Methode die Token-Kosten bei CoT-Argumentation effektiv reduziert, bei nur geringfügiger Leistungsreduzierung, und somit eine praktische Lösung bietet, um Effizienz und Genauigkeit bei LLM-Argumentation in Einklang zu bringen. Code: https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide
range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM
performance by decomposing problems into intermediate steps, they also incur
significant overhead in token usage, leading to increased costs. We find that
the reasoning process of current LLMs is unnecessarily lengthy and it can be
compressed by including a reasonable token budget in the prompt, but the choice
of token budget plays a crucial role in the actual compression effectiveness.
We then propose a token-budget-aware LLM reasoning framework, which dynamically
estimates token budgets for different problems based on reasoning complexity
and uses the estimated token budgets to guide the reasoning process.
Experiments show that our method effectively reduces token costs in CoT
reasoning with only a slight performance reduction, offering a practical
solution to balance efficiency and accuracy in LLM reasoning. Code:
https://github.com/GeniusHTX/TALE.Summary
AI-Generated Summary