Размышления LLM с учетом бюджета токенов
Token-Budget-Aware LLM Reasoning
December 24, 2024
Авторы: Tingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang
cs.AI
Аннотация
Рассуждения являются критическими для успешного выполнения широкого спектра задач большими языковыми моделями (LLM). В то время как методы, такие как цепочка мыслей (CoT), улучшают производительность LLM, декомпозируя задачи на промежуточные шаги, они также вызывают значительные накладные расходы по токенам, что приводит к увеличению затрат. Мы обнаружили, что процесс рассуждения текущих LLM излишне длителен и его можно сжать, включив разумный бюджет токенов в подсказку, однако выбор бюджета токенов играет решающую роль в фактической эффективности сжатия. Затем мы предлагаем фреймворк рассуждения LLM, осведомленный о бюджете токенов, который динамически оценивает бюджеты токенов для различных задач на основе сложности рассуждений и использует оцененные бюджеты токенов для направления процесса рассуждения. Эксперименты показывают, что наш метод эффективно снижает затраты на токены в рассуждениях CoT с незначительным снижением производительности, предлагая практическое решение для балансировки эффективности и точности в рассуждениях LLM. Код: https://github.com/GeniusHTX/TALE.
English
Reasoning is critical for large language models (LLMs) to excel in a wide
range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM
performance by decomposing problems into intermediate steps, they also incur
significant overhead in token usage, leading to increased costs. We find that
the reasoning process of current LLMs is unnecessarily lengthy and it can be
compressed by including a reasonable token budget in the prompt, but the choice
of token budget plays a crucial role in the actual compression effectiveness.
We then propose a token-budget-aware LLM reasoning framework, which dynamically
estimates token budgets for different problems based on reasoning complexity
and uses the estimated token budgets to guide the reasoning process.
Experiments show that our method effectively reduces token costs in CoT
reasoning with only a slight performance reduction, offering a practical
solution to balance efficiency and accuracy in LLM reasoning. Code:
https://github.com/GeniusHTX/TALE.Summary
AI-Generated Summary