Размышления LLM с учетом бюджета токенов

Аннотация

Рассуждения являются критическими для успешного выполнения широкого спектра задач большими языковыми моделями (LLM). В то время как методы, такие как цепочка мыслей (CoT), улучшают производительность LLM, декомпозируя задачи на промежуточные шаги, они также вызывают значительные накладные расходы по токенам, что приводит к увеличению затрат. Мы обнаружили, что процесс рассуждения текущих LLM излишне длителен и его можно сжать, включив разумный бюджет токенов в подсказку, однако выбор бюджета токенов играет решающую роль в фактической эффективности сжатия. Затем мы предлагаем фреймворк рассуждения LLM, осведомленный о бюджете токенов, который динамически оценивает бюджеты токенов для различных задач на основе сложности рассуждений и использует оцененные бюджеты токенов для направления процесса рассуждения. Эксперименты показывают, что наш метод эффективно снижает затраты на токены в рассуждениях CoT с незначительным снижением производительности, предлагая практическое решение для балансировки эффективности и точности в рассуждениях LLM. Код: https://github.com/GeniusHTX/TALE.

English

Reasoning is critical for large language models (LLMs) to excel in a wide range of tasks. While methods like Chain-of-Thought (CoT) reasoning enhance LLM performance by decomposing problems into intermediate steps, they also incur significant overhead in token usage, leading to increased costs. We find that the reasoning process of current LLMs is unnecessarily lengthy and it can be compressed by including a reasonable token budget in the prompt, but the choice of token budget plays a crucial role in the actual compression effectiveness. We then propose a token-budget-aware LLM reasoning framework, which dynamically estimates token budgets for different problems based on reasoning complexity and uses the estimated token budgets to guide the reasoning process. Experiments show that our method effectively reduces token costs in CoT reasoning with only a slight performance reduction, offering a practical solution to balance efficiency and accuracy in LLM reasoning. Code: https://github.com/GeniusHTX/TALE.

Размышления LLM с учетом бюджета токенов

Token-Budget-Aware LLM Reasoning

Аннотация

Support