ChatPaper.aiChatPaper

校正先行型アージェント:LLMエージェントにおけるコスト考慮型探索

Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

February 18, 2026
著者: Wenxuan Ding, Nicholas Tomlin, Greg Durrett
cs.AI

要旨

大規模言語モデル(LLM)は、単一の応答で解決されるとは限らない複雑な問題に対して、環境との相互作用を通じて情報を獲得する必要がある場面でますます利用されるようになっている。このようなシナリオでは、LLMは探索をいつ終了し回答を確定するかという、本質的なコストと不確実性のトレードオフについて推論しなければならない。例えばプログラミング課題では、LLMは生成したコードスニペットの正しさに不確実性がある場合にテストを実施すべきである。テスト作成のコストはゼロではないが、一般的に誤りを見逃すコストよりも低い。本研究では、LLMにこれらのコストと不確実性のトレードオフを明示的に推論させ、より最適な環境探索を実行できるように誘導できることを示す。情報検索やコーディングを含む複数のタスクを、不確実性下での逐次意思決定問題として形式化する。各問題には潜在的な環境状態が存在し、LLMエージェントに渡される事前分布を通じて推論可能である。我々はCalibrate-Then-Act(CTA)フレームワークを提案し、LLMにこの追加コンテキストを与えることでより最適な行動を可能にする。この改善効果は、ベースラインとCTAの双方に対して強化学習訓練を実施した場合でも持続する。情報探索型QAおよび簡易化したコーディングタスクにおける結果は、CTAによって費用便益のトレードオフを明示化することが、エージェントによるより最適な意思決定戦略の発見に寄与することを示している。
English
LLMs are increasingly being used for complex problems which are not necessarily resolved in a single response, but require interacting with an environment to acquire information. In these scenarios, LLMs must reason about inherent cost-uncertainty tradeoffs in when to stop exploring and commit to an answer. For instance, on a programming task, an LLM should test a generated code snippet if it is uncertain about the correctness of that code; the cost of writing a test is nonzero, but typically lower than the cost of making a mistake. In this work, we show that we can induce LLMs to explicitly reason about balancing these cost-uncertainty tradeoffs, then perform more optimal environment exploration. We formalize multiple tasks, including information retrieval and coding, as sequential decision-making problems under uncertainty. Each problem has latent environment state that can be reasoned about via a prior which is passed to the LLM agent. We introduce a framework called Calibrate-Then-Act (CTA), where we feed the LLM this additional context to enable it to act more optimally. This improvement is preserved even under RL training of both the baseline and CTA. Our results on information-seeking QA and on a simplified coding task show that making cost-benefit tradeoffs explicit with CTA can help agents discover more optimal decision-making strategies.
PDF111February 21, 2026