Calibrer puis Agir : Exploration consciente du coût dans les agents LLM

papers.abstract

Les modèles de langage de grande taille (LLM) sont de plus en plus utilisés pour résoudre des problèmes complexes qui ne sont pas nécessairement résolus en une seule réponse, mais qui nécessitent une interaction avec un environnement pour acquérir des informations. Dans ces scénarios, les LLM doivent raisonner sur les compromis coût-incertitude inhérents quant au moment d'arrêter l'exploration et de s'engager sur une réponse. Par exemple, pour une tâche de programmation, un LLM devrait tester un snippet de code généré s'il est incertain de son exactitude ; le coût de l'écriture d'un test est non nul, mais généralement inférieur au coût d'une erreur. Dans ce travail, nous montrons que nous pouvons amener les LLM à raisonner explicitement sur l'équilibrage de ces compromis coût-incertitude, puis à effectuer une exploration de l'environnement plus optimale. Nous formalisons plusieurs tâches, incluant la recherche d'information et le codage, comme des problèmes de prise de décision séquentielle dans l'incertitude. Chaque problème possède un état d'environnement latent sur lequel on peut raisonner via une information a priori transmise à l'agent LLM. Nous introduisons un cadre appelé Calibrate-Then-Act (CTA), dans lequel nous fournons au LLM ce contexte supplémentaire pour lui permettre d'agir de manière plus optimale. Cette amélioration est préservée même lors d'un apprentissage par renforcement (RL) appliqué à la fois au modèle de base et au CTA. Nos résultats sur des tâches de questions-réponses informationnelles et sur une tâche de codage simplifiée montrent que rendre explicites les compromis coût-bénéfice avec CTA peut aider les agents à découvrir des stratégies de prise de décision plus optimales.

English

LLMs are increasingly being used for complex problems which are not necessarily resolved in a single response, but require interacting with an environment to acquire information. In these scenarios, LLMs must reason about inherent cost-uncertainty tradeoffs in when to stop exploring and commit to an answer. For instance, on a programming task, an LLM should test a generated code snippet if it is uncertain about the correctness of that code; the cost of writing a test is nonzero, but typically lower than the cost of making a mistake. In this work, we show that we can induce LLMs to explicitly reason about balancing these cost-uncertainty tradeoffs, then perform more optimal environment exploration. We formalize multiple tasks, including information retrieval and coding, as sequential decision-making problems under uncertainty. Each problem has latent environment state that can be reasoned about via a prior which is passed to the LLM agent. We introduce a framework called Calibrate-Then-Act (CTA), where we feed the LLM this additional context to enable it to act more optimally. This improvement is preserved even under RL training of both the baseline and CTA. Our results on information-seeking QA and on a simplified coding task show that making cost-benefit tradeoffs explicit with CTA can help agents discover more optimal decision-making strategies.

Calibrer puis Agir : Exploration consciente du coût dans les agents LLM

Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

papers.abstract

Support