CalVerT : L'augmentation des agents par une télémétrie de vérificateur calibrée améliore l'action et l'apprentissage dans les tâches à forte intensité de connaissances.

Résumé

Les agents LLM dans le question-réponse intensif en connaissances effectuent des actions de recherche et de raisonnement avec une connaissance incomplète de la question de savoir si leur réponse actuelle est incertaine, non étayée ou déjà complète. Cela produit deux modes d'échec : s'engager sur des réponses confiantes mais non étayées, ce qui nuit à la précision, et sur-rechercher alors que les preuves déjà en main sont suffisantes, ce qui entraîne un gaspillage de calcul. Pour donner aux agents une image plus complète de l'espace d'état dans lequel ils opèrent, nous introduisons la télémétrie de vérificateur calibré (CalVerT), qui enrichit l'état de l'agent avec une télémétrie supplémentaire : un score d'auto-confiance calibré et un score de vérificateur d'ancrage. Nous montrons que CalVerT peut améliorer les agents à la fois dans des contextes sans entraînement et basés sur l'entraînement. Sur quatre benchmarks de Q-R, nous constatons que CalVerT augmente le F1 en déclenchant la recherche dans les cas où les agents se fient trop aux connaissances paramétriques, tout en réduisant la recherche redondante dans les cas où les agents disposent d'un contexte suffisant pour répondre. Nous montrons que CalVerT peut améliorer les frameworks de Q-R existants sans entraînement. De plus, CalVerT améliore également les systèmes entraînés : en enrichissant simplement l'état d'un agent avec une télémétrie, nous observons des améliorations après apprentissage par renforcement, par rapport à un agent ayant un entraînement identique mais sans télémétrie CalVerT.

English

LLM agents in knowledge intensive question answering take retrieval and reasoning actions with incomplete knowledge about whether their current answer is uncertain, unsupported, or already complete. This produces two failure modes: committing to confident but unsupported answers, which hurts accuracy, and over-retrieving when the evidence in hand already suffices, resulting in wasted compute. To give agents a more complete picture of the state space they are operating in, we introduce calibrated verifier telemetry (CalVerT), which augments the agent's state with additional telemetry: a calibrated self-confidence score and a grounding verifier score. We show that CalVerT can improve agents in both training-free and training-based settings. On four QA benchmarks, we find that CalVerT raises F1 by triggering retrieval in cases where agents over-rely on parametric knowledge, while cutting redundant retrieval in cases where agents have sufficient context to answer. We show that CalVerT can augment existing QA frameworks without training. Moreover, CalVerT also improves trained systems: by simply augmenting an agent's state with telemetry, we observe improvements after reinforcement learning, as compared to an agent with identical training but no CalVerT telemetry.