CalVerT: Die Erweiterung von Agenten durch kalibrierte Verifikator-Telemetrie verbessert Aktionen und Lernen in wissensintensiven Aufgaben

Zusammenfassung

LLM-Agenten in der wissensintensiven Fragebeantwortung führen Abruf- und Reasoning-Aktionen durch, wobei sie unvollständiges Wissen darüber haben, ob ihre aktuelle Antwort unsicher, nicht gestützt oder bereits vollständig ist. Dies führt zu zwei Fehlermodi: das Eingehen auf selbstbewusste, aber nicht gestützte Antworten, was die Genauigkeit beeinträchtigt, und übermäßiges Abrufen, wenn die bereits vorliegenden Beweise ausreichen, was zu verschwendeter Rechenleistung führt. Um den Agenten ein vollständigeres Bild des Zustandsraums, in dem sie operieren, zu geben, führen wir kalibrierte Verifizierer-Telemetrie (CalVerT) ein, die den Zustand des Agenten um zusätzliche Telemetriedaten erweitert: einen kalibrierten Selbstvertrauenswert und einen Grounding-Verifizierer-Score. Wir zeigen, dass CalVerT Agenten sowohl in trainingsfreien als auch in trainingsbasierten Umgebungen verbessern kann. Auf vier QA-Benchmarks stellen wir fest, dass CalVerT den F1-Wert erhöht, indem es in Fällen, in denen Agenten übermäßig auf parametrisches Wissen vertrauen, das Abrufen auslöst, während es redundantes Abrufen in Fällen reduziert, in denen Agenten über ausreichenden Kontext zur Beantwortung verfügen. Wir zeigen, dass CalVerT bestehende QA-Frameworks ohne Training erweitern kann. Darüber hinaus verbessert CalVerT auch trainierte Systeme: Durch einfaches Erweitern des Zustands eines Agenten mit Telemetrie beobachten wir Verbesserungen nach Bestärkendem Lernen im Vergleich zu einem Agenten mit identischem Training, aber ohne CalVerT-Telemetrie.

English

LLM agents in knowledge intensive question answering take retrieval and reasoning actions with incomplete knowledge about whether their current answer is uncertain, unsupported, or already complete. This produces two failure modes: committing to confident but unsupported answers, which hurts accuracy, and over-retrieving when the evidence in hand already suffices, resulting in wasted compute. To give agents a more complete picture of the state space they are operating in, we introduce calibrated verifier telemetry (CalVerT), which augments the agent's state with additional telemetry: a calibrated self-confidence score and a grounding verifier score. We show that CalVerT can improve agents in both training-free and training-based settings. On four QA benchmarks, we find that CalVerT raises F1 by triggering retrieval in cases where agents over-rely on parametric knowledge, while cutting redundant retrieval in cases where agents have sufficient context to answer. We show that CalVerT can augment existing QA frameworks without training. Moreover, CalVerT also improves trained systems: by simply augmenting an agent's state with telemetry, we observe improvements after reinforcement learning, as compared to an agent with identical training but no CalVerT telemetry.