CalVerT: Het uitbreiden van agents met gekalibreerde verifier-telemetrie verbetert actie en leren in kennisintensieve taken.

Samenvatting

LLM-agenten in kennisintensieve vraagbeantwoording ondernemen zoek- en redeneeracties met onvolledige kennis over of hun huidige antwoord onzeker, niet onderbouwd of reeds volledig is. Dit leidt tot twee faalwijzen: het vasthouden aan zelfverzekerde maar niet onderbouwde antwoorden, wat de nauwkeurigheid schaadt, en het overmatig ophalen wanneer het beschikbare bewijs al voldoende is, wat leidt tot verspilde rekenkracht. Om agenten een vollediger beeld te geven van de toestandsruimte waarin ze opereren, introduceren we gekalibreerde verificateurstelemetrie (CalVerT), die de toestand van de agent uitbreidt met extra telemetrie: een gekalibreerde zelfvertrouwensscore en een verankeringsverificateursscore. We tonen aan dat CalVerT agenten kan verbeteren in zowel trainingsvrije als trainingsgebaseerde omgevingen. Op vier QA-benchmarks zien we dat CalVerT de F1-score verhoogt door het ophalen te activeren in gevallen waarin agenten te veel vertrouwen op parametrische kennis, terwijl het overbodig ophalen wordt verminderd in gevallen waarin agenten voldoende context hebben om te antwoorden. We tonen aan dat CalVerT bestaande QA-raamwerken kan uitbreiden zonder training. Bovendien verbetert CalVerT ook getrainde systemen: door simpelweg de toestand van een agent met telemetrie uit te breiden, zien we verbeteringen na versterkend leren, vergeleken met een agent met identieke training maar zonder CalVerT-telemetrie.

English

LLM agents in knowledge intensive question answering take retrieval and reasoning actions with incomplete knowledge about whether their current answer is uncertain, unsupported, or already complete. This produces two failure modes: committing to confident but unsupported answers, which hurts accuracy, and over-retrieving when the evidence in hand already suffices, resulting in wasted compute. To give agents a more complete picture of the state space they are operating in, we introduce calibrated verifier telemetry (CalVerT), which augments the agent's state with additional telemetry: a calibrated self-confidence score and a grounding verifier score. We show that CalVerT can improve agents in both training-free and training-based settings. On four QA benchmarks, we find that CalVerT raises F1 by triggering retrieval in cases where agents over-rely on parametric knowledge, while cutting redundant retrieval in cases where agents have sufficient context to answer. We show that CalVerT can augment existing QA frameworks without training. Moreover, CalVerT also improves trained systems: by simply augmenting an agent's state with telemetry, we observe improvements after reinforcement learning, as compared to an agent with identical training but no CalVerT telemetry.