CalVerT: Aumentar Agentes con Telemetría de Verificador Calibrado Mejora la Acción y el Aprendizaje en Tareas Intensivas en Conocimiento

Resumen

Los agentes de LLM en la respuesta a preguntas intensivas en conocimiento realizan acciones de recuperación y razonamiento con conocimiento incompleto sobre si su respuesta actual es incierta, no fundamentada o ya completa. Esto produce dos modos de fallo: comprometerse con respuestas seguras pero no fundamentadas, lo que perjudica la precisión, y realizar una recuperación excesiva cuando la evidencia disponible ya es suficiente, lo que resulta en un cómputo desperdiciado. Para proporcionar a los agentes una imagen más completa del espacio de estados en el que operan, introducimos la telemetría de verificador calibrado (CalVerT), que aumenta el estado del agente con telemetría adicional: una puntuación de autoconfianza calibrada y una puntuación de verificador de fundamentación. Demostramos que CalVerT puede mejorar a los agentes tanto en entornos sin entrenamiento como basados en entrenamiento. En cuatro puntos de referencia de QA, encontramos que CalVerT aumenta el F1 al activar la recuperación en casos donde los agentes dependen en exceso del conocimiento paramétrico, mientras reduce la recuperación redundante en casos donde los agentes tienen suficiente contexto para responder. Mostramos que CalVerT puede aumentar los marcos de trabajo de QA existentes sin entrenamiento. Además, CalVerT también mejora los sistemas entrenados: simplemente al aumentar el estado de un agente con telemetría, observamos mejoras después del aprendizaje por refuerzo, en comparación con un agente con entrenamiento idéntico pero sin telemetría CalVerT.

English

LLM agents in knowledge intensive question answering take retrieval and reasoning actions with incomplete knowledge about whether their current answer is uncertain, unsupported, or already complete. This produces two failure modes: committing to confident but unsupported answers, which hurts accuracy, and over-retrieving when the evidence in hand already suffices, resulting in wasted compute. To give agents a more complete picture of the state space they are operating in, we introduce calibrated verifier telemetry (CalVerT), which augments the agent's state with additional telemetry: a calibrated self-confidence score and a grounding verifier score. We show that CalVerT can improve agents in both training-free and training-based settings. On four QA benchmarks, we find that CalVerT raises F1 by triggering retrieval in cases where agents over-rely on parametric knowledge, while cutting redundant retrieval in cases where agents have sufficient context to answer. We show that CalVerT can augment existing QA frameworks without training. Moreover, CalVerT also improves trained systems: by simply augmenting an agent's state with telemetry, we observe improvements after reinforcement learning, as compared to an agent with identical training but no CalVerT telemetry.