CalVerT: Дополнение агентов калиброванной телеметрией верификатора улучшает действия и обучение в знаниеёмких задачах

Аннотация

Агенты на основе больших языковых моделей в вопросно-ответных системах, требующих интенсивного использования знаний, выполняют действия по поиску информации и рассуждению, обладая неполным знанием о том, является ли их текущий ответ неопределённым, необоснованным или уже завершённым. Это приводит к двум типам ошибок: принятию уверенных, но необоснованных ответов, что снижает точность, и избыточному поиску, когда имеющихся сведений уже достаточно, что приводит к нерациональному расходованию вычислительных ресурсов. Чтобы предоставить агентам более полную картину пространства состояний, в котором они действуют, мы вводим калиброванную телеметрию верификатора (CalVerT), которая дополняет состояние агента дополнительными данными: калиброванной оценкой самоуверенности и оценкой верификатора обоснованности. Мы показываем, что CalVerT может улучшить работу агентов как в режимах без обучения, так и с обучением. На четырёх эталонных наборах данных для вопросно-ответных систем мы обнаруживаем, что CalVerT повышает F1-меру, инициируя поиск в тех случаях, когда агенты чрезмерно полагаются на параметрические знания, и сокращая избыточный поиск в случаях, когда у агентов уже есть достаточный контекст для ответа. Мы демонстрируем, что CalVerT может дополнять существующие вопросно-ответные системы без дополнительного обучения. Более того, CalVerT также улучшает обученные системы: простое дополнение состояния агента телеметрией приводит к улучшениям после обучения с подкреплением по сравнению с агентом, прошедшим идентичное обучение, но без телеметрии CalVerT.

English

LLM agents in knowledge intensive question answering take retrieval and reasoning actions with incomplete knowledge about whether their current answer is uncertain, unsupported, or already complete. This produces two failure modes: committing to confident but unsupported answers, which hurts accuracy, and over-retrieving when the evidence in hand already suffices, resulting in wasted compute. To give agents a more complete picture of the state space they are operating in, we introduce calibrated verifier telemetry (CalVerT), which augments the agent's state with additional telemetry: a calibrated self-confidence score and a grounding verifier score. We show that CalVerT can improve agents in both training-free and training-based settings. On four QA benchmarks, we find that CalVerT raises F1 by triggering retrieval in cases where agents over-rely on parametric knowledge, while cutting redundant retrieval in cases where agents have sufficient context to answer. We show that CalVerT can augment existing QA frameworks without training. Moreover, CalVerT also improves trained systems: by simply augmenting an agent's state with telemetry, we observe improvements after reinforcement learning, as compared to an agent with identical training but no CalVerT telemetry.