AURA: Зондирование, ориентированное на намерение, для выявления неявных потребностей у ситуативных LLM-агентов

Аннотация

Ситуационный запрос вроде «где Линь Вэй?» зачастую несет больше, чем буквальное содержание: пользователь может также хотеть узнать, свободен ли Линь Вэй, в хорошем ли он настроении или стоит ли его сейчас прерывать. Стандартные агенты, использующие инструменты, отвечают на буквальный вопрос и останавливаются. AURA вставляет этап вывода между восприятием сцены и использованием инструментов, который порождает IntentFrame — структурированную оценку неявной потребности со скалярным показателем разрыва (gap score), управляющим бюджетом проб на запрос и выбором инструмента. На эталонном тесте из 100 запросов в четырех сценариях с неявными намерениями AURA улучшает покрытие неявных потребностей по сравнению с probing-подходом в стиле ReAct (Delta = +0,07, p < 10⁻⁶); три из четырех сценариев значимы по отдельности, прирост воспроизводится на второй базовой модели, а абляция промптов показывает, что улучшение обусловлено калибровкой разрыва, а не запоминанием ответов. При фактическом поиске контроллер обменивает точность на 82% меньшее количество проб и нулевое количество нарушений запрещенных инструментов на чувствительном к приватности срезе; условия применимости подробно описаны в разделе «Ограничения». Код, симулятор и эталонный тест опубликованы по адресу https://github.com/innovation64/AURA.

English

A situated query like "where is Lin Wei?" often encodes more than its literal content: the user may also want to know whether Lin Wei is free, in a good mood, or worth interrupting now. Standard tool-use agents answer the literal question and stop. AURA inserts an inference step between scene perception and tool use that produces an IntentFrame: a structured estimate of the implicit need with a scalar gap score that controls per-query probe budget and tool selection. On a 100-query four-scene implicit-intent benchmark, AURA improves implicit-need coverage over ReAct-style probing (Delta = +0.07, p < 10^-6); three of four scenes are individually significant, the gain reproduces on a second backbone, and a prompt ablation attributes the lift to gap calibration rather than answer memorisation. On factual lookup the controller trades raw accuracy for 82% fewer probes and zero forbidden-tool violations on a privacy-sensitive slice; scope conditions are detailed in Limitations. Code, simulator, and benchmark are released at https://github.com/innovation64/AURA.