AURA: Sondagem Direcionada por Intenção para Revelação de Necessidades Implícitas em Agentes LLM Situados

Resumo

Uma consulta situada como "onde está Lin Wei?" frequentemente codifica mais do que seu conteúdo literal: o usuário também pode querer saber se Lin Wei está livre, de bom humor, ou se vale a pena interrompê-lo agora. Agentes padrão que usam ferramentas respondem à pergunta literal e param. O AURA insere uma etapa de inferência entre a percepção da cena e o uso de ferramentas, que produz um IntentFrame: uma estimativa estruturada da necessidade implícita, com um escore de lacuna escalar que controla o orçamento de sondagem por consulta e a seleção de ferramentas. Em um benchmark de intenção implícita com 100 consultas e quatro cenários, o AURA melhora a cobertura de necessidades implícitas em relação à sondagem estilo ReAct (Delta = +0,07, p < 10⁻⁶); três dos quatro cenários são individualmente significativos, o ganho se reproduz em um segundo backbone, e uma ablação de prompt atribui o aumento à calibração da lacuna, e não à memorização de respostas. Em consultas factuais, o controlador troca a precisão bruta por 82% menos sondagens e zero violações de ferramentas proibidas em um subconjunto sensível à privacidade; as condições de escopo são detalhadas em Limitações. O código, o simulador e o benchmark estão disponibilizados em https://github.com/innovation64/AURA.

English

A situated query like "where is Lin Wei?" often encodes more than its literal content: the user may also want to know whether Lin Wei is free, in a good mood, or worth interrupting now. Standard tool-use agents answer the literal question and stop. AURA inserts an inference step between scene perception and tool use that produces an IntentFrame: a structured estimate of the implicit need with a scalar gap score that controls per-query probe budget and tool selection. On a 100-query four-scene implicit-intent benchmark, AURA improves implicit-need coverage over ReAct-style probing (Delta = +0.07, p < 10^-6); three of four scenes are individually significant, the gain reproduces on a second backbone, and a prompt ablation attributes the lift to gap calibration rather than answer memorisation. On factual lookup the controller trades raw accuracy for 82% fewer probes and zero forbidden-tool violations on a privacy-sensitive slice; scope conditions are detailed in Limitations. Code, simulator, and benchmark are released at https://github.com/innovation64/AURA.