AURA: Sondeo Dirigido por Intención para la Revelación de Necesidades Implícitas en Agentes LLM Situados

Resumen

Una consulta situada como "¿dónde está Lin Wei?" a menudo codifica más que su contenido literal: el usuario también puede querer saber si Lin Wei está libre, de buen humor, o si vale la pena interrumpirlo ahora. Los agentes estándar de uso de herramientas responden la pregunta literal y se detienen. AURA inserta un paso de inferencia entre la percepción de la escena y el uso de herramientas que produce un IntentFrame: una estimación estructurada de la necesidad implícita con una puntuación escalar de brecha que controla el presupuesto de sondeos por consulta y la selección de herramientas. En un punto de referencia de 100 consultas en cuatro escenas de intención implícita, AURA mejora la cobertura de necesidades implícitas en comparación con el sondeo estilo ReAct (Delta = +0.07, p < 10^-6); tres de las cuatro escenas son individualmente significativas, la ganancia se reproduce en un segundo modelo base, y una ablación de indicaciones atribuye la mejora a la calibración de la brecha, no a la memorización de respuestas. En búsquedas factuales, el controlador intercambia precisión bruta por un 82% menos de sondeos y cero violaciones de herramientas prohibidas en un segmento sensible a la privacidad; las condiciones de alcance se detallan en Limitaciones. El código, el simulador y el punto de referencia están disponibles en https://github.com/innovation64/AURA.

English

A situated query like "where is Lin Wei?" often encodes more than its literal content: the user may also want to know whether Lin Wei is free, in a good mood, or worth interrupting now. Standard tool-use agents answer the literal question and stop. AURA inserts an inference step between scene perception and tool use that produces an IntentFrame: a structured estimate of the implicit need with a scalar gap score that controls per-query probe budget and tool selection. On a 100-query four-scene implicit-intent benchmark, AURA improves implicit-need coverage over ReAct-style probing (Delta = +0.07, p < 10^-6); three of four scenes are individually significant, the gain reproduces on a second backbone, and a prompt ablation attributes the lift to gap calibration rather than answer memorisation. On factual lookup the controller trades raw accuracy for 82% fewer probes and zero forbidden-tool violations on a privacy-sensitive slice; scope conditions are detailed in Limitations. Code, simulator, and benchmark are released at https://github.com/innovation64/AURA.