AURA: Intentiegerichte Bevraging voor het Opsporen van Impliciete Behoeften bij Gesitueerde LLM-agenten

Samenvatting

Een gesitueerde vraag zoals "waar is Lin Wei?" bevat vaak meer dan de letterlijke inhoud: de gebruiker wil mogelijk ook weten of Lin Wei beschikbaar is, in een goed humeur verkeert, of het nu waard is om te onderbreken. Standaard tool-gebruikende agenten beantwoorden de letterlijke vraag en stoppen. AURA voegt een inferentiestap in tussen waarneming van de scène en toolgebruik, die een IntentFrame produceert: een gestructureerde schatting van de impliciete behoefte met een scalaire kloofscore die het per-query sondagebudget en de toolselectie regelt. Op een benchmark van 100 queries en vier scènes voor impliciete intenties verbetert AURA de dekking van impliciete behoeften ten opzichte van ReAct-achtige sondering (Delta = +0,07, p < 10^{-6}); drie van de vier scènes zijn individueel significant, de winst wordt gereproduceerd op een tweede backbone, en een prompt-ablation schrijft de verbetering toe aan kloofkalibratie in plaats van antwoordmemorisatie. Bij feitelijk opzoeken ruilt de controller ruwe nauwkeurigheid in voor 82% minder sondes en nul overtredingen van verboden tools op een privacygevoelig deel; reikwijdtevoorwaarden worden beschreven in Beperkingen. Code, simulator en benchmark zijn beschikbaar gesteld op https://github.com/innovation64/AURA.

English

A situated query like "where is Lin Wei?" often encodes more than its literal content: the user may also want to know whether Lin Wei is free, in a good mood, or worth interrupting now. Standard tool-use agents answer the literal question and stop. AURA inserts an inference step between scene perception and tool use that produces an IntentFrame: a structured estimate of the implicit need with a scalar gap score that controls per-query probe budget and tool selection. On a 100-query four-scene implicit-intent benchmark, AURA improves implicit-need coverage over ReAct-style probing (Delta = +0.07, p < 10^-6); three of four scenes are individually significant, the gain reproduces on a second backbone, and a prompt ablation attributes the lift to gap calibration rather than answer memorisation. On factual lookup the controller trades raw accuracy for 82% fewer probes and zero forbidden-tool violations on a privacy-sensitive slice; scope conditions are detailed in Limitations. Code, simulator, and benchmark are released at https://github.com/innovation64/AURA.