AURA: Intentionsgerichtete Sondierung zur Aufdeckung impliziter Bedürfnisse in situierten LLM-Agenten

Zusammenfassung

Eine situierte Frage wie „Wo ist Lin Wei?“ kodiert oft mehr als ihren wörtlichen Inhalt: Der Nutzer möchte möglicherweise auch wissen, ob Lin Wei Zeit hat, gut gelaunt ist oder ob es sich lohnt, sie jetzt zu unterbrechen. Standardmäßige Tool-Use-Agenten beantworten die wörtliche Frage und beenden die Interaktion. AURA fügt einen Inferenzschritt zwischen Szenenwahrnehmung und Tool-Nutzung ein, der einen IntentFrame erzeugt: eine strukturierte Schätzung des impliziten Bedarfs mit einem skalaren Lückenwert (Gap Score), der das Abfragebudget und die Tool-Auswahl pro Anfrage steuert. In einer Benchmark mit 100 Anfragen und vier Szenen für implizite Absichten verbessert AURA die Abdeckung impliziter Bedürfnisse gegenüber ReAct-artigem Nachfragen (Delta = +0,07, p < 10^-6); drei der vier Szenen sind einzeln signifikant, der Gewinn reproduziert sich auf einem zweiten Backbone, und eine Prompt-Ablation führt den Anstieg auf die Lückenkalibrierung zurück, nicht auf das Auswendiglernen von Antworten. Bei faktischen Abfragen tauscht der Controller rohe Genauigkeit gegen 82 % weniger Abfragen und null Verstöße gegen verbotene Tools auf einem datenschutzsensiblen Teilbereich; die Rahmenbedingungen werden in den Limitations detailliert beschrieben. Code, Simulator und Benchmark werden unter https://github.com/innovation64/AURA veröffentlicht.

English

A situated query like "where is Lin Wei?" often encodes more than its literal content: the user may also want to know whether Lin Wei is free, in a good mood, or worth interrupting now. Standard tool-use agents answer the literal question and stop. AURA inserts an inference step between scene perception and tool use that produces an IntentFrame: a structured estimate of the implicit need with a scalar gap score that controls per-query probe budget and tool selection. On a 100-query four-scene implicit-intent benchmark, AURA improves implicit-need coverage over ReAct-style probing (Delta = +0.07, p < 10^-6); three of four scenes are individually significant, the gain reproduces on a second backbone, and a prompt ablation attributes the lift to gap calibration rather than answer memorisation. On factual lookup the controller trades raw accuracy for 82% fewer probes and zero forbidden-tool violations on a privacy-sensitive slice; scope conditions are detailed in Limitations. Code, simulator, and benchmark are released at https://github.com/innovation64/AURA.