AURA : Sondage dirigé par l'intention pour la révélation des besoins implicites dans les agents LLM situés

Résumé

Une requête située comme « où est Lin Wei ? » dépasse souvent son contenu littéral : l’utilisateur peut également vouloir savoir si Lin Wei est disponible, de bonne humeur, ou s’il vaut la peine d’être interrompu maintenant. Les agents standards utilisant des outils répondent à la question littérale et s’arrêtent. AURA insère une étape d’inférence entre la perception de la scène et l’utilisation des outils, produisant un IntentFrame : une estimation structurée du besoin implicite avec un score d’écart scalaire qui contrôle le budget de sondage par requête et la sélection des outils. Sur un banc d’essai de 100 requêtes réparties sur quatre scènes avec intention implicite, AURA améliore la couverture des besoins implicites par rapport au sondage de type ReAct (Delta = +0,07, p < 10^-6) ; trois des quatre scènes sont individuellement significatives, le gain se reproduit sur un deuxième modèle de base, et une ablation des invites attribue l’amélioration à l’étalonnage de l’écart plutôt qu’à la mémorisation des réponses. Pour les recherches factuelles, le contrôleur échange une précision brute contre 82 % de sondages en moins et zéro violation d’outil interdit sur un sous-ensemble sensible à la vie privée ; les conditions de validité sont détaillées dans la section Limitations. Le code, le simulateur et le banc d’essai sont publiés à l’adresse https://github.com/innovation64/AURA.

English

A situated query like "where is Lin Wei?" often encodes more than its literal content: the user may also want to know whether Lin Wei is free, in a good mood, or worth interrupting now. Standard tool-use agents answer the literal question and stop. AURA inserts an inference step between scene perception and tool use that produces an IntentFrame: a structured estimate of the implicit need with a scalar gap score that controls per-query probe budget and tool selection. On a 100-query four-scene implicit-intent benchmark, AURA improves implicit-need coverage over ReAct-style probing (Delta = +0.07, p < 10^-6); three of four scenes are individually significant, the gain reproduces on a second backbone, and a prompt ablation attributes the lift to gap calibration rather than answer memorisation. On factual lookup the controller trades raw accuracy for 82% fewer probes and zero forbidden-tool violations on a privacy-sensitive slice; scope conditions are detailed in Limitations. Code, simulator, and benchmark are released at https://github.com/innovation64/AURA.