Samenwerkende instantienavigatie: Het benutten van agent zelfdialogen om gebruikersinvoer te minimaliseren.
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input
December 2, 2024
Auteurs: Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang
cs.AI
Samenvatting
Bestaande taken voor doelgerichte navigatie van geïncarneerde instanties, aangestuurd door natuurlijke taal, gaan ervan uit dat menselijke gebruikers volledige en genuanceerde instantiebeschrijvingen verstrekken vóór de navigatie, wat in de echte wereld onpraktisch kan zijn omdat menselijke instructies beknopt en ambigu kunnen zijn. Om deze kloof te overbruggen, stellen we een nieuwe taak voor, Collaboratieve Instantienavigatie (CoIN), met dynamische agent-mensinteractie tijdens de navigatie om actief onzekerheden over de doelinstantie op te lossen in natuurlijke, sjabloonvrije, open dialogen. Om CoIN aan te pakken, stellen we een nieuw method voor, Agent-gebruiker Interactie met Onzekerheidsbewustzijn (AIUTA), waarbij gebruik wordt gemaakt van de perceptievermogen van Vision Language Modellen (VLM's) en de capaciteit van Grote Taalmodellen (LLM's). Allereerst initieert een Zelfvragend model bij objectdetectie een zelfdialog om een volledige en nauwkeurige observatiebeschrijving te verkrijgen, terwijl een nieuwe onzekerheidsschattingstechniek onnauwkeurige VLM-perceptie vermindert. Vervolgens bepaalt een Interactietriggermodule of er een vraag aan de gebruiker moet worden gesteld, de navigatie moet worden voortgezet of gestopt, waarbij de gebruikersinvoer wordt geminimaliseerd. Voor evaluatie introduceren we CoIN-Bench, een benchmark die zowel echte als gesimuleerde mensen ondersteunt. AIUTA behaalt een concurrerende prestatie in instantienavigatie tegenover methoden van de laatste stand van de techniek, waarbij het een grote flexibiliteit toont in het omgaan met gebruikersinvoer.
English
Existing embodied instance goal navigation tasks, driven by natural language,
assume human users to provide complete and nuanced instance descriptions prior
to the navigation, which can be impractical in the real world as human
instructions might be brief and ambiguous. To bridge this gap, we propose a new
task, Collaborative Instance Navigation (CoIN), with dynamic agent-human
interaction during navigation to actively resolve uncertainties about the
target instance in natural, template-free, open-ended dialogues. To address
CoIN, we propose a novel method, Agent-user Interaction with UncerTainty
Awareness (AIUTA), leveraging the perception capability of Vision Language
Models (VLMs) and the capability of Large Language Models (LLMs). First, upon
object detection, a Self-Questioner model initiates a self-dialogue to obtain a
complete and accurate observation description, while a novel uncertainty
estimation technique mitigates inaccurate VLM perception. Then, an Interaction
Trigger module determines whether to ask a question to the user, continue or
halt navigation, minimizing user input. For evaluation, we introduce
CoIN-Bench, a benchmark supporting both real and simulated humans. AIUTA
achieves competitive performance in instance navigation against
state-of-the-art methods, demonstrating great flexibility in handling user
inputs.