Robots die om hulp vragen: Onzekerheidsafstemming voor planners met grote taalmodel

Samenvatting

Grote taalmodellen (LLMs) vertonen een breed scala aan veelbelovende capaciteiten – van stapsgewijze planning tot gezond verstand redeneren – die nuttig kunnen zijn voor robots, maar blijven gevoelig voor zelfverzekerde, hallucinerende voorspellingen. In dit werk presenteren we KnowNo, een raamwerk voor het meten en afstemmen van de onzekerheid van LLM-gebaseerde planners, zodat ze weten wanneer ze iets niet weten en om hulp vragen wanneer dat nodig is. KnowNo bouwt voort op de theorie van conformal prediction om statistische garanties te bieden voor taakvoltooiing, terwijl menselijke hulp wordt geminimaliseerd in complexe, meerstaps planningsscenario’s. Experimenten in diverse gesimuleerde en echte robotopstellingen, waarbij taken met verschillende vormen van ambiguïteit betrokken zijn (bijv. van ruimtelijke tot numerieke onzekerheden, van menselijke voorkeuren tot Winograd-schema’s), laten zien dat KnowNo gunstig presteert ten opzichte van moderne referentiemodellen (die bijvoorbeeld ensembles of uitgebreide prompt-tuning kunnen omvatten) in termen van efficiëntie en autonomie, terwijl het formele garanties biedt. KnowNo kan direct worden gebruikt met LLMs zonder model-finetuning, en suggereert een veelbelovende, lichtgewicht benadering voor het modelleren van onzekerheid die kan aanvullen en meeschalen met de groeiende capaciteiten van foundationmodellen. Website: https://robot-help.github.io

English

Large language models (LLMs) exhibit a wide range of promising capabilities -- from step-by-step planning to commonsense reasoning -- that may provide utility for robots, but remain prone to confidently hallucinated predictions. In this work, we present KnowNo, which is a framework for measuring and aligning the uncertainty of LLM-based planners such that they know when they don't know and ask for help when needed. KnowNo builds on the theory of conformal prediction to provide statistical guarantees on task completion while minimizing human help in complex multi-step planning settings. Experiments across a variety of simulated and real robot setups that involve tasks with different modes of ambiguity (e.g., from spatial to numeric uncertainties, from human preferences to Winograd schemas) show that KnowNo performs favorably over modern baselines (which may involve ensembles or extensive prompt tuning) in terms of improving efficiency and autonomy, while providing formal assurances. KnowNo can be used with LLMs out of the box without model-finetuning, and suggests a promising lightweight approach to modeling uncertainty that can complement and scale with the growing capabilities of foundation models. Website: https://robot-help.github.io

Robots die om hulp vragen: Onzekerheidsafstemming voor planners met grote taalmodel

Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners

Samenvatting

Support