Un agent linguistique zero-shot pour le contrôle informatique avec réflexion structurée

Résumé

Les grands modèles de langage (LLMs) ont démontré une capacité croissante à planifier et exécuter un objectif de haut niveau dans un environnement informatique en temps réel (par exemple, MiniWoB++). Pour accomplir une tâche, les travaux récents exigent souvent qu'un modèle apprenne à partir d'exemples de traces de la tâche via un apprentissage supervisé ou un prompting en few/many-shot. Sans ces traces d'exemples, il reste un défi de savoir comment un agent peut apprendre de manière autonome et améliorer son contrôle sur un ordinateur, ce qui limite sa capacité à accomplir une nouvelle tâche. Nous abordons ce problème avec un agent zero-shot qui ne nécessite aucune trace experte fournie. Notre agent planifie des actions exécutables dans un environnement partiellement observable et progresse de manière itérative dans une tâche en identifiant et en apprenant de ses erreurs via une auto-réflexion et une gestion structurée de la pensée. Sur les tâches simples de MiniWoB++, nous montrons que notre agent zero-shot surpasse souvent les derniers modèles de pointe (SoTAs), avec un raisonnement plus efficace. Pour les tâches plus complexes, notre agent réflexif performe au même niveau que les meilleurs modèles précédents, bien que ces derniers aient eu l'avantage d'accéder à des traces expertes ou à des informations supplémentaires sur l'écran.

English

Large language models (LLMs) have shown increasing capacity at planning and executing a high-level goal in a live computer environment (e.g. MiniWoB++). To perform a task, recent works often require a model to learn from trace examples of the task via either supervised learning or few/many-shot prompting. Without these trace examples, it remains a challenge how an agent can autonomously learn and improve its control on a computer, which limits the ability of an agent to perform a new task. We approach this problem with a zero-shot agent that requires no given expert traces. Our agent plans for executable actions on a partially observed environment, and iteratively progresses a task by identifying and learning from its mistakes via self-reflection and structured thought management. On the easy tasks of MiniWoB++, we show that our zero-shot agent often outperforms recent SoTAs, with more efficient reasoning. For tasks with more complexity, our reflective agent performs on par with prior best models, even though previous works had the advantages of accessing expert traces or additional screen information.

Un agent linguistique zero-shot pour le contrôle informatique avec réflexion structurée

A Zero-Shot Language Agent for Computer Control with Structured Reflection

Résumé

Support