Un agente lingüístico de cero disparos para el control de computadoras con reflexión estructurada

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una capacidad creciente para planificar y ejecutar un objetivo de alto nivel en un entorno informático en vivo (por ejemplo, MiniWoB++). Para realizar una tarea, trabajos recientes suelen requerir que un modelo aprenda a partir de ejemplos de trazas de la tarea mediante aprendizaje supervisado o técnicas de prompting con pocos o muchos ejemplos. Sin estas trazas de ejemplos, sigue siendo un desafío cómo un agente puede aprender y mejorar su control sobre un ordenador de manera autónoma, lo que limita su capacidad para realizar una nueva tarea. Abordamos este problema con un agente de cero ejemplos que no requiere trazas expertas proporcionadas. Nuestro agente planifica acciones ejecutables en un entorno parcialmente observado y avanza en una tarea de manera iterativa, identificando y aprendiendo de sus errores mediante la autorreflexión y la gestión estructurada del pensamiento. En las tareas sencillas de MiniWoB++, demostramos que nuestro agente de cero ejemplos a menudo supera a los modelos más recientes del estado del arte (SoTA), con un razonamiento más eficiente. Para tareas con mayor complejidad, nuestro agente reflexivo se desempeña al mismo nivel que los mejores modelos anteriores, a pesar de que estos trabajos previos tenían la ventaja de acceder a trazas expertas o información adicional de la pantalla.

English

Large language models (LLMs) have shown increasing capacity at planning and executing a high-level goal in a live computer environment (e.g. MiniWoB++). To perform a task, recent works often require a model to learn from trace examples of the task via either supervised learning or few/many-shot prompting. Without these trace examples, it remains a challenge how an agent can autonomously learn and improve its control on a computer, which limits the ability of an agent to perform a new task. We approach this problem with a zero-shot agent that requires no given expert traces. Our agent plans for executable actions on a partially observed environment, and iteratively progresses a task by identifying and learning from its mistakes via self-reflection and structured thought management. On the easy tasks of MiniWoB++, we show that our zero-shot agent often outperforms recent SoTAs, with more efficient reasoning. For tasks with more complexity, our reflective agent performs on par with prior best models, even though previous works had the advantages of accessing expert traces or additional screen information.

Un agente lingüístico de cero disparos para el control de computadoras con reflexión estructurada

A Zero-Shot Language Agent for Computer Control with Structured Reflection

Resumen

Support