Un agente lingüístico de cero disparos para el control de computadoras con reflexión estructurada
A Zero-Shot Language Agent for Computer Control with Structured Reflection
October 12, 2023
Autores: Tao Li, Gang Li, Zhiwei Deng, Bryan Wang, Yang Li
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una capacidad creciente para planificar y ejecutar un objetivo de alto nivel en un entorno informático en vivo (por ejemplo, MiniWoB++). Para realizar una tarea, trabajos recientes suelen requerir que un modelo aprenda a partir de ejemplos de trazas de la tarea mediante aprendizaje supervisado o técnicas de prompting con pocos o muchos ejemplos. Sin estas trazas de ejemplos, sigue siendo un desafío cómo un agente puede aprender y mejorar su control sobre un ordenador de manera autónoma, lo que limita su capacidad para realizar una nueva tarea. Abordamos este problema con un agente de cero ejemplos que no requiere trazas expertas proporcionadas. Nuestro agente planifica acciones ejecutables en un entorno parcialmente observado y avanza en una tarea de manera iterativa, identificando y aprendiendo de sus errores mediante la autorreflexión y la gestión estructurada del pensamiento. En las tareas sencillas de MiniWoB++, demostramos que nuestro agente de cero ejemplos a menudo supera a los modelos más recientes del estado del arte (SoTA), con un razonamiento más eficiente. Para tareas con mayor complejidad, nuestro agente reflexivo se desempeña al mismo nivel que los mejores modelos anteriores, a pesar de que estos trabajos previos tenían la ventaja de acceder a trazas expertas o información adicional de la pantalla.
English
Large language models (LLMs) have shown increasing capacity at planning and
executing a high-level goal in a live computer environment (e.g. MiniWoB++). To
perform a task, recent works often require a model to learn from trace examples
of the task via either supervised learning or few/many-shot prompting. Without
these trace examples, it remains a challenge how an agent can autonomously
learn and improve its control on a computer, which limits the ability of an
agent to perform a new task. We approach this problem with a zero-shot agent
that requires no given expert traces. Our agent plans for executable actions on
a partially observed environment, and iteratively progresses a task by
identifying and learning from its mistakes via self-reflection and structured
thought management. On the easy tasks of MiniWoB++, we show that our zero-shot
agent often outperforms recent SoTAs, with more efficient reasoning. For tasks
with more complexity, our reflective agent performs on par with prior best
models, even though previous works had the advantages of accessing expert
traces or additional screen information.