Mejorando Agentes Autónomos de IA con Búsqueda en Árbol Reflexiva y Autoaprendizaje
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
October 2, 2024
Autores: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
Resumen
Los agentes autónomos han demostrado un potencial significativo en automatizar tareas complejas de toma de decisiones multietapa. Sin embargo, incluso los modelos visión-lenguaje de vanguardia (VLMs), como GPT-4o, aún no alcanzan el rendimiento a nivel humano, especialmente en entornos web intrincados y tareas de planificación a largo plazo. Para abordar estas limitaciones, presentamos Reflective Monte Carlo Tree Search (R-MCTS), un algoritmo novedoso en tiempo de prueba diseñado para mejorar la capacidad de los agentes de IA, por ejemplo, potenciados por GPT-4o, para explorar el espacio de decisiones sobre la marcha. R-MCTS amplía el MCTS tradicional mediante 1) la incorporación de reflexión contrastiva, permitiendo a los agentes aprender de interacciones pasadas y mejorar dinámicamente su eficiencia de búsqueda; y 2) utilizando debates multiagente para proporcionar una evaluación de estado confiable. Además, mejoramos el rendimiento del agente mediante el ajuste fino de GPT-4o a través del autoaprendizaje, utilizando recorridos de árbol generados por R-MCTS sin etiquetas proporcionadas por humanos. En el desafiante benchmark VisualWebArena, nuestro agente basado en GPT-4o y R-MCTS logra una mejora relativa del 6% al 30% en diversas tareas en comparación con el estado del arte anterior. Además, demostramos que el conocimiento adquirido de la búsqueda en tiempo de prueba puede transferirse de manera efectiva de regreso a GPT-4o mediante el ajuste fino. El GPT-4o ajustado iguala el 97% del rendimiento de R-MCTS mientras reduce el uso de cómputo por un factor de cuatro en el tiempo de prueba. Además, los resultados cualitativos revelan que el modelo GPT-4o ajustado demuestra la capacidad de explorar el entorno, evaluar un estado y retroceder a estados viables cuando detecta que el estado actual no puede conducir al éxito. Además, nuestro trabajo demuestra las propiedades de escalado de cómputo tanto en el entrenamiento, la recolección de datos con R-MCTS, como en el tiempo de prueba. Estos resultados sugieren una dirección de investigación prometedora para mejorar el razonamiento y las capacidades de planificación de los VLMs para aplicaciones agentes a través de la búsqueda en tiempo de prueba y el autoaprendizaje.
English
Autonomous agents have demonstrated significant potential in automating
complex multistep decision-making tasks. However, even state-of-the-art
vision-language models (VLMs), such as GPT-4o, still fall short of human-level
performance, particularly in intricate web environments and long-horizon
planning tasks. To address these limitations, we introduce Reflective Monte
Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the
ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the
fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive
reflection, allowing agents to learn from past interactions and dynamically
improve their search efficiency; and 2) using multi-agent debate to provide
reliable state evaluation. Moreover, we improve the agent's performance by
fine-tuning GPT-4o through self-learning, using R-MCTS generated tree
traversals without any human-provided labels. On the challenging VisualWebArena
benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative
improvement across various tasks compared to the previous state-of-the-art.
Additionally, we show that the knowledge gained from test-time search can be
effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o
matches 97% of R-MCTS's performance while reducing compute usage by a factor of
four at test time. Furthermore, qualitative results reveal that the fine-tuned
GPT-4o model demonstrates the ability to explore the environment, evaluate a
state, and backtrack to viable ones when it detects that the current state
cannot lead to success. Moreover, our work demonstrates the compute scaling
properties in both training - data collection with R-MCTS - and testing time.
These results suggest a promising research direction to enhance VLMs' reasoning
and planning capabilities for agentic applications via test-time search and
self-learning.Summary
AI-Generated Summary