Улучшение автономных искусственных интеллектуальных агентов с помощью рефлексивного дерева поиска и самообучения.
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
October 2, 2024
Авторы: Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
Аннотация
Автономные агенты продемонстрировали значительный потенциал в автоматизации сложных многошаговых задач принятия решений. Однако даже передовые модели видео-языка (VLM), такие как GPT-4o, все еще не достигают уровня производительности человека, особенно в сложных веб-средах и задачах долгосрочного планирования. Для решения этих ограничений мы представляем Reflective Monte Carlo Tree Search (R-MCTS), новый алгоритм для тестирования, разработанный для улучшения способности искусственного интеллекта, например, на основе GPT-4o, исследовать пространство решений на лету. R-MCTS расширяет традиционный MCTS, во-первых, интегрируя контрастное отражение, позволяя агентам учиться на основе прошлых взаимодействий и динамически улучшать эффективность поиска; и, во-вторых, используя многозначное дебатное обсуждение для обеспечения надежной оценки состояния. Более того, мы улучшаем производительность агента путем настройки GPT-4o через самообучение, используя деревья, сгенерированные R-MCTS, без предоставления меток человеком. На сложном бенчмарке VisualWebArena наш агент на основе GPT-4o с R-MCTS достигает относительного улучшения на 6% до 30% по сравнению с предыдущим передовым уровнем в различных задачах. Кроме того, мы показываем, что знания, полученные во время тестирования, могут быть эффективно переданы обратно в GPT-4o через настройку. Fine-tuned GPT-4o соответствует 97% производительности R-MCTS, сокращая использование вычислительных ресурсов в четыре раза во время тестирования. Более того, качественные результаты показывают, что настроенная модель GPT-4o демонстрирует способность исследовать окружающую среду, оценивать состояние и возвращаться к жизнеспособным в случае, если текущее состояние не может привести к успеху. Кроме того, наша работа демонстрирует свойства масштабирования вычислений как во время обучения - сбор данных с помощью R-MCTS - так и во время тестирования. Эти результаты указывают на перспективное направление исследований для улучшения рассуждений и планирования VLM для агентских приложений через тестирование и самообучение.
English
Autonomous agents have demonstrated significant potential in automating
complex multistep decision-making tasks. However, even state-of-the-art
vision-language models (VLMs), such as GPT-4o, still fall short of human-level
performance, particularly in intricate web environments and long-horizon
planning tasks. To address these limitations, we introduce Reflective Monte
Carlo Tree Search (R-MCTS), a novel test-time algorithm designed to enhance the
ability of AI agents, e.g., powered by GPT-4o, to explore decision space on the
fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive
reflection, allowing agents to learn from past interactions and dynamically
improve their search efficiency; and 2) using multi-agent debate to provide
reliable state evaluation. Moreover, we improve the agent's performance by
fine-tuning GPT-4o through self-learning, using R-MCTS generated tree
traversals without any human-provided labels. On the challenging VisualWebArena
benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative
improvement across various tasks compared to the previous state-of-the-art.
Additionally, we show that the knowledge gained from test-time search can be
effectively transferred back to GPT-4o via fine-tuning. The fine-tuned GPT-4o
matches 97% of R-MCTS's performance while reducing compute usage by a factor of
four at test time. Furthermore, qualitative results reveal that the fine-tuned
GPT-4o model demonstrates the ability to explore the environment, evaluate a
state, and backtrack to viable ones when it detects that the current state
cannot lead to success. Moreover, our work demonstrates the compute scaling
properties in both training - data collection with R-MCTS - and testing time.
These results suggest a promising research direction to enhance VLMs' reasoning
and planning capabilities for agentic applications via test-time search and
self-learning.Summary
AI-Generated Summary