ChatPaper.aiChatPaper

Как обучить вашего веб-агента на основе языковой модели: статистический анализ

How to Train Your LLM Web Agent: A Statistical Diagnosis

July 5, 2025
Авторы: Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia
cs.AI

Аннотация

Веб-агенты на основе LLM (языковых моделей большого масштаба) в последнее время достигли значительного прогресса, однако большая часть этих достижений связана с закрытыми системами, что увеличивает разрыв с открытыми альтернативами. Прогресс сдерживается двумя ключевыми проблемами: во-первых, узкой направленностью на одношаговые задачи, что игнорирует сложность многошаговых веб-взаимодействий, и во-вторых, высокими вычислительными затратами, необходимыми для пост-обучения веб-агентов на основе LLM. Для решения этих проблем мы представляем первое статистически обоснованное исследование по распределению вычислительных ресурсов для пост-обучения веб-агентов на основе LLM. Наш подход использует двухэтапный конвейер, включающий обучение модели Llama 3.1 8B (ученик) для имитации модели Llama 3.3 70B (учитель) с помощью контролируемого тонкого настройки (SFT), за которым следует обучение с подкреплением на основе политики (on-policy RL). Мы обнаружили, что этот процесс крайне чувствителен к выбору гиперпараметров, что делает исчерпывающий поиск непрактичным. Чтобы избавить других от дорогостоящих проб и ошибок, мы отобрали 1370 конфигураций и использовали бутстрэппинг для оценки эффективных гиперпараметров. Наши результаты показывают, что комбинация SFT с on-policy RL стабильно превосходит каждый из подходов по отдельности как на WorkArena, так и на MiniWob++. Более того, эта стратегия требует всего 55% вычислительных ресурсов для достижения пиковой производительности чистого SFT на MiniWob++, эффективно продвигая границу Парето в области вычислительной производительности, и является единственной стратегией, способной сократить разрыв с закрытыми моделями.
English
LLM-based web agents have recently made significant progress, but much of it has occurred in closed-source systems, widening the gap with open-source alternatives. Progress has been held back by two key challenges: first, a narrow focus on single-step tasks that overlooks the complexity of multi-step web interactions; and second, the high compute costs required to post-train LLM-based web agents. To address this, we present the first statistically grounded study on compute allocation for LLM web-agent post-training. Our approach uses a two-stage pipeline, training a Llama 3.1 8B student to imitate a Llama 3.3 70B teacher via supervised fine-tuning (SFT), followed by on-policy reinforcement learning. We find this process highly sensitive to hyperparameter choices, making exhaustive sweeps impractical. To spare others from expensive trial-and-error, we sample 1,370 configurations and use bootstrapping to estimate effective hyperparameters. Our results show that combining SFT with on-policy RL consistently outperforms either approach alone on both WorkArena and MiniWob++. Further, this strategy requires only 55% of the compute to match the peak performance of pure SFT on MiniWob++, effectively pushing the compute-performance Pareto frontier, and is the only strategy that can close the gap with closed-source models.
PDF442July 9, 2025