Spreadsheet-RL: Совершенствование агентов на основе больших языковых моделей в реалистичных задачах с электронными таблицами с помощью обучения с подкреплением

Аннотация

Системы электронных таблиц (например, Microsoft Excel, Google Sheets) играют центральную роль в современных рабочих процессах, ориентированных на данные. По мере того как агенты ИИ становятся все более способными к автоматизации сложных задач, таких как управление компьютерами и создание презентаций, создание агента для работы с электронными таблицами на основе ИИ стало перспективным направлением исследований. Большинство существующих агентов для электронных таблиц полагаются на специализированные подсказки для универсальных LLM; хотя такой подход имеет потенциал для простых операций с таблицами, он с трудом справляется со сложными многошаговыми рабочими процессами, типичными для реальных приложений. Мы представляем Spreadsheet-RL — фреймворк для тонкой настройки с подкреплением (RL), предназначенный для обучения специализированных агентов электронных таблиц в реалистичной среде Microsoft Excel. Spreadsheet-RL включает автоматизированный конвейер для масштабируемого сбора пар начальных и целевых таблиц из онлайн-форумов, а также предметно-ориентированные оценочные задачи в таких областях, как финансы и управление цепочками поставок, которые мы объединяем в новый набор эталонных данных Domain-Spreadsheet. Фреймворк также включает среду Spreadsheet Gym, разработанную для многошагового обучения с подкреплением: Spreadsheet Gym предоставляет обширные функции Excel через изолированную среду Python, а также усовершенствованный инструментарий, включающий всесторонний набор инструментов и тщательно разработанные правила маршрутизации инструментов для задач с электронными таблицами. В ходе всесторонних экспериментов мы показываем, что Spreadsheet-RL существенно повышает производительность агента ИИ как на общих, так и на предметно-ориентированных задачах: он улучшает показатель Pass@1 для Qwen3-4B-Thinking-2507 на SpreadsheetBench с 12,0% до 23,4%, а на нашем подобранном наборе данных Domain-Spreadsheet — с 8,4% до 17,2%. Эти результаты подчеркивают высокий потенциал Spreadsheet-RL для обобщения и реального внедрения в автоматизацию работы с электронными таблицами, а в более широком смысле — его перспективность для улучшения взаимодействия LLM с интерфейсами данных в повседневной работе.

English

Spreadsheet systems (e.g., Microsoft Excel, Google Sheets) play a central role in modern data-centric workflows. As AI agents grow increasingly capable of automating complex tasks, such as controlling computers and generating presentations, building an AI-driven spreadsheet agent has emerged as a promising research direction. Most existing spreadsheet agents rely on specialized prompting over general-purpose LLMs; while this design has potentials on simple spreadsheet operations, it struggles to manage the complex, multi-step workflows typical of real-world applications. We introduce Spreadsheet-RL, a reinforcement learning (RL) fine-tuning framework designed to train specialized spreadsheet agents within a realistic Microsoft Excel environment. Spreadsheet-RL features an automated pipeline for scalable collection of paired start-goal spreadsheets from online forums, as well as domain-specific evaluation tasks in areas such as finance and supply chain management, which we compile into the new Domain-Spreadsheet benchmark dataset. It also includes a Spreadsheet Gym environment designed for multi-turn RL: Spreadsheet Gym exposes extensive Excel functionality through a Python sandbox, along with a refined harness that incorporates a comprehensive tool set and carefully designed tool-routing rules for spreadsheet tasks. Through comprehensive experiments, we show that Spreadsheet-RL substantially enhances AI agent's performance on both general and domain-specific spreadsheet tasks: it improves Qwen3-4B-Thinking-2507's Pass@1 on SpreadsheetBench from 12.0% to 23.4%, and raises Pass@1 from 8.4% to 17.2% on our curated Domain-Spreadsheet dataset. These results highlight Spreadsheet-RL's strong potential for generalization and real-world adoption in spreadsheet automation, and broadly, its promise for advancing LLM-based interactions with data interfaces in everyday work.