Spreadsheet-RL: Het bevorderen van grote taalmodellen als agenten voor realistische spreadsheet taken via reinforcement learning

Samenvatting

Spreadsheetsystemen (bijv. Microsoft Excel, Google Sheets) spelen een centrale rol in moderne data-gecentreerde workflows. Naarmate AI-agenten steeds beter in staat zijn om complexe taken te automatiseren, zoals het besturen van computers en het genereren van presentaties, is het bouwen van een AI-gestuurde spreadsheetagent een veelbelovende onderzoeksrichting geworden. De meeste bestaande spreadsheetagenten vertrouwen op gespecialiseerde prompting over algemene LLM's; hoewel dit ontwerp potentieel heeft voor eenvoudige spreadsheetbewerkingen, heeft het moeite met het beheren van de complexe, meerstapswerkstromen die kenmerkend zijn voor praktijktoepassingen. We introduceren Spreadsheet-RL, een reinforcement learning (RL) fijnafstemmingsraamwerk dat is ontworpen om gespecialiseerde spreadsheetagenten te trainen in een realistische Microsoft Excel-omgeving. Spreadsheet-RL bevat een geautomatiseerde pijplijn voor schaalbare verzameling van gepaarde start-doel-spreadsheets uit online forums, evenals domeinspecifieke evaluatietaken op gebieden zoals financiën en supply chain management, die we hebben samengebracht in de nieuwe Domain-Spreadsheet benchmarkdataset. Het omvat ook een Spreadsheet Gym-omgeving die is ontworpen voor meerstaps-RL: Spreadsheet Gym stelt uitgebreide Excel-functionaliteit beschikbaar via een Python sandbox, samen met een verfijnd raamwerk dat een uitgebreide toolset en zorgvuldig ontworpen tool-routeringsregels voor spreadsheettaken bevat. Door uitgebreide experimenten tonen we aan dat Spreadsheet-RL de prestaties van AI-agenten op zowel algemene als domeinspecifieke spreadsheettaken aanzienlijk verbetert: het verhoogt Qwen3-4B-Thinking-2507's Pass@1 op SpreadsheetBench van 12,0% naar 23,4%, en verhoogt Pass@1 op onze samengestelde Domain-Spreadsheet dataset van 8,4% naar 17,2%. Deze resultaten benadrukken het sterke potentieel van Spreadsheet-RL voor generalisatie en praktijktoepassing in spreadsheetautomatisering, en in bredere zin de belofte ervan voor het verbeteren van LLM-gebaseerde interacties met data-interfaces in het dagelijkse werk.

English

Spreadsheet systems (e.g., Microsoft Excel, Google Sheets) play a central role in modern data-centric workflows. As AI agents grow increasingly capable of automating complex tasks, such as controlling computers and generating presentations, building an AI-driven spreadsheet agent has emerged as a promising research direction. Most existing spreadsheet agents rely on specialized prompting over general-purpose LLMs; while this design has potentials on simple spreadsheet operations, it struggles to manage the complex, multi-step workflows typical of real-world applications. We introduce Spreadsheet-RL, a reinforcement learning (RL) fine-tuning framework designed to train specialized spreadsheet agents within a realistic Microsoft Excel environment. Spreadsheet-RL features an automated pipeline for scalable collection of paired start-goal spreadsheets from online forums, as well as domain-specific evaluation tasks in areas such as finance and supply chain management, which we compile into the new Domain-Spreadsheet benchmark dataset. It also includes a Spreadsheet Gym environment designed for multi-turn RL: Spreadsheet Gym exposes extensive Excel functionality through a Python sandbox, along with a refined harness that incorporates a comprehensive tool set and carefully designed tool-routing rules for spreadsheet tasks. Through comprehensive experiments, we show that Spreadsheet-RL substantially enhances AI agent's performance on both general and domain-specific spreadsheet tasks: it improves Qwen3-4B-Thinking-2507's Pass@1 on SpreadsheetBench from 12.0% to 23.4%, and raises Pass@1 from 8.4% to 17.2% on our curated Domain-Spreadsheet dataset. These results highlight Spreadsheet-RL's strong potential for generalization and real-world adoption in spreadsheet automation, and broadly, its promise for advancing LLM-based interactions with data interfaces in everyday work.