Spreadsheet-RL: Weiterentwicklung von Large Language Model Agents bei realistischen Tabellenkalkulationsaufgaben mittels Reinforcement Learning

Zusammenfassung

Tabellenkalkulationssysteme (z. B. Microsoft Excel, Google Sheets) spielen eine zentrale Rolle in modernen datenzentrierten Arbeitsabläufen. Da KI-Agenten zunehmend in der Lage sind, komplexe Aufgaben wie die Steuerung von Computern und die Erstellung von Präsentationen zu automatisieren, hat sich die Entwicklung eines KI-gesteuerten Tabellenkalkulationsagenten als vielversprechende Forschungsrichtung herauskristallisiert. Die meisten bestehenden Tabellenkalkulationsagenten stützen sich auf spezialisiertes Prompting über allgemeine große Sprachmodelle (LLMs); während dieses Design bei einfachen Tabellenkalkulationsoperationen Potenzial hat, fällt es ihm schwer, die komplexen, mehrschrittigen Arbeitsabläufe zu bewältigen, die für reale Anwendungen typisch sind. Wir stellen Spreadsheet-RL vor, ein Framework zur Feinabstimmung mittels Bestärkendem Lernen (RL), das darauf ausgelegt ist, spezialisierte Tabellenkalkulationsagenten in einer realistischen Microsoft Excel-Umgebung zu trainieren. Spreadsheet-RL umfasst eine automatisierte Pipeline zur skalierbaren Sammlung gepaarter Start-Ziel-Tabellen aus Online-Foren sowie domänenspezifische Evaluierungsaufgaben in Bereichen wie Finanzen und Lieferkettenmanagement, die wir im neuen Benchmark-Datensatz Domain-Spreadsheet zusammenfassen. Es enthält außerdem eine Spreadsheet-Gym-Umgebung für mehrschrittiges RL: Spreadsheet Gym legt umfangreiche Excel-Funktionen über eine Python-Sandbox offen, zusammen mit einem verfeinerten Rahmenwerk, das einen umfassenden Werkzeugsatz und sorgfältig entworfene Werkzeug-Routing-Regeln für Tabellenkalkulationsaufgaben beinhaltet. Durch umfassende Experimente zeigen wir, dass Spreadsheet-RL die Leistung von KI-Agenten sowohl bei allgemeinen als auch bei domänenspezifischen Tabellenkalkulationsaufgaben erheblich verbessert: Es steigert den Pass@1 von Qwen3-4B-Thinking-2507 auf SpreadsheetBench von 12,0 % auf 23,4 % und erhöht den Pass@1 auf unserem kuratierten Domain-Spreadsheet-Datensatz von 8,4 % auf 17,2 %. Diese Ergebnisse unterstreichen das starke Potenzial von Spreadsheet-RL für die Generalisierung und den Einsatz in der realen Tabellenkalkulationsautomatisierung sowie allgemein seine vielversprechende Rolle bei der Weiterentwicklung LLM-basierter Interaktionen mit Datenschnittstellen im Arbeitsalltag.

English

Spreadsheet systems (e.g., Microsoft Excel, Google Sheets) play a central role in modern data-centric workflows. As AI agents grow increasingly capable of automating complex tasks, such as controlling computers and generating presentations, building an AI-driven spreadsheet agent has emerged as a promising research direction. Most existing spreadsheet agents rely on specialized prompting over general-purpose LLMs; while this design has potentials on simple spreadsheet operations, it struggles to manage the complex, multi-step workflows typical of real-world applications. We introduce Spreadsheet-RL, a reinforcement learning (RL) fine-tuning framework designed to train specialized spreadsheet agents within a realistic Microsoft Excel environment. Spreadsheet-RL features an automated pipeline for scalable collection of paired start-goal spreadsheets from online forums, as well as domain-specific evaluation tasks in areas such as finance and supply chain management, which we compile into the new Domain-Spreadsheet benchmark dataset. It also includes a Spreadsheet Gym environment designed for multi-turn RL: Spreadsheet Gym exposes extensive Excel functionality through a Python sandbox, along with a refined harness that incorporates a comprehensive tool set and carefully designed tool-routing rules for spreadsheet tasks. Through comprehensive experiments, we show that Spreadsheet-RL substantially enhances AI agent's performance on both general and domain-specific spreadsheet tasks: it improves Qwen3-4B-Thinking-2507's Pass@1 on SpreadsheetBench from 12.0% to 23.4%, and raises Pass@1 from 8.4% to 17.2% on our curated Domain-Spreadsheet dataset. These results highlight Spreadsheet-RL's strong potential for generalization and real-world adoption in spreadsheet automation, and broadly, its promise for advancing LLM-based interactions with data interfaces in everyday work.