Spreadsheet-RL : Amélioration des agents de grands modèles de langage sur des tâches réalistes de tableur via l'apprentissage par renforcement

Résumé

Les systèmes de tableurs (par exemple, Microsoft Excel, Google Sheets) jouent un rôle central dans les flux de travail modernes axés sur les données. Alors que les agents d’IA deviennent de plus en plus capables d’automatiser des tâches complexes, telles que le contrôle d’ordinateurs et la génération de présentations, la construction d’un agent de tableur basé sur l’IA est devenue une direction de recherche prometteuse. La plupart des agents de tableur existants reposent sur des incitations spécialisées appliquées à des LLM à usage général ; bien que cette conception ait du potentiel pour des opérations simples sur tableur, elle peine à gérer les flux de travail complexes et multi-étapes typiques des applications réelles. Nous présentons Spreadsheet-RL, un cadre d’affinage par apprentissage par renforcement (RL) conçu pour former des agents de tableur spécialisés dans un environnement réaliste de Microsoft Excel. Spreadsheet-RL intègre un pipeline automatisé de collecte à grande échelle de paires de feuilles de calcul de départ et d’arrivée issues de forums en ligne, ainsi que des tâches d’évaluation spécifiques à des domaines tels que la finance et la gestion de la chaîne d’approvisionnement, que nous compilons dans le nouvel ensemble de données de référence Domain-Spreadsheet. Il comprend également un environnement Spreadsheet Gym conçu pour le RL multi-tours : Spreadsheet Gym expose les fonctionnalités étendues d’Excel via un bac à sable Python, accompagné d’un harnais perfectionné intégrant un ensemble complet d’outils et des règles d’acheminement d’outils soigneusement conçues pour les tâches de tableur. À travers des expériences approfondies, nous montrons que Spreadsheet-RL améliore considérablement les performances des agents d’IA sur les tâches de tableur générales et spécifiques à un domaine : il fait passer le Pass@1 de Qwen3-4B-Thinking-2507 sur SpreadsheetBench de 12,0 % à 23,4 %, et augmente le Pass@1 de 8,4 % à 17,2 % sur notre ensemble de données Domain-Spreadsheet. Ces résultats soulignent le fort potentiel de généralisation et d’adoption réelle de Spreadsheet-RL dans l’automatisation des tableurs, et plus largement, sa promesse pour faire progresser les interactions basées sur les LLM avec les interfaces de données dans le travail quotidien.

English

Spreadsheet systems (e.g., Microsoft Excel, Google Sheets) play a central role in modern data-centric workflows. As AI agents grow increasingly capable of automating complex tasks, such as controlling computers and generating presentations, building an AI-driven spreadsheet agent has emerged as a promising research direction. Most existing spreadsheet agents rely on specialized prompting over general-purpose LLMs; while this design has potentials on simple spreadsheet operations, it struggles to manage the complex, multi-step workflows typical of real-world applications. We introduce Spreadsheet-RL, a reinforcement learning (RL) fine-tuning framework designed to train specialized spreadsheet agents within a realistic Microsoft Excel environment. Spreadsheet-RL features an automated pipeline for scalable collection of paired start-goal spreadsheets from online forums, as well as domain-specific evaluation tasks in areas such as finance and supply chain management, which we compile into the new Domain-Spreadsheet benchmark dataset. It also includes a Spreadsheet Gym environment designed for multi-turn RL: Spreadsheet Gym exposes extensive Excel functionality through a Python sandbox, along with a refined harness that incorporates a comprehensive tool set and carefully designed tool-routing rules for spreadsheet tasks. Through comprehensive experiments, we show that Spreadsheet-RL substantially enhances AI agent's performance on both general and domain-specific spreadsheet tasks: it improves Qwen3-4B-Thinking-2507's Pass@1 on SpreadsheetBench from 12.0% to 23.4%, and raises Pass@1 from 8.4% to 17.2% on our curated Domain-Spreadsheet dataset. These results highlight Spreadsheet-RL's strong potential for generalization and real-world adoption in spreadsheet automation, and broadly, its promise for advancing LLM-based interactions with data interfaces in everyday work.