Spreadsheet-RL: Avances en Agentes de Grandes Modelos de Lenguaje en Tareas Realistas de Hojas de Cálculo mediante Aprendizaje por Refuerzo

Resumen

Los sistemas de hojas de cálculo (por ejemplo, Microsoft Excel, Google Sheets) desempeñan un papel central en los flujos de trabajo modernos centrados en datos. A medida que los agentes de IA se vuelven cada vez más capaces de automatizar tareas complejas, como controlar computadoras y generar presentaciones, la construcción de un agente de hojas de cálculo basado en IA ha surgido como una dirección de investigación prometedora. La mayoría de los agentes de hojas de cálculo existentes dependen de indicaciones especializadas sobre LLM de propósito general; si bien este diseño tiene potencial en operaciones simples de hojas de cálculo, tiene dificultades para gestionar los flujos de trabajo complejos y de múltiples pasos típicos de las aplicaciones del mundo real. Presentamos Spreadsheet-RL, un marco de ajuste fino basado en aprendizaje por refuerzo (RL) diseñado para entrenar agentes especializados en hojas de cálculo dentro de un entorno realista de Microsoft Excel. Spreadsheet-RL cuenta con un pipeline automatizado para la recolección escalable de pares de hojas de cálculo de inicio y objetivo provenientes de foros en línea, así como tareas de evaluación específicas de dominio en áreas como finanzas y gestión de la cadena de suministro, que recopilamos en el nuevo conjunto de datos de referencia Domain-Spreadsheet. También incluye un entorno Spreadsheet Gym diseñado para RL de múltiples turnos: Spreadsheet Gym expone una amplia funcionalidad de Excel a través de un entorno aislado de Python, junto con una plataforma refinada que incorpora un conjunto completo de herramientas y reglas de enrutamiento de herramientas cuidadosamente diseñadas para tareas de hojas de cálculo. Mediante experimentos exhaustivos, demostramos que Spreadsheet-RL mejora sustancialmente el rendimiento del agente de IA tanto en tareas generales como específicas de dominio de hojas de cálculo: mejora el Pass@1 de Qwen3-4B-Thinking-2507 en SpreadsheetBench del 12.0% al 23.4%, y eleva el Pass@1 del 8.4% al 17.2% en nuestro conjunto de datos Domain-Spreadsheet curado. Estos resultados resaltan el fuerte potencial de Spreadsheet-RL para la generalización y la adopción en el mundo real en la automatización de hojas de cálculo, y en términos más amplios, su promesa para avanzar en las interacciones basadas en LLM con interfaces de datos en el trabajo cotidiano.

English

Spreadsheet systems (e.g., Microsoft Excel, Google Sheets) play a central role in modern data-centric workflows. As AI agents grow increasingly capable of automating complex tasks, such as controlling computers and generating presentations, building an AI-driven spreadsheet agent has emerged as a promising research direction. Most existing spreadsheet agents rely on specialized prompting over general-purpose LLMs; while this design has potentials on simple spreadsheet operations, it struggles to manage the complex, multi-step workflows typical of real-world applications. We introduce Spreadsheet-RL, a reinforcement learning (RL) fine-tuning framework designed to train specialized spreadsheet agents within a realistic Microsoft Excel environment. Spreadsheet-RL features an automated pipeline for scalable collection of paired start-goal spreadsheets from online forums, as well as domain-specific evaluation tasks in areas such as finance and supply chain management, which we compile into the new Domain-Spreadsheet benchmark dataset. It also includes a Spreadsheet Gym environment designed for multi-turn RL: Spreadsheet Gym exposes extensive Excel functionality through a Python sandbox, along with a refined harness that incorporates a comprehensive tool set and carefully designed tool-routing rules for spreadsheet tasks. Through comprehensive experiments, we show that Spreadsheet-RL substantially enhances AI agent's performance on both general and domain-specific spreadsheet tasks: it improves Qwen3-4B-Thinking-2507's Pass@1 on SpreadsheetBench from 12.0% to 23.4%, and raises Pass@1 from 8.4% to 17.2% on our curated Domain-Spreadsheet dataset. These results highlight Spreadsheet-RL's strong potential for generalization and real-world adoption in spreadsheet automation, and broadly, its promise for advancing LLM-based interactions with data interfaces in everyday work.