SpreadsheetLLM: Codificación de Hojas de Cálculo para Modelos de Lenguaje Grandes
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
July 12, 2024
Autores: Yuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang
cs.AI
Resumen
Las hojas de cálculo, con sus extensas cuadrículas bidimensionales, diversos diseños y variadas opciones de formato, presentan desafíos notables para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). En respuesta, presentamos SpreadsheetLLM, pionero en un método de codificación eficiente diseñado para liberar y optimizar la potente capacidad de comprensión y razonamiento de los LLMs en hojas de cálculo. Inicialmente, proponemos un enfoque de serialización básico que incorpora direcciones de celda, valores y formatos. Sin embargo, este enfoque se vio limitado por las restricciones de tokens de los LLMs, lo que lo hizo poco práctico para la mayoría de las aplicaciones. Para abordar este desafío, desarrollamos SheetCompressor, un innovador marco de codificación que comprime eficazmente las hojas de cálculo para los LLMs. Consta de tres módulos: compresión basada en anclaje estructural, traducción de índices inversos y agregación consciente del formato de los datos. Mejora significativamente el rendimiento en la tarea de detección de tablas de hojas de cálculo, superando al enfoque básico en un 25.6% en el entorno de aprendizaje en contexto de GPT4. Además, el LLM afinado con SheetCompressor tiene una relación de compresión promedio de 25 veces, pero logra un puntaje F1 de vanguardia del 78.9%, superando a los mejores modelos existentes en un 12.3%. Finalmente, proponemos Chain of Spreadsheet para tareas posteriores de comprensión de hojas de cálculo y validamos en una nueva y exigente tarea de preguntas y respuestas de hojas de cálculo. Aprovechamos metódicamente el diseño y la estructura inherentes de las hojas de cálculo, demostrando que SpreadsheetLLM es altamente efectivo en una variedad de tareas de hojas de cálculo.
English
Spreadsheets, with their extensive two-dimensional grids, various layouts,
and diverse formatting options, present notable challenges for large language
models (LLMs). In response, we introduce SpreadsheetLLM, pioneering an
efficient encoding method designed to unleash and optimize LLMs' powerful
understanding and reasoning capability on spreadsheets. Initially, we propose a
vanilla serialization approach that incorporates cell addresses, values, and
formats. However, this approach was limited by LLMs' token constraints, making
it impractical for most applications. To tackle this challenge, we develop
SheetCompressor, an innovative encoding framework that compresses spreadsheets
effectively for LLMs. It comprises three modules: structural-anchor-based
compression, inverse index translation, and data-format-aware aggregation. It
significantly improves performance in spreadsheet table detection task,
outperforming the vanilla approach by 25.6% in GPT4's in-context learning
setting. Moreover, fine-tuned LLM with SheetCompressor has an average
compression ratio of 25 times, but achieves a state-of-the-art 78.9% F1 score,
surpassing the best existing models by 12.3%. Finally, we propose Chain of
Spreadsheet for downstream tasks of spreadsheet understanding and validate in a
new and demanding spreadsheet QA task. We methodically leverage the inherent
layout and structure of spreadsheets, demonstrating that SpreadsheetLLM is
highly effective across a variety of spreadsheet tasks.Summary
AI-Generated Summary