SpreadsheetLLM: Codifica di Fogli di Calcolo per Modelli Linguistici di Grandi Dimensioni
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
July 12, 2024
Autori: Yuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang
cs.AI
Abstract
I fogli di calcolo, con le loro estese griglie bidimensionali, vari layout e diverse opzioni di formattazione, presentano sfide significative per i grandi modelli linguistici (LLM). In risposta, introduciamo SpreadsheetLLM, pionierizzando un metodo di codifica efficiente progettato per liberare e ottimizzare la potente capacità di comprensione e ragionamento degli LLM sui fogli di calcolo. Inizialmente, proponiamo un approccio di serializzazione di base che incorpora indirizzi delle celle, valori e formati. Tuttavia, questo approccio era limitato dai vincoli di token degli LLM, rendendolo impraticabile per la maggior parte delle applicazioni. Per affrontare questa sfida, sviluppiamo SheetCompressor, un framework di codifica innovativo che comprime efficacemente i fogli di calcolo per gli LLM. Esso comprende tre moduli: compressione basata su ancore strutturali, traduzione di indici inversi e aggregazione consapevole del formato dei dati. Migliora significativamente le prestazioni nel compito di rilevamento delle tabelle nei fogli di calcolo, superando l'approccio di base del 25,6% nell'impostazione di apprendimento in-context di GPT4. Inoltre, un LLM fine-tuned con SheetCompressor ha un rapporto di compressione medio di 25 volte, ma raggiunge un punteggio F1 all'avanguardia del 78,9%, superando i migliori modelli esistenti del 12,3%. Infine, proponiamo Chain of Spreadsheet per i compiti a valle della comprensione dei fogli di calcolo e convalidiamo in un nuovo e impegnativo compito di QA sui fogli di calcolo. Sfruttiamo metodicamente il layout e la struttura intrinseca dei fogli di calcolo, dimostrando che SpreadsheetLLM è altamente efficace in una varietà di compiti sui fogli di calcolo.
English
Spreadsheets, with their extensive two-dimensional grids, various layouts,
and diverse formatting options, present notable challenges for large language
models (LLMs). In response, we introduce SpreadsheetLLM, pioneering an
efficient encoding method designed to unleash and optimize LLMs' powerful
understanding and reasoning capability on spreadsheets. Initially, we propose a
vanilla serialization approach that incorporates cell addresses, values, and
formats. However, this approach was limited by LLMs' token constraints, making
it impractical for most applications. To tackle this challenge, we develop
SheetCompressor, an innovative encoding framework that compresses spreadsheets
effectively for LLMs. It comprises three modules: structural-anchor-based
compression, inverse index translation, and data-format-aware aggregation. It
significantly improves performance in spreadsheet table detection task,
outperforming the vanilla approach by 25.6% in GPT4's in-context learning
setting. Moreover, fine-tuned LLM with SheetCompressor has an average
compression ratio of 25 times, but achieves a state-of-the-art 78.9% F1 score,
surpassing the best existing models by 12.3%. Finally, we propose Chain of
Spreadsheet for downstream tasks of spreadsheet understanding and validate in a
new and demanding spreadsheet QA task. We methodically leverage the inherent
layout and structure of spreadsheets, demonstrating that SpreadsheetLLM is
highly effective across a variety of spreadsheet tasks.