SpreadsheetLLM : Encodage des feuilles de calcul pour les grands modèles de langage

papers.abstract

Les feuilles de calcul, avec leurs vastes grilles bidimensionnelles, leurs multiples mises en page et leurs diverses options de formatage, posent des défis notables pour les grands modèles de langage (LLMs). En réponse, nous introduisons SpreadsheetLLM, pionnier d'une méthode d'encodage efficace conçue pour libérer et optimiser la puissante capacité de compréhension et de raisonnement des LLMs sur les feuilles de calcul. Initialement, nous proposons une approche de sérialisation classique qui intègre les adresses de cellules, les valeurs et les formats. Cependant, cette approche était limitée par les contraintes de tokens des LLMs, la rendant peu pratique pour la plupart des applications. Pour relever ce défi, nous développons SheetCompressor, un cadre d'encodage innovant qui compresse efficacement les feuilles de calcul pour les LLMs. Il comprend trois modules : la compression basée sur des ancres structurelles, la traduction d'index inversé et l'agrégation prenant en compte les formats de données. Il améliore significativement les performances dans la tâche de détection de tableaux de feuilles de calcul, surpassant l'approche classique de 25,6% dans le cadre d'apprentissage contextuel de GPT4. De plus, un LLM affiné avec SheetCompressor atteint un taux de compression moyen de 25 fois, mais obtient un score F1 de pointe de 78,9%, surpassant les meilleurs modèles existants de 12,3%. Enfin, nous proposons Chain of Spreadsheet pour les tâches en aval de compréhension des feuilles de calcul et validons dans une nouvelle et exigeante tâche de question-réponse sur les feuilles de calcul. Nous exploitons méthodiquement la disposition et la structure inhérentes des feuilles de calcul, démontrant que SpreadsheetLLM est hautement efficace pour une variété de tâches sur les feuilles de calcul.

English

Spreadsheets, with their extensive two-dimensional grids, various layouts, and diverse formatting options, present notable challenges for large language models (LLMs). In response, we introduce SpreadsheetLLM, pioneering an efficient encoding method designed to unleash and optimize LLMs' powerful understanding and reasoning capability on spreadsheets. Initially, we propose a vanilla serialization approach that incorporates cell addresses, values, and formats. However, this approach was limited by LLMs' token constraints, making it impractical for most applications. To tackle this challenge, we develop SheetCompressor, an innovative encoding framework that compresses spreadsheets effectively for LLMs. It comprises three modules: structural-anchor-based compression, inverse index translation, and data-format-aware aggregation. It significantly improves performance in spreadsheet table detection task, outperforming the vanilla approach by 25.6% in GPT4's in-context learning setting. Moreover, fine-tuned LLM with SheetCompressor has an average compression ratio of 25 times, but achieves a state-of-the-art 78.9% F1 score, surpassing the best existing models by 12.3%. Finally, we propose Chain of Spreadsheet for downstream tasks of spreadsheet understanding and validate in a new and demanding spreadsheet QA task. We methodically leverage the inherent layout and structure of spreadsheets, demonstrating that SpreadsheetLLM is highly effective across a variety of spreadsheet tasks.

SpreadsheetLLM : Encodage des feuilles de calcul pour les grands modèles de langage

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

papers.abstract

Support