SpreadsheetLLM: Кодирование электронных таблиц для крупных языковых моделей

Аннотация

Таблицы, с их обширными двумерными сетками, различными макетами и разнообразными опциями форматирования, представляют существенные вызовы для больших языковых моделей (LLM). В ответ на это мы представляем SpreadsheetLLM, первоначально разработанный эффективный метод кодирования, целью которого является раскрытие и оптимизация мощных возможностей понимания и рассуждения LLM на таблицах. Сначала мы предлагаем подход сериализации "ванильного" типа, который включает адреса ячеек, значения и форматы. Однако этот подход ограничивается ограничениями токенов LLM, что делает его непрактичным для большинства приложений. Для решения этой проблемы мы разрабатываем SheetCompressor, инновационную систему кодирования, которая эффективно сжимает таблицы для LLM. Она включает три модуля: структурно-якорное сжатие, обратный индексный перевод и агрегацию с учетом формата данных. Это значительно улучшает производительность в задаче обнаружения таблиц в таблицах, превосходя подход "ванильного" типа на 25,6% в контекстном обучении GPT4. Более того, донастроенная LLM с SheetCompressor имеет среднее соотношение сжатия в 25 раз, но достигает передового показателя F1 в 78,9%, превосходя лучшие существующие модели на 12,3%. Наконец, мы предлагаем Цепочку Таблиц для последующих задач понимания таблиц и проверяем в новой и требовательной задаче вопросов и ответов по таблицам. Мы методично используем врожденный макет и структуру таблиц, демонстрируя, что SpreadsheetLLM эффективен в различных задачах с таблицами.

English

Spreadsheets, with their extensive two-dimensional grids, various layouts, and diverse formatting options, present notable challenges for large language models (LLMs). In response, we introduce SpreadsheetLLM, pioneering an efficient encoding method designed to unleash and optimize LLMs' powerful understanding and reasoning capability on spreadsheets. Initially, we propose a vanilla serialization approach that incorporates cell addresses, values, and formats. However, this approach was limited by LLMs' token constraints, making it impractical for most applications. To tackle this challenge, we develop SheetCompressor, an innovative encoding framework that compresses spreadsheets effectively for LLMs. It comprises three modules: structural-anchor-based compression, inverse index translation, and data-format-aware aggregation. It significantly improves performance in spreadsheet table detection task, outperforming the vanilla approach by 25.6% in GPT4's in-context learning setting. Moreover, fine-tuned LLM with SheetCompressor has an average compression ratio of 25 times, but achieves a state-of-the-art 78.9% F1 score, surpassing the best existing models by 12.3%. Finally, we propose Chain of Spreadsheet for downstream tasks of spreadsheet understanding and validate in a new and demanding spreadsheet QA task. We methodically leverage the inherent layout and structure of spreadsheets, demonstrating that SpreadsheetLLM is highly effective across a variety of spreadsheet tasks.

SpreadsheetLLM: Кодирование электронных таблиц для крупных языковых моделей

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

Аннотация

Support