SpreadsheetLLM: Кодирование электронных таблиц для крупных языковых моделей
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
July 12, 2024
Авторы: Yuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang
cs.AI
Аннотация
Таблицы, с их обширными двумерными сетками, различными макетами и разнообразными опциями форматирования, представляют существенные вызовы для больших языковых моделей (LLM). В ответ на это мы представляем SpreadsheetLLM, первоначально разработанный эффективный метод кодирования, целью которого является раскрытие и оптимизация мощных возможностей понимания и рассуждения LLM на таблицах. Сначала мы предлагаем подход сериализации "ванильного" типа, который включает адреса ячеек, значения и форматы. Однако этот подход ограничивается ограничениями токенов LLM, что делает его непрактичным для большинства приложений. Для решения этой проблемы мы разрабатываем SheetCompressor, инновационную систему кодирования, которая эффективно сжимает таблицы для LLM. Она включает три модуля: структурно-якорное сжатие, обратный индексный перевод и агрегацию с учетом формата данных. Это значительно улучшает производительность в задаче обнаружения таблиц в таблицах, превосходя подход "ванильного" типа на 25,6% в контекстном обучении GPT4. Более того, донастроенная LLM с SheetCompressor имеет среднее соотношение сжатия в 25 раз, но достигает передового показателя F1 в 78,9%, превосходя лучшие существующие модели на 12,3%. Наконец, мы предлагаем Цепочку Таблиц для последующих задач понимания таблиц и проверяем в новой и требовательной задаче вопросов и ответов по таблицам. Мы методично используем врожденный макет и структуру таблиц, демонстрируя, что SpreadsheetLLM эффективен в различных задачах с таблицами.
English
Spreadsheets, with their extensive two-dimensional grids, various layouts,
and diverse formatting options, present notable challenges for large language
models (LLMs). In response, we introduce SpreadsheetLLM, pioneering an
efficient encoding method designed to unleash and optimize LLMs' powerful
understanding and reasoning capability on spreadsheets. Initially, we propose a
vanilla serialization approach that incorporates cell addresses, values, and
formats. However, this approach was limited by LLMs' token constraints, making
it impractical for most applications. To tackle this challenge, we develop
SheetCompressor, an innovative encoding framework that compresses spreadsheets
effectively for LLMs. It comprises three modules: structural-anchor-based
compression, inverse index translation, and data-format-aware aggregation. It
significantly improves performance in spreadsheet table detection task,
outperforming the vanilla approach by 25.6% in GPT4's in-context learning
setting. Moreover, fine-tuned LLM with SheetCompressor has an average
compression ratio of 25 times, but achieves a state-of-the-art 78.9% F1 score,
surpassing the best existing models by 12.3%. Finally, we propose Chain of
Spreadsheet for downstream tasks of spreadsheet understanding and validate in a
new and demanding spreadsheet QA task. We methodically leverage the inherent
layout and structure of spreadsheets, demonstrating that SpreadsheetLLM is
highly effective across a variety of spreadsheet tasks.Summary
AI-Generated Summary