SpreadsheetLLM: Кодирование электронных таблиц для крупных языковых моделейSpreadsheetLLM: Encoding Spreadsheets for Large Language Models
Таблицы, с их обширными двумерными сетками, различными макетами и разнообразными опциями форматирования, представляют существенные вызовы для больших языковых моделей (LLM). В ответ на это мы представляем SpreadsheetLLM, первоначально разработанный эффективный метод кодирования, целью которого является раскрытие и оптимизация мощных возможностей понимания и рассуждения LLM на таблицах. Сначала мы предлагаем подход сериализации "ванильного" типа, который включает адреса ячеек, значения и форматы. Однако этот подход ограничивается ограничениями токенов LLM, что делает его непрактичным для большинства приложений. Для решения этой проблемы мы разрабатываем SheetCompressor, инновационную систему кодирования, которая эффективно сжимает таблицы для LLM. Она включает три модуля: структурно-якорное сжатие, обратный индексный перевод и агрегацию с учетом формата данных. Это значительно улучшает производительность в задаче обнаружения таблиц в таблицах, превосходя подход "ванильного" типа на 25,6% в контекстном обучении GPT4. Более того, донастроенная LLM с SheetCompressor имеет среднее соотношение сжатия в 25 раз, но достигает передового показателя F1 в 78,9%, превосходя лучшие существующие модели на 12,3%. Наконец, мы предлагаем Цепочку Таблиц для последующих задач понимания таблиц и проверяем в новой и требовательной задаче вопросов и ответов по таблицам. Мы методично используем врожденный макет и структуру таблиц, демонстрируя, что SpreadsheetLLM эффективен в различных задачах с таблицами.