PlanilhaLLM: Codificação de Planilhas para Modelos de Linguagem Grandes
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
July 12, 2024
Autores: Yuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang
cs.AI
Resumo
As planilhas, com suas extensas grades bidimensionais, vários layouts e diversas opções de formatação, apresentam desafios notáveis para modelos de linguagem grandes (LLMs). Em resposta, introduzimos o SpreadsheetLLM, pioneirizando um método de codificação eficiente projetado para liberar e otimizar a capacidade poderosa de compreensão e raciocínio dos LLMs em planilhas. Inicialmente, propomos uma abordagem de serialização básica que incorpora endereços de células, valores e formatos. No entanto, essa abordagem foi limitada pelas restrições de tokens dos LLMs, tornando-a impraticável para a maioria das aplicações. Para enfrentar esse desafio, desenvolvemos o SheetCompressor, um inovador framework de codificação que comprime planilhas de forma eficaz para os LLMs. Ele é composto por três módulos: compressão baseada em âncoras estruturais, tradução de índice inverso e agregação consciente de formatos de dados. Isso melhora significativamente o desempenho na tarefa de detecção de tabelas de planilha, superando a abordagem básica em 25,6% no cenário de aprendizado em contexto do GPT4. Além disso, o LLM ajustado com o SheetCompressor possui uma razão média de compressão de 25 vezes, mas alcança um score F1 de 78,9%, de última geração, superando os melhores modelos existentes em 12,3%. Por fim, propomos a Cadeia de Planilhas para tarefas subsequentes de compreensão de planilhas e validamos em uma nova e exigente tarefa de QA de planilhas. Aproveitamos metodicamente o layout e a estrutura inerentes das planilhas, demonstrando que o SpreadsheetLLM é altamente eficaz em uma variedade de tarefas de planilha.
English
Spreadsheets, with their extensive two-dimensional grids, various layouts,
and diverse formatting options, present notable challenges for large language
models (LLMs). In response, we introduce SpreadsheetLLM, pioneering an
efficient encoding method designed to unleash and optimize LLMs' powerful
understanding and reasoning capability on spreadsheets. Initially, we propose a
vanilla serialization approach that incorporates cell addresses, values, and
formats. However, this approach was limited by LLMs' token constraints, making
it impractical for most applications. To tackle this challenge, we develop
SheetCompressor, an innovative encoding framework that compresses spreadsheets
effectively for LLMs. It comprises three modules: structural-anchor-based
compression, inverse index translation, and data-format-aware aggregation. It
significantly improves performance in spreadsheet table detection task,
outperforming the vanilla approach by 25.6% in GPT4's in-context learning
setting. Moreover, fine-tuned LLM with SheetCompressor has an average
compression ratio of 25 times, but achieves a state-of-the-art 78.9% F1 score,
surpassing the best existing models by 12.3%. Finally, we propose Chain of
Spreadsheet for downstream tasks of spreadsheet understanding and validate in a
new and demanding spreadsheet QA task. We methodically leverage the inherent
layout and structure of spreadsheets, demonstrating that SpreadsheetLLM is
highly effective across a variety of spreadsheet tasks.