SpreadsheetLLM: Spreadsheets coderen voor grote taalmodellen

Samenvatting

Spreadsheets, met hun uitgebreide tweedimensionale rasters, diverse lay-outs en verschillende opmaakopties, vormen aanzienlijke uitdagingen voor grote taalmmodellen (LLMs). Als reactie hierop introduceren we SpreadsheetLLM, dat een efficiënte coderingsmethode pionier die is ontworpen om het krachtige begrip en redeneervermogen van LLMs op spreadsheets te ontketenen en te optimaliseren. Eerst stellen we een eenvoudige serialisatiebenadering voor die celadressen, waarden en opmaak incorporeert. Deze benadering werd echter beperkt door de tokenbeperkingen van LLMs, waardoor het voor de meeste toepassingen onpraktisch was. Om deze uitdaging aan te pakken, ontwikkelen we SheetCompressor, een innovatief coderingsraamwerk dat spreadsheets effectief comprimeert voor LLMs. Het bestaat uit drie modules: structureel-anker gebaseerde compressie, inverse indexvertaling en data-opmaakbewuste aggregatie. Het verbetert de prestaties aanzienlijk in de taak van spreadsheet-tabeldetectie, waarbij het de eenvoudige benadering met 25,6% overtreft in de in-context leeromgeving van GPT4. Bovendien heeft een fijn afgestelde LLM met SheetCompressor een gemiddeld compressiepercentage van 25 keer, maar behaalt een state-of-the-art F1-score van 78,9%, wat de beste bestaande modellen met 12,3% overtreft. Tot slot stellen we Chain of Spreadsheet voor voor downstream taken van spreadsheetbegrip en valideren we dit in een nieuwe en veeleisende spreadsheet QA-taak. We benutten methodisch de inherente lay-out en structuur van spreadsheets, wat aantoont dat SpreadsheetLLM zeer effectief is in een verscheidenheid aan spreadsheet taken.

English

Spreadsheets, with their extensive two-dimensional grids, various layouts, and diverse formatting options, present notable challenges for large language models (LLMs). In response, we introduce SpreadsheetLLM, pioneering an efficient encoding method designed to unleash and optimize LLMs' powerful understanding and reasoning capability on spreadsheets. Initially, we propose a vanilla serialization approach that incorporates cell addresses, values, and formats. However, this approach was limited by LLMs' token constraints, making it impractical for most applications. To tackle this challenge, we develop SheetCompressor, an innovative encoding framework that compresses spreadsheets effectively for LLMs. It comprises three modules: structural-anchor-based compression, inverse index translation, and data-format-aware aggregation. It significantly improves performance in spreadsheet table detection task, outperforming the vanilla approach by 25.6% in GPT4's in-context learning setting. Moreover, fine-tuned LLM with SheetCompressor has an average compression ratio of 25 times, but achieves a state-of-the-art 78.9% F1 score, surpassing the best existing models by 12.3%. Finally, we propose Chain of Spreadsheet for downstream tasks of spreadsheet understanding and validate in a new and demanding spreadsheet QA task. We methodically leverage the inherent layout and structure of spreadsheets, demonstrating that SpreadsheetLLM is highly effective across a variety of spreadsheet tasks.

SpreadsheetLLM: Spreadsheets coderen voor grote taalmodellen

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

Samenvatting

Support