表格LLM:將試算表編碼為大型語言模型SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
擁有廣泛的二維網格、各種佈局和多樣格式選項的試算表,對於大型語言模型(LLMs)來說具有顯著挑戰。為應對此,我們引入了SpreadsheetLLM,開創了一種高效的編碼方法,旨在釋放和優化LLMs對試算表的強大理解和推理能力。最初,我們提出了一種基本序列化方法,該方法包括單元格地址、數值和格式。然而,由於LLMs的標記限制,這種方法在大多數應用中並不實用。為應對這一挑戰,我們開發了SheetCompressor,一種創新的編碼框架,有效地為LLMs壓縮試算表。它包括三個模塊:基於結構錨點的壓縮、逆向索引轉換和數據格式感知的聚合。在試算表表格檢測任務中,它顯著提高了性能,在GPT4的內文學習環境中,比基本方法高出25.6%。此外,使用SheetCompressor進行微調的LLM具有平均25倍的壓縮比,但實現了78.9%的F1得分,超越了現有最佳模型12.3%。最後,我們提出了Chain of Spreadsheet用於試算表理解的下游任務,並在一個新的、要求嚴格的試算表QA任務中進行驗證。我們系統地利用試算表的固有佈局和結構,展示了SpreadsheetLLM在各種試算表任務中的高效性。