电子表格LLM:为大型语言模型编码电子表格SpreadsheetLLM: Encoding Spreadsheets for Large Language Models
表格在其广泛的二维网格、各种布局和多样的格式选项中,对大型语言模型(LLMs)提出了显著挑战。作为回应,我们引入了SpreadsheetLLM,开创了一种高效的编码方法,旨在释放和优化LLMs在电子表格上强大的理解和推理能力。最初,我们提出了一种基本的序列化方法,其中包括单元格地址、数值和格式。然而,这种方法受到了LLMs的标记限制,使其在大多数应用中变得不切实际。为了解决这一挑战,我们开发了SheetCompressor,这是一种创新的编码框架,可以有效地压缩电子表格以适应LLMs。它包括三个模块:基于结构锚点的压缩、逆向索引转换和数据格式感知聚合。在电子表格表格检测任务中,它显著提高了性能,在GPT4的上下文学习环境中,比基本方法提高了25.6%。此外,使用SheetCompressor进行微调的LLM具有平均25倍的压缩比,但实现了78.9%的F1得分,超过了现有最佳模型12.3%。最后,我们提出了Chain of Spreadsheet,用于电子表格理解的下游任务,并在一个新的、要求严格的电子表格问答任务中进行验证。我们系统地利用电子表格的固有布局和结构,证明了SpreadsheetLLM在各种电子表格任务中都非常有效。