TabellenkalkulationLLM: Codierung von Tabellenkalkulationen für große SprachmodelleSpreadsheetLLM: Encoding Spreadsheets for Large Language Models
Tabellenkalkulationen mit ihren umfangreichen zweidimensionalen Rastern, verschiedenen Layouts und vielfältigen Formatierungsoptionen stellen bedeutende Herausforderungen für große Sprachmodelle (LLMs) dar. Als Antwort führen wir SpreadsheetLLM ein, das eine effiziente Codierungsmethode entwickelt, um das leistungsstarke Verständnis- und Schlussfolgerungsvermögen von LLMs auf Tabellenkalkulationen zu entfesseln und zu optimieren. Zunächst schlagen wir einen einfachen Serialisierungsansatz vor, der Zelladressen, Werte und Formate integriert. Allerdings war dieser Ansatz aufgrund der Tokenbeschränkungen von LLMs begrenzt und daher für die meisten Anwendungen unpraktisch. Um diese Herausforderung anzugehen, entwickeln wir SheetCompressor, ein innovatives Codierungsframework, das Tabellenkalkulationen effektiv für LLMs komprimiert. Es besteht aus drei Modulen: strukturankerbasierte Kompression, inverse Indexübersetzung und datenformatbewusste Aggregation. Dies verbessert die Leistung signifikant in der Aufgabe der Tabellenerkennung in Tabellenkalkulationen und übertrifft den einfachen Ansatz um 25,6% im Kontextlernen von GPT4. Darüber hinaus hat ein feinabgestimmtes LLM mit SheetCompressor ein durchschnittliches Kompressionsverhältnis von 25, erreicht jedoch einen state-of-the-art F1-Score von 78,9%, womit die besten bestehenden Modelle um 12,3% übertroffen werden. Abschließend schlagen wir eine Kette von Tabellenkalkulationen für nachgelagerte Aufgaben der Tabellenkalkulationsverarbeitung vor und validieren sie in einer neuen und anspruchsvollen Tabellenkalkulations-F&A-Aufgabe. Wir nutzen systematisch das inhärente Layout und die Struktur von Tabellenkalkulationen und zeigen, dass SpreadsheetLLM bei einer Vielzahl von Tabellenkalkulationsaufgaben äußerst effektiv ist.