Ein Benchmark und Framework zur Evaluierung von Vorhersagen nächster Aktionen in Tabellenkalkulationen

Zusammenfassung

Prädiktive Codevervollständigung beschleunigt die Arbeitsgeschwindigkeit von Entwicklern erheblich. In Tabellenkalkulationen sind solche Autovervollständigungsfunktionen trotz ihrer größeren Verbreitung praktisch nicht vorhanden. Um diese Lücke zu schließen, führen wir einen Benchmark für Systeme ein, die eine Sequenz von Benutzeraktionen in einer Tabellenkalkulation beobachten und zukünftige Aktionen vorhersagen. Zwei Herausforderungen sind (1) das Fehlen von Bearbeitungshistorien in öffentlichen Tabellenkalkulationskorpora und (2) der komplexe Raum von Tabellenkalkulationsaktionen (räumlich, zeitlich, zusammengesetzt). Zur Bewältigung von (1) kuratieren wir manuell 52 Sequenzen mit 12.000 Aktionen, die Tabellenkalkulationen aus öffentlichen Korpora nachbilden, gespeist von parametrisierten Heuristiken und LLM-Verfeinerung. Zur Bewältigung von (2) schlagen wir eine Online-Evaluierung vor, die nach jeder Benutzeraktion eine Vorhersage erwartet, diese Vorhersage akzeptiert oder ablehnt, bei Akzeptanz die zukünftigen Aktionen aktualisiert und dies wiederholt, bis die Ziel-Tabellenkalkulation erreicht ist. Wir verwenden mehrere Basislinien-Prädiktoren (darunter Zero-Shot-LLMs, feinabgestimmte SLMs und klassische Modelle) und analysieren verschiedene Eigenschaften, die unser Benchmark uns lehrt, einschließlich, aber nicht beschränkt auf: Eigenschaften gespeicherter Aktionen und Falschpositive, Effizienz, Auswirkung von Benutzerprofilen, Auswirkung von Auslösern und Auswirkung des Kontexts.

English

Predictive code completion greatly accelerates how quickly developers work. In spreadsheets, despite being much more common, such auto-completion features are virtually non-existent. To address this gap, we introduce a benchmark for systems that observe a sequence of user actions in a spreadsheet and predict future actions. Two challenges are (1) the absence of edit histories in public spreadsheet corpora and (2) the complex space of spreadsheet actions (spatial, temporal, composite). To address (1), we manually curate 52 sequences of 12K actions that recreate spreadsheets from public corpora, seeded by parametrized heuristics and LLM refinement. To address (2), we propose an online evaluation that expects a prediction after each user action, accepts or rejects that prediction, updates the future actions upon acceptance, and repeats this until the target spreadsheet is obtained. We use multiple baseline predictors (including zero-shot LLMs, fine-tuned SLMs, and classical models) and analyze different properties that our benchmark teaches us, including but not limited to: properties of saved actions and false positives, efficiency, effect of user profiles, effect of triggers, and effect of context.