Een benchmark en raamwerk voor het evalueren van voorspellingen van volgende acties in spreadsheets

Samenvatting

Voorspellende code-aanvulling versnelt aanzienlijk hoe snel ontwikkelaars werken. In spreadsheets, hoewel ze veel gangbaarder zijn, bestaan dergelijke automatische aanvullingsfuncties vrijwel niet. Om deze leemte aan te pakken, introduceren we een benchmark voor systemen die een reeks gebruikersacties in een spreadsheet observeren en toekomstige acties voorspellen. Twee uitdagingen zijn (1) het ontbreken van bewerkingsgeschiedenissen in openbare spreadsheetcorpora en (2) de complexe ruimte van spreadsheetacties (ruimtelijk, temporeel, samengesteld). Om (1) aan te pakken, stellen we handmatig 52 reeksen van 12K acties samen die spreadsheets uit openbare corpora reconstrueren, geïnitieerd door geparametriseerde heuristieken en LLM-verfijning. Om (2) aan te pakken, stellen we een online evaluatie voor die na elke gebruikersactie een voorspelling verwacht, die voorspelling accepteert of verwerpt, bij acceptatie de toekomstige acties bijwerkt, en dit herhaalt totdat de doelspreadsheet is verkregen. We gebruiken meerdere basisvoorspellers (waaronder zero-shot LLM's, fijn afgestemde SLM's en klassieke modellen) en analyseren verschillende eigenschappen die onze benchmark ons leert, waaronder maar niet beperkt tot: eigenschappen van opgeslagen acties en vals-positieven, efficiëntie, effect van gebruikersprofielen, effect van triggers, en effect van context.

English

Predictive code completion greatly accelerates how quickly developers work. In spreadsheets, despite being much more common, such auto-completion features are virtually non-existent. To address this gap, we introduce a benchmark for systems that observe a sequence of user actions in a spreadsheet and predict future actions. Two challenges are (1) the absence of edit histories in public spreadsheet corpora and (2) the complex space of spreadsheet actions (spatial, temporal, composite). To address (1), we manually curate 52 sequences of 12K actions that recreate spreadsheets from public corpora, seeded by parametrized heuristics and LLM refinement. To address (2), we propose an online evaluation that expects a prediction after each user action, accepts or rejects that prediction, updates the future actions upon acceptance, and repeats this until the target spreadsheet is obtained. We use multiple baseline predictors (including zero-shot LLMs, fine-tuned SLMs, and classical models) and analyze different properties that our benchmark teaches us, including but not limited to: properties of saved actions and false positives, efficiency, effect of user profiles, effect of triggers, and effect of context.