Un benchmark et un cadre pour évaluer les prédictions des actions suivantes dans les tableurs

Résumé

La complétion prédictive de code accélère considérablement la vitesse de travail des développeurs. Dans les tableurs, bien qu'étant beaucoup plus courants, ces fonctionnalités d'auto-complétion sont pratiquement inexistantes. Pour combler cette lacune, nous introduisons un benchmark pour les systèmes qui observent une séquence d'actions utilisateur dans un tableur et prédisent les actions futures. Deux défis sont (1) l'absence d'historiques d'édition dans les corpus publics de tableurs et (2) l'espace complexe des actions de tableur (spatiales, temporelles, composites). Pour relever (1), nous organisons manuellement 52 séquences de 12 000 actions qui reconstituent des tableurs à partir de corpus publics, amorcées par des heuristiques paramétrées et un affinage par LLM. Pour relever (2), nous proposons une évaluation en ligne qui attend une prédiction après chaque action utilisateur, accepte ou rejette cette prédiction, met à jour les actions futures en cas d'acceptation, et répète ce processus jusqu'à l'obtention du tableur cible. Nous utilisons plusieurs prédicteurs de base (incluant des LLMs zero-shot, des SLMs affinés et des modèles classiques) et analysons différentes propriétés que notre benchmark nous enseigne, notamment : les propriétés des actions sauvegardées et des faux positifs, l'efficacité, l'effet des profils utilisateur, l'effet des déclencheurs et l'effet du contexte.

English

Predictive code completion greatly accelerates how quickly developers work. In spreadsheets, despite being much more common, such auto-completion features are virtually non-existent. To address this gap, we introduce a benchmark for systems that observe a sequence of user actions in a spreadsheet and predict future actions. Two challenges are (1) the absence of edit histories in public spreadsheet corpora and (2) the complex space of spreadsheet actions (spatial, temporal, composite). To address (1), we manually curate 52 sequences of 12K actions that recreate spreadsheets from public corpora, seeded by parametrized heuristics and LLM refinement. To address (2), we propose an online evaluation that expects a prediction after each user action, accepts or rejects that prediction, updates the future actions upon acceptance, and repeats this until the target spreadsheet is obtained. We use multiple baseline predictors (including zero-shot LLMs, fine-tuned SLMs, and classical models) and analyze different properties that our benchmark teaches us, including but not limited to: properties of saved actions and false positives, efficiency, effect of user profiles, effect of triggers, and effect of context.