Бенчмарк и фреймворк для оценки прогнозирования следующих действий в электронных таблицах

Аннотация

Предиктивное автодополнение кода существенно ускоряет работу разработчиков. В электронных таблицах, несмотря на их гораздо большую распространенность, такие функции автодополнения практически отсутствуют. Чтобы восполнить этот пробел, мы представляем эталонный тест для систем, которые наблюдают последовательность действий пользователя в электронной таблице и прогнозируют будущие действия. Две основные проблемы: (1) отсутствие в общедоступных корпусах электронных таблиц истории изменений и (2) сложное пространство действий с таблицами (пространственные, временные, составные). Для решения первой задачи мы вручную подготовили 52 последовательности из 12 тысяч действий, которые воссоздают электронные таблицы из общедоступных корпусов, используя параметризованные эвристики и уточнение с помощью LLM в качестве основы. Для решения второй задачи мы предлагаем онлайн-оценку: после каждого действия пользователя ожидается прогноз; этот прогноз принимается или отклоняется; в случае принятия будущие действия обновляются; процесс повторяется до получения целевой электронной таблицы. Мы используем несколько базовых прогнозаторов (включая LLM с нулевым обучением, дообученные SLM и классические модели) и анализируем различные свойства, которые выявляет наш эталонный тест, включая, но не ограничиваясь: свойства сохраненных действий и ложных срабатываний, эффективность, влияние профилей пользователей, влияние триггеров и влияние контекста.

English

Predictive code completion greatly accelerates how quickly developers work. In spreadsheets, despite being much more common, such auto-completion features are virtually non-existent. To address this gap, we introduce a benchmark for systems that observe a sequence of user actions in a spreadsheet and predict future actions. Two challenges are (1) the absence of edit histories in public spreadsheet corpora and (2) the complex space of spreadsheet actions (spatial, temporal, composite). To address (1), we manually curate 52 sequences of 12K actions that recreate spreadsheets from public corpora, seeded by parametrized heuristics and LLM refinement. To address (2), we propose an online evaluation that expects a prediction after each user action, accepts or rejects that prediction, updates the future actions upon acceptance, and repeats this until the target spreadsheet is obtained. We use multiple baseline predictors (including zero-shot LLMs, fine-tuned SLMs, and classical models) and analyze different properties that our benchmark teaches us, including but not limited to: properties of saved actions and false positives, efficiency, effect of user profiles, effect of triggers, and effect of context.