Un benchmark y marco de trabajo para evaluar predicciones de la próxima acción en hojas de cálculo

Resumen

La finalización predictiva de código acelera enormemente la rapidez con la que trabajan los desarrolladores. En las hojas de cálculo, a pesar de ser mucho más comunes, estas funciones de autocompletado son prácticamente inexistentes. Para abordar esta brecha, presentamos un punto de referencia para sistemas que observan una secuencia de acciones del usuario en una hoja de cálculo y predicen acciones futuras. Dos desafíos son (1) la ausencia de historiales de edición en corpus públicos de hojas de cálculo y (2) el espacio complejo de las acciones en hojas de cálculo (espacial, temporal, compuesto). Para abordar (1), curamos manualmente 52 secuencias de 12.000 acciones que recrean hojas de cálculo a partir de corpus públicos, iniciadas mediante heurísticas parametrizadas y refinamiento con LLM. Para abordar (2), proponemos una evaluación en línea que espera una predicción tras cada acción del usuario, acepta o rechaza dicha predicción, actualiza las acciones futuras si se acepta y repite este proceso hasta obtener la hoja de cálculo objetivo. Utilizamos múltiples predictores de referencia (incluyendo LLMs de cero disparos, SLMs ajustados finamente y modelos clásicos) y analizamos diferentes propiedades que nuestro punto de referencia nos enseña, entre las que se incluyen, pero no se limitan a: propiedades de las acciones guardadas y los falsos positivos, eficiencia, efecto de los perfiles de usuario, efecto de los desencadenantes y efecto del contexto.

English

Predictive code completion greatly accelerates how quickly developers work. In spreadsheets, despite being much more common, such auto-completion features are virtually non-existent. To address this gap, we introduce a benchmark for systems that observe a sequence of user actions in a spreadsheet and predict future actions. Two challenges are (1) the absence of edit histories in public spreadsheet corpora and (2) the complex space of spreadsheet actions (spatial, temporal, composite). To address (1), we manually curate 52 sequences of 12K actions that recreate spreadsheets from public corpora, seeded by parametrized heuristics and LLM refinement. To address (2), we propose an online evaluation that expects a prediction after each user action, accepts or rejects that prediction, updates the future actions upon acceptance, and repeats this until the target spreadsheet is obtained. We use multiple baseline predictors (including zero-shot LLMs, fine-tuned SLMs, and classical models) and analyze different properties that our benchmark teaches us, including but not limited to: properties of saved actions and false positives, efficiency, effect of user profiles, effect of triggers, and effect of context.