Um Benchmark e Framework para Avaliar Previsões de Próxima Ação em Planilhas

Resumo

O preenchimento preditivo de código acelera significativamente a velocidade com que os desenvolvedores trabalham. Em planilhas, apesar de serem muito mais comuns, esses recursos de autocompletar são praticamente inexistentes. Para preencher essa lacuna, introduzimos um benchmark para sistemas que observam uma sequência de ações do usuário em uma planilha e preveem ações futuras. Dois desafios são (1) a ausência de históricos de edição em corpora públicos de planilhas e (2) o espaço complexo de ações em planilhas (espaciais, temporais, compostas). Para abordar (1), curamos manualmente 52 sequências de 12 mil ações que recriam planilhas a partir de corpora públicos, utilizando heurísticas parametrizadas e refinamento com LLM como ponto de partida. Para abordar (2), propomos uma avaliação online que espera uma previsão após cada ação do usuário, aceita ou rejeita essa previsão, atualiza as ações futuras mediante aceitação e repete esse processo até que a planilha alvo seja obtida. Utilizamos diversos preditores de base (incluindo LLMs zero-shot, SLMs ajustados e modelos clássicos) e analisamos diferentes propriedades que nosso benchmark nos ensina, incluindo, mas não se limitando a: propriedades de ações salvas e falsos positivos, eficiência, efeito de perfis de usuário, efeito de gatilhos e efeito de contexto.

English

Predictive code completion greatly accelerates how quickly developers work. In spreadsheets, despite being much more common, such auto-completion features are virtually non-existent. To address this gap, we introduce a benchmark for systems that observe a sequence of user actions in a spreadsheet and predict future actions. Two challenges are (1) the absence of edit histories in public spreadsheet corpora and (2) the complex space of spreadsheet actions (spatial, temporal, composite). To address (1), we manually curate 52 sequences of 12K actions that recreate spreadsheets from public corpora, seeded by parametrized heuristics and LLM refinement. To address (2), we propose an online evaluation that expects a prediction after each user action, accepts or rejects that prediction, updates the future actions upon acceptance, and repeats this until the target spreadsheet is obtained. We use multiple baseline predictors (including zero-shot LLMs, fine-tuned SLMs, and classical models) and analyze different properties that our benchmark teaches us, including but not limited to: properties of saved actions and false positives, efficiency, effect of user profiles, effect of triggers, and effect of context.