Descoberta Não Supervisionada de Habilidades para Análise de Dados Agentiva

Resumo

O aumento de habilidades no momento da inferência oferece uma maneira leve de melhorar agentes de análise de dados ao injetar conhecimento processual reutilizável sem atualizar os parâmetros do modelo. No entanto, descobrir habilidades eficazes para análise de dados continua sendo um desafio, pois a supervisão confiável é cara e os critérios de sucesso variam entre os formatos analíticos. Isso levanta a questão fundamental de como descobrir habilidades de análise de dados reutilizáveis a partir apenas de exploração não rotulada. Propomos o DataCOPE, uma estrutura de descoberta de habilidades não supervisionada guiada por verificador para agentes de análise de dados. O DataCOPE deriva sinais do verificador a partir das trajetórias de exploração e os utiliza para caracterizar a qualidade relativa ou a concordância entre as trajetórias. Ele coordena iterativamente um Agente de Análise de Dados para geração de trajetórias, um Verificador Não Supervisionado para extração de sinais e um Gerenciador de Habilidades para destilação contrastiva de habilidades. Para a análise no formato de relatório, instanciamos o verificador como um Verificador de Lista de Verificação Adaptativa que deriva critérios específicos da tarefa, pontua relatórios por cobertura verificável e refina iterativamente a lista de verificação. Para a análise no formato de raciocínio, instanciamos como um Verificador de Concordância de Respostas que agrupa trajetórias por concordância de respostas e usa a autoconsistência como sinal auxiliar. Avaliamos o DataCOPE em análise no formato de relatório a partir do Deep Data Research e em análise no formato de raciocínio a partir do DABStep. Em ambos os contextos, o DataCOPE melhora consistentemente o desempenho em dados não vistos em relação às linhas de base. Em média, considerando quatro configurações de modelo, o DataCOPE melhora a pontuação média em 9,71% e 32,30% nas tarefas de formato de relatório e raciocínio, respectivamente.

English

Inference-time skill augmentation provides a lightweight way to improve data-analytic agents by injecting reusable procedural knowledge without updating model parameters. However, discovering effective skills for data analysis remains challenging, as reliable supervision is expensive and success criteria vary across analytical formats. This raises the key question of how to discover reusable data-analysis skills from unlabeled exploration alone. We propose DataCOPE, an unsupervised verifier-guided skill discovery framework for data-analytic agents. DataCOPE derives verifier signals from the exploration trajectories and uses them to characterize relative quality or aggreement among trajectories. It iteratively coordinates a Data-Analytic Agent for trajectory generation, an Unsupervised Verifier for signal extraction, and a Skill Manager for contrastive skill distillation. For report-style analysis, we instantiate the verifier as an Adaptive Checklist Verifier that derives task-specific criteria, scores reports by verifiable coverage, and iteratively refines the checklist. For reasoning-style analysis, we instantiate it as an Answer Agreement Verifier that groups trajectories by answer agreement and uses self-consistency as an auxiliary signal. We evaluate DataCOPE on report-style analysis from Deep Data Research and reasoning-style analysis from DABStep. Across both settings, DataCOPE consistently improves held-out performance over baselines. Averaged across four model settings, DataCOPE improves the mean score by 9.71% and 32.30% on report-style and reasoning-style tasks respectively.