Descubrimiento no supervisado de habilidades para el análisis de datos agentivo

Resumen

La mejora de habilidades en tiempo de inferencia proporciona una forma ligera de mejorar los agentes de análisis de datos mediante la inyección de conocimiento procedural reutilizable sin actualizar los parámetros del modelo. Sin embargo, descubrir habilidades efectivas para el análisis de datos sigue siendo un desafío, ya que la supervisión confiable es costosa y los criterios de éxito varían entre formatos analíticos. Esto plantea la pregunta clave de cómo descubrir habilidades reutilizables de análisis de datos a partir únicamente de la exploración no etiquetada. Proponemos DataCOPE, un marco de descubrimiento de habilidades no supervisado guiado por verificadores para agentes de análisis de datos. DataCOPE deriva señales de verificación a partir de las trayectorias de exploración y las utiliza para caracterizar la calidad relativa o el acuerdo entre trayectorias. Coordina iterativamente un Agente de Análisis de Datos para la generación de trayectorias, un Verificador No Supervisado para la extracción de señales y un Gestor de Habilidades para la destilación contrastiva de habilidades. Para el análisis de estilo de informe, instanciamos el verificador como un Verificador de Lista de Verificación Adaptativa que deriva criterios específicos de la tarea, califica los informes según la cobertura verificable y refina iterativamente la lista de verificación. Para el análisis de estilo de razonamiento, lo instanciamos como un Verificador de Acuerdo de Respuestas que agrupa las trayectorias por acuerdo de respuesta y utiliza la autoconsistencia como señal auxiliar. Evaluamos DataCOPE en análisis de estilo de informe de Deep Data Research y análisis de estilo de razonamiento de DABStep. En ambos entornos, DataCOPE mejora consistentemente el rendimiento en datos no vistos en comparación con las líneas base. Promediado en cuatro configuraciones de modelo, DataCOPE mejora la puntuación media en un 9.71% y un 32.30% en tareas de estilo de informe y de estilo de razonamiento, respectivamente.

English

Inference-time skill augmentation provides a lightweight way to improve data-analytic agents by injecting reusable procedural knowledge without updating model parameters. However, discovering effective skills for data analysis remains challenging, as reliable supervision is expensive and success criteria vary across analytical formats. This raises the key question of how to discover reusable data-analysis skills from unlabeled exploration alone. We propose DataCOPE, an unsupervised verifier-guided skill discovery framework for data-analytic agents. DataCOPE derives verifier signals from the exploration trajectories and uses them to characterize relative quality or aggreement among trajectories. It iteratively coordinates a Data-Analytic Agent for trajectory generation, an Unsupervised Verifier for signal extraction, and a Skill Manager for contrastive skill distillation. For report-style analysis, we instantiate the verifier as an Adaptive Checklist Verifier that derives task-specific criteria, scores reports by verifiable coverage, and iteratively refines the checklist. For reasoning-style analysis, we instantiate it as an Answer Agreement Verifier that groups trajectories by answer agreement and uses self-consistency as an auxiliary signal. We evaluate DataCOPE on report-style analysis from Deep Data Research and reasoning-style analysis from DABStep. Across both settings, DataCOPE consistently improves held-out performance over baselines. Averaged across four model settings, DataCOPE improves the mean score by 9.71% and 32.30% on report-style and reasoning-style tasks respectively.