Découverte non supervisée de compétences pour l'analyse de données agentique

Résumé

L'augmentation de compétences au moment de l'inférence offre un moyen léger d'améliorer les agents d'analyse de données en injectant des connaissances procédurales réutilisables sans mettre à jour les paramètres du modèle. Cependant, découvrir des compétences efficaces pour l'analyse de données reste difficile, car une supervision fiable est coûteuse et les critères de succès varient selon les formats analytiques. Cela soulève la question clé de savoir comment découvrir des compétences d'analyse de données réutilisables à partir d'une seule exploration non étiquetée. Nous proposons DataCOPE, un cadre de découverte de compétences non supervisé guidé par un vérificateur pour les agents d'analyse de données. DataCOPE dérive des signaux de vérification à partir des trajectoires d'exploration et les utilise pour caractériser la qualité relative ou l'accord entre les trajectoires. Il coordonne de manière itérative un Agent d'Analyse de Données pour la génération de trajectoires, un Vérificateur Non Supervisé pour l'extraction de signaux, et un Gestionnaire de Compétences pour la distillation contrastive de compétences. Pour l'analyse de type rapport, nous instancions le vérificateur comme un Vérificateur de Liste de Contrôle Adaptatif qui dérive des critères spécifiques à la tâche, note les rapports par couverture vérifiable, et affine itérativement la liste de contrôle. Pour l'analyse de type raisonnement, nous l'instancions comme un Vérificateur d'Accord de Réponse qui regroupe les trajectoires par accord de réponse et utilise l'auto-cohérence comme signal auxiliaire. Nous évaluons DataCOPE sur l'analyse de type rapport de Deep Data Research et l'analyse de type raisonnement de DABStep. Dans les deux contextes, DataCOPE améliore constamment les performances sur les données de test par rapport aux références. En moyenne sur quatre configurations de modèle, DataCOPE améliore le score moyen de 9,71 % et 32,30 % respectivement sur les tâches de type rapport et de type raisonnement.

English

Inference-time skill augmentation provides a lightweight way to improve data-analytic agents by injecting reusable procedural knowledge without updating model parameters. However, discovering effective skills for data analysis remains challenging, as reliable supervision is expensive and success criteria vary across analytical formats. This raises the key question of how to discover reusable data-analysis skills from unlabeled exploration alone. We propose DataCOPE, an unsupervised verifier-guided skill discovery framework for data-analytic agents. DataCOPE derives verifier signals from the exploration trajectories and uses them to characterize relative quality or aggreement among trajectories. It iteratively coordinates a Data-Analytic Agent for trajectory generation, an Unsupervised Verifier for signal extraction, and a Skill Manager for contrastive skill distillation. For report-style analysis, we instantiate the verifier as an Adaptive Checklist Verifier that derives task-specific criteria, scores reports by verifiable coverage, and iteratively refines the checklist. For reasoning-style analysis, we instantiate it as an Answer Agreement Verifier that groups trajectories by answer agreement and uses self-consistency as an auxiliary signal. We evaluate DataCOPE on report-style analysis from Deep Data Research and reasoning-style analysis from DABStep. Across both settings, DataCOPE consistently improves held-out performance over baselines. Averaged across four model settings, DataCOPE improves the mean score by 9.71% and 32.30% on report-style and reasoning-style tasks respectively.