Ongecontroleerde Vaardigheidsontdekking voor Agentische Data-analyse

Samenvatting

Inferentie-tijdvaardigheiduitbreiding biedt een lichtgewicht manier om data-analytische agenten te verbeteren door herbruikbare procedurele kennis te injecteren zonder modelparameters bij te werken. Het ontdekken van effectieve vaardigheden voor data-analyse blijft echter uitdagend, omdat betrouwbaar toezicht duur is en succescriteria variëren per analytisch formaat. Dit roept de cruciale vraag op hoe herbruikbare data-analysevaardigheden uitsluitend uit ongelabelde verkenning kunnen worden ontdekt. Wij stellen DataCOPE voor, een ongesuperviseerd verifieerder-gestuurd vaardigheidsontdekkingsraamwerk voor data-analytische agenten. DataCOPE leidt verifieerder-signalen af uit de verkenningspaden en gebruikt deze om de relatieve kwaliteit of overeenstemming tussen paden te karakteriseren. Het coördineert iteratief een Data-Analytische Agent voor trajectgeneratie, een Ongesuperviseerde Verifieerder voor signaalextractie, en een Vaardigheidsbeheerder voor contrastieve vaardigheidsdestillatie. Voor rapportstijlanalyse instantiëren we de verifieerder als een Adaptieve Checklist Verifieerder die taakspecifieke criteria afleidt, rapporten scoort op verifieerbare dekking, en de checklist iteratief verfijnt. Voor redeneerstijlanalyse instantiëren we deze als een Antwoordovereenstemmingsverifieerder die trajecten groepeert op basis van antwoordovereenstemming en zelfconsistentie gebruikt als een hulpsignaal. We evalueren DataCOPE op rapportstijlanalyse van Deep Data Research en redeneerstijlanalyse van DABStep. In beide omgevingen verbetert DataCOPE consistent de prestaties op niet-geziene gegevens ten opzichte van baselines. Gemiddeld over vier modelinstellingen verbetert DataCOPE de gemiddelde score met respectievelijk 9,71% en 32,30% voor rapportstijl- en redeneerstijltaken.

English

Inference-time skill augmentation provides a lightweight way to improve data-analytic agents by injecting reusable procedural knowledge without updating model parameters. However, discovering effective skills for data analysis remains challenging, as reliable supervision is expensive and success criteria vary across analytical formats. This raises the key question of how to discover reusable data-analysis skills from unlabeled exploration alone. We propose DataCOPE, an unsupervised verifier-guided skill discovery framework for data-analytic agents. DataCOPE derives verifier signals from the exploration trajectories and uses them to characterize relative quality or aggreement among trajectories. It iteratively coordinates a Data-Analytic Agent for trajectory generation, an Unsupervised Verifier for signal extraction, and a Skill Manager for contrastive skill distillation. For report-style analysis, we instantiate the verifier as an Adaptive Checklist Verifier that derives task-specific criteria, scores reports by verifiable coverage, and iteratively refines the checklist. For reasoning-style analysis, we instantiate it as an Answer Agreement Verifier that groups trajectories by answer agreement and uses self-consistency as an auxiliary signal. We evaluate DataCOPE on report-style analysis from Deep Data Research and reasoning-style analysis from DABStep. Across both settings, DataCOPE consistently improves held-out performance over baselines. Averaged across four model settings, DataCOPE improves the mean score by 9.71% and 32.30% on report-style and reasoning-style tasks respectively.