Unüberwachte Fähigkeitsentdeckung für agentische Datenanalyse

Zusammenfassung

Die Fähigkeitserweiterung zur Inferenzzeit bietet eine effiziente Möglichkeit zur Verbesserung datenanalytischer Agenten, indem wiederverwendbares prozedurales Wissen ohne Aktualisierung der Modellparameter eingebracht wird. Die Entdeckung effektiver Fähigkeiten für die Datenanalyse bleibt jedoch herausfordernd, da verlässliche Überwachung teuer ist und die Erfolgskriterien je nach Analyseformat variieren. Dies wirft die zentrale Frage auf, wie wiederverwendbare Datenanalysefähigkeiten allein aus unmarkierter Exploration entdeckt werden können. Wir schlagen DataCOPE vor, ein ungeleitetes, verifizierergeführtes Framework zur Fähigkeitsentdeckung für datenanalytische Agenten. DataCOPE leitet Verifizierersignale aus den Explorationspfaden ab und nutzt diese, um die relative Qualität oder Übereinstimmung zwischen den Pfaden zu charakterisieren. Es koordiniert iterativ einen Datenanalyse-Agenten zur Pfadgenerierung, einen ungeleiteten Verifizierer zur Signalextraktion und einen Fähigkeitsmanager zur kontrastiven Fähigkeitsdestillation. Für die berichtbasierte Analyse instanziieren wir den Verifizierer als adaptiven Checklisten-Verifizierer, der aufgabenspezifische Kriterien ableitet, Berichte anhand der verifizierbaren Abdeckung bewertet und die Checkliste iterativ verfeinert. Für die schlussfolgerungsbasierte Analyse instanziieren wir ihn als Antwortübereinstimmungs-Verifizierer, der Pfade nach Antwortübereinstimmung gruppiert und Selbstkonsistenz als Hilfssignal nutzt. Wir evaluieren DataCOPE an der berichtbasierten Analyse aus Deep Data Research und der schlussfolgerungsbasierten Analyse aus DABStep. In beiden Umgebungen verbessert DataCOPE die zurückgehaltene Leistung konsistent gegenüber den Basislinien. Über vier Modelleinstellungen gemittelt steigert DataCOPE den durchschnittlichen Score bei berichtbasierten Aufgaben um 9,71 % und bei schlussfolgerungsbasierten Aufgaben um 32,30 %.

English

Inference-time skill augmentation provides a lightweight way to improve data-analytic agents by injecting reusable procedural knowledge without updating model parameters. However, discovering effective skills for data analysis remains challenging, as reliable supervision is expensive and success criteria vary across analytical formats. This raises the key question of how to discover reusable data-analysis skills from unlabeled exploration alone. We propose DataCOPE, an unsupervised verifier-guided skill discovery framework for data-analytic agents. DataCOPE derives verifier signals from the exploration trajectories and uses them to characterize relative quality or aggreement among trajectories. It iteratively coordinates a Data-Analytic Agent for trajectory generation, an Unsupervised Verifier for signal extraction, and a Skill Manager for contrastive skill distillation. For report-style analysis, we instantiate the verifier as an Adaptive Checklist Verifier that derives task-specific criteria, scores reports by verifiable coverage, and iteratively refines the checklist. For reasoning-style analysis, we instantiate it as an Answer Agreement Verifier that groups trajectories by answer agreement and uses self-consistency as an auxiliary signal. We evaluate DataCOPE on report-style analysis from Deep Data Research and reasoning-style analysis from DABStep. Across both settings, DataCOPE consistently improves held-out performance over baselines. Averaged across four model settings, DataCOPE improves the mean score by 9.71% and 32.30% on report-style and reasoning-style tasks respectively.