Неконтролируемое обнаружение навыков для агентного анализа данных

Аннотация

Аугментация навыков на этапе логического вывода предоставляет легковесный способ улучшения агентов анализа данных за счет внедрения повторно используемых процедурных знаний без обновления параметров модели. Однако обнаружение эффективных навыков для анализа данных остается сложной задачей, поскольку надежный контроль требует значительных затрат, а критерии успеха варьируются в зависимости от форматов анализа. Это поднимает ключевой вопрос: как обнаружить повторно используемые навыки анализа данных, опираясь исключительно на немаркированное исследование? Мы предлагаем DataCOPE — фреймворк для неконтролируемого обнаружения навыков с верификатором для агентов анализа данных. DataCOPE извлекает сигналы верификатора из траекторий исследования и использует их для характеристики относительного качества или согласованности между траекториями. Он итеративно координирует агента анализа данных для генерации траекторий, неконтролируемый верификатор для извлечения сигналов и менеджера навыков для контрастивной дистилляции навыков. Для анализа в формате отчета мы реализуем верификатор как адаптивный верификатор контрольного списка, который выводит критерии, специфичные для задачи, оценивает отчеты по проверяемому охвату и итеративно уточняет контрольный список. Для анализа в формате рассуждения мы реализуем его как верификатор согласованности ответов, который группирует траектории по согласованности ответов и использует самосогласованность в качестве вспомогательного сигнала. Мы оцениваем DataCOPE на анализе в формате отчета из Deep Data Research и анализе в формате рассуждения из DABStep. В обоих сценариях DataCOPE последовательно улучшает результаты на отложенных данных по сравнению с базовыми подходами. В среднем по четырем конфигурациям моделей DataCOPE повышает средний балл на 9,71% и 32,30% для задач в формате отчета и рассуждения соответственно.

English

Inference-time skill augmentation provides a lightweight way to improve data-analytic agents by injecting reusable procedural knowledge without updating model parameters. However, discovering effective skills for data analysis remains challenging, as reliable supervision is expensive and success criteria vary across analytical formats. This raises the key question of how to discover reusable data-analysis skills from unlabeled exploration alone. We propose DataCOPE, an unsupervised verifier-guided skill discovery framework for data-analytic agents. DataCOPE derives verifier signals from the exploration trajectories and uses them to characterize relative quality or aggreement among trajectories. It iteratively coordinates a Data-Analytic Agent for trajectory generation, an Unsupervised Verifier for signal extraction, and a Skill Manager for contrastive skill distillation. For report-style analysis, we instantiate the verifier as an Adaptive Checklist Verifier that derives task-specific criteria, scores reports by verifiable coverage, and iteratively refines the checklist. For reasoning-style analysis, we instantiate it as an Answer Agreement Verifier that groups trajectories by answer agreement and uses self-consistency as an auxiliary signal. We evaluate DataCOPE on report-style analysis from Deep Data Research and reasoning-style analysis from DABStep. Across both settings, DataCOPE consistently improves held-out performance over baselines. Averaged across four model settings, DataCOPE improves the mean score by 9.71% and 32.30% on report-style and reasoning-style tasks respectively.