RedAct: Редактирование следов возможностей агента для защиты процедурных навыков

Аннотация

Пользователи полагаются на трассировки выполнения для наблюдения за поведением агента, диагностики сбоев и обеспечения подотчетности. Эти трассировки содержат детальные процедурные сведения, включая вызовы инструментов, промежуточные решения и логику восстановления после ошибок. Однако эта детализация может раскрыть приватные процедурные навыки, позволяя нисходящим методам восстанавливать ключевые формулы, пороговые значения и стратегии без доступа к весам модели или файлам навыков. Для количественной оценки этого риска и оценки защиты мы создаем CapTraceBench — бенчмарк из 75 специализированных долгосрочных задач и 154 тщательно отобранных навыков из семи областей. Мы также представляем RedAct (https://github.com/XuShuwenn/RedAct) — фреймворк для защищенного выпуска трассировок, который локализует защищаемую ключевую информацию, переписывает трассировки с сохранением критически важных для верификатора доказательств и встраивает поведенческие водяные знаки для последующего анализа происхождения. При использовании репрезентативных методов повторного использования трассировок RedAct снижает нормализованный перенос навыков (NST) с 44,7–67,1% на исходных трассировках до уровня ниже базового значения без навыков, сохраняя при этом аудиторские доказательства. Его автономные поведенческие водяные знаки достигают 93,6–100,0% истинного обнаружения при частоте ложных срабатываний не более 1,9%. Эти результаты представляют публичные трассировки агентов как интерфейсы безопасности и показывают, что выборочное редактирование может снизить утечку процедурных возможностей без удаления аудиторских доказательств.

English

Users rely on execution traces to observe agent behavior, diagnose failures, and ensure accountability. These traces contain rich procedural detail, including tool invocations, intermediate decisions, and error-recovery logic. Yet this detail can expose private procedural skills, allowing downstream methods to recover key formulas, thresholds, and strategies without access to model weights or skill files. To quantify this risk and evaluate protection, we construct CapTraceBench, a benchmark of 75 specialized long-horizon tasks and 154 curated skills across seven domains. We also introduce RedAct https://github.com/XuShuwenn/RedAct, a protected trace release framework that localizes protected key information, rewrites traces while preserving verifier-critical evidence, and embeds behavioral watermarks for downstream provenance analysis. Across representative trace reuse methods, RedAct reduces normalized skill transfer (NST) from 44.7--67.1\% on raw traces to below the no-skill baseline, while preserving audit evidence. Its standalone behavioral watermarks reach 93.6--100.0\% true detection with a false alarm rate of at most 1.9\%. These results frame public agent traces as security interfaces and show that selective redaction can reduce procedural capability leakage without removing audit evidence.