RedAct : Suppression des traces de capacités d'agent pour la protection des compétences procédurales

Résumé

Les utilisateurs s'appuient sur les traces d'exécution pour observer le comportement des agents, diagnostiquer les défaillances et garantir la responsabilité. Ces traces contiennent des détails procéduraux riches, notamment les invocations d'outils, les décisions intermédiaires et la logique de récupération d'erreurs. Cependant, ces détails peuvent exposer des compétences procédurales privées, permettant à des méthodes aval de reconstituer des formules, seuils et stratégies clés sans accès aux poids du modèle ni aux fichiers de compétences. Pour quantifier ce risque et évaluer la protection, nous construisons CapTraceBench, un banc d'essai comprenant 75 tâches spécialisées à long horizon et 154 compétences soigneusement sélectionnées dans sept domaines. Nous introduisons également RedAct (https://github.com/XuShuwenn/RedAct), un cadre de publication de traces protégées qui localise les informations clés à protéger, réécrit les traces tout en préservant les preuves essentielles pour le vérificateur, et intègre des filigranes comportementaux pour l'analyse de provenance en aval. Sur des méthodes représentatives de réutilisation des traces, RedAct réduit le transfert normalisé de compétences (NST) de 44,7 à 67,1 % sur les traces brutes en dessous du seuil de base sans compétence, tout en préservant les preuves d'audit. Ses filigranes comportementaux autonomes atteignent un taux de détection vraie de 93,6 à 100,0 % avec un taux de fausses alarmes d'au plus 1,9 %. Ces résultats présentent les traces d'agents publics comme des interfaces de sécurité et montrent qu'une rédaction sélective peut réduire les fuites de capacités procédurales sans supprimer les preuves d'audit.

English

Users rely on execution traces to observe agent behavior, diagnose failures, and ensure accountability. These traces contain rich procedural detail, including tool invocations, intermediate decisions, and error-recovery logic. Yet this detail can expose private procedural skills, allowing downstream methods to recover key formulas, thresholds, and strategies without access to model weights or skill files. To quantify this risk and evaluate protection, we construct CapTraceBench, a benchmark of 75 specialized long-horizon tasks and 154 curated skills across seven domains. We also introduce RedAct https://github.com/XuShuwenn/RedAct, a protected trace release framework that localizes protected key information, rewrites traces while preserving verifier-critical evidence, and embeds behavioral watermarks for downstream provenance analysis. Across representative trace reuse methods, RedAct reduces normalized skill transfer (NST) from 44.7--67.1\% on raw traces to below the no-skill baseline, while preserving audit evidence. Its standalone behavioral watermarks reach 93.6--100.0\% true detection with a false alarm rate of at most 1.9\%. These results frame public agent traces as security interfaces and show that selective redaction can reduce procedural capability leakage without removing audit evidence.