RedAct: Schwärzung von Agentenfähigkeitsspuren zum Schutz prozeduraler Fähigkeiten

Zusammenfassung

Nutzer verlassen sich auf Ausführungsprotokolle, um das Verhalten von Agenten zu beobachten, Fehler zu diagnostizieren und Rechenschaftspflicht sicherzustellen. Diese Protokolle enthalten detaillierte Verfahrensschritte, einschließlich Werkzeugaufrufen, Zwischenentscheidungen und Fehlerbehebungslogik. Doch diese Details können private prozedurale Fähigkeiten offenlegen, sodass nachgelagerte Methoden Schlüsselformeln, Schwellenwerte und Strategien wiederherstellen können, ohne Zugriff auf Modellgewichte oder Fähigkeitsdateien zu haben. Um dieses Risiko zu quantifizieren und Schutzmaßnahmen zu bewerten, erstellen wir CapTraceBench, einen Benchmark bestehend aus 75 spezialisierten längerfristigen Aufgaben und 154 zusammengestellten Fähigkeiten aus sieben Bereichen. Wir stellen zudem RedAct vor, ein Framework zur geschützten Veröffentlichung von Protokollen, das geschützte Schlüsselinformationen lokalisiert, Protokolle unter Erhalt verifizierungsrelevanter Nachweise umschreibt und Verhaltenswasserzeichen für nachgelagerte Herkunftsanalysen einbettet. Über repräsentative Methoden zur Wiederverwendung von Protokollen hinweg reduziert RedAct die normalisierte Fähigkeitsübertragung (NST) von 44,7–67,1 % bei Rohprotokollen auf unter die Basislinie ohne Fähigkeiten, während Prüfnachweise erhalten bleiben. Die eigenständigen Verhaltenswasserzeichen erreichen eine echte Erkennungsrate von 93,6–100,0 % bei einer Falschalarmrate von höchstens 1,9 %. Diese Ergebnisse stellen öffentliche Agentenprotokolle als Sicherheitsschnittstellen dar und zeigen, dass selektive Schwärzung die Ableitung prozeduraler Fähigkeiten reduzieren kann, ohne die Prüfnachweise zu entfernen.

English

Users rely on execution traces to observe agent behavior, diagnose failures, and ensure accountability. These traces contain rich procedural detail, including tool invocations, intermediate decisions, and error-recovery logic. Yet this detail can expose private procedural skills, allowing downstream methods to recover key formulas, thresholds, and strategies without access to model weights or skill files. To quantify this risk and evaluate protection, we construct CapTraceBench, a benchmark of 75 specialized long-horizon tasks and 154 curated skills across seven domains. We also introduce RedAct https://github.com/XuShuwenn/RedAct, a protected trace release framework that localizes protected key information, rewrites traces while preserving verifier-critical evidence, and embeds behavioral watermarks for downstream provenance analysis. Across representative trace reuse methods, RedAct reduces normalized skill transfer (NST) from 44.7--67.1\% on raw traces to below the no-skill baseline, while preserving audit evidence. Its standalone behavioral watermarks reach 93.6--100.0\% true detection with a false alarm rate of at most 1.9\%. These results frame public agent traces as security interfaces and show that selective redaction can reduce procedural capability leakage without removing audit evidence.