SafeHarbor: Hiërarchische geheugengeaugmenteerde veiligheidsbarrière voor LLM-agentveiligheid

Samenvatting

Met de snelle evolutie van funderingsmodellen hebben Large Language Model (LLM)-agenten steeds krachtigere mogelijkheden voor toolgebruik gedemonstreerd. Deze vaardigheid brengt echter aanzienlijke veiligheidsrisico's met zich mee, aangezien kwaadwillende actoren agenten kunnen manipuleren om tools uit te voeren en schadelijke inhoud te genereren. Hoewel bestaande verdedigingsmechanismen effectief zijn, lijden ze vaak aan het over-weigeringsprobleem, waarbij een verhoogde veiligheidsstrengheid de bruikbaarheid van de agent voor goedaardige taken in gevaar brengt. Om deze afweging te verzachten, stellen we SafeHarbor voor, een nieuw raamwerk dat is ontworpen om precieze beslissingsgrenzen voor LLM-agenten vast te stellen. In tegenstelling tot statische richtlijnen extraheert SafeHarbor contextbewuste verdedigingsregels via verbeterde adversariële generatie. We ontwerpen een lokaal hiërarchisch geheugensysteem voor dynamische regelinjectie, wat een training-vrije, efficiënte en plug-and-play-oplossing biedt. Verder introduceren we een op informatie-entropie gebaseerd zelfevolutiemechanisme dat continu de geheugenstructuur optimaliseert door dynamische nodesplitsing en -samenvoeging. Uitgebreide experimenten tonen aan dat SafeHarbor state-of-the-art prestaties levert op zowel dubbelzinnige goedaardige taken als expliciete kwaadaardige aanvallen, met name het bereiken van een piek goedaardige bruikbaarheid van 63,6% op GPT-4o terwijl een robuust weigeringspercentage van meer dan 93% tegen schadelijke verzoeken wordt gehandhaafd. De broncode is openbaar beschikbaar op https://github.com/ljj-cyber/SafeHarbor.

English

With the rapid evolution of foundation models, Large Language Model (LLM) agents have demonstrated increasingly powerful tool-use capabilities. However, this proficiency introduces significant security risks, as malicious actors can manipulate agents into executing tools to generate harmful content. While existing defensive mechanisms are effective, they frequently suffer from the over-refusal problem, where increased safety strictness compromises the agent's utility on benign tasks. To mitigate this trade-off, we propose SafeHarbor, a novel framework designed to establish precise decision boundaries for LLM agents. Unlike static guidelines, SafeHarbor extracts context-aware defense rules through enhanced adversarial generation. We design a local hierarchical memory system for dynamic rule injection, offering a training-free, efficient, and plug-and-play solution. Furthermore, we introduce an information entropy-based self-evolution mechanism that continuously optimizes the memory structure through dynamic node splitting and merging. Extensive experiments demonstrate that SafeHarbor achieves state-of-the-art performance on both ambiguous benign tasks and explicit malicious attacks, notably attaining a peak benign utility of 63.6\% on GPT-4o while maintaining a robust refusal rate exceeding 93\% against harmful requests. The source code is publicly available at https://github.com/ljj-cyber/SafeHarbor.