DynaGuard: Ein dynamisches Leitplankenmodell mit benutzerdefinierten Richtlinien

Zusammenfassung

Guardian-Modelle werden verwendet, um die Ausgaben von nutzerorientierten Chatbots zu überwachen und zu moderieren, indem sie Schutzmaßnahmen durchsetzen und unerwünschtes Verhalten erkennen. Standard-Guardian-Modelle wie LlamaGuard identifizieren vordefinierte, statische Kategorien von Schäden. Wir schlagen dynamische Guardian-Modelle vor, die Texte basierend auf benutzerdefinierten Richtlinien bewerten, wodurch sie für verschiedene Anwendungsbereiche nützlich sind, die von Standard-Guardian-Modellen nicht abgedeckt werden. Unsere dynamischen Guardian-Modelle können zur schnellen Erkennung von Richtlinienverstößen oder in Kombination mit Chain-of-Thought-Reasoning eingesetzt werden, das die Modellausgaben artikuliert und begründet. Unsere dynamischen Guardian-Modelle erreichen die Erkennungsgenauigkeit statischer Modelle für statische Schadenskategorien, während sie Verstöße gegen freiformulierte Richtlinien mit einer Genauigkeit identifizieren, die der von fortschrittlichen Reasoning-Modellen vergleichbar ist, jedoch in einem Bruchteil der Zeit.

English

Guardian models are used to supervise and moderate the outputs of user-facing chatbots, enforcing guardrails and detecting bad behaviors. Standard guardian models like LlamaGuard detect predefined, static categories of harms. We propose dynamic guardian models that evaluate text based on user-defined policies, making them useful for different application domains that are not addressed by standard guardian models. Our dynamic guardian models can be used for fast detection of policy violations or with chain-of-thought reasoning that articulates and justifies the model outputs. Our dynamic guardian models match static models in detection accuracy for static harm categories while identifying violations of free-form policies with accuracy comparable to frontier reasoning models in a fraction of the time.