MetaSC : Optimisation de la spécification de sécurité au moment du test pour les modèles de langage

papers.abstract

Nous proposons un nouveau cadre de sécurité dynamique qui optimise le raisonnement sur la sécurité des modèles de langage (LM) au moment de l'inférence sans modifier les poids du modèle. S'appuyant sur les récents progrès en matière de méthodes d'auto-critique, notre approche exploite un mécanisme de méta-critique qui met à jour de manière itérative des invites de sécurité - appelées spécifications - pour conduire le processus de critique et de révision de manière adaptative. Cette optimisation au moment du test améliore non seulement les performances face aux demandes de contournement adverses, mais également dans diverses tâches générales liées à la sécurité, telles que l'évitement des dommages moraux ou la recherche de réponses honnêtes. Nos évaluations empiriques sur plusieurs modèles de langage montrent que les invites de sécurité optimisées de manière dynamique produisent des scores de sécurité nettement plus élevés par rapport aux invites système fixes et aux défenses d'auto-critique statiques. Le code sera publié sur https://github.com/vicgalle/meta-self-critique.git.

English

We propose a novel dynamic safety framework that optimizes language model (LM) safety reasoning at inference time without modifying model weights. Building on recent advances in self-critique methods, our approach leverages a meta-critique mechanism that iteratively updates safety prompts-termed specifications-to drive the critique and revision process adaptively. This test-time optimization not only improves performance against adversarial jailbreak requests but also in diverse general safety-related tasks, such as avoiding moral harm or pursuing honest responses. Our empirical evaluations across several language models demonstrate that dynamically optimized safety prompts yield significantly higher safety scores compared to fixed system prompts and static self-critique defenses. Code to be released at https://github.com/vicgalle/meta-self-critique.git .

MetaSC : Optimisation de la spécification de sécurité au moment du test pour les modèles de langage

MetaSC: Test-Time Safety Specification Optimization for Language Models

papers.abstract

Support