MetaSC : Optimisation de la spécification de sécurité au moment du test pour les modèles de langage
MetaSC: Test-Time Safety Specification Optimization for Language Models
February 11, 2025
Auteurs: Víctor Gallego
cs.AI
Résumé
Nous proposons un nouveau cadre de sécurité dynamique qui optimise le raisonnement sur la sécurité des modèles de langage (LM) au moment de l'inférence sans modifier les poids du modèle. S'appuyant sur les récents progrès en matière de méthodes d'auto-critique, notre approche exploite un mécanisme de méta-critique qui met à jour de manière itérative des invites de sécurité - appelées spécifications - pour conduire le processus de critique et de révision de manière adaptative. Cette optimisation au moment du test améliore non seulement les performances face aux demandes de contournement adverses, mais également dans diverses tâches générales liées à la sécurité, telles que l'évitement des dommages moraux ou la recherche de réponses honnêtes. Nos évaluations empiriques sur plusieurs modèles de langage montrent que les invites de sécurité optimisées de manière dynamique produisent des scores de sécurité nettement plus élevés par rapport aux invites système fixes et aux défenses d'auto-critique statiques. Le code sera publié sur https://github.com/vicgalle/meta-self-critique.git.
English
We propose a novel dynamic safety framework that optimizes language model
(LM) safety reasoning at inference time without modifying model weights.
Building on recent advances in self-critique methods, our approach leverages a
meta-critique mechanism that iteratively updates safety prompts-termed
specifications-to drive the critique and revision process adaptively. This
test-time optimization not only improves performance against adversarial
jailbreak requests but also in diverse general safety-related tasks, such as
avoiding moral harm or pursuing honest responses. Our empirical evaluations
across several language models demonstrate that dynamically optimized safety
prompts yield significantly higher safety scores compared to fixed system
prompts and static self-critique defenses. Code to be released at
https://github.com/vicgalle/meta-self-critique.git .