TROPT : Un cadre ouvert pour unifier et faire progresser l'optimisation discrète de texte

Résumé

L'optimisation discrète de déclencheurs textuels — la recherche de séquences de texte qui, lorsqu'elles sont ingérées par un modèle, l'orientent vers un objectif spécifié — sous-tend le red-teaming de modèles (par exemple, les jailbreaks de LLM), ainsi que l'audit et l'interprétabilité. Cependant, l'état actuel des optimiseurs discrets entrave leur adoption et leur progrès. Premièrement, les optimiseurs existants, lorsqu'ils sont rendus open source, sont dispersés dans des bases de code de recherche liées à des modèles, des objectifs et des domaines de problèmes spécifiques. Deuxièmement, les variantes d'optimiseurs prolifèrent, chacune nécessitant un surcoût d'ingénierie pour être utilisée ou étendue, et restant difficile à comparer directement. Ensemble, ces facteurs relèvent la barre pour l'adoption d'optimiseurs dans des domaines existants ou nouveaux, et pour leur avancement via de nouvelles stratégies. Nous comblons ces lacunes avec TROPT, le premier cadre open source qui unifie l'exécution des optimiseurs discrets et standardise leur développement sous une interface unique. TROPT facilite la personnalisation de recettes d'optimisation de bout en bout en échangeant tout composant — modèles, objectifs et optimiseurs — étendant ainsi sa portée à travers les domaines et les nouvelles applications. TROPT est actuellement livré avec plus de 30 recettes d'optimisation — couvrant des applications telles que le jailbreak et le sondage des mécanismes internes des modèles — construites à partir de plus de 15 optimiseurs (allant de l'accès boîte blanche à boîte noire) et plus de 15 fonctions de perte, des méthodes fondamentales aux méthodes de pointe. Pour démontrer son utilité, nous exploitons TROPT dans plusieurs études : (i) des expériences contrôlées à grande échelle comparant et améliorant les stratégies d'optimisation pour les jailbreaks de LLM, révélant des techniques puissantes mais sous-adoptées ; et (ii) le portage d'optimiseurs d'un domaine (par exemple, jailbreak de LLM) vers de nouveaux domaines (par exemple, modèle d'incorporation par empoisonnement de corpus). En somme, TROPT abaisse considérablement la barrière à l'adoption et à l'avancement de l'optimisation discrète de texte.

English

Discrete text-trigger optimization -- searching for text sequences that, when ingested by a model, steer it toward a specified objective -- underpins model red-teaming (e.g., LLM jailbreaks), as well as auditing and interpretability. However, the current state of discrete optimizers hinders their adoption and progress. First, existing optimizers, when open-sourced at all, are scattered across research codebases tied to specific models, objectives, and problem domains. Second, optimizer variants proliferate, each requiring engineering overhead to use or extend, and remaining hard to compare head-to-head. Together, these raise the bar for adopting optimizers in existing or new domains, and for advancing them via new strategies. We address these gaps with TROPT, the first open-source framework that unifies discrete optimizers' execution and standardizes their development under a single interface. TROPT makes it easy to customize end-to-end optimization recipes by swapping any component -- models, objectives, and optimizers -- extending its reach across domains and new applications. TROPT currently ships with 30+ optimization recipes -- covering applications such as jailbreaking and probing model internals -- built from 15+ optimizers (spanning white-box to black-box access) and 15+ losses, from foundational to state-of-the-art methods. Demonstrating its utility, we leverage TROPT in several studies: (i) controlled, large-scale experiments comparing and enhancing optimization strategies for LLM jailbreaks, revealing potent-yet-underadopted techniques; and (ii) porting optimizers from one domain (e.g., LLM jailbreak) to new domains (e.g., corpus-poisoning embedding model). In all, TROPT significantly lowers the barrier to adopting and advancing discrete text optimization.