TROPT: Een Open Raamwerk voor het Verenigen en Bevorderen van Discrete Tekstoptimalisatie

Samenvatting

Discrete tekst-triggeroptimalisatie – het zoeken naar tekstreeksen die, wanneer door een model ingenomen, het model in de richting van een gespecificeerd doel sturen – vormt de basis van model red-teaming (bijv. LLM-jailbreaks), evenals auditing en interpreteerbaarheid. De huidige stand van zaken van discrete optimalisatoren belemmert echter de adoptie en vooruitgang ervan. Ten eerste zijn bestaande optimalisatoren, als ze al open-source zijn, verspreid over onderzoekscodebases die zijn gekoppeld aan specifieke modellen, doelstellingen en probleemdomeinen. Ten tweede woekeren varianten van optimalisatoren, die elk engineering overhead vereisen om te gebruiken of uit te breiden, en die moeilijk onderling te vergelijken blijven. Samen verhogen deze factoren de drempel voor het adopteren van optimalisatoren in bestaande of nieuwe domeinen, en voor het verbeteren ervan via nieuwe strategieën. We pakken deze hiaten aan met TROPT, het eerste open-source framework dat de uitvoering van discrete optimalisatoren verenigt en hun ontwikkeling standaardiseert onder één enkele interface. TROPT maakt het eenvoudig om end-to-end optimalisatierecepten aan te passen door elk component te wisselen – modellen, doelstellingen en optimalisatoren – en breidt daarmee het bereik over domeinen en nieuwe toepassingen uit. TROPT wordt momenteel geleverd met meer dan 30 optimalisatierecepten – die toepassingen bestrijken zoals jailbreaken en het onderzoeken van modelinterne – opgebouwd uit meer dan 15 optimalisatoren (variërend van white-box tot black-box toegang) en meer dan 15 verliesfuncties, van fundamentele tot state-of-the-art methoden. Om het nut ervan aan te tonen, gebruiken we TROPT in verschillende studies: (i) gecontroleerde grootschalige experimenten die optimalisatiestrategieën voor LLM-jailbreaks vergelijken en verbeteren, waarbij krachtige maar onderbenutte technieken aan het licht komen; en (ii) het overzetten van optimalisatoren van het ene domein (bijv. LLM-jailbreak) naar nieuwe domeinen (bijv. een corpusvergiftigings-embeddingmodel). Al met al verlaagt TROPT aanzienlijk de drempel voor het adopteren en bevorderen van discrete tekstoptimalisatie.

English

Discrete text-trigger optimization -- searching for text sequences that, when ingested by a model, steer it toward a specified objective -- underpins model red-teaming (e.g., LLM jailbreaks), as well as auditing and interpretability. However, the current state of discrete optimizers hinders their adoption and progress. First, existing optimizers, when open-sourced at all, are scattered across research codebases tied to specific models, objectives, and problem domains. Second, optimizer variants proliferate, each requiring engineering overhead to use or extend, and remaining hard to compare head-to-head. Together, these raise the bar for adopting optimizers in existing or new domains, and for advancing them via new strategies. We address these gaps with TROPT, the first open-source framework that unifies discrete optimizers' execution and standardizes their development under a single interface. TROPT makes it easy to customize end-to-end optimization recipes by swapping any component -- models, objectives, and optimizers -- extending its reach across domains and new applications. TROPT currently ships with 30+ optimization recipes -- covering applications such as jailbreaking and probing model internals -- built from 15+ optimizers (spanning white-box to black-box access) and 15+ losses, from foundational to state-of-the-art methods. Demonstrating its utility, we leverage TROPT in several studies: (i) controlled, large-scale experiments comparing and enhancing optimization strategies for LLM jailbreaks, revealing potent-yet-underadopted techniques; and (ii) porting optimizers from one domain (e.g., LLM jailbreak) to new domains (e.g., corpus-poisoning embedding model). In all, TROPT significantly lowers the barrier to adopting and advancing discrete text optimization.