TROPT: Ein offenes Framework zur Vereinheitlichung und Weiterentwicklung der diskreten Textoptimierung

Zusammenfassung

Diskrete Text-Trigger-Optimierung – die Suche nach Textsequenzen, die, wenn sie von einem Modell aufgenommen werden, dieses in Richtung eines bestimmten Ziels lenken – liegt Modell-Red-Teaming (z. B. LLM-Jailbreaks) sowie Auditing und Interpretierbarkeit zugrunde. Der aktuelle Stand diskreter Optimierer behindert jedoch deren Übernahme und Fortschritt. Erstens sind vorhandene Optimierer, sofern überhaupt quelloffen, über Forschungs-Codebasen verstreut, die an bestimmte Modelle, Ziele und Problemdomänen gebunden sind. Zweitens vermehren sich Optimierervarianten, jede erfordert technischen Aufwand für Nutzung oder Erweiterung und bleibt schwer direkt vergleichbar. Zusammen erhöhen diese Hürden die Einstiegsschwelle für die Übernahme von Optimierern in bestehenden oder neuen Domänen sowie für deren Weiterentwicklung durch neue Strategien. Wir schließen diese Lücken mit TROPT, dem ersten Open-Source-Framework, das die Ausführung diskreter Optimierer vereinheitlicht und deren Entwicklung unter einer einzigen Schnittstelle standardisiert. TROPT erleichtert die Anpassung von Ende-zu-Ende-Optimierungsrezepten durch Austausch beliebiger Komponenten – Modelle, Ziele und Optimierer – und erweitert so seine Reichweite über Domänen und neue Anwendungen hinweg. TROPT wird derzeit mit über 30 Optimierungsrezepten ausgeliefert – die Anwendungen wie Jailbreaking und Sondieren von Modell-Innerem abdecken – aufgebaut aus über 15 Optimierern (von White-Box- bis Black-Box-Zugriff) und über 15 Verlustfunktionen, von grundlegenden bis hin zu modernsten Methoden. Um seinen Nutzen zu demonstrieren, setzen wir TROPT in mehreren Studien ein: (i) kontrollierte, groß angelegte Experimente zum Vergleich und zur Verbesserung von Optimierungsstrategien für LLM-Jailbreaks, die wirksame, aber wenig genutzte Techniken aufdecken; und (ii) Übertragung von Optimierern von einer Domäne (z. B. LLM-Jailbreak) auf neue Domänen (z. B. Korpus-vergiftende Einbettungsmodelle). Insgesamt senkt TROPT die Hürde für die Übernahme und Weiterentwicklung diskreter Textoptimierung erheblich.

English

Discrete text-trigger optimization -- searching for text sequences that, when ingested by a model, steer it toward a specified objective -- underpins model red-teaming (e.g., LLM jailbreaks), as well as auditing and interpretability. However, the current state of discrete optimizers hinders their adoption and progress. First, existing optimizers, when open-sourced at all, are scattered across research codebases tied to specific models, objectives, and problem domains. Second, optimizer variants proliferate, each requiring engineering overhead to use or extend, and remaining hard to compare head-to-head. Together, these raise the bar for adopting optimizers in existing or new domains, and for advancing them via new strategies. We address these gaps with TROPT, the first open-source framework that unifies discrete optimizers' execution and standardizes their development under a single interface. TROPT makes it easy to customize end-to-end optimization recipes by swapping any component -- models, objectives, and optimizers -- extending its reach across domains and new applications. TROPT currently ships with 30+ optimization recipes -- covering applications such as jailbreaking and probing model internals -- built from 15+ optimizers (spanning white-box to black-box access) and 15+ losses, from foundational to state-of-the-art methods. Demonstrating its utility, we leverage TROPT in several studies: (i) controlled, large-scale experiments comparing and enhancing optimization strategies for LLM jailbreaks, revealing potent-yet-underadopted techniques; and (ii) porting optimizers from one domain (e.g., LLM jailbreak) to new domains (e.g., corpus-poisoning embedding model). In all, TROPT significantly lowers the barrier to adopting and advancing discrete text optimization.