TROPT: Un Marco Abierto para Unificar y Avanzar la Optimización Discreta de Texto

Resumen

La optimización discreta de desencadenantes textuales —la búsqueda de secuencias de texto que, al ser ingeridas por un modelo, lo dirijan hacia un objetivo específico— sustenta el red-teaming de modelos (por ejemplo, jailbreaks de LLM), así como la auditoría y la interpretabilidad. Sin embargo, el estado actual de los optimizadores discretos dificulta su adopción y progreso. Primero, los optimizadores existentes, cuando se publican como código abierto, están dispersos en bases de código de investigación vinculadas a modelos, objetivos y dominios problemáticos específicos. Segundo, proliferan variantes de optimizadores, cada una requiriendo una sobrecarga de ingeniería para su uso o extensión, y resultando difícil compararlas cara a cara. En conjunto, esto eleva la barrera para adoptar optimizadores en dominios existentes o nuevos, y para avanzarlos mediante nuevas estrategias. Abordamos estas deficiencias con TROPT, el primer marco de código abierto que unifica la ejecución de optimizadores discretos y estandariza su desarrollo bajo una única interfaz. TROPT facilita la personalización de recetas de optimización completas al permitir intercambiar cualquier componente (modelos, objetivos y optimizadores), extendiendo su alcance a través de dominios y nuevas aplicaciones. Actualmente, TROPT incluye más de 30 recetas de optimización —que abarcan aplicaciones como jailbreaking y sondear internas de modelos— construidas a partir de más de 15 optimizadores (que van desde acceso de caja blanca a caja negra) y más de 15 funciones de pérdida, desde métodos fundamentales hasta los más avanzados. Demostrando su utilidad, aprovechamos TROPT en varios estudios: (i) experimentos controlados a gran escala que comparan y mejoran estrategias de optimización para jailbreaks de LLM, revelando técnicas potentes pero subadoptadas; y (ii) portar optimizadores de un dominio (por ejemplo, jailbreak de LLM) a nuevos dominios (por ejemplo, un modelo de incrustaciones envenenadas por corpus). En conjunto, TROPT reduce significativamente la barrera para adoptar y avanzar en la optimización discreta de texto.

English

Discrete text-trigger optimization -- searching for text sequences that, when ingested by a model, steer it toward a specified objective -- underpins model red-teaming (e.g., LLM jailbreaks), as well as auditing and interpretability. However, the current state of discrete optimizers hinders their adoption and progress. First, existing optimizers, when open-sourced at all, are scattered across research codebases tied to specific models, objectives, and problem domains. Second, optimizer variants proliferate, each requiring engineering overhead to use or extend, and remaining hard to compare head-to-head. Together, these raise the bar for adopting optimizers in existing or new domains, and for advancing them via new strategies. We address these gaps with TROPT, the first open-source framework that unifies discrete optimizers' execution and standardizes their development under a single interface. TROPT makes it easy to customize end-to-end optimization recipes by swapping any component -- models, objectives, and optimizers -- extending its reach across domains and new applications. TROPT currently ships with 30+ optimization recipes -- covering applications such as jailbreaking and probing model internals -- built from 15+ optimizers (spanning white-box to black-box access) and 15+ losses, from foundational to state-of-the-art methods. Demonstrating its utility, we leverage TROPT in several studies: (i) controlled, large-scale experiments comparing and enhancing optimization strategies for LLM jailbreaks, revealing potent-yet-underadopted techniques; and (ii) porting optimizers from one domain (e.g., LLM jailbreak) to new domains (e.g., corpus-poisoning embedding model). In all, TROPT significantly lowers the barrier to adopting and advancing discrete text optimization.