TROPT: Открытая платформа для унификации и развития дискретной оптимизации текста

Аннотация

Дискретная оптимизация текстовых триггеров — поиск текстовых последовательностей, которые при подаче на вход модели направляют её поведение в сторону заданной цели — лежит в основе red-teaming моделей (например, обход ограничений LLM), а также аудита и интерпретируемости. Однако текущее состояние дискретных оптимизаторов препятствует их внедрению и развитию. Во-первых, существующие оптимизаторы, даже если они открыты, разбросаны по исследовательским кодовым базам, привязанным к конкретным моделям, целям и предметным областям. Во-вторых, множатся варианты оптимизаторов, каждый из которых требует инженерных затрат на использование или расширение, и их трудно напрямую сравнивать. В совокупности это повышает барьер для внедрения оптимизаторов в существующие или новые области, а также для их совершенствования с помощью новых стратегий. Мы устраняем эти пробелы с помощью TROPT — первого фреймворка с открытым исходным кодом, который унифицирует выполнение дискретных оптимизаторов и стандартизирует их разработку через единый интерфейс. TROPT упрощает настройку сквозных рецептов оптимизации, позволяя заменять любой компонент — модели, цели и оптимизаторы, — расширяя его применение в различных областях и новых приложениях. В настоящее время TROPT включает более 30 рецептов оптимизации — охватывающих такие приложения, как обход ограничений и исследование внутреннего устройства моделей, — построенных на основе более 15 оптимизаторов (от доступа типа «белый ящик» до «чёрного ящика») и более 15 функций потерь — от базовых до современных методов. Демонстрируя свою полезность, мы применяем TROPT в нескольких исследованиях: (i) контролируемые крупномасштабные эксперименты по сравнению и улучшению стратегий оптимизации для обхода ограничений LLM, выявляющие мощные, но малоиспользуемые методы; (ii) перенос оптимизаторов из одной области (например, обход ограничений LLM) в новые области (например, отравление корпуса данных для модели вложений). В целом TROPT значительно снижает барьер для внедрения и развития дискретной текстовой оптимизации.

English

Discrete text-trigger optimization -- searching for text sequences that, when ingested by a model, steer it toward a specified objective -- underpins model red-teaming (e.g., LLM jailbreaks), as well as auditing and interpretability. However, the current state of discrete optimizers hinders their adoption and progress. First, existing optimizers, when open-sourced at all, are scattered across research codebases tied to specific models, objectives, and problem domains. Second, optimizer variants proliferate, each requiring engineering overhead to use or extend, and remaining hard to compare head-to-head. Together, these raise the bar for adopting optimizers in existing or new domains, and for advancing them via new strategies. We address these gaps with TROPT, the first open-source framework that unifies discrete optimizers' execution and standardizes their development under a single interface. TROPT makes it easy to customize end-to-end optimization recipes by swapping any component -- models, objectives, and optimizers -- extending its reach across domains and new applications. TROPT currently ships with 30+ optimization recipes -- covering applications such as jailbreaking and probing model internals -- built from 15+ optimizers (spanning white-box to black-box access) and 15+ losses, from foundational to state-of-the-art methods. Demonstrating its utility, we leverage TROPT in several studies: (i) controlled, large-scale experiments comparing and enhancing optimization strategies for LLM jailbreaks, revealing potent-yet-underadopted techniques; and (ii) porting optimizers from one domain (e.g., LLM jailbreak) to new domains (e.g., corpus-poisoning embedding model). In all, TROPT significantly lowers the barrier to adopting and advancing discrete text optimization.