оптимизируй_что_угодно: универсальный API для оптимизации любого текстового параметра

Аннотация

Может ли одна система оптимизации на основе LLM сравниться со специализированными инструментами в принципиально разных областях? Мы показываем, что когда задачи оптимизации формулируются как улучшение текстового артефакта, оцениваемого с помощью функции оценки, одна система оптимизации на основе ИИ, поддерживающая однозадачный поиск, многозадачный поиск с переносом между задачами и обобщение на невидимые входные данные, достигает результатов на уровне лучших мировых достижений в шести различных задачах. Наша система находит архитектуры агентов, которые почти утраивают точность Gemini Flash в ARC-AGI (с 32.5% до 89.5%), находит алгоритмы планирования, сокращающие облачные затраты на 40%, генерирует ядра CUDA, из которых 87% соответствуют или превосходят PyTorch, и превосходит сообщённое решение AlphaEvolve для упаковки кругов (n=26). Абляции в трёх областях показывают, что действенная дополнительная информация обеспечивает более быструю сходимость и значительно более высокие итоговые оценки, чем обратная связь только по оценке, и что многозадачный поиск превосходит независимую оптимизацию при эквивалентном бюджете на задачу за счёт переноса между задачами, причём преимущества масштабируются с увеличением числа связанных задач. В совокупности мы впервые показываем, что текстовая оптимизация с помощью поиска на основе LLM является парадигмой решения задач общего назначения, объединяющей задачи, традиционно требующие алгоритмов, специализированных для конкретной предметной области, в рамках единой структуры. Мы публикуем optimize_anything с поддержкой нескольких бэкендов в открытом доступе в рамках проекта GEPA по адресу https://github.com/gepa-ai/gepa.

English

Can a single LLM-based optimization system match specialized tools across fundamentally different domains? We show that when optimization problems are formulated as improving a text artifact evaluated by a scoring function, a single AI-based optimization system-supporting single-task search, multi-task search with cross-problem transfer, and generalization to unseen inputs-achieves state-of-the-art results across six diverse tasks. Our system discovers agent architectures that nearly triple Gemini Flash's ARC-AGI accuracy (32.5% to 89.5%), finds scheduling algorithms that cut cloud costs by 40%, generates CUDA kernels where 87% match or beat PyTorch, and outperforms AlphaEvolve's reported circle packing solution (n=26). Ablations across three domains reveal that actionable side information yields faster convergence and substantially higher final scores than score-only feedback, and that multi-task search outperforms independent optimization given equivalent per-problem budget through cross-task transfer, with benefits scaling with the number of related tasks. Together, we show for the first time that text optimization with LLM-based search is a general-purpose problem-solving paradigm, unifying tasks traditionally requiring domain-specific algorithms under a single framework. We open-source optimize\_anything with support for multiple backends as part of the GEPA project at https://github.com/gepa-ai/gepa .