Calibri: Повышение эффективности диффузионных трансформеров с помощью параметрически-эффективной калибровки
Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration
March 25, 2026
Авторы: Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
Аннотация
В данной статье мы раскрываем скрытый потенциал диффузионных трансформеров (DiT) для значительного улучшения генеративных задач. Благодаря углубленному анализу процесса удаления шума мы демонстрируем, что введение единственного обучаемого параметра масштабирования позволяет существенно повысить производительность блоков DiT. На основе этого наблюдения мы предлагаем Calibri — эффективный по параметрам подход, который оптимально калибрует компоненты DiT для повышения качества генерации. Calibri формулирует калибровку DiT как задачу оптимизации черного ящика по критерию вознаграждения, эффективно решаемую с помощью эволюционного алгоритма и модифицирующую всего около 100 параметров. Результаты экспериментов показывают, что, несмотря на облегченный дизайн, Calibri стабильно улучшает производительность различных тексто-изобразительных моделей. Примечательно, что Calibri также сокращает количество шагов вывода, необходимых для генерации изображений, сохраняя при этом высокое качество результатов.
English
In this paper, we uncover the hidden potential of Diffusion Transformers (DiTs) to significantly enhance generative tasks. Through an in-depth analysis of the denoising process, we demonstrate that introducing a single learned scaling parameter can significantly improve the performance of DiT blocks. Building on this insight, we propose Calibri, a parameter-efficient approach that optimally calibrates DiT components to elevate generative quality. Calibri frames DiT calibration as a black-box reward optimization problem, which is efficiently solved using an evolutionary algorithm and modifies just ~100 parameters. Experimental results reveal that despite its lightweight design, Calibri consistently improves performance across various text-to-image models. Notably, Calibri also reduces the inference steps required for image generation, all while maintaining high-quality outputs.