Calibri: Verbesserung von Diffusion Transformern durch parameter-effiziente Kalibrierung
Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration
March 25, 2026
Autoren: Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, Konstantin Sobolev
cs.AI
Zusammenfassung
In diesem Beitrag decken wir das verborgene Potenzial von Diffusions-Transformatoren (DiTs) auf, um generative Aufgaben signifikant zu verbessern. Durch eine eingehende Analyse des Denoising-Prozesses zeigen wir, dass die Einführung eines einzigen gelernten Skalierungsparameters die Leistung von DiT-Blöcken erheblich steigern kann. Aufbauend auf dieser Erkenntnis schlagen wir Calibri vor, einen parameter-effizienten Ansatz, der DiT-Komponenten optimal kalibriert, um die generative Qualität zu steigern. Calibri formuliert die DiT-Kalibrierung als Black-Box-Belohnungsoptimierungsproblem, das effizient mit einem evolutionären Algorithmus gelöst wird und nur ~100 Parameter modifiziert. Experimentelle Ergebnisse zeigen, dass Calibri trotz seines leichtgewichtigen Designs die Leistung verschiedener Text-zu-Bild-Modelle konsistent verbessert. Bemerkenswerterweise reduziert Calibri auch die für die Bildgenerierung erforderlichen Inferenzschritte, bei gleichbleibend hoher Ausgabequalität.
English
In this paper, we uncover the hidden potential of Diffusion Transformers (DiTs) to significantly enhance generative tasks. Through an in-depth analysis of the denoising process, we demonstrate that introducing a single learned scaling parameter can significantly improve the performance of DiT blocks. Building on this insight, we propose Calibri, a parameter-efficient approach that optimally calibrates DiT components to elevate generative quality. Calibri frames DiT calibration as a black-box reward optimization problem, which is efficiently solved using an evolutionary algorithm and modifies just ~100 parameters. Experimental results reveal that despite its lightweight design, Calibri consistently improves performance across various text-to-image models. Notably, Calibri also reduces the inference steps required for image generation, all while maintaining high-quality outputs.