ChatPaper.aiChatPaper

Стабильная настройка согласованности: Понимание и Улучшение Моделей Согласованности

Stable Consistency Tuning: Understanding and Improving Consistency Models

October 24, 2024
Авторы: Fu-Yun Wang, Zhengyang Geng, Hongsheng Li
cs.AI

Аннотация

Модели диффузии обеспечивают высокое качество генерации, но сталкиваются с медленной скоростью генерации из-за итеративной природы удаления шума. В отличие от этого, модели согласованности, новое семейство генеративных моделей, достигают конкурентоспособной производительности с значительно более быстрой выборкой. Эти модели обучаются либо через дистилляцию согласованности, которая использует предварительно обученные модели диффузии, либо непосредственно через обучение/настройку согласованности на исходных данных. В данной работе мы предлагаем новую концепцию для понимания моделей согласованности, моделируя процесс удаления шума модели диффузии как процесс принятия решений Маркова (MDP) и формируя обучение модели согласованности как оценку значения через обучение методом временной разницы (TD Learning). Более того, данная концепция позволяет нам проанализировать ограничения текущих стратегий обучения/настройки согласованности. Основываясь на Easy Consistency Tuning (ECT), мы предлагаем Stable Consistency Tuning (SCT), который включает в себя обучение с уменьшением дисперсии с использованием идентичности оценки. SCT приводит к значительному улучшению производительности на стандартных наборах данных, таких как CIFAR-10 и ImageNet-64. На ImageNet-64 SCT достигает FID на 1 шаге 2,42 и на 2 шагах 1,55, устанавливая новый рекорд для моделей согласованности.
English
Diffusion models achieve superior generation quality but suffer from slow generation speed due to the iterative nature of denoising. In contrast, consistency models, a new generative family, achieve competitive performance with significantly faster sampling. These models are trained either through consistency distillation, which leverages pretrained diffusion models, or consistency training/tuning directly from raw data. In this work, we propose a novel framework for understanding consistency models by modeling the denoising process of the diffusion model as a Markov Decision Process (MDP) and framing consistency model training as the value estimation through Temporal Difference~(TD) Learning. More importantly, this framework allows us to analyze the limitations of current consistency training/tuning strategies. Built upon Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT), which incorporates variance-reduced learning using the score identity. SCT leads to significant performance improvements on benchmarks such as CIFAR-10 and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID 1.55, a new SoTA for consistency models.

Summary

AI-Generated Summary

PDF103November 16, 2024