ChatPaper.aiChatPaper

変分ノイズ結合を用いた一貫性モデルのトレーニング

Training Consistency Models with Variational Noise Coupling

February 25, 2025
著者: Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji
cs.AI

要旨

最近、一貫性トレーニング(CT)は、拡散モデルに代わる有望な選択肢として登場し、画像生成タスクで競争力のあるパフォーマンスを達成しています。ただし、非蒸留一貫性トレーニングはしばしば高い分散と不安定性に苦しむことがあり、そのトレーニングダイナミクスの分析と改善が研究の活発な分野です。本研究では、Flow Matchingフレームワークに基づく新しいCTトレーニングアプローチを提案します。主な貢献は、Variational Autoencoders(VAE)のアーキテクチャに触発されたトレーニングされたノイズ結合スキームです。データに依存したノイズ発生モデルをエンコーダアーキテクチャとして実装することで、我々の手法は間接的にノイズからデータへのマッピングの幾何学を学習することができます。これは、古典的なCTの前進プロセスの選択によって固定される代わりです。さまざまな画像データセットを対象とした実験結果は、顕著な生成的改善を示し、当社のモデルはベースラインを凌駕し、CIFAR-10における最先端の非蒸留CT FIDを達成し、64×64解像度のImageNetにおいても最先端に匹敵するFIDを2段階生成で達成しています。当社のコードは、https://github.com/sony/vct で入手可能です。
English
Consistency Training (CT) has recently emerged as a promising alternative to diffusion models, achieving competitive performance in image generation tasks. However, non-distillation consistency training often suffers from high variance and instability, and analyzing and improving its training dynamics is an active area of research. In this work, we propose a novel CT training approach based on the Flow Matching framework. Our main contribution is a trained noise-coupling scheme inspired by the architecture of Variational Autoencoders (VAE). By training a data-dependent noise emission model implemented as an encoder architecture, our method can indirectly learn the geometry of the noise-to-data mapping, which is instead fixed by the choice of the forward process in classical CT. Empirical results across diverse image datasets show significant generative improvements, with our model outperforming baselines and achieving the state-of-the-art (SoTA) non-distillation CT FID on CIFAR-10, and attaining FID on par with SoTA on ImageNet at 64 times 64 resolution in 2-step generation. Our code is available at https://github.com/sony/vct .

Summary

AI-Generated Summary

PDF72February 28, 2025