ChatPaper.aiChatPaper

이미지 없는 타임스텝 증류: 궤적 샘플링 쌍을 통한 연속 시간 일관성

Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

November 25, 2025
저자: Bao Tang, Shuai Zhang, Yueting Zhu, Jijun Xiang, Xin Yang, Li Yu, Wenyu Liu, Xinggang Wang
cs.AI

초록

타임스텝 디스틸레이션은 확산 모델의 생성 효율성을 향상시키는 효과적인 접근법입니다. 궤적 기반 프레임워크인 일관성 모델(CM)은 강력한 이론적 기반과 고품질의 소수-스텝 생성 능력으로 인해 상당한 잠재력을 보여줍니다. 그러나 현재의 연속-시간 일관성 디스틸레이션 방법은 여전히 훈련 데이터와 컴퓨팅 자원에 크게 의존하여, 자원이 제한된 시나리오에서의 배포를 저해하고 다양한 도메인으로의 확장성을 제한합니다. 이 문제를 해결하기 위해 우리는 교사 모델의 생성 궤적에서 직접 잠재 표현을 추출하여 외부 훈련 데이터에 대한 의존성을 제거하는 궤적-역방향 일관성 모델(TBCM)을 제안합니다. VAE 인코딩과 대규모 데이터셋이 필요한 기존 방법과 달리, 우리의 자체 포함형 디스틸레이션 패러다임은 효율성과 단순성을 모두 크게 향상시킵니다. 더욱이, 궤적에서 추출된 샘플은 훈련과 추론 간의 분포 차이를 자연스럽게 연결함으로써 더 효과적인 지식 전달을 가능하게 합니다. 실험적으로 TBCM은 1-스텝 생성 설정에서 MJHQ-30k 데이터셋에 대해 6.52의 FID와 28.08의 CLIP 점수를 달성하였으며, Sana-Sprint 대비 약 40%의 훈련 시간 단축과 상당한 양의 GPU 메모리 절약을 통해 품질 저하 없이 우수한 효율성을 입증했습니다. 우리는 추가로 연속-시간 일관성 디스틸레이션에서의 확산-생성 공간 불일치를 밝히고, 샘플링 전략이 디스틸레이션 성능에 미치는 영향을 분석하여 향후 디스틸레이션 연구를 위한 통찰을 제공합니다. GitHub 링크: https://github.com/hustvl/TBCM.
English
Timestep distillation is an effective approach for improving the generation efficiency of diffusion models. The Consistency Model (CM), as a trajectory-based framework, demonstrates significant potential due to its strong theoretical foundation and high-quality few-step generation. Nevertheless, current continuous-time consistency distillation methods still rely heavily on training data and computational resources, hindering their deployment in resource-constrained scenarios and limiting their scalability to diverse domains. To address this issue, we propose Trajectory-Backward Consistency Model (TBCM), which eliminates the dependence on external training data by extracting latent representations directly from the teacher model's generation trajectory. Unlike conventional methods that require VAE encoding and large-scale datasets, our self-contained distillation paradigm significantly improves both efficiency and simplicity. Moreover, the trajectory-extracted samples naturally bridge the distribution gap between training and inference, thereby enabling more effective knowledge transfer. Empirically, TBCM achieves 6.52 FID and 28.08 CLIP scores on MJHQ-30k under one-step generation, while reducing training time by approximately 40% compared to Sana-Sprint and saving a substantial amount of GPU memory, demonstrating superior efficiency without sacrificing quality. We further reveal the diffusion-generation space discrepancy in continuous-time consistency distillation and analyze how sampling strategies affect distillation performance, offering insights for future distillation research. GitHub Link: https://github.com/hustvl/TBCM.
PDF22December 1, 2025