복잡도 균형 확산 분할
Complexity-Balanced Diffusion Splitting
June 4, 2026
저자: Noam Issachar, Dani Lischinski, Raanan Fattal
cs.AI
초록
표준 연속 시간 생성 모델은 등방성 노이즈에서 복잡한 데이터 분포에 이르기까지 매우 다른 신호 영역을 탐색해야 하는 모놀리식 구조에 의존합니다. 모델 용량을 확장하면 성능이 향상되지만, 방대한 네트워크를 생성 타임라인 전체에 균일하게 배치하는 것은 본질적으로 비효율적입니다. 본 연구에서는 복잡도 균형 분할(CBS)이라는 원칙적인 프레임워크를 제안합니다. 이는 시간적 용량 할당을 위한 방법으로, 생성 작업 부하를 여러 전문화된 하위 네트워크에 분산시킵니다. 함수 근사 이론과 de Boor의 등분포 원리에 기반한 CBS는 확산 타임라인을 동등한 근사 부담을 갖는 세그먼트로 분할하여, 생성 역학이 더 어렵게 모델링되는 영역에 더 많은 표현 용량을 할당합니다. 이러한 국소 복잡도를 추정하기 위해, 흐름의 디리클레 에너지에 기반한 공간적 측정과 샘플링 궤적의 가속도에 기반한 기하학적 측정이라는 두 가지 상호 보완적이고 다루기 쉬운 모니터 함수를 도입합니다. 경량 보조 모델을 사용하여 이러한 복잡도 프로파일을 추정함으로써, 우리의 접근 방식은 휴리스틱 시간 분할이나 계산 비용이 많이 드는 검색 절차를 필요로 하지 않습니다. 여러 아키텍처(SiT, JiT, UNet)와 데이터셋에 대한 광범위한 평가는 CBS가 단계별 추론 비용을 증가시키지 않으면서 합성 품질을 지속적으로 향상시킴을 보여줍니다. 특히, CBS는 CFG를 사용한 SiT-XL에서 단순 시간 분할 대비 FID를 약 35% 개선합니다. 프로젝트 페이지는 https://noamissachar.github.io/CBS/에서 확인할 수 있습니다.
English
Standard continuous-time generative models rely on monolithic architectures that must navigate vastly different signal regimes, from isotropic noise to intricate data distributions. While scaling model capacity improves performance, deploying a massive network uniformly across the entire generative timeline is inherently inefficient. In this work, we propose Complexity-Balanced Splitting (CBS), a principled framework for temporal capacity allocation that distributes the generative workload across multiple specialized sub-networks. Grounded in function approximation theory and de Boor's equidistribution principle, CBS partitions the diffusion timeline into segments of equal approximation burden, allocating more representational capacity to regions where the generative dynamics are more difficult to model. To estimate this local complexity, we introduce two complementary and tractable monitor functions: a spatial measure based on the flow's Dirichlet energy, and a geometric measure based on the acceleration of the sampling trajectories. Using a lightweight auxiliary model to estimate these complexity profiles, our approach eliminates the need for heuristic temporal splits or computationally expensive search procedures. Extensive evaluation across multiple architectures (SiT, JiT, and UNet) and datasets demonstrates that CBS consistently improves synthesis quality without increasing per-step inference cost. In particular, CBS improves FID by ~35% on SiT-XL with CFG relative to naive temporal partitioning. Project page is available at https://noamissachar.github.io/CBS/.