ChatPaper.aiChatPaper

Scission de diffusion à complexité équilibrée

Complexity-Balanced Diffusion Splitting

June 4, 2026
Auteurs: Noam Issachar, Dani Lischinski, Raanan Fattal
cs.AI

Résumé

Les modèles génératifs standard en temps continu reposent sur des architectures monolithiques qui doivent naviguer dans des régimes de signal très différents, allant du bruit isotrope à des distributions de données complexes. Bien que l'augmentation de la capacité du modèle améliore les performances, déployer un réseau massif de manière uniforme sur toute la chronologie générative est fondamentalement inefficace. Dans ce travail, nous proposons le découpage à complexité équilibrée (CBS), un cadre théorique pour l'allocation temporelle de capacité qui répartit la charge de travail générative entre plusieurs sous-réseaux spécialisés. Ancré dans la théorie de l'approximation de fonctions et le principe d'équidistribution de de Boor, CBS partitionne la chronologie de diffusion en segments de charge d'approximation égale, allouant plus de capacité représentationnelle aux régions où la dynamique générative est plus difficile à modéliser. Pour estimer cette complexité locale, nous introduisons deux fonctions de surveillance complémentaires et traitables : une mesure spatiale basée sur l'énergie de Dirichlet du flux, et une mesure géométrique basée sur l'accélération des trajectoires d'échantillonnage. En utilisant un modèle auxiliaire léger pour estimer ces profils de complexité, notre approche élimine le besoin de divisions temporelles heuristiques ou de procédures de recherche coûteuses en calcul. Une évaluation approfondie sur plusieurs architectures (SiT, JiT et UNet) et jeux de données montre que CBS améliore systématiquement la qualité de la synthèse sans augmenter le coût d'inférence par étape. En particulier, CBS améliore le FID d'environ 35 % sur SiT-XL avec CFG par rapport au partitionnement temporel naïf. La page du projet est disponible à l'adresse https://noamissachar.github.io/CBS/.
English
Standard continuous-time generative models rely on monolithic architectures that must navigate vastly different signal regimes, from isotropic noise to intricate data distributions. While scaling model capacity improves performance, deploying a massive network uniformly across the entire generative timeline is inherently inefficient. In this work, we propose Complexity-Balanced Splitting (CBS), a principled framework for temporal capacity allocation that distributes the generative workload across multiple specialized sub-networks. Grounded in function approximation theory and de Boor's equidistribution principle, CBS partitions the diffusion timeline into segments of equal approximation burden, allocating more representational capacity to regions where the generative dynamics are more difficult to model. To estimate this local complexity, we introduce two complementary and tractable monitor functions: a spatial measure based on the flow's Dirichlet energy, and a geometric measure based on the acceleration of the sampling trajectories. Using a lightweight auxiliary model to estimate these complexity profiles, our approach eliminates the need for heuristic temporal splits or computationally expensive search procedures. Extensive evaluation across multiple architectures (SiT, JiT, and UNet) and datasets demonstrates that CBS consistently improves synthesis quality without increasing per-step inference cost. In particular, CBS improves FID by ~35% on SiT-XL with CFG relative to naive temporal partitioning. Project page is available at https://noamissachar.github.io/CBS/.