Divisão de Difusão Balanceada em Complexidade
Complexity-Balanced Diffusion Splitting
June 4, 2026
Autores: Noam Issachar, Dani Lischinski, Raanan Fattal
cs.AI
Resumo
Os modelos generativos de tempo contínuo padrão dependem de arquiteturas monolíticas que precisam navegar por regimes de sinal drasticamente diferentes, desde ruído isotrópico até distribuições de dados complexas. Embora o aumento da capacidade do modelo melhore o desempenho, implantar uma rede massiva de forma uniforme em toda a linha temporal generativa é inerentemente ineficiente. Neste trabalho, propomos a Divisão Balanceada por Complexidade (CBS, do inglês *Complexity-Balanced Splitting*), uma abordagem fundamentada para alocação temporal de capacidade que distribui a carga de trabalho generativa entre múltiplas sub-redes especializadas. Fundamentada na teoria de aproximação de funções e no princípio de equidistribuição de de Boor, a CBS particiona a linha temporal de difusão em segmentos de igual esforço de aproximação, alocando mais capacidade representacional para regiões onde a dinâmica generativa é mais difícil de modelar. Para estimar essa complexidade local, introduzimos duas funções de monitoramento complementares e tratáveis: uma medida espacial baseada na energia de Dirichlet do fluxo, e uma medida geométrica baseada na aceleração das trajetórias de amostragem. Utilizando um modelo auxiliar leve para estimar esses perfis de complexidade, nossa abordagem elimina a necessidade de divisões temporais heurísticas ou procedimentos de busca computacionalmente caros. Uma avaliação extensa em múltiplas arquiteturas (SiT, JiT e UNet) e conjuntos de dados demonstra que a CBS melhora consistentemente a qualidade da síntese sem aumentar o custo de inferência por etapa. Em particular, a CBS melhora o FID em aproximadamente 35% no SiT-XL com CFG em comparação com a partição temporal ingênua. A página do projeto está disponível em https://noamissachar.github.io/CBS/.
English
Standard continuous-time generative models rely on monolithic architectures that must navigate vastly different signal regimes, from isotropic noise to intricate data distributions. While scaling model capacity improves performance, deploying a massive network uniformly across the entire generative timeline is inherently inefficient. In this work, we propose Complexity-Balanced Splitting (CBS), a principled framework for temporal capacity allocation that distributes the generative workload across multiple specialized sub-networks. Grounded in function approximation theory and de Boor's equidistribution principle, CBS partitions the diffusion timeline into segments of equal approximation burden, allocating more representational capacity to regions where the generative dynamics are more difficult to model. To estimate this local complexity, we introduce two complementary and tractable monitor functions: a spatial measure based on the flow's Dirichlet energy, and a geometric measure based on the acceleration of the sampling trajectories. Using a lightweight auxiliary model to estimate these complexity profiles, our approach eliminates the need for heuristic temporal splits or computationally expensive search procedures. Extensive evaluation across multiple architectures (SiT, JiT, and UNet) and datasets demonstrates that CBS consistently improves synthesis quality without increasing per-step inference cost. In particular, CBS improves FID by ~35% on SiT-XL with CFG relative to naive temporal partitioning. Project page is available at https://noamissachar.github.io/CBS/.