WiT: Transformadores de Difusão com Waypoints via Navegação por Conflito de Trajetórias

Resumo

Embora os modelos recentes de Flow Matching evitem os gargalos de reconstrução dos autoencoders latentes ao operar diretamente no espaço de pixels, a falta de continuidade semântica no manifold de pixels entrelaça severamente os caminhos de transporte ótimo. Isso induz graves conflitos de trajetória perto de interseções, resultando em soluções subótimas. Em vez de contornar esse problema por meio de representações latentes com perda de informação, nós desembaraçamos diretamente as trajetórias no espaço de pixels propondo os Waypoint Diffusion Transformers (WiT). O WiT fatoriza o campo vetorial contínuo por meio de waypoints semânticos intermediários projetados a partir de modelos de visão pré-treinados. Ele desembaraça efetivamente as trajetórias de geração ao dividir o transporte ótimo em segmentos prior-para-waypoint e waypoint-para-pixel. Especificamente, durante o processo iterativo de remoção de ruído, um gerador leve infere dinamicamente esses waypoints intermediários a partir do estado ruidoso atual. Eles então condicionam continuamente o transformer de difusão principal por meio do mecanismo Just-Pixel AdaLN, direcionando a evolução para o próximo estado e, por fim, produzindo os pixels RGB finais. Avaliado no ImageNet 256x256, o WiT supera fortes baselines do espaço de pixels, acelerando a convergência do treinamento JiT em 2,2x. O código será disponibilizado publicamente em https://github.com/hainuo-wang/WiT.git.

English

While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.

WiT: Transformadores de Difusão com Waypoints via Navegação por Conflito de Trajetórias

WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

Resumo

Support