WiT: Waypoint Diffusie Transformers via Trajectoryconflict Navigatie

Samenvatting

Hoewel recente Flow Matching-modellen de reconstructieknelpunten van latente auto-encoders vermijden door rechtstreeks in de pixelruimte te werken, verstrengelt het gebrek aan semantische continuïteit in de pixelvariëteit de optimale transportpaden ernstig. Dit veroorzaakt ernstige trajectconflicten nabij kruispunten, wat leidt tot suboptimale oplossingen. In plaats van dit probleem te omzeilen via latentieweergaven met informatieverlies, ontwarren wij de trajecten in de pixelruimte rechtstreeks door Waypoint Diffusion Transformers (WiT) voor te stellen. WiT factoriseert het continue vectorveld via tussenliggende semantische wegpunten die worden geprojecteerd uit vooraf getrainde visiemodellen. Het ontwart de generatietrajecten effectief door het optimale transport op te splitsen in prior-naar-wegpunt- en wegpunt-naar-pixels-segmenten. Specifiek, tijdens het iteratieve denoiseproces, leidt een lichtgewicht generator deze tussenliggende wegpunten dynamisch af uit de huidige verstoorde toestand. Deze conditioneren vervolgens continu de primaire diffusie-transformer via het Just-Pixel AdaLN-mechanisme, waardoor de evolutie wordt gestuurd naar de volgende toestand, wat uiteindelijk de definitieve RGB-pixels oplevert. Geëvalueerd op ImageNet 256x256, verslaat WiT sterke pixelruimte-baselines en versnelt het de JiT-trainingsconvergentie met 2.2x. Code zal openbaar worden vrijgegeven op https://github.com/hainuo-wang/WiT.git.

English

While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.

WiT: Waypoint Diffusie Transformers via Trajectoryconflict Navigatie

WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

Samenvatting

Support