WiT : Transformateurs de Diffusion de Points de Passage via Navigation par Conflit de Trajectoires

Résumé

Alors que les modèles récents de Flow Matching évitent les goulots d'étranglement de reconstruction des autoencodeurs latents en opérant directement dans l'espace des pixels, le manque de continuité sémantique dans la variété des pixels entremêle sévèrement les chemins de transport optimal. Cela induit de graves conflits de trajectoire près des intersections, produisant des solutions sous-optimales. Plutôt que de contourner ce problème via des représentations latentes avec perte d'information, nous démêlons directement les trajectoires dans l'espace des pixels en proposant les Waypoint Diffusion Transformers (WiT). WiT factorise le champ vectoriel continu via des points de passage sémantiques intermédiaires projetés à partir de modèles de vision pré-entraînés. Il démêle efficacement les trajectoires de génération en divisant le transport optimal en segments prior-vers-point-de-passage et point-de-passage-vers-pixel. Plus précisément, durant le processus itératif de débruitage, un générateur léger infère dynamiquement ces points de passage intermédiaires à partir de l'état bruité actuel. Ils conditionnent ensuite continuellement le transformeur de diffusion principal via le mécanisme Just-Pixel AdaLN, orientant l'évolution vers l'état suivant, pour finalement produire les pixels RVB finaux. Évalué sur ImageNet 256x256, WiT surpasse les solides modèles de référence de l'espace pixel, accélérant la convergence de l'entraînement JiT par un facteur de 2,2. Le code sera publiquement disponible à l'adresse https://github.com/hainuo-wang/WiT.git.

English

While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.

WiT : Transformateurs de Diffusion de Points de Passage via Navigation par Conflit de Trajectoires

WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

Résumé

Support