WiT: Trasformatori di Diffusione per Waypoint tramite Navigazione per Conflitti di Traiettoria

Abstract

Sebbene i recenti modelli di Flow Matching evitino i colli di bottiglia ricostruttivi degli autoencoder latenti operando direttamente nello spazio dei pixel, la mancanza di continuità semantica nella varietà dei pixel intreccia severamente i percorsi di trasporto ottimo. Ciò induce gravi conflitti di traiettoria in prossimità delle intersezioni, producendo soluzioni sub-ottimali. Invece di aggirare il problema mediante rappresentazioni latenti con perdita di informazioni, noi districhiamo direttamente le traiettorie nello spazio dei pixel proponendo i Waypoint Diffusion Transformers (WiT). WiT fattorizza il campo vettoriale continuo tramite waypoint semantici intermedi proiettati da modelli visivi pre-addestrati. Esso disaggrega efficacemente le traiettorie di generazione suddividendo il trasporto ottimo in segmenti prior-to-waypoint e waypoint-to-pixel. Nello specifico, durante il processo iterativo di denoising, un generatore leggero inferisce dinamicamente questi waypoint intermedi dallo stato rumoroso corrente. Questi ultimi condizionano poi continuamente il diffusion transformer principale tramite il meccanismo Just-Pixel AdaLN, guidando l'evoluzione verso lo stato successivo e producendo infine i pixel RGB finali. Valutato su ImageNet 256x256, WiT supera solidi baseline nello spazio dei pixel, accelerando la convergenza dell'addestramento JiT di 2.2x. Il codice sarà rilasciato pubblicamente su https://github.com/hainuo-wang/WiT.git.

English

While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.

WiT: Trasformatori di Diffusione per Waypoint tramite Navigazione per Conflitti di Traiettoria

WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

Abstract

Support