WiT: Wegpunkt-Diffusionstransformator durch Trajektorienkonfliktnavigation

Zusammenfassung

Während neuere Flow-Matching-Modelle die Rekonstruktionsengpässe latenter Autoencoder umgehen, indem sie direkt im Pixelraum operieren, führt der Mangel an semantischer Kontinuität in der Pixelmannigfaltigkeit zu einer starken Verflechtung der optimalen Transportpfade. Dies verursacht erhebliche Trajektorienkonflikte nahe Schnittpunkten, was zu suboptimalen Lösungen führt. Anstatt dieses Problem durch informationsreduzierte latente Repräsentationen zu umgehen, entwirren wir die Pixelraum-Trajektorien direkt durch die Einführung von Waypoint Diffusion Transformers (WiT). WiT faktorisiert das kontinuierliche Vektorfeld über intermediäre semantische Wegpunkte, die aus vortrainierten Vision-Modellen projiziert werden. Es entwirrt die Erzeugungstrajektorien effektiv, indem es den optimalen Transport in Prior-zu-Wegpunkt- und Wegpunkt-zu-Pixel-Segmente unterteilt. Konkret leitet ein leichtgewichtiger Generator während des iterativen Denoising-Prozesses diese Zwischenwegpunkte dynamisch aus dem aktuellen verrauschten Zustand ab. Diese konditionieren kontinuierlich den primären Diffusion-Transformer über den Just-Pixel-AdaLN-Mechanismus, lenken die Evolution zum nächsten Zustand und erzeugen letztendlich die finalen RGB-Pixel. Evaluierungen auf ImageNet 256x256 zeigen, dass WiT starke Pixelraum-Baselines übertrifft und die JiT-Trainingskonvergenz um das 2,2-fache beschleunigt. Der Code wird unter https://github.com/hainuo-wang/WiT.git öffentlich zugänglich gemacht.

English

While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.

WiT: Wegpunkt-Diffusionstransformator durch Trajektorienkonfliktnavigation

WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

Zusammenfassung

Support