WiT: Transformadores de Difusión de Waypoints mediante Navegación por Conflictos de Trayectoria

Resumen

Si bien los modelos recientes de Flow Matching evitan los cuellos de botella de reconstrucción de los autoencoders latentes al operar directamente en el espacio de píxeles, la falta de continuidad semántica en el múltiple de píxeles entrelaza severamente las rutas de transporte óptimo. Esto induce graves conflictos de trayectoria cerca de las intersecciones, produciendo soluciones subóptimas. En lugar de eludir este problema mediante representaciones latentes con pérdida de información, desentrelazamos directamente las trayectorias en el espacio de píxeles proponiendo los Transformadores de Difusión con Puntos de Referencia (WiT). WiT factoriza el campo vectorial continuo mediante puntos de referencia semánticos intermedios proyectados desde modelos de visión preentrenados. De este modo, desenreda eficazmente las trayectorias de generación al dividir el transporte óptimo en segmentos de prior-a-punto y punto-a-píxel. Específicamente, durante el proceso iterativo de eliminación de ruido, un generador ligero infiere dinámicamente estos puntos de referencia intermedios a partir del estado ruidoso actual. Estos condicionan continuamente al transformador de difusión principal mediante el mecanismo Just-Pixel AdaLN, dirigiendo la evolución hacia el siguiente estado y produciendo finalmente los píxeles RGB finales. Evaluado en ImageNet 256x256, WiT supera a sólidos modelos de referencia en espacio de píxeles, acelerando la convergencia del entrenamiento JiT en 2.2x. El código se publicará en https://github.com/hainuo-wang/WiT.git.

English

While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.

WiT: Transformadores de Difusión de Waypoints mediante Navegación por Conflictos de Trayectoria

WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation

Resumen

Support