WiT: Трансформеры диффузии путевых точек через навигацию с разрешением конфликтов траекторий
WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation
March 16, 2026
Авторы: Hainuo Wang, Mingjia Li, Xiaojie Guo
cs.AI
Аннотация
Хотя современные модели Flow Matching позволяют избежать узких мест реконструкции, свойственных латентным автоэнкодерам, работая непосредственно в пиксельном пространстве, отсутствие семантической непрерывности на пиксельном многообразии приводит к сильному переплетению путей оптимального транспорта. Это вызывает значительные конфликты траекторий вблизи пересечений, приводя к субоптимальным решениям. Вместо обхода данной проблемы через информационно-потерьные латентные представления мы предлагаем прямой метод развязывания траекторий в пиксельном пространстве — Waypoint Diffusion Transformers (WiT). WiT факторизует непрерывное векторное поле с помощью семантических промежуточных точек (waypoints), проецируемых из предобученных моделей компьютерного зрения. Это эффективно разделяет траектории генерации, разбивая оптимальный транспорт на сегменты: от априорного распределения к точкам и от точек к пикселям. В частности, в процессе итеративного шумоподавления легковесный генератор динамически выводит эти промежуточные точки из текущего зашумленного состояния. Затем они непрерывно обусловливают основной диффузионный трансформер через механизм Just-Pixel AdaLN, направляя эволюцию к следующему состоянию и в конечном итоге формируя итоговые RGB-пиксели. На выборке ImageNet 256×256 WiT превосходит сильные базовые методы в пиксельном пространстве, ускоряя сходимость обучения JiT в 2,2 раза. Код будет общедоступен по адресу https://github.com/hainuo-wang/WiT.git.
English
While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.