WiT: 경로 충돈 탐색을 통한 웨이포인트 확산 트랜스포머
WiT: Waypoint Diffusion Transformers via Trajectory Conflict Navigation
March 16, 2026
저자: Hainuo Wang, Mingjia Li, Xiaojie Guo
cs.AI
초록
최근 플로우 매칭 모델들은 픽셀 공간에서 직접 연산함으로써 잠재 오토인코더의 재구성 병목 현상을 회피하지만, 픽셀 다양체 내 의미론적 연속성의 부재는 최적 전송 경로를 심각하게 뒤얽히게 합니다. 이로 인해 교차점 근처에서 심각한 궤적 충돌이 발생하여 차선책 해결책을 야기합니다. 정보 손실이 수반되는 잠재 표현을 통해 이 문제를 우회하기보다, 우리는 Waypoint Diffusion Transformers(WiT)를 제안하여 픽셀 공간 궤적을 직접적으로 풀어냅니다. WiT는 사전 학습된 비전 모델에서 투영된 중간 의미론적 웨이포인트를 통해 연속 벡터장을 인수분해합니다. 이는 최적 전송을 사전 분포-웨이포인트와 웨이포인트-픽셀 구간으로 분해함으로써 생성 궤적을 효과적으로 분리합니다. 구체적으로, 반복적 노이즈 제거 과정에서 경량 생성기가 현재 노이즈 상태로부터 이러한 중간 웨이포인트를 동적으로 추론합니다. 이후 이들은 Just-Pixel AdaLN 메커니즘을 통해 주 확산 트랜스포머를 지속적으로 조건화하여, 다음 상태를 향한 진화를 주도하고 최종적으로 최종 RGB 픽셀을 생성합니다. ImageNet 256x256에서 평가한 결과, WiT는 강력한 픽셀 공간 기준 모델들을 능가하며 JiT 학습 수렴 속도를 2.2배 가속시켰습니다. 코드는 https://github.com/hainuo-wang/WiT.git에서 공개될 예정입니다.
English
While recent Flow Matching models avoid the reconstruction bottlenecks of latent autoencoders by operating directly in pixel space, the lack of semantic continuity in the pixel manifold severely intertwines optimal transport paths. This induces severe trajectory conflicts near intersections, yielding sub-optimal solutions. Rather than bypassing this issue via information-lossy latent representations, we directly untangle the pixel-space trajectories by proposing Waypoint Diffusion Transformers (WiT). WiT factorizes the continuous vector field via intermediate semantic waypoints projected from pre-trained vision models. It effectively disentangles the generation trajectories by breaking the optimal transport into prior-to-waypoint and waypoint-to-pixel segments. Specifically, during the iterative denoising process, a lightweight generator dynamically infers these intermediate waypoints from the current noisy state. They then continuously condition the primary diffusion transformer via the Just-Pixel AdaLN mechanism, steering the evolution towards the next state, ultimately yielding the final RGB pixels. Evaluated on ImageNet 256x256, WiT beats strong pixel-space baselines, accelerating JiT training convergence by 2.2x. Code will be publicly released at https://github.com/hainuo-wang/WiT.git.