LatentUM: 잠재 공간 통합 모델을 통한 교차 모달 간섭 추론의 잠재력 활용
LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model
April 2, 2026
저자: Jiachun Jin, Zetong Zhou, Xiao Yang, Hao Zhang, Pengfei Liu, Jun Zhu, Zhijie Deng
cs.AI
초록
통합 모델(UM)은 이질적인 모달리티 간 콘텐츠 이해 및 생성 능력으로 인해 유망한 가능성을 지닙니다. 단순히 시각적 콘텐츠를 생성하는 것에 비해, UM을 활용한 교차 양식 간 연계 추론은 더욱 유망하고 가치 있는 분야입니다. 예를 들어, 집중적인 시각적 사고를 요구하는 이해 문제 해결, 자기 반성을 통한 시각 생성 개선, 또는 단계적 행동 개입에 기반한 물리 세계의 시각적 역동성 모델링 등이 그 대표적 사례입니다. 그러나 기존 UM들은 시각 이해와 생성을 위한 표현이 분리되어 있어 픽셀 디코딩을 매개체로 필요로 하며, 이는 비효율적이고 비효과적입니다. 본 논문에서는 모든 모달리티를 공유 의미 잠재 공간 내에서 표현함으로써 시각 이해와 생성 간 픽셀 공간 중재를 제거한 새로운 통합 모델인 LatentUM을 소개합니다. 이러한 설계는 유연한 교차 양식 간 연계 추론과 생성을 자연스럽게 가능하게 합니다. 개선된 계산 효율성 외에도, 공유 표현은 코덱 편향을 상당히 완화하고 교차 양식 정렬을 강화하여 LatentUM이 Visual Spatial Planning 벤치마크에서 최첨단 성능을 달성하게 하며, 자기 반성을 통한 시각 생성의 한계를 확장하고, 공유 의미 잠재 공간 내에서 미래 시각 상태를 예측함으로써 세계 모델링을 지원합니다.
English
Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.