새로운 시대의 시각적 생성: 원자적 매핑에서 에이전트적 세계 모델링으로의 진화
Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
April 30, 2026
저자: Keming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang, Sudong Wang, Ziting Wang, Zili Wang, Hui Zhang, Haonan Wang, Hang Zhou, Yifan Pu, Xingxuan Li, Fangneng Zhan, Bo Li, Lidong Bing, Yuxin Song, Ziwei Liu, Wenhu Chen, Jingdong Wang, Xinchao Wang, Xiaojuan Qi, Shijian Lu, Bin Wang
cs.AI
초록
최근 시각 생성 모델은 사실성, 타이포그래피, 지시 따르기, 대화형 편집에서 큰 진전을 이루었으나 여전히 공간 추론, 지속적 상태, 장기적 일관성, 인과 관계 이해에 어려움을 겪고 있습니다. 우리는 해당 분야가 외관 합성을 넘어 지능형 시각 생성으로 나아가야 한다고 주장합니다. 즉, 구조, 역학, 도메인 지식, 인과 관계에 기반한 합리적인 시각 자료를 의미합니다. 이러한 전환을 규정하기 위해 우리는 수동 렌더러에서 대화형, 에이전시적, 세계 인식 생성기로 발전하는 다섯 단계 분류 체계를 제안합니다: 원자 생성, 조건부 생성, 맥락 내 생성, 에이전시 생성, 세계 모델링 생성. 우리는 흐름 정합, 통합 이해-생성 모델, 개선된 시각 표현, 사후 훈련, 보상 모델링, 데이터 큐레이션, 합성 데이터 정제, 샘플링 가속화 등 주요 기술 동인을 분석합니다. 더 나아가 현재 평가 방법이 지각적 품질을 강조하는 반면 구조적, 시간적, 인과적 실패를 간과함으로써 진전을 과대평가하는 경우가 많음을 보여줍니다. 벤치마크 검토, 실제 환경 스트레스 테스트, 전문가 제약 사례 연구를 결합함으로써 이 로드맵은 차세대 지능형 시각 생성 시스템을 이해, 평가, 발전시키기 위한 능력 중심의 관점을 제시합니다.
English
Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.