ChatPaper.aiChatPaper

이해 vs 생성: 멀티모달 모델의 최적화 딜레마 탐색

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

February 17, 2026
저자: Sen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang, Han Hu
cs.AI

초록

현재 멀티모달 모델 연구는 생성 능력 향상이 이해 능력의 저하를, 또는 그 반대의 상황을 초래하는 주요 과제에 직면해 있습니다. 우리는 이러한 상충 관계를 분석한 결과, 그 주요 원인이 생성과 이해 간의 잠재적 충돌, 즉 모델 내 경쟁적 역학 관계에 있을 수 있음을 확인했습니다. 이를 해결하기 위해 우리는 Reason-Reflect-Refine(R3) 프레임워크를 제안합니다. 이 혁신적인 알고리즘은 단일 단계 생성 과제를 '생성-이해-재생성'이라는 다단계 과정으로 재구성합니다. 생성 과정에서 모델의 이해 능력을 명시적으로 활용함으로써 최적화 딜레마를 성공적으로 완화하고, 더욱 강력한 생성 결과와 생성 과정과 연관된 이해 능력 향상을 동시에 달성했습니다. 이는 차세대 통합 멀티모달 모델 설계에 귀중한 통찰력을 제공합니다. 코드는 https://github.com/sen-ye/R3에서 확인할 수 있습니다.
English
Current research in multimodal models faces a key challenge where enhancing generative capabilities often comes at the expense of understanding, and vice versa. We analyzed this trade-off and identify the primary cause might be the potential conflict between generation and understanding, which creates a competitive dynamic within the model. To address this, we propose the Reason-Reflect-Refine (R3) framework. This innovative algorithm re-frames the single-step generation task into a multi-step process of "generate-understand-regenerate". By explicitly leveraging the model's understanding capability during generation, we successfully mitigate the optimization dilemma, achieved stronger generation results and improved understanding ability which are related to the generation process. This offers valuable insights for designing next-generation unified multimodal models. Code is available at https://github.com/sen-ye/R3.
PDF51February 19, 2026