ChatPaper.aiChatPaper

이미지 생성과 이해를 통합했는가? GPT-4o의 이미지 생성 능력에 대한 실증적 연구

Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

April 9, 2025
저자: Ning Li, Jingran Zhang, Justin Cui
cs.AI

초록

OpenAI의 멀티모달 GPT-4o는 이미지 생성 및 편집에서 놀라운 능력을 보여주었지만, 도메인 지식, 맥락적 추론, 그리고 지시 사항 준수를 원활하게 통합하는 세계 지식 기반 의미론적 합성 능력은 아직 입증되지 않았다. 본 연구에서는 이러한 능력을 세 가지 중요한 차원에서 체계적으로 평가한다: (1) 전역적 지시 사항 준수, (2) 세밀한 편집 정확도, (3) 생성 후 추론. 기존 벤치마크가 GPT-4o의 이미지 생성 및 편집에서의 강력한 능력을 강조하지만, 우리의 평가는 GPT-4o의 지속적인 한계를 드러낸다: 이 모델은 지시 사항을 문자 그대로 해석하는 경우가 많고, 지식 제약을 일관되게 적용하지 못하며, 조건부 추론 작업에서 어려움을 겪는다. 이러한 발견은 GPT-4o의 통합적 이해 및 생성 능력에 대한 기존의 가정에 도전하며, 동적 지식 통합에서의 상당한 격차를 드러낸다. 본 연구는 표면적 정렬을 넘어서는 더 강력한 벤치마크와 훈련 전략의 개발을 요구하며, 맥락 인식 및 추론 기반의 멀티모달 생성에 중점을 둘 것을 강조한다.
English
OpenAI's multimodal GPT-4o has demonstrated remarkable capabilities in image generation and editing, yet its ability to achieve world knowledge-informed semantic synthesis--seamlessly integrating domain knowledge, contextual reasoning, and instruction adherence--remains unproven. In this study, we systematically evaluate these capabilities across three critical dimensions: (1) Global Instruction Adherence, (2) Fine-Grained Editing Precision, and (3) Post-Generation Reasoning. While existing benchmarks highlight GPT-4o's strong capabilities in image generation and editing, our evaluation reveals GPT-4o's persistent limitations: the model frequently defaults to literal interpretations of instructions, inconsistently applies knowledge constraints, and struggles with conditional reasoning tasks. These findings challenge prevailing assumptions about GPT-4o's unified understanding and generation capabilities, exposing significant gaps in its dynamic knowledge integration. Our study calls for the development of more robust benchmarks and training strategies that go beyond surface-level alignment, emphasizing context-aware and reasoning-grounded multimodal generation.

Summary

AI-Generated Summary

PDF492April 15, 2025