ChatPaper.aiChatPaper

나노 바나나 프로는 저수준 비전 올라운더인가? 14개 작업과 40개 데이터셋에 대한 종합적 평가

Is Nano Banana Pro a Low-Level Vision All-Rounder? A Comprehensive Evaluation on 14 Tasks and 40 Datasets

December 17, 2025
저자: Jialong Zuo, Haoyou Deng, Hanyu Zhou, Jiaxin Zhu, Yicheng Zhang, Yiwei Zhang, Yongxin Yan, Kaixing Huang, Weisen Chen, Yongtai Deng, Rui Jin, Nong Sang, Changxin Gao
cs.AI

초록

텍스트-이미지 생성 모델의 급속한 발전은 시각 콘텐츠 제작에 혁명을 가져왔습니다. Nano Banana Pro와 같은 상용 제품이 상당한 관심을 받았지만, 전통적인 저수준 컴퓨터 비전(low-level vision) 과제에 대한 범용 솔루션(generalist solver)으로서의 잠재력은 여전히 크게 탐구되지 않았습니다. 본 연구에서는 'Nano Banana Pro는 저수준 비전 올라운더(All-Rounder)인가?'라는 핵심 질문을 탐구합니다. 우리는 40개의 다양한 데이터셋에 걸친 14개의 distinct한 저수준 작업에 대한 포괄적인 제로샷(zero-shot) 평가를 수행했습니다. 미세 조정(fine-tuning) 없이 간단한 텍스트 프롬프트(prompt)를 활용하여, Nano Banana Pro를 최첨단 전문(specialist) 모델들과 비교 평가했습니다. 우리의 광범위한 분석은 뚜렷한 성능 이분법(dichotomy)을 보여줍니다: Nano Banana Pro는 우수한 주관적 시각 질감을 보여주며, 전문 모델을 능가하는 그럴듯한 고주파수 세부 사항(high-frequency details)을 종종 생성(hallucinating)하지만, 전통적인 참조 기반(reference-based) 정량적 지표에서는 뒤처집니다. 우리는 이러한 불일치를 생성 모델의 내재적 확률론적 특성(inherent stochasticity)으로 귀인합니다. 이 특성은 기존 지표들이 요구하는 엄격한 픽셀 수준 일관성(pixel-level consistency)을 유지하는 데 어려움을 겪기 때문입니다. 본 보고서는 Nano Banana Pro가 저수준 비전 작업에 유능한 제로샷 경쟁자임을 확인하는 동시에, 해당 분야 전문 모델들의 높은 정확도(fidelity)를 달성하는 것은 여전히 큰 과제로 남아 있음을 강조합니다.
English
The rapid evolution of text-to-image generation models has revolutionized visual content creation. While commercial products like Nano Banana Pro have garnered significant attention, their potential as generalist solvers for traditional low-level vision challenges remains largely underexplored. In this study, we investigate the critical question: Is Nano Banana Pro a Low-Level Vision All-Rounder? We conducted a comprehensive zero-shot evaluation across 14 distinct low-level tasks spanning 40 diverse datasets. By utilizing simple textual prompts without fine-tuning, we benchmarked Nano Banana Pro against state-of-the-art specialist models. Our extensive analysis reveals a distinct performance dichotomy: while Nano Banana Pro demonstrates superior subjective visual quality, often hallucinating plausible high-frequency details that surpass specialist models, it lags behind in traditional reference-based quantitative metrics. We attribute this discrepancy to the inherent stochasticity of generative models, which struggle to maintain the strict pixel-level consistency required by conventional metrics. This report identifies Nano Banana Pro as a capable zero-shot contender for low-level vision tasks, while highlighting that achieving the high fidelity of domain specialists remains a significant hurdle.
PDF52December 19, 2025