Is Nano Banana Pro een allrounder voor laagvisie? Een uitgebreide evaluatie op 14 taken en 40 datasets
Is Nano Banana Pro a Low-Level Vision All-Rounder? A Comprehensive Evaluation on 14 Tasks and 40 Datasets
December 17, 2025
Auteurs: Jialong Zuo, Haoyou Deng, Hanyu Zhou, Jiaxin Zhu, Yicheng Zhang, Yiwei Zhang, Yongxin Yan, Kaixing Huang, Weisen Chen, Yongtai Deng, Rui Jin, Nong Sang, Changxin Gao
cs.AI
Samenvatting
De snelle evolutie van tekst-naar-beeldgeneratiemodellen heeft een revolutie teweeggebracht in de creatie van visuele content. Hoewel commerciële producten zoals de Nano Banana Pro aanzienlijke aandacht hebben gekregen, blijft hun potentieel als generalistische oplossers voor traditionele low-level visuele uitdagingen grotendeels onontgonnen. In deze studie onderzoeken we de kritische vraag: Is de Nano Banana Pro een Allrounder voor Low-Level Vision? We voerden een uitgebreide zero-shot evaluatie uit over 14 verschillende low-level taken, verspreid over 40 uiteenlopende datasets. Door eenvoudige tekstuele prompts te gebruiken zonder fine-tuning, vergeleken we de Nano Banana Pro met state-of-the-art gespecialiseerde modellen. Onze uitgebreide analyse onthult een duidelijke prestatie-dichotomie: hoewel de Nano Banana Pro superieure subjectieve visuele kwaliteit demonstreert en vaak geloofwaardige hoogfrequente details hallucineert die gespecialiseerde modellen overtreffen, blijft het achter op traditionele, op referentie gebaseerde kwantitatieve metrieken. Wij schrijven deze discrepantie toe aan de inherente stochasticiteit van generatieve modellen, die moeite hebben om de strikte pixelconsistentie te handhaven die door conventionele metrieken wordt vereist. Dit rapport identificeert de Nano Banana Pro als een capabele zero-shot kandidaat voor low-level visietaken, maar benadrukt tegelijkertijd dat het bereiken van de hoge nauwkeurigheid van domeinspecialisten een aanzienlijke horde blijft.
English
The rapid evolution of text-to-image generation models has revolutionized visual content creation. While commercial products like Nano Banana Pro have garnered significant attention, their potential as generalist solvers for traditional low-level vision challenges remains largely underexplored. In this study, we investigate the critical question: Is Nano Banana Pro a Low-Level Vision All-Rounder? We conducted a comprehensive zero-shot evaluation across 14 distinct low-level tasks spanning 40 diverse datasets. By utilizing simple textual prompts without fine-tuning, we benchmarked Nano Banana Pro against state-of-the-art specialist models. Our extensive analysis reveals a distinct performance dichotomy: while Nano Banana Pro demonstrates superior subjective visual quality, often hallucinating plausible high-frequency details that surpass specialist models, it lags behind in traditional reference-based quantitative metrics. We attribute this discrepancy to the inherent stochasticity of generative models, which struggle to maintain the strict pixel-level consistency required by conventional metrics. This report identifies Nano Banana Pro as a capable zero-shot contender for low-level vision tasks, while highlighting that achieving the high fidelity of domain specialists remains a significant hurdle.