ChatPaper.aiChatPaper

DreamBench++: Een Mensgericht Benchmark voor Gepersonaliseerde Beeldgeneratie

DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation

June 24, 2024
Auteurs: Yuang Peng, Yuxin Cui, Haomiao Tang, Zekun Qi, Runpei Dong, Jing Bai, Chunrui Han, Zheng Ge, Xiangyu Zhang, Shu-Tao Xia
cs.AI

Samenvatting

Gepersonaliseerde beeldgeneratie belooft veel in het ondersteunen van mensen in het dagelijkse werk en leven vanwege zijn indrukwekkende functie in het creatief genereren van gepersonaliseerde content. Huidige evaluaties zijn echter ofwel geautomatiseerd maar niet afgestemd op mensen, of vereisen menselijke evaluaties die tijdrovend en kostbaar zijn. In dit werk presenteren we DreamBench++, een op mensen afgestemde benchmark geautomatiseerd door geavanceerde multimodale GPT-modellen. Specifiek ontwerpen we systematisch de prompts om GPT zowel op mensen als op zichzelf af te stemmen, versterkt met taakversterking. Verder construeren we een uitgebreide dataset bestaande uit diverse afbeeldingen en prompts. Door 7 moderne generatieve modellen te benchmarken, tonen we aan dat DreamBench++ resulteert in een aanzienlijk meer op mensen afgestemde evaluatie, wat de gemeenschap helpt te stimuleren met innovatieve bevindingen.
English
Personalized image generation holds great promise in assisting humans in everyday work and life due to its impressive function in creatively generating personalized content. However, current evaluations either are automated but misalign with humans or require human evaluations that are time-consuming and expensive. In this work, we present DreamBench++, a human-aligned benchmark automated by advanced multimodal GPT models. Specifically, we systematically design the prompts to let GPT be both human-aligned and self-aligned, empowered with task reinforcement. Further, we construct a comprehensive dataset comprising diverse images and prompts. By benchmarking 7 modern generative models, we demonstrate that DreamBench++ results in significantly more human-aligned evaluation, helping boost the community with innovative findings.
PDF574January 31, 2026