ChatPaper.aiChatPaper

DreamBench++: Um Benchmark Alinhado com Humanos para Geração de Imagens Personalizadas

DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation

June 24, 2024
Autores: Yuang Peng, Yuxin Cui, Haomiao Tang, Zekun Qi, Runpei Dong, Jing Bai, Chunrui Han, Zheng Ge, Xiangyu Zhang, Shu-Tao Xia
cs.AI

Resumo

A geração de imagens personalizadas tem grande potencial para auxiliar os humanos em seu trabalho e vida cotidiana devido à sua impressionante capacidade de gerar conteúdo personalizado de forma criativa. No entanto, as avaliações atuais são automatizadas, mas não estão alinhadas com os humanos, ou exigem avaliações humanas que são demoradas e dispendiosas. Neste trabalho, apresentamos o DreamBench++, um benchmark alinhado com humanos automatizado por modelos GPT multimodais avançados. Especificamente, projetamos sistematicamente os estímulos para permitir que o GPT seja tanto alinhado com humanos quanto consigo mesmo, potencializado com reforço de tarefas. Além disso, construímos um conjunto de dados abrangente composto por imagens e estímulos diversos. Ao avaliar 7 modelos generativos modernos, demonstramos que o DreamBench++ resulta em avaliações significativamente mais alinhadas com humanos, ajudando a impulsionar a comunidade com descobertas inovadoras.
English
Personalized image generation holds great promise in assisting humans in everyday work and life due to its impressive function in creatively generating personalized content. However, current evaluations either are automated but misalign with humans or require human evaluations that are time-consuming and expensive. In this work, we present DreamBench++, a human-aligned benchmark automated by advanced multimodal GPT models. Specifically, we systematically design the prompts to let GPT be both human-aligned and self-aligned, empowered with task reinforcement. Further, we construct a comprehensive dataset comprising diverse images and prompts. By benchmarking 7 modern generative models, we demonstrate that DreamBench++ results in significantly more human-aligned evaluation, helping boost the community with innovative findings.
PDF584November 29, 2024