DreamBench++: Ein an den Menschen ausgerichteter Benchmark für personalisierte Bildgenerierung

Zusammenfassung

Die personalisierte Bildgenerierung birgt großes Potenzial, um Menschen in ihrem täglichen Arbeits- und Lebensumfeld zu unterstützen, aufgrund ihrer beeindruckenden Fähigkeit, personalisierte Inhalte kreativ zu generieren. Allerdings sind aktuelle Bewertungsmethoden entweder automatisiert, aber nicht mit menschlichen Bewertungen übereinstimmend, oder erfordern menschliche Bewertungen, die zeitaufwändig und kostspielig sind. In dieser Arbeit präsentieren wir DreamBench++, einen an menschlichen Maßstäben ausgerichteten Benchmark, der durch fortschrittliche multimodale GPT-Modelle automatisiert wird. Konkret gestalten wir systematisch die Aufforderungen, um GPT sowohl an menschlichen als auch an selbst ausgerichteten Maßstäben auszurichten, gestärkt durch Aufgabenerfüllung. Darüber hinaus erstellen wir einen umfassenden Datensatz, der verschiedene Bilder und Aufforderungen umfasst. Durch den Vergleich von 7 modernen generativen Modellen zeigen wir, dass DreamBench++ zu signifikant mehr an menschlichen Maßstäben ausgerichteten Bewertungen führt und der Gemeinschaft mit innovativen Erkenntnissen zugutekommt.

English

Personalized image generation holds great promise in assisting humans in everyday work and life due to its impressive function in creatively generating personalized content. However, current evaluations either are automated but misalign with humans or require human evaluations that are time-consuming and expensive. In this work, we present DreamBench++, a human-aligned benchmark automated by advanced multimodal GPT models. Specifically, we systematically design the prompts to let GPT be both human-aligned and self-aligned, empowered with task reinforcement. Further, we construct a comprehensive dataset comprising diverse images and prompts. By benchmarking 7 modern generative models, we demonstrate that DreamBench++ results in significantly more human-aligned evaluation, helping boost the community with innovative findings.