ORES: Verantwortungsvolle visuelle Synthese mit offenem Vokabular
ORES: Open-vocabulary Responsible Visual Synthesis
August 26, 2023
Autoren: Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang, Zicheng Liu, Nan Duan
cs.AI
Zusammenfassung
Die Vermeidung der Synthese spezifischer visueller Konzepte stellt eine wesentliche Herausforderung in der verantwortungsvollen visuellen Synthese dar. Allerdings sind die visuellen Konzepte, die für eine verantwortungsvolle visuelle Synthese vermieden werden müssen, tendenziell vielfältig und hängen von der Region, dem Kontext und den Nutzungsszenarien ab. In dieser Arbeit formalisieren wir eine neue Aufgabe, die Open-vocabulary Responsible Visual Synthesis (ORES), bei der das Synthesemodell in der Lage ist, verbotene visuelle Konzepte zu vermeiden, während es den Nutzern ermöglicht, beliebige Inhalte einzugeben. Um dieses Problem zu lösen, präsentieren wir ein Zwei-Stufen-Interventionsframework (Two-stage Intervention, TIN). Durch die Einführung von 1) Umformulierung mit lernbaren Anweisungen über ein großes Sprachmodell (Large-scale Language Model, LLM) und 2) Synthese mit Eingriffs-Prompts auf einem Diffusionssynthesemodell kann es effektiv Bilder synthetisieren, die alle Konzepte vermeiden, aber die Anfrage des Nutzers so weit wie möglich berücksichtigen. Zur Bewertung von ORES stellen wir einen öffentlich verfügbaren Datensatz, Basismodelle und einen Benchmark bereit. Experimentelle Ergebnisse demonstrieren die Effektivität unserer Methode bei der Reduzierung von Risiken in der Bildgenerierung. Unsere Arbeit unterstreicht das Potenzial von LLMs in der verantwortungsvollen visuellen Synthese. Unser Code und Datensatz sind öffentlich zugänglich.
English
Avoiding synthesizing specific visual concepts is an essential challenge in
responsible visual synthesis. However, the visual concept that needs to be
avoided for responsible visual synthesis tends to be diverse, depending on the
region, context, and usage scenarios. In this work, we formalize a new task,
Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model
is able to avoid forbidden visual concepts while allowing users to input any
desired content. To address this problem, we present a Two-stage Intervention
(TIN) framework. By introducing 1) rewriting with learnable instruction through
a large-scale language model (LLM) and 2) synthesizing with prompt intervention
on a diffusion synthesis model, it can effectively synthesize images avoiding
any concepts but following the user's query as much as possible. To evaluate on
ORES, we provide a publicly available dataset, baseline models, and benchmark.
Experimental results demonstrate the effectiveness of our method in reducing
risks of image generation. Our work highlights the potential of LLMs in
responsible visual synthesis. Our code and dataset is public available.