ORES: Verantwortungsvolle visuelle Synthese mit offenem Vokabular

papers.abstract

Die Vermeidung der Synthese spezifischer visueller Konzepte stellt eine wesentliche Herausforderung in der verantwortungsvollen visuellen Synthese dar. Allerdings sind die visuellen Konzepte, die für eine verantwortungsvolle visuelle Synthese vermieden werden müssen, tendenziell vielfältig und hängen von der Region, dem Kontext und den Nutzungsszenarien ab. In dieser Arbeit formalisieren wir eine neue Aufgabe, die Open-vocabulary Responsible Visual Synthesis (ORES), bei der das Synthesemodell in der Lage ist, verbotene visuelle Konzepte zu vermeiden, während es den Nutzern ermöglicht, beliebige Inhalte einzugeben. Um dieses Problem zu lösen, präsentieren wir ein Zwei-Stufen-Interventionsframework (Two-stage Intervention, TIN). Durch die Einführung von 1) Umformulierung mit lernbaren Anweisungen über ein großes Sprachmodell (Large-scale Language Model, LLM) und 2) Synthese mit Eingriffs-Prompts auf einem Diffusionssynthesemodell kann es effektiv Bilder synthetisieren, die alle Konzepte vermeiden, aber die Anfrage des Nutzers so weit wie möglich berücksichtigen. Zur Bewertung von ORES stellen wir einen öffentlich verfügbaren Datensatz, Basismodelle und einen Benchmark bereit. Experimentelle Ergebnisse demonstrieren die Effektivität unserer Methode bei der Reduzierung von Risiken in der Bildgenerierung. Unsere Arbeit unterstreicht das Potenzial von LLMs in der verantwortungsvollen visuellen Synthese. Unser Code und Datensatz sind öffentlich zugänglich.

English

Avoiding synthesizing specific visual concepts is an essential challenge in responsible visual synthesis. However, the visual concept that needs to be avoided for responsible visual synthesis tends to be diverse, depending on the region, context, and usage scenarios. In this work, we formalize a new task, Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model is able to avoid forbidden visual concepts while allowing users to input any desired content. To address this problem, we present a Two-stage Intervention (TIN) framework. By introducing 1) rewriting with learnable instruction through a large-scale language model (LLM) and 2) synthesizing with prompt intervention on a diffusion synthesis model, it can effectively synthesize images avoiding any concepts but following the user's query as much as possible. To evaluate on ORES, we provide a publicly available dataset, baseline models, and benchmark. Experimental results demonstrate the effectiveness of our method in reducing risks of image generation. Our work highlights the potential of LLMs in responsible visual synthesis. Our code and dataset is public available.

ORES: Verantwortungsvolle visuelle Synthese mit offenem Vokabular

ORES: Open-vocabulary Responsible Visual Synthesis

papers.abstract

Support