ORES: Open-vocabulary Verantwoorde Visuele Synthese
ORES: Open-vocabulary Responsible Visual Synthesis
August 26, 2023
Auteurs: Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang, Zicheng Liu, Nan Duan
cs.AI
Samenvatting
Het vermijden van het synthetiseren van specifieke visuele concepten is een essentiële uitdaging in verantwoorde visuele synthese. Het visuele concept dat vermeden moet worden voor verantwoorde visuele synthese, is echter vaak divers en hangt af van de regio, context en gebruiksscenario's. In dit werk formaliseren we een nieuwe taak, Open-vocabulary Responsible Visual Synthesis (ORES), waarbij het synthese-model in staat is verboden visuele concepten te vermijden, terwijl gebruikers elke gewenste inhoud kunnen invoeren. Om dit probleem aan te pakken, presenteren we een Two-stage Intervention (TIN) raamwerk. Door 1) herschrijven met leerbare instructies via een grootschalig taalmodel (LLM) en 2) synthetiseren met promptinterventie op een diffusiesynthesemodel te introduceren, kan het effectief afbeeldingen synthetiseren die elk concept vermijden, maar de query van de gebruiker zoveel mogelijk volgen. Om ORES te evalueren, bieden we een openbaar beschikbare dataset, basismodellen en een benchmark. Experimentele resultaten tonen de effectiviteit van onze methode aan in het verminderen van risico's bij beeldgeneratie. Ons werk benadrukt het potentieel van LLM's in verantwoorde visuele synthese. Onze code en dataset zijn openbaar beschikbaar.
English
Avoiding synthesizing specific visual concepts is an essential challenge in
responsible visual synthesis. However, the visual concept that needs to be
avoided for responsible visual synthesis tends to be diverse, depending on the
region, context, and usage scenarios. In this work, we formalize a new task,
Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model
is able to avoid forbidden visual concepts while allowing users to input any
desired content. To address this problem, we present a Two-stage Intervention
(TIN) framework. By introducing 1) rewriting with learnable instruction through
a large-scale language model (LLM) and 2) synthesizing with prompt intervention
on a diffusion synthesis model, it can effectively synthesize images avoiding
any concepts but following the user's query as much as possible. To evaluate on
ORES, we provide a publicly available dataset, baseline models, and benchmark.
Experimental results demonstrate the effectiveness of our method in reducing
risks of image generation. Our work highlights the potential of LLMs in
responsible visual synthesis. Our code and dataset is public available.