ChatPaper.aiChatPaper

ORES: Open-vocabulary Verantwoorde Visuele Synthese

ORES: Open-vocabulary Responsible Visual Synthesis

August 26, 2023
Auteurs: Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang, Zicheng Liu, Nan Duan
cs.AI

Samenvatting

Het vermijden van het synthetiseren van specifieke visuele concepten is een essentiële uitdaging in verantwoorde visuele synthese. Het visuele concept dat vermeden moet worden voor verantwoorde visuele synthese, is echter vaak divers en hangt af van de regio, context en gebruiksscenario's. In dit werk formaliseren we een nieuwe taak, Open-vocabulary Responsible Visual Synthesis (ORES), waarbij het synthese-model in staat is verboden visuele concepten te vermijden, terwijl gebruikers elke gewenste inhoud kunnen invoeren. Om dit probleem aan te pakken, presenteren we een Two-stage Intervention (TIN) raamwerk. Door 1) herschrijven met leerbare instructies via een grootschalig taalmodel (LLM) en 2) synthetiseren met promptinterventie op een diffusiesynthesemodel te introduceren, kan het effectief afbeeldingen synthetiseren die elk concept vermijden, maar de query van de gebruiker zoveel mogelijk volgen. Om ORES te evalueren, bieden we een openbaar beschikbare dataset, basismodellen en een benchmark. Experimentele resultaten tonen de effectiviteit van onze methode aan in het verminderen van risico's bij beeldgeneratie. Ons werk benadrukt het potentieel van LLM's in verantwoorde visuele synthese. Onze code en dataset zijn openbaar beschikbaar.
English
Avoiding synthesizing specific visual concepts is an essential challenge in responsible visual synthesis. However, the visual concept that needs to be avoided for responsible visual synthesis tends to be diverse, depending on the region, context, and usage scenarios. In this work, we formalize a new task, Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model is able to avoid forbidden visual concepts while allowing users to input any desired content. To address this problem, we present a Two-stage Intervention (TIN) framework. By introducing 1) rewriting with learnable instruction through a large-scale language model (LLM) and 2) synthesizing with prompt intervention on a diffusion synthesis model, it can effectively synthesize images avoiding any concepts but following the user's query as much as possible. To evaluate on ORES, we provide a publicly available dataset, baseline models, and benchmark. Experimental results demonstrate the effectiveness of our method in reducing risks of image generation. Our work highlights the potential of LLMs in responsible visual synthesis. Our code and dataset is public available.
PDF80February 22, 2026