ChatPaper.aiChatPaper

ORES: Síntesis Visual Responsable de Vocabulario Abierto

ORES: Open-vocabulary Responsible Visual Synthesis

August 26, 2023
Autores: Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang, Zicheng Liu, Nan Duan
cs.AI

Resumen

Evitar la síntesis de conceptos visuales específicos es un desafío esencial en la síntesis visual responsable. Sin embargo, el concepto visual que debe evitarse para una síntesis visual responsable tiende a ser diverso, dependiendo de la región, el contexto y los escenarios de uso. En este trabajo, formalizamos una nueva tarea, la Síntesis Visual Responsable de Vocabulario Abierto (ORES, por sus siglas en inglés), donde el modelo de síntesis es capaz de evitar conceptos visuales prohibidos mientras permite a los usuarios ingresar cualquier contenido deseado. Para abordar este problema, presentamos un marco de Intervención en Dos Etapas (TIN, por sus siglas en inglés). Al introducir 1) la reescritura con instrucciones aprendibles a través de un modelo de lenguaje a gran escala (LLM) y 2) la síntesis con intervención de prompts en un modelo de síntesis basado en difusión, se puede sintetizar imágenes de manera efectiva evitando cualquier concepto prohibido, pero siguiendo la consulta del usuario tanto como sea posible. Para evaluar ORES, proporcionamos un conjunto de datos disponible públicamente, modelos de referencia y un punto de comparación. Los resultados experimentales demuestran la efectividad de nuestro método para reducir los riesgos en la generación de imágenes. Nuestro trabajo destaca el potencial de los LLM en la síntesis visual responsable. Nuestro código y conjunto de datos están disponibles públicamente.
English
Avoiding synthesizing specific visual concepts is an essential challenge in responsible visual synthesis. However, the visual concept that needs to be avoided for responsible visual synthesis tends to be diverse, depending on the region, context, and usage scenarios. In this work, we formalize a new task, Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model is able to avoid forbidden visual concepts while allowing users to input any desired content. To address this problem, we present a Two-stage Intervention (TIN) framework. By introducing 1) rewriting with learnable instruction through a large-scale language model (LLM) and 2) synthesizing with prompt intervention on a diffusion synthesis model, it can effectively synthesize images avoiding any concepts but following the user's query as much as possible. To evaluate on ORES, we provide a publicly available dataset, baseline models, and benchmark. Experimental results demonstrate the effectiveness of our method in reducing risks of image generation. Our work highlights the potential of LLMs in responsible visual synthesis. Our code and dataset is public available.
PDF70December 15, 2024