ORES: Síntesis Visual Responsable de Vocabulario Abierto
ORES: Open-vocabulary Responsible Visual Synthesis
August 26, 2023
Autores: Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang, Zicheng Liu, Nan Duan
cs.AI
Resumen
Evitar la síntesis de conceptos visuales específicos es un desafío esencial en la síntesis visual responsable. Sin embargo, el concepto visual que debe evitarse para una síntesis visual responsable tiende a ser diverso, dependiendo de la región, el contexto y los escenarios de uso. En este trabajo, formalizamos una nueva tarea, la Síntesis Visual Responsable de Vocabulario Abierto (ORES, por sus siglas en inglés), donde el modelo de síntesis es capaz de evitar conceptos visuales prohibidos mientras permite a los usuarios ingresar cualquier contenido deseado. Para abordar este problema, presentamos un marco de Intervención en Dos Etapas (TIN, por sus siglas en inglés). Al introducir 1) la reescritura con instrucciones aprendibles a través de un modelo de lenguaje a gran escala (LLM) y 2) la síntesis con intervención de prompts en un modelo de síntesis basado en difusión, se puede sintetizar imágenes de manera efectiva evitando cualquier concepto prohibido, pero siguiendo la consulta del usuario tanto como sea posible. Para evaluar ORES, proporcionamos un conjunto de datos disponible públicamente, modelos de referencia y un punto de comparación. Los resultados experimentales demuestran la efectividad de nuestro método para reducir los riesgos en la generación de imágenes. Nuestro trabajo destaca el potencial de los LLM en la síntesis visual responsable. Nuestro código y conjunto de datos están disponibles públicamente.
English
Avoiding synthesizing specific visual concepts is an essential challenge in
responsible visual synthesis. However, the visual concept that needs to be
avoided for responsible visual synthesis tends to be diverse, depending on the
region, context, and usage scenarios. In this work, we formalize a new task,
Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model
is able to avoid forbidden visual concepts while allowing users to input any
desired content. To address this problem, we present a Two-stage Intervention
(TIN) framework. By introducing 1) rewriting with learnable instruction through
a large-scale language model (LLM) and 2) synthesizing with prompt intervention
on a diffusion synthesis model, it can effectively synthesize images avoiding
any concepts but following the user's query as much as possible. To evaluate on
ORES, we provide a publicly available dataset, baseline models, and benchmark.
Experimental results demonstrate the effectiveness of our method in reducing
risks of image generation. Our work highlights the potential of LLMs in
responsible visual synthesis. Our code and dataset is public available.