ORES: Sintesi Visiva Responsabile a Vocabolario Aperto

Abstract

Evitare la sintesi di specifici concetti visivi rappresenta una sfida essenziale nella sintesi visiva responsabile. Tuttavia, il concetto visivo che deve essere evitato per una sintesi visiva responsabile tende a essere diverso, a seconda della regione, del contesto e degli scenari di utilizzo. In questo lavoro, formalizziamo un nuovo compito, la Sintesi Visiva Responsabile a Vocabolario Aperto (ORES), in cui il modello di sintesi è in grado di evitare concetti visivi proibiti consentendo agli utenti di inserire qualsiasi contenuto desiderato. Per affrontare questo problema, presentiamo un framework di Intervento in Due Fasi (TIN). Introducendo 1) la riscrittura con istruzioni apprendibili attraverso un modello linguistico su larga scala (LLM) e 2) la sintesi con intervento sui prompt in un modello di sintesi basato su diffusione, è possibile sintetizzare efficacemente immagini evitando qualsiasi concetto indesiderato, seguendo il più possibile la query dell'utente. Per valutare ORES, forniamo un dataset disponibile pubblicamente, modelli di base e un benchmark. I risultati sperimentali dimostrano l'efficacia del nostro metodo nel ridurre i rischi nella generazione di immagini. Il nostro lavoro evidenzia il potenziale degli LLM nella sintesi visiva responsabile. Il nostro codice e il dataset sono disponibili pubblicamente.

English

Avoiding synthesizing specific visual concepts is an essential challenge in responsible visual synthesis. However, the visual concept that needs to be avoided for responsible visual synthesis tends to be diverse, depending on the region, context, and usage scenarios. In this work, we formalize a new task, Open-vocabulary Responsible Visual Synthesis (ORES), where the synthesis model is able to avoid forbidden visual concepts while allowing users to input any desired content. To address this problem, we present a Two-stage Intervention (TIN) framework. By introducing 1) rewriting with learnable instruction through a large-scale language model (LLM) and 2) synthesizing with prompt intervention on a diffusion synthesis model, it can effectively synthesize images avoiding any concepts but following the user's query as much as possible. To evaluate on ORES, we provide a publicly available dataset, baseline models, and benchmark. Experimental results demonstrate the effectiveness of our method in reducing risks of image generation. Our work highlights the potential of LLMs in responsible visual synthesis. Our code and dataset is public available.

ORES: Sintesi Visiva Responsabile a Vocabolario Aperto

ORES: Open-vocabulary Responsible Visual Synthesis

Abstract

Support