Ver y Corregir los Defectos: Permitir que los Modelos de Lenguaje Visual y los Modelos de Difusión Comprendan los Artefactos Visuales mediante la Síntesis de Datos Agéntica

Resumen

A pesar de los recientes avances en los modelos de difusión, las imágenes generadas por IA aún suelen contener artefactos visuales que comprometen el realismo. Aunque un preentrenamiento más exhaustivo y modelos más grandes podrían reducir los artefactos, no hay garantía de que puedan eliminarse por completo, lo que convierte a la mitigación de artefactos en un área de estudio crucial. Las metodologías previas conscientes de los artefactos dependen de conjuntos de datos etiquetados manualmente, los cuales son costosos y difíciles de escalar, subrayando la necesidad de un enfoque automatizado para adquirir de manera confiable conjuntos de datos anotados con artefactos. En este artículo, proponemos ArtiAgent, que crea eficientemente pares de imágenes reales e imágenes con artefactos inyectados. Comprende tres agentes: un agente de percepción que reconoce y localiza entidades y subentidades en imágenes reales, un agente de síntesis que introduce artefactos mediante herramientas de inyección a través de una novedosa manipulación de embeddings por parches dentro de un transformer de difusión, y un agente de curación que filtra los artefactos sintetizados y genera explicaciones tanto locales como globales para cada instancia. Utilizando ArtiAgent, sintetizamos 100.000 imágenes con anotaciones ricas en artefactos y demostramos tanto eficacia como versatilidad en diversas aplicaciones. El código está disponible en el enlace.

English

Despite recent advances in diffusion models, AI generated images still often contain visual artifacts that compromise realism. Although more thorough pre-training and bigger models might reduce artifacts, there is no assurance that they can be completely eliminated, which makes artifact mitigation a highly crucial area of study. Previous artifact-aware methodologies depend on human-labeled artifact datasets, which are costly and difficult to scale, underscoring the need for an automated approach to reliably acquire artifact-annotated datasets. In this paper, we propose ArtiAgent, which efficiently creates pairs of real and artifact-injected images. It comprises three agents: a perception agent that recognizes and grounds entities and subentities from real images, a synthesis agent that introduces artifacts via artifact injection tools through novel patch-wise embedding manipulation within a diffusion transformer, and a curation agent that filters the synthesized artifacts and generates both local and global explanations for each instance. Using ArtiAgent, we synthesize 100K images with rich artifact annotations and demonstrate both efficacy and versatility across diverse applications. Code is available at link.

Ver y Corregir los Defectos: Permitir que los Modelos de Lenguaje Visual y los Modelos de Difusión Comprendan los Artefactos Visuales mediante la Síntesis de Datos Agéntica

See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

Resumen

Support