Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en la generación de imágenes personalizadas utilizando modelos de difusión han sido significativos. Sin embargo, el desarrollo en el área de generación de imágenes personalizadas en dominios abiertos y sin ajuste fino está avanzando de manera bastante lenta. En este artículo, proponemos Subject-Diffusion, un novedoso modelo de generación de imágenes personalizadas en dominios abiertos que, además de no requerir ajuste fino en tiempo de prueba, también solo necesita una única imagen de referencia para respaldar la generación personalizada de uno o varios sujetos en cualquier dominio. En primer lugar, construimos una herramienta automática de etiquetado de datos y utilizamos el conjunto de datos LAION-Aesthetics para crear un conjunto de datos a gran escala que consta de 76 millones de imágenes junto con sus correspondientes cuadros delimitadores de detección de sujetos, máscaras de segmentación y descripciones textuales. En segundo lugar, diseñamos un nuevo marco unificado que combina la semántica de texto e imagen mediante la incorporación de controles de ubicación aproximada y de imagen de referencia detallada para maximizar la fidelidad del sujeto y la generalización. Además, también adoptamos un mecanismo de control de atención para respaldar la generación de múltiples sujetos. Los resultados cualitativos y cuantitativos extensivos demuestran que nuestro método supera a otros marcos de última generación en la generación de imágenes personalizadas individuales, múltiples y humanas. Consulte nuestra {página del proyecto} en https://oppo-mente-lab.github.io/subject_diffusion/.
Los Campos de Radiancia Neural (NeRF) tienen el potencial de convertirse en una representación principal de medios. Dado que entrenar un NeRF nunca ha sido una tarea sencilla, la protección de los derechos de autor de su modelo debería ser una prioridad. En este artículo, al analizar los pros y los contras de las posibles soluciones de protección de derechos de autor, proponemos proteger los derechos de autor de los modelos NeRF reemplazando la representación de color original en NeRF con una representación de color con marca de agua. Luego, se diseña un esquema de renderizado resistente a distorsiones para garantizar una extracción robusta de mensajes en las representaciones 2D de NeRF. Nuestro método propuesto puede proteger directamente los derechos de autor de los modelos NeRF mientras mantiene una alta calidad de renderizado y precisión de bits en comparación con las soluciones opcionales.
Los recientes avances en Campos de Radiancia Neural (NeRF) han permitido la reconstrucción de rostros en 3D de alta fidelidad y la síntesis de nuevas vistas, lo que ha convertido su manipulación en una tarea esencial en visión 3D. Sin embargo, los métodos de manipulación existentes requieren un esfuerzo humano considerable, como una máscara semántica proporcionada por el usuario y una búsqueda manual de atributos, lo que no es adecuado para usuarios no expertos. En cambio, nuestro enfoque está diseñado para requerir únicamente un texto para manipular un rostro reconstruido con NeRF. Para lograrlo, primero entrenamos un manipulador de escenas, un NeRF deformable condicionado por códigos latentes, sobre una escena dinámica para controlar la deformación del rostro utilizando el código latente. Sin embargo, representar una deformación de la escena con un único código latente no es favorable para componer deformaciones locales observadas en diferentes instancias. Por ello, nuestro Compositor de Anclaje Condicionado por Posición (PAC) propuesto aprende a representar una escena manipulada con códigos latentes que varían espacialmente. Sus representaciones con el manipulador de escenas se optimizan luego para obtener una alta similitud de coseno con un texto objetivo en el espacio de incrustación CLIP, permitiendo la manipulación impulsada por texto. Hasta donde sabemos, nuestro enfoque es el primero en abordar la manipulación impulsada por texto de un rostro reconstruido con NeRF. Resultados extensivos, comparaciones y estudios de ablación demuestran la efectividad de nuestro enfoque.
A pesar del notable éxito de los modelos de difusión en la generación de imágenes, el muestreo lento sigue siendo un problema persistente. Para acelerar el proceso de muestreo, estudios previos han reformulado el muestreo de difusión como una EDO/EDE e introducido métodos numéricos de orden superior. Sin embargo, estos métodos a menudo producen artefactos de divergencia, especialmente con un número reducido de pasos de muestreo, lo que limita la aceleración alcanzable. En este artículo, investigamos las posibles causas de estos artefactos y sugerimos que las pequeñas regiones de estabilidad de estos métodos podrían ser la causa principal. Para abordar este problema, proponemos dos técnicas novedosas. La primera técnica implica la incorporación del momento Heavy Ball (HB), una técnica conocida para mejorar la optimización, en los métodos numéricos de difusión existentes para ampliar sus regiones de estabilidad. También demostramos que los métodos resultantes tienen convergencia de primer orden. La segunda técnica, llamada Heavy Ball Generalizado (GHVB), construye un nuevo método de alto orden que ofrece un equilibrio variable entre precisión y supresión de artefactos. Los resultados experimentales muestran que nuestras técnicas son altamente efectivas para reducir artefactos y mejorar la calidad de la imagen, superando a los solucionadores de difusión más avanzados tanto en modelos de difusión basados en píxeles como en modelos basados en latentes para muestreo con pocos pasos. Nuestra investigación proporciona nuevas perspectivas en el diseño de métodos numéricos para futuros trabajos en difusión.