Artículos de investigación en IA seleccionados diariamente con traducciones
Editar una región local o un objeto específico en una escena 3D representada por un NeRF es un desafío, principalmente debido a la naturaleza implícita de la representación de la escena. Mezclar de manera consistente un nuevo objeto realista en la escena añade un nivel adicional de dificultad. Presentamos Blended-NeRF, un marco robusto y flexible para editar una región de interés específica en una escena NeRF existente, basado en indicaciones de texto o parches de imagen, junto con una caja 3D de ROI. Nuestro método aprovecha un modelo de lenguaje-imagen preentrenado para guiar la síntesis hacia una indicación de texto o un parche de imagen proporcionado por el usuario, junto con un modelo MLP 3D inicializado en una escena NeRF existente para generar el objeto y mezclarlo en una región específica de la escena original. Permitimos la edición local mediante la localización de una caja 3D de ROI en la escena de entrada, y mezclamos de manera fluida el contenido sintetizado dentro del ROI con la escena existente utilizando una novedosa técnica de mezcla volumétrica. Para obtener resultados visualmente naturales y consistentes en todas las vistas, aprovechamos priores geométricos existentes y nuevos, así como aumentaciones 3D para mejorar la fidelidad visual del resultado final. Probamos nuestro marco tanto cualitativa como cuantitativamente en una variedad de escenas 3D reales e indicaciones de texto, demostrando resultados realistas y consistentes en múltiples vistas con una gran flexibilidad y diversidad en comparación con los métodos base. Finalmente, mostramos la aplicabilidad de nuestro marco para varias aplicaciones de edición 3D, incluyendo la adición de nuevos objetos a una escena, la eliminación/reemplazo/modificación de objetos existentes y la conversión de texturas.
El éxito de los sistemas de reconocimiento facial basados en aprendizaje profundo ha dado lugar a serias preocupaciones sobre la privacidad debido a su capacidad para permitir el seguimiento no autorizado de usuarios en el mundo digital. Los métodos existentes para mejorar la privacidad no logran generar imágenes naturalistas que puedan proteger la privacidad facial sin comprometer la experiencia del usuario. Proponemos un enfoque novedoso de dos pasos para la protección de la privacidad facial que se basa en encontrar códigos latentes adversarios en el manifold de baja dimensión de un modelo generativo preentrenado. El primer paso invierte la imagen facial dada en el espacio latente y ajusta el modelo generativo para lograr una reconstrucción precisa de la imagen dada a partir de su código latente. Este paso produce una buena inicialización, ayudando a la generación de rostros de alta calidad que se asemejan a la identidad dada. Posteriormente, se utilizan indicaciones de texto de maquillaje definidas por el usuario y una regularización que preserva la identidad para guiar la búsqueda de códigos adversarios en el espacio latente. Experimentos extensos demuestran que los rostros generados por nuestro enfoque tienen una mayor transferibilidad en caja negra, con una ganancia absoluta del 12.06% sobre el enfoque más avanzado de protección de privacidad facial en la tarea de verificación de rostros. Finalmente, demostramos la efectividad del enfoque propuesto para sistemas comerciales de reconocimiento facial. Nuestro código está disponible en https://github.com/fahadshamshad/Clip2Protect.