Artículos de investigación en IA seleccionados diariamente con traducciones
Descubrimos que los esquemas de ruido comunes en difusión no garantizan que el último paso temporal tenga una relación señal-ruido (SNR) cero, y algunas implementaciones de muestreadores de difusión no comienzan desde el último paso temporal. Estos diseños son defectuosos y no reflejan el hecho de que el modelo recibe ruido gaussiano puro durante la inferencia, creando una discrepancia entre el entrenamiento y la inferencia. Demostramos que este diseño defectuoso causa problemas reales en implementaciones existentes. En Stable Diffusion, limita severamente al modelo a generar solo imágenes con brillo medio y le impide generar muestras muy brillantes u oscuras. Proponemos algunas correcciones simples: (1) reescalar el esquema de ruido para garantizar un SNR terminal cero; (2) entrenar el modelo con predicción de v; (3) modificar el muestreador para que siempre comience desde el último paso temporal; (4) reescalar la guía sin clasificador para evitar sobreexposición. Estos cambios simples aseguran que el proceso de difusión sea congruente entre el entrenamiento y la inferencia y permiten que el modelo genere muestras más fieles a la distribución original de datos.
En este artículo presentamos FitMe, un modelo de reflectancia facial y una canalización de optimización de renderizado diferenciable, que puede utilizarse para adquirir avatares humanos renderizables de alta fidelidad a partir de una o múltiples imágenes. El modelo consta de un generador multimodal basado en estilos, que captura la apariencia facial en términos de reflectancia difusa y especular, y un modelo de forma basado en PCA. Empleamos un proceso rápido de renderizado diferenciable que puede utilizarse en una canalización de optimización, al mismo tiempo que logra sombreado facial fotorrealista. Nuestro proceso de optimización captura con precisión tanto la reflectancia como la forma facial en alto detalle, aprovechando la expresividad de la representación latente basada en estilos y de nuestro modelo de forma. FitMe logra una adquisición de reflectancia y preservación de identidad de última generación en imágenes faciales únicas "en la naturaleza", mientras produce resultados impresionantes similares a escaneos cuando se le proporcionan múltiples imágenes faciales no restringidas pertenecientes a la misma identidad. En contraste con las reconstrucciones recientes de avatares implícitos, FitMe requiere solo un minuto y produce avatares relumbrantes basados en mallas y texturas, que pueden ser utilizados por aplicaciones de usuario final.
Los modelos de difusión sobresalen en la generación de imágenes a partir de texto, especialmente en la generación orientada a sujetos para imágenes personalizadas. Sin embargo, los métodos existentes son ineficientes debido al ajuste específico para cada sujeto, que es computacionalmente intensivo y dificulta el despliegue eficiente. Además, los métodos actuales tienen dificultades con la generación de múltiples sujetos, ya que a menudo mezclan características entre ellos. Presentamos FastComposer, que permite una generación eficiente, personalizada y de múltiples sujetos a partir de texto sin necesidad de ajuste fino. FastComposer utiliza incrustaciones de sujetos extraídas por un codificador de imágenes para mejorar el condicionamiento textual genérico en los modelos de difusión, permitiendo la generación de imágenes personalizadas basadas en imágenes de sujetos e instrucciones textuales con solo pasadas hacia adelante. Para abordar el problema de mezcla de identidades en la generación de múltiples sujetos, FastComposer propone una supervisión de localización de atención cruzada durante el entrenamiento, asegurando que la atención de los sujetos de referencia se localice en las regiones correctas de las imágenes objetivo. El condicionamiento directo sobre las incrustaciones de sujetos resulta en un sobreajuste del sujeto. FastComposer propone un condicionamiento retardado de sujetos en el paso de eliminación de ruido para mantener tanto la identidad como la capacidad de edición en la generación de imágenes orientada a sujetos. FastComposer genera imágenes de múltiples individuos no vistos con diferentes estilos, acciones y contextos. Logra una aceleración de 300 a 2500 veces en comparación con métodos basados en ajuste fino y requiere cero almacenamiento adicional para nuevos sujetos. FastComposer allana el camino para la creación eficiente, personalizada y de alta calidad de imágenes con múltiples sujetos. El código, modelo y conjunto de datos están disponibles en https://github.com/mit-han-lab/fastcomposer.
Determinar automáticamente si un texto y una imagen correspondiente están alineados semánticamente es un desafío significativo para los modelos de visión y lenguaje, con aplicaciones en tareas generativas de texto a imagen y de imagen a texto. En este trabajo, estudiamos métodos para la evaluación automática de la alineación texto-imagen. Primero presentamos SeeTRUE: un conjunto de evaluación integral que abarca múltiples conjuntos de datos tanto de tareas de generación de texto a imagen como de imagen a texto, con juicios humanos sobre si un par texto-imagen dado está alineado semánticamente. Luego describimos dos métodos automáticos para determinar la alineación: el primero involucra una canalización basada en modelos de generación de preguntas y respuesta visual a preguntas, y el segundo emplea un enfoque de clasificación de extremo a extremo mediante el ajuste fino de modelos preentrenados multimodales. Ambos métodos superan enfoques previos en diversas tareas de alineación texto-imagen, con mejoras significativas en casos desafiantes que involucran composiciones complejas o imágenes no naturales. Finalmente, demostramos cómo nuestros enfoques pueden localizar desalineaciones específicas entre una imagen y un texto dado, y cómo pueden usarse para reordenar automáticamente candidatos en la generación de texto a imagen.
Los seres humanos pueden comprender fácilmente que una sola imagen representa múltiples objetos potenciales que permiten la interacción. Utilizamos esta habilidad para planificar nuestras interacciones con el mundo y acelerar la comprensión de nuevos objetos sin necesidad de interactuar con ellos. En este artículo, nos gustaría dotar a las máquinas de una habilidad similar, para que los agentes inteligentes puedan explorar mejor la escena 3D o manipular objetos. Nuestro enfoque es un modelo basado en transformadores que predice la ubicación en 3D, las propiedades físicas y la capacidad de interacción (affordance) de los objetos. Para alimentar este modelo, recopilamos un conjunto de datos con videos de Internet, videos egocéntricos e imágenes de interiores para entrenar y validar nuestro enfoque. Nuestro modelo muestra un rendimiento sólido en nuestros datos y se generaliza bien a datos robóticos.
La investigación en aprendizaje continuo en línea (OCL, por sus siglas en inglés) se ha centrado principalmente en mitigar el olvido catastrófico con una asignación de almacenamiento fija y limitada durante toda la vida del agente. Sin embargo, la creciente asequibilidad del almacenamiento de datos resalta una amplia gama de aplicaciones que no se ajustan a estos supuestos. En estos casos, la principal preocupación radica en gestionar los gastos computacionales en lugar del almacenamiento. En este artículo, nos enfocamos en tales escenarios, investigando el problema del aprendizaje continuo en línea al relajar las restricciones de almacenamiento y enfatizar un presupuesto económico fijo y limitado. Proporcionamos un algoritmo simple que puede almacenar y utilizar de manera compacta la totalidad del flujo de datos entrante bajo presupuestos computacionales mínimos, utilizando un clasificador kNN y extractores de características preentrenados universales. Nuestro algoritmo ofrece una propiedad de consistencia atractiva para el aprendizaje continuo: nunca olvidará los datos vistos en el pasado. Establecemos un nuevo estado del arte en dos conjuntos de datos OCL a gran escala: Continual LOCalization (CLOC), que tiene 39 millones de imágenes en 712 clases, y Continual Google Landmarks V2 (CGLM), que tiene 580 mil imágenes en 10,788 clases, superando a métodos con presupuestos computacionales mucho más altos que el nuestro en términos de reducir el olvido catastrófico de datos pasados y adaptarse rápidamente a flujos de datos que cambian velozmente. Proporcionamos el código para reproducir nuestros resultados en https://github.com/drimpossible/ACM.