Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos la difusión de luz, un método novedoso para mejorar la iluminación en retratos, suavizando sombras duras y reflejos especulares mientras se preserva la iluminación general de la escena. Inspirado por los difusores y telas de dispersión utilizados por fotógrafos profesionales, nuestro método suaviza la iluminación utilizando únicamente una sola fotografía de retrato. Los enfoques anteriores de reiluminación de retratos se centran en cambiar todo el entorno de iluminación, eliminar sombras (ignorando los reflejos especulares intensos) o eliminar por completo el sombreado. En contraste, proponemos un método basado en aprendizaje que nos permite controlar la cantidad de difusión de luz y aplicarla en retratos capturados en condiciones naturales. Además, diseñamos un método para generar sintéticamente sombras externas plausibles con efectos de dispersión subsuperficial, adaptándose a la forma del rostro del sujeto. Finalmente, demostramos cómo nuestro enfoque puede aumentar la robustez de aplicaciones de visión de alto nivel, como la estimación de albedo, la estimación de geometría y la segmentación semántica.
Aunque la rápida evolución reciente de las redes neuronales generativas 3D ha mejorado significativamente la generación de formas 3D, aún no resulta conveniente para usuarios comunes crear formas 3D y controlar la geometría local de las formas generadas. Para abordar estos desafíos, proponemos un marco de generación 3D basado en difusión —difusión de SDF con atención local—, que modela formas 3D plausibles a partir de una imagen de boceto 2D como entrada. Nuestro método se basa en un modelo de difusión de dos etapas. La primera etapa, denominada difusión de ocupación, tiene como objetivo generar un campo de ocupación de baja resolución para aproximar la envoltura de la forma. La segunda etapa, llamada difusión de SDF, sintetiza un campo de distancia con signo de alta resolución dentro de los vóxeles ocupados determinados por la primera etapa, para extraer una geometría detallada. Nuestro modelo está potenciado por un novedoso mecanismo de atención local consciente de la vista para la generación de formas condicionadas por imágenes, que aprovecha las características de parches de imágenes 2D para guiar el aprendizaje de características de vóxeles 3D, mejorando en gran medida la controlabilidad local y la generalización del modelo. A través de extensos experimentos en tareas de generación de formas 3D condicionadas por bocetos y por categorías, validamos y demostramos la capacidad de nuestro método para proporcionar formas 3D plausibles y diversas, así como su superior controlabilidad y generalización en comparación con trabajos existentes. Nuestro código y modelos entrenados están disponibles en https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado habilidades lingüísticas notables. GPT-4, basado en LLMs avanzados, exhibe capacidades multimodales extraordinarias que superan a los modelos visuales de lenguaje anteriores. Atribuimos esto al uso de LLMs más avanzados en comparación con los modelos multimodales previos. Desafortunadamente, la arquitectura del modelo y las estrategias de entrenamiento de GPT-4 son desconocidas. Para dotar a los LLMs de capacidades multimodales, proponemos X-LLM, que convierte múltiples modalidades (imágenes, audio, videos) en lenguajes extranjeros utilizando interfaces X2L y los introduce en un modelo de lenguaje de gran escala (ChatGLM). Específicamente, X-LLM alinea múltiples codificadores unimodales congelados y un LLM congelado mediante interfaces X2L, donde "X" denota modalidades múltiples como imágenes, audio y videos, y "L" denota lenguajes. El entrenamiento de X-LLM consta de tres etapas: (1) Conversión de información multimodal: la primera etapa entrena cada interfaz X2L para alinearse con su respectivo codificador unimodal por separado, con el fin de convertir la información multimodal en lenguajes. (2) Alineación de representaciones X2L con el LLM: los codificadores unimodales se alinean con el LLM a través de interfaces X2L de manera independiente. (3) Integración de múltiples modalidades: todos los codificadores unimodales se alinean con el LLM mediante interfaces X2L para integrar capacidades multimodales en el LLM. Nuestros experimentos muestran que X-LLM demuestra impresionantes habilidades de chat multimodal, exhibiendo en ocasiones comportamientos similares a los de GPT-4 multimodal en imágenes/instrucciones no vistas, y alcanza un puntaje relativo del 84.5% en comparación con GPT-4 en un conjunto de datos sintético de seguimiento de instrucciones multimodales. También realizamos pruebas cuantitativas sobre el uso de LLM para reconocimiento automático de voz (ASR) y ASR multimodal, con la esperanza de impulsar la era del reconocimiento de voz basado en LLM.
El razonamiento composicional es una característica distintiva de la inteligencia visual humana; sin embargo, a pesar del tamaño de los grandes modelos de visión y lenguaje, estos tienen dificultades para representar composiciones simples al combinar objetos con sus atributos. Para medir esta falta de capacidad composicional, diseñamos Cola, un punto de referencia de recuperación de imágenes a partir de texto para Componer Objetos Localizados con Atributos. Utilizando Cola como banco de pruebas, exploramos diseños de modelado para adaptar modelos preentrenados de visión y lenguaje a razonar composicionalmente sobre múltiples atributos asociados a múltiples objetos. Exploramos 6 estrategias de ajuste fino en 2 modelos fundamentales de visión y lenguaje, utilizando 3 conjuntos de datos de ajuste fino y 2 puntos de referencia de prueba (Cola y CREPE). Sorprendentemente, nuestra estrategia óptima de ajuste fino mejora un modelo CLIP de 151M parámetros, que codifica de manera disjunta imágenes y lenguaje durante el preentrenamiento, para que tenga un rendimiento similar al de un modelo FLAVA de 241M parámetros, que utiliza un codificador transformador multimodal durante el preentrenamiento para atender tanto a las modalidades de visión como de lenguaje. Esta estrategia óptima de ajuste fino es un adaptador multimodal ligero que atiende conjuntamente tanto a las características de imagen como de lenguaje generadas por el modelo preentrenado. Demostramos que esto funciona mejor que estrategias comunes como el ajuste de indicaciones/ajuste fino, o el ajuste de un número comparable de capas unimodales.
Los modelos de difusión han surgido como un pilar fundamental de los modelos base en dominios visuales. Una de sus aplicaciones críticas es resolver universalmente diferentes tareas inversas mediante un único prior de difusión, sin necesidad de reentrenar para cada tarea. La mayoría de las tareas inversas pueden formularse como la inferencia de una distribución posterior sobre los datos (por ejemplo, una imagen completa) dado una medición (por ejemplo, una imagen enmascarada). Sin embargo, esto es desafiante en los modelos de difusión, ya que la naturaleza no lineal e iterativa del proceso de difusión hace que la posterior sea intratable. Para abordar este desafío, proponemos un enfoque variacional que, por diseño, busca aproximar la verdadera distribución posterior. Demostramos que nuestro enfoque conduce naturalmente a una regularización mediante el proceso de difusión de eliminación de ruido (RED-Diff), donde los eliminadores de ruido en diferentes pasos temporales imponen simultáneamente diferentes restricciones estructurales sobre la imagen. Para evaluar la contribución de los eliminadores de ruido en diferentes pasos temporales, proponemos un mecanismo de ponderación basado en la relación señal-ruido (SNR). Nuestro enfoque proporciona una nueva perspectiva variacional para resolver problemas inversos con modelos de difusión, permitiéndonos formular el muestreo como una optimización estocástica, donde se pueden aplicar soluciones estándar con iteraciones ligeras. Nuestros experimentos en tareas de restauración de imágenes, como la reconstrucción de imágenes y la superresolución, demuestran las fortalezas de nuestro método en comparación con los modelos de difusión basados en muestreo más avanzados.
Los generadores modernos producen videos de cabezas parlantes con niveles impresionantes de fotorrealismo, lo que permite nuevas experiencias de usuario, como videoconferencias bajo presupuestos de ancho de banda limitados. Sin embargo, su adopción segura requiere un mecanismo para verificar si el video generado es confiable. Por ejemplo, en videoconferencias, es necesario identificar casos en los que un retrato de video sintético utiliza la apariencia de un individuo sin su consentimiento. Denominamos esta tarea como huella digital de avatares. Proponemos abordarla aprovechando las firmas de movimiento facial únicas de cada persona. Específicamente, aprendemos un espacio de incrustación en el que las firmas de movimiento de una identidad se agrupan y se separan de las de otras identidades, independientemente de la apariencia en el video sintético. Los algoritmos de huella digital de avatares serán críticos a medida que los generadores de cabezas parlantes se vuelvan más omnipresentes, y sin embargo, no existen conjuntos de datos a gran escala para esta nueva tarea. Por lo tanto, contribuimos con un gran conjunto de datos de personas que realizan monólogos cortos, tanto guionizados como improvisados, acompañados de videos sintéticos en los que renderizamos videos de una persona utilizando la apariencia facial de otra. Página del proyecto: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
Las páginas web han sido un recurso rico y escalable para tareas de visión-lenguaje y solo lenguaje. Sin embargo, solo se conservan fragmentos de las páginas web: pares de imagen-texto, artículos de texto largo o HTML crudo, nunca todos en un mismo lugar. Como resultado, las tareas relacionadas con páginas web han recibido poca atención y los datos estructurados de imagen-texto han sido subutilizados. Para estudiar la comprensión multimodal de páginas web, presentamos el conjunto Wikipedia Webpage (WikiWeb2M) de 2 millones de páginas. Verificamos su utilidad en tres tareas generativas: generación de descripciones de páginas, resumen de secciones y subtitulación contextual de imágenes. Diseñamos un nuevo mecanismo de atención llamado Prefix Global, que selecciona el contenido de imagen y texto más relevante como tokens globales para atender al resto de la página web en busca de contexto. Al utilizar la estructura de la página para separar dichos tokens, este mecanismo supera a la atención completa con una menor complejidad computacional. Los experimentos muestran que las nuevas anotaciones de WikiWeb2M mejoran el rendimiento de las tareas en comparación con los datos de trabajos previos. También incluimos análisis sobre la longitud de secuencias, características de entrada y tamaño del modelo.
Presentamos un método de aprendizaje profundo para el control de movimiento compuesto y orientado a tareas en personajes simulados físicamente. A diferencia de los enfoques basados en datos existentes que utilizan aprendizaje por refuerzo para imitar movimientos de cuerpo completo, aprendemos movimientos desacoplados para partes específicas del cuerpo a partir de múltiples movimientos de referencia simultáneamente y de manera directa, aprovechando el uso de múltiples discriminadores en una configuración similar a una GAN. En este proceso, no es necesario realizar ningún trabajo manual para producir movimientos de referencia compuestos para el aprendizaje. En su lugar, la política de control explora por sí misma cómo los movimientos compuestos pueden combinarse automáticamente. Además, consideramos múltiples recompensas específicas de tareas y entrenamos una única política de control multiobjetivo. Para ello, proponemos un marco novedoso para el aprendizaje multiobjetivo que equilibra de manera adaptativa el aprendizaje de movimientos dispares provenientes de múltiples fuentes y múltiples objetivos de control orientados a metas. Adicionalmente, dado que los movimientos compuestos suelen ser ampliaciones de comportamientos más simples, introducimos un método eficiente en términos de muestras para entrenar políticas de control compuestas de manera incremental, donde reutilizamos una política preentrenada como política meta y entrenamos una política cooperativa que adapta la política meta para nuevas tareas compuestas. Demostramos la aplicabilidad de nuestro enfoque en una variedad de tareas multiobjetivo desafiantes que involucran tanto la imitación de movimientos compuestos como el control orientado a múltiples metas.