Artículos de investigación en IA seleccionados diariamente con traducciones
Los priors generativos de los modelos de difusión de texto a imagen a gran escala permiten una amplia gama de nuevas aplicaciones de generación y edición en diversas modalidades visuales. Sin embargo, al adaptar estos priors a modalidades visuales complejas, a menudo representadas como múltiples imágenes (por ejemplo, video), lograr consistencia entre un conjunto de imágenes es un desafío. En este artículo, abordamos este desafío con un método novedoso, la Destilación Colaborativa de Puntuaciones (CSD, por sus siglas en inglés). CSD se basa en el Descenso de Gradiente Variacional de Stein (SVGD). Específicamente, proponemos considerar múltiples muestras como "partículas" en la actualización de SVGD y combinar sus funciones de puntuación para destilar priors generativos sobre un conjunto de imágenes de manera sincronizada. Así, CSD facilita la integración fluida de información a través de imágenes 2D, lo que lleva a una síntesis visual consistente entre múltiples muestras. Demostramos la efectividad de CSD en una variedad de tareas, que abarcan la edición visual de imágenes panorámicas, videos y escenas 3D. Nuestros resultados subrayan la competencia de CSD como un método versátil para mejorar la consistencia entre muestras, ampliando así la aplicabilidad de los modelos de difusión de texto a imagen.
El aprendizaje automático para ecuaciones diferenciales abre el camino hacia alternativas computacionalmente eficientes a los solucionadores numéricos, con impactos potencialmente amplios en la ciencia y la ingeniería. Aunque los algoritmos actuales suelen requerir datos de entrenamiento simulados adaptados a un escenario específico, también podría ser deseable aprender información útil a partir de fuentes heterogéneas o de observaciones de sistemas dinámicos reales que sean desordenadas o incompletas. En este trabajo, aprendemos representaciones de propósito general de EDPs (ecuaciones en derivadas parciales) a partir de datos heterogéneos mediante la implementación de métodos de incrustación conjunta para el aprendizaje autosupervisado (SSL, por sus siglas en inglés), un marco para el aprendizaje de representaciones no supervisado que ha tenido un éxito notable en visión por computadora. Nuestra representación supera a los enfoques de referencia en tareas invariantes, como la regresión de los coeficientes de una EDP, mientras que también mejora el rendimiento en la integración temporal de solucionadores neuronales. Esperamos que la metodología propuesta resulte útil en el desarrollo futuro de modelos base de propósito general para EDPs.
Presentamos un enfoque novedoso para la generación de activos 3D estáticos y articulados que tiene como núcleo un autodecodificador 3D. El marco del autodecodificador 3D incorpora propiedades aprendidas del conjunto de datos objetivo en el espacio latente, el cual puede luego decodificarse en una representación volumétrica para renderizar apariencia y geometría consistentes en diferentes vistas. Identificamos el espacio latente volumétrico intermedio adecuado e introducimos operaciones robustas de normalización y desnormalización para aprender una difusión 3D a partir de imágenes 2D o videos monoculares de objetos rígidos o articulados. Nuestro enfoque es lo suficientemente flexible como para utilizar tanto supervisión de cámara existente como ningún tipo de información de cámara, aprendiéndola eficientemente durante el entrenamiento. Nuestras evaluaciones demuestran que los resultados de nuestra generación superan a las alternativas más avanzadas en varios conjuntos de datos de referencia y métricas, incluyendo conjuntos de datos de imágenes multi-vista de objetos sintéticos, videos reales en entornos naturales de personas en movimiento y un conjunto de datos de video a gran escala de objetos estáticos.
Dado un conjunto de imágenes calibradas de una escena, presentamos un enfoque que produce una representación 3D del mundo simple, compacta y accionable mediante el uso de primitivas 3D. Mientras que muchos enfoques se centran en recuperar escenas 3D de alta fidelidad, nosotros nos enfocamos en analizar una escena en representaciones 3D de nivel medio compuestas por un pequeño conjunto de primitivas texturizadas. Dichas representaciones son interpretables, fáciles de manipular y adecuadas para simulaciones basadas en física. Además, a diferencia de los métodos existentes de descomposición en primitivas que dependen de datos de entrada 3D, nuestro enfoque opera directamente sobre imágenes a través de renderizado diferenciable. Específicamente, modelamos las primitivas como mallas de supercuádricas texturizadas y optimizamos sus parámetros desde cero con una pérdida de renderizado de imágenes. Destacamos la importancia de modelar la transparencia para cada primitiva, lo cual es crítico para la optimización y también permite manejar un número variable de primitivas. Demostramos que las primitivas texturizadas resultantes reconstruyen fielmente las imágenes de entrada y modelan con precisión los puntos 3D visibles, al mismo tiempo que proporcionan completaciones amodales de formas en regiones de objetos no vistas. Comparamos nuestro enfoque con el estado del arte en diversas escenas de DTU, y demostramos su robustez en capturas de la vida real de BlendedMVS y Nerfstudio. También mostramos cómo nuestros resultados pueden usarse para editar una escena sin esfuerzo o realizar simulaciones físicas. El código y los resultados en video están disponibles en https://www.tmonnier.com/DBW.
El preentrenamiento video-lenguaje (VLP, por sus siglas en inglés) ha adquirido una importancia creciente debido a su capacidad para generalizar en diversas tareas de visión y lenguaje. Sin embargo, los marcos existentes de VLP egocéntrico utilizan codificadores separados para video y lenguaje y aprenden información cruzada entre modalidades específica de la tarea únicamente durante el ajuste fino, lo que limita el desarrollo de un sistema unificado. En este trabajo, presentamos la segunda generación de preentrenamiento video-lenguaje egocéntrico (EgoVLPv2), una mejora significativa respecto a la generación anterior, al incorporar la fusión cruzada entre modalidades directamente en los núcleos de video y lenguaje. EgoVLPv2 aprende representaciones sólidas de video-texto durante el preentrenamiento y reutiliza los módulos de atención cruzada entre modalidades para respaldar diferentes tareas posteriores de manera flexible y eficiente, reduciendo los costos de ajuste fino. Además, nuestra estrategia propuesta de fusión en el núcleo es más ligera y eficiente en términos de cómputo que la adición de capas específicas para la fusión. Experimentos exhaustivos en una amplia gama de tareas de VL demuestran la efectividad de EgoVLPv2 al lograr un rendimiento constante y de vanguardia sobre líneas base sólidas en todas las tareas posteriores. Nuestra página del proyecto se puede encontrar en https://shramanpramanick.github.io/EgoVLPv2/.
El acceso a activos digitales de humanos articulados en 3D de alta calidad y diversidad es crucial en diversas aplicaciones, desde la realidad virtual hasta las plataformas sociales. Los enfoques generativos, como las redes generativas adversarias en 3D (GANs), están reemplazando rápidamente las herramientas manuales de creación de contenido. Sin embargo, los marcos existentes de GANs en 3D suelen basarse en representaciones de escenas que utilizan mallas de plantilla, que son rápidas pero ofrecen calidad limitada, o volúmenes, que ofrecen alta capacidad pero son lentos de renderizar, lo que limita la fidelidad 3D en entornos de GANs. En este trabajo, introducimos los volúmenes de superficie en capas (LSVs, por sus siglas en inglés) como una nueva representación de objetos 3D para humanos digitales articulados. Los LSVs representan un cuerpo humano utilizando múltiples capas de malla texturizadas alrededor de una plantilla convencional. Estas capas se renderizan mediante composición alfa con rasterización diferenciable rápida, y pueden interpretarse como una representación volumétrica que asigna su capacidad a una variedad de espesor finito alrededor de la plantilla. A diferencia de las plantillas convencionales de una sola capa que tienen dificultades para representar detalles finos fuera de la superficie, como el cabello o los accesorios, nuestros volúmenes de superficie capturan naturalmente dichos detalles. Los LSVs pueden articularse y exhiben una eficiencia excepcional en entornos de GANs, donde un generador 2D aprende a sintetizar las texturas RGBA para las capas individuales. Entrenado en conjuntos de datos de imágenes 2D de vista única no estructurados, nuestro LSV-GAN genera humanos digitales articulados en 3D de alta calidad y consistencia visual sin la necesidad de redes de muestreo ascendente 2D inconsistentes en la vista.
Trabajos previos han establecido el entrenamiento en tiempo de prueba (TTT, por sus siglas en inglés) como un marco general para mejorar aún más un modelo entrenado durante la prueba. Antes de realizar una predicción sobre cada instancia de prueba, el modelo se entrena en la misma instancia utilizando una tarea autosupervisada, como la reconstrucción de imágenes con autoencoders enmascarados. Extendemos TTT al entorno de transmisión continua, donde múltiples instancias de prueba —en nuestro caso, fotogramas de video— llegan en orden temporal. Nuestra extensión es el TTT en línea: el modelo actual se inicializa a partir del modelo anterior, luego se entrena en el fotograma actual y una pequeña ventana de fotogramas inmediatamente anteriores. El TTT en línea supera significativamente la línea base del modelo fijo en cuatro tareas, utilizando tres conjuntos de datos del mundo real. La mejora relativa es del 45% y 66% para la segmentación de instancias y panóptica, respectivamente. Sorprendentemente, el TTT en línea también supera a su variante fuera de línea, que accede a más información al entrenarse en todos los fotogramas del video de prueba completo, independientemente del orden temporal. Esto difiere de hallazgos previos que utilizaron videos sintéticos. Conceptualizamos la localidad como la ventaja del TTT en línea sobre el fuera de línea. Analizamos el papel de la localidad con ablaciones y una teoría basada en el equilibrio entre sesgo y varianza.