Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de los recientes avances en la investigación sobre la reconstrucción de humanos vestidos a partir de una sola imagen, la restauración precisa de las "regiones no visibles" con detalles de alto nivel sigue siendo un desafío sin resolver que ha recibido poca atención. Los métodos existentes suelen generar superficies traseras excesivamente suavizadas con texturas borrosas. Pero, ¿cómo capturar de manera efectiva todos los atributos visuales de un individuo a partir de una sola imagen, que sean suficientes para reconstruir áreas no visibles (por ejemplo, la vista posterior)? Motivado por el poder de los modelos fundacionales, TeCH reconstruye el humano en 3D aprovechando 1) indicaciones de texto descriptivas (por ejemplo, prendas, colores, peinados) que se generan automáticamente mediante un modelo de análisis de prendas y un sistema de Respuesta Visual a Preguntas (VQA), 2) un modelo de difusión Texto-a-Imagen (T2I) ajustado personalmente que aprende la apariencia "indescriptible". Para representar humanos vestidos en 3D de alta resolución a un costo asequible, proponemos una representación híbrida en 3D basada en DMTet, que consiste en una malla explícita de la forma del cuerpo y un campo de distancia implícito. Guiados por las indicaciones descriptivas y el modelo de difusión T2I personalizado, la geometría y la textura de los humanos en 3D se optimizan mediante el muestreo de destilación de puntuación multivista (SDS) y pérdidas de reconstrucción basadas en la observación original. TeCH produce humanos vestidos en 3D de alta fidelidad con texturas consistentes y delicadas, y una geometría corporal detallada. Los experimentos cuantitativos y cualitativos demuestran que TeCH supera a los métodos más avanzados en términos de precisión de reconstrucción y calidad de renderizado. El código estará disponible públicamente con fines de investigación en https://huangyangyi.github.io/tech.
La generación de texto personalizado es un área de investigación emergente que ha atraído mucha atención en los últimos años. La mayoría de los estudios en esta dirección se centran en un dominio particular mediante el diseño de características o modelos específicos. En este trabajo, proponemos un enfoque general para la generación de texto personalizado utilizando modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Inspirados por la práctica de la enseñanza de la escritura, desarrollamos un marco de trabajo multietapa y multitarea para enseñar a los LLMs a generar texto personalizado. En la instrucción de escritura, la tarea de escribir a partir de fuentes a menudo se descompone en múltiples pasos que implican encontrar, evaluar, resumir, sintetizar e integrar información. De manera análoga, nuestro enfoque para la generación de texto personalizado consta de varias etapas: recuperación, clasificación, resumen, síntesis y generación. Además, introducimos un entorno multitarea que ayuda al modelo a mejorar aún más su capacidad de generación, inspirado por la observación en la educación de que la competencia lectora y la habilidad de escritura de un estudiante suelen estar correlacionadas. Evaluamos nuestro enfoque en tres conjuntos de datos públicos, cada uno de los cuales cubre un dominio diferente y representativo. Nuestros resultados muestran mejoras significativas en comparación con una variedad de líneas base.
Con el surgimiento de los modelos de difusión, recientemente, la generación de texto a video ha captado una atención creciente. Sin embargo, un cuello de botella importante es que los videos generados suelen presentar parpadeos y artefactos. En este trabajo, proponemos una red de difusión de doble flujo (DSDN, por sus siglas en inglés) para mejorar la consistencia de las variaciones de contenido en la generación de videos. En particular, los dos flujos de difusión diseñados, las ramas de contenido de video y movimiento, no solo pueden operar por separado en sus espacios privados para producir variaciones de video personalizadas y contenido, sino que también pueden alinearse adecuadamente entre los dominios de contenido y movimiento mediante el uso de nuestro módulo de interacción de transformadores cruzados, lo que beneficiaría la suavidad de los videos generados. Además, también introducimos un descomponedor y combinador de movimiento para facilitar la manipulación del movimiento en los videos. Los experimentos cualitativos y cuantitativos demuestran que nuestro método puede producir videos continuos asombrosos con menos parpadeos.
La generación controlada de videos ha ganado una atención significativa en los últimos años. Sin embargo, persisten dos limitaciones principales: En primer lugar, la mayoría de los trabajos existentes se centran en el control basado en texto, imágenes o trayectorias, lo que conduce a una incapacidad para lograr un control detallado en los videos. En segundo lugar, la investigación sobre el control de trayectorias aún se encuentra en sus etapas iniciales, con la mayoría de los experimentos realizados en conjuntos de datos simples como Human3.6M. Esta restricción limita la capacidad de los modelos para procesar imágenes de dominio abierto y manejar eficazmente trayectorias curvas complejas. En este artículo, proponemos DragNUWA, un modelo de generación de videos basado en difusión de dominio abierto. Para abordar el problema de la insuficiente granularidad de control en los trabajos existentes, introducimos simultáneamente información de texto, imagen y trayectoria para proporcionar un control detallado sobre el contenido del video desde perspectivas semánticas, espaciales y temporales. Para resolver el problema del control limitado de trayectorias en el dominio abierto en la investigación actual, proponemos un modelado de trayectorias con tres aspectos: un Muestreador de Trayectorias (TS) para permitir el control de dominio abierto de trayectorias arbitrarias, una Fusión Multiescala (MF) para controlar trayectorias en diferentes granularidades, y una estrategia de Entrenamiento Adaptativo (AT) para generar videos consistentes siguiendo trayectorias. Nuestros experimentos validan la efectividad de DragNUWA, demostrando su rendimiento superior en el control detallado en la generación de videos. El enlace a la página principal es https://www.microsoft.com/en-us/research/project/dragnuwa/.
Los modelos de imágenes auto-supervisados y supervisados por lenguaje contienen un conocimiento rico del mundo que es importante para la generalización. Sin embargo, muchas tareas robóticas requieren una comprensión detallada de la geometría 3D, que a menudo falta en las características de imágenes 2D. Este trabajo cierra esta brecha 2D-3D para la manipulación robótica al aprovechar campos de características destilados para combinar una geometría 3D precisa con una semántica rica proveniente de modelos fundamentales 2D. Presentamos un método de aprendizaje con pocos ejemplos para el agarre y colocación en 6 grados de libertad que utiliza estos fuertes antecedentes espaciales y semánticos para lograr una generalización en entornos no controlados hacia objetos no vistos. Utilizando características destiladas de un modelo de visión-lenguaje, CLIP, presentamos una forma de designar objetos nuevos para manipulación mediante lenguaje natural en texto libre, y demostramos su capacidad para generalizar a expresiones no vistas y nuevas categorías de objetos.
Los métodos existentes para la reconstrucción 4D de objetos generales que se deforman de manera no rígida se centran en la síntesis de nuevas vistas y descuidan las correspondencias. Sin embargo, la consistencia temporal permite tareas avanzadas como la edición 3D, el análisis de movimiento o la creación de activos virtuales. Proponemos SceNeRFlow para reconstruir una escena general no rígida de manera temporalmente consistente. Nuestro método dinámico basado en NeRF toma como entrada videos RGB de múltiples vistas e imágenes de fondo de cámaras estáticas con parámetros de cámara conocidos. Luego, reconstruye las deformaciones de un modelo canónico estimado de la geometría y la apariencia de manera en línea. Dado que este modelo canónico es invariante en el tiempo, obtenemos correspondencias incluso para movimientos de largo plazo y gran amplitud. Empleamos representaciones neurales de escenas para parametrizar los componentes de nuestro método. Al igual que los métodos dinámicos de NeRF anteriores, utilizamos un modelo de deformación inversa. Encontramos que se necesitan adaptaciones no triviales de este modelo para manejar movimientos más amplios: descomponemos las deformaciones en un componente grueso fuertemente regularizado y un componente fino débilmente regularizado, donde el componente grueso también extiende el campo de deformación al espacio que rodea al objeto, lo que permite el seguimiento a lo largo del tiempo. Demostramos experimentalmente que, a diferencia de trabajos anteriores que solo manejan movimientos pequeños, nuestro método permite la reconstrucción de movimientos a escala de estudio.