Artículos de investigación en IA seleccionados diariamente con traducciones
Detectar texto generado por modelos de lenguaje grandes (LLMs) modernos se considera difícil, ya que tanto los LLMs como los humanos pueden exhibir una amplia gama de comportamientos complejos. Sin embargo, descubrimos que una puntuación basada en contrastar dos modelos de lenguaje estrechamente relacionados es altamente precisa para separar texto generado por humanos y texto generado por máquinas. Basándonos en este mecanismo, proponemos un nuevo detector de LLMs que solo requiere cálculos simples utilizando un par de LLMs preentrenados. El método, llamado Binoculars, logra una precisión de vanguardia sin necesidad de datos de entrenamiento. Es capaz de identificar texto generado por máquinas de una variedad de LLMs modernos sin modificaciones específicas para cada modelo. Evaluamos exhaustivamente Binoculars en varias fuentes de texto y en diferentes situaciones. En una amplia gama de tipos de documentos, Binoculars detecta más del 90% de las muestras generadas por ChatGPT (y otros LLMs) con una tasa de falsos positivos del 0.01%, a pesar de no haber sido entrenado con ningún dato de ChatGPT.
Se han invertido esfuerzos considerables en mejorar la capacidad de interpretación de roles de los modelos de lenguaje de gran escala (LLMs) de código abierto mediante la emulación de contrapartes propietarias. Sin embargo, sostenemos que los LLMs poseen inherentemente habilidades para la interpretación de roles, debido al amplio conocimiento de personajes y diálogos potenciales incrustado en sus extensos corpus de entrenamiento. Por lo tanto, en este estudio, presentamos Ditto, un método de autoalineación para la interpretación de roles. Ditto aprovecha el conocimiento de los personajes, incentivando a un LLM que sigue instrucciones a simular diálogos de interpretación de roles como una variante de comprensión lectora. Este método crea un conjunto de entrenamiento para interpretación de roles que incluye 4,000 personajes, superando diez veces la escala de los conjuntos de datos disponibles actualmente en cuanto al número de roles. Posteriormente, ajustamos el LLM utilizando este conjunto de datos auto-generado para mejorar sus capacidades de interpretación de roles. Al evaluar nuestro benchmark de interpretación de roles meticulosamente construido y reproducible, así como el subconjunto de interpretación de roles de MT-Bench, Ditto, en varias escalas de parámetros, mantiene consistentemente una identidad de rol coherente y proporciona conocimiento específico del rol de manera precisa en conversaciones de interpretación de roles de múltiples turnos. Notablemente, supera a todas las líneas base de interpretación de roles de código abierto, mostrando niveles de rendimiento comparables a los de chatbots propietarios avanzados. Además, presentamos el primer experimento exhaustivo de alineación cruzada en el dominio de la interpretación de roles, revelando que las capacidades intrínsecas de los LLMs limitan el conocimiento dentro de la interpretación de roles. Mientras tanto, los estilos de interpretación de roles pueden adquirirse fácilmente con la guía de modelos más pequeños. Hemos puesto a disposición los recursos relacionados en https://github.com/OFA-Sys/Ditto.
Presentamos el meta-prompting, una técnica de andamiaje efectiva diseñada para mejorar la funcionalidad de los modelos de lenguaje (LMs). Este enfoque transforma un único LM en un conductor multifacético, hábil en la gestión e integración de múltiples consultas independientes de LMs. Al emplear instrucciones de alto nivel, el meta-prompting guía al LM para descomponer tareas complejas en subtareas más pequeñas y manejables. Estas subtareas son luego manejadas por instancias "expertas" distintas del mismo LM, cada una operando bajo instrucciones específicas y personalizadas. Central a este proceso es el propio LM, en su rol de conductor, que asegura una comunicación fluida y una integración efectiva de los resultados de estos modelos expertos. Además, emplea su pensamiento crítico inherente y procesos de verificación robustos para refinar y autenticar el resultado final. Este enfoque colaborativo de prompting permite que un único LM actúe simultáneamente como un orquestador integral y un panel de expertos diversos, mejorando significativamente su rendimiento en una amplia gama de tareas. La naturaleza zero-shot y agnóstica a la tarea del meta-prompting simplifica enormemente la interacción del usuario al eliminar la necesidad de instrucciones detalladas y específicas para cada tarea. Además, nuestra investigación demuestra la integración fluida de herramientas externas, como un intérprete de Python, en el marco del meta-prompting, ampliando así su aplicabilidad y utilidad. A través de experimentación rigurosa con GPT-4, establecemos la superioridad del meta-prompting sobre los métodos convencionales de andamiaje: en promedio, en todas las tareas, incluyendo el Juego del 24, Jaque Mate en Uno y Acertijos de Programación en Python, el meta-prompting, aumentado con la funcionalidad de un intérprete de Python, supera al prompting estándar en un 17.1%, al prompting experto (dinámico) en un 17.3% y al prompting multipersona en un 15.2%.
Los modelos de difusión han demostrado un rendimiento excepcional en la generación y edición de imágenes a partir de texto. Sin embargo, los métodos existentes suelen enfrentar desafíos al manejar instrucciones textuales complejas que involucran múltiples objetos con múltiples atributos y relaciones. En este artículo, proponemos un nuevo marco de generación/edición de imágenes a partir de texto que no requiere entrenamiento, denominado Recaption, Plan and Generate (RPG), aprovechando la potente capacidad de razonamiento en cadena de los modelos de lenguaje multimodal (MLLM) para mejorar la composicionalidad de los modelos de difusión de texto a imagen. Nuestro enfoque utiliza el MLLM como un planificador global para descomponer el proceso de generación de imágenes complejas en múltiples tareas de generación más simples dentro de subregiones. Proponemos una difusión regional complementaria para permitir la generación composicional por regiones. Además, integramos la generación y edición de imágenes guiada por texto dentro del RPG propuesto de manera en bucle cerrado, mejorando así la capacidad de generalización. Experimentos exhaustivos demuestran que nuestro RPG supera a los modelos de difusión de texto a imagen más avanzados, incluyendo DALL-E 3 y SDXL, particularmente en la composición de objetos de múltiples categorías y la alineación semántica entre texto e imagen. Cabe destacar que nuestro marco RPG exhibe una amplia compatibilidad con diversas arquitecturas de MLLM (por ejemplo, MiniGPT-4) y backbones de difusión (por ejemplo, ControlNet). Nuestro código está disponible en: https://github.com/YangLing0818/RPG-DiffusionMaster
Los modelos de difusión de texto a imagen son una clase de modelos generativos profundos que han demostrado una capacidad impresionante para la generación de imágenes de alta calidad. Sin embargo, estos modelos son susceptibles a sesgos implícitos que surgen de pares de texto-imagen entrenados a escala web y pueden modelar de manera inexacta aspectos de las imágenes que nos importan. Esto puede resultar en muestras subóptimas, sesgos en el modelo e imágenes que no se alinean con la ética y las preferencias humanas. En este artículo, presentamos un algoritmo escalable y efectivo para mejorar los modelos de difusión utilizando Aprendizaje por Refuerzo (RL) a través de un conjunto diverso de funciones de recompensa, como la preferencia humana, la composicionalidad y la equidad, aplicado a millones de imágenes. Demostramos cómo nuestro enfoque supera sustancialmente los métodos existentes para alinear los modelos de difusión con las preferencias humanas. Además, ilustramos cómo esto mejora significativamente los modelos preentrenados de Stable Diffusion (SD), generando muestras que son preferidas por humanos en un 80.3% de los casos en comparación con las del modelo base SD, al mismo tiempo que mejora tanto la composición como la diversidad de las muestras generadas.
Comprender y razonar sobre relaciones espaciales es una capacidad fundamental para la Respuesta Visual a Preguntas (VQA, por sus siglas en inglés) y la robótica. Aunque los Modelos de Lenguaje Visual (VLM, por sus siglas en inglés) han demostrado un rendimiento notable en ciertos benchmarks de VQA, aún carecen de capacidades en el razonamiento espacial 3D, como reconocer relaciones cuantitativas de objetos físicos, como distancias o diferencias de tamaño. Nuestra hipótesis es que la limitada capacidad de razonamiento espacial de los VLMs se debe a la falta de conocimiento espacial 3D en los datos de entrenamiento, y nuestro objetivo es resolver este problema entrenando VLMs con datos de razonamiento espacial a escala de Internet. Para ello, presentamos un sistema que facilita este enfoque. Primero, desarrollamos un marco de generación automática de datos de VQA espacial 3D que escala hasta 2 mil millones de ejemplos de VQA en 10 millones de imágenes del mundo real. Luego, investigamos varios factores en la receta de entrenamiento, incluyendo la calidad de los datos, la pipeline de entrenamiento y la arquitectura del VLM. Nuestro trabajo presenta el primer conjunto de datos de razonamiento espacial 3D a escala de Internet en espacio métrico. Al entrenar un VLM con estos datos, mejoramos significativamente su capacidad en VQA espacial tanto cualitativa como cuantitativa. Finalmente, demostramos que este VLM desbloquea nuevas aplicaciones descendentes en razonamiento espacial de cadena de pensamiento y robótica, gracias a su capacidad de estimación cuantitativa. Sitio web del proyecto: https://spatial-vlm.github.io/
A medida que las capacidades de los modelos multimodales grandes (LMMs) continúan avanzando, surge una creciente necesidad de evaluar su rendimiento. Además, existe una brecha aún mayor en la evaluación de las habilidades avanzadas de conocimiento y razonamiento de los LMMs en contextos no ingleses, como el chino. Presentamos CMMMU, un nuevo benchmark de Comprensión Multimodal Multidisciplinaria Masiva en Chino, diseñado para evaluar LMMs en tareas que requieren conocimiento de nivel universitario y razonamiento deliberado en un contexto chino. CMMMU está inspirado y sigue estrictamente el patrón de anotación y análisis de MMMU. CMMMU incluye 12k preguntas multimodales recopiladas manualmente de exámenes universitarios, cuestionarios y libros de texto, cubriendo seis disciplinas principales: Arte y Diseño, Negocios, Ciencia, Salud y Medicina, Humanidades y Ciencias Sociales, y Tecnología e Ingeniería, al igual que su contraparte, MMMU. Estas preguntas abarcan 30 materias y comprenden 39 tipos de imágenes altamente heterogéneas, como gráficos, diagramas, mapas, tablas, partituras musicales y estructuras químicas. CMMMU se centra en la percepción compleja y el razonamiento con conocimiento específico del dominio en el contexto chino. Evaluamos 11 LLMs de código abierto y uno propietario, GPT-4V(isión). Incluso GPT-4V solo alcanza precisiones del 42%, lo que indica un amplio margen de mejora. CMMMU impulsará a la comunidad a construir la próxima generación de LMMs hacia la inteligencia artificial experta y promoverá la democratización de los LMMs al proporcionar contextos lingüísticos diversos.
Las radiografías de tórax (CXR, por sus siglas en inglés) son la prueba de imagen más frecuentemente realizada en la práctica clínica. Los recientes avances en el desarrollo de modelos fundamentales de visión y lenguaje (FMs, por sus siglas en inglés) abren la posibilidad de realizar una interpretación automatizada de las CXR, lo que puede asistir a los médicos en la toma de decisiones clínicas y mejorar los resultados de los pacientes. Sin embargo, desarrollar FMs que puedan interpretar con precisión las CXR es un desafío debido a (1) la disponibilidad limitada de conjuntos de datos a gran escala de visión y lenguaje en el dominio de imágenes médicas, (2) la falta de codificadores de visión y lenguaje que puedan capturar las complejidades de los datos médicos, y (3) la ausencia de marcos de evaluación para comparar las capacidades de los FMs en la interpretación de CXR. En este trabajo, abordamos estos desafíos introduciendo primero CheXinstruct, un conjunto de datos de ajuste por instrucciones a gran escala curado a partir de 28 conjuntos de datos disponibles públicamente. Luego presentamos CheXagent, un FM ajustado por instrucciones capaz de analizar y resumir CXR. Para construir CheXagent, diseñamos un modelo de lenguaje grande (LLM, por sus siglas en inglés) clínico para analizar informes radiológicos, un codificador de visión para representar imágenes de CXR y una red para conectar las modalidades de visión y lenguaje. Finalmente, introducimos CheXbench, un nuevo punto de referencia diseñado para evaluar sistemáticamente los FMs en 8 tareas clínicamente relevantes de interpretación de CXR. Evaluaciones cuantitativas exhaustivas y revisiones cualitativas con cinco radiólogos expertos demuestran que CheXagent supera a los FMs previamente desarrollados tanto en el dominio general como en el médico en las tareas de CheXbench. Además, en un esfuerzo por mejorar la transparencia del modelo, realizamos una evaluación de equidad en factores de sexo, raza y edad para resaltar posibles disparidades en el rendimiento. Nuestro proyecto se encuentra en https://stanford-aimi.github.io/chexagent.html.
Presentamos el Transformer de Difusión Reloj de Arena (HDiT), un modelo generativo de imágenes que exhibe un escalado lineal con el número de píxeles, permitiendo el entrenamiento en alta resolución (por ejemplo, 1024 × 1024) directamente en el espacio de píxeles. Basado en la arquitectura Transformer, conocida por escalar a miles de millones de parámetros, este modelo cierra la brecha entre la eficiencia de las U-Nets convolucionales y la escalabilidad de los Transformers. HDiT se entrena con éxito sin técnicas típicas de entrenamiento en alta resolución, como arquitecturas multiescala, autoencodificadores latentes o auto-condicionamiento. Demostramos que HDiT compite con los modelos existentes en ImageNet 256^2 y establece un nuevo estado del arte para los modelos de difusión en FFHQ-1024^2.
Proponemos Diffusion Inference-Time T-Optimization (DITTO), un marco de trabajo de propósito general para controlar modelos de difusión preentrenados de texto a música durante el tiempo de inferencia mediante la optimización de latentes de ruido iniciales. Nuestro método puede utilizarse para optimizar a través de cualquier función de pérdida diferenciable de coincidencia de características para lograr una salida objetivo (estilizada) y aprovecha el checkpointing de gradientes para una mayor eficiencia de memoria. Demostramos una sorprendente variedad de aplicaciones para la generación de música, incluyendo inpainting, outpainting y looping, así como control de intensidad, melodía y estructura musical, todo ello sin necesidad de ajustar el modelo subyacente. Al comparar nuestro enfoque con métodos relacionados basados en entrenamiento, guía y optimización, encontramos que DITTO logra un rendimiento de vanguardia en casi todas las tareas, superando a enfoques comparables en términos de controlabilidad, calidad de audio y eficiencia computacional, abriendo así la puerta a un control de alta calidad, flexible y sin entrenamiento de modelos de difusión. Ejemplos de sonido pueden encontrarse en https://DITTO-Music.github.io/web/.
Alinear modelos de lenguaje grandes (LLMs) con las preferencias humanas mediante aprendizaje por refuerzo (RLHF) puede llevar al hackeo de recompensas, donde los LLMs explotan fallas en el modelo de recompensa (RM) para lograr recompensas aparentemente altas sin cumplir los objetivos subyacentes. Identificamos dos desafíos principales al diseñar RMs para mitigar el hackeo de recompensas: cambios de distribución durante el proceso de RL e inconsistencias en las preferencias humanas. Como solución, proponemos Modelos de Recompensa con Promedio de Pesos (WARM), que primero ajustan múltiples RMs y luego los promedian en el espacio de pesos. Esta estrategia se basa en la observación de que los pesos ajustados permanecen linealmente conectados en modo cuando comparten la misma preentrenamiento. Al promediar pesos, WARM mejora la eficiencia en comparación con el ensamblado tradicional de predicciones, mientras aumenta la confiabilidad ante cambios de distribución y la robustez frente a inconsistencias en las preferencias. Nuestros experimentos en tareas de resumen, utilizando métodos de mejor-de-N y RL, muestran que WARM mejora la calidad general y la alineación de las predicciones de los LLMs; por ejemplo, una política ajustada con RL usando WARM tiene una tasa de victoria del 79.4% frente a una política ajustada con RL usando un solo RM.
Los modelos de difusión han recibido recientemente una creciente atención en la investigación debido a sus notables capacidades de transferencia en tareas de segmentación semántica. Sin embargo, generar máscaras de segmentación detalladas con modelos de difusión a menudo requiere entrenamiento adicional en conjuntos de datos anotados, lo que deja en duda hasta qué punto los modelos de difusión preentrenados comprenden por sí solos las relaciones semánticas de las imágenes que generan. Para abordar esta cuestión, aprovechamos el conocimiento semántico extraído de Stable Diffusion (SD) y buscamos desarrollar un segmentador de imágenes capaz de generar mapas de segmentación detallados sin necesidad de entrenamiento adicional. La principal dificultad radica en que los mapas de características semánticamente significativos suelen existir únicamente en las capas de menor dimensión espacial, lo que representa un desafío para extraer directamente relaciones semánticas a nivel de píxeles de estos mapas de características. Para superar este problema, nuestro marco identifica correspondencias semánticas entre los píxeles de la imagen y las ubicaciones espaciales de los mapas de características de baja dimensión, aprovechando el proceso de generación de SD, y las utiliza para construir mapas de segmentación a resolución de imagen. En experimentos exhaustivos, los mapas de segmentación producidos demuestran estar bien delineados y capturar partes detalladas de las imágenes, lo que indica la existencia de un conocimiento semántico altamente preciso a nivel de píxeles en los modelos de difusión.
Se han logrado avances significativos en el entrenamiento de modelos generativos grandes para lenguaje natural e imágenes. Sin embargo, el progreso de los modelos generativos 3D se ve obstaculizado por sus considerables demandas de recursos para el entrenamiento, junto con representaciones ineficientes, no compactas y menos expresivas. Este artículo presenta Make-A-Shape, un nuevo modelo generativo 3D diseñado para un entrenamiento eficiente a gran escala, capaz de utilizar 10 millones de formas disponibles públicamente. Técnicamente, primero innovamos una representación de árbol de wavelets para codificar formas de manera compacta, formulando un esquema de filtrado de coeficientes de subbandas que explota eficientemente las relaciones entre coeficientes. Luego, hacemos que esta representación sea generable mediante un modelo de difusión, ideando un esquema de empaquetado de coeficientes de subbandas para organizar la representación en una cuadrícula de baja resolución. Además, derivamos una estrategia de entrenamiento adaptativo de subbandas para entrenar nuestro modelo y que aprenda efectivamente a generar coeficientes de wavelets tanto gruesos como detallados. Por último, extendemos nuestro marco para que pueda ser controlado por condiciones de entrada adicionales, permitiéndole generar formas a partir de diversas modalidades, como imágenes de una/múltiples vistas, nubes de puntos y vóxeles de baja resolución. En nuestro extenso conjunto de experimentos, demostramos diversas aplicaciones, como generación incondicional, completado de formas y generación condicional en una amplia gama de modalidades. Nuestro enfoque no solo supera el estado del arte al ofrecer resultados de alta calidad, sino que también genera formas de manera eficiente en pocos segundos, logrando esto en solo 2 segundos para la mayoría de las condiciones.
En este estudio, presentamos Orion-14B, una colección de modelos de lenguaje grande multilingüe con 14 mil millones de parámetros. Utilizamos un enfoque de programación de datos para entrenar un modelo base en un corpus diverso de 2.5 billones de tokens, obtenidos de textos en inglés, chino, japonés, coreano y otros idiomas. Además, ajustamos una serie de modelos específicamente diseñados para aplicaciones conversacionales y otros casos de uso particulares. Nuestros resultados de evaluación demuestran que Orion-14B alcanza un rendimiento de vanguardia en una amplia gama de tareas. Hacemos pública la familia de modelos Orion-14B y su código asociado en https://github.com/OrionStarAI/Orion, con el objetivo de inspirar futuras investigaciones y aplicaciones prácticas en el campo.
Los recientes avances en los modelos de lenguaje (LM) han demostrado un rendimiento impresionante en la conversión de voz (VC) en modo zero-shot. Sin embargo, los modelos de VC basados en LM existentes suelen aplicar una conversión offline desde la semántica de origen a las características acústicas, lo que requiere el discurso de origen completo y limita su implementación en aplicaciones en tiempo real. En este artículo, presentamos StreamVoice, un novedoso modelo basado en LM para VC en modo zero-shot que facilita la conversión en tiempo real dado cualquier prompt de hablante y discurso de origen. Específicamente, para habilitar la capacidad de streaming, StreamVoice emplea un LM completamente causal con conciencia del contexto y un predictor acústico independiente del tiempo, mientras procesa alternativamente características semánticas y acústicas en cada paso de tiempo de la autoregresión, lo que elimina la dependencia del discurso de origen completo. Para abordar la posible degradación del rendimiento debido al contexto incompleto en el procesamiento de streaming, mejoramos la conciencia del contexto del LM mediante dos estrategias: 1) previsión de contexto guiada por un modelo maestro, utilizando un modelo maestro para resumir el contexto semántico presente y futuro durante el entrenamiento para guiar la previsión del modelo sobre el contexto faltante; 2) estrategia de enmascaramiento semántico, promoviendo la predicción acústica a partir de la entrada semántica y acústica precedente corrompida, mejorando la capacidad de aprendizaje del contexto. Cabe destacar que StreamVoice es el primer modelo de VC en modo zero-shot basado en LM sin ningún tipo de mirada hacia adelante. Los resultados experimentales demuestran la capacidad de conversión en streaming de StreamVoice mientras mantiene un rendimiento zero-shot comparable a los sistemas de VC no streaming.
En los últimos años se han logrado avances notables en los campos de visión, lenguaje y robótica. Actualmente contamos con modelos de visión capaces de reconocer objetos basados en consultas de lenguaje, sistemas de navegación que pueden controlar eficazmente sistemas móviles, y modelos de manipulación que pueden manejar una amplia variedad de objetos. A pesar de estos progresos, las aplicaciones de robótica de propósito general aún están rezagadas, aunque dependen de estas capacidades fundamentales de reconocimiento, navegación y manipulación. En este artículo, adoptamos un enfoque centrado en sistemas para desarrollar un nuevo marco de robótica basado en Conocimiento Abierto llamado OK-Robot. Al combinar Modelos de Visión-Lenguaje (VLMs) para la detección de objetos, primitivas de navegación para el movimiento y primitivas de manipulación para la interacción con objetos, OK-Robot ofrece una solución integrada para operaciones de recoger y soltar sin requerir ningún entrenamiento. Para evaluar su rendimiento, ejecutamos OK-Robot en 10 entornos domésticos del mundo real. Los resultados demuestran que OK-Robot alcanza una tasa de éxito del 58.5% en tareas abiertas de recoger y soltar, estableciendo un nuevo estado del arte en Manipulación Móvil de Vocabulario Abierto (OVMM) con un rendimiento casi 1.8 veces superior al de trabajos previos. En entornos más limpios y ordenados, el rendimiento de OK-Robot aumenta al 82%. Sin embargo, la conclusión más importante obtenida de OK-Robot es el papel crítico de los detalles sutiles al combinar sistemas de Conocimiento Abierto como los VLMs con módulos robóticos. Los videos de nuestros experimentos están disponibles en nuestro sitio web: https://ok-robot.github.io
Los recientes avances en la generación de avatares 3D han captado una atención significativa. Estos avances buscan producir avatares animables más realistas, reduciendo la brecha entre las experiencias virtuales y las del mundo real. La mayoría de los trabajos existentes emplean la pérdida de Muestreo de Distilación de Puntaje (SDS, por sus siglas en inglés), combinada con un renderizador diferenciable y una condición de texto, para guiar un modelo de difusión en la generación de avatares 3D. Sin embargo, SDS a menudo genera resultados demasiado suavizados con pocos detalles faciales, careciendo así de la diversidad en comparación con el muestreo ancestral. Por otro lado, otros trabajos generan avatares 3D a partir de una sola imagen, donde los desafíos de efectos de iluminación no deseados, perspectivas visuales y calidad inferior de la imagen dificultan la reconstrucción confiable de mallas faciales 3D con texturas completas alineadas. En este artículo, proponemos un nuevo enfoque de generación de avatares 3D denominado UltrAvatar, que mejora la fidelidad de la geometría y la calidad superior de las texturas basadas en renderizado físico (PBR, por sus siglas en inglés) sin iluminación no deseada. Para ello, el enfoque propuesto presenta un modelo de extracción de color difuso y un modelo de difusión de texturas guiado por autenticidad. El primero elimina los efectos de iluminación no deseados para revelar los verdaderos colores difusos, de modo que los avatares generados puedan renderizarse bajo diversas condiciones de iluminación. El segundo sigue dos guías basadas en gradientes para generar texturas PBR que renderizan características y detalles de identidad facial más diversos, alineándose mejor con la geometría de la malla 3D. Demostramos la efectividad y robustez del método propuesto, superando ampliamente a los métodos más avanzados en los experimentos.
En este artículo, presentamos Human-LRM, un modelo de reconstrucción grande (Large Reconstruction Model) de una sola etapa y de avance directo, diseñado para predecir campos de radiancia neural (NeRF) humanos a partir de una sola imagen. Nuestro enfoque demuestra una notable adaptabilidad durante el entrenamiento utilizando extensos conjuntos de datos que incluyen escaneos 3D y capturas multivista. Además, para mejorar la aplicabilidad del modelo en escenarios del mundo real, especialmente con oclusiones, proponemos una estrategia novedosa que destila la reconstrucción multivista en una sola vista mediante un modelo de difusión de triplanos condicional. Esta extensión generativa aborda las variaciones inherentes en las formas del cuerpo humano cuando se observan desde una sola vista, y hace posible reconstruir el cuerpo humano completo a partir de una imagen ocluida. A través de experimentos exhaustivos, demostramos que Human-LRM supera a métodos anteriores por un margen significativo en varios puntos de referencia.
Simular con precisión la dinámica de objetos del mundo real es esencial para diversas aplicaciones como la robótica, la ingeniería, los gráficos y el diseño. Para capturar mejor dinámicas complejas del mundo real, como el contacto y la fricción, los simuladores basados en aprendizaje mediante redes de grafos han mostrado recientemente un gran potencial. Sin embargo, aplicar estos simuladores aprendidos a escenas reales presenta dos desafíos principales: primero, escalar los simuladores aprendidos para manejar la complejidad de escenas del mundo real, que pueden involucrar cientos de objetos, cada uno con formas 3D complicadas, y segundo, manejar entradas provenientes de la percepción en lugar de información de estado 3D. Aquí presentamos un método que reduce sustancialmente la memoria requerida para ejecutar simuladores aprendidos basados en grafos. Basándonos en este modelo de simulación eficiente en memoria, presentamos luego una interfaz perceptual en forma de NeRFs editables que pueden convertir escenas del mundo real en una representación estructurada que puede ser procesada por un simulador de red de grafos. Demostramos que nuestro método utiliza significativamente menos memoria que los simuladores basados en grafos anteriores, manteniendo su precisión, y que los simuladores aprendidos en entornos sintéticos pueden aplicarse a escenas del mundo real capturadas desde múltiples ángulos de cámara. Esto allana el camino para expandir la aplicación de simuladores aprendidos a entornos donde solo se dispone de información perceptual en el momento de la inferencia.
La Realidad Virtual (VR) promete interacciones sociales que pueden sentirse más inmersivas que otros medios. La clave de esto es la capacidad de animar con precisión un avatar fotorrealista que represente la apariencia de uno mientras se usa un casco de VR. Aunque es posible registrar avatares específicos para cada persona con imágenes de cámaras montadas en el casco (HMC) de alta calidad en un entorno fuera de línea, el rendimiento de los modelos genéricos en tiempo real se degrada significativamente. El registro en línea también es desafiante debido a las vistas oblicuas de la cámara y las diferencias en la modalidad. En este trabajo, primero demostramos que la brecha de dominio entre el avatar y las imágenes de la cámara del casco es una de las principales fuentes de dificultad, donde una arquitectura basada en transformadores logra una alta precisión en datos consistentes en el dominio, pero se degrada cuando se reintroduce la brecha de dominio. Basándonos en este hallazgo, desarrollamos un diseño de sistema que desacopla el problema en dos partes: 1) un módulo de refinamiento iterativo que toma entradas dentro del dominio, y 2) un módulo genérico de transferencia de estilo de imagen a imagen guiado por el avatar que está condicionado por la estimación actual de la expresión y la pose de la cabeza. Estos dos módulos se refuerzan mutuamente, ya que la transferencia de estilo de imagen se vuelve más fácil cuando se muestran ejemplos cercanos a la verdad fundamental, y una mejor eliminación de la brecha de dominio ayuda al registro. Nuestro sistema produce resultados de alta calidad de manera eficiente, eliminando la necesidad de un registro fuera de línea costoso para generar etiquetas personalizadas. Validamos la precisión y eficiencia de nuestro enfoque a través de extensos experimentos en un casco comercial, demostrando mejoras significativas sobre los métodos de regresión directa, así como sobre el registro fuera de línea.