Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han logrado avances significativos en la percepción y razonamiento multimodal. Además, cuando se integran de manera fluida en un agente encarnado, representan un paso crucial hacia la creación de sistemas autónomos y conscientes del contexto, capaces de formular planes y ejecutar comandos con precisión. En este artículo, presentamos Octopus, un nuevo VLM diseñado para descifrar de manera competente los objetivos visuales y textuales de un agente, así como para formular secuencias de acciones complejas y generar código ejecutable. Nuestro diseño permite que el agente maneje hábilmente una amplia gama de tareas, desde tareas cotidianas en simuladores hasta interacciones sofisticadas en videojuegos complejos. Octopus se entrena aprovechando GPT-4 para controlar un agente exploratorio y generar datos de entrenamiento, es decir, planes de acción y el código ejecutable correspondiente, dentro de nuestro entorno experimental llamado OctoVerse. También recopilamos comentarios que permiten un esquema de entrenamiento mejorado mediante Aprendizaje por Refuerzo con Retroalimentación Ambiental (RLEF, por sus siglas en inglés). A través de una serie de experimentos, ilustramos la funcionalidad de Octopus y presentamos resultados convincentes, demostrando que el RLEF propuesto refina la toma de decisiones del agente. Al hacer de código abierto nuestra arquitectura de modelo, simulador y conjunto de datos, aspiramos a impulsar una mayor innovación y fomentar aplicaciones colaborativas dentro de la comunidad más amplia de IA encarnada.
Presentamos Lemur y Lemur-Chat, modelos de lenguaje de acceso abierto optimizados tanto para capacidades de lenguaje natural como de programación, diseñados para servir como la base de agentes de lenguaje versátiles. La evolución desde modelos de chat de lenguaje hacia agentes de lenguaje funcionales exige que los modelos no solo dominen la interacción humana, el razonamiento y la planificación, sino que también aseguren un anclaje en los entornos relevantes. Esto requiere una armoniosa combinación de capacidades de lenguaje y programación en los modelos. Lemur y Lemur-Chat se proponen para abordar esta necesidad, demostrando competencias equilibradas en ambos dominios, a diferencia de los modelos de código abierto existentes que tienden a especializarse en uno u otro. A través de un preentrenamiento meticuloso utilizando un corpus intensivo en código y un ajuste fino mediante instrucciones sobre datos de texto y código, nuestros modelos logran un rendimiento promedio de vanguardia en diversos puntos de referencia de texto y programación entre los modelos de código abierto. Experimentos exhaustivos demuestran la superioridad de Lemur sobre los modelos de código abierto existentes y su competencia en diversas tareas de agentes que involucran comunicación humana, uso de herramientas e interacción en entornos completamente y parcialmente observables. La armonización entre los lenguajes naturales y de programación permite que Lemur-Chat reduzca significativamente la brecha con los modelos propietarios en habilidades de agentes, proporcionando ideas clave para el desarrollo de agentes de código abierto avanzados, hábiles en razonamiento, planificación y operación sin problemas en diversos entornos. https://github.com/OpenLemur/Lemur
Presentamos "Idea to Image", un sistema que permite la autorrefinación multimodal iterativa con GPT-4V(isión) para el diseño y generación automática de imágenes. Los humanos pueden identificar rápidamente las características de diferentes modelos de texto a imagen (T2I) mediante exploraciones iterativas. Esto les permite convertir eficientemente sus ideas de generación de alto nivel en indicaciones T2I efectivas que pueden producir buenas imágenes. Investigamos si los sistemas basados en modelos multimodales grandes (LMMs) pueden desarrollar habilidades análogas de autorrefinación multimodal que permitan explorar modelos o entornos desconocidos mediante intentos de autorrefinación. Idea2Img genera cíclicamente indicaciones T2I revisadas para sintetizar imágenes preliminares y proporciona retroalimentación direccional para la revisión de indicaciones, todo ello condicionado por su memoria de las características del modelo T2I explorado. La autorrefinación iterativa otorga a Idea2Img varias ventajas sobre los modelos T2I convencionales. En particular, Idea2Img puede procesar ideas de entrada con secuencias intercaladas de texto e imagen, seguir ideas con instrucciones de diseño y generar imágenes de mejor calidad semántica y visual. El estudio de preferencia del usuario valida la eficacia de la autorrefinación multimodal iterativa en el diseño y generación automática de imágenes.
En tiempos recientes, la generación de activos 3D a partir de indicaciones de texto ha mostrado resultados impresionantes. Tanto los modelos de difusión 2D como 3D pueden generar objetos 3D decentes basados en indicaciones. Los modelos de difusión 3D tienen una buena consistencia 3D, pero su calidad y generalización están limitadas debido a que los datos 3D entrenables son costosos y difíciles de obtener. Los modelos de difusión 2D disfrutan de una fuerte capacidad de generalización y generación detallada, pero es difícil garantizar la consistencia 3D. Este artículo intenta unir el poder de ambos tipos de modelos de difusión mediante la reciente representación explícita y eficiente de splatting con Gaussianas 3D. Se propone un marco rápido de generación 3D, denominado \name, donde el modelo de difusión 3D proporciona priores de nube de puntos para la inicialización y el modelo de difusión 2D enriquece la geometría y la apariencia. Se introducen operaciones de crecimiento de puntos ruidosos y perturbación de color para mejorar las Gaussianas inicializadas. Nuestro \name puede generar una instancia 3D de alta calidad en menos de 25 minutos en una GPU, mucho más rápido que los métodos anteriores, mientras que las instancias generadas pueden renderizarse directamente en tiempo real. Demostraciones y código están disponibles en https://taoranyi.com/gaussiandreamer/.
A pesar de los avances significativos en los modelos de texto a imagen a gran escala, lograr la generación de imágenes humanas hiperrealistas sigue siendo una tarea deseada pero no resuelta. Modelos existentes como Stable Diffusion y DALL-E 2 tienden a generar imágenes humanas con partes incoherentes o poses poco naturales. Para abordar estos desafíos, nuestra idea clave es que la imagen humana es inherentemente estructural en múltiples niveles de granularidad, desde el esqueleto corporal a nivel general hasta la geometría espacial detallada. Por lo tanto, capturar estas correlaciones entre la apariencia explícita y la estructura latente en un solo modelo es esencial para generar imágenes humanas coherentes y naturales. Con este fin, proponemos un marco unificado, HyperHuman, que genera imágenes humanas en entornos naturales con alto realismo y diseños diversos. Específicamente, 1) primero construimos un conjunto de datos a gran escala centrado en humanos, llamado HumanVerse, que consta de 340 millones de imágenes con anotaciones completas como pose humana, profundidad y normal de superficie. 2) A continuación, proponemos un Modelo de Difusión Estructural Latente que simultáneamente elimina el ruido de la profundidad y la normal de superficie junto con la imagen RGB sintetizada. Nuestro modelo fomenta el aprendizaje conjunto de la apariencia de la imagen, la relación espacial y la geometría en una red unificada, donde cada rama del modelo se complementa entre sí con conciencia estructural y riqueza textural. 3) Finalmente, para mejorar aún más la calidad visual, proponemos un Refinador Guiado por Estructura para componer las condiciones predichas para una generación más detallada de mayor resolución. Experimentos extensos demuestran que nuestro marco ofrece un rendimiento de vanguardia, generando imágenes humanas hiperrealistas en diversos escenarios. Página del proyecto: https://snap-research.github.io/HyperHuman/
Los modelos de difusión preentrenados a gran escala han demostrado capacidades notables en la generación diversa de videos. Dado un conjunto de clips de video que representan el mismo concepto de movimiento, la tarea de Personalización de Movimiento consiste en adaptar los modelos de difusión de texto a video existentes para generar videos con dicho movimiento. Por ejemplo, generar un video de un automóvil moviéndose de una manera prescrita bajo movimientos específicos de cámara para crear una película, o un video que ilustre cómo un oso levantaría pesas para inspirar a creadores. Se han desarrollado métodos de adaptación para personalizar aspectos como el sujeto o el estilo, pero aún no se han explorado para el movimiento. Es sencillo extender los métodos principales de adaptación para la personalización de movimiento, incluyendo el ajuste completo del modelo, el ajuste eficiente en parámetros de capas adicionales y las Adaptaciones de Bajo Rango (LoRAs). Sin embargo, el concepto de movimiento aprendido por estos métodos a menudo está acoplado con las apariencias limitadas en los videos de entrenamiento, lo que dificulta generalizar el movimiento personalizado a otras apariencias. Para superar este desafío, proponemos MotionDirector, con una arquitectura de LoRAs de doble vía para desacoplar el aprendizaje de apariencia y movimiento. Además, diseñamos una nueva pérdida temporal desviada de apariencia para mitigar la influencia de la apariencia en el objetivo de entrenamiento temporal. Los resultados experimentales muestran que el método propuesto puede generar videos de diversas apariencias para los movimientos personalizados. Nuestro método también admite varias aplicaciones posteriores, como la mezcla de diferentes videos con su apariencia y movimiento respectivamente, y la animación de una sola imagen con movimientos personalizados. Nuestro código y pesos del modelo serán publicados.