HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

6 papers found

Octopus: Programador Visión-Lenguaje Encarnado a partir de Retroalimentación Ambiental
Octopus: Embodied Vision-Language Programmer from Environmental Feedback

Oct 12

ByJingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu

Los grandes modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han logrado avances significativos en la percepción y razonamiento multimodal. Además, cuando se integran de manera fluida en un agente encarnado, representan un paso crucial hacia la creación de sistemas autónomos y conscientes del contexto, capaces de formular planes y ejecutar comandos con precisión. En este artículo, presentamos Octopus, un nuevo VLM diseñado para descifrar de manera competente los objetivos visuales y textuales de un agente, así como para formular secuencias de acciones complejas y generar código ejecutable. Nuestro diseño permite que el agente maneje hábilmente una amplia gama de tareas, desde tareas cotidianas en simuladores hasta interacciones sofisticadas en videojuegos complejos. Octopus se entrena aprovechando GPT-4 para controlar un agente exploratorio y generar datos de entrenamiento, es decir, planes de acción y el código ejecutable correspondiente, dentro de nuestro entorno experimental llamado OctoVerse. También recopilamos comentarios que permiten un esquema de entrenamiento mejorado mediante Aprendizaje por Refuerzo con Retroalimentación Ambiental (RLEF, por sus siglas en inglés). A través de una serie de experimentos, ilustramos la funcionalidad de Octopus y presentamos resultados convincentes, demostrando que el RLEF propuesto refina la toma de decisiones del agente. Al hacer de código abierto nuestra arquitectura de modelo, simulador y conjunto de datos, aspiramos a impulsar una mayor innovación y fomentar aplicaciones colaborativas dentro de la comunidad más amplia de IA encarnada.

Lemur: Armonizando el Lenguaje Natural y el Código para Agentes de Lenguaje
Lemur: Harmonizing Natural Language and Code for Language Agents

Oct 10

ByYiheng Xu, Hongjin Su, Chen Xing, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu

Presentamos Lemur y Lemur-Chat, modelos de lenguaje de acceso abierto optimizados tanto para capacidades de lenguaje natural como de programación, diseñados para servir como la base de agentes de lenguaje versátiles. La evolución desde modelos de chat de lenguaje hacia agentes de lenguaje funcionales exige que los modelos no solo dominen la interacción humana, el razonamiento y la planificación, sino que también aseguren un anclaje en los entornos relevantes. Esto requiere una armoniosa combinación de capacidades de lenguaje y programación en los modelos. Lemur y Lemur-Chat se proponen para abordar esta necesidad, demostrando competencias equilibradas en ambos dominios, a diferencia de los modelos de código abierto existentes que tienden a especializarse en uno u otro. A través de un preentrenamiento meticuloso utilizando un corpus intensivo en código y un ajuste fino mediante instrucciones sobre datos de texto y código, nuestros modelos logran un rendimiento promedio de vanguardia en diversos puntos de referencia de texto y programación entre los modelos de código abierto. Experimentos exhaustivos demuestran la superioridad de Lemur sobre los modelos de código abierto existentes y su competencia en diversas tareas de agentes que involucran comunicación humana, uso de herramientas e interacción en entornos completamente y parcialmente observables. La armonización entre los lenguajes naturales y de programación permite que Lemur-Chat reduzca significativamente la brecha con los modelos propietarios en habilidades de agentes, proporcionando ideas clave para el desarrollo de agentes de código abierto avanzados, hábiles en razonamiento, planificación y operación sin problemas en diversos entornos. https://github.com/OpenLemur/Lemur

Idea2Img: Refinamiento Iterativo Automatizado con GPT-4V(isión) para el Diseño y Generación de Imágenes
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

Oct 12

ByZhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang

Presentamos "Idea to Image", un sistema que permite la autorrefinación multimodal iterativa con GPT-4V(isión) para el diseño y generación automática de imágenes. Los humanos pueden identificar rápidamente las características de diferentes modelos de texto a imagen (T2I) mediante exploraciones iterativas. Esto les permite convertir eficientemente sus ideas de generación de alto nivel en indicaciones T2I efectivas que pueden producir buenas imágenes. Investigamos si los sistemas basados en modelos multimodales grandes (LMMs) pueden desarrollar habilidades análogas de autorrefinación multimodal que permitan explorar modelos o entornos desconocidos mediante intentos de autorrefinación. Idea2Img genera cíclicamente indicaciones T2I revisadas para sintetizar imágenes preliminares y proporciona retroalimentación direccional para la revisión de indicaciones, todo ello condicionado por su memoria de las características del modelo T2I explorado. La autorrefinación iterativa otorga a Idea2Img varias ventajas sobre los modelos T2I convencionales. En particular, Idea2Img puede procesar ideas de entrada con secuencias intercaladas de texto e imagen, seguir ideas con instrucciones de diseño y generar imágenes de mejor calidad semántica y visual. El estudio de preferencia del usuario valida la eficacia de la autorrefinación multimodal iterativa en el diseño y generación automática de imágenes.

GaussianDreamer: Generación Rápida de Texto a 3D Gaussian Splatting con Prioridades de Nube de Puntos
GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors

Oct 12

ByTaoran Yi, Jiemin Fang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang

En tiempos recientes, la generación de activos 3D a partir de indicaciones de texto ha mostrado resultados impresionantes. Tanto los modelos de difusión 2D como 3D pueden generar objetos 3D decentes basados en indicaciones. Los modelos de difusión 3D tienen una buena consistencia 3D, pero su calidad y generalización están limitadas debido a que los datos 3D entrenables son costosos y difíciles de obtener. Los modelos de difusión 2D disfrutan de una fuerte capacidad de generalización y generación detallada, pero es difícil garantizar la consistencia 3D. Este artículo intenta unir el poder de ambos tipos de modelos de difusión mediante la reciente representación explícita y eficiente de splatting con Gaussianas 3D. Se propone un marco rápido de generación 3D, denominado \name, donde el modelo de difusión 3D proporciona priores de nube de puntos para la inicialización y el modelo de difusión 2D enriquece la geometría y la apariencia. Se introducen operaciones de crecimiento de puntos ruidosos y perturbación de color para mejorar las Gaussianas inicializadas. Nuestro \name puede generar una instancia 3D de alta calidad en menos de 25 minutos en una GPU, mucho más rápido que los métodos anteriores, mientras que las instancias generadas pueden renderizarse directamente en tiempo real. Demostraciones y código están disponibles en https://taoranyi.com/gaussiandreamer/.

HyperHuman: Generación Hiperrealista de Humanos con Difusión Estructural Latente
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

Oct 12

ByXian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov

A pesar de los avances significativos en los modelos de texto a imagen a gran escala, lograr la generación de imágenes humanas hiperrealistas sigue siendo una tarea deseada pero no resuelta. Modelos existentes como Stable Diffusion y DALL-E 2 tienden a generar imágenes humanas con partes incoherentes o poses poco naturales. Para abordar estos desafíos, nuestra idea clave es que la imagen humana es inherentemente estructural en múltiples niveles de granularidad, desde el esqueleto corporal a nivel general hasta la geometría espacial detallada. Por lo tanto, capturar estas correlaciones entre la apariencia explícita y la estructura latente en un solo modelo es esencial para generar imágenes humanas coherentes y naturales. Con este fin, proponemos un marco unificado, HyperHuman, que genera imágenes humanas en entornos naturales con alto realismo y diseños diversos. Específicamente, 1) primero construimos un conjunto de datos a gran escala centrado en humanos, llamado HumanVerse, que consta de 340 millones de imágenes con anotaciones completas como pose humana, profundidad y normal de superficie. 2) A continuación, proponemos un Modelo de Difusión Estructural Latente que simultáneamente elimina el ruido de la profundidad y la normal de superficie junto con la imagen RGB sintetizada. Nuestro modelo fomenta el aprendizaje conjunto de la apariencia de la imagen, la relación espacial y la geometría en una red unificada, donde cada rama del modelo se complementa entre sí con conciencia estructural y riqueza textural. 3) Finalmente, para mejorar aún más la calidad visual, proponemos un Refinador Guiado por Estructura para componer las condiciones predichas para una generación más detallada de mayor resolución. Experimentos extensos demuestran que nuestro marco ofrece un rendimiento de vanguardia, generando imágenes humanas hiperrealistas en diversos escenarios. Página del proyecto: https://snap-research.github.io/HyperHuman/

MotionDirector: Personalización del Movimiento en Modelos de Difusión de Texto a Video
MotionDirector: Motion Customization of Text-to-Video Diffusion Models

Oct 12

ByRui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou

Los modelos de difusión preentrenados a gran escala han demostrado capacidades notables en la generación diversa de videos. Dado un conjunto de clips de video que representan el mismo concepto de movimiento, la tarea de Personalización de Movimiento consiste en adaptar los modelos de difusión de texto a video existentes para generar videos con dicho movimiento. Por ejemplo, generar un video de un automóvil moviéndose de una manera prescrita bajo movimientos específicos de cámara para crear una película, o un video que ilustre cómo un oso levantaría pesas para inspirar a creadores. Se han desarrollado métodos de adaptación para personalizar aspectos como el sujeto o el estilo, pero aún no se han explorado para el movimiento. Es sencillo extender los métodos principales de adaptación para la personalización de movimiento, incluyendo el ajuste completo del modelo, el ajuste eficiente en parámetros de capas adicionales y las Adaptaciones de Bajo Rango (LoRAs). Sin embargo, el concepto de movimiento aprendido por estos métodos a menudo está acoplado con las apariencias limitadas en los videos de entrenamiento, lo que dificulta generalizar el movimiento personalizado a otras apariencias. Para superar este desafío, proponemos MotionDirector, con una arquitectura de LoRAs de doble vía para desacoplar el aprendizaje de apariencia y movimiento. Además, diseñamos una nueva pérdida temporal desviada de apariencia para mitigar la influencia de la apariencia en el objetivo de entrenamiento temporal. Los resultados experimentales muestran que el método propuesto puede generar videos de diversas apariencias para los movimientos personalizados. Nuestro método también admite varias aplicaciones posteriores, como la mezcla de diferentes videos con su apariencia y movimiento respectivamente, y la animación de una sola imagen con movimientos personalizados. Nuestro código y pesos del modelo serán publicados.

HyperHuman: Generación Hiperrealista de Humanos con Difusión Estructural Latente
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

Oct 12

ByXian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov