Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Lumiere -- un modelo de difusión de texto a video diseñado para sintetizar videos que representan movimientos realistas, diversos y coherentes -- un desafío fundamental en la síntesis de video. Para ello, introducimos una arquitectura Space-Time U-Net que genera la duración temporal completa del video de una sola vez, mediante un único paso en el modelo. Esto contrasta con los modelos de video existentes, que sintetizan fotogramas clave distantes seguidos de super-resolución temporal -- un enfoque que inherentemente dificulta lograr una coherencia temporal global. Al implementar muestreo ascendente y descendente tanto espacial como (crucialmente) temporal, y aprovechar un modelo de difusión de texto a imagen preentrenado, nuestro modelo aprende a generar directamente un video de baja resolución a velocidad de fotograma completa procesándolo en múltiples escalas espacio-temporales. Demostramos resultados de última generación en generación de texto a video, y mostramos que nuestro diseño facilita fácilmente una amplia gama de tareas de creación de contenido y aplicaciones de edición de video, incluyendo imagen a video, inpaint de video y generación estilizada.
Jugar con los Grandes Modelos de Lenguaje Visual (LVLMs, por sus siglas en inglés) en 2023 está de moda en la comunidad de IA. Sin embargo, el número relativamente grande de parámetros (más de 7B) de los LVLMs populares dificulta su entrenamiento y despliegue en GPUs de consumo, desalentando a muchos investigadores con recursos limitados. Imagina lo genial que sería experimentar todas las características de los LVLMs actuales en una vieja GTX1080ti (nuestra única tarjeta gráfica). En consecuencia, presentamos Vary-toy en este informe, una versión pequeña de Vary junto con Qwen-1.8B como el modelo base de lenguaje "grande". En Vary-toy, introducimos un vocabulario visual mejorado, permitiendo que el modelo no solo posea todas las características de Vary, sino que también adquiera mayor generalidad. Específicamente, reemplazamos las muestras negativas de imágenes naturales con datos de muestras positivas impulsados por la detección de objetos en el procedimiento de generación del vocabulario visual, utilizando más eficientemente la capacidad de la red de vocabulario y permitiéndole codificar de manera eficiente la información visual correspondiente a objetos naturales. En los experimentos, Vary-toy puede alcanzar un 65.6% de ANLS en DocVQA, un 59.1% de precisión en ChartQA, un 88.1% de precisión en RefCOCO y un 29% en MMVet. El código estará disponible públicamente en la página de inicio.
Los modelos fundacionales que incorporan lenguaje, visión y, más recientemente, acciones han revolucionado la capacidad de aprovechar datos a escala de internet para razonar sobre tareas útiles. Sin embargo, uno de los principales desafíos en el entrenamiento de modelos fundacionales encarnados es la falta de datos anclados en el mundo físico. En este artículo, proponemos AutoRT, un sistema que aprovecha los modelos fundacionales existentes para escalar el despliegue de robots operativos en escenarios completamente desconocidos con una supervisión humana mínima. AutoRT utiliza modelos de visión y lenguaje (VLMs) para la comprensión y contextualización de escenas, y además emplea modelos de lenguaje de gran escala (LLMs) para proponer instrucciones diversas y novedosas que serán ejecutadas por una flota de robots. Guiar la recolección de datos aprovechando el conocimiento de los modelos fundacionales permite a AutoRT razonar de manera efectiva sobre los compromisos de autonomía y seguridad, al mismo tiempo que escala significativamente la recolección de datos para el aprendizaje de robots. Demostramos que AutoRT propone instrucciones a más de 20 robots en múltiples edificios y recopila 77,000 episodios reales de robots mediante teleoperación y políticas autónomas de robots. Experimentalmente, mostramos que los datos "en el mundo real" recolectados por AutoRT son significativamente más diversos, y que el uso de LLMs por parte de AutoRT permite la recolección de datos mediante robots que siguen instrucciones y pueden alinearse con las preferencias humanas.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen emplear generación autoregresiva durante la inferencia, lo que genera una alta demanda de ancho de banda de memoria y, en consecuencia, una latencia prolongada. Para mitigar esta ineficiencia, presentamos Bi-directional Tuning for Lossless Acceleration (BiTA), un método innovador que acelera los LLMs mediante una generación semi-autoregresiva optimizada y verificación de borradores. Inspirados por el concepto de ajuste de prompts, mejoramos los LLMs con un diseño eficiente en parámetros llamado ajuste bidireccional para potenciar la capacidad de generación semi-autoregresiva. Utilizando decodificación basada en árboles eficiente, los modelos generan candidatos de borradores y los verifican en paralelo, asegurando salidas idénticas a sus contrapartes autoregresivas bajo muestreo codicioso. BiTA funciona como un módulo complementario ligero, impulsando sin problemas la eficiencia de inferencia de los LLMs existentes sin requerir modelos de asistencia adicionales ni incurrir en costos significativos de memoria extra. Al aplicar el BiTA propuesto, LLaMA-2-70B-Chat logra una aceleración de 2.7 veces en el benchmark MT-Bench. Experimentos extensos confirman que nuestro método supera las técnicas de aceleración más avanzadas.
Presentamos GALA, un marco de trabajo que toma como entrada una malla 3D de un humano vestido de una sola capa y la descompone en activos 3D multicapa completos. Las salidas pueden luego combinarse con otros activos para crear nuevos avatares humanos vestidos con cualquier postura. Los enfoques de reconstrucción existentes a menudo tratan a los humanos vestidos como una geometría de una sola capa y pasan por alto la composición inherente de los humanos con peinados, ropa y accesorios, lo que limita la utilidad de las mallas para aplicaciones posteriores. Descomponer una malla de una sola capa en capas separadas es una tarea desafiante porque requiere la síntesis de geometría y textura plausibles para las regiones severamente ocluidas. Además, incluso con una descomposición exitosa, las mallas no están normalizadas en términos de posturas y formas corporales, lo que impide una composición coherente con nuevas identidades y posturas. Para abordar estos desafíos, proponemos aprovechar el conocimiento general de un modelo de difusión 2D preentrenado como prior de geometría y apariencia para humanos y otros activos. Primero separamos la malla de entrada utilizando la segmentación de superficie 3D extraída de segmentaciones 2D multivista. Luego sintetizamos la geometría faltante de diferentes capas tanto en espacios con postura como canónicos utilizando una nueva pérdida de Muestreo de Destilación de Puntaje (SDS) guiada por postura. Una vez que completamos la restauración de la geometría 3D de alta fidelidad, también aplicamos la misma pérdida SDS a su textura para obtener la apariencia completa, incluidas las regiones inicialmente ocluidas. A través de una serie de pasos de descomposición, obtenemos múltiples capas de activos 3D en un espacio canónico compartido normalizado en términos de posturas y formas humanas, lo que permite una composición sin esfuerzo con nuevas identidades y reanimación con nuevas posturas. Nuestros experimentos demuestran la efectividad de nuestro enfoque para tareas de descomposición, canonización y composición en comparación con las soluciones existentes.
En la era de los modelos grandes, la naturaleza autoregresiva de la decodificación suele resultar en que la latencia se convierta en un cuello de botella significativo. Proponemos un sistema de reconocimiento automático del habla (ASR) fusionado con modelos de lenguaje (LM) no autoregresivo que aprovecha eficazmente las capacidades de paralelización del hardware acelerador. Nuestro enfoque combina el Modelo de Habla Universal (USM) y el modelo de lenguaje PaLM 2 en modo de puntuación por segmentos, logrando una mejora relativa promedio en la tasa de error de palabras (WER) del 10,8% en FLEURS y del 3,6% en la subtitulación de YouTube. Además, nuestro estudio de ablación exhaustivo analiza parámetros clave como el tamaño del LM, la longitud del contexto, el tamaño del vocabulario y la metodología de fusión. Por ejemplo, exploramos el impacto del tamaño del LM, que varía desde 128M hasta 340B parámetros, en el rendimiento del ASR. Este estudio proporciona información valiosa sobre los factores que influyen en la efectividad de los sistemas prácticos de reconocimiento de habla a gran escala fusionados con modelos de lenguaje.