Artículos de investigación en IA seleccionados diariamente con traducciones
Investigaciones recientes, como BitNet, están allanando el camino para una nueva era de Modelos de Lenguaje de Gran Escala (LLMs) de 1 bit. En este trabajo, presentamos una variante de LLM de 1 bit, denominada BitNet b1.58, en la que cada parámetro (o peso) del LLM es ternario {-1, 0, 1}. Este modelo iguala al Transformer LLM de precisión completa (es decir, FP16 o BF16) con el mismo tamaño de modelo y tokens de entrenamiento en términos tanto de perplejidad como de rendimiento en tareas finales, mientras que es significativamente más rentable en términos de latencia, memoria, rendimiento y consumo de energía. Más profundamente, el LLM de 1.58 bits define una nueva ley de escalamiento y una receta para entrenar nuevas generaciones de LLMs que sean tanto de alto rendimiento como rentables. Además, habilita un nuevo paradigma de computación y abre la puerta para diseñar hardware específico optimizado para LLMs de 1 bit.
En este trabajo, abordamos el desafío de mejorar el realismo y la expresividad en la generación de videos de cabezas parlantes, centrándonos en la relación dinámica y matizada entre las señales de audio y los movimientos faciales. Identificamos las limitaciones de las técnicas tradicionales que a menudo no logran capturar el espectro completo de las expresiones humanas ni la singularidad de los estilos faciales individuales. Para abordar estos problemas, proponemos EMO, un marco novedoso que utiliza un enfoque de síntesis directa de audio a video, evitando la necesidad de modelos 3D intermedios o puntos de referencia faciales. Nuestro método garantiza transiciones fluidas entre fotogramas y una preservación consistente de la identidad a lo largo del video, lo que resulta en animaciones altamente expresivas y realistas. Los resultados experimentales demuestran que EMO es capaz de producir no solo videos convincentes de personas hablando, sino también videos de canto en diversos estilos, superando significativamente las metodologías existentes de vanguardia en términos de expresividad y realismo.
Sora es un modelo generativo de IA de texto a video, lanzado por OpenAI en febrero de 2024. El modelo está entrenado para generar videos de escenas realistas o imaginarias a partir de instrucciones de texto y muestra potencial para simular el mundo físico. Basado en informes técnicos públicos e ingeniería inversa, este artículo presenta una revisión exhaustiva del contexto del modelo, las tecnologías relacionadas, las aplicaciones, los desafíos pendientes y las direcciones futuras de los modelos de IA de texto a video. Primero, rastreamos el desarrollo de Sora e investigamos las tecnologías subyacentes utilizadas para construir este "simulador del mundo". Luego, describimos en detalle las aplicaciones y el impacto potencial de Sora en múltiples industrias, desde la producción cinematográfica y la educación hasta el marketing. Discutimos los principales desafíos y limitaciones que deben abordarse para implementar Sora de manera generalizada, como garantizar una generación de videos segura y sin sesgos. Por último, analizamos el desarrollo futuro de Sora y los modelos de generación de video en general, y cómo los avances en este campo podrían habilitar nuevas formas de interacción humano-IA, impulsando la productividad y la creatividad en la generación de video.
Durante décadas, la interacción humano-computadora ha sido fundamentalmente manual. Incluso hoy en día, casi todo el trabajo productivo realizado en la computadora requiere de la intervención humana en cada paso. Los agentes virtuales autónomos representan un avance emocionante en la automatización de muchas de estas tareas rutinarias. Estos agentes virtuales permitirían a usuarios con conocimientos técnicos limitados aprovechar al máximo las posibilidades de los sistemas informáticos. También podrían facilitar la optimización eficiente de numerosas tareas informáticas, desde la gestión de calendarios hasta reservas de viajes complejas, con una intervención humana mínima. En este artículo, presentamos OmniACT, el primer conjunto de datos y punto de referencia de su tipo para evaluar la capacidad de un agente de generar programas ejecutables que realicen tareas informáticas. Nuestro alcance va más allá de la automatización web tradicional, abarcando una amplia gama de aplicaciones de escritorio. El conjunto de datos incluye tareas básicas como "Reproducir la siguiente canción", así como tareas de mayor duración como "Enviar un correo electrónico a John Doe mencionando la hora y el lugar de la reunión". Específicamente, dado un par de imagen de pantalla y una tarea en lenguaje natural basada en lo visual, el objetivo es generar un script capaz de ejecutar completamente la tarea. Ejecutamos varios agentes de modelos de lenguaje sólidos como líneas base en nuestro punto de referencia. La línea base más fuerte, GPT-4, es la que mejor se desempeña en nuestro punto de referencia. Sin embargo, su nivel de rendimiento alcanza solo el 15% de la competencia humana en la generación de scripts ejecutables capaces de completar la tarea, lo que demuestra el desafío que representa nuestra tarea para los agentes web convencionales. Nuestro punto de referencia proporciona una plataforma para medir y evaluar el progreso de los agentes de modelos de lenguaje en la automatización de tareas informáticas, y motiva trabajos futuros hacia la construcción de modelos multimodales que conecten los grandes modelos de lenguaje con el anclaje visual de las pantallas de computadora.
Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen adoptar el ajuste fino (finetuning) para desbloquear sus capacidades en aplicaciones posteriores, nuestra comprensión sobre los sesgos inductivos (especialmente las propiedades de escalabilidad) de los diferentes métodos de ajuste fino sigue siendo limitada. Para llenar este vacío, realizamos experimentos sistemáticos para estudiar si y cómo diferentes factores de escalabilidad, incluidos el tamaño del modelo LLM, el tamaño de los datos de preentrenamiento, el tamaño de los nuevos parámetros de ajuste fino y el tamaño de los datos de ajuste fino, afectan el rendimiento del ajuste fino. Consideramos dos tipos de ajuste fino: el ajuste completo del modelo (FMT, por sus siglas en inglés) y el ajuste eficiente de parámetros (PET, que incluye el ajuste de prompts y LoRA), y exploramos sus comportamientos de escalabilidad en el régimen de datos limitados, donde el tamaño del modelo LLM supera sustancialmente el tamaño de los datos de ajuste fino. Basándonos en dos conjuntos de LLMs bilingües preentrenados que van desde 1B hasta 16B y experimentos en benchmarks de traducción automática bilingüe y resumen multilingüe, encontramos que: 1) el ajuste fino de LLMs sigue una ley de escalabilidad conjunta multiplicativa basada en potencias entre el tamaño de los datos de ajuste fino y cada uno de los otros factores de escalabilidad; 2) el ajuste fino de LLMs se beneficia más del escalado del tamaño del modelo LLM que del escalado de los datos de preentrenamiento, y el escalado de parámetros PET es generalmente ineficaz; y 3) el método de ajuste fino óptimo depende en gran medida de la tarea y de los datos de ajuste fino. Esperamos que nuestros hallazgos puedan arrojar luz sobre la comprensión, selección y desarrollo de métodos de ajuste fino para LLMs.
La capacidad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para procesar y generar texto coherente se ve notablemente debilitada cuando el número de tokens de entrada supera su longitud de preentrenamiento. Dado el costoso esfuerzo requerido para ajustar modelos a gran escala con secuencias más largas, proponemos la Atención Dual por Fragmentos (DCA, por sus siglas en inglés), que permite a Llama2 70B admitir ventanas de contexto de más de 100k tokens sin necesidad de entrenamiento continuo. Al descomponer el cálculo de atención para secuencias largas en módulos basados en fragmentos, DCA logra capturar eficazmente la información posicional relativa de los tokens dentro del mismo fragmento (Intra-Fragmento) y entre distintos fragmentos (Inter-Fragmento), además de integrarse perfectamente con Flash Attention. Además de su impresionante capacidad de extrapolación, DCA alcanza un rendimiento en tareas prácticas de contexto largo que es comparable o incluso superior al de los modelos ajustados. En comparación con modelos propietarios, nuestro modelo de 70B sin entrenamiento adicional alcanza el 94% del rendimiento de gpt-3.5-16k, lo que indica que es una alternativa de código abierto viable. Todo el código y los datos utilizados en este trabajo están disponibles en https://github.com/HKUNLP/ChunkLlama.
En el ámbito de los modelos generativos de texto a imagen (T2I) centrados en sujetos, desarrollos recientes como DreamBooth y BLIP-Diffusion han logrado resultados impresionantes, pero enfrentan limitaciones debido a sus demandas intensivas de ajuste fino y sus requisitos sustanciales de parámetros. Si bien el módulo de adaptación de bajo rango (LoRA) dentro de DreamBooth ofrece una reducción en los parámetros entrenables, introduce una sensibilidad pronunciada a los hiperparámetros, lo que lleva a un compromiso entre la eficiencia de parámetros y la calidad de la síntesis de imágenes personalizadas T2I. Para abordar estas limitaciones, presentamos \textit{DiffuseKronA}, un novedoso módulo de adaptación basado en el producto de Kronecker que no solo reduce significativamente el número de parámetros en un 35\% y un 99.947\% en comparación con LoRA-DreamBooth y el DreamBooth original, respectivamente, sino que también mejora la calidad de la síntesis de imágenes. De manera crucial, DiffuseKronA mitiga el problema de la sensibilidad a los hiperparámetros, entregando generaciones de alta calidad consistentes en un amplio rango de hiperparámetros, reduciendo así la necesidad de un ajuste fino extensivo. Además, una descomposición más controlable hace que DiffuseKronA sea más interpretable e incluso puede lograr una reducción de hasta un 50\% con resultados comparables a LoRA-DreamBooth. Evaluado frente a imágenes de entrada y textos complejos y diversos, DiffuseKronA supera consistentemente a los modelos existentes, produciendo imágenes diversas de mayor calidad con una fidelidad mejorada y una distribución de colores más precisa de los objetos, todo mientras mantiene una eficiencia excepcional en los parámetros, lo que representa un avance sustancial en el campo de la modelización generativa T2I. Nuestra página del proyecto, que incluye enlaces al código y a los puntos de control preentrenados, está disponible en https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
Tanto los datos de texto como de video son abundantes en internet y permiten el aprendizaje autosupervisado a gran escala mediante la predicción del siguiente token o fotograma. Sin embargo, no se han aprovechado por igual: los modelos de lenguaje han tenido un impacto significativo en el mundo real, mientras que la generación de video se ha limitado principalmente al entretenimiento mediático. No obstante, los datos de video capturan información importante sobre el mundo físico que es difícil de expresar en lenguaje. Para abordar esta brecha, discutimos una oportunidad poco apreciada de extender la generación de video para resolver tareas en el mundo real. Observamos cómo, al igual que el lenguaje, el video puede servir como una interfaz unificada que puede absorber el conocimiento de internet y representar diversas tareas. Además, demostramos cómo, al igual que los modelos de lenguaje, la generación de video puede servir como planificadores, agentes, motores de cálculo y simuladores de entornos mediante técnicas como el aprendizaje en contexto, la planificación y el aprendizaje por refuerzo. Identificamos oportunidades de impacto significativo en dominios como la robótica, la conducción autónoma y la ciencia, respaldadas por trabajos recientes que demuestran que tales capacidades avanzadas en la generación de video están plausiblemente al alcance. Por último, identificamos desafíos clave en la generación de video que limitan el progreso. Abordar estos desafíos permitirá que los modelos de generación de video demuestren un valor único junto a los modelos de lenguaje en una gama más amplia de aplicaciones de IA.
Los trabajos existentes sobre diálogos abiertos a largo plazo se centran en evaluar las respuestas de los modelos dentro de contextos que abarcan no más de cinco sesiones de chat. A pesar de los avances en los modelos de lenguaje de gran contexto (LLMs) y las técnicas de generación aumentada por recuperación (RAG), su eficacia en diálogos de muy largo plazo sigue sin explorarse. Para abordar esta brecha de investigación, introducimos una canalización máquina-humano para generar diálogos de muy alta calidad y largo plazo, aprovechando arquitecturas de agentes basados en LLMs y fundamentando sus diálogos en personas y gráficos de eventos temporales. Además, equipamos a cada agente con la capacidad de compartir y reaccionar a imágenes. Las conversaciones generadas son verificadas y editadas por anotadores humanos para garantizar la consistencia a largo plazo y su fundamentación en los gráficos de eventos. Utilizando esta canalización, recopilamos LoCoMo, un conjunto de datos de conversaciones de muy largo plazo, cada una abarcando 300 turnos y 9K tokens en promedio, distribuidas en hasta 35 sesiones. Basándonos en LoCoMo, presentamos una evaluación integral para medir la memoria a largo plazo en los modelos, que incluye tareas de respuesta a preguntas, resumen de eventos y generación de diálogos multimodales. Nuestros resultados experimentales indican que los LLMs enfrentan desafíos para comprender conversaciones extensas y dinámicas temporales y causales de largo alcance dentro de los diálogos. Emplear estrategias como LLMs de contexto largo o RAG puede ofrecer mejoras, pero estos modelos aún están considerablemente por detrás del rendimiento humano.
Este trabajo estudia los principios generales para mejorar el aprendizaje de los modelos de lenguaje (LMs), con el objetivo de reducir los pasos de entrenamiento necesarios para alcanzar un rendimiento superior. Específicamente, presentamos una teoría para el aprendizaje óptimo de LMs. Primero, proponemos un objetivo que optimiza el aprendizaje de LMs maximizando la tasa de compresión de datos bajo una visión de "entrenamiento-de-LMs-como-compresión-sin-pérdidas". Luego, derivamos un teorema, denominado Ley de Aprendizaje, para revelar las propiedades de la dinámica en el proceso de aprendizaje óptimo bajo nuestro objetivo. Este teorema es validado experimentalmente en una tarea de clasificación lineal y en una tarea de modelado de lenguaje del mundo real. Finalmente, verificamos empíricamente que el aprendizaje óptimo de LMs surge esencialmente de la mejora de los coeficientes en la ley de escalamiento de LMs, lo que indica un gran potencial y relevancia para diseñar métodos prácticos de aceleración del aprendizaje. Nuestro código está disponible en https://aka.ms/LearningLaw.
El recientemente desarrollado modelo Sora [1] ha demostrado capacidades notables en la generación de videos, generando intensos debates sobre su habilidad para simular fenómenos del mundo real. A pesar de su creciente popularidad, existe una falta de métricas establecidas para evaluar cuantitativamente su fidelidad a la física del mundo real. En este artículo, presentamos un nuevo punto de referencia que evalúa la calidad de los videos generados en función de su adherencia a los principios de la física real. Empleamos un método que transforma los videos generados en modelos 3D, aprovechando la premisa de que la precisión de la reconstrucción 3D depende en gran medida de la calidad del video. Desde la perspectiva de la reconstrucción 3D, utilizamos la fidelidad de las restricciones geométricas satisfechas por los modelos 3D construidos como un indicador para medir el grado en que los videos generados se ajustan a las reglas de la física del mundo real. Página del proyecto: https://sora-geometrical-consistency.github.io/
La creación de contenido de video y audio sirve como técnica central para la industria cinematográfica y usuarios profesionales. Recientemente, los métodos existentes basados en difusión abordan la generación de video y audio por separado, lo cual dificulta la transferencia de esta técnica desde el ámbito académico hacia la industria. En este trabajo, nuestro objetivo es cerrar esta brecha mediante un marco de optimización cuidadosamente diseñado para la generación cruzada visual-audio y conjunta visual-audio. Observamos la potente capacidad de generación de los modelos disponibles para la generación de video o audio. Por lo tanto, en lugar de entrenar modelos gigantes desde cero, proponemos conectar los modelos fuertes existentes mediante un espacio de representación latente compartido. Específicamente, proponemos un alineador latente multimodal con el modelo ImageBind preentrenado. Nuestro alineador latente comparte un núcleo similar a la guía de clasificadores que dirige el proceso de eliminación de ruido por difusión durante el tiempo de inferencia. A través de una estrategia de optimización y funciones de pérdida cuidadosamente diseñadas, demostramos el rendimiento superior de nuestro método en tareas de generación conjunta de video-audio, generación de audio guiada por visión y generación visual guiada por audio. El sitio web del proyecto se puede encontrar en https://yzxing87.github.io/Seeing-and-Hearing/.
En este trabajo, compartimos tres ideas clave para lograr una calidad estética de vanguardia en modelos generativos de texto a imagen. Nos enfocamos en tres aspectos críticos para la mejora del modelo: mejorar el color y el contraste, optimizar la generación en múltiples relaciones de aspecto y perfeccionar los detalles finos centrados en lo humano. Primero, profundizamos en la importancia del esquema de ruido durante el entrenamiento de un modelo de difusión, demostrando su impacto significativo en el realismo y la fidelidad visual. Segundo, abordamos el desafío de adaptar diversas relaciones de aspecto en la generación de imágenes, destacando la importancia de preparar un conjunto de datos equilibrado y segmentado. Por último, investigamos el papel crucial de alinear las salidas del modelo con las preferencias humanas, asegurando que las imágenes generadas resuenen con las expectativas perceptivas humanas. A través de un análisis extenso y experimentos, Playground v2.5 demuestra un rendimiento de vanguardia en términos de calidad estética bajo diversas condiciones y relaciones de aspecto, superando tanto a modelos de código abierto ampliamente utilizados como SDXL y Playground v2, como a sistemas comerciales de código cerrado como DALLE 3 y Midjourney v5.2. Nuestro modelo es de código abierto, y esperamos que el desarrollo de Playground v2.5 ofrezca pautas valiosas para investigadores que buscan elevar la calidad estética de los modelos de generación de imágenes basados en difusión.
Presentamos un método para generar escenas 3D que se descomponen en sus objetos componentes. Esta descomposición es no supervisada, basándose únicamente en el conocimiento de un modelo preentrenado de texto a imagen de gran escala. Nuestra idea clave es que los objetos pueden descubrirse al identificar partes de una escena 3D que, al ser reorganizadas espacialmente, siguen produciendo configuraciones válidas de la misma escena. Concretamente, nuestro método optimiza conjuntamente múltiples NeRFs desde cero - cada uno representando su propio objeto - junto con un conjunto de diseños que combinan estos objetos en escenas. Luego, incentivamos a que estas escenas compuestas estén dentro de la distribución según el generador de imágenes. Demostramos que, a pesar de su simplicidad, nuestro enfoque genera con éxito escenas 3D descompuestas en objetos individuales, permitiendo nuevas capacidades en la creación de contenido de texto a 3D. Para ver los resultados y una demostración interactiva, visite nuestra página del proyecto en https://dave.ml/layoutlearning/.
Los métodos basados en NeRF para la reconstrucción de escenas grandes suelen presentar limitaciones en la calidad visual y la velocidad de renderizado. Aunque la técnica reciente de 3D Gaussian Splatting funciona bien en escenas de pequeña escala y centradas en objetos, escalarla a escenas grandes plantea desafíos debido a la memoria de video limitada, tiempos de optimización prolongados y variaciones notables en la apariencia. Para abordar estos desafíos, presentamos VastGaussian, el primer método para la reconstrucción de alta calidad y renderizado en tiempo real en escenas grandes basado en 3D Gaussian Splatting. Proponemos una estrategia de partición progresiva para dividir una escena grande en múltiples celdas, donde las cámaras de entrenamiento y la nube de puntos se distribuyen adecuadamente con un criterio de visibilidad consciente del espacio aéreo. Estas celdas se fusionan en una escena completa después de una optimización paralela. También introducimos un modelado de apariencia desacoplado en el proceso de optimización para reducir las variaciones de apariencia en las imágenes renderizadas. Nuestro enfoque supera a los métodos basados en NeRF existentes y logra resultados de vanguardia en múltiples conjuntos de datos de escenas grandes, permitiendo una optimización rápida y un renderizado en tiempo real de alta fidelidad.