Artículos de investigación en IA seleccionados diariamente con traducciones
Investigaciones recientes, como BitNet, están allanando el camino para una nueva era de Modelos de Lenguaje de Gran Escala (LLMs) de 1 bit. En este trabajo, presentamos una variante de LLM de 1 bit, denominada BitNet b1.58, en la que cada parámetro (o peso) del LLM es ternario {-1, 0, 1}. Este modelo iguala al Transformer LLM de precisión completa (es decir, FP16 o BF16) con el mismo tamaño de modelo y tokens de entrenamiento en términos tanto de perplejidad como de rendimiento en tareas finales, mientras que es significativamente más rentable en términos de latencia, memoria, rendimiento y consumo de energía. Más profundamente, el LLM de 1.58 bits define una nueva ley de escalamiento y una receta para entrenar nuevas generaciones de LLMs que sean tanto de alto rendimiento como rentables. Además, habilita un nuevo paradigma de computación y abre la puerta para diseñar hardware específico optimizado para LLMs de 1 bit.
En este trabajo, abordamos el desafío de mejorar el realismo y la expresividad en la generación de videos de cabezas parlantes, centrándonos en la relación dinámica y matizada entre las señales de audio y los movimientos faciales. Identificamos las limitaciones de las técnicas tradicionales que a menudo no logran capturar el espectro completo de las expresiones humanas ni la singularidad de los estilos faciales individuales. Para abordar estos problemas, proponemos EMO, un marco novedoso que utiliza un enfoque de síntesis directa de audio a video, evitando la necesidad de modelos 3D intermedios o puntos de referencia faciales. Nuestro método garantiza transiciones fluidas entre fotogramas y una preservación consistente de la identidad a lo largo del video, lo que resulta en animaciones altamente expresivas y realistas. Los resultados experimentales demuestran que EMO es capaz de producir no solo videos convincentes de personas hablando, sino también videos de canto en diversos estilos, superando significativamente las metodologías existentes de vanguardia en términos de expresividad y realismo.
Sora es un modelo generativo de IA de texto a video, lanzado por OpenAI en febrero de 2024. El modelo está entrenado para generar videos de escenas realistas o imaginarias a partir de instrucciones de texto y muestra potencial para simular el mundo físico. Basado en informes técnicos públicos e ingeniería inversa, este artículo presenta una revisión exhaustiva del contexto del modelo, las tecnologías relacionadas, las aplicaciones, los desafíos pendientes y las direcciones futuras de los modelos de IA de texto a video. Primero, rastreamos el desarrollo de Sora e investigamos las tecnologías subyacentes utilizadas para construir este "simulador del mundo". Luego, describimos en detalle las aplicaciones y el impacto potencial de Sora en múltiples industrias, desde la producción cinematográfica y la educación hasta el marketing. Discutimos los principales desafíos y limitaciones que deben abordarse para implementar Sora de manera generalizada, como garantizar una generación de videos segura y sin sesgos. Por último, analizamos el desarrollo futuro de Sora y los modelos de generación de video en general, y cómo los avances en este campo podrían habilitar nuevas formas de interacción humano-IA, impulsando la productividad y la creatividad en la generación de video.
Durante décadas, la interacción humano-computadora ha sido fundamentalmente manual. Incluso hoy en día, casi todo el trabajo productivo realizado en la computadora requiere de la intervención humana en cada paso. Los agentes virtuales autónomos representan un avance emocionante en la automatización de muchas de estas tareas rutinarias. Estos agentes virtuales permitirían a usuarios con conocimientos técnicos limitados aprovechar al máximo las posibilidades de los sistemas informáticos. También podrían facilitar la optimización eficiente de numerosas tareas informáticas, desde la gestión de calendarios hasta reservas de viajes complejas, con una intervención humana mínima. En este artículo, presentamos OmniACT, el primer conjunto de datos y punto de referencia de su tipo para evaluar la capacidad de un agente de generar programas ejecutables que realicen tareas informáticas. Nuestro alcance va más allá de la automatización web tradicional, abarcando una amplia gama de aplicaciones de escritorio. El conjunto de datos incluye tareas básicas como "Reproducir la siguiente canción", así como tareas de mayor duración como "Enviar un correo electrónico a John Doe mencionando la hora y el lugar de la reunión". Específicamente, dado un par de imagen de pantalla y una tarea en lenguaje natural basada en lo visual, el objetivo es generar un script capaz de ejecutar completamente la tarea. Ejecutamos varios agentes de modelos de lenguaje sólidos como líneas base en nuestro punto de referencia. La línea base más fuerte, GPT-4, es la que mejor se desempeña en nuestro punto de referencia. Sin embargo, su nivel de rendimiento alcanza solo el 15% de la competencia humana en la generación de scripts ejecutables capaces de completar la tarea, lo que demuestra el desafío que representa nuestra tarea para los agentes web convencionales. Nuestro punto de referencia proporciona una plataforma para medir y evaluar el progreso de los agentes de modelos de lenguaje en la automatización de tareas informáticas, y motiva trabajos futuros hacia la construcción de modelos multimodales que conecten los grandes modelos de lenguaje con el anclaje visual de las pantallas de computadora.
La capacidad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para procesar y generar texto coherente se ve notablemente debilitada cuando el número de tokens de entrada supera su longitud de preentrenamiento. Dado el costoso esfuerzo requerido para ajustar modelos a gran escala con secuencias más largas, proponemos la Atención Dual por Fragmentos (DCA, por sus siglas en inglés), que permite a Llama2 70B admitir ventanas de contexto de más de 100k tokens sin necesidad de entrenamiento continuo. Al descomponer el cálculo de atención para secuencias largas en módulos basados en fragmentos, DCA logra capturar eficazmente la información posicional relativa de los tokens dentro del mismo fragmento (Intra-Fragmento) y entre distintos fragmentos (Inter-Fragmento), además de integrarse perfectamente con Flash Attention. Además de su impresionante capacidad de extrapolación, DCA alcanza un rendimiento en tareas prácticas de contexto largo que es comparable o incluso superior al de los modelos ajustados. En comparación con modelos propietarios, nuestro modelo de 70B sin entrenamiento adicional alcanza el 94% del rendimiento de gpt-3.5-16k, lo que indica que es una alternativa de código abierto viable. Todo el código y los datos utilizados en este trabajo están disponibles en https://github.com/HKUNLP/ChunkLlama.
En el ámbito de los modelos generativos de texto a imagen (T2I) centrados en sujetos, desarrollos recientes como DreamBooth y BLIP-Diffusion han logrado resultados impresionantes, pero enfrentan limitaciones debido a sus demandas intensivas de ajuste fino y sus requisitos sustanciales de parámetros. Si bien el módulo de adaptación de bajo rango (LoRA) dentro de DreamBooth ofrece una reducción en los parámetros entrenables, introduce una sensibilidad pronunciada a los hiperparámetros, lo que lleva a un compromiso entre la eficiencia de parámetros y la calidad de la síntesis de imágenes personalizadas T2I. Para abordar estas limitaciones, presentamos \textit{DiffuseKronA}, un novedoso módulo de adaptación basado en el producto de Kronecker que no solo reduce significativamente el número de parámetros en un 35\% y un 99.947\% en comparación con LoRA-DreamBooth y el DreamBooth original, respectivamente, sino que también mejora la calidad de la síntesis de imágenes. De manera crucial, DiffuseKronA mitiga el problema de la sensibilidad a los hiperparámetros, entregando generaciones de alta calidad consistentes en un amplio rango de hiperparámetros, reduciendo así la necesidad de un ajuste fino extensivo. Además, una descomposición más controlable hace que DiffuseKronA sea más interpretable e incluso puede lograr una reducción de hasta un 50\% con resultados comparables a LoRA-DreamBooth. Evaluado frente a imágenes de entrada y textos complejos y diversos, DiffuseKronA supera consistentemente a los modelos existentes, produciendo imágenes diversas de mayor calidad con una fidelidad mejorada y una distribución de colores más precisa de los objetos, todo mientras mantiene una eficiencia excepcional en los parámetros, lo que representa un avance sustancial en el campo de la modelización generativa T2I. Nuestra página del proyecto, que incluye enlaces al código y a los puntos de control preentrenados, está disponible en https://diffusekrona.github.io/{https://diffusekrona.github.io/}.