Artículos de investigación en IA seleccionados diariamente con traducciones
La creciente demanda de generación de vídeo de alta fidelidad a partir de descripciones textuales ha catalizado una investigación significativa en este campo. En este trabajo, presentamos MagicVideo-V2, que integra el modelo de texto a imagen, el generador de movimiento de vídeo, el módulo de incrustación de imágenes de referencia y el módulo de interpolación de fotogramas en una canalización de generación de vídeo de extremo a extremo. Gracias a estos diseños arquitectónicos, MagicVideo-V2 puede generar un vídeo estéticamente agradable y de alta resolución con una fidelidad y suavidad notables. Demuestra un rendimiento superior sobre sistemas líderes de Texto a Vídeo como Runway, Pika 1.0, Morph, Moon Valley y el modelo Stable Video Diffusion a través de una evaluación de usuarios a gran escala.
Presentamos MAGNeT, un método de modelado de secuencias generativas enmascaradas que opera directamente sobre múltiples flujos de tokens de audio. A diferencia de trabajos anteriores, MAGNeT está compuesto por un transformador no autoregresivo de una sola etapa. Durante el entrenamiento, predecimos segmentos de tokens enmascarados obtenidos de un programador de enmascaramiento, mientras que durante la inferencia construimos gradualmente la secuencia de salida utilizando varios pasos de decodificación. Para mejorar aún más la calidad del audio generado, introducimos un novedoso método de revaloración en el que aprovechamos un modelo preentrenado externo para revalorar y clasificar las predicciones de MAGNeT, las cuales se utilizarán en pasos de decodificación posteriores. Por último, exploramos una versión híbrida de MAGNeT, en la que fusionamos modelos autoregresivos y no autoregresivos para generar los primeros segundos de manera autoregresiva, mientras que el resto de la secuencia se decodifica en paralelo. Demostramos la eficiencia de MAGNeT para la tarea de generación de texto a música y texto a audio, y llevamos a cabo una evaluación empírica exhaustiva, considerando tanto métricas objetivas como estudios con humanos. El enfoque propuesto es comparable a las líneas base evaluadas, siendo significativamente más rápido (x7 más rápido que la línea base autoregresiva). A través de estudios de ablación y análisis, destacamos la importancia de cada uno de los componentes que conforman MAGNeT, junto con señalar las compensaciones entre el modelado autoregresivo y no autoregresivo, considerando la latencia, el rendimiento y la calidad de la generación. Las muestras están disponibles en nuestra página de demostración https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
La atención lineal es un mecanismo de atención eficiente que ha surgido recientemente como una alternativa prometedora a la atención softmax convencional. Con su capacidad para procesar tokens en complejidades computacionales lineales, la atención lineal, en teoría, puede manejar secuencias de longitud ilimitada sin sacrificar la velocidad, es decir, manteniendo una velocidad de entrenamiento constante para varias longitudes de secuencia con un consumo de memoria fijo. Sin embargo, debido al problema con la suma acumulativa (cumsum), los algoritmos actuales de atención lineal no pueden demostrar su ventaja teórica en un entorno causal. En este artículo, presentamos Lightning Attention-2, la primera implementación de atención lineal que permite a la atención lineal alcanzar sus beneficios computacionales teóricos. Para lograrlo, aprovechamos la idea de la técnica de teselado, manejando por separado los componentes intra-bloque e inter-bloque en el cálculo de la atención lineal. Específicamente, utilizamos el mecanismo de cálculo de atención convencional para los intra-bloques y aplicamos trucos de kernel de atención lineal para los inter-bloques. Se adopta una técnica de teselado tanto en los procedimientos de avance como de retroceso para aprovechar al máximo el hardware de la GPU. Implementamos nuestro algoritmo en Triton para hacerlo consciente de las operaciones de entrada/salida (IO) y amigable con el hardware. Se realizan varios experimentos en diferentes tamaños de modelos y longitudes de secuencia. Lightning Attention-2 mantiene una velocidad de entrenamiento e inferencia constante independientemente de la longitud de la secuencia de entrada y es significativamente más rápido que otros mecanismos de atención. El código fuente está disponible en https://github.com/OpenNLPLab/lightning-attention.
El razonamiento basado en tablas con modelos de lenguaje de gran escala (LLMs) es una dirección prometedora para abordar muchas tareas de comprensión de tablas, como la respuesta a preguntas basadas en tablas y la verificación de hechos. En comparación con el razonamiento genérico, el razonamiento basado en tablas requiere la extracción de semántica subyacente tanto de preguntas en lenguaje natural como de datos tabulares semiestructurados. El enfoque de Cadena de Pensamiento (Chain-of-Thought) y otros similares incorporan la cadena de razonamiento en forma de contexto textual, pero sigue siendo una pregunta abierta cómo aprovechar eficazmente los datos tabulares en la cadena de razonamiento. Proponemos el marco de Cadena de Tablas (Chain-of-Table), donde los datos tabulares se utilizan explícitamente en la cadena de razonamiento como un proxy para pensamientos intermedios. Específicamente, guiamos a los LLMs mediante aprendizaje en contexto para generar iterativamente operaciones y actualizar la tabla, representando así una cadena de razonamiento tabular. Los LLMs pueden, por tanto, planificar dinámicamente la siguiente operación basándose en los resultados de las anteriores. Esta evolución continua de la tabla forma una cadena que muestra el proceso de razonamiento para un problema tabular dado. La cadena contiene información estructurada de los resultados intermedios, permitiendo predicciones más precisas y confiables. Cadena de Tablas logra un nuevo rendimiento de vanguardia en los benchmarks de WikiTQ, FeTaQA y TabFact, utilizando múltiples opciones de LLMs.
Un corte por salto ofrece un cambio abrupto, a veces no deseado, en la experiencia de visualización. Presentamos un marco novedoso para suavizar estos cortes por salto, en el contexto de videos de cabezas parlantes. Aprovechamos la apariencia del sujeto a partir de otros fotogramas de origen en el video, fusionándola con una representación de nivel medio impulsada por puntos clave de DensePose y puntos de referencia faciales. Para lograr movimiento, interpolamos los puntos clave y los puntos de referencia entre los fotogramas finales alrededor del corte. Luego, utilizamos una red de traducción de imágenes a partir de los puntos clave y los fotogramas de origen para sintetizar píxeles. Dado que los puntos clave pueden contener errores, proponemos un esquema de atención multimodal para seleccionar y elegir la fuente más apropiada entre múltiples opciones para cada punto clave. Al aprovechar esta representación de nivel medio, nuestro método puede lograr resultados más sólidos que una línea base fuerte de interpolación de video. Demostramos nuestro método en varios cortes por salto en videos de cabezas parlantes, como la eliminación de palabras de relleno, pausas e incluso cortes aleatorios. Nuestros experimentos muestran que podemos lograr transiciones fluidas, incluso en los casos desafiantes donde la cabeza parlante gira o se mueve drásticamente en el corte por salto.
Las aplicaciones de visión y visión-lenguaje de las redes neuronales, como la clasificación de imágenes y la generación de descripciones, dependen de conjuntos de datos anotados a gran escala que requieren procesos no triviales de recopilación de datos. Esta tarea que consume mucho tiempo dificulta la aparición de conjuntos de datos a gran escala, limitando a investigadores y profesionales a un número reducido de opciones. Por lo tanto, buscamos formas más eficientes de recopilar y anotar imágenes. Iniciativas anteriores han recopilado descripciones a partir de textos alternativos en HTML y publicaciones rastreadas en redes sociales, pero estas fuentes de datos sufren de ruido, escasez o subjetividad. Por esta razón, recurrimos a sitios web comerciales de compras cuyos datos cumplen tres criterios: limpieza, informatividad y fluidez. Presentamos el conjunto de datos Let's Go Shopping (LGS), un conjunto de datos público a gran escala con 15 millones de pares de imagen-descripción obtenidos de sitios web de comercio electrónico disponibles públicamente. En comparación con los conjuntos de datos existentes de dominio general, las imágenes de LGS se centran en el objeto en primer plano y tienen fondos menos complejos. Nuestros experimentos en LGS muestran que los clasificadores entrenados en conjuntos de datos de referencia existentes no se generalizan fácilmente a datos de comercio electrónico, mientras que los extractores de características visuales específicos de aprendizaje autosupervisado pueden generalizar mejor. Además, las imágenes de alta calidad centradas en el comercio electrónico y la naturaleza bimodal de LGS lo hacen ventajoso para tareas bimodales de visión-lenguaje: LGS permite que los modelos de generación de descripciones de imágenes produzcan descripciones más ricas y ayuda a los modelos de generación de imágenes a partir de texto a lograr transferencias de estilo de comercio electrónico.
Las preguntas factuales generalmente pueden responderse correctamente en diferentes niveles de granularidad. Por ejemplo, tanto "4 de agosto de 1961" como "1961" son respuestas correctas a la pregunta "¿Cuándo nació Barack Obama?". Sin embargo, los protocolos estándar de evaluación de sistemas de respuesta a preguntas (QA, por sus siglas en inglés) no tienen en cuenta explícitamente este aspecto y comparan una respuesta predicha con respuestas de un único nivel de granularidad. En este trabajo, proponemos GRANOLA QA, un nuevo enfoque de evaluación en el que una respuesta predicha se evalúa en términos de precisión e informatividad frente a un conjunto de respuestas de múltiples niveles de granularidad. Presentamos una metodología sencilla para enriquecer conjuntos de datos existentes con respuestas de múltiples granularidades, y creamos GRANOLA-EQ, una versión de múltiples granularidades del conjunto de datos EntityQuestions. Evaluamos una variedad de métodos de decodificación en GRANOLA-EQ, incluyendo un nuevo algoritmo llamado Decodificación con Agregación de Respuestas (DRAG, por sus siglas en inglés), que está diseñado para alinear la granularidad de la respuesta con la incertidumbre del modelo. Nuestros experimentos muestran que los modelos de lenguaje grandes con decodificación estándar tienden a generar respuestas específicas, que a menudo son incorrectas. En contraste, cuando se evalúan frente a respuestas de múltiples granularidades, DRAG produce un aumento de casi 20 puntos en precisión en promedio, incrementándose aún más para entidades raras. En general, esto revela que los esquemas estándar de evaluación y decodificación pueden subestimar significativamente el conocimiento encapsulado en los modelos de lenguaje.
A pesar del potencial de los modelos de difusión en la mejora de voz, su implementación en la Cancelación de Eco Acústico (AEC, por sus siglas en inglés) ha sido limitada. En este artículo, proponemos DI-AEC, pionero en un enfoque de regeneración estocástica basado en difusión dedicado a AEC. Además, presentamos FADI-AEC, un marco rápido de AEC basado en difusión y puntuación para reducir las demandas computacionales, haciéndolo favorable para dispositivos de borde. Destaca al ejecutar el modelo de puntuación una vez por fotograma, logrando un aumento significativo en la eficiencia de procesamiento. Además, introducimos una novedosa técnica de generación de ruido donde se utilizan señales del extremo lejano, incorporando tanto señales del extremo lejano como del extremo cercano para refinar la precisión del modelo de puntuación. Probamos nuestro método propuesto en el conjunto de datos de evaluación del desafío de cancelación de eco profundo de Microsoft ICASSP2023, donde nuestro método supera a algunos de los métodos de extremo a extremo y otros métodos de cancelación de eco basados en difusión.