Artículos de investigación en IA seleccionados diariamente con traducciones
El modelo de consistencia (CM, por sus siglas en inglés) ha logrado avances significativos recientemente en la aceleración de la generación de modelos de difusión. Sin embargo, su aplicación en la generación de imágenes de alta resolución condicionadas por texto en el espacio latente (conocido como LCM) sigue siendo insatisfactoria. En este artículo, identificamos tres fallas clave en el diseño actual del LCM. Investigamos las razones detrás de estas limitaciones y proponemos el Modelo de Consistencia por Fases (PCM, por sus siglas en inglés), que generaliza el espacio de diseño y aborda todas las limitaciones identificadas. Nuestras evaluaciones demuestran que el PCM supera significativamente al LCM en configuraciones de generación de 1 a 16 pasos. Aunque el PCM está específicamente diseñado para el refinamiento en múltiples pasos, logra resultados incluso superiores o comparables en la generación de un solo paso con respecto a métodos de un solo paso previamente considerados como estado del arte. Además, mostramos que la metodología del PCM es versátil y aplicable a la generación de videos, lo que nos permite entrenar el generador de texto a video de pocos pasos más avanzado hasta la fecha. Más detalles están disponibles en https://g-u-n.github.io/projects/pcm/.
A medida que las Redes Neuronales Profundas (DNNs) aumentan en tamaño y complejidad, a menudo superan la capacidad de memoria de un solo acelerador, lo que requiere la fragmentación de los parámetros del modelo en múltiples aceleradores. El paralelismo de tubería (pipeline parallelism) es una estrategia de fragmentación comúnmente utilizada para entrenar DNNs grandes. Sin embargo, las implementaciones actuales de paralelismo de tubería están siendo limitadas involuntariamente por las herramientas de diferenciación automática proporcionadas por los frameworks de aprendizaje automático. Este artículo introduce la retropropagación en 2 etapas (2BP). Al dividir el paso de propagación hacia atrás en dos etapas separadas, podemos reducir el tiempo de cómputo inactivo. Probamos 2BP en varias arquitecturas de modelos y planes de tubería, logrando aumentos en el rendimiento en todos los casos. Utilizando 2BP, pudimos alcanzar un aumento de 1.70x en el rendimiento en comparación con los métodos tradicionales al entrenar un transformador similar a LLaMa con 7 mil millones de parámetros en 4 GPUs.
Los recientes avances en la edición de texto a música, que emplean consultas de texto para modificar música (por ejemplo, cambiando su estilo o ajustando componentes instrumentales), presentan desafíos y oportunidades únicos para la creación de música asistida por IA. Los enfoques anteriores en este dominio se han visto limitados por la necesidad de entrenar modelos de edición específicos desde cero, lo cual es intensivo en recursos e ineficiente; otras investigaciones utilizan modelos de lenguaje grandes para predecir música editada, lo que resulta en una reconstrucción de audio imprecisa. Para combinar las fortalezas y abordar estas limitaciones, presentamos Instruct-MusicGen, un enfoque novedoso que ajusta un modelo MusicGen preentrenado para seguir eficientemente instrucciones de edición, como agregar, eliminar o separar pistas. Nuestro enfoque implica una modificación de la arquitectura original de MusicGen mediante la incorporación de un módulo de fusión de texto y un módulo de fusión de audio, que permiten al modelo procesar textos de instrucción y entradas de audio de manera concurrente y producir la música editada deseada. Notablemente, Instruct-MusicGen solo introduce un 8% de nuevos parámetros al modelo original de MusicGen y se entrena en solo 5K pasos, sin embargo, logra un rendimiento superior en todas las tareas en comparación con los baselines existentes, y demuestra un rendimiento comparable a los modelos entrenados para tareas específicas. Este avance no solo mejora la eficiencia de la edición de texto a música, sino que también amplía la aplicabilidad de los modelos de lenguaje musical en entornos dinámicos de producción musical.
Yuan 2.0-M32, con una arquitectura base similar a Yuan-2.0 2B, utiliza una arquitectura de mezcla de expertos con 32 expertos, de los cuales 2 están activos. Se propone y adopta una nueva red de enrutamiento, Attention Router, para una selección más eficiente de expertos, lo que aumenta la precisión en un 3.8% en comparación con el modelo que utiliza la red de enrutamiento clásica. Yuan 2.0-M32 se entrena desde cero con 2000B tokens, y el consumo computacional del entrenamiento es solo el 9.25% de un modelo denso con la misma escala de parámetros. Yuan 2.0-M32 demuestra una capacidad competitiva en codificación, matemáticas y diversos dominios de especialización, con solo 3.7B parámetros activos de un total de 40B, y 7.4 GFlops de cálculo por token en la fase de avance, ambos valores equivalentes a solo 1/19 de Llama3-70B. Yuan 2.0-M32 supera a Llama3-70B en los benchmarks MATH y ARC-Challenge, con precisiones de 55.89 y 95.8 respectivamente. Los modelos y códigos fuente de Yuan 2.0-M32 están disponibles en Github.
Las capacidades de los modelos de lenguaje grandes (LLMs) modernos para resolver tareas de procesamiento de lenguaje natural, razonamiento complejo, análisis de sentimientos y otras han sido extraordinarias, lo que ha impulsado su adopción generalizada. Desafortunadamente, estas capacidades conllevan costos de memoria y computación muy elevados, lo que impide el uso de LLMs en la mayoría de las plataformas de hardware. Para mitigar esto, proponemos un método efectivo para encontrar arquitecturas de red Pareto-óptimas basadas en LLaMA2-7B utilizando NAS de un solo paso. En particular, ajustamos LLaMA2-7B una sola vez y luego aplicamos una búsqueda basada en algoritmos genéticos para encontrar arquitecturas de red más pequeñas y menos complejas computacionalmente. Demostramos que, para ciertas tareas de referencia estándar, la red preentrenada LLaMA2-7B es innecesariamente grande y compleja. Más específicamente, mostramos una reducción de 1.5x en el tamaño del modelo y una aceleración de 1.3x en el rendimiento para ciertas tareas, con una caída insignificante en la precisión. Además de encontrar arquitecturas de red más pequeñas y de mayor rendimiento, nuestro método lo hace de manera más efectiva y eficiente que ciertas técnicas de poda o esparsificación. Finalmente, demostramos cómo la cuantización es complementaria a nuestro método y que el tamaño y la complejidad de las redes que encontramos pueden reducirse aún más mediante la cuantización. Creemos que nuestro trabajo proporciona una forma de crear automáticamente LLMs que pueden usarse en plataformas de hardware menos costosas y más accesibles.
Reconstruir escenas 4D a partir de entradas de video es una tarea crucial pero desafiante. Los métodos convencionales suelen basarse en supuestos como entradas de video multivista, parámetros de cámara conocidos o escenas estáticas, todos los cuales generalmente están ausentes en escenarios del mundo real. En este artículo, relajamos todas estas restricciones y abordamos una tarea altamente ambiciosa pero práctica, a la que denominamos AnyV4D: asumimos que solo está disponible un video monocular sin ningún parámetro de cámara como entrada, y nuestro objetivo es recuperar el mundo dinámico 4D junto con las poses de la cámara. Para ello, presentamos GFlow, un nuevo marco que utiliza únicamente priores 2D (profundidad y flujo óptico) para elevar un video (3D) a una representación explícita 4D, implicando un flujo de splatting Gaussiano a través del espacio y el tiempo. GFlow primero agrupa la escena en partes estáticas y en movimiento, luego aplica un proceso de optimización secuencial que optimiza las poses de la cámara y la dinámica de puntos Gaussianos 3D basándose en los priores 2D y la agrupación de la escena, asegurando fidelidad entre puntos vecinos y un movimiento suave entre fotogramas. Dado que las escenas dinámicas siempre introducen nuevo contenido, también proponemos una nueva estrategia de densificación píxel a píxel para los puntos Gaussianos, con el fin de integrar nuevo contenido visual. Además, GFlow trasciende los límites de la mera reconstrucción 4D; también permite rastrear cualquier punto a lo largo de los fotogramas sin necesidad de entrenamiento previo y segmenta objetos en movimiento de la escena de manera no supervisada. Adicionalmente, las poses de la cámara de cada fotograma pueden derivarse de GFlow, permitiendo la renderización de nuevas vistas de una escena de video mediante el cambio de la pose de la cámara. Al emplear la representación explícita, podemos realizar fácilmente ediciones a nivel de escena o de objeto según se desee, destacando su versatilidad y potencia. Visite nuestro sitio web del proyecto en: https://littlepure2333.github.io/GFlow
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han surgido recientemente como herramientas poderosas para abordar muchas tareas de procesamiento de lenguaje. A pesar de su éxito, el entrenamiento y el ajuste fino de estos modelos sigue siendo excesivamente intensivo en términos de cómputo y memoria. En este artículo, identificamos y caracterizamos los componentes importantes necesarios para lograr una convergencia efectiva del modelo utilizando el descenso de gradiente. Al hacerlo, descubrimos que las activaciones intermedias utilizadas para implementar la retropropagación pueden comprimirse en exceso sin incurrir en ninguna degradación del rendimiento. Este resultado nos lleva a un algoritmo económico y eficiente en memoria tanto para el ajuste fino como para el preentrenamiento de LLMs. El algoritmo propuesto simplemente divide los tokens en sub-tokens más pequeños antes de proyectarlos en un subespacio unidimensional fijo durante la pasada hacia adelante. Estas características se reconstruyen de manera aproximada durante la pasada hacia atrás para implementar las reglas de actualización. Confirmamos la efectividad de nuestro algoritmo como complemento a muchos métodos PEFT de vanguardia en el punto de referencia de ajuste fino VTAB-1k. Además, superamos a QLoRA en el ajuste fino de LLaMA y mostramos un rendimiento competitivo frente a otros métodos de preentrenamiento eficientes en memoria en el conjunto de datos a gran escala C4.
La edición de imágenes de escenas es crucial para el entretenimiento, la fotografía y el diseño publicitario. Los métodos existentes se centran únicamente en la edición de objetos individuales en 2D o en la edición global de escenas en 3D. Esto resulta en la falta de un enfoque unificado para controlar y manipular eficazmente las escenas a nivel 3D con diferentes niveles de granularidad. En este trabajo, proponemos 3DitScene, un marco novedoso y unificado para la edición de escenas que aprovecha el desacoplamiento guiado por lenguaje mediante Gaussian Splatting, permitiendo una edición fluida de 2D a 3D y un control preciso sobre la composición de la escena y los objetos individuales. Primero incorporamos Gaussianas 3D que se refinan mediante técnicas de optimización y priors generativos. Luego, las características de lenguaje de CLIP introducen semántica en la geometría 3D para el desacoplamiento de objetos. Con las Gaussianas desacopladas, 3DitScene permite la manipulación tanto a nivel global como individual, revolucionando la expresión creativa y otorgando un mayor control sobre las escenas y los objetos. Los resultados experimentales demuestran la efectividad y versatilidad de 3DitScene en la edición de imágenes de escenas. El código y una demostración en línea están disponibles en nuestra página del proyecto: https://zqh0253.github.io/3DitScene/.