Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos una novedosa técnica de inferencia basada en un modelo de difusión preentrenado para la generación de videos condicionados por texto. Nuestro enfoque, denominado FIFO-Difusión, es conceptualmente capaz de generar videos de longitud infinita sin necesidad de entrenamiento. Esto se logra mediante la aplicación iterativa de desruido diagonal, que procesa simultáneamente una serie de fotogramas consecutivos con niveles de ruido crecientes en una cola; nuestro método elimina un fotograma completamente desruido en la cabeza de la cola mientras añade un nuevo fotograma de ruido aleatorio en la cola. Sin embargo, el desruido diagonal es un arma de doble filo, ya que los fotogramas cercanos a la cola pueden beneficiarse de los más limpios mediante referencia hacia adelante, pero esta estrategia induce una discrepancia entre el entrenamiento y la inferencia. Por ello, introducimos la partición latente para reducir la brecha entre entrenamiento e inferencia y el desruido anticipado para aprovechar los beneficios de la referencia hacia adelante. Hemos demostrado los resultados prometedores y la eficacia de los métodos propuestos en líneas base existentes de generación de texto a video.
La adaptación de bajo rango es un método popular de ajuste fino eficiente en parámetros para modelos de lenguaje grandes. En este artículo, analizamos el impacto de la actualización de bajo rango, tal como se implementa en LoRA. Nuestros hallazgos sugieren que el mecanismo de actualización de bajo rango puede limitar la capacidad de los LLM para aprender y memorizar nuevos conocimientos de manera efectiva. Inspirados por esta observación, proponemos un nuevo método llamado MoRA, que emplea una matriz cuadrada para lograr actualizaciones de alto rango mientras mantiene el mismo número de parámetros entrenables. Para lograrlo, introducimos operadores no paramétricos correspondientes para reducir la dimensión de entrada y aumentar la dimensión de salida de la matriz cuadrada. Además, estos operadores aseguran que los pesos puedan fusionarse nuevamente en los LLM, lo que permite que nuestro método se implemente como LoRA. Realizamos una evaluación exhaustiva de nuestro método en cinco tareas: ajuste por instrucciones, razonamiento matemático, preentrenamiento continuo, memoria y preentrenamiento. Nuestro método supera a LoRA en tareas intensivas en memoria y logra un rendimiento comparable en otras tareas.
A medida que los modelos de lenguaje grandes (LLMs) continúan creciendo siguiendo las leyes de escalamiento, el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) ha ganado una atención significativa debido a su rendimiento sobresaliente. Sin embargo, a diferencia del preentrenamiento o el ajuste fino de un solo modelo, escalar el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para entrenar modelos de lenguaje grandes presenta desafíos de coordinación entre cuatro modelos. Presentamos OpenRLHF, un marco de código abierto que permite un escalamiento eficiente de RLHF. A diferencia de los marcos de RLHF existentes que ubican los cuatro modelos en las mismas GPUs, OpenRLHF rediseña la programación para modelos con más de 70B parámetros utilizando Ray, vLLM y DeepSpeed, aprovechando una mejor utilización de recursos y diversos enfoques de entrenamiento. Integrándose perfectamente con Hugging Face, OpenRLHF ofrece una solución lista para usar con algoritmos optimizados y scripts de lanzamiento, lo que garantiza su facilidad de uso. OpenRLHF implementa RLHF, DPO, muestreo por rechazo y otras técnicas de alineación. Potenciando el desarrollo de LLMs de vanguardia, el código de OpenRLHF está disponible en https://github.com/OpenLLMAI/OpenRLHF.
El creciente número de adaptaciones eficientes en parámetros de un modelo de lenguaje grande (LLM) base plantea la necesidad de estudiar si podemos reutilizar dichos adaptadores entrenados para mejorar el rendimiento en nuevas tareas. Investigamos cómo construir de manera óptima una biblioteca de adaptadores dados datos multitarea y desarrollamos técnicas para la generalización tanto en tareas de cero disparos como supervisadas mediante el enrutamiento en dicha biblioteca. Evaluamos enfoques existentes para construir esta biblioteca e introducimos el agrupamiento basado en modelos, MBC, un método que agrupa tareas según la similitud de sus parámetros de adaptadores, optimizando indirectamente la transferencia a través del conjunto de datos multitarea. Para reutilizar la biblioteca, presentamos un nuevo mecanismo de enrutamiento de cero disparos, Arrow, que permite la selección dinámica de los adaptadores más relevantes para nuevas entradas sin necesidad de reentrenamiento. Experimentamos con varios LLMs, como Phi-2 y Mistral, en una amplia gama de tareas retenidas, verificando que los adaptadores basados en MBC y el enrutamiento Arrow conducen a una generalización superior en nuevas tareas. Damos pasos hacia la creación de LLMs modulares y adaptables que pueden igualar o superar el entrenamiento conjunto tradicional.
Al aprovechar las capacidades de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), los recientes modelos multimodales de gran escala (LMMs) han demostrado una notable versatilidad en la comprensión multimodal de entornos abiertos. Sin embargo, estos modelos suelen ser pesados en parámetros y requieren un intenso uso de recursos computacionales, lo que limita su aplicabilidad en escenarios con recursos restringidos. Para abordar este problema, se han propuesto varios LMMs ligeros de manera sucesiva con el objetivo de maximizar sus capacidades bajo una escala limitada (por ejemplo, 3B). A pesar de los resultados alentadores obtenidos por estos métodos, la mayoría se centra en uno o dos aspectos del espacio de diseño, y las decisiones clave de diseño que influyen en la capacidad del modelo aún no han sido investigadas exhaustivamente. En este artículo, realizamos un estudio sistemático de los LMMs ligeros desde los aspectos de la arquitectura del modelo, la estrategia de entrenamiento y los datos de entrenamiento. Basándonos en nuestros hallazgos, desarrollamos Imp, una familia de LMMs altamente competentes en escalas de 2B a 4B. En particular, nuestro modelo Imp-3B supera constantemente a todos los LMMs ligeros existentes de tamaño similar e incluso supera a los LMMs más avanzados en la escala de 13B. Con técnicas de cuantización de bajo bit y reducción de resolución, nuestro modelo Imp puede implementarse en un chip móvil Qualcomm Snapdragon 8Gen3 con una velocidad de inferencia alta de aproximadamente 13 tokens por segundo.
Las políticas de gran escala preentrenadas en diversos conjuntos de datos robóticos tienen el potencial de transformar el aprendizaje robótico: en lugar de entrenar nuevas políticas desde cero, estas políticas generalistas para robots pueden ajustarse con solo un poco de datos específicos del dominio, y aún así generalizar ampliamente. Sin embargo, para ser ampliamente aplicables en una variedad de escenarios, entornos y tareas de aprendizaje robótico, estas políticas deben manejar sensores y espacios de acción diversos, adaptarse a una variedad de plataformas robóticas comúnmente utilizadas, y ajustarse de manera rápida y eficiente a nuevos dominios. En este trabajo, nuestro objetivo es sentar las bases para desarrollar políticas generalistas de código abierto y ampliamente aplicables para la manipulación robótica. Como primer paso, presentamos Octo, una política basada en transformadores de gran escala entrenada en 800,000 trayectorias del conjunto de datos Open X-Embodiment, el mayor conjunto de datos de manipulación robótica hasta la fecha. Puede recibir instrucciones mediante comandos de lenguaje o imágenes objetivo, y puede ajustarse eficazmente a configuraciones robóticas con nuevas entradas sensoriales y espacios de acción en unas pocas horas utilizando GPUs de consumo estándar. En experimentos realizados en 9 plataformas robóticas, demostramos que Octo sirve como una inicialización de política versátil que puede ajustarse eficazmente a nuevos espacios de observación y acción. También realizamos ablaciones detalladas de las decisiones de diseño para el modelo Octo, desde la arquitectura hasta los datos de entrenamiento, para guiar futuras investigaciones en la construcción de modelos robóticos generalistas.
Los Transformers se han convertido en arquitecturas fundamentales tanto para tareas de procesamiento de lenguaje natural como de visión por computadora. Sin embargo, el alto costo computacional hace que sea bastante difícil implementarlos en dispositivos con recursos limitados. Este artículo investiga los módulos que representan cuellos de botella computacional en los transformers eficientes, es decir, las capas de normalización y los módulos de atención. LayerNorm se utiliza comúnmente en las arquitecturas de transformers, pero no es computacionalmente eficiente debido al cálculo de estadísticas durante la inferencia. Sin embargo, reemplazar LayerNorm con BatchNorm, que es más eficiente, en los transformers a menudo conduce a un rendimiento inferior y a colapsos durante el entrenamiento. Para abordar este problema, proponemos un método novedoso llamado PRepBN para reemplazar progresivamente LayerNorm con BatchNorm re-parametrizado durante el entrenamiento. Además, proponemos un módulo de atención lineal simplificado (SLA) que es simple pero efectivo para lograr un rendimiento sólido. Experimentos extensos en clasificación de imágenes y detección de objetos demuestran la efectividad de nuestro método propuesto. Por ejemplo, nuestro SLAB-Swin obtiene un 83.6% de precisión top-1 en ImageNet-1K con una latencia de 16.2ms, que es 2.4ms menos que Flatten-Swin con un 0.1% más de precisión. También evaluamos nuestro método para la tarea de modelado de lenguaje y obtenemos un rendimiento comparable con una latencia más baja. Los códigos están disponibles públicamente en https://github.com/xinghaochen/SLAB y https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
En este trabajo, proponemos un nuevo método llamado Trajectory Score Matching (TSM) que tiene como objetivo resolver el problema de inconsistencia en la pseudo verdad de campo causado por el error acumulado en Interval Score Matching (ISM) al utilizar el proceso de inversión de los Denoising Diffusion Implicit Models (DDIM). A diferencia de ISM, que adopta el proceso de inversión de DDIM para calcular en una única trayectoria, nuestro método TSM aprovecha el proceso de inversión de DDIM para generar dos trayectorias desde el mismo punto de partida para realizar el cálculo. Dado que ambas trayectorias comienzan desde el mismo punto inicial, TSM puede reducir el error acumulado en comparación con ISM, mitigando así el problema de inconsistencia en la pseudo verdad de campo. TSM mejora la estabilidad y consistencia de las trayectorias generadas por el modelo durante el proceso de destilación. Demostramos esto experimentalmente y además mostramos que ISM es un caso especial de TSM. Además, para optimizar el proceso actual de optimización en múltiples etapas desde texto de alta resolución hasta la generación 3D, adoptamos Stable Diffusion XL como guía. En respuesta a los problemas de replicación anormal y división causados por gradientes inestables durante el proceso de 3D Gaussian splatting al utilizar Stable Diffusion XL, proponemos un método de recorte de gradiente píxel por píxel. Experimentos extensivos muestran que nuestro modelo supera significativamente a los modelos más avanzados en términos de calidad visual y rendimiento. Código: https://github.com/xingy038/Dreamer-XL.