Artículos de investigación en IA seleccionados diariamente con traducciones
La capacidad de interpretar con precisión información visual compleja es un tema crucial en los modelos de lenguaje multimodales de gran escala (MLLMs). Investigaciones recientes indican que una percepción visual mejorada reduce significativamente las alucinaciones y mejora el rendimiento en tareas sensibles a la resolución, como el reconocimiento óptico de caracteres y el análisis de documentos. Varios MLLMs recientes logran este objetivo utilizando una combinación de codificadores visuales. A pesar de su éxito, existe una falta de comparaciones sistemáticas y estudios de ablación detallados que aborden aspectos críticos, como la selección de expertos y la integración de múltiples expertos visuales. Este estudio proporciona una exploración exhaustiva del espacio de diseño para MLLMs utilizando una combinación de codificadores visuales y resoluciones. Nuestros hallazgos revelan varios principios subyacentes comunes a diversas estrategias existentes, lo que conduce a un enfoque de diseño simplificado pero efectivo. Descubrimos que simplemente concatenar tokens visuales de un conjunto de codificadores visuales complementarios es tan efectivo como arquitecturas o estrategias de mezcla más complejas. Además, introducimos Pre-Alignment para cerrar la brecha entre los codificadores centrados en la visión y los tokens de lenguaje, mejorando la coherencia del modelo. La familia resultante de MLLMs, Eagle, supera a otros modelos líderes de código abierto en importantes referencias de MLLM. Modelos y código: https://github.com/NVlabs/Eagle
Las capacidades generales de los Modelos de Lenguaje de Gran Tamaño (LLM) dependen en gran medida de la composición y selección de extensos conjuntos de datos de preentrenamiento, tratados como secretos comerciales por varias instituciones. Para mitigar este problema, abrimos los detalles de un canal de procesamiento de datos universalmente aplicable y validamos su eficacia y potencial al presentar una línea base competitiva de LLM. Específicamente, el canal de procesamiento de datos consiste en una amplia recolección para escalar y reponderar para mejorar la calidad. Luego preentrenamos un modelo BaichuanSEED de 7B con 3T de tokens procesados por nuestro canal sin ninguna optimización deliberada relacionada con tareas posteriores, seguido de una etapa de ajuste fino supervisado simple pero efectiva. BaichuanSEED demuestra consistencia y previsibilidad a lo largo del entrenamiento y logra un rendimiento comparable en pruebas exhaustivas con varios modelos de lenguaje de gran tamaño avanzados comerciales, como Qwen1.5 y Llama3. También realizamos varios experimentos heurísticos para discutir el potencial de una mayor optimización de tareas posteriores, como matemáticas y codificación.
Este documento presenta Dolphin, una arquitectura novedosa de decodificador-decodificador para el procesamiento energéticamente eficiente de contextos largos en modelos de lenguaje. Nuestro enfoque aborda los significativos desafíos de consumo de energía y latencia inherentes en modelos en dispositivos. Dolphin emplea un decodificador compacto de 0.5 mil millones de parámetros para destilar información contextual extensa en un incrustamiento de memoria, reduciendo sustancialmente la longitud de entrada para el modelo de decodificador primario de 7 mil millones de parámetros. Inspirados en modelos de visión-lenguaje, reutilizamos el proyector de incrustamiento de imagen para codificar contextos textuales largos, tratando efectivamente el contexto extendido como una modalidad distinta. Este método innovador permite procesar contextos considerablemente más largos sin la sobrecarga computacional típica asociada con secuencias de entrada extendidas. Las evaluaciones empíricas demuestran una mejora de 10 veces en la eficiencia energética y una reducción de 5 veces en la latencia en comparación con los métodos convencionales de procesamiento de contextos de longitud completa sin perder calidad en la respuesta. Nuestro trabajo contribuye al desarrollo de modelos de lenguaje más sostenibles y escalables para aplicaciones en dispositivos, abordando la necesidad crítica de tecnologías de IA energéticamente eficientes y receptivas en entornos con recursos limitados, manteniendo la precisión para comprender contextos largos. Esta investigación tiene implicaciones para el campo más amplio del procesamiento de lenguaje natural, particularmente en el dominio del diseño eficiente de modelos para entornos con recursos limitados. Al habilitar capacidades de IA más sofisticadas en dispositivos periféricos, Dolphin allana el camino para el procesamiento de lenguaje avanzado en una amplia gama de aplicaciones donde los recursos computacionales son escasos. El modelo Dolphin está disponible públicamente en https://huggingface.co/NexaAIDev/Dolphin.
Presentamos LLaVA-MoD, un nuevo marco diseñado para permitir el entrenamiento eficiente de Modelos de Lenguaje Multimodales a pequeña escala (s-MLLM) mediante la destilación de conocimiento de MLLM a gran escala (l-MLLM). Nuestro enfoque aborda dos desafíos fundamentales en la destilación de MLLM. Primero, optimizamos la estructura de red de s-MLLM integrando una arquitectura dispersa de Mezcla de Expertos (MoE) en el modelo de lenguaje, logrando un equilibrio entre eficiencia computacional y expresividad del modelo. Segundo, proponemos una estrategia progresiva de transferencia de conocimiento para garantizar una migración de conocimiento integral. Esta estrategia comienza con la destilación de imitación, donde minimizamos la divergencia de Kullback-Leibler (KL) entre las distribuciones de salida para permitir que el modelo estudiante emule la comprensión de la red docente. A continuación, introducimos la destilación de preferencias a través de la Optimización Directa de Preferencias (DPO), donde la clave radica en tratar al l-MLLM como el modelo de referencia. Durante esta fase, la capacidad de s-MLLM para discriminar entre ejemplos superiores e inferiores se mejora significativamente más allá de l-MLLM, lo que lleva a un estudiante mejorado que supera a su profesor, especialmente en pruebas de alucinación. Experimentos extensos demuestran que LLaVA-MoD supera a los modelos existentes en varios puntos de referencia multimodales mientras mantiene un número mínimo de parámetros activados y bajos costos computacionales. Notablemente, LLaVA-MoD, con solo 2B de parámetros activados, supera a Qwen-VL-Chat-7B en un promedio del 8.8% en los puntos de referencia, utilizando apenas el 0.3% de los datos de entrenamiento y el 23% de los parámetros entrenables. Estos resultados subrayan la capacidad de LLaVA-MoD para destilar eficazmente conocimiento integral de su modelo docente, allanando el camino para el desarrollo de MLLMs más eficientes. El código estará disponible en: https://github.com/shufangxun/LLaVA-MoD.
En la inferencia de Modelos de Lenguaje a Gran Escala (LLM), la longitud de salida de una solicitud de LLM generalmente se considera desconocida de antemano. En consecuencia, la mayoría de los sistemas de servicio de LLM emplean una estrategia de programación simple de Primero en llegar, primero en ser atendido (FCFS), lo que conduce a bloqueos de Cabecera de Línea (HOL) y a una reducción en el rendimiento y la calidad del servicio. En este documento, reexaminamos esta suposición -- mostramos que, aunque predecir la longitud exacta de generación de cada solicitud es inviable, es posible predecir los rangos relativos de las longitudes de salida en un lote de solicitudes, utilizando aprendizaje para clasificar. La información de clasificación ofrece una guía valiosa para programar las solicitudes. Basándonos en esta percepción, desarrollamos un programador novedoso para la inferencia y el servicio de LLM que puede aproximar mejor el esquema de programación del trabajo más corto primero (SJF) que los enfoques existentes. Integrando este programador con el sistema de servicio de LLM de vanguardia, demostramos una mejora significativa en el rendimiento en varias aplicaciones importantes: una reducción del 2.8 veces en la latencia en el servicio de chatbot y un aumento del 6.5 veces en el rendimiento en la generación de datos sintéticos. Nuestro código está disponible en https://github.com/hao-ai-lab/vllm-ltr.git
El cultivo de la experiencia para modelos de lenguaje grandes (LLMs) con el fin de resolver tareas de áreas específicas a menudo requiere ajustes de propósito especial con comportamientos calibrados en las salidas estables esperadas. Para evitar el enorme costo derivado de la preparación manual de conjuntos de datos de instrucción y recursos de entrenamiento de hasta cientos de horas, la explotación del conocimiento abierto, incluyendo una gran cantidad de modelos de adaptación de bajo rango (LoRA) y conjuntos de datos de instrucción, sirve como un buen punto de partida. Sin embargo, los métodos existentes de selección de modelos y datos se centran en el rendimiento de capacidades de propósito general, mientras descuidan la brecha de conocimiento expuesta en la implementación específica de dominio. En el presente estudio, proponemos cerrar esa brecha introduciendo unos pocos ejemplos anotados por humanos (es decir, K-shot) para avanzar en la experiencia en tareas de LLMs con conocimiento abierto. Específicamente, desarrollamos un proceso eficiente y escalable para producir expertos en tareas de manera rentable, donde los datos K-shot intervienen en la selección de los candidatos expertos más prometedores y las instrucciones relevantes para la tarea. Se construye un sistema de mezcla de expertos (MoE) para aprovechar al máximo el conocimiento individual pero complementario entre múltiples expertos. Revelamos las dos claves del éxito de un sistema MoE, 1) el cumplimiento de K-shot, y 2) la insistencia en la diversidad. Para lo primero, nos aseguramos de que se seleccionen modelos que realmente posean habilidades para resolver problemas en K-shot en lugar de aquellos que adivinan a ciegas. Además, durante la selección de datos, se priorizan las instrucciones que comparten contextos relevantes para la tarea con K-shot. Para lo segundo, destacamos la diversidad de expertos constituyentes y la de las instrucciones de ajuste fino a lo largo del proceso de selección de modelos y datos. Los extensos resultados experimentales confirman la superioridad de nuestro enfoque sobre los métodos existentes en la utilización de conocimiento abierto en diversas tareas. Los códigos y modelos se publicarán más adelante.
Acelerar la velocidad de muestreo de los modelos de difusión sigue siendo un desafío significativo. Los métodos recientes de destilación de puntuaciones destilan un modelo profesor pesado en un generador de estudiante de un paso, que se optimiza calculando la diferencia entre las dos funciones de puntuación en las muestras generadas por el modelo de estudiante. Sin embargo, existe un problema de desajuste de puntuaciones en la etapa inicial del proceso de destilación, porque los métodos existentes se centran principalmente en utilizar el punto final de los modelos de difusión preentrenados como modelos profesores, pasando por alto la importancia de la trayectoria de convergencia entre el generador de estudiantes y el modelo profesor. Para abordar este problema, ampliamos el proceso de destilación de puntuaciones introduciendo toda la trayectoria de convergencia de los modelos profesores y proponemos la Destilación de Retroceso de Distribución (DisBack) para destilar generadores de estudiantes. DisBack se compone de dos etapas: Registro de Degradación y Retroceso de Distribución. El Registro de Degradación está diseñado para obtener la trayectoria de convergencia de los modelos profesores, que registra la ruta de degradación desde el modelo profesor entrenado hasta el generador de estudiantes inicial no entrenado. La ruta de degradación representa implícitamente las distribuciones intermedias de los modelos profesores. Luego, el Retroceso de Distribución entrena un generador de estudiantes para retroceder las distribuciones intermedias para aproximar la trayectoria de convergencia de los modelos profesores. Experimentos extensos muestran que DisBack logra una convergencia más rápida y mejor que el método de destilación existente y logra un rendimiento de generación comparable. Es importante destacar que DisBack es fácil de implementar y se puede generalizar a los métodos de destilación existentes para mejorar el rendimiento. Nuestro código está disponible públicamente en https://github.com/SYZhang0805/DisBack.
El crecimiento exponencial de la literatura científica requiere herramientas avanzadas para una exploración de conocimiento efectiva. Presentamos Knowledge Navigator, un sistema diseñado para mejorar las habilidades de búsqueda exploratoria al organizar y estructurar los documentos recuperados de consultas temáticas amplias en una jerarquía navegable de dos niveles de temas y subtemas científicos nombrados y descriptivos. Esta organización estructurada proporciona una visión general de los temas de investigación en un dominio, al mismo tiempo que permite la búsqueda iterativa y el descubrimiento de conocimiento más profundo dentro de subtemas específicos al permitir a los usuarios refinar su enfoque y recuperar documentos relevantes adicionales. Knowledge Navigator combina capacidades de LLM con métodos basados en clústeres para habilitar un método de navegación efectivo. Demostramos la efectividad de nuestro enfoque a través de evaluaciones automáticas y manuales en dos nuevos puntos de referencia, CLUSTREC-COVID y SCITOC. Nuestro código, indicaciones y puntos de referencia están disponibles públicamente.
Para los modelos de Mezcla de Expertos (MoE), una carga de expertos desequilibrada conducirá a un colapso en el enrutamiento o a un aumento en la carga computacional. Los métodos existentes comúnmente emplean una pérdida auxiliar para fomentar el equilibrio de carga, pero una pérdida auxiliar grande introducirá gradientes de interferencia no despreciables en el entrenamiento y, por lo tanto, perjudicará el rendimiento del modelo. Con el fin de controlar el equilibrio de carga sin producir gradientes no deseados durante el entrenamiento, proponemos el Balance sin Pérdida, caracterizado por una estrategia de equilibrio de carga libre de pérdida auxiliar. Específicamente, antes de la decisión de enrutamiento de los mejores K, el Balance sin Pérdida aplicará primero un sesgo por experto a los puntajes de enrutamiento de cada experto. Al actualizar dinámicamente el sesgo de cada experto de acuerdo con su carga reciente, el Balance sin Pérdida puede mantener consistentemente una distribución equilibrada de la carga de expertos. Además, dado que el Balance sin Pérdida no produce gradientes de interferencia, también eleva el límite superior del rendimiento del modelo obtenido del entrenamiento de MoE. Validamos el rendimiento del Balance sin Pérdida en modelos de MoE con hasta 3 mil millones de parámetros entrenados con hasta 200 mil millones de tokens. Los resultados experimentales muestran que el Balance sin Pérdida logra tanto un mejor rendimiento como un mejor equilibrio de carga en comparación con las estrategias tradicionales de equilibrio de carga controladas por pérdida auxiliar.
Si bien la arquitectura Mamba demuestra una eficiencia superior en inferencia y un rendimiento competitivo en tareas de procesamiento de lenguaje natural (NLP) de contexto corto, la evidencia empírica sugiere que su capacidad para comprender contextos largos es limitada en comparación con los modelos basados en transformadores. En este estudio, investigamos los problemas de eficiencia en contextos largos de los modelos Mamba y proponemos ReMamba, que mejora la capacidad de Mamba para comprender contextos largos. ReMamba incorpora técnicas de compresión selectiva y adaptación dentro de un proceso de reenvío de dos etapas, incurriendo en costos adicionales mínimos de inferencia. Los resultados experimentales en los benchmarks LongBench y L-Eval demuestran la eficacia de ReMamba, mejorando sobre los resultados base en 3.2 y 1.6 puntos, respectivamente, y alcanzando un rendimiento casi al nivel de los modelos transformadores del mismo tamaño.
Exploramos cómo mejorar los modelos de predicción de siguiente token para llevar a cabo aprendizaje por imitación en contexto en un robot real, donde el robot ejecuta nuevas tareas interpretando información contextual proporcionada durante la fase de entrada, sin actualizar sus parámetros de política subyacentes. Proponemos el Transformer de Robot en Contexto (ICRT), un transformer causal que realiza predicciones autorregresivas en trayectorias sensoriomotoras sin depender de datos lingüísticos o función de recompensa. Esta formulación permite la ejecución flexible y sin entrenamiento de nuevas tareas en tiempo de prueba, lograda al guiar al modelo con trayectorias sensoriomotoras de la nueva tarea compuestas por observaciones de imagen, acciones y tuplas de estados, recopiladas a través de teleoperación humana. Experimentos con un robot Franka Emika demuestran que el ICRT puede adaptarse a nuevas tareas especificadas por guiones, incluso en configuraciones de entorno que difieren tanto del guion como de los datos de entrenamiento. En un entorno de configuración multitarea, el ICRT supera significativamente a los modelos actuales de predicción de siguiente token más avanzados en robótica en la generalización a tareas no vistas. El código, checkpoints y datos están disponibles en https://icrt.dev/
Utilizar partes de modelos existentes para reconstruir nuevos modelos, comúnmente denominado modelado basado en ejemplos, es una metodología clásica en el ámbito de la gráfica por computadora. Trabajos anteriores se centran principalmente en la composición de formas, lo que los hace muy difíciles de usar para la composición realista de objetos 3D capturados de escenas del mundo real. Esto lleva a combinar múltiples NeRFs en una sola escena 3D para lograr una mezcla de apariencia fluida. Sin embargo, el método actual SeamlessNeRF lucha por lograr una edición interactiva y un ensamblaje armonioso para escenas del mundo real debido a su estrategia basada en gradientes y representación basada en cuadrícula. Con este fin, presentamos un método de modelado basado en ejemplos que combina múltiples campos gaussianos en una representación basada en puntos utilizando síntesis guiada por muestras. Específicamente, en cuanto a la composición, creamos una interfaz gráfica de usuario para segmentar y transformar múltiples campos en tiempo real, obteniendo fácilmente una composición semánticamente significativa de modelos representados por Splatting Gaussiano 3D (3DGS). Para la mezcla de texturas, debido a la naturaleza discreta e irregular de 3DGS, la aplicación directa de la propagación de gradientes como en SeamlssNeRF no es compatible. Por lo tanto, se propone un novedoso método de clonación basado en muestreo para armonizar la mezcla preservando la textura y contenido originales. Nuestro flujo de trabajo consta de tres pasos: 1) segmentación y transformación en tiempo real de un modelo gaussiano utilizando una interfaz gráfica de usuario bien diseñada, 2) análisis KNN para identificar puntos de frontera en el área de intersección entre los modelos fuente y objetivo, y 3) optimización en dos fases del modelo objetivo utilizando clonación basada en muestreo y restricciones de gradientes. Resultados experimentales extensos validan que nuestro enfoque supera significativamente a trabajos anteriores en términos de síntesis realista, demostrando su practicidad. Se pueden encontrar más demostraciones en https://ingra14m.github.io/gs_stitching_website.
En los últimos años, se ha logrado un progreso significativo en la creación de avatares 3D fotorrealistas y conducibles únicamente a partir de videos de humanos reales. Sin embargo, un desafío central que persiste es la edición detallada y amigable de estilos de vestimenta mediante descripciones textuales. Con este fin, presentamos TEDRA, el primer método que permite ediciones basadas en texto de un avatar, manteniendo la alta fidelidad del avatar, coherencia espacio-temporal, así como dinámicas, y permitiendo el control de postura esquelética y vista. Comenzamos entrenando un modelo para crear una réplica digital controlable y de alta fidelidad del actor real. A continuación, personalizamos un modelo generativo de difusión preentrenado ajustándolo en varios fotogramas del personaje real capturado desde diferentes ángulos de cámara, asegurando que la representación digital capture fielmente la dinámica y movimientos de la persona real. Este proceso de dos etapas sienta las bases para nuestro enfoque de edición dinámica de avatares humanos. Utilizando este modelo de difusión personalizado, modificamos el avatar dinámico basándonos en una indicación de texto proporcionada mediante nuestro Muestreo de Destilación de Puntajes Alineados Normalmente Personalizados (PNA-SDS) dentro de un marco de orientación basado en modelos. Además, proponemos una estrategia de templado de pasos de tiempo para garantizar ediciones de alta calidad. Nuestros resultados demuestran una clara mejora respecto a trabajos anteriores en funcionalidad y calidad visual.