Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo presenta la arquitectura Block Transformer, que adopta un modelado jerárquico de global a local en transformadores autoregresivos para mitigar los cuellos de botella en la inferencia de la autoatención. Para aplicar la autoatención, la caché de clave-valor (KV) de todas las secuencias anteriores debe recuperarse de la memoria en cada paso de decodificación. Por lo tanto, esta operación de entrada/salida (IO) de la caché KV se convierte en un cuello de botella significativo en la inferencia por lotes. Observamos que estos costos surgen de aplicar la autoatención en el contexto global, por lo que aislamos los cuellos de botella costosos del modelado global en las capas inferiores y aplicamos un modelado local rápido en las capas superiores. Para mitigar los costos restantes en las capas inferiores, agrupamos los tokens de entrada en bloques de tamaño fijo y luego aplicamos la autoatención en este nivel grueso. La información del contexto se agrega en un único embedding para permitir que las capas superiores decodifiquen el siguiente bloque de tokens sin necesidad de atención global. Libres de los cuellos de botella de la atención global, las capas superiores pueden aprovechar al máximo el hardware de cómputo para maximizar el rendimiento de la inferencia. Al combinar módulos globales y locales, la arquitectura Block Transformer demuestra ganancias de 10 a 20 veces en el rendimiento de la inferencia en comparación con transformadores convencionales con una perplejidad equivalente. Nuestro trabajo introduce un nuevo enfoque para optimizar la inferencia de modelos de lenguaje mediante la aplicación novedosa del modelado de global a local. El código está disponible en https://github.com/itsnamgyu/block-transformer.
El rápido desarrollo de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) como GPT-4V ha marcado un paso significativo hacia la inteligencia artificial general. Los métodos existentes se centran principalmente en alinear codificadores visuales con modelos de lenguaje (LLMs) mediante ajuste fino supervisado (SFT) para dotar a los LLMs de capacidades multimodales, lo que hace que la capacidad inherente de los MLLMs para responder a múltiples idiomas se deteriore progresivamente a medida que avanza el proceso de entrenamiento. Empíricamente, encontramos que los conjuntos de datos de SFT desequilibrados, compuestos principalmente por pares de imagen-texto centrados en inglés, conducen a un rendimiento significativamente reducido en idiomas no ingleses. Esto se debe a la falta de alineación entre el codificador visual y el LLM con tokens multilingües durante el proceso de SFT. En este artículo, presentamos Parrot, un método novedoso que utiliza guías textuales para impulsar la alineación de tokens visuales a nivel de idioma. Parrot hace que los tokens visuales se condicionen a diversas entradas de lenguaje y utiliza una Mezcla de Expertos (MoE) para promover la alineación de tokens multilingües. Específicamente, para mejorar la alineación de tokens visuales no ingleses, calculamos la atención cruzada utilizando las características visuales iniciales y las incrustaciones textuales, cuyo resultado se alimenta al enrutador MoE para seleccionar a los expertos más relevantes. Los expertos seleccionados convierten posteriormente los tokens visuales iniciales en tokens visuales específicos del idioma. Además, considerando la actual falta de puntos de referencia para evaluar capacidades multilingües en este campo, recopilamos y ponemos a disposición un Punto de Referencia Multimodal Multilingüe Masivo que incluye 6 idiomas, 15 categorías y 12,000 preguntas, denominado MMMB. Nuestro método no solo demuestra un rendimiento de vanguardia en MMBench multilingüe y MMMB, sino que también sobresale en una amplia gama de tareas multimodales. Tanto el código fuente como el conjunto de datos de entrenamiento de Parrot estarán disponibles públicamente.
Las tareas de operación en dispositivos móviles se están convirtiendo cada vez más en un escenario popular para aplicaciones de IA multimodal. Los modelos de lenguaje multimodal de gran escala (MLLMs) actuales, limitados por sus datos de entrenamiento, carecen de la capacidad para funcionar eficazmente como asistentes de operación. En su lugar, los agentes basados en MLLMs, que mejoran sus capacidades mediante la invocación de herramientas, están siendo aplicados gradualmente a este escenario. Sin embargo, los dos principales desafíos de navegación en las tareas de operación de dispositivos móviles, la navegación del progreso de la tarea y la navegación del contenido de enfoque, se complican significativamente bajo la arquitectura de agente único del trabajo existente. Esto se debe a las secuencias de tokens excesivamente largas y al formato de datos intercalados de texto e imagen, lo que limita el rendimiento. Para abordar estos desafíos de navegación de manera efectiva, proponemos Mobile-Agent-v2, una arquitectura multiagente para la asistencia en la operación de dispositivos móviles. La arquitectura consta de tres agentes: agente de planificación, agente de decisión y agente de reflexión. El agente de planificación genera el progreso de la tarea, haciendo que la navegación de las operaciones históricas sea más eficiente. Para retener el contenido de enfoque, diseñamos una unidad de memoria que se actualiza con el progreso de la tarea. Además, para corregir operaciones erróneas, el agente de reflexión observa los resultados de cada operación y maneja los errores en consecuencia. Los resultados experimentales indican que Mobile-Agent-v2 logra una mejora de más del 30% en la finalización de tareas en comparación con la arquitectura de agente único de Mobile-Agent. El código es de código abierto en https://github.com/X-PLUG/MobileAgent.
Los métodos existentes para la creación de 3D a partir de una sola imagen suelen involucrar un proceso de dos etapas: primero se generan imágenes de múltiples vistas y luego se utilizan estas imágenes para la reconstrucción 3D. Sin embargo, entrenar estas dos etapas por separado conduce a un sesgo significativo en los datos durante la fase de inferencia, lo que afecta la calidad de los resultados reconstruidos. Presentamos un marco unificado de generación 3D, denominado Ouroboros3D, que integra la generación de imágenes de múltiples vistas basada en difusión y la reconstrucción 3D en un proceso de difusión recursiva. En nuestro marco, estos dos módulos se entrenan conjuntamente a través de un mecanismo de auto-condicionamiento, permitiéndoles adaptarse a las características del otro para una inferencia robusta. Durante el proceso de eliminación de ruido en múltiples vistas, el modelo de difusión de múltiples vistas utiliza los mapas conscientes de 3D renderizados por el módulo de reconstrucción en el paso de tiempo anterior como condiciones adicionales. El marco de difusión recursiva con retroalimentación consciente de 3D unifica todo el proceso y mejora la consistencia geométrica. Los experimentos muestran que nuestro marco supera la separación de estas dos etapas y los métodos existentes que las combinan en la fase de inferencia. Página del proyecto: https://costwen.github.io/Ouroboros3D/
Los Transformers se han convertido rápidamente en la opción preferida para la clasificación de audio, superando a los métodos basados en CNNs. Sin embargo, los Transformers de Espectrograma de Audio (ASTs) presentan un escalado cuadrático debido a la autoatención. La eliminación de este costo cuadrático de autoatención representa una dirección atractiva. Recientemente, los modelos de espacio de estados (SSMs), como Mamba, han demostrado potencial en tareas de lenguaje y visión en este aspecto. En este estudio, exploramos si la dependencia de la autoatención es necesaria para las tareas de clasificación de audio. Al introducir Audio Mamba (AuM), el primer modelo basado exclusivamente en SSMs y sin autoatención para la clasificación de audio, buscamos abordar esta pregunta. Evaluamos AuM en varios conjuntos de datos de audio, que comprenden seis benchmarks diferentes, donde logra un rendimiento comparable o superior al del modelo AST bien establecido.
La generación de diseños es la piedra angular para lograr el diseño gráfico automatizado, lo que requiere organizar la posición y el tamaño de diversos elementos de diseño multimodal de manera visualmente atractiva y que siga restricciones. Los enfoques anteriores son ineficientes para aplicaciones a gran escala o carecen de flexibilidad para adaptarse a diversos requisitos de diseño. Nuestra investigación introduce un marco unificado para la generación automatizada de diseños gráficos, aprovechando el modelo de lenguaje multimodal de gran escala (MLLM) para acomodar diversas tareas de diseño. En contraste, nuestro método basado en datos emplea texto estructurado (formato JSON) y ajuste de instrucciones visuales para generar diseños bajo restricciones visuales y textuales específicas, incluyendo especificaciones en lenguaje natural definidas por el usuario. Realizamos experimentos extensivos y logramos un rendimiento de vanguardia (SOTA) en benchmarks públicos de generación de diseños multimodales, demostrando la efectividad de nuestro método. Además, reconociendo las limitaciones de los conjuntos de datos existentes para capturar la complejidad de los diseños gráficos del mundo real, proponemos dos nuevos conjuntos de datos para tareas mucho más desafiantes (generación con restricciones de usuario y carteles complicados), validando aún más la utilidad de nuestro modelo en entornos de la vida real. Destacando por su accesibilidad y adaptabilidad superiores, este enfoque automatiza aún más las tareas de diseño gráfico a gran escala. El código y los conjuntos de datos estarán disponibles públicamente en https://github.com/posterllava/PosterLLaVA.
Trabajos previos han demostrado la capacidad de síntesis de voz de texto a voz (text-to-speech) en modo zero-shot mediante el uso de un modelo generativo de lenguaje sobre tokens de audio obtenidos a través de un códec neuronal de audio. Sin embargo, sigue siendo un desafío adaptarlos a escenarios de baja latencia. En este artículo, presentamos LiveSpeech: un enfoque basado en un modelo de lenguaje completamente autoregresivo para síntesis de voz zero-shot, que permite la transmisión en tiempo real del audio generado con baja latencia. Para permitir la predicción de múltiples tokens en un solo paso de decodificación, proponemos (1) el uso de pesos de pérdida adaptativos en el codebook que consideran la contribución de cada codebook en cada fotograma y se enfocan en instancias difíciles, y (2) la agrupación de codebooks y su procesamiento en paralelo. Los experimentos muestran que nuestros modelos propuestos logran resultados competitivos en comparación con los modelos de referencia más avanzados en términos de precisión del contenido, similitud del hablante, calidad de audio y velocidad de inferencia, siendo adecuados para aplicaciones de transmisión en tiempo real con baja latencia.
Los avances significativos en los modelos de difusión de video han impulsado considerablemente el campo de la síntesis de texto a video (T2V). Sin embargo, los modelos existentes de síntesis T2V tienen dificultades para generar dinámicas de movimiento complejas con precisión, lo que reduce el realismo de los videos. Una posible solución sería recopilar grandes cantidades de datos y entrenar el modelo con ellos, pero esto resultaría extremadamente costoso. Para mitigar este problema, en este artículo, reformulamos el proceso típico de generación T2V como una canalización de generación basada en búsqueda. En lugar de escalar el entrenamiento del modelo, utilizamos videos existentes como base de datos de prioridades de movimiento. Específicamente, dividimos el proceso de generación T2V en dos pasos: (i) Para una entrada de texto dada, buscamos en conjuntos de datos de texto-video existentes para encontrar videos cuyas etiquetas de texto coincidan estrechamente con los movimientos del texto. Proponemos un algoritmo de búsqueda personalizado que enfatiza las características del movimiento de los objetos. (ii) Los videos recuperados se procesan y destilan en prioridades de movimiento para ajustar un modelo base T2V preentrenado, seguido de la generación de los videos deseados utilizando la entrada de texto. Al utilizar las prioridades obtenidas de los videos buscados, mejoramos el realismo del movimiento de los videos generados. Todas las operaciones pueden realizarse en una sola GPU NVIDIA RTX 4090. Validamos nuestro método frente a los modelos T2V más avanzados utilizando diversas entradas de texto. El código será público.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) ha sido crucial para el reciente éxito de los Modelos de Lenguaje a Gran Escala (LLMs), aunque a menudo es un proceso complejo y frágil. En el marco clásico de RLHF, primero se entrena un modelo de recompensa para representar las preferencias humanas, el cual a su vez es utilizado por un algoritmo de aprendizaje por refuerzo (RL) en línea para optimizar el LLM. Un problema destacado de estos métodos es la sobreoptimización de la recompensa o el "hackeo de recompensas", donde el rendimiento medido por el modelo de recompensa proxy aprendido aumenta, pero la calidad real se estanca o incluso se deteriora. Los Algoritmos de Alineación Directa (DAAs, por sus siglas en inglés), como la Optimización Directa de Preferencias, han surgido como alternativas al pipeline clásico de RLHF al evitar la fase de modelado de recompensas. Sin embargo, aunque los DAAs no utilizan un modelo de recompensa proxy separado, aún suelen deteriorarse debido a la sobreoptimización. Si bien el fenómeno llamado "hackeo de recompensas" no está bien definido para los DAAs, aún descubrimos tendencias similares: con presupuestos de KL más altos, los algoritmos DAA exhiben patrones de degradación similares a sus contrapartes clásicas de RLHF. En particular, encontramos que los métodos DAA se deterioran no solo en un amplio rango de presupuestos de KL, sino también, a menudo, antes de completar incluso una sola época del conjunto de datos. A través de una extensa experimentación empírica, este trabajo formula y formaliza el problema de sobreoptimización o hackeo de recompensas para los DAAs y explora sus consecuencias en diferentes objetivos, regímenes de entrenamiento y escalas de modelos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han tenido un éxito notable en tareas como la comprensión de diálogos complejos, el razonamiento y la codificación, gracias a sus habilidades emergentes. Estas habilidades emergentes se han ampliado con la multimodalidad para incluir capacidades de procesamiento de imágenes, audio y video. Por otro lado, los sistemas de recomendación han sido fundamentales para satisfacer necesidades de búsqueda de información y descubrimiento de elementos. Recientemente, se han realizado intentos de aplicar LLMs para recomendaciones. Una dificultad de los intentos actuales es que el LLM subyacente generalmente no está entrenado con datos de sistemas de recomendación, que en gran medida contienen señales de interacción del usuario y a menudo no están disponibles públicamente. Otra dificultad es que las señales de interacción del usuario suelen tener un patrón diferente al del texto en lenguaje natural, y actualmente no está claro si la configuración de entrenamiento de los LLMs puede aprender conocimientos más no triviales a partir de estas señales en comparación con los métodos tradicionales de sistemas de recomendación. Finalmente, es difícil entrenar múltiples LLMs para diferentes casos de uso y mantener las habilidades originales de lenguaje y razonamiento al aprender de los datos de los sistemas de recomendación. Para abordar estas tres limitaciones, proponemos un Modelo de Lenguaje-Ítem (ILM, por sus siglas en inglés), que está compuesto por un codificador de ítems para producir representaciones de ítems alineadas con el texto que codifican las señales de interacción del usuario, y un LLM congelado que puede comprender esas representaciones de ítems conservando el conocimiento preentrenado. Realizamos experimentos exhaustivos que demuestran tanto la importancia de la alineación con el lenguaje como del conocimiento de las interacciones del usuario en el codificador de ítems.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en diversas tareas, aunque sus enormes tamaños de parámetros limitan su aplicabilidad en entornos con recursos restringidos. La destilación de conocimiento (KD, por sus siglas en inglés) ofrece una solución viable al transferir la experiencia de modelos grandes (maestros) a modelos compactos (estudiantes). Sin embargo, las técnicas tradicionales de KD enfrentan desafíos específicos cuando se aplican a LLMs, incluyendo el acceso restringido a las salidas de los LLMs, brechas significativas en la capacidad entre maestro y estudiante, y el problema heredado de mala calibración. En este trabajo, presentamos PLaD, un novedoso marco de destilación de LLMs basado en preferencias. PLaD aprovecha la discrepancia en la capacidad entre maestro y estudiante para generar pares de preferencias pseudoetiquetados, donde las salidas del maestro se prefieren sobre las del estudiante. Luego, PLaD utiliza una función de pérdida basada en ranking para recalibrar la estimación del estudiante sobre la probabilidad de secuencias, lo que dirige el enfoque del estudiante hacia la comprensión de la calidad relativa de las salidas en lugar de simplemente imitar al maestro. PLaD evita la necesidad de acceder a los estados internos del LLM maestro, aborda las limitaciones de expresividad del estudiante y mitiga el problema de mala calibración del estudiante. A través de experimentos exhaustivos en dos tareas de generación de secuencias y con diversos LLMs, demostramos la efectividad de nuestro marco propuesto, PLaD.
Presentamos Xmodel-LM, un modelo de lenguaje compacto y eficiente de 1.1B parámetros, preentrenado con más de 2 billones de tokens. Entrenado en nuestro conjunto de datos autoconstruido (Xdata), que equilibra corpus en chino e inglés basándose en la optimización de tareas posteriores, Xmodel-LM exhibe un rendimiento notable a pesar de su menor tamaño. Destaca por superar a los modelos de lenguaje de código abierto existentes de escala similar. Nuestros puntos de control del modelo y el código están disponibles públicamente en GitHub en https://github.com/XiaoduoAILab/XmodelLM.