Artículos de investigación en IA seleccionados diariamente con traducciones
Este trabajo presenta un método eficiente para escalar modelos de lenguaje grandes (LLMs) basados en Transformers a entradas de longitud infinita con memoria y cómputo acotados. Un componente clave en nuestra propuesta es una nueva técnica de atención denominada Infini-atención. La Infini-atención incorpora una memoria compresiva en el mecanismo de atención estándar e integra tanto la atención local enmascarada como los mecanismos de atención lineal a largo plazo en un solo bloque de Transformer. Demostramos la efectividad de nuestro enfoque en benchmarks de modelado de lenguaje de contexto largo, tareas de recuperación de bloques de contexto de 1M de longitud de secuencia y resumen de libros de 500K de longitud con LLMs de 1B y 8B parámetros. Nuestro enfoque introduce parámetros de memoria acotados mínimos y permite una inferencia rápida en flujo continuo para LLMs.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han logrado resultados notables, pero su creciente demanda de recursos se ha convertido en un obstáculo importante para el desarrollo de una inteligencia superhumana potente y accesible. Este informe presenta JetMoE-8B, un nuevo LLM entrenado con menos de $0.1 millones, utilizando 1.25 billones de tokens de corpus de código abierto cuidadosamente seleccionados y 30,000 horas de GPU H100. A pesar de su bajo costo, JetMoE-8B demuestra un rendimiento impresionante, superando al modelo Llama2-7B, mientras que JetMoE-8B-Chat supera al modelo Llama2-13B-Chat. Estos resultados sugieren que el entrenamiento de LLMs puede ser mucho más rentable de lo que generalmente se piensa. JetMoE-8B se basa en una arquitectura eficiente de Mezcla de Expertos con Compuertas Dispersas (SMoE, por sus siglas en inglés), compuesta por expertos de atención y redes feedforward. Ambas capas se activan de manera dispersa, lo que permite que JetMoE-8B tenga 8 mil millones de parámetros mientras solo activa 2 mil millones para cada token de entrada, reduciendo el cómputo de inferencia en aproximadamente un 70% en comparación con Llama2-7B. Además, JetMoE-8B es altamente abierto y amigable para el ámbito académico, utilizando únicamente conjuntos de datos públicos y código de entrenamiento. Todos los parámetros de entrenamiento y las mezclas de datos se han detallado en este informe para facilitar futuros esfuerzos en el desarrollo de modelos base abiertos. Esta transparencia tiene como objetivo fomentar la colaboración y avances adicionales en el campo de los LLMs accesibles y eficientes. Los pesos del modelo están disponibles públicamente en https://github.com/myshell-ai/JetMoE.
La prueba de la aguja en el pajar (NIAH, por sus siglas en inglés), que examina la capacidad de recuperar un fragmento de información (la "aguja") de textos distractores largos (el "pajar"), ha sido ampliamente adoptada para evaluar modelos de lenguaje de contexto largo (LMs). Sin embargo, esta prueba simple basada en recuperación solo indica una forma superficial de comprensión de contexto largo. Para proporcionar una evaluación más completa de los LMs de contexto largo, creamos un nuevo benchmark sintético llamado RULER con configuraciones flexibles para longitudes de secuencia personalizadas y complejidad de tareas. RULER amplía la prueba NIAH básica para incluir variaciones con diferentes tipos y cantidades de agujas. Además, RULER introduce nuevas categorías de tareas, como el rastreo multi-salto y la agregación, para evaluar comportamientos más allá de la búsqueda en el contexto. Evaluamos diez LMs de contexto largo con 13 tareas representativas en RULER. A pesar de lograr una precisión casi perfecta en la prueba NIAH básica, todos los modelos muestran grandes caídas en el rendimiento a medida que aumenta la longitud del contexto. Aunque estos modelos afirman tener tamaños de contexto de 32K tokens o más, solo cuatro modelos (GPT-4, Command-R, Yi-34B y Mixtral) pueden mantener un rendimiento satisfactorio en la longitud de 32K. Nuestro análisis de Yi-34B, que admite una longitud de contexto de 200K, revela un amplio margen de mejora a medida que aumentamos la longitud de la entrada y la complejidad de las tareas. Hemos liberado RULER como código abierto para fomentar una evaluación integral de los LMs de contexto largo.
Presentamos RealmDreamer, una técnica para la generación de escenas 3D generales orientadas hacia adelante a partir de descripciones textuales. Nuestra técnica optimiza una representación de 3D Gaussian Splatting para que coincida con indicaciones textuales complejas. Inicializamos estos splats utilizando generadores de texto a imagen de última generación, elevando sus muestras a 3D y calculando el volumen de oclusión. Luego, optimizamos esta representación a través de múltiples vistas como una tarea de inpainting 3D con modelos de difusión condicionados por imágenes. Para aprender la estructura geométrica correcta, incorporamos un modelo de difusión de profundidad condicionado por las muestras del modelo de inpainting, lo que proporciona una estructura geométrica rica. Finalmente, ajustamos el modelo utilizando muestras afiladas de generadores de imágenes. Es importante destacar que nuestra técnica no requiere datos de video o múltiples vistas y puede sintetizar una variedad de escenas 3D de alta calidad en diferentes estilos, compuestas por múltiples objetos. Su generalidad permite además la síntesis 3D a partir de una sola imagen.
Analizamos qué tan bien los modelos de lenguaje preentrenados de gran escala (por ejemplo, Llama2, GPT-4, Claude 3, etc.) pueden realizar regresiones lineales y no lineales cuando se les proporcionan ejemplos en contexto, sin necesidad de entrenamiento adicional o actualizaciones de gradiente. Nuestros hallazgos revelan que varios modelos de lenguaje de gran escala (por ejemplo, GPT-4, Claude 3) son capaces de realizar tareas de regresión con un rendimiento que rivaliza (o incluso supera) al de métodos supervisados tradicionales como Random Forest, Bagging o Gradient Boosting. Por ejemplo, en el desafiante conjunto de datos de regresión Friedman #2, Claude 3 supera a muchos métodos supervisados como AdaBoost, SVM, Random Forest, KNN o Gradient Boosting. Luego investigamos cómo escala el rendimiento de los modelos de lenguaje de gran escala con el número de ejemplos en contexto. Tomamos prestada la noción de arrepentimiento (regret) del aprendizaje en línea y demostramos empíricamente que los LLM son capaces de obtener un arrepentimiento sublineal.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) suelen estar compuestos por un codificador visual, por ejemplo, CLIP, y un modelo de lenguaje (LM) que interpreta las características codificadas para resolver tareas posteriores. A pesar de los avances notables, los VLMs presentan varias limitaciones debido a las capacidades restringidas de los codificadores visuales, como la "ceguera" ante ciertas características de las imágenes, las alucinaciones visuales, etc. Para abordar estos problemas, estudiamos la ampliación de las capacidades de codificación visual de los VLMs. Primero, realizamos una evaluación exhaustiva de varios codificadores visuales con diferentes sesgos inductivos para resolver tareas de VLMs. Observamos que no existe una única configuración de codificación que logre consistentemente el mejor rendimiento en diferentes tareas, y que codificadores con sesgos distintos pueden desempeñarse de manera sorprendentemente similar. Motivados por esto, introducimos un método, denominado BRAVE, que consolida características de múltiples codificadores congelados en una representación más versátil que puede ser directamente utilizada como entrada para un LM congelado. BRAVE alcanza un rendimiento de vanguardia en una amplia gama de benchmarks de generación de descripciones y VQA (Visual Question Answering), y reduce significativamente los problemas mencionados de los VLMs, mientras requiere un menor número de parámetros entrenables que los métodos existentes y ofrece una representación más comprimida. Nuestros resultados destacan el potencial de incorporar diferentes sesgos visuales para lograr una comprensión visual más amplia y contextualizada en los VLMs.
La creciente demanda de aplicaciones de realidad virtual ha destacado la importancia de crear activos 3D inmersivos. Presentamos una pipeline de generación de escenas 360° a partir de texto que facilita la creación de escenas 360° completas para entornos naturales en cuestión de minutos. Nuestro enfoque utiliza el poder generativo de un modelo de difusión 2D y el auto-refinamiento de prompts para crear una imagen panorámica de alta calidad y coherente globalmente. Esta imagen actúa como una representación preliminar "plana" (2D) de la escena. Posteriormente, se transforma en Gaussianas 3D, empleando técnicas de splatting para permitir la exploración en tiempo real. Para producir una geometría 3D consistente, nuestra pipeline construye una estructura espacialmente coherente al alinear la profundidad monocular 2D en una nube de puntos optimizada globalmente. Esta nube de puntos sirve como estado inicial para los centroides de las Gaussianas 3D. Con el fin de abordar los problemas de invisibilidad inherentes a las entradas de vista única, imponemos restricciones semánticas y geométricas tanto en las vistas de cámara sintetizadas como en las de entrada como regularizaciones. Estas guían la optimización de las Gaussianas, ayudando en la reconstrucción de regiones no vistas. En resumen, nuestro método ofrece una escena 3D globalmente consistente dentro de una perspectiva 360°, proporcionando una experiencia inmersiva mejorada sobre las técnicas existentes. Sitio web del proyecto: http://dreamscene360.github.io/
Este trabajo examina si los Transformers de solo decodificador, como LLaMA, originalmente diseñados para modelos de lenguaje extenso (LLMs), pueden adaptarse al campo de la visión por computadora. Primero "LLaMAficamos" un ViT estándar paso a paso para alinearlo con la arquitectura de LLaMA, y descubrimos que aplicar directamente una máscara causal a la autoatención provoca un colapso de atención, lo que resulta en el fallo del entrenamiento de la red. Proponemos reposicionar el token de clase detrás de los tokens de imagen mediante una técnica de token de clase pos-secuencia para superar este desafío, permitiendo que la autoatención causal capture eficientemente la información completa de la imagen. Además, desarrollamos una estrategia de máscara suave que introduce gradualmente una máscara causal en la autoatención al inicio del entrenamiento para facilitar el comportamiento de optimización. El modelo adaptado, denominado image LLaMA (iLLaMA), es similar en arquitectura a LLaMA y permite el aprendizaje supervisado directo. Su autoatención causal mejora la eficiencia computacional y aprende representaciones complejas al elevar los rangos de los mapas de atención. iLLaMA rivaliza en rendimiento con sus contrapartes de solo codificador, alcanzando un 75.1% de precisión top-1 en ImageNet con solo 5.7M de parámetros. Escalar el modelo a ~310M y preentrenarlo en ImageNet-21K mejora aún más la precisión al 86.0%. Experimentos extensos demuestran las propiedades confiables de iLLaMA: calibración, sesgo de forma-textura, compatibilidad con cuantización, segmentación en ADE20K y transferencia de aprendizaje en CIFAR. Esperamos que nuestro estudio pueda inspirar nuevas perspectivas en el diseño de modelos visuales en la ola de los LLMs. Los modelos preentrenados y los códigos están disponibles aquí.
Los conjuntos de datos existentes para la comprensión de audio se centran principalmente en interacciones de un solo turno (es decir, descripción de audio, respuesta a preguntas sobre audio) para describir audio en lenguaje natural, lo que limita la comprensión del audio a través de diálogos interactivos. Para abordar esta brecha, presentamos Audio Dialogues: un conjunto de datos de diálogos de múltiples turnos que contiene 163.8k muestras para sonidos generales y música. Además de diálogos, Audio Dialogues también incluye pares de preguntas y respuestas para comprender y comparar múltiples audios de entrada juntos. Audio Dialogues utiliza un enfoque basado en indicaciones y anotaciones de descripciones de conjuntos de datos existentes para generar diálogos de múltiples turnos utilizando un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés). Evaluamos modelos de lenguaje de gran escala aumentados con audio en nuestro conjunto de datos propuesto para demostrar la complejidad y aplicabilidad de Audio Dialogues. Nuestro código para generar el conjunto de datos estará disponible públicamente. Las indicaciones detalladas y los diálogos generados se pueden encontrar en el sitio web de demostración https://audiodialogues.github.io/.
El reciente éxito de los modelos fundamentales preentrenados de visión y lenguaje ha hecho posible la Segmentación de Vocabulario Abierto (OVS, por sus siglas en inglés). A pesar del rendimiento prometedor, este enfoque introduce una gran sobrecarga computacional debido a dos desafíos: 1) el gran tamaño de los modelos base; 2) los costos elevados durante el ajuste fino. Estos desafíos dificultan que esta estrategia de OVS sea ampliamente aplicable y asequible en escenarios del mundo real. Aunque métodos tradicionales como la compresión de modelos y el ajuste fino eficiente pueden abordar estos desafíos, a menudo dependen de heurísticas. Esto significa que sus soluciones no pueden transferirse fácilmente y requieren un reentrenamiento en diferentes modelos, lo cual implica un costo. En el contexto de una OVS eficiente, nuestro objetivo es lograr un rendimiento comparable o incluso superior al de trabajos previos de OVS basados en grandes modelos fundamentales de visión y lenguaje, utilizando modelos más pequeños que incurren en costos de entrenamiento más bajos. La estrategia central es hacer que nuestra eficiencia sea fundamentada y, por lo tanto, transferible sin problemas de un marco de OVS a otros sin necesidad de personalización adicional. Experimentos exhaustivos en diversos puntos de referencia de OVS demuestran nuestra superior relación entre la precisión de segmentación y los costos computacionales en comparación con trabajos anteriores. Nuestro código está disponible en https://github.com/Xujxyang/OpenTrans.