Artículos de investigación en IA seleccionados diariamente con traducciones
El proyecto BigCode, una colaboración científico-abierta centrada en el desarrollo responsable de Modelos de Lenguaje a Gran Escala para Código (Code LLMs), presenta StarCoder2. En colaboración con Software Heritage (SWH), construimos The Stack v2 sobre los bienes comunes digitales de su archivo de código fuente. Junto con los repositorios de SWH que abarcan 619 lenguajes de programación, seleccionamos cuidadosamente otras fuentes de datos de alta calidad, como solicitudes de extracción (pull requests) de GitHub, cuadernos de Kaggle y documentación de código. Esto resulta en un conjunto de entrenamiento 4 veces más grande que el primer conjunto de datos de StarCoder. Entrenamos los modelos StarCoder2 con 3B, 7B y 15B parámetros en 3.3 a 4.3 billones de tokens y los evaluamos exhaustivamente en un conjunto completo de benchmarks para Code LLMs. Descubrimos que nuestro modelo pequeño, StarCoder2-3B, supera a otros Code LLMs de tamaño similar en la mayoría de los benchmarks, y también supera a StarCoderBase-15B. Nuestro modelo grande, StarCoder2-15B, supera significativamente a otros modelos de tamaño comparable. Además, iguala o supera a CodeLlama-34B, un modelo más del doble de su tamaño. Aunque DeepSeekCoder-33B es el modelo con mejor rendimiento en la completación de código para lenguajes de alto recurso, encontramos que StarCoder2-15B lo supera en benchmarks de razonamiento matemático y de código, así como en varios lenguajes de bajo recurso. Hacemos disponibles los pesos del modelo bajo una licencia OpenRAIL y garantizamos la total transparencia respecto a los datos de entrenamiento mediante la publicación de los Identificadores Persistentes de Software Heritage (SWHIDs) de los datos de código fuente.
Las redes neuronales recurrentes (RNN) tienen una inferencia rápida y escalan eficientemente en secuencias largas, pero son difíciles de entrenar y complicadas de escalar. Proponemos Hawk, una RNN con recurrencias lineales con compuertas, y Griffin, un modelo híbrido que combina recurrencias lineales con compuertas y atención local. Hawk supera el rendimiento reportado de Mamba en tareas posteriores, mientras que Griffin iguala el rendimiento de Llama-2 a pesar de haber sido entrenado con más de 6 veces menos tokens. También demostramos que Griffin puede extrapolar en secuencias significativamente más largas que las vistas durante el entrenamiento. Nuestros modelos igualan la eficiencia de hardware de los Transformers durante el entrenamiento, y durante la inferencia tienen una latencia más baja y un rendimiento significativamente mayor. Escalamos Griffin hasta 14B parámetros y explicamos cómo fragmentar nuestros modelos para un entrenamiento distribuido eficiente.
El aprendizaje profundo tradicional a menudo pasa por alto los bytes, las unidades básicas del mundo digital, donde todas las formas de información y operaciones se codifican y manipulan en formato binario. Inspirados por el éxito de la predicción del siguiente token en el procesamiento del lenguaje natural, presentamos bGPT, un modelo con predicción del siguiente byte para simular el mundo digital. bGPT iguala el rendimiento de modelos especializados en varias modalidades, incluyendo texto, audio e imágenes, y ofrece nuevas posibilidades para predecir, simular y diagnosticar el comportamiento de algoritmos o hardware. Ha replicado casi perfectamente el proceso de conversión de datos musicales simbólicos, logrando una tasa de error baja de 0.0011 bits por byte al convertir notación ABC a formato MIDI. Además, bGPT demuestra capacidades excepcionales en la simulación del comportamiento de la CPU, con una precisión que supera el 99.99% en la ejecución de diversas operaciones. Aprovechando la predicción del siguiente byte, modelos como bGPT pueden aprender directamente de vastos datos binarios, simulando efectivamente los patrones intrincados del mundo digital.
La calidad de los datos y las anotaciones establece el límite superior de la calidad de un modelo descendente. Aunque existen grandes corpus de texto y pares de imagen-texto, los datos de video-texto de alta calidad son mucho más difíciles de recopilar. En primer lugar, el etiquetado manual es más lento, ya que requiere que un anotador vea un video completo. En segundo lugar, los videos tienen una dimensión temporal, compuesta por varias escenas apiladas y que muestran múltiples acciones. En consecuencia, para crear un conjunto de datos de video con subtítulos de alta calidad, proponemos un enfoque automático que aprovecha entradas multimodales, como la descripción textual del video, los subtítulos y los fotogramas individuales del video. Específicamente, seleccionamos 3.8 millones de videos de alta resolución del conjunto de datos HD-VILA-100M, disponible públicamente. Luego, los dividimos en clips de video semánticamente consistentes y aplicamos múltiples modelos docentes de cross-modalidad para obtener subtítulos para cada video. A continuación, ajustamos un modelo de recuperación en un pequeño subconjunto donde se selecciona manualmente el mejor subtítulo de cada video y luego empleamos el modelo en todo el conjunto de datos para seleccionar el mejor subtítulo como anotación. De esta manera, obtenemos 70 millones de videos emparejados con subtítulos de texto de alta calidad. Denominamos a este conjunto de datos Panda-70M. Demostramos el valor del conjunto de datos propuesto en tres tareas descendentes: subtitulación de videos, recuperación de video y texto, y generación de video impulsada por texto. Los modelos entrenados con los datos propuestos obtienen puntuaciones sustancialmente mejores en la mayoría de las métricas en todas las tareas.
Planteamos el control de humanoides en el mundo real como un problema de predicción del siguiente token, similar a predecir la siguiente palabra en el lenguaje. Nuestro modelo es un transformador causal entrenado mediante predicción autorregresiva de trayectorias sensorimotoras. Para abordar la naturaleza multimodal de los datos, realizamos la predicción de manera alineada por modalidad, donde para cada token de entrada predecimos el siguiente token de la misma modalidad. Esta formulación general nos permite aprovechar datos con modalidades faltantes, como trayectorias de video sin acciones. Entrenamos nuestro modelo en una colección de trayectorias simuladas provenientes de políticas previas de redes neuronales, controladores basados en modelos, datos de captura de movimiento y videos de YouTube de humanos. Demostramos que nuestro modelo permite que un humanoide de tamaño completo camine en San Francisco sin ajuste previo (zero-shot). Nuestro modelo puede transferirse al mundo real incluso cuando se entrena con solo 27 horas de datos de caminata, y puede generalizar a comandos no vistos durante el entrenamiento, como caminar hacia atrás. Estos hallazgos sugieren un camino prometedor hacia el aprendizaje de tareas de control desafiantes en el mundo real mediante el modelado generativo de trayectorias sensorimotoras.
Presentamos MOSAIC, una arquitectura modular para robots domésticos que permite realizar tareas colaborativas complejas, como cocinar junto a usuarios cotidianos. MOSAIC colabora estrechamente con humanos, interactúa con los usuarios mediante lenguaje natural, coordina múltiples robots y gestiona un vocabulario abierto de objetos de uso diario. En su núcleo, MOSAIC emplea modularidad: aprovecha múltiples modelos preentrenados a gran escala para tareas generales como el reconocimiento de lenguaje e imágenes, mientras utiliza módulos optimizados diseñados para el control específico de tareas. Evaluamos exhaustivamente MOSAIC en 60 pruebas de extremo a extremo donde dos robots colaboran con un usuario humano para cocinar una combinación de 6 recetas. También probamos extensamente los módulos individuales con 180 episodios de recogida visuomotora, 60 episodios de predicción de movimiento humano y 46 evaluaciones en línea del planificador de tareas con usuarios. Demostramos que MOSAIC es capaz de colaborar eficientemente con humanos al ejecutar el sistema completo de extremo a extremo con un usuario real, completando el 68.3% (41/60) de las pruebas de cocina colaborativa de 6 recetas diferentes con una tasa de finalización de subtareas del 91.6%. Finalmente, discutimos las limitaciones del sistema actual y los desafíos abiertos más interesantes en este dominio. El sitio web del proyecto se encuentra en https://portal-cornell.github.io/MOSAIC/.
Los modelos de difusión han logrado un gran éxito en la síntesis de imágenes de alta calidad. Sin embargo, generar imágenes de alta resolución con modelos de difusión sigue siendo un desafío debido a los enormes costos computacionales, lo que resulta en una latencia prohibitiva para aplicaciones interactivas. En este artículo, proponemos DistriFusion para abordar este problema aprovechando el paralelismo en múltiples GPUs. Nuestro método divide la entrada del modelo en múltiples parches y asigna cada parche a una GPU. Sin embargo, implementar este algoritmo de manera ingenua rompe la interacción entre los parches y reduce la fidelidad, mientras que incorporar dicha interacción generaría una sobrecarga de comunicación considerable. Para superar este dilema, observamos la alta similitud entre las entradas de pasos de difusión adyacentes y proponemos el paralelismo de parches desplazados, que aprovecha la naturaleza secuencial del proceso de difusión reutilizando los mapas de características precalculados del paso de tiempo anterior para proporcionar contexto al paso actual. Por lo tanto, nuestro método permite comunicación asíncrona, que puede ser encadenada con el cálculo. Experimentos extensivos muestran que nuestro método puede aplicarse al reciente Stable Diffusion XL sin degradación de calidad y lograr una aceleración de hasta 6.1 veces en ocho NVIDIA A100s en comparación con una. Nuestro código está disponible públicamente en https://github.com/mit-han-lab/distrifuser.
Trabajos recientes han demostrado que los modelos de lenguaje basados en atención sobresalen en la capacidad de recuperación, es decir, la habilidad de fundamentar las generaciones en tokens previamente vistos en el contexto. Sin embargo, la eficiencia de los modelos basados en atención se ve limitada durante la inferencia por el alto consumo de memoria del KV-cache. En este trabajo, exploramos si es posible mejorar la eficiencia de los modelos de lenguaje (por ejemplo, reduciendo el consumo de memoria) sin comprometer la capacidad de recuperación. Aplicando experimentos y teoría a un amplio conjunto de arquitecturas, identificamos un equilibrio clave entre el tamaño del estado del modelo y su capacidad de recuperación. Mostramos que alternativas eficientes a la atención (por ejemplo, H3, Mamba, RWKV) mantienen un estado recurrente de tamaño fijo, pero tienen dificultades en la recuperación. Proponemos BASED, una arquitectura simple que combina atención lineal y atención de ventana deslizante. Al variar el tamaño de la ventana de BASED y la dimensión de las características de la atención lineal, podemos ajustar el tamaño del estado y recorrer la frontera de Pareto de la curva de equilibrio entre recuperación y memoria, recuperando la calidad completa de la atención en un extremo y el pequeño tamaño de estado de las alternativas a la atención en el otro. Entrenamos modelos de lenguaje de hasta 1.3 mil millones de parámetros y demostramos que BASED iguala a los modelos subcuadráticos más fuertes (por ejemplo, Mamba) en perplejidad y los supera en tareas del mundo real intensivas en recuperación por 6.22 puntos de precisión. Las implementaciones de atención lineal suelen ser menos eficientes que las implementaciones optimizadas de atención estándar. Para hacer que BASED sea competitivo, desarrollamos algoritmos conscientes de E/S que permiten un rendimiento 24 veces mayor en la generación de lenguaje que FlashAttention-2, al generar 1024 tokens utilizando modelos de 1.3 mil millones de parámetros. El código de este trabajo se proporciona en: https://github.com/HazyResearch/based.
Los grandes modelos de lenguaje muestran un gran potencial en la generación y optimización de código. Los métodos de muestreo ampliamente utilizados, como el Muestreo de Núcleo, aumentan la diversidad de la generación, pero a menudo producen muestras repetidas para temperaturas bajas y muestras incoherentes para temperaturas altas. Además, el coeficiente de temperatura debe ajustarse para cada tarea, lo que limita su usabilidad. Presentamos el Muestreo por Prioridad, una técnica de muestreo simple y determinista que produce muestras únicas ordenadas por la confianza del modelo. Cada nueva muestra expande el token no expandido con la mayor probabilidad en el árbol de búsqueda aumentado. Adicionalmente, el Muestreo por Prioridad admite la generación basada en expresiones regulares, lo que proporciona un proceso de exploración controlado y estructurado. El Muestreo por Prioridad supera al Muestreo de Núcleo para cualquier número de muestras, mejorando el rendimiento del modelo original de un 2.87% a un 5% de mejora sobre -Oz. Además, supera al sintonizador automático utilizado para la generación de etiquetas para el entrenamiento del modelo original en tan solo 30 muestras.
El Modelo de Consistencia Latente (LCM, por sus siglas en inglés) extiende el Modelo de Consistencia al espacio latente y aprovecha la técnica de destilación de consistencia guiada para lograr un rendimiento impresionante en la aceleración de la síntesis de texto a imagen. Sin embargo, observamos que el LCM tiene dificultades para generar imágenes con claridad y detalle intrincado. Para abordar esta limitación, inicialmente profundizamos y elucidamos las causas subyacentes. Nuestra investigación identifica que el problema principal se origina en errores en tres áreas distintas. En consecuencia, introducimos la Destilación de Consistencia de Trayectoria (TCD, por sus siglas en inglés), que abarca la función de consistencia de trayectoria y el muestreo estocástico estratégico. La función de consistencia de trayectoria reduce los errores de destilación al ampliar el alcance de la condición de frontera de autoconsistencia y dotar al TCD de la capacidad de rastrear con precisión toda la trayectoria de la EDO de Flujo de Probabilidad. Además, el muestreo estocástico estratégico está específicamente diseñado para evitar los errores acumulados inherentes al muestreo de consistencia de múltiples pasos, y está meticulosamente adaptado para complementar el modelo TCD. Los experimentos demuestran que el TCD no solo mejora significativamente la calidad de las imágenes con un bajo número de evaluaciones de función (NFEs), sino que también produce resultados más detallados en comparación con el modelo maestro en un alto número de NFEs.
La síntesis de nuevas vistas a través de modelos de difusión ha demostrado un potencial notable para generar imágenes diversas y de alta calidad. Sin embargo, el proceso independiente de generación de imágenes en estos métodos predominantes presenta desafíos para mantener la consistencia entre múltiples vistas. Para abordar esto, presentamos ViewFusion, un algoritmo novedoso y libre de entrenamiento que puede integrarse sin problemas en modelos de difusión preentrenados existentes. Nuestro enfoque adopta un método autorregresivo que aprovecha implícitamente las vistas previamente generadas como contexto para la generación de la siguiente vista, asegurando una consistencia robusta de múltiples vistas durante el proceso de generación de nuevas vistas. A través de un proceso de difusión que fusiona la información de vistas conocidas mediante desruido interpolado, nuestro marco logra extender modelos condicionados por una sola vista para funcionar en entornos condicionados por múltiples vistas sin necesidad de ajustes adicionales. Los resultados experimentales exhaustivos demuestran la efectividad de ViewFusion en la generación de vistas nuevas consistentes y detalladas.