Artículos de investigación en IA seleccionados diariamente con traducciones
Desde hace tiempo se ha establecido que los modelos predictivos pueden transformarse en compresores sin pérdida y viceversa. Coincidentemente, en los últimos años, la comunidad de aprendizaje automático se ha centrado en entrenar modelos (de lenguaje) auto-supervisados cada vez más grandes y potentes. Dado que estos grandes modelos de lenguaje exhiben capacidades predictivas impresionantes, están bien posicionados para ser compresores potentes. En este trabajo, abogamos por ver el problema de predicción a través de la lente de la compresión y evaluamos las capacidades de compresión de los modelos grandes (fundacionales). Demostramos que los grandes modelos de lenguaje son predictores de propósito general potentes y que la perspectiva de compresión proporciona nuevas ideas sobre las leyes de escalamiento, la tokenización y el aprendizaje en contexto. Por ejemplo, Chinchilla 70B, aunque entrenado principalmente con texto, comprime parches de ImageNet al 43.4% y muestras de LibriSpeech al 16.4% de su tamaño original, superando a compresores específicos de dominio como PNG (58.5%) o FLAC (30.3%), respectivamente. Finalmente, mostramos que la equivalencia entre predicción y compresión nos permite usar cualquier compresor (como gzip) para construir un modelo generativo condicional.
En este trabajo, presentamos un método escalable de aprendizaje por refuerzo para entrenar políticas multitarea a partir de grandes conjuntos de datos offline que pueden aprovechar tanto demostraciones humanas como datos recopilados de manera autónoma. Nuestro método utiliza un Transformer para proporcionar una representación escalable de las funciones Q entrenadas mediante respaldos de diferencias temporales offline. Por lo tanto, nos referimos al método como Q-Transformer. Al discretizar cada dimensión de la acción y representar el valor Q de cada dimensión de la acción como tokens separados, podemos aplicar técnicas efectivas de modelado de secuencias de alta capacidad para el aprendizaje Q. Presentamos varias decisiones de diseño que permiten un buen rendimiento con el entrenamiento de RL offline, y demostramos que Q-Transformer supera a los algoritmos previos de RL offline y a las técnicas de aprendizaje por imitación en un conjunto diverso y extenso de tareas de manipulación robótica del mundo real. El sitio web del proyecto y los videos se pueden encontrar en https://q-transformer.github.io.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con miles de millones de parámetros han demostrado un rendimiento excepcional en diversas tareas de procesamiento del lenguaje natural. Este informe presenta OpenBA, un modelo seq2seq bilingüe asimétrico de 15B de parámetros de código abierto, con el objetivo de contribuir con una variante de LLM a la comunidad de modelos de código abierto orientados al chino. Hemos mejorado OpenBA con técnicas efectivas y eficientes, además de adoptar una estrategia de entrenamiento en tres etapas para entrenar el modelo desde cero. Nuestra solución también puede lograr un rendimiento muy competitivo con solo 380B de tokens, superando a LLaMA-70B en el benchmark BELEBELE, a BLOOM-176B en el benchmark MMLU y a GLM-130B en el benchmark C-Eval (difícil). Este informe proporciona los detalles principales para preentrenar un modelo análogo, incluyendo el procesamiento de datos de preentrenamiento, la recopilación de datos Bilingual Flan, las observaciones empíricas que inspiran el diseño de la arquitectura de nuestro modelo, los objetivos de entrenamiento en diferentes etapas y otras técnicas de mejora. Hemos refactorizado nuestro código para seguir los principios de diseño de la biblioteca Huggingface Transformers, facilitando su uso por parte de los desarrolladores, y hemos publicado los puntos de control de las diferentes etapas de entrenamiento en https://huggingface.co/openBA. Más detalles sobre nuestro proyecto están disponibles en https://github.com/OpenNLG/openBA.git.
Este artículo tiene como objetivo comprender los impactos de diversas combinaciones de datos (por ejemplo, texto web, Wikipedia, GitHub, libros) en el entrenamiento de modelos de lenguaje grandes utilizando SlimPajama. SlimPajama es un conjunto de datos multi-fuente rigurosamente deduplicado, que ha sido refinado y deduplicado aún más hasta alcanzar 627B tokens a partir del extenso conjunto de datos RedPajama de 1.2T tokens, contribuido por Together. Hemos denominado nuestra investigación como SlimPajama-DC, un análisis empírico diseñado para descubrir características fundamentales y mejores prácticas asociadas con el uso de SlimPajama en el entrenamiento de modelos de lenguaje grandes. Durante nuestra investigación con SlimPajama, surgieron dos observaciones clave: (1) Deduplicación global frente a deduplicación local. Analizamos y discutimos cómo las deduplicaciones globales (a través de diferentes fuentes de conjuntos de datos) y locales (dentro de una sola fuente de conjunto de datos) afectan el rendimiento de los modelos entrenados. (2) Proporciones de conjuntos de datos multi-fuente de alta calidad/altamente deduplicados en la combinación. Para estudiar esto, construimos seis configuraciones del conjunto de datos SlimPajama y entrenamos cada una utilizando el modelo Cerebras-GPT de 1.3B con Alibi y SwiGLU. Nuestra mejor configuración supera significativamente al modelo de 1.3B entrenado en RedPajama utilizando el mismo número de tokens de entrenamiento. Todos nuestros modelos de 1.3B se entrenaron en el clúster Cerebras 16x CS-2 con un total de 80 PFLOP/s en precisión mixta bf16. Extendemos nuestros descubrimientos (como que aumentar la diversidad de datos es crucial después de la deduplicación global) en un modelo de 7B con entrenamiento de gran tamaño de lote. Nuestros modelos y los conjuntos de datos separados de SlimPajama-DC están disponibles en: https://huggingface.co/MBZUAI-LLM y https://huggingface.co/datasets/cerebras/SlimPajama-627B.
Los recientes avances en la generación de audio han sido impulsados por la evolución de modelos de aprendizaje profundo a gran escala y conjuntos de datos extensos. Sin embargo, la tarea de generación de video a audio (V2A) sigue siendo un desafío, principalmente debido a la compleja relación entre los datos visuales y auditivos de alta dimensionalidad, y a los problemas asociados con la sincronización temporal. En este estudio, presentamos FoleyGen, un sistema de generación V2A de dominio abierto basado en un paradigma de modelado del lenguaje. FoleyGen aprovecha un códec neural de audio estándar para la conversión bidireccional entre formas de onda y tokens discretos. La generación de tokens de audio es facilitada por un único modelo Transformer, que está condicionado por características visuales extraídas de un codificador visual. Un problema común en la generación V2A es la desalineación del audio generado con las acciones visibles en el video. Para abordar esto, exploramos tres nuevos mecanismos de atención visual. Además, llevamos a cabo una evaluación exhaustiva de múltiples codificadores visuales, cada uno preentrenado en tareas unimodales o multimodales. Los resultados experimentales en el conjunto de datos VGGSound muestran que nuestro sistema FoleyGen propuesto supera a los sistemas anteriores en todas las métricas objetivas y evaluaciones humanas.
Presentamos POP3D, un marco novedoso que crea un modelo 3D de vista completa de 360° a partir de una sola imagen. POP3D resuelve dos problemas destacados que limitan la reconstrucción de una sola vista. En primer lugar, POP3D ofrece una generalización sustancial a categorías arbitrarias, una característica que los métodos anteriores tienen dificultades para lograr. En segundo lugar, POP3D mejora aún más la fidelidad y naturalidad de la reconstrucción, un aspecto crucial en el que trabajos concurrentes se quedan cortos. Nuestro enfoque combina las fortalezas de cuatro componentes principales: (1) un predictor de profundidad y normales monoculares que sirve para predecir pistas geométricas cruciales, (2) un método de tallado espacial capaz de demarcar las porciones potencialmente no vistas del objeto objetivo, (3) un modelo generativo preentrenado en un gran conjunto de datos de imágenes que puede completar las regiones no vistas del objetivo, y (4) un método de reconstrucción de superficie implícita neuronal diseñado para reconstruir objetos utilizando imágenes RGB junto con pistas geométricas monoculares. La combinación de estos componentes permite que POP3D se generalice fácilmente en diversas imágenes del mundo real y genere reconstrucciones de vanguardia, superando significativamente a trabajos similares. Página del proyecto: http://cg.postech.ac.kr/research/POP3D