Artículos de investigación en IA seleccionados diariamente con traducciones
El razonamiento matemático representa un desafío significativo para los modelos de lenguaje debido a su naturaleza compleja y estructurada. En este artículo, presentamos DeepSeekMath 7B, que continúa el pre-entrenamiento de DeepSeek-Coder-Base-v1.5 7B con 120 mil millones de tokens relacionados con matemáticas obtenidos de Common Crawl, junto con datos de lenguaje natural y código. DeepSeekMath 7B ha logrado un impresionante puntaje del 51.7% en el benchmark MATH de nivel competitivo sin depender de herramientas externas ni técnicas de votación, acercándose al nivel de rendimiento de Gemini-Ultra y GPT-4. La auto-consistencia sobre 64 muestras de DeepSeekMath 7B alcanza un 60.9% en MATH. La capacidad de razonamiento matemático de DeepSeekMath se atribuye a dos factores clave: primero, aprovechamos el potencial significativo de los datos web disponibles públicamente a través de una canalización de selección de datos meticulosamente diseñada. Segundo, introducimos Group Relative Policy Optimization (GRPO), una variante de Proximal Policy Optimization (PPO), que mejora las habilidades de razonamiento matemático mientras optimiza simultáneamente el uso de memoria de PPO.
Los modelos de texto a imagen ofrecen un nuevo nivel de flexibilidad creativa al permitir que los usuarios guíen el proceso de generación de imágenes mediante lenguaje natural. Sin embargo, utilizar estos modelos para representar de manera consistente el mismo sujeto en diversos prompts sigue siendo un desafío. Los enfoques existentes ajustan el modelo para enseñarle nuevas palabras que describen sujetos específicos proporcionados por el usuario o añaden condicionamiento de imagen al modelo. Estos métodos requieren una optimización prolongada por sujeto o un preentrenamiento a gran escala. Además, tienen dificultades para alinear las imágenes generadas con los prompts de texto y para representar múltiples sujetos. Aquí presentamos ConsiStory, un enfoque libre de entrenamiento que permite la generación consistente de sujetos al compartir las activaciones internas del modelo preentrenado. Introducimos un bloque de atención compartida impulsado por el sujeto y una inyección de características basada en correspondencias para promover la consistencia del sujeto entre las imágenes. Adicionalmente, desarrollamos estrategias para fomentar la diversidad de diseño mientras se mantiene la consistencia del sujeto. Comparamos ConsiStory con una variedad de líneas base y demostramos un rendimiento de vanguardia en consistencia de sujeto y alineación de texto, sin requerir un solo paso de optimización. Finalmente, ConsiStory puede extenderse de manera natural a escenarios de múltiples sujetos e incluso permitir la personalización sin entrenamiento para objetos comunes.
Para ayudar a la comunidad de código abierto a comprender mejor los modelos de lenguaje grandes (LLMs) basados en Mezcla de Expertos (MoE), entrenamos y publicamos OpenMoE, una serie de LLMs MoE de solo decodificador completamente abiertos y reproducibles, que van desde 650M hasta 34B de parámetros y entrenados con más de 1T de tokens. Nuestra investigación confirma que los LLMs basados en MoE pueden ofrecer una relación costo-efectividad más favorable que los LLMs densos, destacando su potencial efectividad para el desarrollo futuro de LLMs. Un aporte importante adicional de este estudio es un análisis en profundidad de los mecanismos de enrutamiento dentro de nuestros modelos OpenMoE, que lleva a tres hallazgos significativos: Especialización Independiente del Contexto, Aprendizaje Temprano del Enrutamiento y Caída hacia el Final. Descubrimos que las decisiones de enrutamiento en los modelos MoE se basan predominantemente en los IDs de los tokens, con una relevancia mínima del contexto. Las asignaciones de tokens a expertos se determinan temprano en la fase de preentrenamiento y permanecen en gran medida sin cambios. Este enrutamiento imperfecto puede resultar en una degradación del rendimiento, particularmente en tareas secuenciales como conversaciones de múltiples turnos, donde los tokens que aparecen más tarde en una secuencia tienen más probabilidades de ser descartados. Finalmente, reconsideramos nuestro diseño basándonos en las observaciones y análisis mencionados anteriormente. Para facilitar el desarrollo futuro de LLMs MoE, proponemos estrategias potenciales para mitigar los problemas identificados y mejorar aún más los diseños existentes de LLMs MoE.
Los modelos de espacio de estados (SSM, por sus siglas en inglés) han demostrado recientemente un rendimiento competitivo frente a los transformadores en benchmarks de modelado de lenguaje a gran escala, logrando una complejidad lineal en tiempo y memoria en función de la longitud de la secuencia. Mamba, un modelo SSM lanzado recientemente, muestra un rendimiento impresionante tanto en tareas de modelado de lenguaje como en el procesamiento de secuencias largas. Simultáneamente, los modelos de mezcla de expertos (MoE, por sus siglas en inglés) han mostrado un rendimiento notable mientras reducen significativamente los costos computacionales y de latencia en la inferencia, a expensas de una mayor huella de memoria. En este artículo, presentamos BlackMamba, una arquitectura novedosa que combina el SSM Mamba con MoE para obtener los beneficios de ambos. Demostramos que BlackMamba compite favorablemente tanto con Mamba como con los transformadores de referencia, y supera en FLOPs de inferencia y entrenamiento. Entrenamos completamente y liberamos modelos BlackMamba de 340M/1.5B y 630M/2.8B en 300B tokens de un conjunto de datos personalizado. Mostramos que BlackMamba hereda y combina los beneficios de las arquitecturas SSM y MoE, integrando la generación de complejidad lineal de SSM con una inferencia rápida y económica de MoE. Liberamos todos los pesos, puntos de control y código de inferencia como código abierto. Código de inferencia en: https://github.com/Zyphra/BlackMamba.
El aprendizaje automático interpretable ha experimentado un auge como área de interés durante la última década, impulsado por el aumento de conjuntos de datos cada vez más grandes y las redes neuronales profundas. Simultáneamente, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en una amplia variedad de tareas, ofreciendo una oportunidad para replantear las posibilidades en el aprendizaje automático interpretable. En particular, la capacidad de explicar en lenguaje natural permite a los LLMs ampliar la escala y complejidad de los patrones que pueden presentarse a un ser humano. Sin embargo, estas nuevas capacidades plantean nuevos desafíos, como explicaciones alucinadas y costos computacionales inmensos. En este documento de posición, comenzamos revisando los métodos existentes para evaluar el campo emergente de la interpretación de LLMs (tanto interpretar LLMs como usar LLMs para explicar). Argumentamos que, a pesar de sus limitaciones, los LLMs tienen el potencial de redefinir la interpretabilidad con un alcance más ambicioso en muchas aplicaciones, incluyendo la auditoría de los propios LLMs. Destacamos dos prioridades de investigación emergentes para la interpretación de LLMs: usar LLMs para analizar directamente nuevos conjuntos de datos y generar explicaciones interactivas.
Alinear los modelos de lenguaje (LM) con retroalimentación humana curada es crucial para controlar su comportamiento en aplicaciones del mundo real. Varios métodos recientes de optimización de políticas, como DPO y SLiC, sirven como alternativas prometedoras al enfoque tradicional de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). En la práctica, la retroalimentación humana suele presentarse en formato de una lista clasificada de múltiples respuestas para amortizar el costo de leer el prompt. Las múltiples respuestas también pueden ser clasificadas por modelos de recompensa o retroalimentación de IA. Hasta ahora, ha faltado un estudio que aborde directamente el ajuste sobre una lista de respuestas. En este trabajo, formulamos la alineación de LM como un problema de clasificación por listas y describimos el marco de Optimización de Preferencias por Listas (LiPO), donde la política puede aprender de manera más efectiva a partir de una lista clasificada de respuestas plausibles dado el prompt. Esta perspectiva establece una conexión explícita con el Aprendizaje para Clasificar (LTR), donde la mayoría del trabajo existente en optimización de preferencias puede mapearse a objetivos de clasificación existentes, especialmente los basados en pares. Siguiendo esta conexión, examinamos objetivos de clasificación que no han sido bien estudiados para la alineación de LM, con DPO y SLiC como casos especiales cuando el tamaño de la lista es dos. En particular, destacamos un método específico, LiPO-{\lambda}, que aprovecha un objetivo de clasificación por listas de última generación y pondera cada par de preferencias de una manera más avanzada. Demostramos que LiPO-{\lambda} puede superar a DPO y SLiC por un margen claro en dos tareas de alineación de preferencias.
Los recientes modelos de difusión de texto a video han logrado avances impresionantes. En la práctica, los usuarios suelen desear la capacidad de controlar el movimiento de los objetos y el movimiento de la cámara de forma independiente para la creación de videos personalizados. Sin embargo, los métodos actuales carecen de un enfoque en el control separado del movimiento de los objetos y el movimiento de la cámara de manera desacoplada, lo que limita la controlabilidad y flexibilidad de los modelos de texto a video. En este artículo, presentamos Direct-a-Video, un sistema que permite a los usuarios especificar de manera independiente los movimientos para uno o varios objetos y/o movimientos de cámara, como si estuvieran dirigiendo un video. Proponemos una estrategia simple pero efectiva para el control desacoplado del movimiento de los objetos y el movimiento de la cámara. El movimiento de los objetos se controla mediante la modulación de atención cruzada espacial utilizando los conocimientos previos inherentes del modelo, sin necesidad de optimización adicional. Para el movimiento de la cámara, introducimos nuevas capas de atención cruzada temporal para interpretar parámetros cuantitativos de movimiento de la cámara. Además, empleamos un enfoque basado en aumentación para entrenar estas capas de manera autosupervisada en un conjunto de datos a pequeña escala, eliminando la necesidad de anotaciones explícitas de movimiento. Ambos componentes operan de manera independiente, permitiendo el control individual o combinado, y pueden generalizarse a escenarios de dominio abierto. Experimentos extensivos demuestran la superioridad y efectividad de nuestro método. Página del proyecto: https://direct-a-video.github.io/.
Presentamos InteractiveVideo, un marco centrado en el usuario para la generación de videos. A diferencia de los enfoques generativos tradicionales que operan basándose en imágenes o texto proporcionados por el usuario, nuestro marco está diseñado para la interacción dinámica, permitiendo a los usuarios instruir al modelo generativo a través de diversos mecanismos intuitivos durante todo el proceso de generación, como indicaciones de texto e imágenes, pintura, arrastrar y soltar, etc. Proponemos un mecanismo de Instrucción Multimodal Sinérgica, diseñado para integrar de manera fluida las instrucciones multimodales de los usuarios en los modelos generativos, facilitando así una interacción cooperativa y receptiva entre las entradas del usuario y el proceso generativo. Este enfoque permite un refinamiento iterativo y detallado del resultado de la generación mediante instrucciones precisas y efectivas por parte del usuario. Con InteractiveVideo, los usuarios tienen la flexibilidad de ajustar meticulosamente aspectos clave de un video. Pueden pintar la imagen de referencia, editar semántica y ajustar los movimientos del video hasta que se cumplan plenamente sus requisitos. El código, los modelos y la demostración están disponibles en https://github.com/invictus717/InteractiveVideo.
La poda estructurada de los modernos modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha surgido como una forma de reducir sus altas necesidades computacionales. La poda en anchura disminuye el tamaño de las matrices de pesos de proyección (por ejemplo, eliminando cabezas de atención) mientras se mantiene el número de capas. En contraste, la poda en profundidad elimina capas o bloques completos, manteniendo el tamaño de los pesos restantes sin cambios. La mayoría de las investigaciones actuales se centran en la poda solo en anchura o en una combinación de poda en anchura y profundidad, con poco análisis comparativo entre estas dos unidades (anchura vs. profundidad) en cuanto a su impacto en la eficiencia de inferencia de los LLMs. En este trabajo, demostramos que un enfoque simple de poda en profundidad puede competir con métodos recientes de poda en anchura en términos de rendimiento en tareas de cero disparos. Nuestro método de poda mejora la velocidad de inferencia, especialmente en condiciones con limitaciones de memoria que requieren tamaños de lote reducidos para ejecutar LLMs, donde la poda en anchura resulta ineficaz. Esperamos que este trabajo pueda ayudar a implementar LLMs en dispositivos locales y de borde.
Existe un abismo sensorial entre la Tierra que habitan los humanos y los reinos digitales en los que se crean los agentes de IA modernos. Para desarrollar agentes de IA que puedan percibir, pensar y actuar con la misma flexibilidad que los humanos en entornos del mundo real, es imperativo cerrar la brecha de realismo entre los mundos digital y físico. ¿Cómo podemos dotar a los agentes de un entorno tan rico y diverso como el que habitamos, sin las limitaciones impuestas por el hardware y el control reales? Con este fin, presentamos V-IRL: una plataforma que permite a los agentes interactuar de manera escalable con el mundo real en un entorno virtual pero realista. Nuestra plataforma sirve como un campo de pruebas para desarrollar agentes capaces de realizar diversas tareas prácticas y como un extenso banco de pruebas para medir el progreso en capacidades que abarcan la percepción, la toma de decisiones y la interacción con datos del mundo real en todo el planeta.
A la luz de los recientes avances en los modelos de lenguaje multimodal de gran escala (LLMs, por sus siglas en inglés), existe una creciente atención en escalarlos desde datos de imagen-texto hacia videos del mundo real más informativos. En comparación con las imágenes estáticas, el video presenta desafíos únicos para un preentrenamiento efectivo a gran escala debido al modelado de sus dinámicas espacio-temporales. En este artículo, abordamos tales limitaciones en el preentrenamiento de video-lenguaje con una descomposición eficiente de video que representa cada video como fotogramas clave y movimientos temporales. Estos se adaptan luego a un LLM utilizando tokenizadores bien diseñados que discretizan la información visual y temporal como unos pocos tokens, permitiendo así un preentrenamiento generativo unificado de videos, imágenes y texto. Durante la inferencia, los tokens generados por el LLM se recuperan cuidadosamente al espacio de píxeles continuo original para crear diversos contenidos de video. Nuestro marco propuesto es capaz tanto de comprender como de generar contenido de imagen y video, como lo demuestra su rendimiento competitivo en 13 benchmarks multimodales de comprensión y generación de imagen y video. Nuestro código y modelos estarán disponibles en https://video-lavit.github.io.
Mejorar los modelos de lenguaje de gran escala (LLMs) para que comprendan audio —incluyendo sonidos no verbales y habla no verbal— es de crucial importancia para diversas aplicaciones en el mundo real de los LLMs. En este artículo, proponemos Audio Flamingo, un novedoso modelo de lenguaje de audio con 1) una sólida capacidad de comprensión de audio, 2) la habilidad de adaptarse rápidamente a tareas no vistas mediante aprendizaje en contexto y recuperación, y 3) fuertes capacidades de diálogo multiturno. Introducimos una serie de técnicas de entrenamiento, diseño de arquitectura y estrategias de datos para dotar a nuestro modelo de estas habilidades. Evaluaciones exhaustivas en diversas tareas de comprensión de audio confirman la eficacia de nuestro método, estableciendo nuevos puntos de referencia de última generación.
El poder de los modelos de lenguaje de gran escala (LLMs) ha sido demostrado a través de numerosos recursos de datos y computación. Sin embargo, la aplicación de modelos de lenguaje en dispositivos móviles enfrenta un gran desafío en cuanto a los costos de computación y memoria, es decir, se requieren urgentemente modelos de lenguaje pequeños con alto rendimiento. Limitados por el proceso de entrenamiento altamente complejo, hay muchos detalles para optimizar modelos de lenguaje que rara vez se estudian cuidadosamente. En este estudio, basado en un modelo de lenguaje pequeño con 1B de parámetros, diseñamos cuidadosamente una serie de estudios empíricos para analizar el efecto de cada componente. Se discuten principalmente tres perspectivas, es decir, la arquitectura neuronal, la inicialización de parámetros y la estrategia de optimización. Varias fórmulas de diseño se demuestran empíricamente especialmente efectivas para modelos de lenguaje pequeños, incluyendo la compresión del tokenizador, el ajuste de la arquitectura, la herencia de parámetros y el entrenamiento en múltiples rondas. Luego entrenamos PanGu-pi-1B Pro y PanGu-pi-1.5B Pro en 1.6T de corpus multilingües, siguiendo las fórmulas establecidas. Los resultados experimentales demuestran que la optimización y arquitectura mejoradas producen una notable mejora promedio de 8.87 en los conjuntos de evaluación de referencia para PanGu-pi-1B Pro. Además, PanGu-pi-1.5B Pro supera a una variedad de modelos SOTA con tamaños de modelo más grandes, validando su rendimiento superior. El código se lanzará pronto (https://github.com/YuchuanTian/RethinkTinyLM).
Estudios recientes han demostrado que los modelos de lenguaje de código a gran escala muestran mejoras significativas en el rendimiento de tareas posteriores, como la generación de código. Sin embargo, la mayoría de los trabajos existentes sobre el aprendizaje de representaciones de código entrenan modelos con cientos de millones de parámetros utilizando corpus de preentrenamiento muy limitados. En este trabajo, potenciamos el aprendizaje de representaciones de código con una gran cantidad de datos de código mediante un esquema de preentrenamiento en dos etapas. Primero, entrenamos los codificadores mediante una mezcla que aprovecha tanto la aleatoriedad en el modelado de lenguaje enmascarado como el aspecto estructural de los lenguajes de programación. Luego, mejoramos las representaciones mediante aprendizaje contrastivo con negativos duros y positivos duros construidos de manera no supervisada. Establecemos un modelo de codificador listo para usar que supera consistentemente a los modelos existentes en una amplia variedad de tareas posteriores por márgenes considerables. Para comprender los factores que contribuyen al éxito del aprendizaje de representaciones de código, realizamos ablaciones detalladas y compartimos nuestros hallazgos sobre: (i) un esquema personalizado y efectivo de eliminación de ruido a nivel de token para código fuente; (ii) la importancia de los negativos duros y positivos duros; (iii) cómo el aprendizaje contrastivo bimodal propuesto mejora el rendimiento de la búsqueda semántica multilingüe; y (iv) cómo los esquemas de preentrenamiento determinan que el rendimiento en tareas posteriores escale con el tamaño del modelo.
Los modelos de difusión de texto a imagen (T2I) a gran escala han revolucionado la generación de imágenes en los últimos años. Aunque poseen capacidades de generación diversas y de alta calidad, trasladar estas habilidades a la edición de imágenes de gran detalle sigue siendo un desafío. En este artículo, proponemos DiffEditor para corregir dos debilidades en la edición de imágenes basada en difusión existente: (1) en escenarios complejos, los resultados de la edición a menudo carecen de precisión y presentan artefactos inesperados; (2) falta de flexibilidad para armonizar las operaciones de edición, por ejemplo, imaginar nuevo contenido. En nuestra solución, introducimos indicaciones de imagen en la edición de imágenes de gran detalle, que cooperan con la indicación de texto para describir mejor el contenido de la edición. Para aumentar la flexibilidad manteniendo la consistencia del contenido, combinamos localmente la ecuación diferencial estocástica (SDE) en el muestreo de la ecuación diferencial ordinaria (ODE). Además, incorporamos una guía de gradiente basada en puntuación regional y una estrategia de viaje en el tiempo en el muestreo de difusión, mejorando aún más la calidad de la edición. Experimentos extensos demuestran que nuestro método puede lograr eficientemente un rendimiento de vanguardia en diversas tareas de edición de imágenes de gran detalle, incluyendo la edición dentro de una sola imagen (por ejemplo, mover objetos, cambiar el tamaño y arrastrar contenido) y entre imágenes (por ejemplo, reemplazar apariencias y pegar objetos). Nuestro código fuente está disponible en https://github.com/MC-E/DragonDiffusion.