Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Qwen2.5-1M, una serie de modelos que amplían la longitud del contexto a 1 millón de tokens. En comparación con la versión anterior de 128K, la serie Qwen2.5-1M ha mejorado significativamente las capacidades de contexto largo a través de un preentrenamiento y post-entrenamiento de largo contexto. Se emplean técnicas clave como la síntesis de datos largos, el preentrenamiento progresivo y el ajuste fino supervisado en múltiples etapas para mejorar de manera efectiva el rendimiento del largo contexto mientras se reducen los costos de entrenamiento. Para fomentar el uso de modelos de largo contexto entre una base de usuarios más amplia, presentamos y hacemos de código abierto nuestro marco de inferencia. Este marco incluye un método de extrapolación de longitud que puede expandir las longitudes de contexto del modelo al menos cuatro veces, o incluso más, sin entrenamiento adicional. Para reducir los costos de inferencia, implementamos un método de atención dispersa junto con una optimización de relleno segmentado para escenarios de implementación y un método de refinamiento de dispersión para mejorar la precisión. Además, detallamos nuestras optimizaciones en el motor de inferencia, incluida la optimización del kernel, el paralelismo de canalización y la optimización de programación, que mejoran significativamente el rendimiento general de la inferencia. Al aprovechar nuestro marco de inferencia, los modelos Qwen2.5-1M logran una notable aceleración de 3x a 7x en el relleno previo en escenarios con 1 millón de tokens de contexto. Este marco proporciona una solución eficiente y potente para desarrollar aplicaciones que requieren procesamiento de largo contexto utilizando modelos de código abierto. La serie Qwen2.5-1M actualmente incluye los modelos de código abierto Qwen2.5-7B-Instruct-1M y Qwen2.5-14B-Instruct-1M, así como el modelo Qwen2.5-Turbo de acceso a través de API. Las evaluaciones muestran que los modelos Qwen2.5-1M han mejorado considerablemente en tareas de largo contexto sin comprometer el rendimiento en escenarios de corto contexto. Específicamente, el modelo Qwen2.5-14B-Instruct-1M supera significativamente a GPT-4o-mini en tareas de largo contexto y admite contextos ocho veces más largos.
Presentamos Baichuan-Omni-1.5, un modelo omni-modal que no solo tiene capacidades de comprensión omni-modal, sino que también proporciona capacidades de generación de audio de extremo a extremo. Para lograr una interacción fluida y de alta calidad a través de modalidades sin comprometer las capacidades de ninguna modalidad, priorizamos la optimización de tres aspectos clave. En primer lugar, establecemos un exhaustivo proceso de limpieza y síntesis de datos para datos multimodales, obteniendo alrededor de 500B de datos de alta calidad (texto, audio y visión). En segundo lugar, se ha diseñado un tokenizador de audio (Baichuan-Audio-Tokenizer) para capturar tanto información semántica como acústica del audio, permitiendo una integración fluida y una mayor compatibilidad con MLLM. Por último, diseñamos una estrategia de entrenamiento en múltiples etapas que integra progresivamente la alineación multimodal y el ajuste fino multi-tarea, asegurando una sinergia efectiva en todas las modalidades. Baichuan-Omni-1.5 supera a modelos contemporáneos (incluidos GPT4o-mini y MiniCPM-o 2.6) en cuanto a capacidades omni-modales completas. Destacadamente, logra resultados comparables a modelos líderes como Qwen2-VL-72B en diversos puntos de referencia médicos multimodales.
El aprendizaje por refuerzo (RL) promete un marco para la resolución de problemas casi universal. Sin embargo, en la práctica, los algoritmos de RL suelen adaptarse a benchmarks específicos, dependiendo de hiperparámetros cuidadosamente ajustados y elecciones algorítmicas. Recientemente, potentes métodos de RL basados en modelos han mostrado resultados generales impresionantes en benchmarks, pero a costa de una mayor complejidad y tiempos de ejecución lentos, limitando su aplicabilidad más amplia. En este documento, intentamos encontrar un algoritmo unificador de RL profundo sin modelo que pueda abordar una clase diversa de dominios y configuraciones de problemas. Para lograr esto, aprovechamos representaciones basadas en modelos que linealizan aproximadamente la función de valor, aprovechando los objetivos de tarea más densos utilizados por el RL basado en modelos y evitando los costos asociados con la planificación o trayectorias simuladas. Evaluamos nuestro algoritmo, MR.Q, en una variedad de benchmarks comunes de RL con un solo conjunto de hiperparámetros y mostramos un rendimiento competitivo frente a baselines generales y específicos del dominio, lo que representa un paso concreto hacia la construcción de algoritmos de RL profundo sin modelo de propósito general.
Como se sabe, los modelos de atención híbridos cuadráticos y subcuadráticos en arquitecturas multi-head han superado tanto a los modelos Transformer como a los RNN lineales, centrándose principalmente en reducir la complejidad KV y mejorar la eficiencia. Para investigaciones adicionales sobre la expresividad, presentamos nuestra serie de modelos destilados de Qwen 2.5, basados en atención nativa pura RWKV-7, que tiene como objetivo hacer que los RNN sean más expresivos y demuestran una capacidad de seguimiento de estado más allá de los transformers. Trabajamos con QRWK 32B basado en la arquitectura RWKV-6, otro enfoque que reduce el tiempo completo de procesamiento de conocimiento a solo 8 horas utilizando 16 GPUs AMD MI300X, manteniendo el rendimiento de Qwen 2.5. De hecho, el proceso de destilación puede utilizar cualquier LLM, no solo Qwen, y permite la transferencia de conocimiento de LLM más grandes a otros más pequeños con menos tokens. Explicaremos el proceso detallado y compartiremos nuestras ideas sobre la construcción de modelos base más potentes. Tenga en cuenta que este es un trabajo en curso que se actualizará continuamente. Los puntos de control del modelo y el código fuente están disponibles en https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
Los avances recientes en la generación de voz han sido impulsados por conjuntos de datos de entrenamiento a gran escala. Sin embargo, los modelos actuales no logran capturar la espontaneidad y variabilidad inherentes en el habla humana del mundo real, debido a su dependencia de conjuntos de datos de audiolibros limitados a estilos formales de lectura en voz alta. Para cerrar esta brecha, presentamos Emilia-Pipe, un pipeline de preprocesamiento de código abierto para extraer datos de entrenamiento de alta calidad de valiosos pero poco explorados datos en la naturaleza que capturan el habla humana espontánea en contextos del mundo real. Al aprovechar Emilia-Pipe, construimos Emilia, el primer conjunto de datos de generación de voz multilingüe derivado de datos de habla en la naturaleza. Este conjunto de datos comprende más de 101k horas de habla en seis idiomas: inglés, chino, alemán, francés, japonés y coreano. Además, ampliamos Emilia a Emilia-Large, un conjunto de datos que supera las 216k horas, convirtiéndolo en el conjunto de datos de generación de voz de código abierto más grande disponible. Experimentos extensos demuestran que Emilia supera significativamente a los conjuntos de datos tradicionales de audiolibros en la generación de habla espontánea y similar a la humana, mostrando un rendimiento superior en la captura de diversos timbres de hablantes y estilos de habla del habla humana del mundo real. Además, este trabajo subraya la importancia de aumentar el tamaño del conjunto de datos para avanzar en la investigación de generación de voz y valida la efectividad de Emilia tanto para la generación de voz multilingüe como para la generación de voz cruzada.
Presentamos una nueva familia de redes de visión híbridas móviles, llamada iFormer, con un enfoque en optimizar la latencia y precisión en aplicaciones móviles. iFormer integra de manera efectiva la capacidad de representación local rápida de la convolución con la eficiente capacidad de modelado global de la autoatención. Las interacciones locales se derivan de transformar una red convolucional estándar, es decir, ConvNeXt, para diseñar una red móvil más ligera. Nuestra recién introducida atención de modulación móvil elimina operaciones intensivas en memoria en MHA y emplea un mecanismo de modulación eficiente para potenciar la capacidad representativa global dinámica. Realizamos experimentos exhaustivos que demuestran que iFormer supera a las redes ligeras existentes en diversas tareas. Notablemente, iFormer logra una impresionante precisión Top-1 del 80.4\% en ImageNet-1k con una latencia de solo 1.10 ms en un iPhone 13, superando a MobileNetV4 propuesto recientemente bajo restricciones de latencia similares. Además, nuestro método muestra mejoras significativas en tareas secundarias, incluida la detección de objetos COCO, la segmentación de instancias y la segmentación semántica ADE20k, manteniendo aún una baja latencia en dispositivos móviles para entradas de alta resolución en estos escenarios.
Escalar la capacidad de los modelos de lenguaje ha demostrado ser consistentemente un enfoque confiable para mejorar el rendimiento y desbloquear nuevas capacidades. La capacidad puede ser principalmente definida por dos dimensiones: el número de parámetros del modelo y la computación por ejemplo. Aunque el escalamiento generalmente implica aumentar ambos, la interacción precisa entre estos factores y su contribución combinada a la capacidad total aún no se comprende completamente. Exploramos esta relación en el contexto de Modelos de Expertos dispersos (MoEs), que permiten escalar el número de parámetros sin aumentar proporcionalmente las FLOPs por ejemplo. Investigamos cómo variar el nivel de dispersión, es decir, la fracción de parámetros inactivos, afecta el rendimiento del modelo durante el preentrenamiento y la evaluación de pocos disparos posteriores. Descubrimos que bajo diferentes restricciones (por ejemplo, tamaño de parámetros y computación total de entrenamiento), hay un nivel óptimo de dispersión que mejora tanto la eficiencia de entrenamiento como el rendimiento del modelo. Estos resultados proporcionan una mejor comprensión del impacto de la dispersión en las leyes de escalamiento para MoEs y complementan trabajos existentes en esta área, ofreciendo ideas para diseñar arquitecturas más eficientes.
La escalabilidad del cálculo en tiempo de prueba es un eje prometedor para mejorar las capacidades de los LLM. Sin embargo, el cálculo en tiempo de prueba puede escalarse de diversas formas, y combinar eficazmente diferentes enfoques sigue siendo un área de investigación activa. Aquí, exploramos este problema en el contexto de resolver problemas reales de GitHub del conjunto de datos SWE-bench. Nuestro sistema, llamado CodeMonkeys, permite a los modelos editar iterativamente una base de código generando y ejecutando conjuntamente un script de prueba junto con su edición preliminar. Muestreamos muchas de estas trayectorias multi-turno para cada problema para generar una colección de ediciones candidatas. Este enfoque nos permite escalar el cálculo en tiempo de prueba "serial" aumentando el número de iteraciones por trayectoria y el cálculo en tiempo de prueba "paralelo" aumentando el número de trayectorias por problema. Con la escalabilidad paralela, podemos amortizar los costos iniciales entre múltiples muestras posteriores, lo que nos permite identificar el contexto relevante de la base de código utilizando el método simple de permitir que un LLM lea cada archivo. Para seleccionar entre ediciones candidatas, combinamos la votación utilizando pruebas generadas por el modelo con una trayectoria multi-turno final dedicada a la selección. En general, CodeMonkeys resuelve el 57.4% de los problemas de SWE-bench Verificados utilizando un presupuesto de aproximadamente 2300 USD. Nuestro método de selección también se puede utilizar para combinar candidatos de diferentes fuentes. La selección de un conjunto de ediciones de las principales presentaciones Verificadas de SWE-bench existentes obtiene una puntuación del 66.2% y supera al mejor miembro del conjunto por sí solo. Publicamos completamente nuestro código y datos en https://scalingintelligence.stanford.edu/pubs/codemonkeys.
Los modelos de lenguaje visual (VLMs) han cambiado drásticamente el panorama de modelos de visión por computadora en solo unos pocos años, abriendo una emocionante variedad de nuevas aplicaciones desde la clasificación de imágenes de cero disparos, pasando por la descripción de imágenes, hasta la respuesta a preguntas visuales. A diferencia de los modelos de visión pura, ofrecen una forma intuitiva de acceder al contenido visual a través de la inducción del lenguaje. La amplia aplicabilidad de tales modelos nos anima a preguntarnos si también se alinean con la visión humana, específicamente, hasta qué punto adoptan sesgos visuales inducidos por humanos a través de la fusión multimodal, o si simplemente heredan sesgos de los modelos de visión pura. Un sesgo visual importante es el sesgo textura vs. forma, o la dominancia de la información local sobre la global. En este documento, estudiamos este sesgo en una amplia gama de VLMs populares. Curiosamente, encontramos que los VLMs a menudo tienen más sesgo hacia la forma que sus codificadores de visión, lo que indica que los sesgos visuales se modulan hasta cierto punto a través del texto en modelos multimodales. Si el texto realmente influye en los sesgos visuales, esto sugiere que podríamos dirigir los sesgos visuales no solo a través de la entrada visual, sino también a través del lenguaje: una hipótesis que confirmamos a través de experimentos extensos. Por ejemplo, logramos dirigir el sesgo hacia la forma desde tan solo un 49% hasta un 72% solo a través de la inducción. Por ahora, el fuerte sesgo humano hacia la forma (96%) sigue estando fuera del alcance de todos los VLMs probados.
Los Modelos de Espacio de Estados (SSMs) han surgido como alternativas eficientes a los Transformadores para modelado secuencial, pero su incapacidad para aprovechar las características específicas de la modalidad limita su rendimiento en el preentrenamiento multi-modal. Aquí, proponemos Mezcla-de-Mamba, una arquitectura SSM novedosa que introduce dispersión consciente de la modalidad a través de la parametrización específica de la modalidad del bloque Mamba. Basándonos en Mezcla-de-Transformadores (W. Liang et al. arXiv:2411.04996; 2024), extendemos los beneficios de la dispersión consciente de la modalidad a los SSMs mientras preservamos su eficiencia computacional. Evaluamos Mezcla-de-Mamba en tres configuraciones de preentrenamiento multi-modal: Transfusión (tokens de texto entrelazados e imágenes continuas con pérdida de difusión), Camaleón (tokens de texto entrelazados e imágenes discretas) y un marco de tres modalidades extendido que incorpora habla. Mezcla-de-Mamba alcanza consistentemente los mismos valores de pérdida en pasos de entrenamiento más tempranos con costos computacionales significativamente reducidos. En la configuración de Transfusión, Mezcla-de-Mamba logra una pérdida de imagen equivalente utilizando solo el 34.76% de los FLOPs de entrenamiento en la escala de 1.4B. En la configuración de Camaleón, Mezcla-de-Mamba alcanza una pérdida de imagen similar con solo el 42.50% de los FLOPs en la escala de 1.4B, y una pérdida de texto similar con solo el 65.40% de los FLOPs. En la configuración de tres modalidades, MoM iguala la pérdida de habla al 24.80% de los FLOPs en la escala de 1.4B. Nuestro estudio de ablación destaca los efectos sinérgicos de desacoplar componentes de proyección, donde el desacoplamiento conjunto produce mayores beneficios que las modificaciones individuales. Estos resultados establecen la dispersión consciente de la modalidad como un principio de diseño versátil y efectivo, extendiendo su impacto desde los Transformadores a los SSMs y estableciendo nuevos puntos de referencia en el preentrenamiento multi-modal. Nuestro código está disponible en https://github.com/Weixin-Liang/Mixture-of-Mamba.
La Guía sin Clasificador (CFG, por sus siglas en inglés) ha sido una técnica predeterminada en varios modelos generativos visuales, sin embargo, requiere inferencia tanto de modelos condicionales como incondicionales durante el muestreo. Proponemos construir modelos visuales que estén libres de muestreo guiado. El algoritmo resultante, Entrenamiento sin Guía (GFT, por sus siglas en inglés), iguala el rendimiento de CFG mientras reduce el muestreo a un solo modelo, reduciendo a la mitad el costo computacional. A diferencia de enfoques anteriores basados en destilación que dependen de redes CFG preentrenadas, GFT permite el entrenamiento directo desde cero. GFT es simple de implementar. Conserva el mismo objetivo de máxima verosimilitud que CFG y difiere principalmente en la parametrización de modelos condicionales. La implementación de GFT requiere solo modificaciones mínimas a bases de código existentes, ya que la mayoría de las decisiones de diseño y hiperparámetros se heredan directamente de CFG. Nuestros extensos experimentos en cinco modelos visuales distintos demuestran la efectividad y versatilidad de GFT. A través de dominios de difusión, autoregresión y modelado de predicción enmascarada, GFT logra consistentemente puntajes FID comparables o incluso más bajos, con compensaciones similares entre diversidad y fidelidad en comparación con las líneas de base de CFG, todo ello sin necesidad de guía. El código estará disponible en https://github.com/thu-ml/GFT.
La personalización de roles en modelos de lenguaje grandes (LLMs), también conocida como generalización de personajes, está ganando cada vez más atención por su versatilidad y eficiencia en costos en el desarrollo e implementación de agentes de diálogo de rol. Este estudio explora un enfoque de síntesis de datos a gran escala para dotar a los LLMs con capacidades de generalización de personajes. Comenzamos sintetizando perfiles de personajes a gran escala utilizando personas de Persona Hub y luego exploramos dos estrategias: la reescritura de respuestas y la generación de respuestas, para crear respuestas instructivas alineadas con el personaje. Para validar la efectividad de nuestros datos sintéticos de ajuste de instrucciones para la generalización de personajes, realizamos un ajuste fino supervisado (SFT) utilizando el modelo LLaMA-3 8B. Nuestro modelo de mejor rendimiento refuerza el modelo original LLaMA-3 8B Instruct y logra un rendimiento comparable a los modelos GPT-4o en diálogos de rol. Publicamos nuestros personajes sintéticos y diálogos de ajuste de instrucciones para apoyar la investigación pública.
El dominio de los grandes modelos de lenguaje de solo decodificador ha eclipsado a las arquitecturas codificador-decodificador, a pesar de sus ventajas fundamentales de eficiencia en el procesamiento de secuencias. Para los modelos de lenguaje pequeños (SLMs) - aquellos con 1 mil millones de parámetros o menos - nuestro análisis sistemático en plataformas GPU, CPU y NPU revela que las arquitecturas codificador-decodificador logran una latencia de primer token un 47% menor y una mayor capacidad de procesamiento de 4.7 veces en comparación con los modelos de solo decodificador en dispositivos periféricos. Estas mejoras pueden atribuirse al procesamiento de entrada único y a la eficiente separación de las fases de comprensión y generación del codificador-decodificador. Introducimos un novedoso marco de destilación de conocimiento que permite a los modelos codificador-decodificador aprovechar las capacidades de grandes modelos de solo decodificador escalables, al tiempo que preservan sus ventajas arquitectónicas, logrando hasta 6 puntos de mejora en el rendimiento promedio en diversas tareas, con ganancias significativas en tareas asimétricas de secuencias donde las distribuciones de entrada y salida pueden beneficiarse de enfoques de procesamiento diferentes. Cuando se combina con avances modernos como los Embebdings Rotativos de Posición (RoPE) y codificadores de Visión, nuestra investigación sistemática demuestra que las arquitecturas codificador-decodificador ofrecen un camino más práctico para implementar modelos de lenguaje capaces en entornos con recursos limitados. Nuestros hallazgos desafían la tendencia predominante hacia la escalabilidad de solo decodificador, mostrando que las elecciones arquitectónicas se vuelven cada vez más cruciales a medida que los presupuestos de parámetros disminuyen, especialmente para implementaciones en dispositivos y periféricos donde la eficiencia computacional es primordial.
Presentamos el Aprendizaje Factible (FL), un paradigma de aprendizaje centrado en muestras donde los modelos se entrenan resolviendo un problema de viabilidad que limita la pérdida para cada muestra de entrenamiento. En contraste con el ubicuo marco de Minimización del Riesgo Empírico (ERM), que optimiza el rendimiento promedio, FL exige un rendimiento satisfactorio en cada punto de datos individual. Dado que cualquier modelo que cumpla con el umbral de rendimiento prescrito es una solución FL válida, la elección del algoritmo de optimización y su dinámica juegan un papel crucial en la configuración de las propiedades de las soluciones resultantes. En particular, estudiamos un enfoque primal-dual que reajusta dinámicamente la importancia de cada muestra durante el entrenamiento. Para abordar el desafío de establecer un umbral significativo en la práctica, introducimos una relajación de FL que incorpora variables de holgura de norma mínima. Nuestro análisis empírico, que abarca la clasificación de imágenes, la regresión de edad y la optimización de preferencias en modelos de lenguaje grandes, demuestra que los modelos entrenados a través de FL pueden aprender de los datos mientras muestran un comportamiento de cola mejorado en comparación con ERM, con solo un impacto marginal en el rendimiento promedio.