Artículos de investigación en IA seleccionados diariamente con traducciones
En este informe, presentamos Qwen2.5, una serie completa de grandes modelos de lenguaje (LLMs) diseñados para satisfacer diversas necesidades. En comparación con iteraciones anteriores, Qwen 2.5 ha sido mejorado significativamente tanto durante las etapas de preentrenamiento como de postentrenamiento. En cuanto al preentrenamiento, hemos escalado los conjuntos de datos de preentrenamiento de alta calidad de 7 billones de tokens anteriores a 18 billones de tokens. Esto proporciona una sólida base para el sentido común, el conocimiento experto y las capacidades de razonamiento. En cuanto al postentrenamiento, implementamos un ajuste fino supervisado intrincado con más de 1 millón de muestras, así como aprendizaje por refuerzo en múltiples etapas. Las técnicas de postentrenamiento mejoran la preferencia humana y mejoran notablemente la generación de texto largo, el análisis de datos estructurales y el seguimiento de instrucciones. Para manejar casos de uso diversos y variados de manera efectiva, presentamos la serie de modelos LLM Qwen2.5 en tamaños variados. Las ofertas de peso abierto incluyen modelos base y ajustados a instrucciones, con versiones cuantizadas disponibles. Además, para soluciones alojadas, los modelos propietarios actualmente incluyen dos variantes de mezcla de expertos (MoE): Qwen2.5-Turbo y Qwen2.5-Plus, ambos disponibles en Alibaba Cloud Model Studio. Qwen2.5 ha demostrado un rendimiento de primer nivel en una amplia gama de pruebas que evalúan la comprensión del lenguaje, el razonamiento, las matemáticas, la codificación, la alineación de preferencias humanas, etc. Específicamente, el buque insignia de peso abierto Qwen2.5-72B-Instruct supera a varios modelos abiertos y propietarios y muestra un rendimiento competitivo con el modelo de peso abierto de última generación, Llama-3-405B-Instruct, que es aproximadamente 5 veces más grande. Qwen2.5-Turbo y Qwen2.5-Plus ofrecen una mejor relación costo-eficacia al tiempo que compiten contra GPT-4o-mini y GPT-4o respectivamente. Además, como base, los modelos Qwen2.5 han sido fundamentales en el entrenamiento de modelos especializados como Qwen2.5-Math, Qwen2.5-Coder, QwQ y modelos multimodales.
Las tareas de razonamiento multimodal de múltiples pasos plantean desafíos significativos para los modelos de lenguaje multimodal a gran escala (MLLMs), y encontrar formas efectivas de mejorar su rendimiento en tales escenarios sigue siendo un problema no resuelto. En este artículo, proponemos AR-MCTS, un marco universal diseñado para mejorar progresivamente las capacidades de razonamiento de MLLMs a través de la Recuperación Activa (AR) y la Búsqueda del Árbol de Monte Carlo (MCTS). Nuestro enfoque comienza con el desarrollo de un módulo de recuperación unificado que extrae ideas clave de apoyo para resolver problemas de razonamiento complejos de un corpus de recuperación híbrido-modal. Para cerrar la brecha en la verificación automatizada del razonamiento multimodal, empleamos el algoritmo MCTS combinado con un mecanismo de recuperación activa, que permite la generación automática de anotaciones paso a paso. Esta estrategia recupera dinámicamente ideas clave para cada paso de razonamiento, yendo más allá del muestreo tradicional de búsqueda en haz para mejorar la diversidad y fiabilidad del espacio de razonamiento. Además, introducimos un modelo de recompensa de proceso que se alinea progresivamente para respaldar la verificación automática de tareas de razonamiento multimodal. Los resultados experimentales en tres bancos de pruebas de razonamiento multimodal complejos confirman la efectividad del marco AR-MCTS en mejorar el rendimiento de varios modelos multimodales. Un análisis adicional demuestra que AR-MCTS puede optimizar la diversidad y precisión del muestreo, produciendo un razonamiento multimodal confiable.
A pesar de la creciente demanda de recuperación multimodal, el progreso en este campo sigue severamente limitado por la falta de datos de entrenamiento. En este documento, presentamos MegaPairs, un novedoso método de síntesis de datos que aprovecha los modelos de visión y lenguaje (VLMs) y las imágenes de dominio abierto, junto con un extenso conjunto de datos sintéticos generado a partir de este método. Nuestro análisis empírico muestra que MegaPairs genera datos de alta calidad, lo que permite que el recuperador multimodal supere significativamente al modelo base entrenado con 70 veces más datos de conjuntos de datos existentes. Además, dado que MegaPairs se basa únicamente en corpora de imágenes generales y VLMs de código abierto, puede escalarse fácilmente, permitiendo mejoras continuas en el rendimiento de recuperación. En esta etapa, produjimos más de 26 millones de instancias de entrenamiento y entrenamos varios modelos de diferentes tamaños utilizando estos datos. Estos nuevos modelos logran un rendimiento de vanguardia en cero-shot en 4 populares bancos de pruebas de recuperación de imágenes compuestas (CIR) y el rendimiento general más alto en los 36 conjuntos de datos proporcionados por MMEB. También muestran mejoras de rendimiento notables con un ajuste adicional posterior. Nuestro conjunto de datos producido, los modelos bien entrenados y la tubería de síntesis de datos estarán disponibles públicamente para facilitar el desarrollo futuro de este campo.
La aparición de colapso de modelo en datos sintéticos indica que el entrenamiento iterativo en datos autogenerados conduce a una disminución gradual en el rendimiento. Con la proliferación de modelos de IA, los datos sintéticos reformarán fundamentalmente el ecosistema de datos web. Los futuros modelos GPT-{n} serán inevitablemente entrenados con una combinación de datos sintéticos y humanos. En este artículo, nos enfocamos en dos preguntas: ¿cuál es el impacto de los datos sintéticos en el entrenamiento de modelos de lenguaje y cómo sintetizar datos sin colapso de modelo? Primero pre-entrenamos modelos de lenguaje en diferentes proporciones de datos sintéticos, revelando una correlación negativa entre la proporción de datos sintéticos y el rendimiento del modelo. Luego realizamos un análisis estadístico sobre datos sintéticos para descubrir el fenómeno de cambio de distribución y la sobre-concentración de características n-gram. Inspirados por los hallazgos anteriores, proponemos la edición de tokens en datos producidos por humanos para obtener datos semisintéticos. Como prueba de concepto, demostramos teóricamente que la edición a nivel de token puede prevenir el colapso del modelo, ya que el error de prueba está limitado por un límite superior finito. Realizamos experimentos extensos en pre-entrenamiento desde cero, pre-entrenamiento continuo y ajuste fino supervisado. Los resultados validan nuestra prueba teórica de que la edición a nivel de token mejora la calidad de los datos y aumenta el rendimiento del modelo.
Este documento presenta LongBench v2, un benchmark diseñado para evaluar la capacidad de LLMs para manejar problemas de largo contexto que requieren comprensión profunda y razonamiento a través de multitareas del mundo real. LongBench v2 consta de 503 preguntas desafiantes de opción múltiple, con contextos que van desde 8k hasta 2M palabras, abarcando seis categorías principales de tareas: preguntas y respuestas de un solo documento, preguntas y respuestas de múltiples documentos, aprendizaje en contexto largo, comprensión de historial de diálogo extenso, comprensión de repositorio de código y comprensión de datos estructurados extensos. Para garantizar la amplitud y la practicidad, recopilamos datos de casi 100 individuos altamente educados con diversos antecedentes profesionales. Empleamos procesos de revisión automatizados y manuales para mantener alta calidad y dificultad, lo que resulta en que expertos humanos logren solo un 53.7% de precisión bajo una restricción de tiempo de 15 minutos. Nuestra evaluación revela que el modelo de mejor rendimiento, al responder directamente las preguntas, logra solo un 50.1% de precisión. En contraste, el modelo o1-preview, que incluye un razonamiento más extenso, alcanza un 57.7%, superando la línea base humana en un 4%. Estos resultados resaltan la importancia de la capacidad mejorada de razonamiento y la escalabilidad del cálculo en tiempo de inferencia para abordar los desafíos de largo contexto en LongBench v2. El proyecto está disponible en https://longbench2.github.io.
Los modelos de difusión, y su generalización, el emparejamiento de flujos, han tenido un impacto notable en el campo de la generación de medios. Aquí, el enfoque convencional consiste en aprender el mapeo complejo desde una distribución de fuente simple de ruido gaussiano hacia la distribución de medios objetivo. Para tareas cruzadas modales como la generación de texto a imagen, se aprende este mismo mapeo de ruido a imagen incluyendo un mecanismo de condicionamiento en el modelo. Una característica clave, hasta ahora relativamente inexplorada, del emparejamiento de flujos es que, a diferencia de los modelos de Difusión, no están limitados a que la distribución de la fuente sea ruido. Por lo tanto, en este documento, proponemos un cambio de paradigma y planteamos la pregunta de si en su lugar podemos entrenar modelos de emparejamiento de flujos para aprender un mapeo directo desde la distribución de una modalidad a la distribución de otra, evitando así la necesidad tanto de la distribución de ruido como del mecanismo de condicionamiento. Presentamos un marco general y simple, CrossFlow, para el emparejamiento de flujos cruzados. Mostramos la importancia de aplicar Codificadores Variacionales a los datos de entrada, e introducimos un método para permitir la orientación sin clasificador. Sorprendentemente, para texto a imagen, CrossFlow con un transformador básico sin atención cruzada supera ligeramente al emparejamiento de flujos estándar, y demostramos que escala mejor con pasos de entrenamiento y tamaño del modelo, al tiempo que permite operaciones aritméticas latentes interesantes que resultan en ediciones semánticamente significativas en el espacio de salida. Para demostrar la generalizabilidad de nuestro enfoque, también mostramos que CrossFlow está a la par o supera al estado del arte para varias tareas de mapeo cruzado/intra-modal, como la descripción de imágenes, estimación de profundidad y super-resolución de imágenes. Esperamos que este documento contribuya a acelerar el progreso en la generación de medios cruzados.
La naturaleza intuitiva de la interacción basada en arrastre ha llevado a su creciente adopción para controlar las trayectorias de objetos en la síntesis de imagen a video. Sin embargo, los métodos existentes que realizan el arrastre en el espacio 2D suelen enfrentar ambigüedad al manejar movimientos fuera del plano. En este trabajo, ampliamos la interacción con una nueva dimensión, es decir, la dimensión de profundidad, de modo que los usuarios pueden asignar una profundidad relativa para cada punto en la trayectoria. De esta manera, nuestro nuevo paradigma de interacción no solo hereda la conveniencia del arrastre en 2D, sino que facilita el control de trayectorias en el espacio 3D, ampliando el alcance de la creatividad. Proponemos un método pionero para el control de trayectorias en 3D en la síntesis de imagen a video mediante la abstracción de máscaras de objetos en unos pocos puntos de agrupación. Estos puntos, junto con la información de profundidad y la información de instancia, se alimentan finalmente en un modelo de difusión de video como la señal de control. Experimentos extensos validan la efectividad de nuestro enfoque, denominado LeviTor, en manipular con precisión los movimientos de objetos al producir videos fotorrealistas a partir de imágenes estáticas. Página del proyecto: https://ppetrichor.github.io/levitor.github.io/
Como una operación común de edición de imágenes, la composición de imágenes implica integrar objetos en primer plano en escenas de fondo. En este documento, ampliamos la aplicación del concepto de Asequibilidad de las tareas de composición de imágenes centradas en humanos a un marco de trabajo más general de composición de objetos-escena, abordando la compleja interacción entre objetos en primer plano y escenas de fondo. Siguiendo el principio de Asequibilidad, definimos la tarea de inserción de objetos consciente de la asequibilidad, que tiene como objetivo insertar de manera fluida cualquier objeto en cualquier escena con varios indicadores de posición. Para abordar el problema de datos limitados e incorporar esta tarea, construimos el conjunto de datos SAM-FB, que contiene más de 3 millones de ejemplos en más de 3,000 categorías de objetos. Además, proponemos el modelo de Difusión Dual Consciente de Máscara (MADD), que utiliza una arquitectura de doble flujo para denojar simultáneamente la imagen RGB y la máscara de inserción. Al modelar explícitamente la máscara de inserción en el proceso de difusión, MADD facilita efectivamente el concepto de asequibilidad. Los extensos resultados experimentales muestran que nuestro método supera a los métodos de vanguardia y exhibe un sólido rendimiento de generalización en imágenes en entornos naturales. Por favor, consulte nuestro código en https://github.com/KaKituken/affordance-aware-any.
En este documento, presentamos AceMath, un conjunto de modelos matemáticos de vanguardia que destacan en la resolución de problemas matemáticos complejos, junto con modelos de recompensa altamente efectivos capaces de evaluar las soluciones generadas e identificar de manera confiable las correctas. Para desarrollar los modelos matemáticos ajustados a instrucciones, proponemos un proceso de ajuste fino supervisado (SFT) que primero logra un rendimiento competitivo en dominios generales, seguido por un ajuste fino específico para el dominio matemático utilizando un conjunto cuidadosamente seleccionado de indicaciones y respuestas generadas sintéticamente. El modelo resultante, AceMath-72B-Instruct, supera ampliamente a Qwen2.5-Math-72B-Instruct, GPT-4o y Claude-3.5 Sonnet. Para desarrollar el modelo de recompensa especializado en matemáticas, primero construimos AceMath-RewardBench, un banco de pruebas completo y robusto para evaluar modelos de recompensa matemática en diversos problemas y niveles de dificultad. Posteriormente, presentamos un enfoque sistemático para construir nuestros modelos de recompensa matemática. El modelo resultante, AceMath-72B-RM, supera consistentemente a los modelos de recompensa de vanguardia. Además, al combinar AceMath-72B-Instruct con AceMath-72B-RM, logramos el puntaje promedio más alto de rm@8 en los bancos de pruebas de razonamiento matemático. Publicaremos los pesos del modelo, los datos de entrenamiento y los bancos de pruebas de evaluación en: https://research.nvidia.com/labs/adlr/acemath
La Generación de Contenido Procedimental (PCG, por sus siglas en inglés) es poderosa para crear contenidos 3D de alta calidad, sin embargo, controlarla para producir formas deseadas es difícil y a menudo requiere una extensa sintonización de parámetros. La Generación de Contenido Procedimental Inversa tiene como objetivo encontrar automáticamente los mejores parámetros bajo una condición de entrada. Sin embargo, los métodos existentes basados en muestreo y en redes neuronales aún sufren de numerosas iteraciones de muestra o de una controlabilidad limitada. En este trabajo, presentamos DI-PCG, un método novedoso y eficiente para la PCG Inversa a partir de condiciones generales de imagen. En su núcleo se encuentra un modelo transformador de difusión liviano, donde los parámetros de PCG son tratados directamente como el objetivo de eliminación de ruido y las imágenes observadas como condiciones para controlar la generación de parámetros. DI-PCG es eficiente y efectivo. Con solo 7.6 millones de parámetros de red y 30 horas de GPU para entrenar, demuestra un rendimiento superior en la recuperación precisa de parámetros y una buena generalización a imágenes en entornos naturales. Los resultados experimentales cuantitativos y cualitativos validan la efectividad de DI-PCG en la PCG inversa y en tareas de generación de imágenes a 3D. DI-PCG ofrece un enfoque prometedor para la PCG inversa eficiente y representa un paso de exploración valioso hacia un camino de generación 3D que modele cómo construir un activo 3D utilizando modelos paramétricos.
El entrenamiento de Modelos Multimodalidad Grandes (LMMs, por sus siglas en inglés) se basa en descripciones de imágenes que conectan la imagen y el lenguaje. Los métodos existentes suelen destilar la descripción de los modelos LMM o construir las descripciones a partir de imágenes de internet o por medio de humanos. Proponemos aprovechar especialistas visuales listos para usar, que fueron entrenados inicialmente con imágenes anotadas no para generación de descripciones de imágenes, para mejorar la descripción de la imagen. Nuestro enfoque, denominado DCE, explora atributos de bajo nivel y detallados de objetos (por ejemplo, profundidad, emoción y categorías detalladas) y relaciones entre objetos (por ejemplo, ubicación relativa e interacción humano-objeto), y combina los atributos en la descripción descriptiva. Los experimentos demuestran que dichos especialistas visuales pueden mejorar el rendimiento en tareas de comprensión visual, así como en razonamientos que se benefician de una comprensión visual más precisa. Publicaremos el código fuente y el flujo de trabajo para que otros especialistas visuales puedan integrarse fácilmente en el flujo de trabajo. El código fuente completo del flujo de trabajo DCE y los conjuntos de datos estarán disponibles en https://github.com/syp2ysy/DCE.
Proponemos un modelo no supervisado para la edición de imágenes basada en instrucciones que elimina la necesidad de imágenes editadas de referencia durante el entrenamiento. Los métodos supervisados existentes dependen de conjuntos de datos que contienen tripletes de imagen de entrada, imagen editada e instrucción de edición. Estos se generan ya sea mediante métodos de edición existentes o anotaciones humanas, lo que introduce sesgos y limita su capacidad de generalización. Nuestro método aborda estos desafíos al introducir un mecanismo de edición novedoso llamado Consistencia de Edición Cíclica (CEC), que aplica ediciones hacia adelante y hacia atrás en un paso de entrenamiento y garantiza consistencia en los espacios de imagen y atención. Esto nos permite evitar la necesidad de imágenes editadas de referencia y desbloquear el entrenamiento por primera vez en conjuntos de datos que comprenden pares de imagen-subtítulo reales o tripletes de imagen-subtítulo-edición. Demostramos empíricamente que nuestra técnica no supervisada tiene un mejor rendimiento en una gama más amplia de ediciones con alta fidelidad y precisión. Al eliminar la necesidad de conjuntos de datos preexistentes de tripletes, reducir los sesgos asociados con los métodos supervisados y proponer CEC, nuestro trabajo representa un avance significativo en el desbloqueo de la escalabilidad de la edición de imágenes basada en instrucciones.
Proponemos AV-Link, un marco unificado para la generación de Video a Audio y Audio a Video que aprovecha las activaciones de modelos de difusión de video y audio congelados para un condicionamiento cruzado temporalmente alineado. La clave de nuestro marco es un Bloque de Fusión que permite el intercambio bidireccional de información entre nuestros modelos de difusión de video y audio base a través de una operación de autoatención temporalmente alineada. A diferencia de trabajos anteriores que utilizan extractores de características preentrenados para otras tareas para la señal de condicionamiento, AV-Link puede aprovechar directamente características obtenidas por la modalidad complementaria en un único marco, es decir, características de video para generar audio, o características de audio para generar video. Evaluamos extensamente nuestras elecciones de diseño y demostramos la capacidad de nuestro método para lograr contenido audiovisual sincronizado y de alta calidad, mostrando su potencial para aplicaciones en la generación de medios inmersivos. Página del Proyecto: snap-research.github.io/AVLink/
En este documento, proponemos el Benchmark de Generación de Moléculas Basado en Texto (TOMG-Bench), el primer benchmark para evaluar la capacidad de generación de moléculas de dominio abierto de LLMs. TOMG-Bench abarca un conjunto de datos de tres tareas principales: edición de moléculas (MolEdit), optimización de moléculas (MolOpt) y generación de moléculas personalizadas (MolCustom). Cada tarea contiene además tres subtareas, y cada subtarea consta de 5,000 muestras de prueba. Dada la complejidad inherente de la generación de moléculas abierta, también hemos desarrollado un sistema de evaluación automatizado que ayuda a medir tanto la calidad como la precisión de las moléculas generadas. Nuestro exhaustivo análisis comparativo de 25 LLMs revela las limitaciones actuales y las áreas potenciales de mejora en el descubrimiento de moléculas guiado por texto. Además, con la ayuda de OpenMolIns, un conjunto de datos especializado en ajuste de instrucciones propuesto para resolver los desafíos planteados por TOMG-Bench, Llama3.1-8B pudo superar a todos los LLMs generales de código abierto, incluso superando a GPT-3.5-turbo en un 46.5\% en TOMG-Bench. Nuestros códigos y conjuntos de datos están disponibles en https://github.com/phenixace/TOMG-Bench.
Investigaciones recientes exploran el potencial de los Modelos de Difusión (DMs) para la edición consistente de objetos, que tiene como objetivo modificar la posición, tamaño y composición de los objetos, entre otros, manteniendo la consistencia de los objetos y el fondo sin alterar su textura y atributos. Los métodos actuales en tiempo de inferencia a menudo dependen de la inversión de DDIM, lo que compromete inherentemente la eficiencia y la consistencia alcanzable de las imágenes editadas. Los métodos recientes también utilizan guía de energía que actualiza de forma iterativa el ruido predicho y puede alejar los latentes de la imagen original, lo que resulta en distorsiones. En este documento, proponemos PixelMan, un método sin inversión y sin entrenamiento para lograr una edición consistente de objetos a través de la Manipulación y generación de píxeles, donde creamos directamente una copia duplicada del objeto fuente en la ubicación objetivo en el espacio de píxeles e introducimos un enfoque de muestreo eficiente para armonizar de forma iterativa el objeto manipulado en la ubicación objetivo e inpaint su ubicación original, asegurando la consistencia de la imagen anclando la imagen editada a generar a la imagen manipulada por píxeles, e introduciendo diversas técnicas de optimización que preservan la consistencia durante la inferencia. Las evaluaciones experimentales basadas en conjuntos de datos de referencia, así como extensas comparaciones visuales, muestran que en tan solo 16 pasos de inferencia, PixelMan supera a una variedad de métodos de vanguardia basados en entrenamiento y sin entrenamiento (que generalmente requieren 50 pasos) en múltiples tareas de edición consistente de objetos.
Este documento presenta DateLogicQA, un banco de pruebas con 190 preguntas que abarcan diversos formatos de fechas, contextos temporales y tipos de razonamiento. Proponemos la Métrica de Integridad Semántica para evaluar la calidad de la tokenización y analizar dos sesgos: el Sesgo a Nivel de Representación, que afecta a los embeddings, y el Sesgo a Nivel Lógico, que influye en las salidas de razonamiento. Nuestros hallazgos proporcionan una evaluación exhaustiva de las capacidades y limitaciones de los LLMs en el razonamiento temporal, resaltando los desafíos clave en el manejo preciso de datos temporales. El repositorio de GitHub para nuestro trabajo está disponible en https://github.com/gagan3012/EAIS-Temporal-Bias
Generar videos realistas de humanos sigue siendo una tarea desafiante, con los métodos más efectivos actualmente dependiendo de una secuencia de movimiento humano como señal de control. Los enfoques existentes a menudo utilizan movimientos existentes extraídos de otros videos, lo que restringe las aplicaciones a tipos de movimiento específicos y a la correspondencia global de escenas. Proponemos Move-in-2D, un enfoque novedoso para generar secuencias de movimiento humano condicionadas a una imagen de escena, lo que permite un movimiento diverso que se adapta a diferentes escenas. Nuestro enfoque utiliza un modelo de difusión que acepta tanto una imagen de escena como una indicación de texto como entradas, produciendo una secuencia de movimiento adaptada a la escena. Para entrenar este modelo, recopilamos un conjunto de datos de video a gran escala que presenta actividades de un solo humano, anotando cada video con el movimiento humano correspondiente como salida objetivo. Los experimentos demuestran que nuestro método predice de manera efectiva el movimiento humano que se alinea con la imagen de la escena después de la proyección. Además, mostramos que la secuencia de movimiento generada mejora la calidad del movimiento humano en tareas de síntesis de video.