Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Pangu Ultra, un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) con 135 mil millones de parámetros y módulos densos de Transformer entrenados en Unidades de Procesamiento Neural (NPU) Ascend. Aunque el campo de los LLM ha experimentado avances sin precedentes en la escala y capacidad de estos modelos en los últimos años, entrenar un modelo de tal magnitud aún implica desafíos significativos de optimización y sistemas. Para estabilizar el proceso de entrenamiento, proponemos la normalización tipo sándwich escalada en profundidad, que elimina eficazmente los picos de pérdida durante el entrenamiento de modelos profundos. Preentrenamos nuestro modelo con 13,2 billones de tokens diversos y de alta calidad, y mejoramos aún más sus capacidades de razonamiento durante el posentrenamiento. Para llevar a cabo este entrenamiento a gran escala de manera eficiente, utilizamos 8.192 NPU Ascend con una serie de optimizaciones del sistema. Las evaluaciones en múltiples benchmarks diversos indican que Pangu Ultra avanza significativamente las capacidades de vanguardia de los LLM densos, como Llama 405B y Mistral Large 2, e incluso logra resultados competitivos con DeepSeek-R1, cuya estructura de modelo disperso contiene muchos más parámetros. Nuestra exploración demuestra que las NPU Ascend son capaces de entrenar de manera eficiente y efectiva modelos densos con más de 100 mil millones de parámetros. Nuestro modelo y sistema estarán disponibles para nuestros clientes comerciales.
Presentamos Kimi-VL, un eficiente modelo de lenguaje visual (VLM) de Mezcla de Expertos (MoE) de código abierto que ofrece razonamiento multimodal avanzado, comprensión de contexto extenso y sólidas capacidades de agente, todo ello activando solo 2.8 mil millones de parámetros en su decodificador de lenguaje (Kimi-VL-A3B). Kimi-VL demuestra un rendimiento sólido en dominios desafiantes: como un VLM de propósito general, Kimi-VL sobresale en tareas de agente de múltiples turnos (por ejemplo, OSWorld), igualando a modelos líderes. Además, exhibe capacidades notables en diversas tareas desafiantes de lenguaje visual, incluyendo comprensión de imágenes y videos a nivel universitario, OCR, razonamiento matemático y comprensión de múltiples imágenes. En evaluaciones comparativas, compite eficazmente con VLMs eficientes de vanguardia como GPT-4o-mini, Qwen2.5-VL-7B y Gemma-3-12B-IT, superando a GPT-4o en varios dominios clave. Kimi-VL también avanza en el procesamiento de contextos largos y la percepción clara. Con una ventana de contexto extendida de 128K, Kimi-VL puede procesar diversas entradas largas, logrando puntuaciones impresionantes de 64.5 en LongVideoBench y 35.1 en MMLongBench-Doc. Su codificador visual de resolución nativa, MoonViT, le permite ver y comprender entradas visuales de ultra alta resolución, alcanzando 83.2 en InfoVQA y 34.5 en ScreenSpot-Pro, mientras mantiene un menor costo computacional para tareas comunes. Basándonos en Kimi-VL, introducimos una variante avanzada de pensamiento largo: Kimi-VL-Thinking. Desarrollado mediante ajuste fino supervisado (SFT) de cadena de pensamiento largo (CoT) y aprendizaje por refuerzo (RL), este modelo exhibe fuertes capacidades de razonamiento a largo plazo. Logra puntuaciones de 61.7 en MMMU, 36.8 en MathVision y 71.3 en MathVista, manteniendo los compactos 2.8 mil millones de parámetros activados del LLM, estableciendo un nuevo estándar para modelos eficientes de pensamiento multimodal. El código y los modelos son accesibles públicamente en https://github.com/MoonshotAI/Kimi-VL.
Los Modelos de Razonamiento a Gran Escala como DeepSeek-R1 representan un cambio fundamental en cómo los LLM abordan problemas complejos. En lugar de producir directamente una respuesta para una entrada dada, DeepSeek-R1 crea cadenas de razonamiento detalladas de múltiples pasos, aparentemente "pensando" sobre un problema antes de proporcionar una respuesta. Este proceso de razonamiento está disponible públicamente para el usuario, creando infinitas oportunidades para estudiar el comportamiento de razonamiento del modelo y abriendo el campo de la Pensología. Partiendo de una taxonomía de los bloques básicos de razonamiento de DeepSeek-R1, nuestros análisis sobre DeepSeek-R1 investigan el impacto y la controlabilidad de la longitud del pensamiento, la gestión de contextos largos o confusos, las preocupaciones culturales y de seguridad, y el estado de DeepSeek-R1 en relación con fenómenos cognitivos, como el procesamiento de lenguaje similar al humano y el modelado del mundo. Nuestros hallazgos presentan una imagen matizada. En particular, mostramos que DeepSeek-R1 tiene un 'punto óptimo' de razonamiento, donde el tiempo adicional de inferencia puede perjudicar el rendimiento del modelo. Además, encontramos una tendencia de DeepSeek-R1 a rumiar persistentemente sobre formulaciones de problemas previamente exploradas, obstaculizando una mayor exploración. También observamos fuertes vulnerabilidades de seguridad en DeepSeek-R1 en comparación con su contraparte no razonadora, lo que también puede comprometer a los LLM alineados con la seguridad.
Los Modelos de Lenguaje de Gran Escala (LLMs) basados en Mezcla de Expertos (MoE) presentan rutas de expertos severamente subóptimas: nuestro estudio revela que la selección ingenua de expertos aprendida durante el preentrenamiento deja un sorprendente margen de mejora del 10-20% en precisión. Motivados por esta observación, desarrollamos una nueva clase de métodos de optimización en tiempo de prueba para re-ponderar o "re-mezclar" a los expertos en diferentes capas de manera conjunta para cada muestra de prueba. Dado que la verdad fundamental de la muestra de prueba es desconocida, proponemos optimizar un objetivo sustituto definido por los "vecinos exitosos" de la muestra dentro de un conjunto de referencia. Introducimos tres sustitutos y algoritmos basados en la búsqueda de modas, regresión de kernel y la pérdida promedio de muestras/tareas de referencia similares. Para reducir el costo de optimizar rutas completas, aplicamos nuestros algoritmos únicamente a los pesos de mezcla de los expertos principales en capas críticas, lo que ofrece un rendimiento similar pero ahorra un cálculo significativo. Esto da lugar a la "Optimización Colaborativa de Rutas de Expertos Principales en Capas Críticas (C3PO)". Aplicamos C3PO a dos LLMs MoE recientes y lo evaluamos en seis benchmarks ampliamente utilizados. Consistemente mejora el modelo base en un 7-15% en precisión y supera a los métodos de aprendizaje en tiempo de prueba comúnmente utilizados, como el aprendizaje en contexto y la sintonización de prefijos/prompt, por un amplio margen. Además, C3PO permite que los LLMs MoE con 1-3B parámetros activos superen a LLMs de 7-9B parámetros, mejorando así las ventajas de eficiencia de MoE. Nuestro exhaustivo estudio de ablación ofrece además nuevas perspectivas sobre cómo lograr mejoras en tiempo de prueba en MoE.
Los recientes avances en los modelos de difusión han impulsado significativamente diversas tareas de generación de imágenes. Sin embargo, el enfoque principal actual sigue centrado en la construcción de modelos específicos para cada tarea, lo que limita su eficiencia al intentar cubrir una amplia gama de necesidades. Aunque los modelos universales buscan abordar esta limitación, enfrentan desafíos críticos, como la instrucción generalizable de tareas, la distribución adecuada de tareas y el diseño arquitectónico unificado. Para abordar estos desafíos, proponemos VisualCloze, un marco universal de generación de imágenes que admite una amplia gama de tareas dentro del dominio, la generalización a tareas no vistas, la unificación de múltiples tareas y la generación inversa. A diferencia de los métodos existentes que dependen de instrucciones basadas en lenguaje, lo que genera ambigüedad en las tareas y una débil generalización, integramos el aprendizaje visual en contexto, permitiendo que los modelos identifiquen tareas a partir de demostraciones visuales. Mientras tanto, la inherente dispersión de las distribuciones de tareas visuales dificulta el aprendizaje de conocimientos transferibles entre tareas. Para ello, presentamos Graph200K, un conjunto de datos estructurado en grafos que establece diversas tareas interrelacionadas, aumentando la densidad de tareas y el conocimiento transferible. Además, descubrimos que nuestra formulación unificada de generación de imágenes comparte un objetivo consistente con el relleno de imágenes, lo que nos permite aprovechar los fuertes priors generativos de los modelos preentrenados de relleno sin modificar las arquitecturas.
El avance en el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) ha mejorado significativamente las capacidades de los modelos de lenguaje de gran escala (LLMs) y los modelos de visión-lenguaje de gran escala (LVLMs). Sin embargo, aún falta un marco de evaluación riguroso para el razonamiento CoT en videos. Los puntos de referencia actuales para videos no logran evaluar adecuadamente el proceso de razonamiento ni identificar si los fallos se deben a deficiencias en las capacidades de percepción o de razonamiento. Por ello, presentamos VCR-Bench, un nuevo punto de referencia diseñado para evaluar de manera integral las capacidades de razonamiento CoT en videos de los LVLMs. VCR-Bench incluye 859 videos que abarcan una variedad de contenidos y duraciones, junto con 1,034 pares de preguntas-respuestas de alta calidad. Cada par está anotado manualmente con una justificación CoT paso a paso, donde cada paso está etiquetado para indicar su asociación con las capacidades de percepción o razonamiento. Además, diseñamos siete dimensiones de tareas distintas y proponemos la puntuación CoT para evaluar todo el proceso CoT basado en las justificaciones CoT etiquetadas paso a paso. Experimentos exhaustivos en VCR-Bench destacan limitaciones sustanciales en los LVLMs actuales. Incluso el modelo de mejor rendimiento, o1, solo alcanza un 62.8% en la puntuación CoT y un 56.7% de precisión, mientras que la mayoría de los modelos obtienen puntuaciones inferiores al 40%. Los experimentos muestran que la mayoría de los modelos obtienen puntuaciones más bajas en los pasos de percepción que en los de razonamiento, revelando el cuello de botella clave de los LVLMs en el procesamiento de información espacio-temporal para el razonamiento complejo en videos. Una fuerte correlación positiva entre la puntuación CoT y la precisión confirma la validez de nuestro marco de evaluación y subraya el papel crítico del razonamiento CoT en la resolución de tareas complejas de razonamiento en videos. Esperamos que VCR-Bench sirva como un marco de evaluación estandarizado y exponga las deficiencias reales en tareas complejas de razonamiento en videos.
La capacidad de Seguimiento de Instrucciones (SI) mide qué tan bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) comprenden exactamente lo que los usuarios les indican y si lo están haciendo correctamente. Los datos de entrenamiento existentes para el seguimiento de instrucciones multimodales son escasos, los puntos de referencia son simples con instrucciones atómicas, y las estrategias de evaluación son imprecisas para tareas que requieren restricciones exactas en la salida. Para abordar esto, presentamos MM-IFEngine, una canalización efectiva para generar pares de imagen-instrucción de alta calidad. Nuestra canalización MM-IFEngine produce datos de entrenamiento a gran escala, diversos y de alta calidad, MM-IFInstruct-23k, que es adecuado para el Ajuste Fino Supervisado (SFT) y se extiende como MM-IFDPO-23k para la Optimización Directa de Preferencias (DPO). Además, introducimos MM-IFEval, un punto de referencia desafiante y diverso para el seguimiento de instrucciones multimodales que incluye (1) restricciones a nivel de composición para las respuestas de salida y restricciones a nivel de percepción vinculadas a las imágenes de entrada, y (2) una canalización de evaluación integral que incorpora tanto la evaluación basada en reglas como un modelo juez. Realizamos experimentos de SFT y DPO y demostramos que el ajuste fino de MLLMs en MM-IFInstruct-23k y MM-IFDPO-23k logra mejoras notables en varios puntos de referencia de SI, como MM-IFEval (+10.2%), MIA (+7.6%) e IFEval (+12.3%). Los datos completos y el código de evaluación se publicarán en https://github.com/SYuan03/MM-IFEngine.
La construcción de modelos de propósito general que puedan percibir efectivamente el mundo a través de señales multimodales ha sido un objetivo de larga data. Los enfoques actuales implican integrar componentes preentrenados por separado, como conectar codificadores de visión a LLMs (Modelos de Lenguaje de Gran Escala) y continuar con el entrenamiento multimodal. Si bien estos enfoques muestran una notable eficiencia en el uso de muestras, sigue siendo una pregunta abierta si tales arquitecturas de fusión tardía son inherentemente superiores. En este trabajo, revisitamos el diseño arquitectónico de los modelos multimodales nativos (NMMs, por sus siglas en inglés)—aquellos entrenados desde cero en todas las modalidades—y realizamos un extenso estudio de leyes de escalamiento, abarcando 457 modelos entrenados con diferentes arquitecturas y mezclas de entrenamiento. Nuestra investigación revela que no existe una ventaja inherente de las arquitecturas de fusión tardía sobre las de fusión temprana, que no dependen de codificadores de imágenes. Por el contrario, la fusión temprana exhibe un rendimiento más sólido con un menor número de parámetros, es más eficiente para entrenar y más fácil de implementar. Motivados por el fuerte rendimiento de las arquitecturas de fusión temprana, demostramos que la incorporación de Mezcla de Expertos (MoEs, por sus siglas en inglés) permite que los modelos aprendan pesos específicos para cada modalidad, mejorando significativamente el rendimiento.
La segmentación amodal de partes 3D—descomponer una forma 3D en partes completas y semánticamente significativas, incluso cuando están ocluidas—es una tarea desafiante pero crucial para la creación y comprensión de contenido 3D. Los métodos existentes de segmentación de partes 3D solo identifican parches de superficie visibles, lo que limita su utilidad. Inspirados por la segmentación amodal en 2D, introducimos esta novedosa tarea en el dominio 3D y proponemos un enfoque práctico de dos etapas, abordando los desafíos clave de inferir la geometría 3D ocluida, mantener la consistencia global de la forma y manejar formas diversas con datos de entrenamiento limitados. Primero, aprovechamos la segmentación de partes 3D existente para obtener segmentos iniciales incompletos. Segundo, presentamos HoloPart, un modelo novedoso basado en difusión, para completar estos segmentos en partes 3D completas. HoloPart utiliza una arquitectura especializada con atención local para capturar la geometría detallada de las partes y atención al contexto global de la forma para garantizar la consistencia general de la misma. Introducimos nuevos puntos de referencia basados en los conjuntos de datos ABO y PartObjaverse-Tiny y demostramos que HoloPart supera significativamente a los métodos más avanzados de completado de formas. Al incorporar HoloPart con técnicas de segmentación existentes, logramos resultados prometedores en la segmentación amodal de partes 3D, abriendo nuevas vías para aplicaciones en edición de geometría, animación y asignación de materiales.
En este artículo, presentamos un método efectivo para mejorar el razonamiento visual utilizando significativamente menos muestras de entrenamiento, basándonos únicamente en la auto-mejora sin distilación de conocimiento. Nuestra idea clave es que la dificultad de los datos de entrenamiento durante el ajuste fino por refuerzo (RFT) es crucial. Muestras adecuadamente desafiantes pueden potenciar sustancialmente las capacidades de razonamiento, incluso cuando el conjunto de datos es pequeño. Aunque intuitivo, el principal desafío radica en cuantificar con precisión la dificultad de las muestras para permitir un filtrado efectivo de datos. Para ello, proponemos una nueva forma de reutilizar la Búsqueda de Árbol de Monte Carlo (MCTS) para lograrlo. Partiendo de nuestras 70k muestras de entrenamiento de código abierto seleccionadas, introducimos un método de selección basado en MCTS que cuantifica la dificultad de las muestras según el número de iteraciones requeridas por los modelos de lenguaje visual (VLMs) para resolver cada problema. Este razonamiento explícito paso a paso en MCTS obliga al modelo a pensar más tiempo e identifica mejor las muestras que son genuinamente desafiantes. Filtramos y retenemos 11k muestras para realizar RFT en Qwen2.5-VL-7B-Instruct, resultando en nuestro modelo final, ThinkLite-VL. Los resultados de evaluación en ocho benchmarks muestran que ThinkLite-VL mejora el rendimiento promedio de Qwen2.5-VL-7B-Instruct en un 7%, utilizando solo 11k muestras de entrenamiento sin distilación de conocimiento. Esto supera significativamente a todos los VLMs de razonamiento existentes de nivel 7B, y a nuestras líneas base bastante comparables que utilizan métodos de selección clásicos como el filtrado basado en precisión. Notablemente, en MathVista, ThinkLite-VL-7B alcanza una precisión SoTA de 75.1, superando a Qwen2.5-VL-72B, GPT-4o y O1. Nuestro código, datos y modelo están disponibles en https://github.com/si0wang/ThinkLite-VL.
Presentamos MOSAIC, un novedoso marco de simulación de redes sociales de código abierto, donde agentes de lenguaje generativo predicen comportamientos de usuarios como dar "me gusta", compartir y marcar contenido. Esta simulación combina agentes de LLM con un grafo social dirigido para analizar comportamientos emergentes de engaño y comprender mejor cómo los usuarios determinan la veracidad del contenido en redes sociales. Al construir representaciones de usuarios a partir de diversas personalidades detalladas, nuestro sistema permite simulaciones multiagente que modelan la diseminación de contenido y las dinámicas de interacción a gran escala. Dentro de este marco, evaluamos tres estrategias diferentes de moderación de contenido con diseminación simulada de desinformación, y descubrimos que no solo mitigan la propagación de contenido no factual, sino que también aumentan la participación de los usuarios. Además, analizamos las trayectorias del contenido popular en nuestras simulaciones y exploramos si el razonamiento articulado de los agentes de simulación para sus interacciones sociales realmente se alinea con sus patrones colectivos de participación. Liberamos nuestro software de simulación como código abierto para fomentar más investigaciones en IA y ciencias sociales.
A pesar de la evolución existente de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), persiste una limitación no despreciable en su dificultad para la fundamentación de texto visual, especialmente en imágenes ricas en texto de documentos. Las imágenes de documentos, como formularios escaneados e infografías, resaltan desafíos críticos debido a sus diseños complejos y contenido textual. Sin embargo, los puntos de referencia actuales no abordan completamente estos desafíos, ya que se centran principalmente en la fundamentación visual en imágenes naturales, en lugar de imágenes de documentos ricas en texto. Por lo tanto, para cerrar esta brecha, presentamos TRIG, una tarea novedosa con un conjunto de datos de instrucciones recién diseñado para evaluar y mejorar las capacidades de Fundamentación de Imágenes Ricas en Texto (TRIG) de los MLLMs en la respuesta a preguntas sobre documentos. Específicamente, proponemos una canalización de interacción OCR-LLM-humano para crear 800 pares de preguntas-respuestas anotados manualmente como punto de referencia y un conjunto de entrenamiento a gran escala de 90$ datos sintéticos basados en cuatro conjuntos de datos diversos. Una evaluación exhaustiva de varios MLLMs en nuestro punto de referencia propuesto expone limitaciones sustanciales en su capacidad de fundamentación en imágenes ricas en texto. Además, proponemos dos métodos TRIG simples y efectivos basados en ajuste de instrucciones generales y en incrustaciones eficientes plug-and-play, respectivamente. Al ajustar finamente los MLLMs en nuestro conjunto de datos sintético, mejoran prometedoramente las capacidades de razonamiento espacial y fundamentación.
Los enfoques existentes para controlar los modelos de difusión de texto a imagen, aunque potentes, no permiten un control explícito centrado en objetos 3D, como el control preciso de la orientación de los objetos. En este trabajo, abordamos el problema del control de orientación de múltiples objetos en modelos de difusión de texto a imagen. Esto permite la generación de escenas diversas con múltiples objetos, donde cada uno tiene un control preciso de su orientación. La idea clave es condicionar el modelo de difusión con un conjunto de tokens de brújula conscientes de la orientación, uno para cada objeto, junto con tokens de texto. Una red codificadora ligera predice estos tokens de brújula tomando la orientación del objeto como entrada. El modelo se entrena en un conjunto de datos sintético de escenas generadas proceduralmente, cada una conteniendo uno o dos activos 3D sobre un fondo simple. Sin embargo, el entrenamiento directo de este marco resulta en un control deficiente de la orientación y en un entrelazamiento entre los objetos. Para mitigar esto, intervenimos en el proceso de generación y restringimos los mapas de atención cruzada de cada token de brújula a las regiones correspondientes de su objeto. El modelo entrenado es capaz de lograr un control preciso de la orientación para a) objetos complejos no vistos durante el entrenamiento y b) escenas con más de dos objetos, lo que indica fuertes capacidades de generalización. Además, cuando se combina con métodos de personalización, nuestro método controla con precisión la orientación del nuevo objeto en diversos contextos. Nuestro método alcanza un control de orientación y alineación de texto de vanguardia, cuantificado mediante evaluaciones exhaustivas y un estudio de usuarios.
Presentamos Geo4D, un método para reutilizar modelos de difusión de video en la reconstrucción monocular 3D de escenas dinámicas. Al aprovechar el fuerte conocimiento previo dinámico capturado por estos modelos de video, Geo4D puede entrenarse utilizando únicamente datos sintéticos mientras generaliza eficazmente a datos reales de manera zero-shot. Geo4D predice varias modalidades geométricas complementarias, concretamente mapas de puntos, profundidad y rayos. Utiliza un nuevo algoritmo de alineación multimodal para alinear y fusionar estas modalidades, así como múltiples ventanas deslizantes, durante la inferencia, obteniendo así una reconstrucción 4D robusta y precisa de videos largos. Experimentos exhaustivos en múltiples benchmarks muestran que Geo4D supera significativamente a los métodos más avanzados en estimación de profundidad en video, incluyendo métodos recientes como MonST3R, que también están diseñados para manejar escenas dinámicas.
Los detectores monoculares 3D actuales se ven limitados por la diversidad y escala reducidas de los conjuntos de datos del mundo real. Si bien la ampliación de datos ciertamente ayuda, es particularmente difícil generar datos aumentados realistas y conscientes del entorno en escenarios exteriores. La mayoría de los enfoques actuales para la generación de datos sintéticos se centran en la apariencia realista de los objetos mediante técnicas de renderizado mejoradas. Sin embargo, demostramos que el dónde y cómo se posicionan los objetos es igual de crucial para entrenar detectores monoculares 3D efectivos. El principal obstáculo radica en determinar automáticamente parámetros realistas de colocación de objetos, incluyendo posición, dimensiones y alineación direccional, al introducir objetos sintéticos en escenas reales. Para abordar esto, presentamos MonoPlace3D, un sistema novedoso que considera el contenido 3D de la escena para crear aumentaciones realistas. Específicamente, dada una escena de fondo, MonoPlace3D aprende una distribución sobre cajas delimitadoras 3D plausibles. Posteriormente, renderizamos objetos realistas y los colocamos según las ubicaciones muestreadas de la distribución aprendida. Nuestra evaluación exhaustiva en dos conjuntos de datos estándar, KITTI y NuScenes, demuestra que MonoPlace3D mejora significativamente la precisión de múltiples detectores monoculares 3D existentes, además de ser altamente eficiente en términos de datos.
El seguimiento de cualquier punto (TAP, por sus siglas en inglés) en un video es un problema desafiante en visión por computadora con numerosas aplicaciones demostradas en robótica, edición de video y reconstrucción 3D. Los métodos existentes para TAP dependen en gran medida de sesgos inductivos y heurísticas específicas para el seguimiento, lo que limita su generalidad y potencial de escalabilidad. Para abordar estos desafíos, presentamos TAPNext, un nuevo enfoque que plantea TAP como un decodificado secuencial de tokens enmascarados. Nuestro modelo es causal, realiza el seguimiento de manera puramente en línea y elimina los sesgos inductivos específicos para el seguimiento. Esto permite que TAPNext funcione con una latencia mínima y elimina la necesidad de ventanas temporales requeridas por muchos rastreadores de última generación. A pesar de su simplicidad, TAPNext logra un rendimiento de seguimiento de última generación tanto en rastreadores en línea como fuera de línea. Finalmente, presentamos evidencia de que muchas heurísticas de seguimiento ampliamente utilizadas emergen naturalmente en TAPNext a través del entrenamiento de extremo a extremo.