Artículos de investigación en IA seleccionados diariamente con traducciones
En este informe técnico, presentamos la serie de modelos Ring-linear, que incluye específicamente Ring-mini-linear-2.0 y Ring-flash-linear-2.0. Ring-mini-linear-2.0 consta de 16B parámetros y 957M activaciones, mientras que Ring-flash-linear-2.0 contiene 104B parámetros y 6.1B activaciones. Ambos modelos adoptan una arquitectura híbrida que integra eficazmente la atención lineal y la atención softmax, reduciendo significativamente la sobrecarga de E/S y computación en escenarios de inferencia de contexto largo. En comparación con un modelo denso de 32 mil millones de parámetros, esta serie reduce el costo de inferencia a 1/10, y en comparación con la serie Ring original, el costo también se reduce en más del 50%. Además, mediante una exploración sistemática de la proporción entre diferentes mecanismos de atención en la arquitectura híbrida, hemos identificado la estructura de modelo óptima actual. Asimismo, al aprovechar nuestra biblioteca de operadores de alto rendimiento FP8 autodesarrollada, linghe, la eficiencia general del entrenamiento se ha mejorado en un 50%. Gracias a la alta alineación entre los operadores del motor de entrenamiento y el motor de inferencia, los modelos pueden someterse a una optimización estable, eficiente y a largo plazo durante la fase de aprendizaje por refuerzo, manteniendo consistentemente un rendimiento SOTA en múltiples benchmarks desafiantes de razonamiento complejo.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido recientemente en el paradigma central para alinear y fortalecer los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Sin embargo, aplicar RL en entornos fuera de política (off-policy), donde se utilizan datos obsoletos de políticas pasadas para el entrenamiento, mejora la eficiencia de las muestras, pero sigue siendo un desafío: la entropía de la política disminuye drásticamente, la optimización a menudo se vuelve inestable e incluso puede colapsar. A través de análisis teóricos y empíricos, identificamos dos ideas clave: (i) un desequilibrio en la optimización, donde las muestras con ventaja negativa dominan el gradiente de la política, suprimiendo comportamientos útiles y arriesgando explosiones de gradiente; y (ii) la Regla de Recorte de Entropía derivada, que revela que el mecanismo de recorte fijo en objetivos similares a PPO bloquea sistemáticamente las actualizaciones que aumentan la entropía, llevando así a la política hacia la sobreexplotación a expensas de la exploración. Basándonos en estas ideas, proponemos la Optimización de Política Equilibrada con Recorte Adaptativo (BAPO, por sus siglas en inglés), un método simple pero efectivo que ajusta dinámicamente los límites de recorte para reequilibrar de manera adaptativa las contribuciones positivas y negativas, preservar la entropía y estabilizar la optimización de RL. En diversos escenarios fuera de política, incluida la repetición de muestras y el despliegue parcial, BAPO logra un entrenamiento rápido, estable y eficiente en datos. En los benchmarks de AIME 2024 y AIME 2025, nuestro modelo BAPO de 7B supera a contrapartes de código abierto como SkyWork-OR1-7B, mientras que nuestro modelo BAPO de 32B no solo alcanza resultados de vanguardia entre modelos de la misma escala, sino que también supera a sistemas propietarios líderes como o3-mini y Gemini-2.5-Flash-Thinking.
El razonamiento sobre contextos extensos es esencial para los modelos de lenguaje de gran escala. Si bien el aprendizaje por refuerzo (RL, por sus siglas en inglés) mejora el razonamiento en contextos cortos al inducir momentos de "¡Ajá!" en cadenas de pensamiento, los patrones de pensamiento avanzados necesarios para el razonamiento en contextos largos siguen siendo en gran medida inexplorados, y los datos de RL de alta dificultad son escasos. En este artículo, presentamos LoongRL, un método de RL basado en datos para el razonamiento avanzado en contextos largos. El núcleo de LoongRL es KeyChain, un enfoque de síntesis que transforma preguntas y respuestas (QA) de múltiples saltos en tareas de contexto largo de alta dificultad mediante la inserción de cadenas UUID que ocultan la pregunta verdadera entre grandes colecciones de documentos distractores. Resolver estas tareas requiere que el modelo siga la cadena correcta paso a paso, identifique la pregunta verdadera, recupere hechos relevantes y razone sobre ellos para responder correctamente. El entrenamiento de RL con datos de KeyChain induce un patrón emergente de razonamiento planificar-recuperar-razonar-verificar que se generaliza mucho más allá de la longitud de entrenamiento. Los modelos entrenados con 16K resuelven efectivamente tareas de 128K sin los costos prohibitivos de un despliegue completo de RL. En Qwen2.5-7B y 14B, LoongRL mejora sustancialmente la precisión en QA de múltiples saltos en contextos largos con ganancias absolutas de +23.5% y +21.1%. El modelo resultante LoongRL-14B alcanza una puntuación de 74.2, rivalizando con modelos frontera mucho más grandes como o3-mini (74.5) y DeepSeek-R1 (74.9). También mejora la recuperación en contextos largos, supera todas las pruebas de estrés de "aguja en un pajar" de 128K y preserva las capacidades de razonamiento en contextos cortos.
El entrenamiento de modelos Visión-Lenguaje-Acción (VLA) para robots generalistas generalmente requiere datos robóticos a gran escala del mundo real, cuya recopilación es costosa y consume mucho tiempo. La ineficiencia en la recolección de datos físicos limita severamente la escalabilidad y la capacidad de generalización de los sistemas VLA actuales. Para abordar este desafío, presentamos GigaBrain-0, un novedoso modelo base VLA potenciado por datos generados mediante modelos del mundo (por ejemplo, generación de videos, transferencia real2real, transferencia humana, transferencia de vista, transferencia sim2real). Al aprovechar los modelos del mundo para generar datos diversos a escala, GigaBrain-0 reduce significativamente la dependencia de datos robóticos reales mientras mejora la generalización entre tareas. Nuestro enfoque también mejora la robustez de las políticas mediante el modelado de entradas RGBD y la supervisión encarnada de Cadena de Pensamiento (CoT), permitiendo que el modelo razone sobre la geometría espacial, los estados de los objetos y las dependencias de largo plazo durante la ejecución de tareas. Esto conduce a mejoras sustanciales en el rendimiento en el mundo real en tareas de manipulación diestra, de largo alcance y móvil. Experimentos extensos demuestran que GigaBrain-0 logra una generalización superior frente a variaciones en apariencias (por ejemplo, texturas, colores), ubicaciones de objetos y puntos de vista de la cámara. Además, presentamos GigaBrain-0-Small, una variante optimizada y ligera diseñada para ejecutarse eficientemente en dispositivos como el NVIDIA Jetson AGX Orin.
Los componentes de los transformadores, como las activaciones no lineales y la normalización, son inherentemente no inyectivos, lo que sugiere que diferentes entradas podrían mapearse a la misma salida y evitar la recuperación exacta de la entrada a partir de las representaciones del modelo. En este artículo, desafiamos esta perspectiva. Primero, demostramos matemáticamente que los modelos de lenguaje basados en transformadores que mapean secuencias de entrada discretas a sus correspondientes secuencias de representaciones continuas son inyectivos y, por lo tanto, sin pérdida, una propiedad establecida en la inicialización y preservada durante el entrenamiento. Segundo, confirmamos este resultado empíricamente a través de miles de millones de pruebas de colisión en seis modelos de lenguaje de última generación, y no observamos colisiones. Tercero, operacionalizamos la inyectividad: presentamos SipIt, el primer algoritmo que reconstruye de manera probada y eficiente el texto de entrada exacto a partir de las activaciones ocultas, estableciendo garantías de tiempo lineal y demostrando invertibilidad exacta en la práctica. En general, nuestro trabajo establece la inyectividad como una propiedad fundamental y explotable de los modelos de lenguaje, con implicaciones directas para la transparencia, interpretabilidad y despliegue seguro.
Entrenar agentes de uso informático requiere grandes cantidades de datos de interacción con interfaces gráficas de usuario (GUI), pero anotar manualmente trayectorias de acciones a gran escala es prohibitivamente costoso. Presentamos VideoAgentTrek, una canalización escalable que extrae automáticamente datos de entrenamiento de videos grabados de pantalla disponibles públicamente a escala web, eliminando la necesidad de anotación manual. Nuestro enfoque aborda un desafío clave: los videos en bruto contienen demostraciones implícitas pero carecen de etiquetas explícitas de acciones. Para resolver esto, desarrollamos Video2Action, un módulo de dinámica inversa (IDM) con dos componentes: (1) un modelo de anclaje de video que detecta y localiza acciones en la GUI con límites temporales precisos y contexto, y (2) un reconocedor de contenido de acciones que extrae parámetros estructurados, como coordenadas de clic y texto tecleado, con alta fidelidad. Aplicado a 39,000 videos tutoriales de YouTube, nuestra canalización genera automáticamente 1.52 millones de pasos de interacción. Aprovechamos estos datos mediante un preentrenamiento continuo seguido de un ajuste fino supervisado. En OSWorld-Verified, nuestro enfoque mejora las tasas de éxito de tareas del 9.3% (línea base solo con ajuste fino) al 15.8%, una mejora relativa del 70%. En AgentNetBench, la precisión por paso aumenta del 64.1% al 69.3%. Nuestros resultados demuestran que los videos pasivos de internet pueden transformarse en supervisión de alta calidad para agentes de uso informático, proporcionando una alternativa escalable a la costosa anotación manual.
Los Agentes de Teléfonos Móviles (MPAs, por sus siglas en inglés) han surgido como una dirección de investigación prometedora debido a su amplia aplicabilidad en diversos escenarios. Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) sirven como base para los MPAs, su efectividad para manejar múltiples tareas de teléfonos móviles simultáneamente sigue siendo limitada. Aunque el ajuste fino supervisado multitarea (SFT) se adopta ampliamente para el aprendizaje multitarea, los enfoques existentes luchan por determinar las composiciones óptimas de datos de entrenamiento para alcanzar el máximo rendimiento. Para abordar este desafío, proponemos DaMo (Optimizador de Mezcla de Datos), una solución novedosa que emplea una red entrenable que predice mezclas óptimas de datos al pronosticar el rendimiento de tareas posteriores para cualquier proporción de conjunto de datos dada. Para respaldar una evaluación integral, presentamos PhoneAgentBench, el primer punto de referencia especializado para evaluar MLLMs en tareas multimodales de teléfonos móviles, que comprende 1235 pares de preguntas y respuestas que abarcan diversos escenarios de aplicaciones móviles industriales del mundo real. Demostrando una fuerte capacidad predictiva (R^2=0.81) en experimentos piloto a pequeña escala, DaMo extrapola eficientemente configuraciones óptimas de mezcla de datos. Nuestros resultados muestran que DaMo logra una mejora del 3.38% en el rendimiento en PhoneAgentBench en comparación con métodos alternativos. Además, experimentos extensos en puntos de referencia establecidos, incluyendo BFCL-v3, MME-Razonamiento, MME-Percepción y OCRBench, revelan la superior generalización de DaMo, superando a otros enfoques en un 2.57% en términos de puntuación promedio. Cuando se utiliza exclusivamente para la optimización de MLLM en la tarea BFCL-v3, DaMo mejora las métricas en un 12.47% en comparación con otros métodos. Notablemente, DaMo mantiene una escalabilidad robusta, preservando su efectividad cuando se aplica a otras arquitecturas de modelos. El código y el conjunto de datos están disponibles en https://github.com/OPPO-Mente-Lab/DaMo.git.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han logrado avances notables, aunque su gran escala a menudo los hace poco prácticos para entornos con recursos limitados. Este artículo presenta el Aprendizaje Unificado de Refuerzo e Imitación (RIL, por sus siglas en inglés), un algoritmo de entrenamiento novedoso y eficiente diseñado para crear VLMs potentes y livianos. RIL combina de manera distintiva las fortalezas del aprendizaje por refuerzo con el aprendizaje de imitación adversarial. Esto permite que los VLMs estudiantes más pequeños no solo imiten la generación sofisticada de texto de los grandes modelos maestros, sino que también mejoren sistemáticamente sus capacidades generativas mediante señales de refuerzo. Un elemento clave de nuestro marco de imitación es un discriminador basado en LLM que distingue hábilmente entre las salidas del estudiante y del maestro, complementado con la guía de múltiples VLMs maestros grandes para garantizar un aprendizaje diverso. Esta estrategia de aprendizaje unificada, que aprovecha tanto el refuerzo como la imitación, permite que los modelos estudiantes logren mejoras significativas en su rendimiento, haciéndolos competitivos con los VLMs líderes de código cerrado. Experimentos exhaustivos en diversos puntos de referencia de visión-lenguaje demuestran que RIL reduce considerablemente la brecha de rendimiento con los VLMs de última generación, tanto de código abierto como cerrado, y, en varios casos, los supera.
Los recientes avances en modelos multimodales han demostrado capacidades notables de edición de imágenes guiada por texto, con sistemas como GPT-4o y Nano-Banana estableciendo nuevos referentes. Sin embargo, el progreso de la comunidad investigadora sigue limitado por la ausencia de conjuntos de datos a gran escala, de alta calidad y de acceso abierto, construidos a partir de imágenes reales. Presentamos Pico-Banana-400K, un conjunto de datos integral de 400K imágenes para la edición de imágenes basada en instrucciones. Nuestro conjunto de datos se construye aprovechando Nano-Banana para generar pares de ediciones diversas a partir de fotografías reales de la colección OpenImages. Lo que distingue a Pico-Banana-400K de los conjuntos de datos sintéticos anteriores es nuestro enfoque sistemático hacia la calidad y la diversidad. Empleamos una taxonomía de edición de imágenes de grano fino para garantizar una cobertura exhaustiva de los tipos de edición, manteniendo al mismo tiempo una preservación precisa del contenido y una fidelidad a las instrucciones mediante puntuaciones de calidad basadas en MLLM y una cuidadosa curación. Más allá de la edición de un solo paso, Pico-Banana-400K permite investigar escenarios de edición complejos. El conjunto de datos incluye tres subconjuntos especializados: (1) una colección de 72K ejemplos de múltiples pasos para estudiar la edición secuencial, el razonamiento y la planificación a través de modificaciones consecutivas; (2) un subconjunto de preferencias de 56K ejemplos para la investigación de alineación y el entrenamiento de modelos de recompensa; y (3) instrucciones de edición largas-cortas emparejadas para desarrollar capacidades de reescritura y resumen de instrucciones. Al proporcionar este recurso a gran escala, de alta calidad y rico en tareas, Pico-Banana-400K establece una base sólida para entrenar y evaluar la próxima generación de modelos de edición de imágenes guiada por texto.
La generación de informes financieros profesionales es un proceso intensivo en mano de obra y demandante intelectualmente, con el que los sistemas actuales de IA tienen dificultades para automatizar por completo. Para abordar este desafío, presentamos FinSight (Financial InSight), un novedoso marco de trabajo multiagente para producir informes financieros multimodales de alta calidad. La base de FinSight es la arquitectura Code Agent with Variable Memory (CAVM), que unifica datos externos, herramientas diseñadas y agentes en un espacio variable programable, permitiendo la recopilación flexible de datos, el análisis y la generación de informes mediante código ejecutable. Para garantizar visualizaciones de nivel profesional, proponemos un Mecanismo Iterativo de Mejora Visual que refina progresivamente las salidas visuales en bruto hasta convertirlas en gráficos financieros pulidos. Además, un Marco de Escritura en dos etapas expande segmentos concisos de Cadena-de-Análisis en informes coherentes, con citas y multimodales, asegurando tanto profundidad analítica como consistencia estructural. Los experimentos en diversas tareas a nivel de empresas e industrias demuestran que FinSight supera significativamente a todos los sistemas de referencia, incluyendo los principales sistemas de investigación profunda, en términos de precisión factual, profundidad analítica y calidad de presentación, mostrando un camino claro hacia la generación de informes que se acercan a la calidad de expertos humanos.
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se utilizan cada vez más en interacciones humano-IA, sus capacidades de razonamiento social en contextos interpersonales son cruciales. Presentamos SCRIPTS, un conjunto de datos de 1,000 diálogos en inglés y coreano, extraídos de guiones de películas. La tarea consiste en evaluar la capacidad de razonamiento social de los modelos para inferir las relaciones interpersonales (por ejemplo, amigos, hermanas, amantes) entre los hablantes en cada diálogo. Cada diálogo está anotado con etiquetas relacionales probabilísticas (Muy Probable, Menos Probable, Poco Probable) por hablantes nativos (o equivalentes) de coreano e inglés de Corea y Estados Unidos. Al evaluar nueve modelos en nuestra tarea, los LLMs propietarios actuales alcanzan alrededor del 75-80% en el conjunto de datos en inglés, mientras que su rendimiento en coreano cae al 58-69%. Más llamativamente, los modelos seleccionan relaciones Poco Probables en el 10-25% de sus respuestas. Además, encontramos que los modelos de pensamiento y el prompting de cadena de pensamiento, efectivos para el razonamiento general, ofrecen beneficios mínimos para el razonamiento social y, en ocasiones, amplifican los sesgos sociales. Nuestros hallazgos revelan limitaciones significativas en las capacidades de razonamiento social de los LLMs actuales, destacando la necesidad de esfuerzos para desarrollar modelos de lenguaje socialmente conscientes.
Se espera que los modelos del mundo para la conducción autónoma funcionen de manera efectiva en tres dimensiones principales: estado, acción y recompensa. Sin embargo, los modelos existentes suelen estar restringidos a modalidades de estado limitadas, secuencias de video cortas, control de acciones impreciso y falta de conciencia sobre la recompensa. En este artículo, presentamos OmniNWM, un modelo del mundo de navegación panorámica omnisciente que aborda las tres dimensiones dentro de un marco unificado. Para el estado, OmniNWM genera conjuntamente videos panorámicos de RGB, semántica, profundidad métrica y ocupación 3D. Una estrategia de forzado flexible permite una generación autorregresiva de alta calidad a largo plazo. Para la acción, introducimos una representación normalizada de mapa de rayos Plücker panorámico que codifica trayectorias de entrada en señales a nivel de píxel, permitiendo un control altamente preciso y generalizable sobre la generación de videos panorámicos. En cuanto a la recompensa, vamos más allá del aprendizaje de funciones de recompensa con modelos externos basados en imágenes: en su lugar, aprovechamos la ocupación 3D generada para definir directamente recompensas densas basadas en reglas para el cumplimiento y la seguridad en la conducción. Experimentos extensos demuestran que OmniNWM logra un rendimiento de vanguardia en la generación de videos, precisión de control y estabilidad a largo plazo, al tiempo que proporciona un marco de evaluación de bucle cerrado confiable a través de recompensas basadas en ocupación. La página del proyecto está disponible en https://github.com/Arlo0o/OmniNWM.
Los Modelos de Lenguaje de Difusión Enmascarados (DLMs, por sus siglas en inglés) han surgido recientemente como una alternativa prometedora a los Modelos Autoregresivos (ARMs) tradicionales. Los DLMs emplean codificadores transformadores con atención bidireccional, lo que permite la generación paralela de tokens mientras mantienen un rendimiento competitivo. Aunque su eficiencia y efectividad han sido ampliamente estudiadas, los mecanismos internos que gobiernan los DLMs siguen siendo en gran parte desconocidos. En este trabajo, realizamos un análisis empírico de los patrones de atención en DLMs, centrándonos en el fenómeno de hundimiento de atención, un efecto previamente observado en diversas arquitecturas basadas en transformadores. Nuestros hallazgos revelan que los DLMs también exhiben hundimientos de atención, pero con características distintivas. En primer lugar, a diferencia de los ARMs, las posiciones de hundimiento en los DLMs tienden a desplazarse a lo largo del proceso de generación, mostrando un comportamiento dinámico. En segundo lugar, mientras que los ARMs son altamente sensibles a la eliminación de los hundimientos de atención, los DLMs se mantienen robustos: enmascarar los hundimientos conduce solo a una degradación menor en el rendimiento. Estos resultados proporcionan nuevas perspectivas sobre el funcionamiento interno de los modelos de lenguaje basados en difusión y destacan diferencias fundamentales en cómo asignan y utilizan la atención en comparación con los modelos autoregresivos.
Presentamos Chart2Code, un nuevo punto de referencia para evaluar las capacidades de comprensión de gráficos y generación de código de los modelos multimodales grandes (LMMs). Chart2Code está diseñado explícitamente desde una perspectiva impulsada por el usuario, capturando diversos escenarios del mundo real y aumentando progresivamente la dificultad de las tareas. Consta de tres niveles: Nivel 1 (Reproducción de Gráficos) reproduce gráficos a partir de una figura de referencia y una consulta del usuario; Nivel 2 (Edición de Gráficos) implica modificaciones complejas como cambiar tipos de gráficos o agregar elementos; y Nivel 3 (Generación de Gráficos a partir de Tablas Largas) requiere que los modelos transformen tablas largas y densas en información en gráficos fieles siguiendo las instrucciones del usuario. Hasta donde sabemos, este es el primer punto de referencia jerárquico que refleja el uso práctico de chart2code mientras escala sistemáticamente la complejidad de las tareas. En total, Chart2Code contiene 2,023 tareas en 22 tipos de gráficos, acompañadas de métricas de evaluación de múltiples niveles que evalúan tanto la corrección del código como la fidelidad visual de los gráficos renderizados. Evaluamos 25 LMMs de última generación (SoTA), incluyendo tanto modelos propietarios como los últimos modelos de código abierto como GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL y Seed-1.6-VL. Los resultados experimentales demuestran que incluso el modelo SoTA GPT-5 promedia solo 0.57 en la evaluación basada en código y 0.22 en la evaluación de calidad de gráficos en las tareas de edición, subrayando la dificultad de Chart2Code. Anticipamos que este punto de referencia impulsará avances en el razonamiento multimodal y fomentará el desarrollo de LMMs más robustos y de propósito general. Nuestro código y datos están disponibles en Chart2Code.
Los modelos multimodales grandes codifican un amplio conocimiento factual en sus pesos preentrenados. Sin embargo, su conocimiento permanece estático y limitado, incapaz de mantenerse al día con los desarrollos del mundo real, lo que dificulta la adquisición continua de conocimiento. Por lo tanto, la inyección efectiva de conocimiento se vuelve crítica, involucrando dos objetivos: la adaptación del conocimiento (inyectar nuevo conocimiento) y la retención del conocimiento (preservar el conocimiento antiguo). Los métodos existentes a menudo luchan por aprender nuevo conocimiento y sufren de olvido catastrófico. Para abordar esto, proponemos KORE, un método sinérgico de aumentaciones y restricciones orientadas al conocimiento (KnOwledge-oRientEd) para inyectar nuevo conocimiento en modelos multimodales grandes mientras se preserva el conocimiento antiguo. A diferencia de la aumentación general de texto o imágenes, KORE convierte automáticamente elementos individuales de conocimiento en conocimiento estructurado y comprehensivo para asegurar que el modelo aprenda nuevo conocimiento de manera precisa, permitiendo una adaptación exacta. Mientras tanto, KORE almacena el conocimiento previo en la matriz de covarianza de las activaciones de la capa lineal del LMM e inicializa el adaptador proyectando los pesos originales en el espacio nulo de la matriz, definiendo una dirección de ajuste fino que minimiza la interferencia con el conocimiento previo, permitiendo una retención poderosa. Experimentos extensos en varios LMMs, incluyendo LLaVA-v1.5-7B, LLaVA-v1.5-13B y Qwen2.5-VL-7B, muestran que KORE logra un rendimiento superior en la inyección de nuevo conocimiento y mitiga efectivamente el olvido catastrófico.
Presentamos olmOCR 2, lo último en nuestra familia de potentes sistemas OCR para convertir documentos impresos digitalizados, como PDFs, en texto plano limpio y ordenado de manera natural. olmOCR 2 está impulsado por olmOCR-2-7B-1025, un modelo de lenguaje visual (VLM) especializado de 7B entrenado mediante aprendizaje por refuerzo con recompensas verificables (RLVR), donde nuestras recompensas son un conjunto diverso de pruebas unitarias binarias. Para escalar la creación de pruebas unitarias, desarrollamos una canalización para generar documentos sintéticos con diseños diversos y desafiantes, código fuente HTML de referencia conocido y casos de prueba extraídos. Demostramos que el entrenamiento por refuerzo en estos casos de prueba resulta en un rendimiento de vanguardia en olmOCR-Bench, nuestro benchmark OCR en inglés, con las mayores mejoras en la conversión de fórmulas matemáticas, el análisis de tablas y los diseños de múltiples columnas en comparación con versiones anteriores. Publicamos nuestro modelo, datos y código bajo licencias abiertas permisivas.
Desde la introducción del Protocolo de Contexto del Modelo (MCP), el número de herramientas disponibles para los Modelos de Lenguaje de Gran Escala (LLMs) ha aumentado significativamente. Estos conjuntos de herramientas específicas para tareas ofrecen una alternativa a las herramientas de propósito general, como los navegadores web, al mismo tiempo que son más fáciles de desarrollar y mantener que las interfaces gráficas de usuario (GUIs). Sin embargo, los agentes de propósito general actuales dependen predominantemente de los navegadores web para interactuar con el entorno. Aquí presentamos TheMCPCompany, un punto de referencia para evaluar agentes que llaman herramientas en tareas que implican interactuar con diversos servicios del mundo real. Utilizamos las API REST de estos servicios para crear servidores MCP, que incluyen más de 18,000 herramientas. También proporcionamos herramientas de verdad fundamental (ground-truth) anotadas manualmente para cada tarea. En nuestros experimentos, utilizamos las herramientas de verdad fundamental para demostrar el potencial de los agentes que llaman herramientas tanto para mejorar el rendimiento como para reducir los costos, asumiendo una recuperación perfecta de herramientas. A continuación, exploramos el rendimiento de los agentes utilizando la recuperación de herramientas para estudiar la practicidad en el mundo real de los agentes basados en herramientas. Si bien todos los modelos con recuperación de herramientas tienen un rendimiento similar o mejor que los agentes basados en navegadores, los modelos más pequeños no pueden aprovechar al máximo las herramientas disponibles a través de la recuperación. Por otro lado, el rendimiento de GPT-5 con recuperación de herramientas es muy cercano a su rendimiento con las herramientas de verdad fundamental. En general, nuestro trabajo muestra que los modelos de razonamiento más avanzados son efectivos para descubrir herramientas en entornos más simples, pero tienen serias dificultades para navegar en entornos empresariales complejos. TheMCPCompany revela que navegar entre decenas de miles de herramientas y combinarlas de maneras no triviales para resolver problemas complejos sigue siendo una tarea desafiante para los modelos actuales y requiere tanto mejores modelos de razonamiento como mejores modelos de recuperación.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) demuestran una sólida comprensión de videos al atender a tokens visuales relevantes para consultas textuales. Para adaptar directamente esto a la localización de manera libre de entrenamiento, planteamos la segmentación de razonamiento en video como una tarea de preguntas y respuestas (QA) en video y extraemos mapas de atención mediante un mecanismo de despliegue (rollout). Sin embargo, los mapas de atención en bruto son ruidosos y están pobremente alineados con las regiones de los objetos. Proponemos la Fusión de Atención Descompuesta (DecAF, por sus siglas en inglés), que refina estos mapas a través de dos mecanismos: (1) fusión contraste objeto-fondo y (2) fusión complementaria de fotogramas de video. Este método suprime activaciones irrelevantes y mejora las señales enfocadas en objetos, permitiendo la conversión directa de mapas de atención en máscaras de segmentación gruesas. Además, introducimos el prompting guiado por atención SAM2 para obtener máscaras de grano fino. A diferencia de los métodos existentes que entrenan conjuntamente MLLMs con SAM, nuestro método opera completamente sin necesidad de reentrenamiento. DecAF supera a los métodos libres de entrenamiento y alcanza un rendimiento comparable a los métodos basados en entrenamiento en benchmarks de segmentación de objetos en video referencial y de razonamiento. El código estará disponible en https://github.com/HYUNJS/DecAF.
Con los avances en hardware, software y tecnologías de modelos de lenguaje de gran escala, la interacción entre los humanos y los sistemas operativos ha evolucionado desde la interfaz de línea de comandos hasta las interacciones emergentes con agentes de IA. Construir un agente de sistema operativo (SO) capaz de ejecutar instrucciones del usuario y seguir fielmente sus deseos se está convirtiendo en una realidad. En este informe técnico, presentamos ColorAgent, un agente de SO diseñado para interactuar de manera robusta y a largo plazo con el entorno, al mismo tiempo que permite una interacción personalizada y proactiva con el usuario. Para habilitar interacciones a largo plazo con el entorno, mejoramos las capacidades del modelo mediante aprendizaje por refuerzo paso a paso y entrenamiento auto-evolutivo, además de desarrollar un marco de trabajo multiagente personalizado que garantiza generalidad, consistencia y robustez. En cuanto a la interacción con el usuario, exploramos el reconocimiento personalizado de intenciones del usuario y el compromiso proactivo, posicionando al agente de SO no solo como una herramienta de automatización, sino como un compañero colaborativo y cercano. Evaluamos ColorAgent en los puntos de referencia AndroidWorld y AndroidLab, logrando tasas de éxito del 77.2% y 50.7%, respectivamente, estableciendo un nuevo estado del arte. Sin embargo, observamos que los puntos de referencia actuales son insuficientes para una evaluación integral de los agentes de SO y proponemos explorar direcciones futuras en el trabajo, particularmente en las áreas de paradigmas de evaluación, colaboración entre agentes y seguridad. Nuestro código está disponible en https://github.com/MadeAgents/mobile-use.
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) codifican un conocimiento factual rico mediante el preentrenamiento multimodal, sin embargo, sus representaciones estáticas luchan por mantener una comprensión precisa del conocimiento factual sensible al tiempo. Los puntos de referencia existentes siguen limitados por diseños estáticos, evaluando de manera inadecuada la capacidad de los LMMs para comprender el conocimiento sensible al tiempo. Para abordar esta brecha, proponemos MINED, un punto de referencia integral que evalúa la conciencia temporal a lo largo de 6 dimensiones clave y 11 tareas desafiantes: cognición, conciencia, confiabilidad, comprensión, razonamiento y robustez. MINED se construye a partir de Wikipedia por dos anotadores profesionales, conteniendo 2,104 muestras de conocimiento sensible al tiempo que abarcan seis tipos de conocimiento. La evaluación de 15 LMMs ampliamente utilizados en MINED muestra que Gemini-2.5-Pro alcanza el puntaje CEM promedio más alto de 63.07, mientras que la mayoría de los LMMs de código abierto aún carecen de capacidad de comprensión temporal. Mientras tanto, los LMMs tienen el mejor desempeño en el conocimiento organizacional, mientras que su desempeño es más débil en el deporte. Para abordar estos desafíos, investigamos la viabilidad de actualizar el conocimiento sensible al tiempo en los LMMs mediante métodos de edición de conocimiento y observamos que los LMMs pueden actualizar efectivamente el conocimiento a través de métodos de edición de conocimiento en escenarios de edición única.
La modelización de optimización permite tomar decisiones críticas en diversas industrias, pero sigue siendo difícil de automatizar: el lenguaje informal debe traducirse en formulaciones matemáticas precisas y código ejecutable para solucionadores. Los enfoques previos basados en modelos de lenguaje (LLM) dependen de indicaciones frágiles o de costosos reentrenamientos con una generalización limitada. Presentamos AlphaOPT, una biblioteca de experiencia que se mejora a sí misma y permite que un LLM aprenda a partir de demostraciones limitadas (incluso solo respuestas, sin programas de referencia) y retroalimentación del solucionador, sin necesidad de trazas de razonamiento anotadas ni actualizaciones de parámetros. AlphaOPT opera en un ciclo continuo de dos fases: (i) una fase de Aprendizaje de la Biblioteca que reflexiona sobre intentos fallidos, extrayendo conocimientos estructurados verificados por el solucionador como {taxonomía, condición, explicación, ejemplo}; y (ii) una fase de Evolución de la Biblioteca que diagnostica desalineaciones en la recuperación y refina las condiciones de aplicabilidad de los conocimientos almacenados, mejorando la transferencia entre tareas. Este diseño (1) aprende eficientemente a partir de demostraciones limitadas sin racionales curados, (2) se expande continuamente sin costosos reentrenamientos al actualizar la biblioteca en lugar de los pesos del modelo, y (3) hace explícito e interpretable el conocimiento para su inspección e intervención humana. Los experimentos muestran que AlphaOPT mejora constantemente con más datos (del 65% al 72% al pasar de 100 a 300 elementos de entrenamiento) y supera al mejor modelo de referencia en un 7.7% en el conjunto de datos fuera de distribución OptiBench cuando se entrena solo con respuestas. El código y los datos están disponibles en: https://github.com/Minw913/AlphaOPT.
Los métodos existentes de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés) se dividen principalmente en dos categorías: basados en adición y adaptación selectiva in situ. Los primeros, como LoRA, introducen módulos adicionales para adaptar el modelo a tareas específicas, ofreciendo una alta eficiencia de memoria. Sin embargo, su capacidad de representación suele ser limitada, lo que los hace menos adecuados para adaptaciones de grano fino. En contraste, los segundos ajustan directamente un subconjunto cuidadosamente seleccionado de los parámetros originales del modelo, permitiendo una adaptación más precisa y efectiva, pero a costa de un consumo de memoria significativamente mayor. Para reconciliar esta compensación, proponemos NeuroAda, un novedoso método PEFT que permite un ajuste fino de grano fino del modelo mientras mantiene una alta eficiencia de memoria. Nuestro enfoque primero identifica parámetros importantes (es decir, conexiones dentro de la red) como en la adaptación selectiva, y luego introduce conexiones de derivación para estos parámetros seleccionados. Durante el ajuste fino, solo se actualizan las conexiones de derivación, dejando congelados los parámetros originales del modelo. Los resultados empíricos en más de 23 tareas que abarcan tanto la generación como la comprensión del lenguaje natural demuestran que NeuroAda alcanza un rendimiento de vanguardia con tan solo ≤ 0.02% de parámetros entrenables, mientras reduce el uso de memoria CUDA hasta en un 60%. Publicamos nuestro código aquí: https://github.com/FightingFighting/NeuroAda.git.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) están avanzando rápidamente, aunque su capacidad de razonamiento a menudo se queda rezagada en comparación con sus contrapartes basadas únicamente en texto. Los métodos existentes para cerrar esta brecha dependen del ajuste fino supervisado sobre datos de razonamiento multimodal a gran escala o del aprendizaje por refuerzo, ambos intensivos en recursos. Una alternativa prometedora es la fusión de modelos, que interpola parámetros entre LLMs mejorados en razonamiento y variantes multimodales. Sin embargo, nuestro análisis muestra que la fusión ingenua no siempre es una "solución gratuita": su efectividad varía drásticamente entre familias de modelos, con algunos (por ejemplo, LLaVA, Idefics) beneficiándose, mientras que otros (por ejemplo, Qwen) experimentan una degradación en el rendimiento. Para abordar esto, proponemos la Inyección Direccional de Razonamiento para el Ajuste Fino (DRIFT, por sus siglas en inglés) en MLLMs, un método ligero que transfiere conocimiento de razonamiento en el espacio de gradientes, sin desestabilizar la alineación multimodal. DRIFT precalcula un prior de razonamiento como la diferencia en el espacio de parámetros entre variantes de razonamiento y multimodales, y luego lo utiliza para sesgar los gradientes durante el ajuste fino multimodal. Este enfoque preserva la simplicidad de las pipelines estándar de ajuste fino supervisado, al mismo tiempo que permite una transferencia eficiente de razonamiento. Experimentos extensos en benchmarks de razonamiento multimodal, como MathVista y MathVerse, demuestran que DRIFT mejora consistentemente el rendimiento en razonamiento en comparación con la fusión ingenua y el ajuste fino supervisado, igualando o superando métodos que requieren un entrenamiento intensivo a una fracción del costo.
Los datos de preentrenamiento de alta calidad son cruciales para los modelos de lenguaje a gran escala, donde la calidad captura la fiabilidad factual y el valor semántico, y la diversidad asegura una cobertura amplia y heterogeneidad distribucional. Los enfoques existentes suelen depender de una selección basada en puntuaciones de una o múltiples dimensiones. Sin embargo, seleccionar directamente los datos con las puntuaciones más altas a menudo degrada el rendimiento, y es necesario muestrear de un rango más amplio para recuperar los resultados. La no monotonicidad observada entre las puntuaciones del conjunto de datos y los resultados de los benchmarks posteriores revela un sesgo fundamental: los métodos basados en puntuaciones colapsan dimensiones correlacionadas, haciendo que los datos con puntuaciones más altas parezcan de alta calidad mientras se pasa por alto sistemáticamente la diversidad. Argumentamos que garantizar la diversidad requiere descomponer las métricas correlacionadas en dimensiones de características ortogonales, de las cuales se pueden seleccionar directamente los datos con las puntuaciones más altas. Por lo tanto, propusimos el algoritmo de Selección Consciente de Diversidad Ortogonal (ODiS, por sus siglas en inglés), que preserva tanto la calidad como la diversidad durante la selección de datos. Primero, ODiS evalúa los datos desde múltiples dimensiones, cubriendo la calidad del lenguaje, la calidad del conocimiento y la dificultad de comprensión. Luego, las puntuaciones multidimensionales se decorrelacionan mediante Análisis de Componentes Principales (PCA), obteniendo dimensiones de evaluación ortogonales. Para cada dimensión, se entrena un evaluador basado en Roberta para regresar los datos sobre las puntuaciones proyectadas por PCA, permitiendo una inferencia escalable en grandes corpus. Finalmente, ODiS construye el conjunto de datos de entrenamiento seleccionando los datos con las puntuaciones más altas dentro de cada dimensión ortogonal, asegurando así tanto la calidad como la diversidad. Los resultados empíricos muestran que los datos seleccionados por ODiS exhiben menos del 2% de superposición entre dimensiones, confirmando la ortogonalidad entre las dimensiones. Más importante aún, los modelos entrenados con datos seleccionados por ODiS superan significativamente a otras líneas de base en los benchmarks posteriores, destacando la necesidad de una selección de datos consciente de la diversidad y ortogonal para los modelos de lenguaje a gran escala.
Las respuestas impulsionales de sala (RIR) son un recurso fundamental para la dereverberación, el reconocimiento robusto de voz, la localización de fuentes y la estimación de acústica de salas. Presentamos RIR-Mega, una amplia colección de RIR simuladas descritas mediante un esquema de metadatos compacto y amigable para máquinas, distribuido con herramientas simples para validación y reutilización. El conjunto de datos incluye un cargador de Hugging Face Datasets, scripts para verificación de metadatos y sumas de comprobación, y una línea base de regresión de referencia que predice objetivos tipo RT60 a partir de formas de onda. En una división de entrenamiento y validación de 36,000 y 4,000 ejemplos, un pequeño Bosque Aleatorio con características ligeras de tiempo y espectro alcanza un error absoluto medio cercano a 0.013 s y un error cuadrático medio cercano a 0.022 s. Alojamos un subconjunto con 1,000 RIR de arreglos lineales y 3,000 RIR de arreglos circulares en Hugging Face para streaming y pruebas rápidas, y preservamos el archivo completo de 50,000 RIR en Zenodo. El conjunto de datos y el código son públicos para apoyar estudios reproducibles.
Evaluar el progreso en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo se ve limitado por el desafío de verificar las respuestas, restringiendo las evaluaciones a tareas como matemáticas, programación y respuestas breves a preguntas. Sin embargo, muchas aplicaciones del mundo real requieren evaluar los LLMs en el procesamiento de documentos profesionales, la síntesis de información y la generación de informes completos en respuesta a consultas de los usuarios. Presentamos ProfBench: un conjunto de más de 7000 pares de respuesta-criterio evaluados por expertos humanos con conocimientos profesionales en doctorados en Física, doctorados en Química, MBAs en Finanzas y MBAs en Consultoría. Desarrollamos evaluadores robustos y asequibles basados en LLMs (LLM-Judges) para evaluar las rúbricas de ProfBench, mitigando el sesgo de auto-mejora y reduciendo el costo de evaluación en 2-3 órdenes de magnitud, con el fin de hacerlo justo y accesible para una comunidad más amplia. Nuestros hallazgos revelan que ProfBench plantea desafíos significativos incluso para los LLMs más avanzados, con modelos de alto rendimiento como GPT-5-high alcanzando solo un 65.9\% de rendimiento general. Además, identificamos disparidades notables en el rendimiento entre modelos propietarios y de pesos abiertos, y proporcionamos insights sobre el papel que desempeña el pensamiento extendido en la resolución de tareas complejas en dominios profesionales. Datos: https://huggingface.co/datasets/nvidia/ProfBench y Código: https://github.com/NVlabs/ProfBench.
Las personas ven texto. Los humanos leen reconociendo las palabras como objetos visuales, incluyendo sus formas, disposiciones y patrones, antes de conectarlas con su significado, lo que nos permite manejar errores tipográficos, fuentes distorsionadas y diversos sistemas de escritura de manera efectiva. Sin embargo, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) modernos dependen de la tokenización por subpalabras, fragmentando el texto en piezas de un vocabulario fijo. Aunque este enfoque es efectivo para idiomas de alto recurso, segmenta en exceso los idiomas de bajo recurso, generando secuencias largas y lingüísticamente carentes de significado, e incrementando el cómputo. En este trabajo, desafiamos este paradigma arraigado y avanzamos hacia una alternativa centrada en la visión. Nuestro método, SeeTok, convierte el texto en imágenes (texto visual) y aprovecha modelos de lenguaje multimodal preentrenados para interpretarlas, reutilizando las fuertes habilidades de reconocimiento óptico de caracteres (OCR) y alineación texto-visión aprendidas a partir de entrenamiento multimodal a gran escala. En tres tareas lingüísticas diferentes, SeeTok iguala o supera a los tokenizadores por subpalabras, mientras requiere 4.43 veces menos tokens y reduce los FLOPs en un 70.5%, con ganancias adicionales en generalización cruzada, robustez frente al ruido tipográfico y jerarquía lingüística. SeeTok marca un cambio desde la tokenización simbólica hacia una lectura visual similar a la humana, y da un paso hacia modelos de lenguaje más naturales e inspirados en la cognición.
Los modelos de Texto a Imagen (T2I) han avanzado rápidamente, pero siguen siendo vulnerables a la fuga semántica, la transferencia no intencionada de características semánticamente relacionadas entre entidades distintas. Las estrategias de mitigación existentes suelen basarse en optimización o dependen de entradas externas. Presentamos DeLeaker, un enfoque ligero y libre de optimización en tiempo de inferencia que mitiga la fuga mediante la intervención directa en los mapas de atención del modelo. A lo largo del proceso de difusión, DeLeaker reajusta dinámicamente los mapas de atención para suprimir las interacciones excesivas entre entidades mientras refuerza la identidad de cada una. Para apoyar la evaluación sistemática, introducimos SLIM (Semantic Leakage in IMages), el primer conjunto de datos dedicado a la fuga semántica, que comprende 1,130 muestras verificadas por humanos en diversos escenarios, junto con un novedoso marco de evaluación automática. Los experimentos demuestran que DeLeaker supera consistentemente a todos los métodos de referencia, incluso cuando estos reciben información externa, logrando una mitigación efectiva de la fuga sin comprometer la fidelidad o la calidad. Estos resultados subrayan el valor del control de la atención y allanan el camino para modelos T2I semánticamente más precisos.
Aunque los ataques de inferencia de pertenencia (MIAs, por sus siglas en inglés) y la detección de texto generado por máquina persiguen objetivos diferentes, identificar muestras de entrenamiento y textos sintéticos, sus métodos a menudo explotan señales similares basadas en la distribución de probabilidad de un modelo de lenguaje. A pesar de esta base metodológica compartida, las dos tareas se han estudiado de manera independiente, lo que puede llevar a conclusiones que pasan por alto métodos más robustos y conocimientos valiosos desarrollados en la otra tarea. En este trabajo, investigamos teórica y empíricamente la transferibilidad, es decir, qué tan bien un método desarrollado originalmente para una tarea funciona en la otra, entre los MIAs y la detección de texto generado por máquina. Para nuestra contribución teórica, demostramos que la métrica que alcanza el rendimiento asintóticamente más alto en ambas tareas es la misma. Unificamos una gran proporción de la literatura existente en el contexto de esta métrica óptima y planteamos la hipótesis de que la precisión con la que un método dado se aproxima a esta métrica está directamente correlacionada con su transferibilidad. Nuestros experimentos empíricos a gran escala, que incluyen 7 métodos de MIA de vanguardia y 5 detectores de texto generado por máquina de última generación en 13 dominios y 10 generadores, demuestran una correlación de rango muy fuerte (rho > 0.6) en el rendimiento cruzado entre tareas. Destacamos que Binoculars, diseñado originalmente para la detección de texto generado por máquina, también alcanza un rendimiento de vanguardia en los benchmarks de MIAs, demostrando el impacto práctico de la transferibilidad. Nuestros hallazgos resaltan la necesidad de una mayor conciencia y colaboración entre las dos comunidades de investigación. Para facilitar desarrollos cruzados y evaluaciones justas, presentamos MINT, un conjunto de evaluación unificado para MIAs y detección de texto generado por máquina, con la implementación de 15 métodos recientes de ambas tareas.
Los transformadores a menudo no logran aprender algoritmos generalizables, sino que dependen de heurísticas frágiles. Utilizando la conectividad de grafos como banco de pruebas, explicamos este fenómeno tanto teórica como empíricamente. Consideramos una arquitectura simplificada de transformador, el transformador desentrelazado, y demostramos que un modelo de L capas tiene la capacidad de resolver grafos con diámetros de hasta exactamente 3^L, implementando un algoritmo equivalente al cálculo de potencias de la matriz de adyacencia. Analizamos la dinámica del entrenamiento y mostramos que la estrategia aprendida depende de si la mayoría de las instancias de entrenamiento están dentro de esta capacidad del modelo. Los grafos dentro de la capacidad (diámetro ≤ 3^L) impulsan el aprendizaje de una solución algorítmica correcta, mientras que los grafos más allá de la capacidad impulsan el aprendizaje de una heurística simple basada en los grados de los nodos. Finalmente, demostramos empíricamente que restringir los datos de entrenamiento dentro de la capacidad del modelo conduce a que tanto los transformadores estándar como los desentrelazados aprendan el algoritmo exacto en lugar de la heurística basada en grados.