Artículos de investigación en IA seleccionados diariamente con traducciones
Los LLM modernos se entrenan para "pensar" principalmente mediante generación explícita de texto, como el razonamiento en cadena (CoT), lo que difiere el razonamiento para después del entrenamiento y subutiliza los datos de preentrenamiento. Presentamos y publicamos como código abierto Ouro, nombrado en referencia al recursivo Ouroboros, una familia de Modelos de Lenguaje en Bucle (LoopLM) preentrenados que, en cambio, integran el razonamiento en la fase de preentrenamiento mediante (i) computación iterativa en espacio latente, (ii) un objetivo regularizado por entropía para la asignación aprendida de profundidad, y (iii) escalado a 7.7 billones de tokens. Los modelos Ouro de 1.4B y 2.6B muestran un rendimiento superior que iguala los resultados de LLMs de vanguardia de hasta 12B en una amplia gama de benchmarks. Mediante experimentos controlados, demostramos que esta ventaja no surge de una mayor capacidad de conocimiento, sino de capacidades superiores de manipulación del conocimiento. También mostramos que LoopLM produce trazas de razonamiento más alineadas con las salidas finales que el CoT explícito. Esperamos que nuestros resultados muestren el potencial de LoopLM como una nueva dirección de escalado en la era del razonamiento. Nuestro modelo puede encontrarse en: http://ouro-llm.github.io.
El alcance de la inteligencia del código neuronal se está expandiendo rápidamente más allá del código fuente basado en texto para abarcar las ricas salidas visuales que generan los programas. Esta dimensión visual es crítica para aplicaciones avanzadas como la generación flexible de contenido y la edición precisa y controlada por programas de visualizaciones. Sin embargo, el progreso se ha visto obstaculizado por la escasez de datos de código multimodal de alta calidad, un cuello de botella que surge de los desafíos en la síntesis y evaluación de la calidad. Para abordar estos desafíos, realizamos contribuciones desde una perspectiva tanto de datos como de modelado. Primero presentamos un kit de herramientas de síntesis completo que aprovecha las sinergias recíprocas entre las modalidades de datos para producir eficientemente un corpus a gran escala y de alta calidad que abarca desde gráficos estándar hasta interfaces de usuario web interactivas complejas y animaciones impulsadas por código. Aprovechando este kit de herramientas, construimos JanusCode-800K, el corpus de código multimodal más grande hasta la fecha. Esto impulsa el entrenamiento de nuestros modelos, JanusCoder y JanusCoderV, que establecen una interfaz visual-programática para generar código a partir de instrucciones textuales, entradas visuales o una combinación de ambas. Nuestro modelo unificado representa una desviación de los enfoques existentes que construyen modelos especializados para tareas aisladas. Experimentos exhaustivos en tareas de codificación centradas en texto y en visión demuestran el rendimiento superior de la serie JanusCoder, con nuestros modelos de escala 7B a 14B acercándose o incluso superando el rendimiento de modelos comerciales. Además, un análisis exhaustivo proporciona ideas clave para armonizar la lógica programática con su expresión visual. Nuestro código y puntos de control están disponibles en https://github.com/InternLM/JanusCoder.
Los recientes avances en métodos de razonamiento visual, particularmente el paradigma "Pensar con Imágenes", han demostrado un éxito notable en los Modelos de Lenguaje Grandes Multimodales (MLLMs); sin embargo, este paradigma de razonamiento dinámico aún no se ha extendido a las tareas de razonamiento con vídeos. En este artículo, proponemos Video-Thinker, que dota a los MLLMs de la capacidad de pensar con vídeos aprovechando de forma autónoma sus capacidades intrínsecas de "grounding" (anclaje) y "captioning" (generación de descripciones) para generar pistas de razonamiento durante todo el proceso de inferencia. Para despertar esta capacidad, construimos Video-Thinker-10K, un conjunto de datos curado que presenta el uso autónomo de herramientas dentro de secuencias de razonamiento de cadena de pensamiento (chain-of-thought). Nuestra estrategia de entrenamiento comienza con un Fine-Tuning Supervisado (SFT) para aprender el formato de razonamiento, seguido de una Optimización de Políticas Relativas por Grupos (GRPO) para reforzar esta capacidad de razonamiento. A través de este enfoque, Video-Thinker permite a los MLLMs navegar autónomamente las tareas de grounding y captioning para el razonamiento con vídeos, eliminando la necesidad de construir y llamar a herramientas externas. Experimentos exhaustivos demuestran que Video-Thinker logra mejoras significativas de rendimiento tanto en tareas dentro del dominio como en benchmarks desafiantes de razonamiento con vídeos fuera del dominio, incluyendo Video-Holmes, CG-Bench-Reasoning y VRBench. Nuestro modelo Video-Thinker-7B supera sustancialmente a las bases de referencia existentes, como Video-R1, y establece un rendimiento de vanguardia entre los MLLMs de 7B de parámetros.
Esta monografía presenta los principios fundamentales que han guiado el desarrollo de los modelos de difusión, rastreando sus orígenes y mostrando cómo diversas formulaciones surgen de ideas matemáticas compartidas. El modelado de difusión comienza definiendo un proceso directo que corrompe gradualmente los datos hasta convertirlos en ruido, vinculando la distribución de datos con una distribución previa simple a través de un continuo de distribuciones intermedias. El objetivo es aprender un proceso inverso que transforme el ruido nuevamente en datos mientras recupera los mismos estados intermedios. Describimos tres perspectivas complementarias. La perspectiva variacional, inspirada en los autoencoders variacionales, concibe la difusión como el aprendizaje para eliminar ruido paso a paso. La perspectiva basada en scores, con raíces en el modelado basado en energía, aprende el gradiente de la distribución de datos en evolución, indicando cómo dirigir las muestras hacia regiones más probables. La perspectiva basada en flujos, relacionada con los flujos normalizantes, trata la generación como seguir una trayectoria suave que mueve muestras desde el ruido hasta los datos bajo un campo de velocidad aprendido. Estas perspectivas comparten una estructura común: un campo de velocidad dependiente del tiempo cuyo flujo transporta una distribución previa simple hacia los datos. El muestreo equivale entonces a resolver una ecuación diferencial que evoluciona el ruido hacia los datos a lo largo de una trayectoria continua. Sobre esta base, la monografía discute técnicas de guía para generación controlable, solucionadores numéricos eficientes y modelos de mapas de flujo motivados por difusión que aprenden mapeos directos entre tiempos arbitrarios. Proporciona una comprensión conceptual y matemáticamente fundamentada de los modelos de difusión para lectores con conocimientos básicos de aprendizaje profundo.
Los agentes lingüísticos del mundo real deben manejar flujos de trabajo complejos y multi-etapa a través de diversas aplicaciones. Por ejemplo, un agente puede gestionar correos electrónicos coordinándose con calendarios y sistemas de archivos, o monitorear una base de datos de producción para detectar anomalías y generar informes siguiendo un manual de operaciones. Sin embargo, los benchmarks existentes para agentes lingüísticos a menudo se centran en dominios estrechos o tareas simplificadas que carecen de la diversidad, el realismo y la complejidad de horizonte largo necesarios para evaluar el rendimiento de los agentes en escenarios reales. Para abordar esta brecha, presentamos el Tool Decathlon (denominado Toolathlon), un benchmark para agentes lingüísticos que ofrece diversas aplicaciones y herramientas, una configuración de entorno realista y una evaluación fiable basada en la ejecución. Toolathlon abarca 32 aplicaciones de software y 604 herramientas, que van desde plataformas cotidianas como Google Calendar y Notion hasta otras profesionales como WooCommerce, Kubernetes y BigQuery. La mayoría de las herramientas se basan en un conjunto de alta calidad de servidores del Model Context Protocol (MCP) que hemos revisado o implementado nosotros mismos. A diferencia de trabajos anteriores, que principalmente aseguran el realismo funcional pero ofrecen una diversidad limitada de estados del entorno, nosotros proporcionamos estados iniciales realistas del entorno a partir de software real, como cursos de Canvas con docenas de estudiantes o hojas de cálculo financieras reales. Este benchmark incluye un total de 108 tareas obtenidas o elaboradas manualmente, que requieren interactuar con múltiples aplicaciones a lo largo de aproximadamente 20 turnos en promedio para completarse. Cada tarea es estrictamente verificable mediante scripts de evaluación dedicados. La evaluación exhaustiva de modelos state-of-the-art (SOTA) resalta sus deficiencias significativas: el modelo con mejor rendimiento, Claude-4.5-Sonnet, alcanza solo una tasa de éxito del 38.6% con 20.2 turnos de llamadas a herramientas en promedio, mientras que el modelo de pesos abiertos más destacado, DeepSeek-V3.2-Exp, alcanza un 20.1%. Esperamos que Toolathlon impulse el desarrollo de agentes lingüísticos más capaces para la ejecución de tareas realistas de horizonte largo.
El post-entrenamiento basado en aprendizaje por refuerzo (RL) ha sido crucial para habilitar el razonamiento multi-paso en los grandes modelos de razonamiento (LRM); sin embargo, los esquemas de recompensa actuales suelen ser centrados en el resultado. Proponemos PM4GRPO, una Optimización de Políticas Relativas por Grupos (GRPO) consciente del razonamiento, que aumenta las recompensas estándar de respuesta/formato con señales sobre el procedimiento de razonamiento. Para ello, se utilizan técnicas de minería de procesos para calcular una recompensa escalar de conformidad que mide cuán estrechamente se alinea el razonamiento de un modelo de política con el modelo profesor preentrenado. Los resultados empíricos en cinco benchmarks demuestran que PM4GRPO supera significativamente a las metodologías existentes para el post-entrenamiento basado en GRPO. Estos resultados destacan que el aprovechamiento de la minería de procesos para una GRPO consciente del razonamiento mejora eficazmente las capacidades de razonamiento de los modelos de política.
Proponemos Ming-Flash-Omni, una versión mejorada de Ming-Omni, construida sobre una variante más dispersa de Mixture-of-Experts (MoE) de Ling-Flash-2.0 con 100 mil millones de parámetros totales, de los cuales solo 6.1 mil millones están activos por *token*. Esta arquitectura permite un escalado altamente eficiente (mejorando drásticamente la eficiencia computacional mientras expande significativamente la capacidad del modelo) y potencia una inteligencia multimodal unificada más fuerte a través de la visión, el habla y el lenguaje, representando un paso clave hacia la Inteligencia Artificial General (IAG). En comparación con su predecesora, la versión mejorada exhibe mejoras sustanciales en la comprensión y generación multimodal. Avanzamos significativamente en las capacidades de reconocimiento de voz, logrando un rendimiento de vanguardia en ASR contextual y resultados altamente competitivos en ASR consciente de dialectos. En generación de imágenes, Ming-Flash-Omni introduce una representación de texto de alta fidelidad y demuestra ganancias marcadas en la coherencia escénica y la preservación de la identidad durante la edición de imágenes. Además, Ming-Flash-Omni introduce la segmentación generativa, una capacidad que no solo logra un fuerte rendimiento de segmentación independiente, sino que también mejora el control espacial en la generación de imágenes y aumenta la coherencia en la edición. Cabe destacar que Ming-Flash-Omni logra resultados de vanguardia en generación de texto a imagen y segmentación generativa, y establece nuevos récords en los 12 puntos de referencia de ASR contextual, todo dentro de una única arquitectura unificada.
Los efectos visuales (VFX) son cruciales para el poder expresivo de los medios digitales, sin embargo, su creación sigue siendo un gran desafío para la IA generativa. Los métodos predominantes a menudo se basan en el paradigma de un-LoRA-por-efecto, el cual es intensivo en recursos y fundamentalmente incapaz de generalizar a efectos no vistos, limitando así la escalabilidad y la creación. Para abordar este desafío, presentamos VFXMaster, el primer marco unificado y basado en referencia para la generación de videos con VFX. Este reformula la generación de efectos como una tarea de aprendizaje en contexto, permitiéndole reproducir diversos efectos dinámicos de un video de referencia a un contenido objetivo. Además, demuestra una notable generalización a categorías de efectos no vistas. Específicamente, diseñamos una estrategia de condicionamiento en contexto que proporciona al modelo un ejemplo de referencia. Se diseña una máscara de atención en contexto para desacoplar e inyectar con precisión los atributos esenciales del efecto, permitiendo que un único modelo unificado domine la imitación del efecto sin fugas de información. Adicionalmente, proponemos un mecanismo eficiente de adaptación de efectos de un solo disparo para potenciar rápidamente la capacidad de generalización en efectos no vistos complejos a partir de un único video proporcionado por el usuario. Experimentos exhaustivos demuestran que nuestro método imita efectivamente varias categorías de información de efectos y exhibe una generalización sobresaliente para efectos fuera de dominio. Para fomentar futuras investigaciones, liberaremos nuestro código, modelos y un conjunto de datos integral a la comunidad.
Recientemente, la edición de imágenes basada en instrucciones (IIE) ha recibido una atención generalizada. En la práctica, la IIE a menudo modifica solo regiones específicas de una imagen, mientras que las áreas restantes permanecen prácticamente inalteradas. Aunque estos dos tipos de regiones difieren significativamente en dificultad de generación y redundancia computacional, los modelos existentes de IIE no tienen en cuenta esta distinción, aplicando en su lugar un proceso de generación uniforme en toda la imagen. Esto nos motiva a proponer RegionE, un marco de generación adaptativo y consciente de las regiones que acelera las tareas de IIE sin necesidad de entrenamiento adicional. Específicamente, el marco RegionE consta de tres componentes principales: 1) **Partición Adaptativa de Regiones**. Observamos que la trayectoria de las regiones no editadas es recta, lo que permite inferir predicciones desruidosas de múltiples pasos en un solo paso. Por lo tanto, en las primeras etapas de desruido, particionamos la imagen en regiones editadas y no editadas basándonos en la diferencia entre el resultado estimado final y la imagen de referencia. 2) **Generación Consciente de Regiones**. Tras distinguir las regiones, reemplazamos el desruido multi-paso con una predicción de un solo paso para las áreas no editadas. Para las regiones editadas, la trayectoria es curva, requiriendo un desruido iterativo local. Para mejorar la eficiencia y calidad de la generación iterativa local, proponemos la Caché KV de Región-Instrucción, que reduce el coste computacional a la vez que incorpora información global. 3) **Caché de Decaimiento de Velocidad Adaptativa**. Al observar que los intervalos de tiempo adyacentes en las regiones editadas exhiben una fuerte similitud de velocidad, proponemos además una caché de decaimiento de velocidad adaptativa para acelerar el proceso de desruido local. Aplicamos RegionE a modelos base de IIE de vanguardia, incluyendo Step1X-Edit, FLUX.1 Kontext y Qwen-Image-Edit. RegionE logró factores de aceleración de 2.57, 2.41 y 2.06, respectivamente. Las evaluaciones realizadas por GPT-4o confirmaron que la fidelidad semántica y perceptual se preservó adecuadamente.
Las interacciones biomoleculares sustentan casi todos los procesos biológicos, y su diseño racional es fundamental para programar nuevas funciones biológicas. Los modelos de IA generativa han surgido como herramientas poderosas para el diseño molecular, aunque la mayoría siguen especializados en tipos moleculares individuales y carecen de un control detallado sobre los aspectos de la interacción. Aquí presentamos ODesign, un modelo generativo de mundo a nivel atómico completo para el diseño de interacciones biomoleculares de-todo-a-todo. ODesign permite a los científicos especificar epítopos en objetivos arbitrarios y generar diversas clases de socios de unión con control de grano fino. A través de puntos de referencia a nivel de entidad, token y átomo en la modalidad de proteínas, ODesign demuestra una controllabilidad y rendimiento superiores a los baselines específicos de modalidad. Extendiéndose más allá de las proteínas, generaliza al diseño de ácidos nucleicos y pequeñas moléculas, permitiendo tipos de interacción como ARN/ADN que se une a proteínas y ligandos que se unen a ARN/ADN, que antes eran inaccesibles. Al unificar las interacciones biomoleculares multimodales dentro de un único marco generativo, ODesign avanza hacia un modelo de mundo molecular de propósito general capaz de diseño programable. ODesign está disponible en https://odesign.lglab.ac.cn.
Los sistemas de Generación Aumentada por Recuperación (RAG) son cada vez más vitales en dominios dinámicos como los videojuegos online, sin embargo, la falta de un benchmark dedicado ha impedido una evaluación estandarizada en esta área. La dificultad central reside en la Dualidad Dinámica: la interacción constante entre las actualizaciones de contenido del juego y el cambio de enfoque de la comunidad de jugadores. Además, la necesidad de automatizar dicho benchmark introduce un requisito crítico de autenticidad centrada en el jugador para garantizar que las preguntas generadas sean realistas. Para abordar este desafío integrado, presentamos ChronoPlay, un marco novedoso para la generación automática y continua de benchmarks RAG para videojuegos. ChronoPlay utiliza un mecanismo de actualización de doble dinámica para rastrear ambas formas de cambio, y un motor de síntesis de doble fuente que se nutre de fuentes oficiales y de la comunidad de jugadores para garantizar tanto la corrección factual como patrones de consulta auténticos. Instanciamos nuestro marco en tres juegos distintos para crear el primer benchmark RAG dinámico para el dominio de los videojuegos, ofreciendo nuevas perspectivas sobre el rendimiento de los modelos bajo estas condiciones complejas y realistas. El código está disponible en: https://github.com/hly1998/ChronoPlay.
La autoformalización, que traduce matemáticas en lenguaje natural a enunciados formales verificables por máquina, es crucial para utilizar el razonamiento matemático formal con el fin de resolver problemas matemáticos planteados en lenguaje natural. Si bien los Modelos de Lenguaje a Gran Escala pueden generar enunciados formalmente correctos, a menudo no logran preservar la intención semántica original del problema. Esta limitación surge porque los enfoques basados en LLM tratan la autoformalización como una tarea de traducción simplista, carente de los mecanismos de autorreflexión y refinamiento iterativo que los expertos humanos emplean naturalmente. Para abordar estos problemas, proponemos ReForm, un método de Autoformalización Reflexiva que integra estrechamente la evaluación de consistencia semántica en el proceso de autoformalización. Esto permite al modelo generar enunciados formales de manera iterativa, evaluar su fidelidad semántica y autocorregir los errores identificados mediante un refinamiento progresivo. Para entrenar eficazmente este modelo reflexivo, introducimos la Optimización de Secuencia con Límite Prospectivo (PBSO), que emplea diferentes recompensas en distintas posiciones de la secuencia para garantizar que el modelo desarrolle tanto una autoformalización precisa como validaciones semánticas correctas, evitando críticas superficiales que socavarían el propósito de la reflexión. Experimentos exhaustivos en cuatro benchmarks de autoformalización demuestran que ReForm logra una mejora promedio de 17.2 puntos porcentuales sobre las líneas base más sólidas. Para garantizar aún más la fiabilidad de la evaluación, introducimos ConsistencyCheck, un benchmark de 859 ítems anotados por expertos que no solo valida a los LLMs como evaluadores, sino que también revela que la autoformalización es inherentemente difícil: incluso los expertos humanos producen errores semánticos en hasta el 38.5% de los casos.
Los seres humanos poseen habilidades de razonamiento espacial que les permiten comprender espacios mediante observaciones multimodales, como la visión y el sonido. Los grandes modelos de razonamiento multimodal amplían estas capacidades al aprender a percibir y razonar, mostrando un rendimiento prometedor en diversas tareas espaciales. Sin embargo, las revisiones sistemáticas y los puntos de referencia públicos para evaluar estos modelos siguen siendo limitados. En este estudio, ofrecemos una revisión exhaustiva de las tareas de razonamiento espacial multimodal con modelos de gran escala, categorizando los avances recientes en modelos de lenguaje multimodal (MLLMs) e introduciendo benchmarks abiertos para su evaluación. Comenzamos delineando el razonamiento espacial general, centrándonos en técnicas de posentrenamiento, explicabilidad y arquitectura. Más allá de las tareas 2D clásicas, examinamos el razonamiento de relaciones espaciales, la comprensión de escenas y diseños, así como la respuesta a preguntas visuales y la localización en espacios 3D. También revisamos los avances en IA embodada, incluyendo modelos de navegación y acción visión-lenguaje. Adicionalmente, consideramos modalidades emergentes como el audio y el video egocéntrico, que contribuyen a nuevas formas de comprensión espacial mediante nuevos sensores. Creemos que este estudio establece una base sólida y ofrece perspectivas sobre el creciente campo del razonamiento espacial multimodal. La información actualizada sobre esta revisión, los códigos y la implementación de los benchmarks abiertos pueden encontrarse en https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
Los Modelos de Lenguaje Grandes (LLM) son potentes, pero a menudo demasiado lentos y costosos para su uso práctico durante la inferencia. Los transformadores con bucles ahorran parámetros reutilizando los mismos pesos para múltiples pasos computacionales o "bucles". Sin embargo, este enfoque tiene un defecto importante: los bucles se ejecutan uno tras otro, lo que provoca que la latencia de inferencia y los requisitos de memoria aumenten con cada bucle añadido. Esto los hace impracticables para aplicaciones rápidas. Para resolver este problema, presentamos el Transformador de Bucle Paralelo (PLT). PLT es una nueva arquitectura que ofrece los beneficios de rendimiento de un modelo profundo con bucles, pero con la baja latencia de un modelo estándar sin bucles. PLT funciona mediante dos técnicas clave. Primero, el Paralelismo de Bucles Cruzados (CLP) rompe la dependencia secuencial al calcular diferentes bucles para diferentes tokens al mismo tiempo, todo dentro de una sola pasada. En segundo lugar, para evitar que los costos de memoria crezcan, utilizamos una estrategia de Mejora Eficiente de la Representación. Este método comparte la memoria (caché KV) del primer bucle con todos los demás bucles. Luego utiliza una Atención por Ventana Deslizante con Puertao (G-SWA) para combinar esta información global compartida con información local, manteniendo una alta precisión. Nuestros experimentos muestran que PLT logra la alta precisión de un modelo con bucles tradicional, pero con casi ninguna latencia adicional o costo de memoria en comparación con un transformador estándar.
Lanzamos Gaperon, un conjunto completamente abierto de modelos de lenguaje francés-inglés-codificación diseñado para impulsar la transparencia y reproducibilidad en el entrenamiento de modelos a gran escala. La familia Gaperon incluye modelos de 1.5B, 8B y 24B de parámetros entrenados con 2-4 billones de tokens, liberados con todos los elementos del pipeline de entrenamiento: conjuntos de datos en francés e inglés filtrados con un clasificador neuronal de calidad, un marco eficiente de curación de datos y entrenamiento, y cientos de puntos de control intermedios. Mediante este trabajo, estudiamos cómo interactúan el filtrado de datos y la contaminación para moldear tanto el rendimiento en benchmarks como la capacidad generativa. Descubrimos que filtrar por calidad lingüística mejora la fluidez y coherencia textual pero produce resultados subóptimos en benchmarks, y que la contaminación deliberada tardía —continuar el entrenamiento con mezclas de datos que incluyen conjuntos de prueba— recupera puntuaciones competitivas mientras perjudica razonablemente la calidad generativa. Discutimos cómo el filtrado neuronal habitual puede amplificar involuntariamente la filtración en benchmarks. Para apoyar investigaciones futuras, también introducimos envenenamiento de datos inofensivo durante el preentrenamiento, proporcionando un banco de pruebas realista para estudios de seguridad. Al liberar abiertamente todos los modelos, conjuntos de datos, código y puntos de control, Gaperon establece una base reproducible para explorar las compensaciones entre curación de datos, evaluación, seguridad y apertura en el desarrollo de modelos de lenguaje multilingües.
El rápido progreso y despliegue generalizado de los LLM y agentes potenciados por LLM ha superado nuestra capacidad para evaluarlos. Los puntos de referencia estáticos y elaborados manualmente son la herramienta principal para evaluar las capacidades de los modelos, pero estos se saturan rápidamente. Por el contrario, los puntos de referencia dinámicos evolucionan junto con los modelos que evalúan, pero son costosos de crear y actualizar continuamente. Para abordar estos desafíos, desarrollamos BeTaL (Benchmark Tuning with an LLM-in-the-loop), un marco que aprovecha los principios de diseño de entornos para automatizar el proceso de diseño de puntos de referencia dinámicos. BeTaL funciona parametrizando las decisiones de diseño clave en plantillas de referencia base y utiliza LLM para razonar a través del espacio de parámetros resultante para obtener propiedades objetivo (como dificultad y realismo) de manera rentable. Validamos este enfoque en su capacidad para crear puntos de referencia con niveles de dificultad deseados. Utilizando BeTaL, creamos dos nuevos puntos de referencia y extendemos un popular punto de referencia agéntico, tau-bench. Una evaluación exhaustiva de estas tres tareas y múltiples niveles de dificultad objetivo muestra que BeTaL produce puntos de referencia mucho más cercanos a la dificultad deseada, con desviaciones promedio que oscilan entre el 5.3% y el 13.2%, lo que representa una mejora de 2 a 4 veces sobre las líneas de base.
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha surgido como un paradigma prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje grande (LLM). En este contexto, los modelos exploran trayectorias de razonamiento y aprovechan las ejecuciones (rollouts) con respuestas correctas como señales positivas para la optimización de políticas. Sin embargo, estas ejecuciones pueden contener patrones defectuosos, como adivinar la respuesta o realizar saltos en el razonamiento. Dichas ejecuciones positivas pero defectuosas son recompensadas de manera idéntica a las completamente correctas, lo que provoca que los modelos de política interioricen estos patrones de razonamiento poco fiables. En este trabajo, primero realizamos un estudio sistemático de las ejecuciones positivas defectuosas en RL y descubrimos que permiten ganancias rápidas de capacidad durante la etapa temprana de optimización, mientras que limitan la capacidad de razonamiento más adelante al reforzar patrones no confiables. Basándonos en estas observaciones, proponemos la Optimización de Políticas con Conciencia de Defectos (FAPO), que presenta una penalización de recompensa sin parámetros para las ejecuciones positivas defectuosas, permitiendo que la política las utilice como atajos útiles en la fase de calentamiento, asegurando ganancias tempranas estables, mientras cambia gradualmente la optimización hacia un razonamiento confiable en la etapa posterior de refinamiento. Para detectar de forma precisa y exhaustiva las ejecuciones positivas defectuosas, introducimos un modelo de recompensa generativo (GenRM) con una recompensa a nivel de proceso que localiza con precisión los errores de razonamiento. Los experimentos demuestran que FAPO es efectivo en diversos dominios, mejorando la corrección de los resultados, la fiabilidad del proceso y la estabilidad del entrenamiento sin aumentar el presupuesto de tokens.
Los modelos unificados de visión y lenguaje (UVLM) deben realizar tareas de comprensión y generación dentro de una única arquitectura, pero estas tareas dependen de datos y supervisión heterogéneos, lo que dificulta equilibrarlas durante el aprendizaje por refuerzo (RL). Proponemos PairUni, un marco unificado que reorganiza los datos en pares comprensión-generación (UG) y alinea la optimización en consecuencia. Primero utilizamos GPT-4 para aumentar los datos de tarea única, generando descripciones para muestras de comprensión y pares pregunta-respuesta (QA) para muestras de generación, formando pares alineados a partir de la misma instancia. Adicionalmente, para cada muestra de generación, recuperamos un ejemplo de comprensión semánticamente relacionado para formar un par recuperado, vinculando puntos de datos diferentes pero relacionados. Estas estructuras pareadas exponen correspondencias semánticas entre tareas y apoyan un aprendizaje de políticas consistente. Para aprovechar esta estructura, presentamos Pair-GPRO, una variante consciente de pares basada en la Optimización de Políticas Relativas por Grupos. Asigna una puntuación de similitud a cada par para modular la ventaja, fortaleciendo el aprendizaje de ejemplos bien alineados y reduciendo la interferencia entre tareas. Curramos un conjunto de datos de alta calidad de 16K pares UG llamado PairUG para el ajuste fino por RL y evaluamos PairUni en los potentes UVLM Janus-Pro. Nuestro enfoque logra mejoras equilibradas en varios UVLM, superando a sólidas líneas base de RL para UVLM. Código: https://github.com/Haochen-Wang409/PairUni
La implementación práctica de Sistemas Multi-Agente (MAS) exige un rendimiento sólido durante las pruebas, lo que motiva métodos que guíen la búsqueda en la inferencia y gasten computación de forma selectiva para mejorar la calidad. Presentamos el Modelo de Recompensa de Procesos para Sistemas Multi-Agente (MASPRM). Este asigna valores por acción y por agente a transcripciones parciales entre agentes y actúa como un controlador durante la inferencia. MASPRM se entrena a partir de desarrollos de Búsqueda de Árbol de Monte Carlo (MCTS) multi-agente sin necesidad de anotaciones humanas a nivel de paso, propagando las recompensas hacia objetivos locales. Durante la inferencia, MASPRM guía la búsqueda por haz y MCTS a nivel de paso, enfocando el cómputo en ramas prometedoras y podando tempranamente. En GSM8K y MATH, la decodificación guiada por MASPRM con un modelo de recompensa de resultado (ORM) aplicado a la respuesta final, mejora la coincidencia exacta (EM) respecto a una única pasada directa de un MAS en +30.7 y +22.9 puntos, respectivamente. Un MASPRM entrenado en GSM8K se transfiere *zero-shot* a MATH sin reentrenamiento, añadiendo 8.4 puntos EM con el mismo presupuesto. MASPRM es un modelo de valor complementario que estima el progreso por agente y complementa a los decodificadores de estilo verificador, permitiendo un razonamiento multi-agente más confiable y consciente del cómputo. Código: https://github.com/milad1378yz/MASPRM
En este artículo, presentamos un marco para entrenar modelos de lenguaje grandes (LLM) como agentes de diagnóstico con aprendizaje por refuerzo, permitiéndoles gestionar procesos de diagnóstico multiturno, seleccionar exámenes de forma adaptativa y emitir diagnósticos finales. A diferencia de los modelos ajustados por instrucción entrenados en resúmenes de casos estáticos, nuestro método adquiere estrategias de diagnóstico mediante exploración interactiva y retroalimentación basada en resultados. Nuestras contribuciones son cuatro: (i) Presentamos DiagGym, un modelo de mundo de diagnóstico entrenado con registros de salud electrónicos que emite resultados de exámenes condicionados al historial del paciente y al examen recomendado, sirviendo como un entorno clínico virtual para el entrenamiento y evaluación realistas del diagnóstico; (ii) Entrenamos a DiagAgent mediante aprendizaje por refuerzo multiturno de extremo a extremo para aprender políticas de diagnóstico que optimizan tanto el rendimiento de información como la precisión diagnóstica; (iii) Introducimos DiagBench, un benchmark de diagnóstico que comprende 750 casos con recomendaciones de exámenes validadas por médicos y 99 casos anotados con 973 rúbricas escritas por médicos sobre el proceso de diagnóstico; (iv) Demostramos un rendimiento superior en diversos entornos de diagnóstico. DiagAgent supera significativamente a 10 LLM de última generación, incluyendo DeepSeek-v3 y GPT-4o, así como a dos agentes diseñados mediante ingeniería de prompts. En entornos de un solo turno, DiagAgent logra un 9.34% más de precisión diagnóstica y un 44.03% de mejora en la tasa de acierto de recomendación de exámenes. En entornos de extremo a extremo, produce un aumento del 15.12% en la precisión diagnóstica y un incremento del 23.09% en la puntuación F1 de la recomendación de exámenes. En la evaluación basada en rúbricas, supera al siguiente mejor modelo, Claude-sonnet-4, en un 7.1% en la puntuación de rúbrica ponderada. Estos hallazgos indican que el aprendizaje de políticas en entornos clínicos interactivos confiere capacidades dinámicas y clínicamente significativas de gestión diagnóstica inalcanzables mediante el entrenamiento pasivo únicamente.
Los recientes avances en modelos del mundo de conducción permiten la generación controlable de videos RGB de alta calidad o videos multimodales. Los métodos existentes se centran principalmente en métricas relacionadas con la calidad de generación y la controlabilidad. Sin embargo, a menudo pasan por alto la evaluación de las tareas de percepción descendentes, las cuales son realmente cruciales para el rendimiento de la conducción autónoma. Los métodos existentes suelen utilizar una estrategia de entrenamiento que primero realiza un preentrenamiento con datos sintéticos y luego un ajuste fino con datos reales, lo que resulta en el doble de épocas en comparación con el baseline (solo datos reales). Cuando duplicamos las épocas en el baseline, el beneficio de los datos sintéticos se vuelve insignificante. Para demostrar exhaustivamente el beneficio de los datos sintéticos, presentamos Dream4Drive, un novedoso marco de generación de datos sintéticos diseñado para mejorar las tareas de percepción descendentes. Dream4Drive primero descompone el video de entrada en varios mapas de guía 3D y posteriormente renderiza los activos 3D sobre estos mapas de guía. Finalmente, el modelo del mundo de conducción se ajusta para producir los videos editados, fotorealistas y multi-vista, que pueden utilizarse para entrenar los modelos de percepción descendentes. Dream4Drive permite una flexibilidad sin precedentes para generar casos extremos multi-vista a gran escala, mejorando significativamente la percepción de casos extremos en la conducción autónoma. Para facilitar la investigación futura, también contribuimos con un conjunto de datos de activos 3D a gran escala llamado DriveObj3D, que cubre las categorías típicas en escenarios de conducción y permite una edición de video diversa con conciencia 3D. Realizamos experimentos exhaustivos que muestran que Dream4Drive puede mejorar efectivamente el rendimiento de los modelos de percepción descendentes bajo varias épocas de entrenamiento. Página: https://wm-research.github.io/Dream4Drive/ Enlace de GitHub: https://github.com/wm-research/Dream4Drive
El modelo de lenguaje de gran tamaño para razonamiento (RLLM, por sus siglas en inglés) ha demostrado ser competitivo en la resolución de tareas de razonamiento complejas como matemáticas y codificación, en comparación con los LLM generales. Sin embargo, el rendimiento y comportamiento en servicio del RLLM permanece inexplorado, lo que podría comprometer el despliegue y utilización del RLLM en escenarios del mundo real. Para cerrar esta brecha, en este artículo realizamos un estudio integral del servicio RLLM. Primero llevamos a cabo un estudio piloto comparando el rendimiento en servicio entre RLLM y LLM tradicionales, revelando que existen varias diferencias distintivas respecto al comportamiento de servicio: (1) uso significativo de memoria y fluctuaciones; (2) solicitudes rezagadas; (3) tiempo de ejecución adaptativo; (4) preferencia de dominio. Luego investigamos más a fondo si las técnicas de optimización de inferencia existentes son válidas para RLLM. Nuestras principales conclusiones son que los métodos de cuantización de modelos y la decodificación especulativa pueden mejorar la eficiencia del sistema de servicio con un pequeño compromiso en la precisión del RLLM, mientras que el almacenamiento en caché de prefijos y la cuantización de la caché KV pueden incluso degradar la precisión o el rendimiento de servicio para RLLM pequeños. Finalmente, realizamos una evaluación bajo cargas de trabajo del mundo real modeladas mediante distribución Gamma para verificar nuestros hallazgos. Los resultados empíricos de la evaluación con cargas de trabajo reales en diferentes conjuntos de datos concuerdan con nuestras principales conclusiones sobre el servicio RLLM. Esperamos que nuestro trabajo pueda proporcionar a la comunidad investigadora y la industria perspectivas para avanzar en el servicio de inferencia de RLLM.
Los recientes avances en modelos de lenguaje grandes (LLM) de solo texto, como DeepSeek-R1, demuestran una capacidad de razonamiento notable. Sin embargo, estos modelos siguen siendo frágiles o completamente incapaces cuando se extienden a tareas multimodales. Los enfoques existentes dependen en gran medida de descripciones de formato único, que carecen de diversidad y a menudo no logran adaptarse a diferentes tipos de benchmarks de Respuesta a Preguntas Visuales (VQA). Como resultado, no proporcionan un canal eficiente o basado en principios para transmitir información visual detallada. Presentamos Seeing Eye, un marco modular que desbloquea el razonamiento multimodal en LLM de solo texto mediante un traductor VLM pequeño basado en agentes. Este traductor actúa como un agente de percepción: puede invocar herramientas especializadas (por ejemplo, OCR y recorte) y destilar iterativamente entradas multimodales en representaciones intermedias estructuradas (SIRs) adaptadas a la pregunta. Estas SIRs se pasan luego al LLM de solo texto, que sirve como un agente de razonamiento. Crucialmente, el traductor y el razonador participan en una interacción y retroalimentación de múltiples rondas, permitiendo la extracción de detalles visuales específicos y produciendo respuestas más confiables. Los experimentos en benchmarks de VQA intensivos en conocimiento, incluyendo MMMU y MIA-Bench, demuestran que Seeing Eye no solo reduce el costo de inferencia sino que también supera a VLMs de extremo a extremo mucho más grandes. Por ejemplo, una instanciación que combina un traductor visual de 3B parámetros con un razonador de lenguaje de 8B parámetros supera a un VLM monolítico de 32B en preguntas complejas basadas en conocimiento. Nuestros resultados destacan que desacoplar la percepción del razonamiento mediante un flujo de información de agentes ofrece una vía escalable y plug-and-play para el razonamiento multimodal, permitiendo que los LLM de solo texto potentes aprovechen plenamente sus capacidades de razonamiento. El código está disponible en: https://github.com/ulab-uiuc/SeeingEye
El rápido avance de los modelos de lenguaje grandes (LLM) ha intensificado la necesidad de una evaluación específica por dominio y cultura. Los puntos de referencia existentes son en gran parte anglocéntricos y agnósticos al dominio, lo que limita su aplicabilidad en contextos centrados en la India. Para abordar esta brecha, presentamos BhashaBench V1, el primer punto de referencia bilingüe, multitudinario y específico del dominio centrado en los sistemas de conocimiento críticos de la India. BhashaBench V1 contiene 74,166 pares de preguntas y respuestas meticulosamente seleccionados, con 52,494 en inglés y 21,672 en hindi, obtenidos de exámenes auténticos gubernamentales y específicos del dominio. Abarca cuatro dominios principales: Agricultura, Legal, Finanzas y Ayurveda, que comprenden más de 90 subdominios y cubren más de 500 temas, permitiendo una evaluación de grano fino. La evaluación de más de 29 LLM revela brechas de rendimiento significativas específicas del dominio y del idioma, con disparidades especialmente grandes en dominios de bajos recursos. Por ejemplo, GPT-4o logra un 76.49% de precisión general en Legal, pero solo un 59.74% en Ayurveda. Los modelos consistentemente rinden mejor en contenido en inglés en comparación con el hindi en todos los dominios. El análisis a nivel de subdominio muestra que áreas como Derecho Cibernético y Finanzas Internacionales tienen un rendimiento relativamente bueno, mientras que Panchakarma, Ciencia de Semillas y Derechos Humanos permanecen notablemente débiles. BhashaBench V1 proporciona un conjunto de datos integral para evaluar modelos de lenguaje grandes en los diversos dominios de conocimiento de la India. Permite evaluar la capacidad de los modelos para integrar conocimiento específico del dominio con comprensión bilingüe. Todo el código, puntos de referencia y recursos están disponibles públicamente para apoyar la investigación abierta.
El desarrollo de la Inteligencia Artificial (IA), incluida la IA en la Ciencia (IAC), debe realizarse siguiendo los principios de la IA responsable. El progreso en la IA responsable a menudo se cuantifica mediante métricas de evaluación, aunque se ha trabajado menos en evaluar la robustez y fiabilidad de las propias métricas. Reflexionamos sobre trabajos previos que examinan la robustez de las métricas de equidad para los sistemas de recomendación como un tipo de aplicación de IA y resumimos sus conclusiones clave en un conjunto de directrices no exhaustivas para desarrollar métricas fiables de IA responsable. Nuestras directrices son aplicables a un amplio espectro de aplicaciones de IA, incluyendo la IAC.
A medida que la IA centralizada alcanza límites de cómputo y rendimientos decrecientes de entrenamientos cada vez más grandes, satisfacer la demanda requiere una capa de inferencia que escale horizontalmente en capacidad y habilidad. Presentamos Fortytwo, un protocolo novedoso que aprovecha los principios de inteligencia de enjambre y un consenso distribuido de ranking por pares para lograr un rendimiento superior en la inferencia de IA. Nuestro enfoque reinventa la colaboración entre nodos de IA mediante la inferencia de enjambre: un consenso ponderado por reputación y clasificado por pares entre modelos heterogéneos que selecciona las respuestas de más alta calidad. Utilizando el ranking por pares con un modelo de agregación personalizado al estilo Bradley-Terry, demostramos que la inferencia de enjambre supera sustancialmente a la votación mayoritaria, logrando un 85.90% en GPQA Diamond frente al 68.69% de la votación mayoritaria con el mismo conjunto de modelos: una mejora de +17.21 puntos porcentuales (aproximadamente +25.1% relativo). El protocolo incorpora reputación en cadena para que la influencia del nodo se adapte a la precisión demostrada con el tiempo, produciendo un consenso meritocrático que filtra a participantes de baja calidad o maliciosos. Para resistir ataques Sybil, Fortytwo emplea prueba de capacidad en su consenso: los nodos deben completar exitosamente solicitudes de calibración/prueba y apostar reputación para ingresar a las rondas de clasificación, haciendo que los ataques de múltiples identidades sean económicamente poco atractivos mientras se preserva la apertura. En seis benchmarks desafiantes, incluyendo GPQA Diamond, LiveCodeBench y AIME, nuestra evaluación indica una mayor precisión y una fuerte resistencia a *prompts* adversarios y ruidosos de forma libre (por ejemplo, una degradación por inyección de *prompts* de solo 0.12% versus 6.20% para una línea base monolítica de un solo modelo), manteniendo al mismo tiempo una capacidad de despliegue práctica. En conjunto, estos resultados establecen una base para sistemas de IA descentralizados, democratizando el acceso a inferencia de alta calidad a través de la inteligencia colectiva sin sacrificar la fiabilidad ni la seguridad.
Los modelos de difusión de video autoregresivos son capaces de generar secuencias largas que son estables y consistentes con la historia, pero son incapaces de guiar la generación actual con información de condicionamiento del futuro. En la generación de video guiada por cámara con una trayectoria predefinida, esta limitación provoca colisiones con la escena generada, tras lo cual la autoregresión colapsa rápidamente. Para abordar esto, proponemos la Costura de Vista Generativa (GVS), que muestrea toda la secuencia en paralelo de modo que la escena generada sea fiel a cada parte de la trayectoria predefinida de la cámara. Nuestra contribución principal es un algoritmo de muestreo que extiende trabajos previos sobre costura de difusión para planificación robótica aplicada a la generación de video. Aunque estos métodos de costura suelen requerir un modelo especialmente entrenado, GVS es compatible con cualquier modelo de video estándar entrenado con "Difusión Forzada" (Diffusion Forcing), un marco de difusión de secuencias prevalente que demostramos ya proporciona las capacidades necesarias para la costura. Luego presentamos la Guía Omni, una técnica que mejora la consistencia temporal en la costura al condicionar tanto el pasado como el futuro, y que permite nuestro mecanismo propuesto de cierre de bucles para lograr coherencia de largo alcance. En general, GVS logra una generación de video guiada por cámara que es estable, libre de colisiones, consistente de fotograma a fotograma y que cierra bucles para una variedad de trayectorias de cámara predefinidas, incluyendo la Escalera Imposible de Oscar Reutersvärd. Los resultados se aprecian mejor como videos en https://andrewsonga.github.io/gvs.
Presentamos GraphNet, un conjunto de datos de 2.700 grafos computacionales de aprendizaje profundo del mundo real con metadatos enriquecidos, que abarca seis categorías principales de tareas en múltiples frameworks de aprendizaje profundo. Para evaluar el rendimiento de los compiladores de tensores en estas muestras, proponemos la métrica de evaluación Speedup Score S(t), que considera conjuntamente la aceleración del tiempo de ejecución y la corrección en la ejecución bajo niveles de tolerancia ajustables, ofreciendo una medida confiable de la capacidad de optimización general. Además, extendemos S(t) al Error-aware Speedup Score ES(t), que incorpora información de error y ayuda a los desarrolladores de compiladores a identificar cuellos de botella clave de rendimiento. En este informe, evaluamos los compiladores de tensores por defecto, CINN para PaddlePaddle y TorchInductor para PyTorch, en muestras de visión por computador (CV) y procesamiento del lenguaje natural (PLN) para demostrar la practicidad de GraphNet. La pipeline de construcción completa con las herramientas de extracción de grafos y evaluación de compiladores está disponible en https://github.com/PaddlePaddle/GraphNet.
Los modelos de lenguaje de gran tamaño (LLM) en la consejería psicológica han atraído una atención creciente. Sin embargo, los enfoques existentes a menudo carecen de comprensión emocional, estrategias adaptativas y del uso de métodos terapéuticos a lo largo de múltiples sesiones con memoria a largo plazo, lo que los aleja considerablemente de la práctica clínica real. Para abordar estas deficiencias críticas, presentamos TheraMind, un agente estratégico y adaptativo para la consejería psicológica longitudinal. La piedra angular de TheraMind es una novedosa arquitectura de doble bucle que desacopla el complejo proceso de consejería en un Bucle Intrasesión para la gestión táctica del diálogo y un Bucle Intersesión para la planificación terapéutica estratégica. El Bucle Intrasesión percibe el estado emocional del paciente para seleccionar dinámicamente estrategias de respuesta, aprovechando al mismo tiempo la memoria intersesión para garantizar la continuidad. Crucialmente, el Bucle Intersesión dota al agente de adaptabilidad a largo plazo mediante la evaluación de la eficacia de la terapia aplicada después de cada sesión y el ajuste del método para las interacciones posteriores. Validamos nuestro enfoque en un entorno de simulación de alta fidelidad basado en casos clínicos reales. Evaluaciones exhaustivas demuestran que TheraMind supera a otros métodos, especialmente en métricas multisensión como Coherencia, Flexibilidad y Sintonía Terapéutica, validando la efectividad de su diseño de doble bucle para emular un comportamiento terapéutico estratégico, adaptativo y longitudinal. El código está disponible públicamente en https://0mwwm0.github.io/TheraMind/.
Si bien el modelado autorregresivo (AR) ha surgido recientemente como un nuevo paradigma en la generación visual, su adopción práctica se ve severamente limitada por la lenta velocidad de inferencia de la generación por token, que a menudo requiere miles de pasos para producir una sola muestra. Para abordar este desafío, proponemos MC-SJD, un marco de decodificación paralela sin pérdidas y que no requiere entrenamiento, diseñado para acelerar la generación visual AR extendiendo el recientemente introducido Decodificación de Jacobi Especulativa (SJD). Aunque SJD muestra un fuerte potencial para acelerar la generación AR, demostramos que la inestabilidad de los tokens entre iteraciones reduce significativamente la tasa de aceptación, una limitación que surge principalmente del proceso de muestreo independiente utilizado durante la generación de tokens de borrador. Para superar esto, introducimos MC-SJD, un enfoque teórico-informacional basado en acoplamiento, que acelera sustancialmente el SJD estándar al maximizar la probabilidad de muestrear tokens de borrador idénticos en iteraciones consecutivas, todo ello preservando su propiedad de ser sin pérdidas. Notablemente, este método requiere solo una modificación de una línea al algoritmo existente, y sin embargo logra ganancias sustanciales de rendimiento, proporcionando hasta una aceleración de ~4.2x en la generación de imágenes y ~13.3x en la generación de videos en comparación con la decodificación AR estándar, sin ninguna degradación en la calidad de la salida.