Artículos de investigación en IA seleccionados diariamente con traducciones
La construcción de Modelos del Mundo capaces de aprender, simular y razonar sobre leyes físicas objetivas constituye un desafío fundamental en la búsqueda de la Inteligencia Artificial General. Los avances recientes representados por modelos de generación de vídeo como Sora han demostrado el potencial de las leyes de escalado basadas en datos para aproximar dinámicas físicas, mientras que el emergente Modelo Multimodal Unificado (UMM) ofrece un paradigma arquitectónico prometedor para integrar percepción, lenguaje y razonamiento. A pesar de estos avances, el campo aún carece de un marco teórico fundamentado que defina las propiedades esenciales requeridas para un Modelo del Mundo General. En este artículo, proponemos que un Modelo del Mundo debe estar fundamentado en la Trinidad de la Consistencia: la Consistencia Modal como interfaz semántica, la Consistencia Espacial como base geométrica y la Consistencia Temporal como motor causal. A través de esta triple perspectiva, revisamos sistemáticamente la evolución del aprendizaje multimodal, revelando una trayectoria que va desde módulos especializados débilmente acoplados hacia arquitecturas unificadas que permiten la emergencia sinérgica de simuladores internos del mundo. Para complementar este marco conceptual, presentamos CoW-Bench, un punto de referencia centrado en escenarios de razonamiento y generación multifotograma. CoW-Bench evalúa tanto modelos de generación de vídeo como UMMs bajo un protocolo de evaluación unificado. Nuestro trabajo establece una vía fundamentada hacia los modelos generales del mundo, aclarando tanto las limitaciones de los sistemas actuales como los requisitos arquitectónicos para el progreso futuro.
A medida que los Modelos Multimodales Grandes (LMMs) escalan y los métodos de aprendizaje por refuerzo (RL) maduran, los LMMs han logrado avances notables en razonamiento complejo y toma de decisiones. Sin embargo, el entrenamiento aún depende de datos estáticos y recetas fijas, lo que dificulta diagnosticar puntos ciegos de capacidad o proporcionar un refuerzo dinámico y específico. Motivados por los hallazgos de que la exposición a errores basada en pruebas y la corrección mediante retroalimentación superan a la práctica repetitiva, proponemos la Evolución Progresiva Guiada por Diagnóstico (DPE), un bucle en espiral donde el diagnóstico dirige la generación de datos y el refuerzo, y cada iteración rediagnostica el modelo actualizado para impulsar la siguiente ronda de mejora específica. DPE tiene dos componentes clave. Primero, múltiples agentes anotan y controlan la calidad de grandes volúmenes de datos multimodales no etiquetados, utilizando herramientas como búsqueda web y edición de imágenes para producir muestras diversas y realistas. Segundo, DPE atribuye los fallos a debilidades específicas, ajusta dinámicamente la mezcla de datos y guía a los agentes para generar datos centrados en las debilidades para un refuerzo dirigido. Los experimentos en Qwen3-VL-8B-Instruct y Qwen2.5-VL-7B-Instruct muestran ganancias estables y continuas en once benchmarks, lo que indica que DPE es un paradigma escalable para el entrenamiento continuo de LMMs bajo distribuciones de tareas abiertas. Nuestro código, modelos y datos están disponibles públicamente en https://github.com/hongruijia/DPE.
Los agentes de planificación de rutas impulsados por grandes modelos de lenguaje (LLM) han surgido como un paradigma prometedor para apoyar la movilidad humana cotidiana mediante la interacción en lenguaje natural y la toma de decisiones mediada por herramientas. Sin embargo, la evaluación sistemática en entornos de movilidad del mundo real se ve dificultada por la diversidad de demandas de enrutamiento, los servicios de mapas no deterministas y la reproducibilidad limitada. En este estudio, presentamos MobilityBench, un punto de referencia escalable para evaluar agentes de planificación de rutas basados en LLM en escenarios de movilidad del mundo real. MobilityBench se construye a partir de consultas anónimas de usuarios reales recopiladas a gran escala desde Amap y cubre un amplio espectro de intenciones de planificación de rutas en múltiples ciudades de todo el mundo. Para permitir una evaluación reproducible de extremo a extremo, diseñamos un entorno de pruebas de repetición de API determinista que elimina la variabilidad ambiental de los servicios en vivo. Además, proponemos un protocolo de evaluación multidimensional centrado en la validez del resultado, complementado con evaluaciones de comprensión de instrucciones, planificación, uso de herramientas y eficiencia. Utilizando MobilityBench, evaluamos múltiples agentes de planificación de rutas basados en LLM en diversos escenarios de movilidad del mundo real y proporcionamos un análisis en profundidad de sus comportamientos y rendimiento. Nuestros hallazgos revelan que los modelos actuales se desempeñan competentemente en tareas básicas de recuperación de información y planificación de rutas, pero tienen dificultades considerables con la Planificación de Rutas con Restricciones de Preferencia, lo que subraya un margen de mejora significativo en las aplicaciones de movilidad personalizada. Publicamos los datos de referencia, el kit de herramientas de evaluación y la documentación en https://github.com/AMAP-ML/MobilityBench.
La inteligencia humana integra naturalmente la percepción omnimodal —que abarca visión, audio y lenguaje— con el razonamiento complejo y el uso de herramientas para interactuar con el mundo. Sin embargo, los modelos de lenguaje multimodal actuales se limitan principalmente a interacciones bimodales (por ejemplo, visión-lenguaje), careciendo de las capacidades cognitivas unificadas necesarias para asistentes de IA generales. Para cerrar esta brecha, presentamos OmniGAIA, un benchmark integral diseñado para evaluar agentes omnimodales en tareas que requieren razonamiento profundo y ejecución multiturno de herramientas a través de modalidades de video, audio e imagen. Construido mediante un novedoso enfoque de grafos de eventos omnimodales, OmniGAIA sintetiza consultas complejas y de múltiples saltos derivadas de datos del mundo real que exigen razonamiento cross-modal e integración de herramientas externas. Además, proponemos OmniAtlas, un agente base nativo omnimodal bajo un paradigma de razonamiento con herramientas integradas y percepción omnimodal activa. Entrenado con trayectorias sintetizadas mediante una estrategia de exploración arbórea guiada por hindsight y OmniDPO para corrección granular de errores, OmniAtlas mejora efectivamente las capacidades de uso de herramientas de los modelos de código abierto existentes. Este trabajo representa un paso hacia la próxima generación de asistentes de IA nativamente omnimodales para escenarios del mundo real.
El razonamiento visual latente busca imitar el proceso de imaginación humana mediante la meditación a través de los estados ocultos de los Modelos de Lenguaje Grandes Multimodales. Aunque se reconoce como un paradigma prometedor para el razonamiento visual, los mecanismos subyacentes que impulsan su efectividad permanecen poco claros. Motivados por desmitificar la verdadera fuente de su eficacia, investigamos la validez del razonamiento latente utilizando Análisis de Mediación Causal. Modelamos el proceso como una cadena causal: la entrada como el tratamiento, los tokens latentes como el mediador y la respuesta final como el resultado. Nuestros hallazgos descubren dos desconexiones críticas: (a) Desconexión Entrada-Latente: perturbaciones drásticas en la entrada resultan en cambios insignificantes en los tokens latentes, lo que sugiere que los tokens latentes no atienden efectivamente a la secuencia de entrada. (b) Desconexión Latente-Respuesta: las perturbaciones en los tokens latentes tienen un impacto mínimo en la respuesta final, indicando el limitado efecto causal que los tokens latentes imponen sobre el resultado. Además, un extenso análisis de sondeo revela que los tokens latentes codifican información visual limitada y exhiben una alta similitud. En consecuencia, cuestionamos la necesidad del razonamiento latente y proponemos una alternativa sencilla llamada CapImagine, que enseña al modelo a imaginar explícitamente usando texto. Los experimentos en benchmarks centrados en la visión muestran que CapImagine supera significativamente a las complejas líneas base del espacio latente, resaltando el potencial superior del razonamiento visual a través de la imaginación explícita.
La exploración sigue siendo el principal cuello de botella para los agentes de modelos de lenguaje grande entrenados con aprendizaje por refuerzo. Si bien los métodos previos aprovechan el conocimiento preentrenado, fracasan en entornos que requieren el descubrimiento de estados novedosos. Proponemos Optimización Híbrida con Memoria Exploratoria On- y Off-Policy (EMPO^2), un marco de aprendizaje por refuerzo híbrido que aprovecha la memoria para la exploración y combina actualizaciones on- y off-policy para que los LLM funcionen bien con memoria, asegurando también robustez sin ella. En ScienceWorld y WebShop, EMPO^2 logra mejoras del 128,6% y 11,3% respectivamente sobre GRPO. Además, en pruebas fuera de distribución, EMPO^2 demuestra una adaptabilidad superior a nuevas tareas, requiriendo solo pocos intentos con memoria y ninguna actualización de parámetros. Estos resultados destacan a EMPO^2 como un marco prometedor para construir agentes basados en LLM más exploratorios y generalizables.
Si bien los Sistemas Multiagente (MAS) sobresalen en razonamiento complejo, sufren el impacto en cascada de la información errónea generada por los participantes individuales. Las soluciones actuales a menudo recurren a una ingeniería estructural rígida o a ajustes finos costosos, lo que limita su capacidad de despliegue y adaptabilidad. Proponemos AgentDropoutV2, un marco de trabajo de poda en tiempo de prueba de rectificar-o-rechazar, diseñado para optimizar dinámicamente el flujo de información de los MAS sin necesidad de reentrenamiento. Nuestro enfoque actúa como un cortafuegos activo, interceptando las salidas de los agentes y empleando un rectificador aumentado por recuperación para corregir errores iterativamente basándose en un conjunto de indicadores impulsado por fallos. Este mecanismo permite la identificación precisa de errores potenciales utilizando patrones de fallo destilados como conocimiento previo. Las salidas irreparables se podan posteriormente para prevenir la propagación de errores, mientras que una estrategia de contingencia preserva la integridad del sistema. Los resultados empíricos en extensos benchmarks matemáticos muestran que AgentDropoutV2 mejora significativamente el rendimiento de la tarea del MAS, logrando una ganancia promedio de precisión de 6.3 puntos porcentuales en benchmarks matemáticos. Además, el sistema exhibe una generalización y adaptabilidad robustas, modulando dinámicamente los esfuerzos de rectificación según la dificultad de la tarea mientras aprovecha indicadores conscientes del contexto para resolver un amplio espectro de patrones de error. Nuestro código y dataset están disponibles en https://github.com/TonySY2/AgentDropoutV2.
Presentamos MediX-R1, un marco de Aprendizaje por Refuerzo (RL) de respuesta abierta para modelos de lenguaje grandes multimodales (MLLM) médicos, que permite respuestas de forma libre con base clínica, más allá de los formatos de opción múltiple. MediX-R1 ajusta un modelo base de visión y lenguaje mediante RL Basado en Grupos y una recompensa compuesta diseñada para el razonamiento médico: una recompensa de precisión basada en un LLM que juzga la corrección semántica con una decisión estricta SÍ/NO, una recompensa semántica basada en *embeddings* médicos para capturar paráfrasis y variantes terminológicas, y recompensas ligeras de formato y modalidad que refuerzan el razonamiento interpretable y el reconocimiento de modalidades. Este diseño de múltiples señales proporciona una retroalimentación estable e informativa para salidas de respuesta abierta, donde las recompensas tradicionales verificables o solo de opción múltiple son insuficientes. Para medir el progreso, proponemos un marco de evaluación unificado para tareas solo de texto y de imagen+texto que utiliza un LLM como juez basado en referencias, en lugar de métricas frágiles de superposición de cadenas, capturando la corrección semántica, el razonamiento y la alineación contextual. A pesar de utilizar solo 51K ejemplos de instrucciones simuladas, MediX-R1 logra excelentes resultados en puntos de referencia estándar de LLM médicos (solo texto) y VLM (imagen + texto), superando a sólidos modelos de código abierto y mostrando mejoras particularmente grandes en tareas clínicas de respuesta abierta. Nuestros resultados demuestran que el RL de respuesta abierta con señales de recompensa integrales y evaluación basada en LLM es un camino práctico hacia un razonamiento médico confiable en modelos multimodales. Nuestros modelos entrenados, conjuntos de datos curados y código fuente están disponibles en https://medix.cvmbzuai.com.
Los agentes de investigación profunda recientes mejoran principalmente el rendimiento mediante la escalación de la profundidad de razonamiento, pero esto conlleva altos costos de inferencia y latencia en escenarios intensivos en búsqueda. Además, la generalización entre entornos de investigación heterogéneos sigue siendo un desafío. En este trabajo, proponemos Buscar Más, Pensar Menos (SMTL), un marco para búsqueda agentiva de largo horizonte que aborda tanto la eficiencia como la generalización. SMTL reemplaza el razonamiento secuencial con la adquisición paralela de evidencias, permitiendo una gestión eficiente del contexto bajo presupuestos restringidos. Para apoyar la generalización entre tipos de tareas, introducimos además una canalización unificada de síntesis de datos que construye tareas de búsqueda abarcando tanto escenarios de respuesta a preguntas deterministas como de investigación abierta, con métricas de evaluación apropiadas para cada tarea. Entrenamos un agente de extremo a extremo usando ajuste fino supervisado y aprendizaje por refuerzo, logrando un rendimiento sólido y frecuentemente de vanguardia en benchmarks que incluyen BrowseComp (48.6%), GAIA (75.7%), Xbench (82.0%) y DeepResearch Bench (45.9%). En comparación con Mirothinker-v1.0, SMTL con un máximo de 100 pasos de interacción reduce el número promedio de pasos de razonamiento en BrowseComp en un 70.7%, mientras mejora la precisión.
Presentamos un modelo de reconstrucción 3D escalable que aborda una limitación crítica de los métodos *feed-forward* fuera de línea: sus requisitos computacionales y de memoria crecen cuadráticamente con respecto al número de imágenes de entrada. Nuestro enfoque se basa en la idea clave de que este cuello de botella surge de la representación de la geometría de la escena en un espacio Clave-Valor (KV) de longitud variable, el cual destilamos en un Perceptrón Multicapa (MLP) de tamaño fijo mediante entrenamiento en el momento de la prueba. VGG-T³ (*Visual Geometry Grounded Test Time Training*) escala linealmente con respecto al número de vistas de entrada, de manera similar a los modelos en línea, y reconstruye una colección de 1k imágenes en solo 54 segundos, logrando una aceleración de 11.6 veces sobre los métodos base que dependen de la atención *softmax*. Dado que nuestro método conserva la capacidad de agregación global de la escena, nuestro error de reconstrucción del mapa de puntos supera por un amplio margen a otros métodos de tiempo lineal. Finalmente, demostramos las capacidades de localización visual de nuestro modelo consultando la representación de la escena con imágenes no vistas.
Los modelos de difusión han logrado avances notables en la generación de imágenes, vídeo y audio de alta fidelidad, aunque la inferencia sigue siendo computacionalmente costosa. Sin embargo, los métodos actuales de aceleración de difusión basados en paralelismo distribuido adolecen de artefactos de generación perceptibles y no consiguen una aceleración sustancial proporcional al número de GPUs. Por ello, proponemos un marco de paralelismo híbrido que combina una novedosa estrategia de paralelismo de datos, la partición basada en condiciones, con un método óptimo de planificación de pipeline, el cambio adaptativo de paralelismo, para reducir la latencia de generación y lograr alta calidad en modelos de difusión condicionales. Las ideas clave son (i) aprovechar las trayectorias de eliminación de ruido condicional e incondicional como una nueva perspectiva de partición de datos y (ii) habilitar de forma adaptativa el paralelismo de pipeline óptimo según la discrepancia en la eliminación de ruido entre ambas trayectorias. Nuestro marco logra reducciones de latencia de 2.31x y 2.07x en SDXL y SD3, respectivamente, utilizando dos GPUs NVIDIA RTX~3090, preservando la calidad de imagen. Este resultado confirma la generalidad de nuestro enfoque en modelos de difusión basados en U-Net y arquitecturas de emparejamiento de flujo basadas en DiT. Nuestro método también supera a los existentes en aceleración bajo configuraciones de síntesis de alta resolución. El código está disponible en https://github.com/kaist-dmlab/Hybridiff.
La promesa de agentes de propósito general - sistemas que realizan tareas en entornos no familiares sin ingeniería específica de dominio - permanece en gran medida sin materializarse. Los agentes existentes son predominantemente especializados, y aunque implementaciones emergentes como OpenAI SDK Agent y Claude Code sugieren capacidades más amplias, no se ha realizado ninguna evaluación sistemática de su rendimiento general. Los benchmarks de agentes actuales asumen integración específica de dominio, codificando información de tareas de maneras que impiden una evaluación justa de agentes generales. Este artículo enmarca la evaluación de agentes generales como un objetivo de investigación de primer nivel. Proponemos principios conceptuales para dicha evaluación, un Protocolo Unificado que permite la integración agente-benchmark, y Exgentic, un marco práctico para la evaluación de agentes generales. Evaluamos cinco implementaciones destacadas de agentes en seis entornos como el primer Ranking Abierto de Agentes Generales. Nuestros experimentos muestran que los agentes generales se adaptan a diversos entornos, logrando un rendimiento comparable al de agentes específicos de dominio sin ninguna adaptación específica del entorno. Publicamos nuestro protocolo de evaluación, marco metodológico y ranking para establecer una base para la investigación sistemática sobre agentes de propósito general.
Las conductas humanas en el mundo real codifican naturalmente información contextual rica y de largo plazo que puede aprovecharse para entrenar agentes corporeizados en percepción, comprensión y acción. Sin embargo, los sistemas de captura existentes suelen depender de costosas configuraciones de estudio y dispositivos portátiles, lo que limita la recolección a gran escala de datos de movimiento humano condicionados por la escena en entornos naturales. Para abordar este problema, proponemos EmbodMocap, un sistema portátil y asequible de captura de datos que utiliza dos iPhones en movimiento. Nuestra idea clave es calibrar conjuntamente secuencias duales RGB-D para reconstruir tanto a los humanos como a las escenas dentro de un marco de coordenadas mundial métrico unificado. El método propuesto permite una captura a escala métrica y consistente con la escena en entornos cotidianos, sin necesidad de cámaras estáticas o marcadores, integrando perfectamente el movimiento humano y la geometría de la escena. En comparación con la verdad de terreno de captura óptica, demostramos que la configuración de doble vista exhibe una capacidad notable para mitigar la ambigüedad de profundidad, logrando una alineación y un rendimiento de reconstrucción superiores a los modelos de un solo iPhone o monoculares. Basándonos en los datos recopilados, potenciamos tres tareas de IA corporeizada: la reconstrucción monocular humano-escena, donde ajustamos modelos de retroalimentación que producen humanos y escenas alineados en el espacio mundial y a escala métrica; la animación de personajes basada en física, donde demostramos que nuestros datos pueden usarse para escalar habilidades de interacción humano-objeto y el seguimiento de movimiento consciente de la escena; y el control de movimiento de robots, donde entrenamos un robot humanoide mediante aprendizaje por refuerzo de simulación a realidad para replicar movimientos humanos representados en videos. Los resultados experimentales validan la efectividad de nuestro sistema y sus contribuciones al avance de la investigación en IA corporeizada.
Evaluar rigurosamente la inteligencia artificial frente al amplio espectro de la inteligencia general humana se ha vuelto cada vez más importante y desafiante en esta era de rápido avance tecnológico. Los puntos de referencia convencionales de IA suelen evaluar únicamente capacidades específicas en un rango limitado de la actividad humana. La mayoría también son estáticos, saturándose rápidamente a medida que los desarrolladores optimizan explícita o implícitamente para ellos. Proponemos que una forma más prometedora de evaluar la inteligencia general similar a la humana en los sistemas de IA es a través de una forma particularmente sólida de juego general: estudiar cómo y qué tan bien juegan y aprenden a jugar todos los juegos humanos concebibles, en comparación con jugadores humanos con el mismo nivel de experiencia, tiempo u otros recursos. Definimos un "juego humano" como un juego diseñado por humanos para humanos, y argumentamos a favor de la idoneidad evaluativa de este espacio de todos los juegos que las personas pueden imaginar y disfrutar: el "Multiverso de los Juegos Humanos". Dando un primer paso hacia esta visión, presentamos el AI GameStore, una plataforma escalable y de código abierto que utiliza modelos de lenguaje grandes (LLM) con humanos en el ciclo para sintetizar nuevos juegos humanos representativos, mediante la obtención y adaptación automática de variantes estandarizadas y contenerizadas de entornos de juego a partir de plataformas populares de juegos digitales humanos. Como prueba de concepto, generamos 100 de estos juegos basados en las listas principales de Apple App Store y Steam, y evaluamos siete modelos vision-lenguaje (VLM) de vanguardia en episodios cortos de juego. Los mejores modelos lograron menos del 10% del puntaje promedio humano en la mayoría de los juegos, y especialmente lucharon con juegos que desafían el aprendizaje de modelos del mundo, la memoria y la planificación. Concluimos con un conjunto de próximos pasos para desarrollar el AI GameStore como una forma práctica de medir e impulsar el progreso hacia una inteligencia general similar a la humana en las máquinas.
Los modelos predictivos del mundo basados en energía ofrecen un enfoque potente para la planificación visual multi-paso al razonar sobre paisajes de energía latentes en lugar de generar píxeles. Sin embargo, los enfoques existentes enfrentan dos desafíos principales: (i) sus representaciones latentes generalmente se aprenden en espacio euclidiano, descuidando la estructura geométrica y jerárquica subyacente entre estados, y (ii) luchan con la predicción de horizonte largo, lo que conduce a una rápida degradación en las simulaciones extendidas. Para abordar estos desafíos, presentamos GeoWorld, un modelo del mundo geométrico que preserva la estructura geométrica y las relaciones jerárquicas mediante un JEPA Hiperbólico, que mapea representaciones latentes del espacio euclidiano a variedades hiperbólicas. Además, introducimos el Aprendizaje por Refuerzo Geométrico para la optimización basada en energía, permitiendo una planificación multi-paso estable en el espacio latente hiperbólico. Experimentos exhaustivos en CrossTask y COIN demuestran una mejora de aproximadamente 3% en SR para planificación de 3 pasos y 2% en SR para planificación de 4 pasos en comparación con el estado del arte V-JEPA 2. Sitio web del proyecto: https://steve-zeyu-zhang.github.io/GeoWorld.
Los recientes avances en modelos de difusión de movimiento han mejorado sustancialmente el realismo de la síntesis de movimiento humano. Sin embargo, los enfoques existentes se basan en modelos de difusión de secuencia completa con generación bidireccional, lo que limita la causalidad temporal y la aplicabilidad en tiempo real, o en modelos autorregresivos que sufren de inestabilidad y errores acumulativos. En este trabajo, presentamos los Modelos de Difusión de Movimiento Causal (CMDM), un marco unificado para la generación autorregresiva de movimiento basado en un transformador de difusión causal que opera en un espacio latente semánticamente alineado. CMDM se construye sobre un VAE Causal Alineado con Lenguaje y Movimiento (MAC-VAE), que codifica secuencias de movimiento en representaciones latentes temporalmente causales. Sobre esta representación latente, se entrena un transformador de difusión autorregresivo utilizando forzado de difusión causal para realizar una eliminación de ruido ordenada temporalmente a través de los fotogramas de movimiento. Para lograr una inferencia rápida, introducimos un programa de muestreo por fotogramas con incertidumbre causal, donde cada fotograma subsiguiente se predice a partir de fotogramas anteriores parcialmente desruidos. El marco resultante admite la generación de movimiento a partir de texto de alta calidad, la síntesis en flujo continuo y la generación de movimiento a largo plazo a velocidades interactivas. Los experimentos en HumanML3D y SnapMoGen demuestran que CMDM supera a los modelos de difusión y autorregresivos existentes tanto en fidelidad semántica como en suavidad temporal, mientras reduce sustancialmente la latencia de inferencia.
El Paralelismo de Datos Totalmente Fragmentado (FSDP), también conocido como ZeRO, es ampliamente utilizado para entrenar modelos a gran escala, destacándose por su flexibilidad y mínima intrusión en el código del modelo. Sin embargo, los sistemas FSDP actuales presentan dificultades con métodos de entrenamiento conscientes de la estructura (por ejemplo, entrenamiento cuantizado por bloques) y con optimizadores no elementales (como Shampoo y Muon) utilizados en modelos de vanguardia (por ejemplo, Gemini, Kimi K2). Los formatos de fragmentación fijos, ya sea por elemento o por fila, de FSDP entran en conflicto con los cálculos de estructura en bloques. Además, las implementaciones actuales adolecen de eficiencia en comunicaciones y memoria, lo que limita la escalabilidad a decenas de miles de GPUs. Presentamos veScale-FSDP, un sistema FSDP rediseñado que combina un formato de fragmentación flexible, RaggedShard, con un algoritmo de planificación consciente de la estructura para ofrecer tanto flexibilidad como rendimiento a escala. veScale-FSDP admite de forma nativa la colocación eficiente de datos requerida por FSDP, potenciando la cuantización por bloques y los optimizadores no elementales. Como resultado, veScale-FSDP logra un rendimiento entre un 5% y un 66% superior y un uso de memoria entre un 16% y un 30% menor que los sistemas FSDP existentes, mientras escala eficientemente a decenas de miles de GPUs.
La segmentación de vocabulario abierto (OVS) extiende las capacidades de reconocimiento zero-shot de los modelos de visión y lenguaje (VLM) a la predicción a nivel de píxel, permitiendo la segmentación de categorías arbitrarias especificadas mediante indicaciones de texto. A pesar de los avances recientes, la OVS se queda por detrás de los enfoques totalmente supervisados debido a dos desafíos: la supervisión a nivel de imagen, de carácter general, utilizada para entrenar los VLM y la ambigüedad semántica del lenguaje natural. Abordamos estas limitaciones introduciendo un entorno de *few-shot* que aumenta las indicaciones textuales con un conjunto de soporte de imágenes anotadas a nivel de píxel. Basándonos en esto, proponemos un adaptador en tiempo de prueba aumentado por recuperación que aprende un clasificador ligero, por imagen, fusionando características de soporte textuales y visuales. A diferencia de métodos anteriores que dependen de una fusión tardía y manual, nuestro enfoque realiza una fusión aprendida y por consulta, logrando una sinergia más fuerte entre modalidades. El método admite conjuntos de soporte en continua expansión y se aplica a tareas de grano fino, como la segmentación personalizada. Los experimentos muestran que reducimos significativamente la brecha entre la segmentación zero-shot y la supervisada, al tiempo que preservamos la capacidad de vocabulario abierto.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) se ha consolidado como el paradigma principal para mejorar el razonamiento en los Modelos de Lenguaje Grande (LLM). Sin embargo, los algoritmos estándar de RLVR adolecen de una patología bien documentada: si bien mejoran la precisión Pass@1 mediante un muestreo más agudo, simultáneamente reducen el límite de razonamiento del modelo y disminuyen la diversidad de las generaciones. Identificamos una causa raíz que los métodos existentes pasan por alto: la penalización uniforme de los errores. Los enfoques actuales —ya sean métodos de filtrado de datos que seleccionan prompts por dificultad, o esquemas de normalización de ventajas— tratan todos los rollouts incorrectos dentro de un grupo de manera idéntica. Demostramos que esta uniformidad permite que los errores de sobreconfianza (trayectorias de razonamiento incorrectas que el proceso de RL ha reforzado espuriamente) persistan y monopolicen la masa de probabilidad, suprimiendo finalmente las trayectorias exploratorias válidas. Para abordar este problema, proponemos la Penalización Asimétrica de Errores Conscientes de la Confianza (ACE). ACE introduce una métrica de desplazamiento de confianza por rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), para modular dinámicamente las ventajas negativas. Teóricamente, demostramos que el gradiente de ACE puede descomponerse en el gradiente de un regularizador selectivo restringido a errores de sobreconfianza, más un residual bien caracterizado que modera parcialmente la fuerza del regularizador. Realizamos extensos experimentos de fine-tuning en Qwen2.5-Math-7B, Qwen3-8B-Base y Llama-3.1-8B-Instruct utilizando el conjunto de datos DAPO-Math-17K y los métodos GRPO y DAPO dentro del marco VERL. Evaluado en MATH-500 y AIME 2025, ACE se combina perfectamente con métodos existentes y mejora consistentemente todo el espectro Pass@k en las tres familias de modelos y benchmarks.
Las alucinaciones de los Modelos de Lenguaje Grande (LLM) suelen tratarse como defectos del modelo o de su estrategia de decodificación. Basándonos en la lingüística clásica, sostenemos que la forma de una consulta también puede moldear la respuesta de un oyente (y del modelo). Operacionalizamos esta idea construyendo un vector de características de consulta de 22 dimensiones que abarca la complejidad de la cláusula, la rareza léxica, y el anclaje de la anáfora, la negación, la capacidad de respuesta y la intención, todos factores conocidos por afectar la comprensión humana. Utilizando 369,837 consultas del mundo real, nos preguntamos: ¿Existen ciertos tipos de consultas que hagan más probable la alucinación? Un análisis a gran escala revela un "panorama de riesgo" consistente: ciertas características, como el anidamiento profundo de cláusulas y la subespecificación, se alinean con una mayor propensión a la alucinación. Por el contrario, un anclaje claro de la intención y la capacidad de respuesta se alinean con tasas de alucinación más bajas. Otras, incluida la especificidad del dominio, muestran efectos mixtos, dependientes del conjunto de datos y del modelo. Por lo tanto, estos hallazgos establecen una representación empíricamente observable de las características de la consulta que se correlaciona con el riesgo de alucinación, allanando el camino para la reescritura guiada de consultas y futuros estudios de intervención.
Presentamos DLT-Corpus, la colección de textos específicos de dominio más grande hasta la fecha para la investigación de Tecnologías de Registro Distribuido (DLT): 2.980 millones de tokens procedentes de 22,12 millones de documentos que abarcan literatura científica (37.440 publicaciones), patentes de la Oficina de Patentes y Marcas de EE. UU. (USPTO) (49.023 registros) y redes sociales (22 millones de publicaciones). Los recursos existentes de Procesamiento del Lenguaje Natural (PLN) para DLT se centran principalmente en la predicción de precios de criptomonedas y los contratos inteligentes, dejando el lenguaje específico del dominio poco explorado a pesar de la capitalización de mercado de ~3 billones de dólares del sector y su rápida evolución tecnológica. Demostramos la utilidad de DLT-Corpus analizando los patrones de emergencia tecnológica y las correlaciones entre mercado e innovación. Los hallazgos revelan que las tecnologías se originan en la literatura científica antes de llegar a las patentes y las redes sociales, siguiendo los patrones tradicionales de transferencia tecnológica. Mientras que el sentimiento en redes sociales se mantiene abrumadoramente alcista incluso durante los "criptoinviernos", la actividad científica y de patentes crece independientemente de las fluctuaciones del mercado, siguiendo la expansión general del mercado en un círculo virtuoso donde la investigación precede y permite el crecimiento económico que financia una mayor innovación. Ponemos a disposición del público el DLT-Corpus completo; LedgerBERT, un modelo adaptado al dominio que logra una mejora del 23% sobre BERT-base en una tarea de Reconocimiento de Entidades Nombradas (NER) específica para DLT; y todas las herramientas y código asociados.
Las capacidades de razonamiento avanzado en los Modelos de Lenguaje a Gran Escala (LLM) han dado lugar a un aumento en las alucinaciones; sin embargo, la mayoría de los trabajos de mitigación se centran en modelos de código abierto para la detección y edición de parámetros a posteriori. La escasez de estudios centrados en las alucinaciones en modelos de código cerrado es especialmente preocupante, ya que constituyen la gran mayoría de los modelos en despliegues institucionales. Presentamos QueryBandits, un marco de bandidos contextuales independiente del modelo que aprende de forma adaptativa en línea para seleccionar la estrategia óptima de reformulación de consultas mediante el aprovechamiento de una función de recompensa calibrada y validada empíricamente. En 16 escenarios de preguntas y respuestas, nuestro mejor QueryBandit (Muestreo de Thompson) logra una tasa de aciertos del 87.5% sobre una línea base Sin Reformulación y supera a las políticas estáticas de cero disparos (por ejemplo, Parafrasear o Expandir) en un 42.6% y 60.3%, respectivamente. Además, todos los bandidos contextuales superan a los bandidos básicos en todos los conjuntos de datos, con una mayor varianza de características coincidiendo con una mayor varianza en la selección de brazos. Esto corrobora nuestro hallazgo de que no existe una única política de reformulación óptima para todas las consultas. También descubrimos que ciertas políticas estáticas incurren en un mayor arrepentimiento acumulativo que Sin Reformulación, lo que indica que una política de reformulación de consultas inflexible puede empeorar las alucinaciones. Por lo tanto, aprender una política en línea sobre características semánticas con QueryBandits puede modificar el comportamiento del modelo únicamente mediante mecanismos de pasada hacia adelante, permitiendo su uso con modelos de código cerrado y evitando la necesidad de reentrenamiento o adaptación basada en gradientes.
Con los avances en el aprendizaje por imitación (IL) y los conjuntos de datos de conducción a gran escala, la conducción autónoma de extremo a extremo (E2E-AD) ha logrado un gran progreso recientemente. Actualmente, los métodos basados en IL se han convertido en un paradigma principal: los modelos se basan en comportamientos de conducción estándar proporcionados por expertos y aprenden a minimizar la discrepancia entre sus acciones y las acciones del experto. Sin embargo, este objetivo de "solo conducir como el experto" sufre de una generalización limitada: al encontrarse con escenarios raros o no vistos de cola larga fuera de la distribución de las demostraciones expertas, los modelos tienden a producir decisiones inseguras ante la falta de experiencia previa. Esto plantea una pregunta fundamental: ¿Puede un sistema E2E-AD tomar decisiones confiables sin ninguna supervisión de acciones expertas? Motivados por esto, proponemos un marco unificado denominado Control Predictivo de Modelo del Mundo Consciente del Riesgo (RaWMPC) para abordar este dilema de generalización mediante control robusto, sin depender de demostraciones expertas. En la práctica, RaWMPC aprovecha un modelo del mundo para predecir las consecuencias de múltiples acciones candidato y selecciona acciones de bajo riesgo mediante una evaluación explícita del riesgo. Para dotar al modelo del mundo de la capacidad de predecir los resultados de comportamientos de conducción riesgosos, diseñamos una estrategia de interacción consciente del riesgo que expone sistemáticamente al modelo del mundo a comportamientos peligrosos, haciendo que los resultados catastróficos sean predecibles y, por lo tanto, evitables. Además, para generar acciones candidato de bajo riesgo durante la prueba, introducimos un método de destilación por autoevaluación para destilar las capacidades de evitación de riesgos del modelo del mundo bien entrenado en una red generativa de propuesta de acciones, sin ninguna demostración experta. Experimentos exhaustivos muestran que RaWMPC supera a los métodos de vanguardia tanto en escenarios dentro de la distribución como fuera de la distribución, al tiempo que proporciona una interpretabilidad de decisiones superior.
La segmentación de imágenes médicas sigue siendo un desafío debido a las anotaciones limitadas para el entrenamiento, las características anatómicas ambiguas y los cambios de dominio. Si bien los modelos de visión y lenguaje como CLIP ofrecen representaciones cross-modales sólidas, su potencial para la segmentación densa de imágenes médicas guiada por texto sigue sin explorarse adecuadamente. Presentamos MedCLIPSeg, un marco novedoso que adapta CLIP para una segmentación de imágenes médica robusta, eficiente en datos y consciente de la incertidumbre. Nuestro enfoque aprovecha los embeddings CLIP a nivel de parche mediante atención cross-modal probabilística, permitiendo una interacción bidireccional entre tokens de imagen y texto y un modelado explícito de la incertidumbre predictiva. Junto con una pérdida contrastiva suave a nivel de parche que fomenta un aprendizaje semántico más matizado mediante diversos prompts textuales, MedCLIPSeg mejora efectivamente la eficiencia de datos y la generalización de dominio. Experimentos exhaustivos en 16 conjuntos de datos que abarcan cinco modalidades de imagen y seis órganos demuestran que MedCLIPSeg supera a métodos anteriores en precisión, eficiencia y robustez, mientras proporciona mapas de incertidumbre interpretables que resaltan la confiabilidad local de los resultados de segmentación. Este trabajo demuestra el potencial del modelado probabilístico de visión y lenguaje para la segmentación de imágenes médicas impulsada por texto.
La generación de gestos conversacionales realistas es esencial para lograr interacciones naturales y socialmente atractivas con humanos digitales. Sin embargo, los métodos existentes suelen mapear un único flujo de audio al movimiento de un solo interlocutor, sin considerar el contexto social ni modelar la dinámica mutua entre dos personas que mantienen una conversación. Presentamos DyaDiT, un transformador de difusión multimodal que genera movimiento humano contextualmente apropiado a partir de señales de audio diádicas. Entrenado en el Conjunto de Datos de Interacción Fluida, DyaDiT toma audio diádico con tokens de contexto social opcionales para producir movimientos contextualmente apropiados. Fusiona información de ambos interlocutores para capturar la dinámica de interacción, utiliza un diccionario de movimientos para codificar *priors* de movimiento y puede utilizar opcionalmente los gestos del compañero de conversación para producir movimientos más reactivos. Evaluamos DyaDiT en métricas estándar de generación de movimiento y realizamos estudios de usuario cuantitativos, demostrando que no solo supera a los métodos existentes en métricas objetivas, sino que también es fuertemente preferido por los usuarios, lo que destaca su solidez y generación de movimientos socialmente favorables. El código y los modelos se publicarán tras la aceptación.
La escalabilidad de la alineación multimodal entre video y audio es un desafío, particularmente debido a la limitación de datos y al desajuste entre las descripciones textuales y la información de video a nivel de fotograma. En este trabajo, abordamos el desafío de escalabilidad en la generación multimodal a audio, examinando si los modelos entrenados con instancias cortas pueden generalizar a instancias más largas durante las pruebas. Para abordar este desafío, presentamos redes jerárquicas multimodales, denominadas MMHNet, una extensión mejorada de los modelos estado del arte de video a audio. Nuestro enfoque integra un método jerárquico y Mamba no causal para apoyar la generación de audio de larga duración. Nuestro método propuesto mejora significativamente la generación de audio largo hasta más de 5 minutos. También demostramos que es posible entrenar con videos cortos y probar con videos largos en las tareas de generación de video a audio sin necesidad de entrenar con duraciones más largas. Mostramos en nuestros experimentos que nuestro método propuesto puede lograr resultados notables en benchmarks de audio a partir de videos largos, superando a trabajos anteriores en tareas de video a audio. Además, demostramos la capacidad de nuestro modelo para generar más de 5 minutos, mientras que los métodos anteriores de video a audio no logran generar audio con duraciones largas.
La decodificación neuronal eficiente en datos es un desafío central para las interfaces cerebro-computadora del habla. Presentamos la primera demostración de aprendizaje por transferencia y decodificación cruzada de tareas para modelos de habla basados en MEG que abarcan percepción y producción. Preentrenamos un modelo basado en Conformer con 50 horas de datos de escucha de un único sujeto y ajustamos con solo 5 minutos por sujeto en 18 participantes. El aprendizaje por transferencia produce mejoras consistentes, con ganancias de precisión intratarea del 1-4% y ganancias cruzadas mayores de hasta el 5-6%. No solo el preentrenamiento mejora el rendimiento dentro de cada tarea, sino que también permite una decodificación cruzada confiable entre percepción y producción. Críticamente, los modelos entrenados en producción del habla decodifican la escucha pasiva por encima del nivel de azar, confirmando que las representaciones aprendidas reflejan procesos neurales compartidos en lugar de actividad motora específica de la tarea.
El aprendizaje continuo es un requisito fundamental para los modelos de lenguaje desplegados, sin embargo, las metodologías estándar de entrenamiento y ajuste fino siguen siendo frágiles ante datos no estacionarios. Las actualizaciones en línea suelen inducir olvido catastrófico, mientras que los métodos que mejoran la estabilidad frecuentemente incrementan la latencia, la huella de memoria o el cómputo denso de formas que no escalan adecuadamente a contextos largos. Presentamos TRC² (Columnas Corticales Enrutadas Talamicamente), una arquitectura base de solo decodificación que aborda el aprendizaje continuo a nivel arquitectónico. TRC² combina un enrutamiento talámico disperso sobre columnas corticales con mecanismos de modulación, predicción, memoria y retroalimentación, junto con una vía correctiva rápida que permite una adaptación veloz sin desestabilizar los parámetros más lentos. El bloque resultante es disperso y paralelizable por fragmentos, permitiendo un entrenamiento e inferencia eficientes mientras preserva ablaciones limpias de cada subsistema. Instanciamos una pila reproducible de entrenamiento y evaluación, así como un marco de aprendizaje continuo que mide el olvido indirecto bajo cambios de dominio en flujo continuo. En diversos puntos de referencia de modelado del lenguaje y aprendizaje continuo, TRC² mejora el balance estabilidad-plasticidad con un cómputo comparable, permitiendo una rápida adaptación en flujo mientras se preserva el comportamiento previamente adquirido.