Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes científicos poseen un juicio y una visión de futuro sólidos, estrechamente vinculados a lo que denominamos gusto científico. En este contexto, utilizamos el término para referirnos a la capacidad de evaluar y proponer ideas de investigación con alto impacto potencial. Sin embargo, la mayoría de las investigaciones relacionadas se centran en mejorar la capacidad ejecutiva de un científico de IA, mientras que la mejora del gusto científico de una IA sigue siendo un área poco explorada. En este trabajo, proponemos el Aprendizaje por Refuerzo a partir de Retroalimentación Comunitaria (RLCF), un paradigma de entrenamiento que utiliza señales comunitarias a gran escala como supervisión, y formulamos el aprendizaje del gusto científico como un problema de modelado y alineación de preferencias. Para el modelado de preferencias, entrenamos a Scientific Judge con 700.000 pares de artículos de alta y baja citación, emparejados por campo y tiempo, para evaluar ideas. Para la alineación de preferencias, utilizando Scientific Judge como modelo de recompensa, entrenamos a un modelo de políticas, Scientific Thinker, para proponer ideas de investigación con alto impacto potencial. Los experimentos muestran que Scientific Judge supera a los LLMs más avanzados (por ejemplo, GPT-5.2, Gemini 3 Pro) y se generaliza a pruebas de años futuros, campos no vistos y preferencias de revisión por pares. Además, Scientific Thinker propone ideas de investigación con un impacto potencial mayor que los métodos de referencia. Nuestros hallazgos demuestran que la IA puede aprender gusto científico, marcando un paso clave hacia el logro de científicos de IA de nivel humano.
Presentamos HSImul3R, un marco unificado para la reconstrucción 3D lista para simulación de interacciones persona-escena (HSI) a partir de capturas casuales, incluyendo imágenes de vistas escasas y vídeos monoculares. Los métodos existentes adolecen de una brecha percepción-simulación: las reconstrucciones visualmente plausibles a menudo violan restricciones físicas, lo que conduce a inestabilidad en los motores de física y al fracaso en aplicaciones de IA encarnada. Para salvar esta brecha, introducimos una canalización de optimización bidimensional basada en la física que trata al simulador físico como un supervisor activo para refinar conjuntamente la dinámica humana y la geometría de la escena. En la dirección directa, empleamos el Aprendizaje por Refuerzo Dirigido a la Escena para optimizar el movimiento humano bajo una doble supervisión de fidelidad de movimiento y estabilidad de contacto. En la dirección inversa, proponemos la Optimización de Recompensa por Simulación Directa, que aprovecha la retroalimentación de la simulación sobre la estabilidad gravitatoria y el éxito de la interacción para refinar la geometría de la escena. Además, presentamos HSIBench, un nuevo benchmark con diversos objetos y escenarios de interacción. Experimentos exhaustivos demuestran que HSImul3R produce las primeras reconstrucciones HSI estables y listas para simulación, y puede desplegarse directamente en robots humanoides del mundo real.
Las capacidades de búsqueda profunda se han convertido en una competencia indispensable para los agentes de modelos de lenguaje grandes (LLM) de vanguardia, aunque el desarrollo de agentes de búsqueda de alto rendimiento sigue dominado por los gigantes industriales debido a la falta de datos de entrenamiento transparentes y de alta calidad. Esta persistente escasez de datos ha obstaculizado fundamentalmente el progreso de la comunidad investigadora en general para desarrollar e innovar en este dominio. Para cerrar esta brecha, presentamos OpenSeeker, el primer agente de búsqueda completamente de código abierto (es decir, modelo y datos) que alcanza un rendimiento de nivel de vanguardia mediante dos innovaciones técnicas centrales: (1) Síntesis escalable de preguntas y respuestas (QA) controlable y basada en hechos, que reverse-engineers el grafo web mediante expansión topológica y ofuscación de entidades para generar tareas complejas de razonamiento multi-salto con cobertura y complejidad controlables. (2) Síntesis de trayectoria limpiada de ruido, que emplea un mecanismo de resumen retrospectivo para limpiar la trayectoria, promoviendo así que los LLMs maestros generen acciones de alta calidad. Los resultados experimentales demuestran que OpenSeeker, entrenado (en una única ejecución de entrenamiento) con solo 11.7k muestras sintetizadas, alcanza un rendimiento state-of-the-art en múltiples benchmarks, incluyendo BrowseComp, BrowseComp-ZH, xbench-DeepSearch y WideSearch. Notablemente, entrenado con un simple Fine-Tuning Supervisado (SFT), OpenSeeker supera significativamente al segundo mejor agente completamente de código abierto, DeepDive (por ejemplo, 29.5% frente a 15.3% en BrowseComp), e incluso supera a competidores industriales como Tongyi DeepResearch (entrenado mediante pre-entrenamiento continuo extensivo, SFT y RL) en BrowseComp-ZH (48.4% frente a 46.7%). Liberamos completamente como código abierto el conjunto de datos de entrenamiento completo y los pesos del modelo para democratizar la investigación de agentes de búsqueda de vanguardia y fomentar un ecosistema más transparente y colaborativo.
Los grandes modelos de lenguaje están evolucionando de proveedores pasivos de información a agentes activos destinados a flujos de trabajo complejos. Sin embargo, su despliegue como trabajadores de IA confiables en el ámbito empresarial se ve obstaculizado por puntos de referencia que no logran captar las complejidades de los entornos profesionales, específicamente, la necesidad de una planificación a largo plazo en medio de cambios de estado persistentes y protocolos de acceso estrictos. En este trabajo, presentamos EnterpriseOps-Gym, un punto de referencia diseñado para evaluar la planificación agentiva en entornos empresariales realistas. Específicamente, EnterpriseOps-Gym presenta un entorno de pruebas containerizado con 164 tablas de base de datos y 512 herramientas funcionales para simular la fricción de búsqueda del mundo real. Dentro de este entorno, los agentes son evaluados en 1,150 tareas curadas por expertos en ocho verticales críticas para la misión (incluyendo Servicio al Cliente, Recursos Humanos y TI). Nuestra evaluación de 14 modelos de vanguardia revela limitaciones críticas en los modelos más avanzados: el mejor modelo, Claude Opus 4.5, alcanza solo un 37.4% de éxito. Un análisis más profundo muestra que proporcionar planes humanos oráculo mejora el rendimiento entre 14 y 35 puntos porcentuales, identificando el razonamiento estratégico como el principal cuello de botella. Adicionalmente, los agentes fallan frecuentemente en rechazar tareas no factibles (el mejor modelo alcanza un 53.9%), lo que conduce a efectos secundarios no deseados y potencialmente dañinos. Nuestros hallazgos subrayan que los agentes actuales aún no están listos para un despliegue autónomo en la empresa. En un sentido más amplio, EnterpriseOps-Gym proporciona un banco de pruebas concreto para avanzar en la solidez de la planificación agentiva en los flujos de trabajo profesionales.
¿Y si un modelo de simulación mundial pudiera representar no un entorno imaginado, sino una ciudad que existe realmente? Los modelos generativos mundiales previos sintetizan entornos visualmente plausibles pero artificiales al imaginar todo el contenido. Presentamos Seoul World Model (SWM), un modelo mundial a escala de ciudad basado en la ciudad real de Seúl. SWM ancla la generación autoregresiva de video mediante un condicionamiento aumentado por recuperación de imágenes cercanas de vista de calle. Sin embargo, este diseño introduce varios desafíos, como la desalineación temporal entre las referencias recuperadas y la escena objetivo dinámica, la diversidad limitada de trayectorias y la escasez de datos provenientes de capturas montadas en vehículos a intervalos dispersos. Abordamos estos desafíos mediante el emparejamiento cross-temporal, un conjunto de datos sintético a gran escala que permite trayectorias de cámara diversas, y un pipeline de interpolación de vistas que sintetiza videos de entrenamiento coherentes a partir de imágenes de vista de calle dispersas. Además, introducimos un "Virtual Lookahead Sink" para estabilizar la generación de horizonte largo al re-anclar continuamente cada fragmento a una imagen recuperada en una ubicación futura. Evaluamos SWM comparándolo con modelos de video mundiales recientes en tres ciudades: Seúl, Busan y Ann Arbor. SWM supera a los métodos existentes en la generación de videos espacialmente fieles, temporalmente consistentes y de horizonte largo, basados en entornos urbanos reales a lo largo de trayectorias que alcanzan cientos de metros, a la vez que admite diversos movimientos de cámara y variaciones de escenario impulsadas por texto.
Las conexiones residuales con PreNorm son estándar en los LLM modernos, pero acumulan todas las salidas de capa con pesos unitarios fijos. Esta agregación uniforme provoca un crecimiento no controlado del estado oculto con la profundidad, diluyendo progresivamente la contribución de cada capa. Proponemos Attention Residuals (AttnRes), que reemplaza esta acumulación fija con atención softmax sobre las salidas de capas precedentes, permitiendo que cada capa agregue selectivamente representaciones anteriores con pesos aprendidos y dependientes de la entrada. Para abordar la sobrecarga de memoria y comunicación de atender todas las salidas de capas precedentes en el entrenamiento de modelos a gran escala, introducimos Block AttnRes, que divide las capas en bloques y atiende a representaciones a nivel de bloque, reduciendo la huella de memoria mientras preserva la mayor parte de las ventajas de AttnRes completo. Combinado con comunicación de pipeline basada en caché y una estrategia de computación en dos fases, Block AttnRes se convierte en un reemplazo práctico y directo para las conexiones residuales estándar con sobrecarga mínima. Los experimentos de leyes de escalado confirman que la mejora es consistente entre tamaños de modelo, y las ablaciones validan el beneficio de la selección dependiente del contenido en profundidad. Además, integramos AttnRes en la arquitectura Kimi Linear (48B total / 3B parámetros activados) y realizamos pre-entrenamiento en 1.4T de tokens, donde AttnRes mitiga la dilución de PreNorm, produciendo magnitudes de salida y distribución de gradientes más uniformes a lo largo de la profundidad, y mejora el rendimiento downstream en todas las tareas evaluadas.
La escalabilidad en profundidad es un factor clave para los grandes modelos de lenguaje (LLM). Sin embargo, a medida que los LLM se vuelven más profundos, a menudo sufren de degradación de la señal: las características informativas formadas en las capas superficiales se diluyen gradualmente por las actualizaciones residuales repetidas, dificultando su recuperación en las capas más profundas. Introducimos la atención de mezcla de profundidades (MoDA), un mecanismo que permite a cada cabeza de atención atender a los pares clave-valor (KV) de la secuencia en la capa actual y a los pares KV de profundidad de las capas precedentes. Además, describimos un algoritmo eficiente en hardware para MoDA que resuelve los patrones de acceso a memoria no contiguos, alcanzando un 97.3% de la eficiencia de FlashAttention-2 con una longitud de secuencia de 64K. Los experimentos en modelos de 1.5B de parámetros demuestran que MoDA supera consistentemente a los baselines sólidos. En particular, mejora la perplejidad promedio en 0.2 puntos a lo largo de 10 benchmarks de validación y aumenta el rendimiento promedio en un 2.11% en 10 tareas posteriores, con un overhead computacional negligible de solo un 3.7% en FLOPS. También encontramos que combinar MoDA con post-norm produce un mejor rendimiento que usarlo con pre-norm. Estos resultados sugieren que MoDA es una primitiva prometedora para el escalado en profundidad. El código se ha publicado en https://github.com/hustvl/MoDA.
Se han realizado numerosos intentos de destilar modelos de lenguaje grande (LLM) basados en atención cuadrática en arquitecturas linealizadas de complejidad subcuadrática. Sin embargo, a pesar de la extensa investigación, dichos modelos destilados a menudo no logran igualar el rendimiento de sus LLM maestros en diversas tareas posteriores. Nos planteamos el objetivo de una destilación sin pérdidas, que definimos en términos de tasas de Ganar y Empatar corregidas por tolerancia entre el estudiante y el maestro en conjuntos de tareas. Con este fin, presentamos una canalización de destilación efectiva para estudiantes basados en xLSTM. Proponemos una etapa adicional de fusión, donde expertos individualmente linealizados se combinan en un único modelo. Demostramos la efectividad de esta canalización destilando modelos base y ajustados por instrucciones de las familias Llama, Qwen y Olmo. En muchos escenarios, nuestros estudiantes basados en xLSTM recuperan la mayor parte del rendimiento del maestro e incluso lo superan en algunas tareas posteriores. Nuestras contribuciones son un paso importante hacia reemplazos más eficientes energéticamente y rentables para los LLM basados en transformadores.
Los Modelos de Lenguaje-Visión (VLMs) frecuentemente "alucinan", es decir, generan afirmaciones plausibles pero factualmente incorrectas, lo que constituye una barrera crítica para su implementación confiable. En este trabajo, proponemos un nuevo paradigma para diagnosticar alucinaciones, reformulándolas como patologías dinámicas de la cognición computacional del modelo, en lugar de meros errores estáticos en la salida. Nuestro marco se fundamenta en un principio normativo de racionalidad computacional, lo que nos permite modelar la generación de un VLM como una trayectoria cognitiva dinámica. Diseñamos un conjunto de sondas basadas en teoría de la información que proyectan esta trayectoria en un Espacio de Estados Cognitivos interpretable y de baja dimensión. Nuestro descubrimiento central es un principio rector que denominamos dualidad geométrica-informacional: la anormalidad geométrica de una trayectoria cognitiva dentro de este espacio es fundamentalmente equivalente a su alto nivel de sorpresa (surprisal) informacional. La detección de alucinaciones se plantea así como un problema de detección de anomalías geométricas. Evaluado en diversos escenarios —desde preguntas-respuestas binarias rigurosas (POPE) y razonamiento comprehensivo (MME) hasta descripciones de imagen de respuesta abierta sin restricciones (MS-COCO)—, nuestro marco logra un rendimiento de vanguardia. Crucialmente, opera con alta eficiencia bajo supervisión débil y mantiene una gran robustez incluso cuando los datos de calibración están fuertemente contaminados. Este enfoque permite una atribución causal de los fallos, mapeando errores observables a estados patológicos distintos: inestabilidad perceptual (medida por la Entropía Perceptual), fallo lógico-causal (medido por el Conflicto Inferencial) y ambigüedad decisional (medida por la Entropía Decisional). En última instancia, esto abre un camino hacia la construcción de sistemas de IA cuyo razonamiento sea transparente, auditable y diagnosticable por diseño.
Los Transformadores de Difusión (DiT) han demostrado una escalabilidad y calidad notables en la generación de imágenes y vídeos, lo que ha despertado un creciente interés por extenderlos a tareas de generación y edición controladas. Sin embargo, en comparación con sus homólogos para imágenes, el progreso en el control y edición de vídeo sigue siendo limitado, debido principalmente a la escasez de datos de vídeo emparejados y al alto coste computacional del entrenamiento de modelos de difusión de vídeo. Para abordar este problema, en este artículo proponemos un marco de ajuste sin vídeo denominado ViFeEdit para transformadores de difusión de vídeo. Sin requerir ninguna forma de datos de vídeo de entrenamiento, ViFeEdit logra una generación y edición de vídeo versátil, adaptándose únicamente con imágenes 2D. El núcleo de nuestro enfoque es una reparametrización arquitectónica que desacopla la independencia espacial de la atención 3D completa en los modernos transformadores de difusión de vídeo, lo que permite una edición visualmente fiel manteniendo la coherencia temporal con solo parámetros adicionales mínimos. Además, este diseño opera en una canalización de doble vía con incrustaciones de paso de tiempo separadas para la programación del ruido, mostrando una fuerte adaptabilidad a diversas señales de condicionamiento. Experimentos exhaustivos demuestran que nuestro método ofrece resultados prometedores de generación y edición de vídeo controlable con solo un entrenamiento mínimo en datos de imágenes 2D. El código está disponible en https://github.com/Lexie-YU/ViFeEdit.
El entrenamiento de agentes web autónomos está fundamentalmente limitado por los entornos en los que aprenden: los sitios web del mundo real son inseguros para explorar, difíciles de restablecer y rara vez proporcionan retroalimentación verificable. Proponemos VeriEnv, un marco que trata a los modelos de lenguaje como creadores de entornos, clonando automáticamente sitios web reales en entornos sintéticos completamente ejecutables y verificables. Al exponer acceso interno controlado mediante un SDK de Python, VeriEnv permite a los agentes auto-generar tareas con recompensas deterministas y verificables mediante programación, eliminando la dependencia de evaluadores basados en heurísticas o LLM. Este diseño desacopla el aprendizaje del agente de la interacción insegura con el mundo real, a la vez que permite la auto-evolución escalable mediante la expansión del entorno. Mediante experimentos en puntos de referencia de agentes web, mostramos que los agentes entrenados con VeriEnv generalizan a sitios web no vistos, logran dominio específico del sitio a través de entrenamiento auto-evolutivo y se benefician del escalado del número de entornos de entrenamiento. El código y los recursos se publicarán en https://github.com/kyle8581/VeriEnv tras la aceptación.
La optimización de sistemas complejos, que abarcan desde prompts para modelos de lenguaje grande (LLM) hasta agentes multi-turno, tradicionalmente requiere una iteración manual intensiva. Formalizamos este desafío como un problema de optimización generativa estocástica, donde un modelo de lenguaje generativo actúa como optimizador, guiado por recompensas numéricas y retroalimentación textual para descubrir el mejor sistema. Introducimos Optimización Priorizada con Agregación Contextual Local (POLCA), un marco escalable diseñado para manejar la estocasticidad en la optimización —como retroalimentación ruidosa, muestreo por minilotes y comportamientos estocásticos del sistema— mientras gestiona eficazmente la expansión no restringida del espacio de soluciones. POLCA mantiene una cola de prioridades para gestionar el equilibrio entre exploración y explotación, rastreando sistemáticamente las soluciones candidatas y sus historiales de evaluación. Para mejorar la eficiencia, integramos un mecanismo de ε-Red para mantener la diversidad de parámetros y un Resumidor basado en LLM para realizar meta-aprendizaje a través de ensayos históricos. Demostramos teóricamente que POLCA converge a soluciones candidatas casi óptimas bajo estocasticidad. Evaluamos nuestro marco en diversos benchmarks, incluyendo τ-bench, HotpotQA (optimización de agentes), VeriBench (traducción de código) y KernelBench (generación de kernels CUDA). Los resultados experimentales demuestran que POLCA logra un rendimiento robusto, eficiente en muestras y tiempo, superando consistentemente a los algoritmos state-of-the-art tanto en problemas deterministas como estocásticos. La base de código de este trabajo está disponible públicamente en https://github.com/rlx-lab/POLCA.
Los Modelos de Razonamiento a Gran Escala (LRMs) logran un rendimiento impresionante en tareas de razonamiento complejo mediante el razonamiento en Cadena de Pensamiento (CoT), lo que les permite generar tokens de pensamiento intermedios antes de llegar a la respuesta final. Sin embargo, los LRMs a menudo sufren de una sobre-reflexión significativa, gastando un tiempo de cómputo excesivo incluso después de que la respuesta se ha generado prematuramente. Trabajos previos han identificado la existencia de una longitud de razonamiento óptima, de modo que truncar el razonamiento en este punto acorta significativamente las salidas CoT con prácticamente ningún cambio en el rendimiento. No obstante, determinar las longitudes CoT óptimas para conjuntos de datos prácticos es altamente no trivial, ya que dependen completamente de la tarea y del modelo. En este artículo, abordamos precisamente esto y diseñamos TERMINATOR, una estrategia de salida temprana para LRMs durante la inferencia para mitigar la sobre-reflexión. La idea central que sustenta TERMINATOR es que la primera aparición de la respuesta final de un LRM suele ser predecible, y aprovechamos estas posiciones de primera respuesta para crear un nuevo conjunto de datos de longitudes de razonamiento óptimas para entrenar a TERMINATOR. Impulsado por este enfoque, TERMINATOR logra reducciones significativas en las longitudes CoT del 14% al 55% en promedio en cuatro conjuntos de datos prácticos y desafiantes: MATH-500, AIME 2025, HumanEval y GPQA, superando además a los métodos actuales más avanzados.
Los puntos de referencia existentes para la generación web utilizan como entrada instrucciones de texto o capturas de pantalla estáticas. Sin embargo, los vídeos transmiten de forma natural señales más ricas, como el flujo de interacción, el tiempo de las transiciones y la continuidad del movimiento, elementos esenciales para una recreación fiel de páginas web. A pesar de este potencial, la generación de páginas web condicionada por vídeo sigue siendo un campo prácticamente inexplorado, sin un benchmark dedicado a esta tarea. Para llenar este vacío, presentamos WebVR, un benchmark que evalúa si los MLLM pueden recrear fielmente páginas web a partir de vídeos de demostración. WebVR contiene 175 páginas web de diversas categorías, todas construidas mediante un pipeline de síntesis controlado en lugar de mediante rastreo web, lo que garantiza demostraciones variadas y realistas sin solapamiento con páginas online existentes. También diseñamos una rúbrica visual detallada y alineada con criterios humanos que evalúa las páginas web generadas en múltiples dimensiones. Los experimentos con 19 modelos revelan brechas sustanciales en la recreación de estilos detallados y la calidad del movimiento, mientras que la evaluación automática basada en la rúbrica alcanza un 96% de concordancia con las preferencias humanas. Publicamos el conjunto de datos, el kit de herramientas de evaluación y los resultados de referencia para apoyar futuras investigaciones sobre la generación de páginas web a partir de vídeo.
Todos los clasificadores, incluidos los modelos de visión de última generación, poseen invariantes, parcialmente arraigados en la geometría de sus mapeos lineales. Estas invariantes, que residen en el espacio nulo del clasificador, inducen conjuntos equivalentes de entradas que se asignan a salidas idénticas. El contenido semántico de estas invariantes sigue siendo vago, ya que los enfoques existentes tienen dificultades para proporcionar información interpretable para humanos. Para abordar esta brecha, presentamos SING (Interpretación Semántica de la Geometría del Espacio Nulo), un método que construye imágenes equivalentes, con respecto a la red, y asigna interpretaciones semánticas a las variaciones disponibles. Utilizamos un mapeo desde las características de la red hacia modelos de lenguaje visual multimodal. Esto nos permite obtener descripciones en lenguaje natural y ejemplos visuales de los cambios semánticos inducidos. SING puede aplicarse a una sola imagen, descubriendo invariantes locales, o a conjuntos de imágenes, permitiendo una amplia gama de análisis estadísticos a nivel de clase y de modelo. Por ejemplo, nuestro método revela que ResNet50 filtra atributos semánticos relevantes al espacio nulo, mientras que DinoViT, un Transformer de Visión (ViT) preentrenado con DINO auto-supervisado, es superior en el mantenimiento de la semántica de clase a través del espacio invariante.
Los LLM a menudo exhiben momentos de "¡Ajá!" durante el razonamiento, como aparentes autocorrecciones tras tokens como "Espere", aunque sus mecanismos subyacentes siguen sin estar claros. Introducimos un marco teórico-informacional que descompone el razonamiento en información procedimental y verbalización epistémica: la externalización explícita de la incertidumbre que respalda acciones de control posteriores. Demostramos que el razonamiento puramente procedimental puede estancarse informacionalmente, mientras que la verbalización epistémica permite la adquisición continua de información y es crucial para alcanzar la suficiencia informativa. Los resultados empíricos demuestran que el fuerte rendimiento del razonamiento está impulsado por la externalización de la incertidumbre, no por tokens superficiales específicos. Nuestro marco unifica hallazgos previos sobre momentos de "¡Ajá!" y experimentos de post-entrenamiento, y ofrece perspectivas para el futuro diseño de modelos de razonamiento.
La motivación es un impulsor central del comportamiento humano, que moldea decisiones, metas y el desempeño en tareas. A medida que los grandes modelos de lenguaje (LLMs) se alinean cada vez más con las preferencias humanas, nos preguntamos si exhiben algo similar a la motivación. Examinamos si los LLMs "reportan" distintos niveles de motivación, cómo se relacionan estos reportes con su comportamiento, y si factores externos pueden influenciarlos. Nuestros experimentos revelan patrones consistentes y estructurados que reflejan la psicología humana: la motivación auto-reportada se alinea con diferentes firmas conductuales, varía según el tipo de tarea y puede ser modulada por manipulaciones externas. Estos hallazgos demuestran que la motivación es un constructo organizador coherente para el comportamiento de los LLMs, vinculando sistemáticamente reportes, elecciones, esfuerzo y rendimiento, y revelando dinámicas motivacionales que se asemejan a las documentadas en la psicología humana. Esta perspectiva profundiza nuestra comprensión del comportamiento de los modelos y su conexión con conceptos inspirados en lo humano.
La generación de movimiento humano a menudo se aprende en espacios euclídeos, aunque los movimientos válidos siguen una geometría no euclídea estructurada. Presentamos Riemannian Motion Generation (RMG), un marco unificado que representa el movimiento en un producto de variedades y aprende dinámicas mediante *Riemannian flow matching*. RMG factoriza el movimiento en varios factores de variedad, obteniendo una representación independiente de la escala con normalización intrínseca, y utiliza interpolación geodésica, supervisión en el espacio tangente e integración de EDO que preserva la variedad para el entrenamiento y muestreo. En HumanML3D, RMG logra un FID de última generación en el formato HumanML3D (0.043) y ocupa el primer puesto en todas las métricas reportadas bajo el formato MotionStreamer. En MotionMillion, también supera a líneas de base sólidas (FID 5.6, R@1 0.86). Los estudios de ablación muestran que la representación compacta T+R (traslaciones + rotaciones) es la más estable y efectiva, destacando el modelado consciente de la geometría como una ruta práctica y escalable para la generación de movimiento de alta fidelidad.
Presentamos el PokeAgent Challenge, un benchmark a gran escala para la investigación en toma de decisiones construido sobre el sistema de batallas multiagente de Pokémon y su expansivo entorno de juego de rol (RPG). La observabilidad parcial, el razonamiento de teoría de juegos y la planificación de largo horizonte siguen siendo problemas abiertos para la IA de vanguardia, pero pocos benchmarks tensionan los tres simultáneamente bajo condiciones realistas. PokeAgent aborda estas limitaciones a escala a través de dos modalidades complementarias: nuestra Modalidad de Batallas, que requiere razonamiento estratégico y generalización bajo observabilidad parcial en batallas competitivas de Pokémon, y nuestra Modalidad de Speedrunning, que exige planificación de largo horizonte y toma de decisiones secuencial en el RPG de Pokémon. Nuestra Modalidad de Batallas proporciona un conjunto de datos de más de 20 millones de trayectorias de batalla, junto con un conjunto de líneas base heurísticas, de aprendizaje por refuerzo (RL) y basadas en modelos de lenguaje grande (LLM) capaces de un juego competitivo de alto nivel. Nuestra Modalidad de Speedrunning ofrece el primer marco de evaluación estandarizado para speedrunning en RPG, incluyendo un sistema de orquestación multiagente de código abierto para comparaciones modulares y reproducibles de enfoques de LLM con arnés. Nuestra competencia en NeurIPS 2025 valida tanto la calidad de nuestros recursos como el interés de la comunidad investigadora en Pokémon, con más de 100 equipos compitiendo en ambas modalidades y las soluciones ganadoras detalladas en nuestro artículo. Las presentaciones de los participantes y nuestras líneas base revelan brechas considerables entre el rendimiento de modelos generalistas (LLM), especialistas (RL) y el de humanos de élite. El análisis contra la matriz de evaluación BenchPress muestra que las batallas de Pokémon son casi ortogonales a los benchmarks estándar de LLM, midiendo capacidades no capturadas por las suites existentes y posicionando a Pokémon como un benchmark no resuelto que puede impulsar la investigación en RL y LLM. Hacemos la transición a un benchmark vivo con una tabla de clasificación en vivo para Batallas y una evaluación autónoma para Speedrunning en https://pokeagentchallenge.com.
El aprendizaje por refuerzo para la generación de código depende de recompensas verificables basadas en tasas de aprobación de pruebas unitarias. Sin embargo, los conjuntos de pruebas de alta calidad son escasos, los conjuntos de datos existentes ofrecen cobertura limitada y las recompensas estáticas no se adaptan a medida que los modelos mejoran. Los métodos recientes de autojuego unifican la generación de código y pruebas en un solo modelo, pero enfrentan un dilema inherente: el acceso de caja blanca conduce a una autocolusión donde el modelo produce pruebas triviales para recompensas fáciles, mientras que la restricción de caja negra genera pruebas genéricas que pasan por alto errores específicos de la implementación. Presentamos Code-A1, un marco de coevolución adversarial que optimiza conjuntamente un Modelo de Lenguaje de Código (Code LLM) y un Modelo de Lenguaje de Pruebas (Test LLM) con objetivos opuestos. El Code LLM es recompensado por pasar más pruebas, mientras que el Test LLM es recompensado por exponer más defectos. Esta separación arquitectónica elimina los riesgos de autocolusión y permite de forma segura la generación de pruebas de caja blanca, donde el Test LLM puede inspeccionar el código candidato para diseñar pruebas adversariales dirigidas. Además, introducimos un mecanismo de Libro de Errores para la reproducción de experiencias y una recompensa compuesta que equilibra la validez de las pruebas con la dificultad adversarial. Los experimentos con modelos Qwen2.5-Coder demuestran que Code-A1 logra un rendimiento en generación de código que iguala o supera a los modelos entrenados con pruebas anotadas por humanos, mientras mejora significativamente la capacidad de generación de pruebas.
La predicción de affordances constituye un puente crítico entre la percepción y la acción en la IA corporeizada. Sin embargo, la investigación existente se limita a modelos de cámara estenopeica, que adolecen de campos de visión (FoV) estrechos y observaciones fragmentadas, perdiendo a menudo el contexto ambiental holístico crítico. En este artículo, presentamos la primera exploración en Predicción de Affordances Panorámicas, utilizando imágenes de 360 grados para capturar relaciones espaciales globales y una comprensión holística de la escena. Para facilitar esta novedosa tarea, primero presentamos PAP-12K, un conjunto de datos de referencia a gran escala que contiene más de 1,000 imágenes panorámicas de ultra alta resolución (12k, 11904 x 5952) con más de 12,000 pares de preguntas y respuestas (QA) y máscaras de affordance cuidadosamente anotadas. Además, proponemos PAP, un pipeline de entrenamiento libre, de grueso a fino, inspirado en el sistema visual foveal humano, para abordar la ultra alta resolución y la severa distorsión inherente a las imágenes panorámicas. PAP emplea un enrutamiento visual recursivo mediante indicaciones de cuadrícula para localizar progresivamente los objetivos, aplica un mecanismo de mirada adaptativa para rectificar las distorsiones geométricas locales y utiliza un pipeline de anclaje en cascada para extraer máscaras precisas a nivel de instancia. Los resultados experimentales en PAP-12K revelan que los métodos existentes de predicción de affordances diseñados para imágenes perspectivas estándar sufren una severa degradación del rendimiento y fallan debido a los desafíos únicos de la visión panorámica. Por el contrario, el marco PAP supera eficazmente estos obstáculos, superando significativamente a los baselines de última generación y destacando el inmenso potencial de la percepción panorámica para una inteligencia corporeizada robusta.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) han demostrado un sólido rendimiento en la comprensión visual y auditiva cuando se evalúan de forma aislada. Sin embargo, su capacidad para razonar conjuntamente sobre señales omnimodales (visuales, auditivas y textuales) en videos largos y complejos sigue siendo en gran medida inexplorada. Presentamos MMOU, un nuevo benchmark diseñado para evaluar sistemáticamente la comprensión y el razonamiento multimodal bajo estas condiciones desafiantes y del mundo real. MMOU consta de 15.000 preguntas cuidadosamente seleccionadas, emparejadas con 9038 videos de longitud variable recopilados de la web, que abarcan diversos dominios y exhiben un contenido audiovisual rico y estrechamente acoplado. El benchmark cubre 13 categorías de habilidades fundamentales, todas las cuales requieren integrar evidencia a través de modalidades y tiempo. Todas las preguntas son anotadas manualmente en múltiples turnos por anotadores profesionales, garantizando alta calidad y fidelidad de razonamiento. Evaluamos más de 20 modelos multimodales de última generación, tanto de código abierto como propietarios, en MMOU. Los resultados revelan brechas sustanciales de rendimiento: el mejor modelo propietario logra solo un 64,2% de precisión, mientras que el modelo de código abierto más potente alcanza apenas un 46,8%. Nuestros resultados subrayan los desafíos de la comprensión omnimodal de formato largo, revelando que los modelos actuales fracasan con frecuencia en aplicar incluso habilidades fundamentales en videos largos. Mediante un análisis detallado, identificamos además modos de fallo sistemáticos y aportamos insights sobre dónde y por qué los modelos actuales fallan.
El modelo de lenguaje grande (LLM) preentrenado exhibe amplias capacidades; sin embargo, para tareas o dominios específicos, el logro de una mayor precisión y un razonamiento más confiable generalmente depende del posentrenamiento mediante el ajuste fino supervisado (SFT) o el aprendizaje por refuerzo (RL). Aunque a menudo se tratan como metodologías distintas, desarrollos teóricos y empíricos recientes demuestran que el SFT y el RL están estrechamente conectados. Este estudio presenta una perspectiva integral y unificada sobre el posentrenamiento de LLM con SFT y RL. Primero, ofrecemos una descripción detallada de ambas técnicas, examinando sus objetivos, estructuras algorítmicas y requisitos de datos. Luego, analizamos sistemáticamente su interacción, destacando marcos que integran SFT y RL, pipelines de entrenamiento híbridos y métodos que aprovechan sus fortalezas complementarias. Basándonos en un conjunto representativo de estudios de aplicación recientes de 2023 a 2025, identificamos tendencias emergentes, caracterizamos el rápido cambio hacia paradigmas de posentrenamiento híbridos y destilamos conclusiones clave que aclaran cuándo y por qué cada método es más efectivo. Al sintetizar perspectivas teóricas, metodologías prácticas y evidencia empírica, este estudio establece una comprensión coherente del SFT y el RL dentro de un marco unificado y delinea direcciones prometedoras para futuras investigaciones en el posentrenamiento de LLM escalable, eficiente y generalizable.
Como revela la ley de escalamiento de MoE de grano fino, el rendimiento del modelo deja de mejorar una vez que la granularidad de la dimensión intermedia supera el umbral óptimo, lo que limita las ganancias adicionales del diseño de grano fino unidimensional. Para abordar este cuello de botella, proponemos FineRMoE (MoE de Grano más Fino), una arquitectura que extiende el diseño de expertos de grano fino a las dimensiones intermedias y de salida, con el objetivo de mejorar la especialización de los expertos más allá del límite unidimensional. Además, introducimos un paradigma de cálculo directo disperso de dos niveles y un mecanismo de enrutamiento especializado para gestionar la activación. Adicionalmente, para evitar el costo prohibitivo de entrenar FineRMoE desde cero, diseñamos un método generalizado de reciclaje ascendente para construir FineRMoE de manera rentable. Experimentos exhaustivos demuestran el rendimiento superior alcanzado por FineRMoE en diez benchmarks estándar. En comparación con la línea base más sólida, FineRMoE logra una eficiencia de parámetros 6 veces mayor, una latencia de prellenado 281 veces menor y un rendimiento de decodificación 136 veces mayor durante la inferencia.
Tras los importantes avances en la generación de texto e imágenes, el ámbito del video ha experimentado un auge, produciendo secuencias altamente realistas y controlables. Paralelamente a este progreso, estos modelos también generan serias preocupaciones sobre la desinformación, lo que hace que la detección fiable de videos sintéticos sea cada vez más crucial. Los detectores basados en imágenes son limitados por naturaleza, ya que operan por fotograma e ignoran la dinámica temporal, mientras que los detectores de video supervisados generalizan pobremente a generadores no vistos, una desventaja crítica dada la rápida aparición de nuevos modelos. Estos desafíos motivan los enfoques de *zero-shot*, que evitan el uso de datos sintéticos y, en su lugar, evalúan el contenido comparándolo con estadísticas de datos reales, permitiendo una detección independiente del modelo y sin necesidad de entrenamiento. Presentamos STALL, un detector sencillo, sin necesidad de entrenamiento y con fundamento teórico, que proporciona una puntuación basada en verosimilitud para videos, modelando conjuntamente la evidencia espacial y temporal dentro de un marco probabilístico. Evaluamos STALL en dos benchmarks públicos e introducimos ComGenVid, un nuevo benchmark con modelos generativos de vanguardia. STALL supera consistentemente a los métodos de referencia previos basados en imágenes y video. El código y los datos están disponibles en https://omerbenhayun.github.io/stall-video.
La reluminación a partir de una sola imagen está altamente sub-restringida: pequeños cambios en la iluminación pueden producir variaciones no lineales y significativas en el sombreado, las sombras y las reflexiones especulares, mientras que la geometría y los materiales permanecen sin observar. Los enfoques existentes basados en difusión dependen de canalizaciones de descomposición intrínseca o *G-buffers* que requieren una supervisión densa y frágil, o operan únicamente en el espacio latente sin fundamento físico, lo que hace que el control detallado de la dirección, intensidad y color sea poco fiable. Observamos que una descomposición intrínseca completa es innecesaria y redundante para una reluminación precisa. En su lugar, son suficientes pistas escasas pero físicamente significativas, que indiquen dónde debe cambiar la iluminación y cómo deben responder los materiales, para guiar un modelo de difusión. Basándonos en esta idea, presentamos LightCtrl, que integra *priors* físicos en dos niveles: un codificador *proxy* latente de *few-shot* que extrae pistas compactas de material-geometría a partir de una supervisión limitada con PBR (*Physically Based Rendering*), y una máscara consciente de la iluminación que identifica regiones sensibles a la iluminación y dirige el desruidor hacia los píxeles relevantes para el sombreado. Para compensar la escasez de datos PBR, refinamos la rama *proxy* utilizando un objetivo basado en DPO (*Direct Preference Optimization*) que impone consistencia física en las pistas pronosticadas. También presentamos ScaLight, un conjunto de datos a gran escala a nivel de objeto con iluminación variada sistemáticamente y metadatos completos de cámara-luz, que permite un entrenamiento físicamente consistente y controlable. En diversos benchmarks a nivel de objeto y escena, nuestro método logra una reluminación fotométricamente fiel con un control continuo preciso, superando a los métodos de referencia previos basados en difusión y descomposición intrínseca, incluyendo mejoras de hasta +2.4 dB en PSNR y un 35% menos de RMSE bajo cambios de iluminación controlados.
Los modelos de mundo en teledetección buscan tanto explicar los cambios observados como pronosticar futuros plausibles, dos tareas que comparten información previa espacio-temporal. Sin embargo, los métodos existentes suelen abordarlas por separado, lo que limita la transferencia entre tareas. Presentamos RS-WorldModel, un modelo de mundo unificado para teledetección que maneja conjuntamente la comprensión de cambios espacio-temporales y la predicción de escenarios futuros guiada por texto, y construimos RSWBench-1.1M, un conjunto de datos de 1.1 millones de muestras con anotaciones lingüísticas ricas que cubre ambas tareas. RS-WorldModel se entrena en tres etapas: (1) el Pre-entrenamiento Generativo Geo-Consciente (GAGP) condiciona la predicción a metadatos geográficos y de adquisición; (2) la sintonización instruccional sinérgica (SIT) entrena conjuntamente la comprensión y la predicción; (3) la optimización por refuerzo verificable (VRO) refina las salidas con recompensas verificables y específicas de la tarea. Con solo 2B de parámetros, RS-WorldModel supera a modelos de código abierto hasta 120 veces más grandes en la mayoría de las métricas de respuesta a preguntas sobre cambios espacio-temporales. Logra un FID de 43.13 en la predicción de escenas futuras guiada por texto, superando a todos los baselines de código abierto, así como al modelo de código cerrado Gemini-2.5-Flash Image (Nano Banana).
¿Puede la IA avanzar en problemas matemáticos importantes sin resolver? Los grandes modelos de lenguaje son ahora capaces de realizar razonamientos matemáticos y científicos sofisticados, pero si pueden llevar a cabo investigación novedosa es aún ampliamente debatido y poco explorado. Presentamos HorizonMath, un benchmark de más de 100 problemas predominantemente sin resolver que abarcan 8 dominios en matemáticas computacionales y aplicadas, junto con un marco de evaluación de código abierto para la verificación automatizada. Nuestro benchmark se centra en una clase de problemas donde el descubrimiento es difícil, ya que requiere una comprensión matemática significativa, pero la verificación es computacionalmente eficiente y sencilla. Dado que estas soluciones son desconocidas, HorizonMath es inmune a la contaminación de datos, y la mayoría de los modelos de última generación obtienen puntuaciones cercanas al 0%. Los benchmarks existentes a nivel de investigación, en cambio, dependen de la verificación formal de pruebas o de la revisión manual, ambos costosos de escalar. Utilizando esta plataforma, encontramos dos problemas para los cuales GPT 5.4 Pro propone soluciones que mejoran los mejores resultados publicados conocidos, lo que representa posibles contribuciones novedosas (pendientes de revisión experta). Publicamos HorizonMath como un desafío abierto y un recurso comunitario en crecimiento, donde las soluciones correctas a los problemas en las clases de problemas no resueltos podrían constituir resultados novedosos en la literatura matemática.
El razonamiento en video requiere que los modelos localicen y rastreen evidencia relevante para la pregunta a lo largo de los fotogramas. Si bien el aprendizaje por refuerzo (RL) con recompensas verificables mejora la precisión, aún lucha por lograr una localización espacio-temporal confiable durante el proceso de razonamiento. Además, la mejora de la localización suele depender de datos de entrenamiento a gran escala o de herramientas de percepción en tiempo de inferencia, lo que aumenta el coste de anotación o el coste computacional. Para abordar este desafío, proponemos VisonCoach, un marco de RL adaptable a la entrada que mejora la localización espacio-temporal mediante *visual prompting* (inducción visual) como guía durante el entrenamiento. Durante el entrenamiento de RL, los estímulos visuales se aplican selectivamente a entradas desafiantes para amplificar la evidencia relevante para la pregunta y suprimir los elementos distractores. El modelo luego interioriza estas mejoras mediante auto-distilación, permitiendo un razonamiento fundamentado directamente sobre los videos originales sin necesidad de estímulos visuales en la inferencia. VisonCoach consta de dos componentes: (1) un Selector de Estímulos Visuales, que predice los tipos de estímulo apropiados condicionados por el video y la pregunta, y (2) un Razonador Espacio-Temporal, optimizado con RL bajo la guía de estímulos visuales y recompensas de localización conscientes de objetos que hacen cumplir la consistencia de identidad de objetos y la superposición de cajas delimitadoras multi-región. Experimentos exhaustivos demuestran que VisonCoach logra un rendimiento de vanguardia en configuraciones comparables, a través de diversos benchmarks de razonamiento en video, comprensión de video y localización temporal (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest y Charades-STA), manteniendo una única vía de inferencia eficiente sin herramientas externas. Nuestros resultados muestran que la inducción visual durante el entrenamiento mejora el razonamiento en video fundamentado, mientras que la auto-distilación permite al modelo interiorizar esta capacidad sin requerir estímulos en el tiempo de inferencia.
Los recientes avances en la generación de vídeo controlable por trayectorias han logrado un progreso notable. Los métodos anteriores utilizan principalmente arquitecturas basadas en adaptadores para un control de movimiento preciso a lo largo de trayectorias predefinidas. Sin embargo, todos estos métodos dependen de un proceso de eliminación de ruido de múltiples pasos, lo que conlleva una redundancia temporal sustancial y una sobrecarga computacional. Si bien los métodos existentes de destilación de vídeo consiguen destilar generadores de múltiples pasos en versiones de pocos pasos, la aplicación directa de estos enfoques a la generación de vídeo controlable por trayectorias resulta en una degradación notable tanto en la calidad del vídeo como en la precisión de la trayectoria. Para salvar esta brecha, presentamos FlashMotion, un novedoso marco de entrenamiento diseñado para la generación de vídeo controlable por trayectorias en pocos pasos. Primero entrenamos un adaptador de trayectorias en un generador de vídeo de múltiples pasos para un control preciso de la trayectoria. Luego, destilamos el generador a una versión de pocos pasos para acelerar la generación de vídeo. Finalmente, ajustamos el adaptador utilizando una estrategia híbrida que combina objetivos de difusión y adversarios, alineándolo con el generador de pocos pasos para producir vídeos de alta calidad y precisión en la trayectoria. Para la evaluación, presentamos FlashBench, un punto de referencia para la generación de vídeo controlable por trayectorias en secuencias largas que mide tanto la calidad del vídeo como la precisión de la trayectoria con diferentes números de objetos en primer plano. Los experimentos en dos arquitecturas de adaptadores muestran que FlashMotion supera a los métodos existentes de destilación de vídeo y a los modelos anteriores de múltiples pasos, tanto en calidad visual como en consistencia de la trayectoria.
Trabajos recientes han demostrado la maldición de la profundidad en los modelos de lenguaje grandes (LLMs), donde las capas posteriores contribuyen menos al aprendizaje y la representación que las capas anteriores. Esta infrautilización está vinculada al crecimiento acumulado de la varianza en la Pre-Normalización de Capas, que puede empujar a los bloques profundos hacia un comportamiento casi idéntico. En este artículo, demostramos que la dispersión (esparcidad), más allá de permitir eficiencia, actúa como un regulador de la propagación de la varianza y, por lo tanto, mejora la utilización de la profundidad. Nuestra investigación cubre dos fuentes de dispersión: (i) la dispersión implícita, que surge de las condiciones de entrenamiento y de datos, incluyendo la dispersión de pesos inducida por la decadencia de pesos (weight decay) y la dispersión de atención inducida por entradas de contexto largo; y (ii) la dispersión explícita, que se aplica mediante el diseño arquitectónico, incluyendo la dispersión por compartición de claves/valores en la Atención de Consultas Agrupadas (Grouped-Query Attention) y la dispersión por activación de expertos en la Mezcla de Expertos (Mixture-of-Experts). Nuestra afirmación está respaldada exhaustivamente por experimentos controlados de escalado de profundidad e intervenciones específicas sobre la efectividad de las capas. En todos los escenarios, observamos una relación consistente: la dispersión mejora la utilización de las capas al reducir la varianza de la salida y promover la diferenciación funcional. Finalmente, destilamos nuestros hallazgos en una receta práctica basada en reglas generales para entrenar LLMs efectivos en profundidad, logrando una notable mejora del 4.6% en precisión en tareas secundarias (downstream tasks). Nuestros resultados revelan a la dispersión, que surge naturalmente de las opciones de diseño estándar, como un mecanismo clave pero previamente pasado por alto para el escalado efectivo de la profundidad en los LLMs. El código está disponible en https://github.com/pUmpKin-Co/SparsityAndCoD.
Los agentes de IA embebidos requieren cada vez más la ejecución paralela de múltiples tareas, como manipulación, conversación y construcción de memoria, a partir de observaciones compartidas bajo distintas restricciones temporales. Los modelos recientes de Mezcla de Transformadores (MoT) para Visión, Lenguaje y Acción (VLA) admiten arquitectónicamente dichas salidas heterogéneas, pero los sistemas de inferencia existentes no logran un paralelismo multitarea eficiente para implementación en dispositivo debido a la computación redundante y la contención de recursos. Identificamos la gestión aislada de la caché KV como la causa principal. Para abordarlo, proponemos una gestión unificada de la caché KV, un paradigma de inferencia que trata la caché KV como un recurso compartido de primera clase entre tareas y en el tiempo. Esta abstracción permite dos optimizaciones clave: el intercambio KV entre tareas elimina el prellenado redundante de observaciones compartidas, mientras que el procesamiento por lotes continuo entre fotogramas desacopla la decodificación de lenguaje de longitud variable de la generación de acciones a tasa fija entre ciclos de control. Implementamos este paradigma para π_{0.5}, el VLA MoT más popular, y evaluamos bajo configuraciones robóticas representativas. OxyGen logra una aceleración de hasta 3.7 veces sobre la ejecución aislada, ofreciendo simultáneamente un rendimiento lingüístico superior a 200 tokens/s y una frecuencia de acción de 70 Hz sin degradación de la calidad de las acciones.
La generación de glifos precisos para la representación visual de texto es esencial pero desafiante. Los métodos existentes suelen mejorar la renderización de texto entrenando con grandes cantidades de imágenes de texto escénico de alta calidad, pero la cobertura limitada de variaciones glíficas y la excesiva estilización a menudo comprometen la precisión de los glifos, especialmente para caracteres complejos o fuera de dominio. Algunos métodos aprovechan el aprendizaje por refuerzo para aliviar este problema, aunque sus modelos de recompensa generalmente dependen de sistemas de reconocimiento de texto que son insensibles a errores glíficos de grano fino, por lo que imágenes con glifos incorrectos aún pueden recibir altas recompensas. Inspirados en la Optimización de Preferencias Directas (DPO), proponemos GlyphPrinter, un método de renderizado de texto basado en preferencias que elimina la dependencia de modelos de recompensa explícitos. Sin embargo, el objetivo DPO estándar solo modela la preferencia general entre dos muestras, lo cual es insuficiente para la renderización visual de texto donde los errores glíficos típicamente ocurren en regiones localizadas. Para abordar este problema, construimos el conjunto de datos GlyphCorrector con anotaciones de preferencia glífica a nivel regional y proponemos DPO Agrupado por Región (R-GDPO), un objetivo basado en regiones que optimiza las preferencias inter e intra-muestra sobre regiones anotadas, mejorando sustancialmente la precisión glífica. Además, introducimos la Guía de Recompensa Regional, una estrategia de inferencia que muestrea desde una distribución óptima con precisión glífica controlable. Experimentos exhaustivos demuestran que el GlyphPrinter propuesto supera a los métodos existentes en precisión glífica mientras mantiene un equilibrio favorable entre estilización y precisión.
Los recientes modelos de difusión de video han logrado avances notables en calidad visual, pero el control preciso y granular sigue siendo un cuello de botella clave que limita la personalización práctica para la creación de contenido. Para los creadores de video con IA, tres formas de control son cruciales: (i) composición de escenas, (ii) personalización de sujetos con consistencia multi-vista, y (iii) ajuste de pose de cámara o movimiento de objetos. Los métodos existentes generalmente manejan estas dimensiones de forma aislada, con soporte limitado para la síntesis de sujetos multi-vista y la preservación de identidad bajo cambios de pose arbitrarios. Esta falta de una arquitectura unificada dificulta la creación de video versátil y conjuntamente controlable. Presentamos Tri-Prompting, un marco unificado y paradigma de entrenamiento en dos etapas que integra composición de escenas, consistencia multi-vista de sujetos y control de movimiento. Nuestro enfoque aprovecha un módulo de movimiento de doble condición impulsado por puntos de seguimiento 3D para escenarios de fondo y claves RGB reducidas para sujetos en primer plano. Para garantizar un equilibrio entre controllabilidad y realismo visual, proponemos además una programación de escala ControlNet en inferencia. Tri-Prompting admite flujos de trabajo novedosos, incluyendo la inserción de sujetos con conciencia 3D en cualquier escena y la manipulación de sujetos existentes en una imagen. Los resultados experimentales demuestran que Tri-Prompting supera significativamente a líneas base especializadas como Phantom y DaS en identidad de sujetos multi-vista, consistencia 3D y precisión de movimiento.
En este artículo, estudiamos la capacidad de difusión (capacidad de aprendizaje) de los autoencoders variacionales (VAE) en la difusión latente. Primero, demostramos que la difusión en el espacio de píxeles entrenada con un objetivo de error cuadrático medio (MSE) está inherentemente sesgada hacia el aprendizaje de frecuencias espaciales bajas y medias, y que la densidad espectral de potencia (DEP) de ley de potencia de las imágenes naturales hace que este sesgo sea perceptualmente beneficioso. Motivados por este resultado, proponemos la Hipótesis de Correspondencia Espectral: los espacios latentes con una capacidad de difusión superior deben (i) seguir una DEP de ley de potencia aplanada (Correspondencia Espectral en la Codificación, ESM) y (ii) preservar la correspondencia semántica frecuencia-a-frecuencia a través del decodificador (Correspondencia Espectral en la Decodificación, DSM). En la práctica, aplicamos ESM haciendo coincidir la DEP entre las imágenes y los espacios latentes, y DSM mediante el uso compartido de enmascaramiento espectral con reconstrucción alineada en frecuencia. Es importante destacar que la Correspondencia Espectral proporciona una visión unificada que clarifica observaciones previas de espacios latentes excesivamente ruidosos o suavizados, e interpreta varios métodos recientes como casos especiales (por ejemplo, VA-VAE, EQ-VAE). Los experimentos sugieren que la Correspondencia Espectral produce una generación por difusión superior en los conjuntos de datos CelebA e ImageNet, y supera a enfoques anteriores. Finalmente, extendemos la perspectiva espectral a la alineación de representaciones (REPA): demostramos que la energía espectral direccional de la representación objetivo es crucial para REPA, y proponemos un método basado en DoG para mejorar aún más el rendimiento de REPA. Nuestro código está disponible en https://github.com/forever208/SpectrumMatching.
A medida que los agentes de IA se despliegan cada vez más como sistemas de larga duración, resulta esencial construir de forma autónoma y evolucionar continuamente software personalizado para permitir la interacción en entornos dinámicos. Sin embargo, los puntos de referencia existentes evalúan a los agentes en tareas de codificación aisladas y únicas, descuidando las dependencias temporales y la deuda técnica inherentes a la evolución del software en el mundo real. Para cerrar esta brecha, presentamos DeepCommit, una pipeline agentíca que reconstruye Grafos Acíclicos Dirigidos (DAG) de Hitos verificables a partir de registros de commits ruidosos, donde los hitos se definen como objetivos de desarrollo semánticamente cohesivos. Estas secuencias ejecutables permiten a EvoClaw, un nuevo punto de referencia que exige a los agentes mantener la integridad del sistema y limitar la acumulación de errores, dimensiones de la evolución del software a largo plazo mayormente ausentes en los puntos de referencia actuales. Nuestra evaluación de 12 modelos de vanguardia en 4 marcos de agentes revela una vulnerabilidad crítica: las puntuaciones de rendimiento general caen significativamente de >80% en tareas aisladas a un máximo de 38% en entornos continuos, exponiendo la profunda dificultad de los agentes con el mantenimiento a largo plazo y la propagación de errores.
Las declaraciones del Comité Federal de Mercado Abierto (FOMC) son una fuente principal de información sobre política monetaria, y hasta cambios sutiles en su redacción pueden mover los mercados financieros globales. Una tarea central es, por lo tanto, medir la postura halcón-paloma transmitida en estos textos. Los enfoques existentes suelen tratar la detección de la postura como un problema de clasificación estándar, etiquetando cada declaración de forma aislada. Sin embargo, la interpretación de la comunicación de política monetaria es inherentemente relativa: las reacciones del mercado dependen no solo del tono de una declaración, sino también de cómo ese tono cambia entre reuniones. Introducimos la Puntuación Delta-Consistente (DCS), un marco libre de anotación que mapea representaciones de modelos de lenguaje grandes (LLM) congelados a puntuaciones de postura continuas mediante el modelado conjunto de la postura absoluta y los cambios relativos entre reuniones. En lugar de depender de etiquetas manuales halcón-paloma, DCS utiliza reuniones consecutivas como fuente de auto-supervisión. Aprende una puntuación de postura absoluta para cada declaración y una puntuación de cambio relativo entre declaraciones consecutivas. Un objetivo de consistencia-delta incentiva que los cambios en las puntuaciones absolutas se alineen con los cambios relativos. Esto permite a DCS recuperar una trayectoria de postura temporalmente coherente sin etiquetas manuales. En cuatro arquitecturas base de LLM, DCS supera consistentemente a los métodos supervisados y a las líneas base de LLM-como-juez, logrando hasta un 71.1% de precisión en la clasificación halcón-paloma a nivel de oración. Las puntuaciones resultantes a nivel de reunión también son económicamente significativas: se correlacionan fuertemente con indicadores de inflación y están significativamente asociadas con los movimientos de los rendimientos de los bonos del Tesoro. En general, los resultados sugieren que las representaciones de los LLM codifican señales de política monetaria que pueden recuperarse mediante una estructura temporal relativa.
Los modelos Visión-Lenguaje-Acción (VLA) sobresalen en la manipulación estática, pero presentan dificultades en entornos dinámicos con objetivos en movimiento. Esta brecha de rendimiento se debe principalmente a la escasez de conjuntos de datos de manipulación dinámica y a la dependencia de los VLA convencionales en observaciones de fotograma único, lo que restringe sus capacidades de razonamiento espacio-temporal. Para abordar este problema, presentamos DOMINO, un conjunto de datos y benchmark a gran escala para la manipulación dinámica generalizable, que incluye 35 tareas con complejidades jerárquicas, más de 110.000 trayectorias expertas y una suite de evaluación multidimensional. Mediante experimentos exhaustivos, evaluamos sistemáticamente los VLA existentes en tareas dinámicas, exploramos estrategias de entrenamiento efectivas para la conciencia dinámica y validamos la generalización de los datos dinámicos. Además, proponemos PUMA, una arquitectura VLA consciente de la dinámica. Al integrar flujo óptico histórico centrado en la escena y consultas mundiales especializadas para predecir implícitamente estados futuros centrados en objetos, PUMA acopla la percepción consciente del historial con la predicción de corto alcance. Los resultados demuestran que PUMA alcanza un rendimiento de vanguardia, logrando una mejora absoluta del 6.3% en la tasa de éxito respecto a los baselines. Además, mostramos que el entrenamiento con datos dinámicos fomenta representaciones espacio-temporales robustas que se transfieren a tareas estáticas. Todo el código y los datos están disponibles en https://github.com/H-EmbodVis/DOMINO.
La personalización de conceptos normalmente vincula tokens raros a un concepto objetivo. Desafortunadamente, estos enfoques suelen sufrir de un rendimiento inestable, ya que los datos de preentrenamiento rara vez contienen estos tokens raros. Además, estos tokens no logran transmitir el conocimiento inherente del concepto objetivo. En consecuencia, presentamos la Personalización de Conceptos con Conocimiento, una nueva tarea que pretende vincular diversos conocimientos textuales a conceptos visuales objetivo. Esta tarea requiere que el modelo identifique el conocimiento dentro del prompt de texto para realizar una generación personalizada de alta fidelidad. Al mismo tiempo, el modelo debe vincular eficientemente todo el conocimiento textual al concepto objetivo. Por lo tanto, proponemos MoKus, un nuevo marco para la personalización de conceptos con conocimiento. Nuestro marco se basa en una observación clave: la transferencia de conocimiento multimodal, donde modificar el conocimiento dentro de la modalidad textual se transfiere naturalmente a la modalidad visual durante la generación. Inspirados por esta observación, MoKus consta de dos etapas: (1) En el aprendizaje del concepto visual, primero aprendemos la representación ancla para almacenar la información visual del concepto objetivo. (2) En la actualización del conocimiento textual, actualizamos la respuesta a las consultas de conocimiento hacia la representación ancla, permitiendo una generación personalizada de alta fidelidad. Para evaluar más exhaustivamente nuestro MoKus propuesto en esta nueva tarea, presentamos el primer benchmark para personalización de conceptos con conocimiento: KnowCusBench. Evaluaciones exhaustivas han demostrado que MoKus supera a los métodos state-of-the-art. Además, la transferencia de conocimiento multimodal permite que MoKus se extienda fácilmente a otras aplicaciones basadas en conocimiento, como la creación de conceptos virtuales y la eliminación de conceptos. También demostramos la capacidad de nuestro método para lograr mejoras en benchmarks de conocimiento del mundo.
Presentamos ScienceClaw + Infinite, un marco para la investigación científica autónoma en el que agentes independientes realizan investigaciones sin coordinación central, y cualquier colaborador puede desplegar nuevos agentes en un ecosistema compartido. El sistema se construye en torno a tres componentes: un registro extensible de más de 300 habilidades científicas interoperables, una capa de artefactos que preserva el linaje computacional completo como un grafo acíclico dirigido (DAG), y una plataforma estructurada para el discurso científico basado en agentes con gobernanza consciente de la procedencia. Los agentes seleccionan y encadenan herramientas basándose en sus perfiles científicos, producen artefactos inmutables con metadatos tipados y linaje parental, y difunden necesidades de información no satisfechas a un índice global compartido. El ArtifactReactor permite la coordinación sin planificador: los agentes pares descubren y satisfacen necesidades abiertas mediante una puntuación basada en presión, mientras que la coincidencia por superposición de esquemas activa la síntesis multi-parental entre análisis independientes. Una capa de mutación autónoma poda activamente el DAG de artefactos en expansión para resolver flujos de trabajo conflictivos o redundantes, mientras que la memoria persistente permite a los agentes construir continuamente sobre estados epistémicos complejos a través de múltiples ciclos. Infinite convierte estas salidas en registros científicos auditables mediante publicaciones estructuradas, vistas de procedencia y relaciones de discurso legibles por máquina, con la retroalimentación de la comunidad orientando los ciclos de investigación posteriores. En cuatro investigaciones autónomas —diseño de péptidos para el receptor de somatostatina SSTR2, cribado de cerámicas ligeras resistentes al impacto, puente de resonancia transdisciplinar entre biología, materiales y música, y construcción formal de analogías entre morfología urbana y evolución de límites de grano— el marco demuestra encadenamiento heterogéneo de herramientas, convergencia emergente entre agentes que operan de forma independiente y razonamiento trazable desde el cómputo crudo hasta el hallazgo publicado.
El análisis de documentos, como tarea visual fundamental pero crucial, está siendo revolucionado por los modelos de visión y lenguaje (VLM). Sin embargo, la decodificación autoregresiva (AR) inherente a los VLM crea un cuello de botella significativo, limitando severamente la velocidad de análisis. En este artículo, proponemos Predicción Paralela de Tokens (PTP), un método conectable, independiente del modelo y simple pero efectivo, que permite a los VLM generar múltiples tokens futuros en paralelo con una eficiencia muestral mejorada. Específicamente, insertamos algunos tokens aprendibles en la secuencia de entrada y diseñamos objetivos de entrenamiento correspondientes para dotar al modelo de capacidades de decodificación paralela para el análisis de documentos. Además, para respaldar un entrenamiento efectivo, desarrollamos un pipeline integral de generación de datos que produce eficientemente datos de entrenamiento de análisis de documentos a gran escala y de alta calidad para VLM. Experimentos exhaustivos en OmniDocBench y olmOCR-bench demuestran que nuestro método no solo mejora significativamente la velocidad de decodificación (1.6x-2.2x), sino que también reduce las alucinaciones del modelo y exhibe fuertes habilidades de generalización.
La interpretación del razonamiento interno de los modelos de visión y lenguaje es esencial para desplegar la IA en dominios críticos para la seguridad. La explicabilidad basada en conceptos proporciona una lente alineada con el ser humano al representar el comportamiento de un modelo a través de componentes semánticamente significativos. Sin embargo, los métodos existentes se limitan en gran medida a las imágenes y pasan por alto las interacciones multimodales. Los *embeddings* de texto e imagen, como los producidos por CLIP, sufren de una brecha de modalidad, donde las características visuales y textuales siguen distribuciones distintas, lo que limita la interpretabilidad. El Análisis de Correlación Canónica (CCA) ofrece una forma fundamentada de alinear características de diferentes distribuciones, pero no ha sido aprovechado para el análisis a nivel de conceptos multimodales. Demostramos que los objetivos de CCA e InfoNCE están estrechamente relacionados, de modo que optimizar CCA optimiza implícitamente InfoNCE, proporcionando un mecanismo simple y sin entrenamiento para mejorar la alineación multimodal sin afectar el objetivo InfoNCE preentrenado. Motivados por esta observación, acoplamos la explicabilidad basada en conceptos con CCA, introduciendo Concept CCA (CoCCA), un marco que alinea los *embeddings* multimodales a la vez que permite una descomposición interpretable de conceptos. Lo extendemos aún más y proponemos Sparse Concept CCA (SCoCCA), que aplica *sparsity* para producir conceptos más disentangulados y discriminativos, facilitando una activación, una ablación y una manipulación semántica mejoradas. Nuestro enfoque generaliza las explicaciones basadas en conceptos a los *embeddings* multimodales y logra un rendimiento de vanguardia en el descubrimiento de conceptos, evidenciado por tareas de reconstrucción y manipulación como la ablación de conceptos.
La prueba virtual de ropa (VTON) ha avanzado en la visualización de prendas individuales, pero el mundo real de la moda se centra en conjuntos completos con múltiples prendas, accesorios, categorías granulares, superposiciones y diversos estilos, lo que sigue estando fuera del alcance de los sistemas VTON actuales. Los conjuntos de datos existentes son limitados en categorías y carecen de diversidad de atuendos. Presentamos Garments2Look, el primer conjunto de datos multimodal a gran escala para VTON a nivel de conjunto, que comprende 80.000 pares de múltiples-prendas-para-un-look en 40 categorías principales y más de 300 subcategorías granulares. Cada par incluye un conjunto con 3-12 imágenes de referencia de las prendas (promedio 4.48), una imagen del modelo luciendo el conjunto y anotaciones textuales detalladas de las prendas y de la prueba virtual. Para equilibrar autenticidad y diversidad, proponemos un pipeline de síntesis. Este implica construir heurísticamente listas de conjuntos antes de generar los resultados de la prueba virtual, sometiendo todo el proceso a un filtrado automático estricto y a validación humana para garantizar la calidad de los datos. Para explorar la dificultad de la tarea, adaptamos métodos VTON de vanguardia y modelos de edición de imágenes de propósito general para establecer líneas base. Los resultados muestran que los métodos actuales tienen dificultades para probarse conjuntos completos de forma fluida y para inferir la superposición y el estilo correctos, lo que genera desalineaciones y artefactos.
La síntesis de voz de flujo completo (TTS) para sistemas interactivos debe comenzar a hablar con una latencia mínima, manteniendo la capacidad de control a medida que el texto llega de forma incremental. Presentamos VoXtream2, un modelo TTS de flujo completo de cero-shot con control dinámico de la velocidad del habla que puede actualizarse sobre la marcha a mitad de una expresión. VoXtream2 combina un mecanismo de correspondencia de distribuciones sobre estados de duración con una guía libre de clasificadores a través de señales de condicionamiento para mejorar la controlabilidad y la calidad de la síntesis. El enmascaramiento de texto de prompt permite la incitación con audio sin texto, eliminando la necesidad de transcripción del prompt. En benchmarks estándar de cero-shot y un conjunto de pruebas dedicado a la velocidad del habla, VoXtream2 logra resultados objetivos y subjetivos competitivos frente a líneas de base públicas, a pesar de tener un modelo más pequeño y menos datos de entrenamiento. En modo de flujo completo, funciona 4 veces más rápido que el tiempo real con una latencia del primer paquete de 74 ms en una GPU de consumo.
Los avances recientes en generación discreta de imágenes han demostrado que escalar el tamaño del codebook VQ mejora significativamente la fidelidad de la reconstrucción. Sin embargo, entrenar modelos generativos con un codebook VQ grande sigue siendo un desafío, ya que normalmente requiere modelos de mayor tamaño y ciclos de entrenamiento más prolongados. En este trabajo, proponemos la Minimización de la Entropía Cruzada del Vecino Estocástico (SNCE), un objetivo de entrenamiento novedoso diseñado para abordar los desafíos de optimización de los generadores de imágenes discretas con codebooks grandes. En lugar de supervisar el modelo con un objetivo one-hot rígido, SNCE construye una distribución categorial suave sobre un conjunto de tokens vecinos. La probabilidad asignada a cada token es proporcional a la proximidad entre su code embedding y el embedding de la imagen de referencia, incentivando al modelo a capturar una estructura geométrica semánticamente significativa en el espacio de embedding cuantizado. Realizamos experimentos exhaustivos en generación condicionada por clases en ImageNet-256, síntesis de texto a imagen a gran escala y tareas de edición de imágenes. Los resultados muestran que SNCE mejora significativamente la velocidad de convergencia y la calidad general de la generación en comparación con los objetivos de entropía cruzada estándar.
La respuesta a preguntas clínicas sobre registros de salud electrónicos (EHR) puede ayudar a médicos y pacientes a acceder a información médica relevante de manera más eficiente. Sin embargo, muchos enfoques recientes dependen de grandes modelos basados en la nube, que son difíciles de implementar en entornos clínicos debido a restricciones de privacidad y requisitos computacionales. En este trabajo, investigamos hasta qué punto se puede llevar la respuesta a preguntas basada en EHR cuando se restringe a un solo ordenador portátil. Participamos en las cuatro subtareas del shared task ArchEHR-QA 2026 y evaluamos varios enfoques diseñados para ejecutarse en hardware estándar. Todos los experimentos se realizan localmente sin APIs externas ni infraestructura en la nube. Nuestros resultados muestran que dichos sistemas pueden lograr un rendimiento competitivo en los rankings del shared task. En particular, nuestras presentaciones obtienen un rendimiento superior al promedio en dos subtareas, y observamos que modelos más pequeños pueden acercarse al rendimiento de sistemas mucho más grandes cuando están correctamente configurados. Estos hallazgos sugieren que los sistemas de respuesta a preguntas sobre EHR que preservan la privacidad y se ejecutan completamente de forma local son viables con los modelos actuales y hardware estándar. El código fuente está disponible en https://github.com/ibrahimey/ArchEHR-QA-2026.