Artículos de investigación en IA seleccionados diariamente con traducciones
Las habilidades de los agentes hoy en día son artesanales, generadas de una sola vez, o evolucionadas mediante auto-revisión débilmente controlada; ninguna de ellas se comporta como un optimizador de aprendizaje profundo para la habilidad, y ninguna mejora de manera fiable su punto de partida bajo retroalimentación. Sostenemos que la habilidad debería ser entrenada como el estado externo de un agente congelado, con la misma disciplina que hace reproducible la optimización del espacio de pesos. Hasta donde sabemos, SkillOpt es el primer optimizador sistemático y controlable en el espacio textual para habilidades de agentes: un modelo optimizador independiente convierte simulaciones puntuadas en ediciones acotadas de añadir/eliminar/reemplazar sobre un único documento de habilidad, y una edición se acepta solo cuando mejora estrictamente una puntuación de validación reservada. Un presupuesto de tasa de aprendizaje textual, un búfer de ediciones rechazadas y una actualización lenta/meta por época hacen que el entrenamiento de la habilidad sea estable, sin agregar llamadas al modelo en tiempo de inferencia durante el despliegue. En seis benchmarks, siete modelos objetivo y tres plataformas de ejecución (chat directo, Codex, Claude Code), SkillOpt es el mejor o empata en las 52 celdas evaluadas (modelo, benchmark, plataforma) y supera a todos los competidores por celda entre habilidades humanas, de LLM de una sola vez, Trace2Skill, TextGrad, GEPA y EvoSkill. En GPT-5.5, eleva la precisión media sin habilidad en +23.5 puntos en chat directo, en +24.8 dentro del bucle agentivo de Codex, y en +19.1 dentro de Claude Code. Los experimentos de transferencia muestran además que los artefactos de habilidad optimizados conservan valor al trasladarse entre escalas de modelo, entre los entornos de ejecución de Codex y Claude Code, y hacia un benchmark matemático cercano sin necesidad de optimización adicional.
Los Transformadores de Difusión (DiTs) se han convertido en la columna vertebral de facto de la generación visual moderna, y casi todos los ejes principales de su diseño —tokenización, atención, condicionamiento, objetivos y autoencoders latentes— han sido revisados exhaustivamente. Sin embargo, el flujo residual que gobierna cómo se acumula la información a través de las capas se ha heredado directamente del Transformador original. En este artículo, presentamos un análisis empírico sistemático del flujo de información entre capas en los DiTs, considerando conjuntamente la profundidad y el paso temporal de eliminación de ruido, e identificamos tres síntomas concretos de la adición residual tradicional: inflación monotónica de la magnitud hacia adelante, decaimiento pronunciado del gradiente hacia atrás y redundancia pronunciada a nivel de bloques. Motivados por este diagnóstico, proponemos el Enrutamiento Adaptativo para la Difusión (DAR), un reemplazo residual directo que realiza una agregación aprendible, adaptativa al paso temporal y no incremental sobre el historial de salidas de las subcapas. Además, el DAR propuesto es compatible con muchos métodos modernos de mejora de Transformadores, como REPA. En ImageNet 256×256, DAR mejora SiT-XL/2 en 2,11 de FID (7,56 frente a 9,67) y alcanza la calidad convergida del modelo base con 8,75 veces menos iteraciones de entrenamiento. Al aplicarse sobre REPA, proporciona una aceleración del entrenamiento de 2× en la etapa inicial, lo que sugiere que el enrutamiento de información entre capas es un eje de diseño poco explorado en el modelado de difusión, que opera de manera ortogonal a los objetivos existentes de alineación de representaciones. Más allá del preentrenamiento, DAR también puede aplicarse durante la etapa de ajuste fino de modelos T2I a gran escala y preserva los detalles de alta frecuencia durante la Destilación por Emparejamiento de Distribuciones.
Presentamos Lens, un modelo T2I de 3.8 mil millones de parámetros que alcanza un rendimiento competitivo con, y en varios casos superior a, los modelos de vanguardia de más de 6 mil millones de parámetros en diversos puntos de referencia, al tiempo que requiere significativamente menos cómputo de entrenamiento. Por ejemplo, Lens requiere solo aproximadamente el 19.3% del cómputo de entrenamiento utilizado por Z-Image. La eficiencia de entrenamiento de Lens se deriva de dos estrategias clave más allá de su tamaño compacto. En primer lugar, maximizamos la densidad de información de los datos por lote de entrenamiento mediante (i) el entrenamiento en Lens-800M, un conjunto de datos de 800 millones de pares imagen-texto con subtítulos densos, cuyas leyendas son generadas por GPT-4.1 y contienen un promedio de aproximadamente 109 palabras, proporcionando una supervisión semántica más rica que los subtítulos cortos convencionales, y (ii) la construcción de cada lote a partir de imágenes con múltiples resoluciones y diversas relaciones de aspecto, ampliando así la cobertura visual efectiva de cada paso de optimización. En segundo lugar, mejoramos la velocidad de convergencia mediante cuidadosas elecciones arquitectónicas, incluyendo la adopción de un VAE semántico que proporciona mejores representaciones latentes y el empleo de un codificador de lenguaje potente que acelera la optimización al tiempo que permite la generalización multilingüe a partir de datos de entrenamiento exclusivamente en inglés. Tras el preentrenamiento, aplicamos aprendizaje por refuerzo con indicaciones taxonómicas (Lens-RL-8K) y rúbricas de recompensa estructuradas para suprimir artefactos y mejorar la calidad visual, un módulo razonador con búsqueda de indicaciones del sistema sin entrenamiento para alinear mejor las solicitudes del usuario con el modelo, y una aceleración basada en destilación para la inferencia en 4 pasos. Mediante un entrenamiento eficiente y una optimización sistemática, Lens se generaliza a relaciones de aspecto arbitrarias desde 1:2 hasta 2:1 y resoluciones de hasta 1440^2, y admite indicaciones en varios idiomas de uso común. Gracias a su tamaño compacto, Lens genera una imagen de 1024^2 en 3.15 segundos en una única GPU NVIDIA H100, mientras que su versión turbo destilada realiza la generación en 4 pasos en 0.84 segundos.
El crecimiento exponencial de la producción académica global ha enfrentado a investigadores y agentes de IA con una "explosión de información" sin precedentes, donde la organización fragmentada y no estructurada del conocimiento impide una integración interdisciplinaria profunda. Las herramientas actuales de recuperación académica dependen predominantemente de la coincidencia superficial de palabras clave o de la recuperación semántica en espacios vectoriales, las cuales carecen de las capacidades de razonamiento topológico necesarias para navegar conexiones lógicas complejas. Los marcos de trabajo basados en investigación profunda con agentes suelen ser propensos a alucinaciones lógicas y a consumir altos costos de inferencia. Para cerrar esta brecha, en este informe presentamos SciAtlas, un grafo de conocimiento de recursos académicos heterogéneos, multidisciplinarios y de gran escala, diseñado como una red panorámica de evolución científica. Al integrar más de 43 millones de artículos de 26 disciplinas, y un total de 157 millones de entidades y 3 mil millones de tripletes, SciAtlas proporciona un sustrato cognitivo topológico estructurado que desmantela las barreras disciplinarias y dota a los agentes de IA de una perspectiva global. Además, desarrollamos un algoritmo de recuperación neuro-simbólico que cuenta con recuperación colaborativa de tres vías y reordenamiento por grafos, logrando una transición fluida desde la coincidencia semántica simple hasta el descubrimiento determinista de asociaciones. También presentamos direcciones clave de aplicación de SciAtlas, que incluyen revisión de literatura, síntesis automatizada de tendencias de investigación, posicionamiento de ideas y exploración de trayectorias académicas, para demostrar que SciAtlas puede servir como un "mapa cognitivo" eficaz que potencie el ciclo completo de la investigación científica automatizada, al tiempo que reduce significativamente los costos de razonamiento. Hemos publicado las interfaces para la recuperación del grafo de conocimiento y diversas tareas posteriores en nuestro repositorio de GitHub.
El modelado unificado de audio-lenguaje se ha consolidado como una tendencia destacada en los sistemas modernos de habla, prometiendo incorporar las capacidades de razonamiento de los grandes modelos de lenguaje a tareas auditivas. Sin embargo, las bases unificadas existentes a menudo tienen dificultades para igualar la profundidad de los sistemas especializados en áreas como el reconocimiento automático del habla (ASR), la síntesis de texto a voz (TTS) y la interacción oral en tiempo real. Superar esta brecha sigue siendo un desafío abierto. Este informe presenta StepAudio 2.5, un modelo fundacional unificado de audio-lenguaje que iguala o supera a los sistemas especializados en las tres capacidades. En lugar de tratar estas tareas como arquitectónicamente distintas, partimos de la premisa de que, una vez que el texto y el audio comparten un espacio representacional multimodal, la especialización de tareas se convierte en una cuestión de regímenes operativos: construcción de datos, objetivos de optimización y restricciones de decodificación. Guiados por esta perspectiva, avanzamos el paradigma de post-entrenamiento desde el aprendizaje supervisado estándar hacia el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) adaptado a tareas, utilizándolo como mecanismo principal para definir objetivos de optimización complejos. Aprovechamos esta alineación centrada en RLHF, junto con una decodificación especializada, para moldear una arquitectura compartida en tres modos operativos distintos. En concreto, la rama ASR mejora la eficiencia de la transcripción mediante una decodificación verificable de múltiples tokens; la rama TTS logra una síntesis controlable y expresiva a través de RLHF basado en preferencias y una supervisión rica en contexto; y la rama en Tiempo Real realiza un diálogo de baja latencia y consistente con la persona mediante un modelado de recompensa generativo dentro de un marco RLHF. En puntos de referencia estándar, StepAudio 2.5 alcanza resultados de vanguardia en ASR, TTS y Tiempo Real, demostrando que un modelo fundacional singular de audio-lenguaje puede internalizar con éxito los distintos objetivos de implementación de la comprensión del habla, la generación y la interacción en vivo.
Presentamos SWIM (See What I Mean), una estrategia novedosa de entrenamiento que alinea representaciones visuales y lingüísticas para permitir una comprensión detallada de objetos únicamente a partir de instrucciones textuales. A diferencia de los enfoques existentes que requieren instrucciones visuales explícitas, como máscaras o puntos, SWIM aprovecha la supervisión de máscaras solo durante el entrenamiento para guiar la atención entre modalidades, lo que permite que el modelo atienda automáticamente al objeto especificado por el usuario en la inferencia. Nuestro análisis de atención entre modalidades de modelos de lenguaje grandes multimodales (MLLMs) preentrenados revela una discrepancia sistemática: las palabras de atributo producen activaciones nítidas y localizadas en la modalidad visual, mientras que los sustantivos de objeto generan patrones difusos y dispersos debido al sesgo de referencia semántica y a las representaciones distribuidas de alto nivel. Para abordar esta desalineación, construimos NL-Refer, un conjunto de datos enriquecido en el que cada máscara de objeto se empareja con una expresión de referencia en lenguaje natural precisa. SWIM extrae mapas de atención entre modalidades de múltiples capas a partir de los sustantivos de objeto e impone consistencia espacial con las máscaras de referencia. Los resultados experimentales demuestran que SWIM mejora sustancialmente la alineación texto-visual y logra un rendimiento superior al de los métodos basados en instrucciones visuales en referencias de comprensión detallada de objetos. El código y los datos están disponibles en https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.
Los agentes lingüísticos mejoran cada vez más mediante la reutilización de habilidades — artefactos procedimentales estructurados destilados a partir de la experiencia previa. En particular, las habilidades a nivel de dominio y generadas por modelos resultan especialmente prometedoras. Ofrecen una rápida adaptación dentro de un dominio al codificar procedimientos recurrentes específicos, y escalan más allá de la elaboración manual que requiere mucho trabajo. Sin embargo, aunque los métodos de extracción continúan proliferando, la comprensión sigue siendo limitada, sin un estudio exhaustivo que abarque todo el ciclo de vida de la habilidad — generación de experiencia, extracción de habilidades y consumo de habilidades — para preguntar si dichas habilidades realmente funcionan, cuándo funcionan y qué determina su éxito o fracaso. Para cerrar esta brecha, construimos un marco de evaluación basado en la utilidad que proporciona resultados experimentales sistemáticos a través de extractores y agentes objetivo, abarcando cinco dominios de tareas agentivas diversas. Encontramos que las habilidades generadas por modelos son beneficiosas en promedio, pero presentan una transferencia negativa no trivial, y que ni los extractores ni los objetivos se comportan de manera uniforme. Un modelo puede ser un extractor fuerte pero un consumidor débil, o viceversa, con una utilidad de la habilidad independiente de la escala del modelo o de la fortaleza basal de la tarea. Para explicar estos patrones, luego diseccionamos en profundidad cada etapa del ciclo de vida, analizando cómo la composición de la experiencia moldea la calidad de la habilidad, qué propiedades caracterizan a las habilidades útiles y cómo la misma habilidad se transfiere entre diferentes consumidores. Finalmente, traducimos estos hallazgos en una meta-habilidad concreta que guía la extracción de habilidades hacia las características vinculadas a la utilidad real, lo que mejora consistentemente la calidad de la habilidad en todos los dominios y reduce sustancialmente la transferencia negativa.
La mayoría de los sistemas prácticos de texto a imagen de alta resolución, incluidos los de difusión latente y los modelos autorregresivos, realizan la generación en un espacio latente compacto, y un decodificador mapea los latentes generados de vuelta a píxeles. Sin embargo, el decodificador de latente a píxel está orientado a la reconstrucción, optimizado para invertir el codificador en lugar de sintetizar más detalles, y se vuelve cada vez más costoso a escala de megapíxeles. Este inconveniente exige un paradigma de decodificación más expresivo y eficiente. Motivados por los recientes avances en la difusión escalable en el espacio de píxeles, presentamos PiD, un Decodificador de Difusión de Píxeles que reformula la decodificación latente como difusión condicional de píxeles, unificando la decodificación y el sobremuestreo en un único módulo generativo. Al eliminar el ruido directamente en el espacio de píxeles de alta resolución, PiD sintetiza imágenes con un aumento de 4 e incluso 8 veces con baja latencia. Para el condicionamiento latente, un adaptador ligero sensible a sigma inyecta latentes corruptos por ruido en la columna vertebral de difusión de píxeles, lo que permite a PiD decodificar latentes parcialmente denoizados y terminar el proceso de difusión latente de forma temprana. Para mejorar aún más la eficiencia, destilamos el modelo mediante DMD2, reduciendo la inferencia a solo 4 pasos. PiD se aplica tanto a latentes VAE convencionales como a latentes semánticos (por ejemplo, SigLIP, DINOv2) utilizados en modelos recientes basados en RAE. PiD decodifica latentes de imágenes de 512 × 512 píxeles en píxeles de 2048 × 2048 en menos de 1 segundo con un pico de memoria de 13 GB en una RTX 5090 de consumo, y tan rápido como 210 ms en una GPU GB200, aproximadamente 6 veces más rápido que los sistemas de superresolución basados en difusión en cascada con mejor fidelidad visual.
La fotografía virtual requiere que un agente ingrese a una escena 3D preparada sin una pose de cámara predefinida ni una imagen de referencia, infiera una toma adecuada a partir de la información de la escena y una intención lingüística, elija parámetros de cámara ejecutables y renderice la fotografía final. Los recientes avances en modelos de visión-lenguaje hacen que este tipo de agente espacial sea cada vez más viable, pero la tarea exige dos capacidades que siguen siendo difíciles de evaluar conjuntamente: la comprensión espacial 3D compleja y el juicio estético abstracto. Presentamos PhotoFlow, un agente Director-Revisor-Reflector para la búsqueda de cámara en lazo cerrado. El Director construye un modelo fotográfico flexible y propone diversas cámaras candidatas; el Revisor combina verificaciones de reglas, crítica visual y selección por pares del candidato actual; y el Reflector convierte los fallos en memoria de regiones, supresión de zonas muertas y reubicación de alta exploración. También presentamos VPhotoBench, un punto de referencia compuesto por 47 escenas Blender de código abierto y 141 misiones fotográficas condicionadas por lenguaje que abarcan ubicación del sujeto, composición relacional y atmósfera/estilo. En experimentos con datos no vistos, PhotoFlow logra el compuesto más sólido de alineación de calidad externa y la tasa de éxito más alta entre la predicción de un solo disparo, la reflexión de cadena única, la selección mediante banco de anclas y la búsqueda aleatoria bajo un presupuesto de renderizado de seis rondas. Hasta donde sabemos, este es el primer trabajo que convierte la fotografía virtual condicionada por lenguaje en escenas Blender arbitrarias en una tarea de agente ejecutable, y nuestros resultados muestran que un agente espacial centrado en LLM ya puede producir fotografías sólidas en un entorno diseñado para desafiar tanto el razonamiento 3D como la elección estética.
El razonamiento espacio-temporal es una capacidad fundamental para los Modelos de Lenguaje Grandes Multimodales (MLLMs) que operan en el mundo real. Por ello, evaluarlo con precisión se ha convertido en un desafío esencial. Sin embargo, los conjuntos de datos de referencia existentes para el razonamiento espacio-temporal se basan principalmente en conjuntos de imágenes estáticas o datos de video curados de forma pasiva, lo que limita la evaluación de capacidades de razonamiento detalladas. En este artículo, presentamos VGenST-Bench, un punto de referencia de video que emplea modelos generativos para sintetizar activamente escenarios de evaluación altamente controlados y diversos. Para construir VGenST-Bench, proponemos un flujo de trabajo multiagente que incorpora una etapa de control de calidad humana, garantizando la calidad de todos los videos y pares de preguntas y respuestas generados. Establecemos una taxonomía de video integral 3x2x2, que abarca Escala Espacial, Perspectiva y Dinámica de Escena para cubrir diversos escenarios. Además, diseñamos un conjunto jerárquico de tareas que desacopla la percepción visual de bajo nivel del razonamiento espacio-temporal de alto nivel. Al cambiar el paradigma de la curación pasiva a la síntesis activa, VGenST-Bench permite un diagnóstico detallado de la comprensión espacio-temporal en los MLLMs.
Los modelos de texto a imagen (T2I) autoregresivos (AR) discretos emparejan un tokenizador VQ con una política AR, y los pipelines actuales de post-entrenamiento optimizan únicamente la política mientras mantienen congelado el decodificador VQ. Trabajos recientes sobre T2I por difusión, ejemplificados por REPA-E, han demostrado que el propio VAE constituye un cuello de botella clave en la alineación, sin que exista una investigación análoga para modelos AR discretos. Demostramos que la optimización solo de la política induce un Desplazamiento de Covariables Latentes: a medida que la política evoluciona, la distribución resultante de tokens diverge de la distribución real con la que se entrenó el decodificador, de modo que las puntuaciones de recompensa mejoran mientras que la calidad de la imagen decodificada se degrada. Para abordar esta discrepancia, proponemos RankE, el primer marco de post-entrenamiento de extremo a extremo para generación T2I discreta. En lugar de optimizar la política frente a un decodificador fijo, RankE co-evoluciona ambos componentes mediante optimización alternada: cada módulo maximiza un objetivo de alineación basado en rankings, a la vez que se regulariza mediante un ancla de preservación de estabilidad adaptada a su espacio de parámetros. Esta co-evolución rompe el equilibrio entre fidelidad y alineación que afecta a los enfoques de decodificador congelado: en LlamaGen-XL (775M), el RL estándar mejora CLIP pero empeora FID, mientras que RankE mejora ambos simultáneamente (FID 15.21, CLIP 33.76 en MS-COCO 30K). Las mejoras consistentes en Janus-Pro (1B) confirman que la co-evolución del decodificador convierte de manera fiable la optimización de recompensas en mejoras de calidad a nivel de píxeles.
Los Modelos de Lenguaje Grandes Multimodales han avanzado en el razonamiento visual, pero una cadena de pensamiento puramente textual sigue siendo un cuello de botella para preguntas que requieren un enfoque detallado o transformaciones de vista. El paradigma de "pensar con imágenes" reduce esta brecha, pero los enfoques existentes están limitados por kits de herramientas predefinidos fijos o producen imágenes intermedias ruidosas a partir de métodos multimodales unificados. Perseguimos una tercera opción: utilizar un modelo de edición de imágenes dedicado y desacoplarlo de un modelo de comprensión. Sin embargo, los editores de imágenes listos para usar fallan como asistentes de razonamiento debido a dos brechas complementarias: una brecha del lado del lenguaje, donde los editores entrenados como seguidores pasivos de instrucciones no pueden mapear una pregunta abstracta a una transformación visual adecuada, y una brecha del lado de la generación, donde la corrección de la edición se degrada a medida que aumenta la profundidad del razonamiento. Guiados por este análisis, presentamos ETCHR (Editing To Clarify and Harness Reasoning), un editor de imágenes condicionado por preguntas y consciente del razonamiento, desacoplado del modelo de comprensión posterior y entrenado con una receta de dos etapas dirigida a las dos brechas: Imitación de Razonamiento mediante ajuste fino supervisado en trayectorias de edición, seguida de Mejora del Razonamiento con recompensas derivadas de VLM para la corrección de la edición y la precisión del razonamiento posterior. Dado que el editor está desacoplado, ETCHR se integra en diferentes MLLMs de código abierto y cerrado de manera sin entrenamiento. En cinco familias de tareas (percepción detallada, comprensión de gráficos, razonamiento lógico, restauración de rompecabezas y comprensión 3D), ETCHR eleva el promedio de Pass@1 de 55.95 a 60.77 (+4.82) con Qwen3-VL-8B, de 65.08 a 70.55 (+5.47) con Gemini-3.1-Flash-Lite, y de 76.55 a 81.16 (+4.61) con el modelo MoE de 1T parámetros Kimi K2.5.
Los modelos de mundo interactivos para juegos de disparos en primera persona (FPS) deben resolver señales de control superpuestas de alta frecuencia en cada fotograma sin perturbar las regiones no afectadas. Los métodos existentes inyectan acciones de forma global y se entrenan en títulos individuales, fallando bajo entradas densas de FPS. Observamos que las acciones en FPS son espacialmente selectivas: eventos discretos como disparar o recargar afectan solo una región localizada alrededor del arma (el alcance), mientras que las señales continuas de cámara y movimiento gobiernan entornos estables. Proponemos SCOPE, que inserta un módulo de condicionamiento en cada bloque transformer de un modelo de difusión de video preentrenado. Este remodela las características en secuencias temporales por píxel, de modo que cada posición calcula su respuesta a la acción a partir del contenido visual local. Esto separa los efectos dentro del alcance de la generación fuera del alcance sin etiquetas de segmentación. También introducimos CrossFPS, el primer conjunto de datos de FPS multijuego con telemetría de acciones alineada con fotogramas. Comprende 69K clips de 7 títulos con señales de control de 10 grados de libertad, curados para eliminar el sesgo de jugabilidad. El modelo aprende mapeos visuales a acciones generales en lugar de patrones específicos de cada juego, lo que permite la transferencia de aprendizaje cero a escenas no vistas. Los experimentos confirman una fuerte capacidad de respuesta a las acciones, una separación precisa del alcance y una generalización efectiva entre juegos.
Las leyes de escalado existentes para los Modelos de Lenguaje de Gran Escala (LLMs), predominantemente leyes de potencia monótonas, no logran explicar fenómenos no monótonos emergentes como el sobreentrenamiento catastrófico y la degradación inducida por cuantificación, donde el rendimiento se deteriora a pesar de un mayor cómputo. Proponemos la Ley de Escalado de Shannon, un marco teórico unificado que modela el entrenamiento de LLMs como transmisión de información sobre un canal ruidoso, fundamentado en el teorema de Shannon-Hartley. Al mapear los parámetros del modelo al ancho de banda del canal y los tokens de entrenamiento a la potencia de la señal, nuestra formulación captura explícitamente la interacción entre la señal de aprendizaje y el ruido intrínseco. Esta perspectiva revela una capacidad de Shannon fundamental para los LLMs: escalar el tamaño del modelo o los datos sin preservar una relación señal-ruido (SNR) suficiente inevitablemente amplifica el ruido, induciendo una transición de una mejora monótona a una degradación del rendimiento en forma de U. Validamos nuestra teoría mediante experimentos en Pythia y OLMo2 bajo perturbaciones, incluyendo ruido gaussiano, cuantificación y ajuste fino supervisado en tareas de matemáticas, preguntas y respuestas (QA) y código. La Ley de Escalado de Shannon supera consistentemente a las leyes de escalado clásicas y a las leyes recientes conscientes de perturbaciones, logrando puntuaciones R² sólidas y capturando con precisión cuencas de pérdida que los enfoques anteriores pasaban por alto. También extrapola: ajustada en modelos Pythia de ≤6.9B con ≤180B tokens, predice el modelo no visto de 12B hasta 307B tokens con un R² agrupado=0.847, mientras que las líneas base monótonas colapsan.
Los avances recientes en modelos de visión-lenguaje (VLMs) enfatizan el razonamiento de cadena de pensamiento largo; sin embargo, encontramos que su rendimiento en tareas visuales está limitado principalmente por una falta de percepción visual más que por el razonamiento en sí. En este trabajo, estudiamos sistemáticamente la interacción entre percepción y razonamiento en el post-entrenamiento de VLMs descomponiendo sus capacidades en tres etapas de entrenamiento separadas: percepción visual, razonamiento visual y razonamiento textual, incorporando datos de entrenamiento especializados. Demostramos que la percepción visual (a) requiere optimización dirigida con datos especializados; (b) sirve como un andamiaje fundamental que debe consolidarse mediante entrenamiento por etapas antes de refinar el razonamiento visual; y (c) se aprende de manera más efectiva mediante RL que mediante SFT basado en descripciones. Nuestros experimentos con múltiples VLMs muestran que el entrenamiento por etapas mejora consistentemente tanto la percepción visual como el rendimiento en razonamiento en comparación con el entrenamiento combinado. Notablemente, los modelos entrenados con nuestro enfoque logran un 1.5% más de precisión en razonamiento con un 20.8% menos de trazas de razonamiento, lo que sugiere que una percepción superior reduce la necesidad de razonamiento excesivo. Además, mostramos que esta segmentación basada en capacidades representa una nueva dimensión curricular ortogonal a los currículos tradicionales basados en dificultad, y combinar ambas produce ganancias adicionales aditivas. Nuestros modelos de entrenamiento por etapas alcanzan un rendimiento superior entre los VLMs de pesos abiertos, estableciendo resultados avanzados en varias tareas de matemáticas visuales y percepción (por ejemplo, +5.2% en WeMath y +3.7% en RealWorldQA) en comparación con su contraparte base.
La generación de video controlada por cámara ha logrado avances notables en los últimos años. Sin embargo, los métodos existentes de re-renderización de video a video se basan principalmente en el Ajuste Fino Supervisado utilizando conjuntos de datos sintéticos. En la actualidad, existe una escasez extrema de datos de video del mundo real sincronizados y multivista. En consecuencia, el paradigma predominante suele presentar una generalización limitada al procesar videos del mundo real fuera de distribución, donde los modelos tienen dificultades para adherirse con precisión a las escalas físicas y las trayectorias de cámara. Para cerrar esta brecha, proponemos Geo-Align, el primer marco de Aprendizaje por Refuerzo diseñado específicamente para la re-renderización de video controlada por cámara. Construido sobre un modelo preentrenado, optimizamos el modelo mediante un mecanismo de recompensa perceptual consciente de la escala. Específicamente, introducimos un estimador 3D métrico para extraer trayectorias de cámara precisas a partir de videos generados, penalizando explícitamente las desviaciones en rotación y traslación. Además, diseñamos meticulosamente una estrategia de tubería de datos basada en videos condicionantes del mundo real y trayectorias de cámara objetivo derivadas de datos sintéticos, eliminando la dependencia de datos emparejados. Experimentos exhaustivos demuestran que Geo-Align supera consistentemente a las líneas base de aprendizaje supervisado existentes tanto en controlabilidad precisa de la cámara como en fidelidad visual, lo que indica la efectividad de nuestro método.
Muon es un optimizador consciente de la matriz que aprovecha las iteraciones de Newton-Schulz (NS) para imponer la ortogonalización espectral del gradiente llevando todos los valores singulares de la matriz de momento hacia 1. Si bien este blanqueo espectral uniforme mejora la exploración y supera a AdamW en el preentrenamiento de LLMs, mostramos que puede conducir a limitaciones fundamentales más allá del preentrenamiento en dos regímenes: (i) entrenamiento multimodal visión-lenguaje-acción (VLA), donde los gradientes inherentemente de bajo rango del módulo de acción causan amplificación de direcciones de cola ruidosas, y (ii) aprendizaje por refuerzo con recompensas verificables (RLVR), donde los gradientes de baja SNR y la necesidad de preservar la especialización por cabeza del entrenamiento previo hacen que el blanqueo sea inestable. Para abordar estos desafíos, proponemos Pion, un reemplazo directo para Muon que preserva su eficiencia computacional mientras sustituye el blanqueo espectral uniforme por un mecanismo de dos etapas de Promoción+Supresión, al que denominamos iteración NS de paso alto. Este diseño induce un fuerte efecto espectral de paso alto, anclando los valores singulares dominantes en 1 mientras suprime los componentes de cola ruidosos hacia 0, con una fuerza de filtro controlable. Para preservar la heterogeneidad preentrenada por cabeza, Pion también admite un modo por cabeza que aplica actualizaciones de forma independiente entre las cabezas de atención mediante una simple reorganización, sin costo adicional. En el entrenamiento VLA en LIBERO y LIBERO-Plus, Pion supera consistentemente a ambas líneas base en las arquitecturas de regresión \(l_1\) (VLA-Adapter) y de emparejamiento de flujo (VLANeXt), por ejemplo, alcanzando una tasa de éxito del 100% en LIBERO Object después de 1500 pasos de entrenamiento con VLA-Adapter, frente al 97,0% para Muon y solo el 32,2% para AdamW. La ventaja de Pion se extiende además a un robot real Franka Research 3 con un backbone \(\pi_{0.5}\) bajo la configuración DROID en tres tareas de agarre y colocación. En el posentrenamiento RLVR en Qwen3-1.7B/4B con GRPO y GMPO, Pion también supera a AdamW en MATH y GSM8K mientras que Muon colapsa a cero.
Presentamos un nuevo enfoque para la reconstrucción de escenas 3D de alta fidelidad a partir de imágenes RGB multivista, que acopla estrechamente la reconstrucción con un fuerte prior generativo 3D. Planteamos la reconstrucción de escenas como una generación 3D condicionada sobre un conjunto de fragmentos superpuestos y localizados espacialmente que, en conjunto, teselan la escena, escalando la generación a extensiones de escena amplias. De manera crucial, heredamos la fidelidad y completitud de los modelos generativos de formas de última generación —utilizamos Trellis.2 como ejemplo—, los cuales generalizamos al nivel de la escena. Con este fin, proponemos un mecanismo de condicionamiento basado en proyección que eleva las características de imágenes multivista posicionadas en una representación 3D coherente alineada con el modelo generativo, independiente del orden de las vistas y anclada espacialmente a la escena, produciendo geometría generada de alta fidelidad y consistente entre vistas. Esto permite elevar el fuerte prior a nivel de objeto de Trellis.2 a una generación multivista a escala de escena, produciendo reconstrucciones de malla PBR fieles y editables de entornos interiores. Como resultado, obtenemos resultados de alta fidelidad que superan en un 16% a los métodos de reconstrucción de vanguardia.
Los modelos multimodales unificados (UMM) logran un alto rendimiento tanto en comprensión como en generación al aprender un espacio latente compartido, pero a menudo presentan una inconsistencia funcional entre estas dos capacidades. Observamos que este problema no surge de la falta de representaciones compartidas, sino de la ausencia de una alineación explícita entre las transformaciones que mapean hacia y desde el espacio latente. Como resultado, la generación y la recodificación pueden seguir trayectorias inconsistentes, lo que provoca una deriva semántica durante las transiciones de modalidad. En este trabajo, proponemos LatentUMM, un marco que construye un espacio latente compartido mejorado para alinear explícitamente estas transformaciones y mejorar la consistencia entre modalidades. LatentUMM consta de dos etapas. En primer lugar, la alineación latente dual impone consistencia tanto a nivel de modalidad como de capacidad: la alineación entre modalidades utiliza un modelo de incrustación más robusto para imponer semántica estructurada entre modalidades, mientras que la alineación de capacidad dual garantiza consistencia bidireccional bajo generación y recodificación. En segundo lugar, la estabilización de la dinámica latente mejora la robustez mediante despliegues latentes estocásticos y optimización de preferencias, favoreciendo trayectorias que preservan mejor la consistencia semántica. Los experimentos muestran que LatentUMM mejora consistentemente la consistencia multimodal en diversas arquitecturas. El código está disponible en: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.
Los transformadores de geometría visual se han convertido en arquitecturas potentes para la reconstrucción 3D multivista, permitiendo la predicción conjunta de múltiples atributos 3D de manera directa (feed-forward). Sin embargo, su costo computacional crece cuadráticamente con la longitud de la secuencia de entrada debido a las capas de atención global dentro de estos modelos. Esto limita tanto su escalabilidad como su eficiencia. En este trabajo, abordamos este desafío con una estrategia simple pero general: restringir el número de tokens clave/valor con los que cada consulta interactúa durante la atención global. Para lograr una selección efectiva de tokens, introducimos un marco de dos etapas. Primero, un paso de selección entre fotogramas opera a nivel de fotograma para identificar los fotogramas que deben conservarse. Segundo, un paso de selección dentro del fotograma descarta además los tokens más redundantes dentro de los fotogramas seleccionados. Nuestro análisis destaca la ventaja de una estrategia basada en diversidad para la selección entre fotogramas, que garantiza una amplia cobertura de la escena. Para la selección dentro del fotograma, mostramos que es necesaria una dispersión consciente de la capa, donde el proceso de selección se guía por la entropía del patrón de atención global. Nuestro enfoque ofrece una relación velocidad-precisión superior en comparación con las soluciones existentes. Experimentos exhaustivos muestran que acelera los transformadores de geometría visual en más del 85% para escenas con 500 imágenes, manteniendo o incluso mejorando el rendimiento de referencia, lo que sugiere que nuestra estrategia de selección de tokens puede desempeñar un papel crucial en futuras aplicaciones de los transformadores de geometría visual. Nuestro sitio web del proyecto está disponible en https://zsh2000.github.io/good-token-hunting.github.io.
La rápida proliferación de los Modelos de Visión y Lenguaje (VLMs) suele presentarse como habilitadora del descubrimiento unificado de conocimiento multimodal, pero descansa sobre un supuesto poco examinado: que los VLMs actuales sintetizan fielmente los datos multimodales. Sostenemos que a menudo no lo hacen, y esta brecha refleja un problema de confiabilidad en el paradigma dominante de Codificador de Visión-Proyector-LLM. En lugar de extraer conocimiento fundamentado de las entradas visuales, los modelos de vanguardia frecuentemente exhiben ceguera funcional, es decir, explotan fuertes sesgos lingüísticos para eludir graves cuellos de botella en la representación visual. En este trabajo, cuestionamos la metodología convencional de evaluación multimodal, que se basa en la ablación de datos o la creación de nuevos conjuntos de datos y, por lo tanto, confunde los sesgos de los conjuntos de datos con la incapacidad arquitectónica. Proponemos un enfoque basado en la teoría de la información: el Protocolo de Traducción de Modalidades, diseñado para cuantificar lo que denominamos el Coste de Ver. Al traducir las cargas semánticas en lugar de ablarlas, formulamos tres métricas novedosas —el Peaje (ToS), la Maldición (CoS) y la Falacia (FoS) de Ver— que culminan en el Criterio de Suficiencia Semántica (SSC). Además, planteamos la hipótesis de una Ley de Divergencia del Escalamiento Multimodal: a medida que los motores lingüísticos subyacentes escalan hacia capacidades de razonamiento sin precedentes, la penalización del cuello de botella del conocimiento visual puede aumentar, no disminuir. Argumentamos que la comunidad debe ir más allá de la "ganancia multimodal" como objetivo principal de evaluación. Al elevar el SSC de una restricción diagnóstica pasiva a un plano arquitectónico activo, proporcionamos una base para guiar a la próxima generación de sistemas de IA hacia un razonamiento multimodal genuino.
Entrenar agentes LLM de horizonte largo con aprendizaje por refuerzo es un desafío porque las recompensas de resultado dispersas revelan si una tarea se completa, pero no qué acciones intermedias causaron dicho resultado ni cómo deberían corregirse. Métodos recientes alivian este problema generando recompensas o pistas textuales a partir de señales de acción-salida a nivel de turno, o mediante autodestilación condicionada por retroalimentación. Sin embargo, generar retroalimentación en cada turno resulta ineficiente cuando muchos turnos intermedios ya son exitosos o neutros, y aplicar retroalimentación en un turno fijo o desalineado a menudo no logra supervisar las acciones que contribuyeron al fallo. Para cerrar esta brecha, proponemos HINT-SD, un marco de autodestilación dirigida que utiliza retrospectiva de trayectoria completa para seleccionar acciones relevantes al fallo y aplica destilación condicionada por retroalimentación únicamente en tramos de acción específicos. Los experimentos en BFCL v3 y AppWorld muestran que nuestro método mejora la línea base de retroalimentación densa por turno hasta en un 18,80 %, al mismo tiempo que logra un tiempo por paso de entrenamiento 2,26 veces menor, lo que sugiere que seleccionar dónde destilar es un factor clave tanto para un entrenamiento eficaz como eficiente de agentes de horizonte largo.
Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades de razonamiento impresionantes en una amplia gama de tareas, pero la contaminación de datos socava la evaluación objetiva de estas capacidades. Este problema se ve agravado aún más por editores de modelos malintencionados que utilizan estrategias de contaminación evasivas o indirectas, como parafrasear datos de referencia para eludir los métodos de detección existentes y aumentar artificialmente el rendimiento en las tablas de clasificación. Los enfoques actuales tienen dificultades para detectar de manera confiable dicha contaminación sigilosa. En este trabajo, descubrimos un fenómeno crítico: los pasos de razonamiento generados por un modelo enmascaran activamente su memorización subyacente. Inspirándonos en esto, proponemos la Sonda Zero-CoT (ZCP), un novedoso método de detección de caja negra que trunca deliberadamente todo el proceso de Cadena de Pensamiento (CoT) para exponer mapeos de atajo latentes. Para aislar aún más la memorización de las capacidades intrínsecas de resolución de problemas del modelo, ZCP compara el rendimiento zero-CoT del modelo en el conjunto de datos de referencia original con un conjunto de datos de referencia perturbado isomórficamente. Además, introducimos la Confianza de Contaminación, una métrica que cuantifica tanto la probabilidad como la gravedad de la contaminación, yendo más allá de las simples clasificaciones binarias. Extensos experimentos tanto en modelos contaminados previamente identificados como en modelos contaminados especialmente ajustados demuestran que ZCP detecta de manera robusta tanto la contaminación directa como la evasiva de datos. El código de ZCP está accesible en https://github.com/Yifan-Lan/zero-cot-probe.
Escalar el cómputo en tiempo de prueba mediante la actualización iterativa de un estado latente se ha convertido en un paradigma poderoso para el razonamiento. Sin embargo, los mecanismos internos que permiten a estos modelos iterativos generalizar más allá de patrones memorizados siguen sin estar claros. Planteamos la hipótesis de que el razonamiento generalizable surge del aprendizaje de atractores condicionados por la tarea: sistemas dinámicos latentes cuyos puntos fijos estables corresponden a soluciones válidas. Formalizamos este proceso mediante Razonadores de Equilibrio (EqR), que permiten el escalado en tiempo de prueba sin verificadores externos ni conocimientos previos específicos de la tarea. EqR escala la dinámica interna a lo largo de dos ejes: profundidad, ejecutando más iteraciones, y amplitud, agregando trayectorias estocásticas de múltiples inicializaciones. Empíricamente, las ganancias del escalado en tiempo de prueba están estrechamente vinculadas con una convergencia más fuerte hacia atractores alineados con las soluciones. Esta perspectiva de atractor permite a las redes neuronales asignar adaptativamente el cómputo en tiempo de prueba según la dificultad de la tarea. Mientras que los casos simples convergen en 1 a 5 pasos de iteración, los casos más difíciles se benefician de un escalado masivo en tiempo de prueba. Al desenrollar hasta el equivalente de 40 000 capas, el razonamiento latente escalable mejora la precisión desde un 2.6 % en modelos feedforward hasta más del 99 % en Sudoku Extremo. Estos resultados sugieren que los paisajes de atractor aprendidos proporcionan un lente mecanicista útil para comprender el razonamiento escalable en modelos latentes iterativos.
La reconstrucción de resonancia magnética (RM) constituye un problema inverso inherentemente mal condicionado, ya que las mediciones incompletas admiten múltiples soluciones plausibles. Esta ambigüedad se agrava bajo alta aceleración, donde los predictores continuos en el dominio de píxeles tienden a promediar entre reconstrucciones factibles y suprimir la anatomía de alta frecuencia. Abordamos esta limitación trasladando la reconstrucción a un espacio latente discreto multiescala y planteándola como una predicción autorregresiva de la siguiente escala de aceleración. Aprovechando los priores discretos que han demostrado ser efectivos en el modelado autorregresivo visual, nuestro método restringe la solución a secuencias compactas de tokens de codebook, permitiendo reconstrucciones nítidas incluso a partir de mediciones extremadamente dispersas. Esta formulación autorregresiva discreta también se alinea naturalmente con las técnicas modernas de post-entrenamiento de modelos de lenguaje de gran escala. Basándonos en esta observación, introducimos la destilación de información privilegiada on-policy para el modelado autorregresivo visual, donde un profesor recibe entrenamiento únicamente en un contexto privilegiado no disponible en la inferencia —en nuestro caso, adquisiciones completamente muestreadas— y supervisa a un estudiante entrenado en sus propias trayectorias generativas, lo que conduce a mejoras consistentes en la reconstrucción. Mediante experimentos exhaustivos en el banco de pruebas fastMRI, demostramos que nuestro enfoque ofrece un rendimiento de reconstrucción superior en diversos patrones de muestreo bajo un submuestreo extremo. El sitio web del proyecto se encuentra en https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{aquí}.