Artículos de investigación en IA seleccionados diariamente con traducciones
Los seres humanos perciben y comprenden los espacios del mundo real a través de un flujo continuo de observaciones visuales. Por lo tanto, la capacidad de mantener y actualizar continuamente evidencia espacial a partir de flujos de video potencialmente ilimitados es esencial para la inteligencia espacial. El desafío central no radica simplemente en ventanas de contexto más largas, sino en cómo la información espacial es seleccionada, organizada y retenida a lo largo del tiempo. En este artículo, proponemos Spatial-TTT para una inteligencia espacial basada en visión en flujo continuo mediante entrenamiento en tiempo de prueba (TTT), el cual adapta un subconjunto de parámetros (pesos rápidos) para capturar y organizar evidencia espacial en videos de escenas de largo horizonte. Específicamente, diseñamos una arquitectura híbrida y adoptamos actualizaciones por bloques grandes en paralelo con atención de ventana deslizante para un procesamiento eficiente de video espacial. Para promover aún más la conciencia espacial, introducimos un mecanismo predictivo-espacial aplicado a las capas TTT con convolución espaciotemporal 3D, lo que incentiva al modelo a capturar correspondencia geométrica y continuidad temporal entre fotogramas. Más allá del diseño arquitectónico, construimos un conjunto de datos con descripciones espaciales 3D densas, que guía al modelo para actualizar sus pesos rápidos y memorizar y organizar las señales espaciales 3D globales de manera estructurada. Experimentos exhaustivos demuestran que Spatial-TTT mejora la comprensión espacial de largo horizonte y logra un rendimiento de vanguardia en benchmarks de video espacial. Página del proyecto: https://liuff19.github.io/Spatial-TTT.
Los agentes multimodales ofrecen un camino prometedor para automatizar flujos de trabajo complejos e intensivos en documentos. Sin embargo, una pregunta crítica permanece: ¿demuestran estos agentes un razonamiento estratégico genuino o simplemente una búsqueda estocástica por ensayo y error? Para abordar esto, presentamos MADQA, un benchmark de 2.250 preguntas creadas por humanos basadas en 800 documentos PDF heterogéneos. Guiados por la Teoría Clásica de los Tests, lo diseñamos para maximizar el poder discriminatorio entre distintos niveles de habilidades agentivas. Para evaluar el comportamiento agentivo, introducimos un novedoso protocolo de evaluación que mide la relación precisión-esfuerzo. Utilizando este marco, demostramos que, aunque los mejores agentes pueden igualar a los buscadores humanos en precisión bruta, tienen éxito en preguntas mayoritariamente diferentes y dependen de búsquedas por fuerza bruta para compensar una planificación estratégica débil. No logran cerrar la brecha de casi un 20% con respecto al rendimiento de un oráculo, persistendo en bucles improductivos. Publicamos el conjunto de datos y el sistema de evaluación para ayudar a facilitar la transición desde la recuperación por fuerza bruta hacia un razonamiento calibrado y eficiente.
Los flujos de trabajo agentes de contexto largo han surgido como un caso de uso definitorio para los modelos de lenguaje grandes, haciendo que la eficiencia de la atención sea crítica tanto para la velocidad de inferencia como para el costo de servicio. La atención dispersa aborda este desafío efectivamente, y DeepSeek Sparse Attention (DSA) es una solución representativa de nivel productivo: un indexador ligero selecciona los k tokens más relevantes por consulta, reduciendo la atención principal de O(L²) a O(Lk). Sin embargo, el indexador en sí mantiene una complejidad de O(L²) y debe ejecutarse independientemente en cada capa, a pesar de que las selecciones top-k resultantes son altamente similares entre capas consecutivas. Presentamos IndexCache, que explota esta redundancia entre capas dividiéndolas en un pequeño conjunto de capas Completas que ejecutan sus propios indexadores y una mayoría de capas Compartidas que simplemente reutilizan los índices top-k de la capa Completa más cercana. Proponemos dos enfoques complementarios para determinar y optimizar esta configuración. IndexCache sin entrenamiento aplica un algoritmo de búsqueda voraz que selecciona qué capas retener indexadores minimizando directamente la pérdida de modelado del lenguaje en un conjunto de calibración, sin requerir actualizaciones de pesos. IndexCache con entrenamiento introduce una pérdida de destilación multicapa que entrena cada indexador retenido contra las distribuciones de atención promediadas de todas las capas que sirve, permitiendo que incluso patrones intercalados simples igualen la precisión del indexador completo. Los resultados experimentales en un modelo DSA de 30B muestran que IndexCache puede eliminar el 75% de los cálculos del indexador con una degradación de calidad negligible, logrando hasta 1.82x de aceleración en prefilling y 1.48x de aceleración en decodificación en comparación con DSA estándar. Estos resultados positivos son confirmados además por nuestros experimentos preliminares en el modelo a escala productiva GLM-5 (Figura 1).
Los agentes que utilizan computadoras (CUA) son cada vez más capaces; sin embargo, sigue siendo difícil escalar la evaluación de si una trayectoria cumple verdaderamente una instrucción del usuario. En este trabajo, estudiamos el modelado de recompensas a partir de video de ejecución: una secuencia de fotogramas clave de una trayectoria de un agente que es independiente del razonamiento o las acciones internas del agente. Aunque el modelado de ejecución por video es independiente del método, presenta desafíos clave, incluidos diseños altamente redundantes y señales sutiles y localizadas que determinan el éxito. Presentamos Execution Video Reward 53k (ExeVR-53k), un conjunto de datos de 53k tripletas de alta calidad de video-tarea-recompensa. Además, proponemos la traducción de instrucciones adversaria para sintetizar muestras negativas con anotaciones a nivel de paso. Para permitir el aprendizaje a partir de videos de ejecución largos y de alta resolución, diseñamos una poda de tokens espaciotemporales, que elimina regiones homogéneas y tokens persistentes mientras preserva los cambios decisivos en la interfaz de usuario (UI). Sobre estos componentes, ajustamos un Modelo de Recompensa de Video de Ejecución (ExeVRM) que toma solo una instrucción de usuario y una secuencia de video-ejecución para predecir el éxito de la tarea. Nuestro ExeVRM 8B logra un 84.7% de precisión y un 87.7% de recuperación en la evaluación de video-ejecución, superando a modelos propietarios sólidos como GPT-5.2 y Gemini-3 Pro en Ubuntu, macOS, Windows y Android, al tiempo que proporciona una atribución temporal más precisa. Estos resultados muestran que el modelado de recompensas por video-ejecución puede servir como un evaluador escalable e independiente del modelo para los CUAs.
La generación de vídeo basada en texto ha democratizado la creación cinematográfica, pero el control de cámara en escenarios cinematográficos multicámara sigue siendo un obstáculo significativo. Las indicaciones textuales implícitas carecen de precisión, mientras que el condicionamiento por trayectorias explícitas impone una carga manual prohibitiva y a menudo provoca fallos de ejecución en los modelos actuales. Para superar este cuello de botella, proponemos un cambio de paradigma centrado en los datos, postulando que los tríos alineados (Leyenda, Trayectoria, Vídeo) forman una distribución conjunta inherente que puede conectar la planificación automatizada con la ejecución precisa. Guiados por esta idea, presentamos ShotVerse, un marco "Planificar-y-Controlar" que desacopla la generación en dos agentes colaborativos: un Planificador basado en un Modelo de Visión-Lenguaje (VLM) que aprovecha conocimientos previos espaciales para obtener trayectorias cinematográficas y globalmente alineadas a partir de texto, y un Controlador que renderiza estas trayectorias en contenido de vídeo multicámara mediante un adaptador de cámara. Esencial para nuestro enfoque es la construcción de una base de datos: diseñamos un pipeline automatizado de calibración multicámara que alinea trayectorias disjuntas de tomas únicas en un sistema de coordenadas global unificado. Esto facilita la curación de ShotVerse-Bench, un conjunto de datos cinematográfico de alta fidelidad con un protocolo de evaluación de triple pista que sirve como base para nuestro marco. Experimentos exhaustivos demuestran que ShotVerse salva eficazmente la brecha entre el control textual poco fiable y la planificación manual intensiva en mano de obra, logrando una estética cinematográfica superior y generando vídeos multicámara que son precisos en cámara y consistentes entre tomas.
Si bien los modelos de difusión a gran escala han revolucionado la síntesis de video, lograr un control preciso sobre la identidad de múltiples sujetos y el movimiento de múltiples granularidades sigue siendo un desafío significativo. Los intentos recientes para salvar esta brecha a menudo adolecen de granularidad de movimiento limitada, ambigüedad de control y degradación de identidad, lo que conduce a un rendimiento subóptimo en la preservación de identidad y el control de movimiento. En este trabajo, presentamos DreamVideo-Omni, un marco unificado que permite la personalización armoniosa de múltiples sujetos con control de movimiento integral mediante un paradigma de entrenamiento progresivo de dos etapas. En la primera etapa, integramos señales de control integrales para el entrenamiento conjunto, abarcando apariencias de sujetos, movimiento global, dinámicas locales y movimientos de cámara. Para garantizar una capacidad de control robusta y precisa, introducimos una codificación posicional rotacional 3D sensible al contexto para coordinar entradas heterogéneas y una estrategia de inyección de movimiento jerárquica para mejorar la guía del movimiento global. Además, para resolver la ambigüedad de múltiples sujetos, introducimos incrustaciones de grupo y rol para anclar explícitamente las señales de movimiento a identidades específicas, desentrañando efectivamente escenas complejas en instancias controlables independientes. En la segunda etapa, para mitigar la degradación de identidad, diseñamos un paradigma de aprendizaje por retroalimentación de recompensa de identidad latente mediante el entrenamiento de un modelo de recompensa de identidad latente sobre un modelo base de difusión de video preentrenado. Esto proporciona recompensas de identidad sensibles al movimiento en el espacio latente, priorizando la preservación de identidad alineada con las preferencias humanas. Respaldado por nuestro conjunto de datos a gran escala cuidadosamente seleccionado y la evaluación integral DreamOmni Bench para el control de múltiples sujetos y movimiento integral, DreamVideo-Omni demuestra un rendimiento superior en la generación de videos de alta calidad con una capacidad de control precisa.
El aprendizaje por refuerzo (RL) se ha consolidado como un paradigma prometedor para mejorar la edición de imágenes y la generación de texto a imagen (T2I). Sin embargo, los modelos de recompensa actuales, que actúan como críticos durante el RL, a menudo adolecen de alucinaciones y asignan puntuaciones ruidosas, desviando inherentemente el proceso de optimización. En este artículo, presentamos FIRM (Faithful Image Reward Modeling), un marco integral que desarrolla modelos de recompensa robustos para proporcionar una guía precisa y fiable para la generación y edición fiel de imágenes. En primer lugar, diseñamos pipelines de curación de datos personalizados para construir conjuntos de datos de puntuación de alta calidad. Específicamente, evaluamos la edición utilizando tanto la ejecución como la consistencia, mientras que la generación se evalúa principalmente mediante el seguimiento de instrucciones. Utilizando estas pipelines, recopilamos los conjuntos de datos FIRM-Edit-370K y FIRM-Gen-293K, y entrenamos modelos de recompensa especializados (FIRM-Edit-8B y FIRM-Gen-8B) que reflejan con precisión estos criterios. En segundo lugar, presentamos FIRM-Bench, un benchmark integral diseñado específicamente para críticos de edición y generación. Las evaluaciones demuestran que nuestros modelos logran una alineación superior con el juicio humano en comparación con las métricas existentes. Además, para integrar perfectamente estos críticos en la pipeline de RL, formulamos una novedosa estrategia de recompensa "Base-and-Bonus" que equilibra objetivos en competencia: Ejecución Modulada por Consistencia (CME) para la edición y Alineación Modulada por Calidad (QMA) para la generación. Potenciados por este marco, nuestros modelos resultantes FIRM-Qwen-Edit y FIRM-SD3.5 logran avances sustanciales en el rendimiento. Experimentos exhaustivos demuestran que FIRM mitiga las alucinaciones, estableciendo un nuevo estándar de fidelidad y adherencia a las instrucciones sobre los modelos generales existentes. Todos nuestros conjuntos de datos, modelos y código están disponibles públicamente en https://firm-reward.github.io.
Los agentes multimodales pueden ahora abordar tareas de razonamiento complejo con diversas herramientas, pero aún adolecen de un uso ineficiente de las mismas y una orquestación inflexible en entornos abiertos. Un desafío central es permitir que estos agentes mejoren continuamente sin actualizaciones de parámetros, aprendiendo de trayectorias pasadas. Identificamos dos formas complementarias de conocimiento reutilizable esenciales para este objetivo: las experiencias, que brindan guía concisa a nivel de acción para la selección de herramientas y la toma de decisiones, y las habilidades, que proporcionan guía estructurada a nivel de tarea para la planificación y el uso de herramientas. Con este fin, proponemos XSkill, un marco de doble flujo para el aprendizaje continuo a partir de experiencias y habilidades en agentes multimodales. XSkill fundamenta tanto la extracción como la recuperación de conocimiento en observaciones visuales. Durante la acumulación, XSkill destila y consolida experiencias y habilidades a partir de desarrollos multi-ruta mediante resúmenes basados en lo visual y crítica cruzada entre desarrollos. Durante la inferencia, recupera y adapta este conocimiento al contexto visual actual y retroalimenta el historial de uso a la acumulación para formar un bucle de aprendizaje continuo. Evaluado en cinco benchmarks de diversos dominios con cuatro modelos base, XSkill supera constante y sustancialmente tanto a las líneas base basadas solo en herramientas como a las basadas en aprendizaje. Un análisis más profundo revela que los dos flujos de conocimiento desempeñan roles complementarios al influir en los comportamientos de razonamiento de los agentes y muestran una generalización zero-shot superior.
La estimación de profundidad en vídeos existente enfrenta una disyuntiva fundamental: los modelos generativos sufren de alucinaciones geométricas estocásticas y deriva de escala, mientras que los modelos discriminativos requieren conjuntos de datos etiquetados masivos para resolver ambigüedades semánticas. Para superar este punto muerto, presentamos DVD, el primer marco que adapta determinísticamente modelos de difusión de vídeo preentrenados en regresores de profundidad de pasada única. Específicamente, DVD presenta tres diseños centrales: (i) reutilizar el paso de tiempo de difusión como ancla estructural para equilibrar la estabilidad global con los detalles de alta frecuencia; (ii) rectificación de la variedad latente (LMR) para mitigar el suavizado excesivo inducido por la regresión, aplicando restricciones diferenciales para restaurar límites nítidos y movimiento coherente; y (iii) coherencia afín global, una propiedad inherente que acota la divergencia entre ventanas, lo que permite inferencia en vídeos largos sin necesidad de una compleja alineación temporal. Experimentos exhaustivos demuestran que DVD logra un rendimiento de cero-shot state-of-the-art en diversos benchmarks. Además, DVD desbloquea exitosamente los profundos conocimientos geométricos implícitos en los modelos fundacionales de vídeo utilizando 163 veces menos datos específicos de la tarea que los principales baselines. Cabe destacar que liberamos completamente nuestra canalización, proporcionando todo el conjunto de entrenamiento para la estimación de profundidad en vídeo state-of-the-art para beneficiar a la comunidad de código abierto.
La edición de imágenes basada en instrucciones tiene como objetivo modificar contenido específico dentro de imágenes existentes según las instrucciones proporcionadas por el usuario, preservando las regiones no objetivo. Más allá de la manipulación tradicional centrada en objetos y estilos, la edición de imágenes centrada en texto se enfoca en modificar, traducir o reorganizar elementos textuales incrustados en las imágenes. Sin embargo, los modelos líderes existentes a menudo luchan por ejecutar ediciones de texto complejas con precisión, produciendo frecuentemente caracteres borrosos o alucinados. Atribuimos estos fallos principalmente a la falta de paradigmas de entrenamiento especializados adaptados para la edición centrada en texto, así como a la ausencia de conjuntos de datos a gran escala y puntos de referencia estandarizados necesarios para un sistema de entrenamiento y evaluación de ciclo cerrado. Para abordar estas limitaciones, presentamos WeEdit, una solución sistemática que abarca una pipeline escalable de construcción de datos, dos benchmarks y una estrategia de entrenamiento en dos etapas adaptada. Específicamente, proponemos una novedosa pipeline de edición automática basada en HTML, que genera 330K pares de entrenamiento cubriendo diversas operaciones de edición y 15 idiomas, acompañada de benchmarks bilingües y multilingües estandarizados para una evaluación integral. En el lado algorítmico, empleamos un ajuste fino supervisado guiado por glifos para inyectar *priors* espaciales y de contenido explícitos, seguido de una etapa de aprendizaje por refuerzo multi-objetivo para alinear la generación con la adherencia a la instrucción, la claridad del texto y la preservación del fondo. Experimentos exhaustivos demuestran que WeEdit supera a los modelos de código abierto anteriores por un claro margen en diversas operaciones de edición.
Los modelos multimodales unificados buscan la comprensión, el razonamiento y la generación conjunta, pero los puntos de referencia actuales para la edición de imágenes se limitan en gran medida a imágenes naturales y a un razonamiento de sentido común superficial, lo que ofrece una evaluación limitada de esta capacidad bajo restricciones estructuradas y específicas del dominio. En este trabajo, presentamos GRADE, el primer punto de referencia para evaluar el conocimiento y el razonamiento basados en disciplinas en la edición de imágenes. GRADE comprende 520 muestras cuidadosamente seleccionadas de 10 dominios académicos, que abarcan desde las ciencias naturales hasta las ciencias sociales. Para respaldar una evaluación rigurosa, proponemos un protocolo de evaluación multidimensional que valora conjuntamente el Razonamiento Disciplinario, la Coherencia Visual y la Legibilidad Lógica. Experimentos exhaustivos con 20 modelos de código abierto y propietarios de última generación revelan limitaciones sustanciales en los modelos actuales bajo configuraciones de edición implícitas e intensivas en conocimiento, lo que resulta en grandes brechas de rendimiento. Más allá de las puntuaciones cuantitativas, realizamos análisis y ablaciones rigurosos para exponer las deficiencias de los modelos e identificar las restricciones dentro de la edición disciplinaria. En conjunto, GRADE señala direcciones clave para el desarrollo futuro de los modelos multimodales unificados, avanzando en la investigación sobre la edición de imágenes y el razonamiento basados en disciplinas. Nuestro punto de referencia y nuestro código de evaluación se han publicado públicamente.
Los transformadores de difusión (DiT) logran alta calidad generativa pero acoplan los FLOPs a la resolución de imagen, limitando los equilibrios latencia-calidad fundamentales, y asignan el cálculo uniformemente entre los tokens espaciales de entrada, desperdiciando recursos en regiones poco importantes. Presentamos Elastic Latent Interface Transformer (ELIT), un mecanismo compatible con DiT que desacopla el tamaño de imagen de entrada del cómputo. Nuestro enfoque inserta una interfaz latente, una secuencia de tokens de longitud variable entrenable sobre la cual pueden operar bloques transformer estándar. Capas ligeras de atención cruzada Lectura y Escritura transfieren información entre tokens espaciales y latentes, priorizando regiones importantes de la entrada. Mediante entrenamiento con eliminación aleatoria de latentes finales, ELIT aprende a producir representaciones ordenadas por importancia, donde los latentes iniciales capturan estructura global mientras los posteriores contienen información para refinar detalles. En inferencia, el número de latentes puede ajustarse dinámicamente para adaptarse a restricciones computacionales. ELIT es deliberadamente minimalista, añadiendo solo dos capas de atención cruzada mientras mantiene inalterados el objetivo de flujo rectificado y la arquitectura DiT. En diversos conjuntos de datos y arquitecturas (DiT, U-ViT, HDiT, MM-DiT), ELIT proporciona mejoras consistentes. En ImageNet-1K 512px, ELIT logra mejoras promedio del 35.3% y 39.6% en puntuaciones FID y FDD. Página del proyecto: https://snap-research.github.io/elit/
Un componente clave de la creatividad es el razonamiento asociativo: la capacidad de establecer conexiones novedosas pero significativas entre conceptos. Presentamos CREATE, un benchmark diseñado para evaluar la capacidad de los modelos para el razonamiento asociativo creativo. CREATE requiere que los modelos generen conjuntos de trayectorias que conecten conceptos dentro del conocimiento paramétrico del modelo. Las trayectorias deben tener alta especificidad (distintividad y cercanía de la conexión conceptual) y alta diversidad (disimilitud con otras trayectorias), y los modelos obtienen puntuaciones más altas si producen un conjunto más grande de trayectorias sólidas y diversas. Esta tarea comparte exigencias de tareas creativas reales como la generación de hipótesis, incluyendo un espacio de búsqueda extremadamente grande, pero permite la recopilación de un benchmark considerable con una evaluación objetiva de respuestas. La evaluación de modelos de vanguardia muestra que los modelos más potentes alcanzan una utilidad creativa superior a los demás, siendo la alta multiplicidad de respuestas y la complejidad de la búsqueda lo que dificulta alcanzar la saturación del benchmark. Además, nuestros resultados ilustran que los modelos de pensamiento (thinking models) no siempre son más efectivos en nuestra tarea, incluso con presupuestos altos de tokens. Los enfoques recientes de prompting creativo aportan una mejora adicional, pero limitada. CREATE proporciona un entorno controlado para desarrollar nuevos métodos que mejoren la capacidad de creatividad asociativa de los modelos.
Los modelos generativos de video autorregresivos (AR) se basan en tokenizadores de video que comprimen píxeles en secuencias discretas de tokens. La longitud de estas secuencias de tokens es crucial para equilibrar la calidad de la reconstrucción con el coste computacional de la generación subsiguiente. Los tokenizadores de video tradicionales aplican una asignación uniforme de tokens a bloques temporales de diferentes videos, desperdiciando a menudo tokens en segmentos simples, estáticos o repetitivos, mientras asignan insuficientes a segmentos dinámicos o complejos. Para abordar esta ineficiencia, presentamos EVATok, un marco para producir Tokenizadores de Video Adaptativos Eficientes. Nuestro marco estima asignaciones óptimas de tokens para cada video para lograr la mejor relación calidad-coste, desarrolla enrutadores ligeros para predecir rápidamente estas asignaciones óptimas y entrena tokenizadores adaptativos que codifican videos basándose en las asignaciones predichas por los enrutadores. Demostramos que EVATok ofrece mejoras sustanciales en eficiencia y calidad general para la reconstrucción de video y la generación AR subsiguiente. Potenciado por nuestra receta de entrenamiento avanzada que integra codificadores semánticos de video, EVATok logra una reconstrucción superior y una generación de clase a video de vanguardia en UCF-101, con un ahorro de al menos el 24.4% en el uso promedio de tokens en comparación con el anterior estado del arte LARP y nuestra línea base de longitud fija.
La descripción densa de imágenes es crucial para la alineación multimodal en el preentrenamiento visión-lenguaje y la generación de imágenes a partir de texto, pero escalar anotaciones de calidad experta resulta prohibitivamente costoso. Si bien la generación sintética de descripciones mediante modelos visión-lenguaje (VLM) potentes es una alternativa práctica, la destilación supervisada suele producir una diversidad limitada en las salidas y una generalización débil. El aprendizaje por refuerzo (RL) podría superar estas limitaciones, pero sus éxitos hasta ahora se han concentrado en dominios verificables que dependen de comprobadores deterministas, un lujo no disponible en la descripción abierta. Abordamos este cuello de botella con RubiCap, un novedoso framework de RL que obtiene señales de recompensa específicas por muestra y de grano fino a partir de rúbricas escritas por LLM. RubiCap primero reúne un comité diverso de descripciones candidatas, luego emplea un escritor de rúbricas basado en LLM para extraer fortalezas consensuadas y diagnosticar deficiencias en la política actual. Estas percepciones se convierten en criterios de evaluación explícitos, permitiendo que un juez LLM descomponga la evaluación de calidad holística y reemplace las recompensas escalares generales con evaluaciones estructuradas y multifacéticas. En extensos benchmarks, RubiCap logra las tasas de preferencia más altas en CapArena, superando a la destilación supervisada, métodos previos de RL, anotaciones de expertos humanos y salidas aumentadas con GPT-4V. En CaptionQA, demuestra una eficiencia léxica superior: nuestro modelo de 7B iguala a Qwen2.5-VL-32B-Instruct, y nuestro modelo de 3B supera a su contraparte de 7B. Notablemente, usar el compacto RubiCap-3B como generador de descripciones produce VLMs preentrenados más robustos que aquellos entrenados con descripciones de modelos propietarios.
Recientemente, los Modelos de Lenguaje Grandes Multimodales (MLLM) se han integrado ampliamente en los marcos de difusión principalmente como codificadores de texto para abordar tareas complejas como el razonamiento espacial. Sin embargo, este paradigma presenta dos limitaciones críticas: (i) El codificador de texto del MLLM exhibe una profundidad de razonamiento insuficiente. La codificación en un solo paso no logra activar el proceso de Cadena de Pensamiento, que es esencial para que los MLLM proporcionen una guía precisa para tareas complejas. (ii) La guía permanece invariable durante el proceso de decodificación. Una guía invariable durante la decodificación impide que el DiT descomponga progresivamente instrucciones complejas en pasos de eliminación de ruido accionables, incluso con codificaciones MLLM correctas. Para ello, proponemos Cadena de Pensamiento Endógena (EndoCoT), un marco novedoso que primero activa el potencial de razonamiento de los MLLM refinando iterativamente los estados de pensamiento latentes a través de un módulo de guía de pensamiento iterativo, y luego conecta estos estados con el proceso de eliminación de ruido del DiT. En segundo lugar, se aplica un módulo de anclaje de pensamiento terminal para garantizar que la trayectoria de razonamiento permanezca anclada en la supervisión textual alineando el estado final con las respuestas de referencia. Con estos dos componentes, el codificador de texto del MLLM proporciona una guía meticulosamente razonada, permitiendo al DiT ejecutarla progresivamente y resolver así tareas complejas de manera paso a paso. Evaluaciones exhaustivas en diversos puntos de referencia (por ejemplo, Laberinto, TSP, VSP y Sudoku) logran una precisión promedio del 92,1%, superando a la línea base más fuerte en 8,3 puntos porcentuales.
Los agentes visuales modernos requieren representaciones generales, causales y estructuradas físicamente para operar en entornos de transmisión en tiempo real. Sin embargo, los modelos de base de visión actuales permanecen fragmentados, especializándose de forma limitada en la percepción semántica de imágenes, el modelado temporal fuera de línea o la geometría espacial. Este artículo presenta OmniStream, un modelo de base visual unificado para transmisión continua que percibe, reconstruye y actúa eficazmente a partir de entradas visuales diversas. Al incorporar atención espacio-temporal causal y codificaciones posicionales rotatorias 3D (3D-RoPE), nuestro modelo soporta el procesamiento eficiente, fotograma a fotograma y en línea de flujos de vídeo mediante una caché KV persistente. Pre-entrenamos OmniStream utilizando un marco de trabajo multitarea sinérgico que combina el aprendizaje de representaciones estáticas y temporales, la reconstrucción geométrica en streaming y la alineación visión-lenguaje en 29 conjuntos de datos. Evaluaciones exhaustivas demuestran que, incluso con un modelo de base estrictamente congelado, OmniStream logra un rendimiento consistentemente competitivo con expertos especializados en tareas de sondeo de imágenes y vídeo, reconstrucción geométrica en streaming, razonamiento complejo sobre vídeo y espacio, así como en manipulación robótica (no vista durante el entrenamiento). En lugar de buscar un dominio específico en benchmarks particulares, nuestro trabajo demuestra la viabilidad de entrenar un único modelo de base visual versátil que generaliza a través del razonamiento semántico, espacial y temporal; es decir, un paso más significativo hacia la comprensión visual de propósito general para agentes interactivos y corporizados.
El Splatting Gaussiano 3D (3DGS) ha surgido como una representación potente para renderizado de alta calidad en una amplia gama de aplicaciones. Sin embargo, sus altas demandas computacionales y grandes costos de almacenamiento plantean desafíos significativos para su implementación en dispositivos móviles. En este trabajo, proponemos un método de Splatting Gaussiano en tiempo real adaptado para móviles, denominado Mobile-GS, que permite la inferencia eficiente de Splatting Gaussiano en dispositivos de borde. Específicamente, primero identificamos la mezcla alfa (alpha blending) como el principal cuello de botella computacional, ya que depende del proceso de ordenación por profundidad de los gaussianos, que consume mucho tiempo. Para resolver este problema, proponemos un esquema de renderizado independiente del orden y consciente de la profundidad que elimina la necesidad de ordenar, acelerando sustancialmente el renderizado. Aunque este renderizado independiente del orden mejora la velocidad, puede introducir artefactos de transparencia en regiones con geometría superpuesta debido a la escasez de orden de renderizado. Para abordar este problema, proponemos una estrategia de mejora neuronal dependiente de la vista, que permite un modelado más preciso de los efectos dependientes de la vista condicionados por la dirección de visualización, la geometría gaussiana 3D y los atributos de apariencia. De esta manera, Mobile-GS puede lograr un renderizado tanto de alta calidad como en tiempo real. Además, para facilitar la implementación en plataformas móviles con memoria limitada, también introducimos la destilación de armónicos esféricos de primer orden, una técnica de cuantización vectorial neuronal, y una estrategia de poda basada en la contribución para reducir el número de primitivas gaussianas y comprimir la representación gaussiana 3D con la ayuda de redes neuronales. Experimentos exhaustivos demuestran que nuestro Mobile-GS propuesto logra un renderizado en tiempo real y un tamaño de modelo compacto, preservando al mismo tiempo una alta calidad visual, lo que lo hace muy adecuado para aplicaciones móviles.
Los grandes modelos de lenguaje entrenados con lenguaje natural exhiben una anisotropía pronunciada: un pequeño número de direcciones concentra una energía desproporcionada, mientras que las dimensiones restantes forman una cola semántica amplia. En regímenes de entrenamiento de baja precisión (bajo número de bits), esta geometría se vuelve numéricamente inestable. Debido a que las escalas de cuantificación por bloques se determinan por las magnitudes elementales extremas, las direcciones dominantes expanden el rango dinámico, comprimiendo la variación semántica de cola larga en intervalos numéricos estrechos. Demostramos que esta inestabilidad está impulsada principalmente por un sesgo medio coherente de rango uno, que constituye el componente dominante de la anisotropía espectral en las representaciones de los LLM. Este componente medio emerge sistemáticamente a través de las capas y etapas de entrenamiento y representa la mayoría de las magnitudes de activación extremas, lo que lo convierte en el principal impulsor de la inflación del rango dinámico bajo baja precisión. Crucialmente, dado que la inestabilidad dominante es de rango uno, puede eliminarse mediante una simple operación de sustracción de la media a nivel de fuente. Este acondicionamiento centrado en el sesgo recupera la mayoría de los beneficios de estabilidad de los métodos espectrales basados en SVD, mientras que solo requiere operaciones de reducción y kernels de cuantificación estándar. Los resultados empíricos en el entrenamiento con FP4 (W4A4G4) muestran que la eliminación de la media reduce sustancialmente la brecha de pérdida con respecto a BF16 y restaura el rendimiento en tareas posteriores, proporcionando una ruta eficiente en hardware para un entrenamiento estable de LLM de baja precisión.
Este artículo presenta MR-Search, una formulación de meta aprendizaje por refuerzo (RL) en contexto para búsqueda agentiva con autorreflexión. En lugar de optimizar una política dentro de un único episodio independiente con recompensas dispersas, MR-Search entrena una política que se condiciona en episodios pasados y adapta su estrategia de búsqueda a lo largo de los episodios. MR-Search aprende a aprender una estrategia de búsqueda con autorreflexión, permitiendo que los agentes de búsqueda mejoren la exploración en contexto durante el tiempo de prueba. Específicamente, MR-Search realiza una exploración trans-episodio generando autorreflexiones explícitas después de cada episodio y aprovechándolas como contexto adicional para guiar intentos posteriores, promoviendo así una exploración más efectiva durante las pruebas. Además, introducimos un algoritmo de RL multi-turno que estima una ventaja relativa densa a nivel de turno, permitiendo una asignación de crédito de grano fino en cada episodio. Los resultados empíricos en varios puntos de referencia demuestran las ventajas de MR-Search sobre los métodos basados en RL, mostrando una fuerte generalización y mejoras relativas del 9.2% al 19.3% en ocho benchmarks. Nuestro código y datos están disponibles en https://github.com/tengxiao1/MR-Search.
En entornos de implementación real, los modelos de visión y lenguaje frecuentemente enfrentan perturbaciones como condiciones climáticas, oclusiones y movimiento de la cámara. Bajo estas condiciones, su capacidad de comprensión y razonamiento se degrada sustancialmente, revelando una brecha entre los entornos de evaluación controlados (es decir, no perturbados) y la robustez requerida en el mundo real. Para abordar esta limitación, proponemos ROVA, un novedoso marco de entrenamiento que mejora la robustez mediante el modelado de una recompensa de consistencia consciente de la robustez bajo corrupciones espacio-temporales. ROVA introduce una estrategia de entrenamiento en línea consciente de la dificultad que prioriza muestras informativas basándose en la capacidad evolutiva del modelo. Específicamente, reestima continuamente la dificultad de la muestra mediante una evaluación auto-reflexiva, permitiendo un entrenamiento adaptativo con una recompensa de consistencia consciente de la robustez. También presentamos PVRBench, un nuevo benchmark que inyecta perturbaciones del mundo real en conjuntos de datos de video embodado para evaluar tanto la precisión como la calidad del razonamiento bajo disturbios realistas. Evaluamos ROVA y los modelos de referencia en PVRBench, UrbanVideo y VisBench, donde los modelos de código abierto y propietarios experimentan caídas de hasta el 35% y 28% en precisión y razonamiento bajo perturbaciones realistas. ROVA mitiga efectivamente la degradación del rendimiento, aumentando la precisión relativa en al menos un 24% y el razonamiento en más de un 9% en comparación con los modelos base (QWen2.5/3-VL, InternVL2.5, Embodied-R). Estas mejoras se transfieren a benchmarks estándar en condiciones limpias, produciendo mejoras consistentes.
Si bien los modelos de lenguaje grande (LLM) han logrado un éxito notable en la generación de código, a menudo tienen dificultades con el razonamiento profundo y de largo alcance requerido para la ingeniería de software compleja. Atribuimos esta limitación a la naturaleza de los datos estándar de pre-entrenamiento: los repositorios de software estáticos representan únicamente el estado terminal de un intrincado proceso intelectual, abstraendo la planificación intermedia, la depuración y el refinamiento iterativo. Para cerrar esta brecha, proponemos un paradigma novedoso: la comprensión mediante la reconstrucción. Planteamos la hipótesis de que la ingeniería inversa de las trayectorias agentes latentes —los pasos de planificación, razonamiento y depuración— detrás de los repositorios estáticos proporciona una señal de supervisión mucho más rica que el código crudo por sí solo. Para operacionalizar esto, introducimos un marco que sintetiza estas trayectorias utilizando una simulación multi-agente. Este proceso se basa en las realidades estructurales de los repositorios fuente (por ejemplo, grafos de dependencias y jerarquías de archivos) para garantizar fidelidad. Además, para asegurar el rigor lógico de los datos sintéticos, empleamos una técnica de optimización basada en búsqueda que refina iterativamente el razonamiento en cadena de pensamiento (CoT) para maximizar la verosimilitud del código de referencia. Los resultados empíricos demuestran que el pre-entrenamiento continuo en estas trayectorias reconstruidas mejora significativamente el rendimiento de Llama-3-8B en diversos puntos de referencia, incluyendo la comprensión de contexto largo, la competencia en codificación y las capacidades agentes.
El acento es una parte integral de la sociedad, que refleja el multiculturalismo y moldea la forma en que los individuos expresan su identidad. La mayoría de los hablantes de inglés son no nativos (L2), sin embargo, los sistemas actuales de conversión de texto a voz (TTS) modelan principalmente el inglés con acento estadounidense debido a la limitada disponibilidad de datos con acentos diversos. Proponemos el Vector de Acento, una representación controlable que permite la manipulación del acento en sistemas TTS multilingües sin requerir datos de entrenamiento con acentos específicos. El Vector de Acento se deriva ajustando un sistema TTS con voz nativa de un idioma diferente (es decir, no inglés) y calculando vectores de tarea que capturan las características del acento (es decir, en inglés). Al escalar e interpolar el vector, logramos un control detallado sobre la intensidad del acento y generamos habla con acento mixto. Además, el método se generaliza más allá del inglés, permitiendo el control del acento en múltiples idiomas. Evaluaciones objetivas y humanas confirman la efectividad del Vector de Acento para un control detallado y composicional del acento.
Los modelos de razonamiento como jueces (LLMs-as-Judges), que pueden beneficiarse del escalado en tiempo de inferencia, ofrecen un camino prometedor para extender el éxito de los modelos de razonamiento a dominios no verificables donde la corrección/calidad de la salida no puede comprobarse directamente. Sin embargo, aunque los jueces de razonamiento han mostrado un mejor rendimiento en benchmarks de evaluación estática, su efectividad en el entrenamiento real de políticas no ha sido examinada sistemáticamente. Por lo tanto, realizamos un estudio riguroso para investigar el impacto real de los jueces sin razonamiento y con razonamiento en la alineación de LLMs basada en aprendizaje por refuerzo. Nuestro entorno sintético controlado, donde un juez "estándar de oro" (gpt-oss-120b) proporciona anotaciones de preferencia para entrenar jueces más pequeños, revela diferencias clave entre ambos tipos: los jueces sin razonamiento conducen fácilmente a la piratería de recompensas, mientras que los jueces de razonamiento pueden generar políticas que logran un fuerte rendimiento cuando son evaluadas por el juez estándar de oro. Curiosamente, encontramos que las políticas entrenadas con jueces de razonamiento logran este alto rendimiento aprendiendo a generar salidas adversarias altamente efectivas que también pueden puntuar bien en benchmarks populares como Arena-Hard, engañando a otros jueces basados en LLMs. Combinado con nuestro análisis posterior, nuestro estudio destaca tanto hallazgos importantes como margen de mejora para la aplicación de jueces basados en LLMs (de razonamiento) en el post-entrenamiento de LLMs no verificables.
La traducción de entornos complejos de aprendizaje por refuerzo (RL) a implementaciones de alto rendimiento ha requerido tradicionalmente meses de ingeniería especializada. Presentamos una metodología reutilizable - una plantilla de instrucciones genérica, verificación jerárquica y reparación iterativa asistida por agente - que produce entornos semánticamente equivalentes de alto rendimiento por menos de $10 en coste computacional. Demostramos tres flujos de trabajo distintos en cinco entornos. Traducción directa (no existe implementación previa de rendimiento): EmuRust (aceleración de PPO de 1.5x mediante paralelismo en Rust para un emulador de Game Boy) y PokeJAX, el primer simulador de batallas Pokemon paralelizado en GPU (500M SPS acciones aleatorias, 15.2M SPS PPO; 22,320x sobre la referencia en TypeScript). Traducción verificada frente a implementaciones existentes de rendimiento: paridad de throughput con MJX (1.04x) y 5x sobre Brax con tamaños de lote de GPU equivalentes (HalfCheetah JAX); 42x PPO (Puffer Pong). Creación de nuevos entornos: TCGJax, el primer motor JAX desplegable para el Juego de Cartas Coleccionables Pokemon (717K SPS acciones aleatorias, 153K SPS PPO; 6.6x sobre la referencia en Python), sintetizado a partir de una especificación extraída de la web. Con 200 millones de parámetros, la sobrecarga del entorno desciende por debajo del 4% del tiempo de entrenamiento. La verificación jerárquica (pruebas de propiedades, interacción y rollouts) confirma la equivalencia semántica para los cinco entornos; la transferencia de políticas entre backends confirma una brecha sim-to-sim cero para todos los entornos. TCGJax, sintetizado a partir de una referencia privada ausente en repositorios públicos, sirve como control de contaminación para preocupaciones sobre datos de preentrenamiento de agentes. El artículo contiene detalle suficiente - incluyendo instrucciones representativas, metodología de verificación y resultados completos - para que un agente de codificación pudiera reproducir las traducciones directamente desde el manuscrito.
La generación visual guiada por referencias toscas, que sintetiza muestras visuales detalladas a partir de referencias degradadas o de baja fidelidad, es esencial para diversas aplicaciones del mundo real. Si bien los enfoques basados en entrenamiento son efectivos, están inherentemente limitados por los altos costos de entrenamiento y la generalización restringida debido a la recolección de datos emparejados. En consecuencia, trabajos recientes libres de entrenamiento proponen aprovechar modelos de difusión preentrenados e incorporar guía durante el proceso de muestreo. Sin embargo, estos métodos libres de entrenamiento requieren conocer el operador de transformación directa (de detallado a tosco), por ejemplo, el submuestreo bicúbico, o presentan dificultades para equilibrar la guía con la calidad sintética. Para abordar estos desafíos, proponemos un novedoso método guiado utilizando la h-transformada, una herramienta que puede restringir procesos estocásticos (por ejemplo, el proceso de muestreo) bajo condiciones deseadas. Específicamente, modificamos la probabilidad de transición en cada paso de tiempo del muestreo añadiendo a la ecuación diferencial original una función de deriva, que dirige aproximadamente la generación hacia la muestra detallada ideal. Para abordar los errores de aproximación inevitables, introducimos un programa consciente del nivel de ruido que reduce gradualmente el peso del término a medida que aumenta el error, garantizando tanto la adherencia a la guía como una síntesis de alta calidad. Experimentos exhaustivos en diversas tareas de generación de imágenes y vídeos demuestran la efectividad y generalización de nuestro método.
Trabajos recientes sintetizan tareas agentivas para LLMs post-entrenados en el uso de herramientas, pero la generalización robusta bajo cambios en las tareas y conjuntos de herramientas sigue siendo un desafío abierto. Atribuimos esta fragilidad a una diversidad insuficiente en las tareas sintetizadas. Escalar la diversidad es difícil porque el entrenamiento requiere que las tareas sigan siendo ejecutables y verificables, mientras que la generalización exige cobertura de diversos tipos de herramientas, combinaciones de conjuntos y patrones heterogéneos de uso. Proponemos DIVE, una metodología basada en evidencia que invierte el orden de síntesis: primero ejecuta herramientas reales diversas y deriva inversamente las tareas estrictamente implicadas por los trazos resultantes, proporcionando así una base por construcción. DIVE escala la diversidad estructural a lo largo de dos ejes controlables: la cobertura del conjunto de herramientas y la variedad de herramientas por tarea. Un bucle de Colección de Evidencia-Derivación de Tareas induce además patrones ricos de uso multi-paso a través de 373 herramientas en cinco dominios. Entrenar Qwen3-8B con datos de DIVE (48k SFT + 3.2k RL) mejora +22 puntos de media en 9 benchmarks fuera de distribución (OOD) y supera al baseline de 8B más fuerte por +68. Notablemente, un análisis de escalado controlado revela que escalar la diversidad supera consistentemente a escalar la cantidad para la generalización OOD, incluso con 4 veces menos datos.
Tiny Aya redefine lo que un modelo lingüístico pequeño y multilingüe puede lograr. Entrenado en 70 idiomas y refinado mediante un post-entrenamiento consciente de la región, ofrece una calidad de traducción de vanguardia, una sólida comprensión multilingüe y una generación de alta calidad en el idioma objetivo, todo con solo 3.350 millones de parámetros. La publicación incluye un modelo base preentrenado, una variante ajustada por instrucciones y equilibrada globalmente, y tres modelos especializados por región dirigidos a idiomas de África, Asia Meridional, Europa, Asia-Pacífico y Asia Occidental. Este informe detalla la estrategia de entrenamiento, la composición de los datos y el marco de evaluación integral detrás de Tiny Aya, y presenta una alternativa de escalado para la IA multilingüe: una centrada en la eficiencia, el rendimiento equilibrado entre idiomas y la implementación práctica.
La destilación estándar de LLM desperdicia capacidad computacional en dos frentes: problemas que el estudiante ya domina (gradientes cercanos a cero) y problemas que están muy por encima de su alcance (gradientes incoherentes que erosionan capacidades existentes). Demostramos que este desperdicio no es solo intuitivo sino estructuralmente inevitable: la relación señal-ruido del gradiente en la destilación se desvanece de manera comprobable en ambos extremos de la tasa de aciertos. Esta observación teórica conduce a Paced, un marco que concentra la destilación en la zona de desarrollo próximo —la frontera de competencia del modelo estudiante— mediante un peso principled w(p) = p^α(1 - p)^β derivado de la estructura de desvanecimiento en los límites de los gradientes de destilación. Resultados clave: (1) Teoría: Probamos que el núcleo Beta w(p) = p^α(1-p)^β es una familia de pesos de primer orden que surge de la estructura de la relación señal-ruido en la destilación, y que es minimax-robusto —bajo una mala especificación multiplicativa acotada, la pérdida de eficiencia en el peor caso es solo O(δ^2). (2) Destilación: En la destilación desde un modelo profesor más grande a un estudiante más pequeño con KL forward, Paced logra una ganancia significativa sobre el modelo base, manteniendo al mismo tiempo un bajo nivel de olvido en los benchmarks. (3) Auto-destilación: En modelos ajustados por instrucción con KL reverse, las ganancias también superan a las líneas base. (4) Sinergia en dos etapas: Un programa de KL forward seguido de KL reverse produce los resultados más sólidos en nuestro entorno, alcanzando mejoras sustanciales en benchmarks de razonamiento estándar —respaldando una interpretación de cobertura de modos y posterior consolidación del proceso de destilación. Todas las configuraciones requieren solo desplegues del estudiante para estimar las tasas de aciertos, no necesitan cambios arquitectónicos y son compatibles con cualquier dirección de la divergencia KL.
Presentamos FireRedASR2S, un sistema industrial integral de reconocimiento automático del habla (ASR) de última generación. Este sistema integra cuatro módulos en una canalización unificada: ASR, Detección de Actividad de Voz (VAD), Identificación de Lengua Hablada (LID) y Predicción de Puntuación (Punc). Todos los módulos alcanzan un rendimiento de vanguardia (SOTA) en los puntos de referencia evaluados: * **FireRedASR2:** Un módulo ASR con dos variantes, FireRedASR2-LLM (8B+ parámetros) y FireRedASR2-AED (1B+ parámetros), que soporta la transcripción de habla y canto para mandarín, dialectos y acentos del chino, inglés y conmutación de código. En comparación con FireRedASR, FireRedASR2 ofrece una precisión de reconocimiento mejorada y una cobertura más amplia de dialectos y acentos. FireRedASR2-LLM logra un 2.89% de CER promedio en 4 puntos de referencia públicos de mandarín y un 11.55% en 19 puntos de referencia públicos de dialectos y acentos del chino, superando a líneas base competitivas como Doubao-ASR, Qwen3-ASR y Fun-ASR. * **FireRedVAD:** Un módulo ultraligero (0.6M parámetros) basado en la Red de Memoria Secuencial de Alimentación Directa Profunda (DFSMN), que soporta VAD en flujo continuo (streaming), VAD no continuo y VAD multi-etiqueta (mVAD). En el punto de referencia FLEURS-VAD-102, alcanza un 97.57% de F1 a nivel de frame y un 99.60% de AUC-ROC, superando a Silero-VAD, TEN-VAD, FunASR-VAD y WebRTC-VAD. * **FireRedLID:** Un módulo LID de tipo Codificador-Decodificador que soporta 100+ lenguas y 20+ dialectos y acentos del chino. En FLEURS (82 lenguas), logra una precisión del 97.18% a nivel de enunciado, superando a Whisper y SpeechBrain. * **FireRedPunc:** Un módulo de predicción de puntuación estilo BERT para chino e inglés. En puntos de referencia multidisciplinares, alcanza un 78.90% de F1 promedio, superando a FunASR-Punc (62.77%). Para impulsar la investigación en el procesamiento del habla, publicamos los pesos de los modelos y el código en https://github.com/FireRedTeam/FireRedASR2S.
Los modelos de difusión latente han establecido un nuevo estado del arte en la generación visual de alta resolución. La integración de previos de Modelos Base de Visión mejora la eficiencia generativa, sin embargo, los diseños latentes existentes siguen siendo en gran medida heurísticos. Estos enfoques a menudo luchan por unificar la discriminabilidad semántica, la fidelidad de reconstrucción y la compacidad latente. En este artículo, proponemos el Autoencoder Geométrico (GAE), un marco fundamentado que aborda sistemáticamente estos desafíos. Mediante el análisis de varios paradigmas de alineación, GAE construye un objetivo de supervisión semántica optimizado de baja dimensionalidad a partir de los MFV para proporcionar guía al autoencoder. Además, aprovechamos una normalización latente que reemplaza la restrictiva divergencia KL de los VAE estándar, permitiendo una variedad latente más estable específicamente optimizada para el aprendizaje por difusión. Para garantizar una reconstrucción robusta bajo ruido de alta intensidad, GAE incorpora un mecanismo dinámico de muestreo de ruido. Empíricamente, GAE logra un rendimiento convincente en el benchmark ImageNet-1K 256x256, alcanzando un gFID de 1.82 en solo 80 épocas y 1.31 en 800 épocas sin Guía Libre de Clasificador, superando significativamente a los métodos existentes más avanzados. Más allá de la calidad generativa, GAE establece un equilibrio superior entre compresión, profundidad semántica y estabilidad de reconstrucción robusta. Estos resultados validan nuestras consideraciones de diseño, ofreciendo un paradigma prometedor para el modelado de difusión latente. El código y los modelos están disponibles públicamente en https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
El preentrenamiento es crucial para los modelos de lenguaje grandes (LLM), ya que es cuando se adquieren la mayoría de las representaciones y capacidades. Sin embargo, el preentrenamiento con lenguaje natural presenta problemas: el texto de alta calidad es finito, contiene sesgos humanos y entrelaza el conocimiento con el razonamiento. Esto plantea una pregunta fundamental: ¿es el lenguaje natural el único camino hacia la inteligencia? Proponemos utilizar autómatas celulares neuronales (NCA) para generar datos sintéticos no lingüísticos para el pre-preen-trenamiento de LLM—es decir, entrenar primero con lenguaje sintético y luego con lenguaje natural. Los datos de NCA exhiben una rica estructura espacio-temporal y estadísticas similares al lenguaje natural, mientras que son controlables y baratos de generar a gran escala. Descubrimos que el pre-preen-trenamiento con solo 164 millones de tokens de NCA mejora el modelado del lenguaje posterior hasta en un 6% y acelera la convergencia hasta en 1.6 veces. Sorprendentemente, esto supera incluso al pre-preen-trenamiento con 1.600 millones de tokens de lenguaje natural de Common Crawl, que requiere mayor poder computacional. Estas ganancias también se transfieren a benchmarks de razonamiento, incluidos GSM8K, HumanEval y BigBench-Lite. Al investigar qué impulsa la transferencia, encontramos que las capas de atención son las más transferibles, y que la complejidad óptima del NCA varía según el dominio: el código se beneficia de dinámicas más simples, mientras que las matemáticas y el texto web favorecen dinámicas más complejas. Estos resultados permiten ajustar sistemáticamente la distribución sintética para dominios específicos. En términos más amplios, nuestro trabajo abre un camino hacia modelos más eficientes con preentrenamiento totalmente sintético.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han sido ampliamente adoptados como "MLLM-como-Jueces" debido a su fuerte alineación con el criterio humano en diversas tareas visuales. Sin embargo, la mayoría de los modelos jueces existentes están optimizados para escenarios de tarea única y tienen dificultades para generalizar a contextos diversos, un requisito crítico para una evaluación fiable. Para abordar esta limitación, proponemos el Aprendizaje por Refuerzo Multitarea para MLLM-como-Juez (MT-RL-Judge), un marco que optimiza conjuntamente el modelo juez en múltiples tareas, aprovechando las capacidades de generalización del AR. Los resultados experimentales frente a varias líneas base sólidas demuestran que MT-RL-Judge supera a estas líneas base tanto en consistencia de juicio como en correlación con las preferencias humanas. Además, nuestro enfoque exhibe una generalización robusta en tareas fuera de distribución, validando aún más su eficacia.
Los modelos de difusión de texto a audio producen audio de alta fidelidad pero requieren decenas de evaluaciones de función (NFEs), incurriendo en latencias de varios segundos y un rendimiento limitado. Presentamos SoundWeaver, el primer sistema de servicio agnóstico al modelo y sin entrenamiento que acelera la difusión de texto a audio mediante un inicio cálido partiendo de audio en caché semánticamente similar. SoundWeaver introduce tres componentes: un Selector de Referencias que recupera y alinea temporalmente candidatos en caché mediante un filtrado semántico y consciente de la duración; un Puerta de Omisión que determina dinámicamente el porcentaje de NFEs a omitir; y un Administrador de Caché ligero que mantiene la utilidad de la caché mediante una expulsión y refinamiento conscientes de la calidad. En trazas de audio del mundo real, SoundWeaver logra una reducción de latencia de 1.8 a 3.0 veces con una caché de solo ~1K entradas, preservando o mejorando la calidad perceptual.
El preentrenamiento produce un vector de parámetros aprendido que normalmente se trata como punto de partida para una adaptación iterativa posterior. En este trabajo, en cambio, consideramos el resultado del preentrenamiento como una distribución sobre vectores de parámetros, cuyo soporte ya contiene expertos específicos de tareas. Demostramos que en modelos pequeños dichas soluciones expertas ocupan una fracción insignificante del volumen de esta distribución, haciendo que su descubrimiento dependa de métodos de optimización estructurados como el descenso de gradiente. Por el contrario, en modelos grandes y bien preentrenados, la densidad de expertos por tarea aumenta drásticamente, de modo que especialistas diversos que mejoran el rendimiento pueblan una fracción sustancial de la vecindad alrededor de los pesos preentrenados. Motivados por esta perspectiva, exploramos un método simple de posentrenamiento totalmente paralelo que muestrea N perturbaciones de parámetros al azar, selecciona las K mejores y combina las predicciones mediante voto mayoritario. A pesar de su simplicidad, este enfoque es competitivo con métodos estándar de posentrenamiento como PPO, GRPO y ES para modelos contemporáneos a gran escala.
El Aprendizaje por Refuerzo Continuo (CRL) para modelos Visión-Lenguaje-Acción (VLA) es una dirección prometedora hacia agentes corporizados que se auto-mejoran y pueden adaptarse en entornos abiertos y en evolución. Sin embargo, la sabiduría convencional del aprendizaje continuo sugiere que el Ajuste Fino Secuencial (Seq. FT) ingenuo conduce al olvido catastrófico, lo que hace necesarias estrategias complejas de CRL. En este trabajo, damos un paso atrás y realizamos un estudio sistemático de CRL para VLAs grandes preentrenados, evaluando tres modelos en cinco benchmarks desafiantes de aprendizaje por refuerzo de por vida. Descubrimos que, contrariamente a la creencia establecida, el simple Seq. FT con adaptación de bajo rango (LoRA) es notablemente sólido: logra una alta plasticidad, exhibe poco o ningún olvido y mantiene una fuerte generalización zero-shot, superando frecuentemente a métodos de CRL más sofisticados. Mediante un análisis detallado, demostramos que esta robustez surge de una sinergia entre el modelo grande preentrenado, la adaptación eficiente de parámetros y el aprendizaje por refuerzo on-policy. En conjunto, estos componentes reconfiguran el equilibrio estabilidad-plasticidad, haciendo que la adaptación continua sea tanto estable como escalable. Nuestros resultados posicionan al Ajuste Fino Secuencial como un método poderoso para el aprendizaje por refuerzo continuo con VLAs y aportan nuevas perspectivas sobre el aprendizaje de por vida en la era de los modelos grandes. El código está disponible en github.com/UT-Austin-RobIn/continual-vla-rl.
Proponemos Neural Field Thermal Tomography (NeFTY), un marco de física diferenciable para la reconstrucción cuantitativa 3D de propiedades materiales a partir de mediciones transitorias de temperatura superficial. Mientras que la termografía tradicional se basa en aproximaciones unidimensionales píxel a píxel que desprecian la difusión lateral, y las Redes Neuronales Informadas por Física (PINNs) de restricciones blandas a menudo fallan en escenarios de difusión transitoria debido a la rigidez del gradiente, NeFTY parametriza el campo de difusividad 3D como un campo neuronal continuo optimizado mediante un solucionador numérico riguroso. Al aprovechar un solucionador de física diferenciable, nuestro enfoque impone las leyes termodinámicas como restricciones duras mientras mantiene la eficiencia de memoria necesaria para la tomografía 3D de alta resolución. Nuestro paradigma de discretizar-y-luego-optimizar mitiga eficazmente el sesgo espectral y el mal planteamiento inherentes a la conducción inversa del calor, permitiendo la recuperación de defectos subsuperficiales a escalas arbitrarias. La validación experimental con datos sintéticos demuestra que NeFTY mejora significativamente la precisión en la localización de defectos subsuperficiales en comparación con los métodos de referencia. Detalles adicionales en https://cab-lab-princeton.github.io/nefty/
El control de humanoides basado en física ha logrado un progreso notable en la generación de comportamientos realistas y de alto rendimiento para un solo agente, sin embargo, extender estas capacidades a la interacción cooperativa humano-objeto (HOI) sigue siendo un desafío. Presentamos TeamHOI, un marco que permite que una única política descentralizada gestione HOIs cooperativas con cualquier número de agentes cooperantes. Cada agente opera utilizando observaciones locales mientras atiende a otros compañeros de equipo a través de una red de políticas basada en Transformer con tokens de compañeros, permitiendo una coordinación escalable en tamaños de equipo variables. Para garantizar el realismo del movimiento mientras se aborda la escasez de datos de HOI cooperativos, introducimos además una estrategia enmascarada de Prioridad de Movimiento Adversarial (AMP) que utiliza movimientos de referencia de un solo humano mientras enmascara las partes del cuerpo que interactúan con el objeto durante el entrenamiento. Las regiones enmascaradas son luego guiadas mediante recompensas de tarea para producir comportamientos cooperativos diversos y físicamente plausibles. Evaluamos TeamHOI en una tarea de transporte cooperativo que implica de dos a ocho agentes humanoides y geometrías de objetos variadas. Finalmente, para promover un transporte estable, diseñamos una recompensa de formación independiente del tamaño del equipo y la forma. TeamHOI logra altas tasas de éxito y demuestra una cooperación coherente en diversas configuraciones con una única política.
Presentamos NerVE, un marco unificado de eigenspectro para comprender cómo las redes neuronales feed-forward (FFN) en los modelos de lenguaje a gran escala (LLM) organizan y regulan el flujo de información en el espacio latente de alta dimensión. A pesar de que las FFN dominan el presupuesto de parámetros, su dinámica de alta dimensión sigue siendo poco comprendida. NerVE aborda esta brecha mediante el seguimiento ligero y eficiente en memoria de la dinámica del eigenspectro a través de cuatro métricas complementarias: Entropía Espectral (dispersión), Ratio de Participación (dimensionalidad efectiva), Enriquecimiento Temprano de Autovalores (dominancia de los modos principales) y divergencia de Jensen-Shannon (cambios distribucionales). Nuestra idea clave es que las no linealidades de las FFN reinyectan varianza a través de los eigenmodos, gobernando fundamentalmente la utilización de las dimensiones latentes, y que la geometría del optimizador modula fuertemente el grado de esta reinyección de varianza. Validamos NerVE a través de diferentes escalas de modelos, y diversas configuraciones arquitectónicas y de optimizadores, cada una dando forma única a la dinámica de las FFN: los esquemas de normalización controlan el flujo de varianza; las geometrías de los pesos de las FFN restringen el espacio latente; la codificación posicional y las funciones de activación regulan el flujo de información; y las elecciones del optimizador redistribuyen la capacidad efectiva a lo largo de la profundidad. En todos estos escenarios, NerVE recupera consistentemente firmas espectrales estables que se correlacionan con la capacidad de generalización del modelo y responden de manera predecible a las decisiones de diseño, generalizándose más allá del transformer a arquitecturas MLP-Mixer, proporcionando insights prácticos para las elecciones arquitectónicas y de optimizador más allá del ensayo y error.
El Modelo de Lenguaje Federado (FedLM) permite un aprendizaje colaborativo sin compartir datos brutos, pero introduce una vulnerabilidad crítica, ya que cada cliente no confiable puede filtrar la instancia del modelo funcional recibida. Los esquemas de marca de agua actuales para FedLM a menudo requieren acceso de caja blanca y cooperación del lado del cliente, proporcionando solo una prueba de propiedad a nivel de grupo en lugar de una trazabilidad individual. Proponemos EmbTracker, un marco de marca de agua trazable de caja negra, específicamente diseñado para FedLMs, que opera desde el lado del servidor. EmbTracker logra la verificabilidad de caja negra mediante la inserción de una marca de agua basada en puerta trasera detectable mediante simples consultas API. La trazabilidad a nivel de cliente se realiza inyectando marcas de agua únicas específicas de identidad en el modelo distribuido a cada cliente. De esta manera, un modelo filtrado puede atribuirse a un culpable específico, garantizando robustez incluso frente a participantes no cooperativos. Experimentos exhaustivos en varios modelos de lenguaje y visión-lenguaje demuestran que EmbTracker logra una trazabilidad robusta con tasas de verificación cercanas al 100%, alta resistencia contra ataques de eliminación (afinamiento, poda, cuantización) y un impacto insignificante en el rendimiento de la tarea principal (generalmente dentro del 1-2%).
El Reconocimiento Audiovisual del Habla (AVSR) aprovecha la información acústica y visual para lograr un reconocimiento robusto en entornos ruidosos. Sin embargo, la forma en que los modelos equilibran estas modalidades sigue sin estar clara. Presentamos Dr. SHAP-AV, un marco que utiliza valores de Shapley para analizar las contribuciones de las modalidades en AVSR. Mediante experimentos en seis modelos, dos puntos de referencia y diversos niveles de SNR, introducimos tres análisis: SHAP Global para el equilibrio general de modalidades, SHAP Generativo para la dinámica de contribuciones durante la decodificación y SHAP de Alineación Temporal para la correspondencia entrada-salida. Nuestros hallazgos revelan que los modelos tienden a depender más de la información visual bajo ruido, pero mantienen contribuciones de audio significativas incluso bajo una degradación severa. El equilibrio de modalidades evoluciona durante la generación, la alineación temporal se mantiene bajo ruido y el SNR es el factor dominante que determina la ponderación de las modalidades. Estos resultados exponen un sesgo persistente hacia el audio, lo que motiva el desarrollo de mecanismos de ponderación de modalidades ad-hoc y la atribución basada en Shapley como un diagnóstico estándar para AVSR.
Los transformadores a menudo exhiben un sumidero de atención: la masa de probabilidad se concentra en una posición fija y ajena al contenido. Demostramos que calcular un comportamiento simple condicionado a un disparador induce necesariamente un sumidero en los modelos de auto-atención con softmax. Nuestros resultados formalizan una intuición familiar: la normalización sobre un símplex de probabilidad debe forzar a la atención a colapsar sobre un ancla estable para realizar un estado por defecto (por ejemplo, cuando el modelo necesita ignorar la entrada). Instanciamos esto con una tarea concreta: cuando aparece un token disparador designado, el modelo debe devolver el promedio de todas las representaciones de tokens precedentes, y en caso contrario, generar un cero; una tarea que refleja la funcionalidad de las cabezas de atención en modelos reales (Barbero et al., 2025; Guo et al., 2024). También demostramos que la atención con ReLU no normalizada puede resolver la misma tarea sin ningún sumidero, confirmando que la restricción de normalización es el impulsor fundamental del comportamiento de sumidero. Los experimentos validan nuestras predicciones y demuestran que se extienden más allá del escenario analizado teóricamente: los modelos con softmax desarrollan fuertes sumideros, mientras que la atención con ReLU los elimina tanto en variantes de cabeza única como de múltiples cabezas.
La estimación de efectos de tratamiento heterogéneos (ETH) a partir de datos de supervivencia censurados por la derecha es fundamental en aplicaciones de alto impacto como la medicina de precisión y la formulación de políticas individualizadas. Sin embargo, el entorno del análisis de supervivencia plantea desafíos únicos para la estimación de ETH debido al censurado, los contrafactuales no observados y las complejas suposiciones de identificación. A pesar de los avances recientes, desde Bosques de Supervivencia Causal hasta meta-aprendices de supervivencia y enfoques de imputación de resultados, las prácticas de evaluación siguen siendo fragmentadas e inconsistentes. Presentamos SurvHTE-Bench, el primer benchmark integral para la estimación de ETH con resultados censurados. El benchmark abarca (i) un conjunto modular de conjuntos de datos sintéticos con verdad fundamental conocida, que varía sistemáticamente las suposiciones causales y las dinámicas de supervivencia, (ii) conjuntos de datos semi-sintéticos que combinan covariables del mundo real con tratamientos y resultados simulados, y (iii) conjuntos de datos del mundo real procedentes de un estudio de gemelos (con verdad fundamental conocida) y de un ensayo clínico sobre el VIH. A través de entornos sintéticos, semi-sintéticos y del mundo real, proporcionamos la primera comparación rigurosa de métodos de ETH en supervivencia bajo diversas condiciones y violaciones realistas de las suposiciones. SurvHTE-Bench establece una base para una evaluación justa, reproducible y extensible de los métodos de supervivencia causal. Los datos y el código de nuestro benchmark están disponibles en: https://github.com/Shahriarnz14/SurvHTE-Bench.
A pesar del impresionante rendimiento de modelos de difusión como Stable Diffusion (SD) en la generación de imágenes, su inferencia lenta limita su implementación práctica. Trabajos recientes aceleran la inferencia mediante la destilación de la difusión multi-paso en generadores de un solo paso. Para comprender mejor el mecanismo de destilación, analizamos los cambios en los pesos de U-Net/DiT entre los estudiantes de un paso y sus contrapartes docentes multi-paso. Nuestro análisis revela que los cambios en la dirección de los pesos superan significativamente a los cambios en la norma de los pesos, destacando a la dirección como el factor clave durante la destilación. Motivados por esta observación, proponemos la Rotación de Bajo Rango de la Dirección de pesos (LoRaD), un adaptador eficiente en parámetros diseñado para la destilación de difusión en un paso. LoRaD está diseñado para modelar estos cambios direccionales estructurados utilizando matrices de rotación de bajo rango entrenables. Además, integramos LoRaD en la Destilación de Puntuación Variacional (VSD), dando lugar a WaDi (Destilación Consciente de la Dirección de Pesos), un novedoso marco de destilación en un solo paso. WaDi logra puntuaciones FID state-of-the-art en COCO 2014 y COCO 2017 utilizando solo aproximadamente el 10% de los parámetros entrenables del U-Net/DiT. Además, el modelo destilado de un paso demuestra una fuerte versatilidad y escalabilidad, generalizando bien para varias tareas posteriores, como la generación controlable, la inversión de relaciones y la síntesis de alta resolución.
Los codificadores de visión preentrenados como DINOv2 han demostrado un rendimiento excepcional en tareas unimodales. Sin embargo, observamos que sus representaciones de características presentan una mala alineación entre diferentes modalidades. Por ejemplo, la incrustación de características para una imagen RGB y su mapa de profundidad correspondiente de la misma escena exhibe una similitud de coseno casi idéntica a la de dos imágenes aleatorias y no relacionadas. Para abordar este problema, proponemos el Codificador de Visión Omnívoro, un marco novedoso que aprende un espacio de características independiente de la modalidad. Entrenamos el codificador con un objetivo dual: primero, maximizar la alineación de características entre diferentes modalidades de la misma escena; y segundo, un objetivo de destilación que ancla las representaciones aprendidas a la salida de un profesor completamente congelado, como DINOv2. El codificador estudiante resultante se vuelve "omnívoro" al producir una incrustación consistente y potente para una escena determinada, independientemente de la modalidad de entrada (RGB, profundidad, segmentación, etc.). Este enfoque permite una comprensión cruzada multimodal robusta mientras retiene la semántica discriminativa del modelo base original.
La reconstrucción 4D de équidos (por ejemplo, caballos) a partir de vídeo monocular es importante para el bienestar animal. Los métodos principales anteriores de reconstrucción 4D animal requieren una optimización conjunta del movimiento y la apariencia a lo largo de todo un vídeo, lo que consume mucho tiempo y es sensible a observaciones incompletas. En este trabajo, proponemos un nuevo marco denominado 4DEquine que desglosa el problema de la reconstrucción 4D en dos subproblemas: reconstrucción de movimiento dinámico y reconstrucción de apariencia estática. Para el movimiento, introducimos un transformador espacio-temporal simple pero efectivo con una etapa de post-optimización para regresar secuencias de pose y forma suaves y alineadas por píxeles a partir del vídeo. Para la apariencia, diseñamos una novedosa red de propagación hacia adelante que reconstruye un avatar de Gaussianas 3D de alta fidelidad y animable a partir de tan solo una única imagen. Para ayudar en el entrenamiento, creamos un extenso conjunto de datos de movimiento sintético, VarenPoser, que presenta movimientos superficiales de alta calidad y trayectorias de cámara diversas, así como un conjunto de datos de apariencia sintética, VarenTex, que comprende imágenes realistas multi-vista generadas mediante difusión multi-vista. Aunque se entrena únicamente con conjuntos de datos sintéticos, 4DEquine logra un rendimiento de vanguardia en los conjuntos de datos del mundo real APT36K y AiM, lo que demuestra la superioridad de 4DEquine y nuestros nuevos conjuntos de datos tanto para la reconstrucción de geometría como de apariencia. Estudios exhaustivos de ablación validan la efectividad tanto de la red de reconstrucción de movimiento como de apariencia. Página del proyecto: https://luoxue-star.github.io/4DEquine_Project_Page/.
Los modelos generativos se emplean ampliamente para mejorar el fotorrealismo de datos sintéticos utilizados en el entrenamiento de algoritmos de visión por computadora. Sin embargo, a menudo introducen artefactos visuales que degradan la precisión de estos algoritmos y requieren altos recursos computacionales, lo que limita su aplicabilidad en escenarios de entrenamiento o evaluación en tiempo real. En este artículo, proponemos HyPER-GAN (Red Generativa Antagónica de Realismo Mejorado con Parches Híbridos), un método liviano de traducción de imagen a imagen basado en un generador de estilo U-Net diseñado para inferencia en tiempo real. El modelo se entrena utilizando imágenes sintéticas emparejadas con versiones mejoradas fotorealísticamente, complementado con una estrategia de entrenamiento híbrida que incorpora parches coincidentes de datos del mundo real para mejorar el realismo visual y la consistencia semántica. Los resultados experimentales demuestran que HyPER-GAN supera a los métodos más avanzados de traducción de imagen a imagen con pares en términos de latencia de inferencia, realismo visual y robustez semántica. Además, se ilustra que la estrategia de entrenamiento híbrida propuesta mejora efectivamente la calidad visual y la consistencia semántica en comparación con entrenar el modelo únicamente con pares de imágenes sintéticas y mejoradas fotorealísticamente. El código y los modelos preentrenados están disponibles públicamente para su descarga en: https://github.com/stefanos50/HyPER-GAN.
La prohibición de exportación de mineral de níquel de Indonesia ha impulsado la rápida expansión de la capacidad de fundición y procesamiento hidrometalúrgico en el Parque Industrial de Indonesia Morowali (IMIP), ahora el complejo de procesamiento de níquel integrado más grande del mundo, ubicado en la costa de Célebes Central. Si esta industrialización ha degradado el medio marino adyacente sigue sin cuantificarse. Aplicamos inferencia causal bayesiana de series temporales estructurales (BSTS) a un registro multidecadal y multisensor de color del oceánico satelital del coeficiente de atenuación difusa a 490 nm, K_d(490), para evaluar un vínculo causal entre la expansión del IMIP y el cambio de turbidez costera. Un punto de quiebre estructural consensuado, un efecto causal posterior significativo estimado frente a un contrafactual del Mar de Banda, y una prueba de rango placebo libre de distribución, establecen colectivamente que la claridad del agua costera se deterioró después de la transición de la producción inicial de níquel pig iron a la hiperexpansión de instalaciones de lixiviación ácida a alta presión para níquel de grado batería. Un análisis de cobertura terrestre derivado de satélite corrobora independientemente esta cronología, mostrando un crecimiento sustancial del área construida y una pérdida concurrente de cobertura arbórea dentro de la huella del IMIP. El resultante someramiento de la zona eufótica ocurre en aguas oligotróficas que sustentan una alta biodiversidad marina, donde incluso una degradación óptica moderada puede perjudicar la fotosíntesis de los corales y comprimir el hábitat arrecifal dependiente de la profundidad. Estos hallazgos cuantifican un costo ambiental marino ausente en el discurso político indonesio sobre la transformación mineral aguas abajo y demuestran un marco cuasiexperimental basado en satélites y transferible para la evaluación causal de impactos en sitios industriales costeros en entornos tropicales con limitación de datos.