Artículos de investigación en IA seleccionados diariamente con traducciones
¿Qué ocurre cuando un narrador olvida su propia historia? Los Modelos de Lenguaje a Gran Escala (LLM) pueden generar narrativas que abarcan decenas de miles de palabras, pero a menudo fallan en mantener la coherencia a lo largo de todo el relato. Al generar narrativas extensas, estos modelos pueden contradecir sus propios hechos establecidos, rasgos de personajes y reglas del mundo narrativo. Los puntos de referencia existentes para la generación de historias se centran principalmente en la calidad de la trama y la fluidez, dejando los errores de coherencia en gran medida inexplorados. Para abordar esta brecha, presentamos ConStory-Bench, un punto de referencia diseñado para evaluar la coherencia narrativa en la generación de historias de formato largo. Contiene 2.000 indicaciones a través de cuatro escenarios de tareas y define una taxonomía de cinco categorías de errores con 19 subtipos detallados. También desarrollamos ConStory-Checker, un proceso automatizado que detecta contradicciones y fundamenta cada juicio en evidencia textual explícita. Evaluando una variedad de LLM mediante cinco preguntas de investigación, encontramos que los errores de coherencia muestran tendencias claras: son más comunes en las dimensiones factuales y temporales, tienden a aparecer alrededor de la mitad de las narrativas, ocurren en segmentos de texto con mayor entropía a nivel de token, y ciertos tipos de errores tienden a co-ocurrir. Estos hallazgos pueden orientar futuros esfuerzos para mejorar la coherencia en la generación de narrativas extensas. Nuestra página del proyecto está disponible en https://picrew.github.io/constory-bench.github.io/.
La búsqueda de inteligencia espacial depende fundamentalmente del acceso a datos 3D a gran escala y de grano fino. Sin embargo, los enfoques existentes construyen principalmente puntos de referencia de comprensión espacial generando pares de preguntas y respuestas (QA) a partir de un número limitado de conjuntos de datos anotados manualmente, en lugar de anotar sistemáticamente nuevas escenas 3D a gran escala a partir de datos web en bruto. Como resultado, su escalabilidad se ve severamente limitada, y el rendimiento del modelo se ve además obstaculizado por las brechas de dominio inherentes a estos conjuntos de datos curados de manera restringida. En este trabajo, proponemos Holi-Spatial, el primer conjunto de datos multimodal a gran escala y con conciencia espacial, completamente automatizado, construido a partir de entradas de vídeo en bruto sin intervención humana, utilizando la pipeline de curación de datos propuesta. Holi-Spatial admite supervisión espacial multinivel, que abarca desde reconstrucciones geométricamente precisas mediante Gaussian Splatting 3D (3DGS) con mapas de profundidad renderizados, hasta anotaciones semánticas a nivel de objeto y relacionales, junto con los correspondientes pares de preguntas y respuestas (QA) espaciales. Siguiendo una pipeline sistemática y basada en principios, construimos además Holi-Spatial-4M, el primer conjunto de datos semántico 3D a gran escala y de alta calidad, que contiene 12K escenas 3DGS optimizadas, 1.3M máscaras 2D, 320K cajas delimitadoras 3D, 320K descripciones de instancias, 1.2M instancias de grounding 3D y 1.2M pares de QA espaciales que abarcan diversas tareas de razonamiento geométrico, relacional y semántico. Holi-Spatial demuestra un rendimiento excepcional en la calidad de la curación de datos, superando significativamente a los métodos feed-forward y optimizados por escena existentes en conjuntos de datos como ScanNet, ScanNet++ y DL3DV. Además, el ajuste fino de Modelos de Visión y Lenguaje (VLMs) en tareas de razonamiento espacial utilizando este conjunto de datos también ha conducido a mejoras sustanciales en el rendimiento del modelo.
Los modelos de fundación geométrica de avance (feedforward) logran una reconstrucción sólida en ventanas cortas, pero escalarlos a videos de varios minutos encuentra el cuello de botella de la complejidad cuadrática de la atención o la memoria efectiva limitada en diseños recurrentes. Presentamos LoGeR (Reconstrucción Geométrica de Contexto Largo), una arquitectura novedosa que escala la reconstrucción 3D densa a secuencias extremadamente largas sin post-optimización. LoGeR procesa flujos de video en fragmentos, aprovechando fuertes priores bidireccionales para un razonamiento de alta fidelidad dentro del fragmento. Para gestionar el desafío crítico de la coherencia entre los límites de los fragmentos, proponemos un módulo de memoria híbrido basado en aprendizaje. Este sistema de dos componentes combina una memoria paramétrica de Entrenamiento en Tiempo de Prueba (TTT) para anclar el marco de coordenadas global y prevenir la deriva de escala, junto con un mecanismo no paramétrico de Atención por Ventana Deslizante (SWA) para preservar el contexto sin comprimir y lograr una alineación adyacente de alta precisión. Notablemente, esta arquitectura de memoria permite entrenar a LoGeR en secuencias de 128 fotogramas y que generalice hasta miles de fotogramas durante la inferencia. Evaluado en benchmarks estándar y en un conjunto de datos VBR reutilizado con secuencias de hasta 19k fotogramas, LoGeR supera sustancialmente a los métodos de avance anteriores de última generación—reduciendo el ATE en KITTI en más de un 74%—y logra una reconstrucción robusta y globalmente consistente en horizontes sin precedentes.
El aprendizaje por refuerzo no supervisado con recompensas verificables (URLVR, por sus siglas en inglés) ofrece un camino para escalar el entrenamiento de modelos de lenguaje más allá del cuello de botella de la supervisión, derivando recompensas sin etiquetas de verdad fundamental. Trabajos recientes aprovechan señales intrínsecas del modelo, mostrando avances iniciales prometedores, aunque su potencial y limitaciones siguen sin estar claros. En este trabajo, revisitamos el URLVR y proporcionamos un análisis exhaustivo que abarca taxonomía, teoría y experimentos extensos. Primero clasificamos los métodos URLVR en intrínsecos versus externos según la fuente de la recompensa, luego establecemos un marco teórico unificado que revela que todos los métodos intrínsecos convergen hacia un afianzamiento de la distribución inicial del modelo. Este mecanismo de afianzamiento tiene éxito cuando la confianza inicial se alinea con la corrección, pero falla catastróficamente cuando no hay alineación. Mediante experimentos sistemáticos, mostramos que las recompensas intrínsecas siguen consistentemente un patrón de subida y posterior caída en todos los métodos, estando el momento del colapso determinado por la predisposición del modelo y no por elecciones de ingeniería. A pesar de estos límites de escalabilidad, encontramos que las recompensas intrínsecas siguen siendo valiosas en el entrenamiento en tiempo de prueba con conjuntos de datos pequeños, y proponemos el "Paso de Colapso del Modelo" para medir la predisposición del modelo, sirviendo como un indicador práctico de la capacidad de entrenamiento por refuerzo. Finalmente, exploramos métodos de recompensa externa que fundamentan la verificación en asimetrías computacionales, mostrando evidencia preliminar de que podrían superar el techo de confianza-corrección. Nuestros hallazgos trazan los límites del URLVR intrínseco a la vez que motivan caminos hacia alternativas escalables.
Los Grandes Modelos de Razonamiento han demostrado un rendimiento notable con el avance de las técnicas de escalado en tiempo de prueba, que mejoran la precisión de las predicciones generando múltiples respuestas candidatas y seleccionando la respuesta más confiable. Si bien trabajos previos han analizado que señales internas del modelo, como las puntuaciones de confianza, pueden indicar parcialmente la corrección de las respuestas y exhibir una correlación distribucional con la precisión, dicha información distribucional no se ha utilizado completamente para guiar la selección de respuestas. Motivados por esto, proponemos DistriVoting, que incorpora previos distribucionales como otra señal junto con la confianza durante la votación. Específicamente, nuestro método (1) primero descompone la distribución mixta de confianza en componentes positivos y negativos utilizando Modelos de Mezcla Gaussianos, (2) luego aplica un filtro de rechazo basado en muestras positivas/negativas de estos para mitigar el solapamiento entre las dos distribuciones. Además, para aliviar aún más el solapamiento desde la perspectiva de la distribución misma, proponemos SelfStepConf, que utiliza la confianza a nivel de paso para ajustar dinámicamente el proceso de inferencia, aumentando la separación entre las dos distribuciones para mejorar la confiabilidad de las puntuaciones de confianza en la votación. Los experimentos en 16 modelos y 5 benchmarks demuestran que nuestro método supera significativamente a los enfoques más avanzados.
Los editores de difusión unificados a menudo dependen de una arquitectura fija y compartida para diversas tareas, sufriendo de interferencia entre tareas y una pobre adaptación a demandas heterogéneas (por ejemplo, local vs. global, semántica vs. fotométrica). En particular, las variantes predominantes como ControlNet y OmniControl combinan múltiples señales de condicionamiento (por ejemplo, texto, máscara, referencia) mediante concatenación estática o adaptadores aditivos que no pueden priorizar o suprimir dinámicamente modalidades conflictivas, lo que resulta en artefactos como sangrado de color en los límites de las máscaras, deriva de identidad o estilo, y comportamientos impredecibles bajo entradas multi-condición. Para abordar esto, proponemos Condition-Aware Routing of Experts (CARE-Edit), que alinea el cómputo del modelo con competencias de edición específicas. En su núcleo, un enrutador de atención latente ligero asigna tokens de difusión codificados a cuatro expertos especializados (Texto, Máscara, Referencia y Base) basándose en condiciones multimodales y pasos de tiempo de difusión: (i) un módulo de Repintado de Máscara primero refina máscaras definidas por el usuario para una guía espacial precisa; (ii) el enrutador aplica una selección top-K dispersa para asignar dinámicamente el cómputo a los expertos más relevantes; (iii) un módulo de Mezcla Latente fusiona posteriormente las salidas de los expertos, integrando coherentemente información semántica, espacial y estilística en las imágenes base. Los experimentos validan el sólido rendimiento de CARE-Edit en tareas de edición contextual, incluyendo borrado, reemplazo, ediciones guiadas por texto y transferencia de estilo. El análisis empírico revela además el comportamiento específico por tarea de los expertos especializados, destacando la importancia del procesamiento dinámico y consciente del condicionamiento para mitigar conflictos multi-condición.
Los recientes avances en Modelos Multimodales Unificados (UMMs) han impulsado significativamente la generación de texto a imagen (T2I), particularmente mediante la integración del razonamiento en Cadena de Pensamiento (CoT). Sin embargo, los métodos T2I basados en CoT existentes dependen en gran medida de una planificación abstracta en lenguaje natural, que carece de la precisión necesaria para diseños espaciales complejos, elementos visuales estructurados y contenido textual denso. En este trabajo, proponemos CoCo (Código-como-CoT), un marco de razonamiento impulsado por código que representa el proceso de razonamiento como código ejecutable, permitiendo una planificación intermedia explícita y verificable para la generación de imágenes. Dado un texto de entrada, CoCo genera primero código ejecutable que especifica el diseño estructural de la escena, el cual se ejecuta luego en un entorno controlado para renderizar un borrador determinista de la imagen. Posteriormente, el modelo refina este borrero mediante edición de imagen de grano fino para producir el resultado final de alta fidelidad. Para respaldar este paradigma de entrenamiento, construimos CoCo-10K, un conjunto de datos curado que contiene pares de imágenes borrador-final estructurados, diseñados para enseñar tanto la construcción de borradores estructurados como el refinamiento visual correctivo. Las evaluaciones empíricas en StructT2IBench, OneIG-Bench y LongText-Bench muestran que CoCo logra mejoras del +68.83%, +54.8% y +41.23% sobre la generación directa, superando también a otros métodos de generación potenciados por CoT. Estos resultados demuestran que el código ejecutable es un paradigma de razonamiento efectivo y confiable para la generación de texto a imagen precisa, controlable y estructurada. El código está disponible en: https://github.com/micky-li-hd/CoCo
La difusión autorregresiva (AR) ofrece un marco prometedor para generar vídeos de longitud teóricamente infinita. Sin embargo, un desafío importante es mantener la continuidad temporal evitando al mismo tiempo la degradación progresiva de la calidad causada por la acumulación de errores. Para garantizar la continuidad, los métodos existentes suelen condicionar la generación a contextos muy desruidosos; no obstante, esta práctica propaga los errores de predicción con alta certeza, agravando así la degradación. En este artículo, sostenemos que un contexto excesivamente limpio es innecesario. Inspirándonos en los modelos de difusión bidireccionales, que desruidan fotogramas con un nivel de ruido compartido manteniendo la coherencia, proponemos que condicionar la generación a un contexto con el mismo nivel de ruido que el bloque actual proporciona una señal suficiente para la consistencia temporal, mitigando eficazmente la propagación de errores. Basándonos en esta idea, proponemos HiAR, un marco de desruido jerárquico que invierte el orden de generación convencional: en lugar de completar cada bloque secuencialmente, realiza una generación causal en todos los bloques en cada paso de desruido, de modo que cada bloque siempre está condicionado a un contexto con el mismo nivel de ruido. Esta jerarquía admite de forma natural una inferencia paralela segmentada (pipelined), logrando una aceleración de 1.8x en tiempo real en nuestra configuración de 4 pasos. Observamos además que la destilación por auto-despliegue (self-rollout) bajo este paradigma amplifica un atajo de bajo movimiento inherente al objetivo de KL inverso, que busca modos. Para contrarrestar esto, introducimos un regularizador de KL directo en modo de atención bidireccional, que preserva la diversidad de movimiento para la inferencia causal sin interferir con la pérdida de destilación. En VBench (generación de 20s), HiAR logra la puntuación general más alta y la deriva temporal más baja entre todos los métodos comparados.
A medida que los modelos de lenguaje (LM) evolucionan de asistentes de chat a agentes de horizonte largo capaces de razonamiento multi-etapa y uso de herramientas, los benchmarks existentes se mantienen mayormente confinados a tareas estructuradas o de estilo examen que no alcanzan las demandas profesionales del mundo real. Para ello, presentamos OneMillion-Bench, un benchmark de 400 tareas curadas por expertos que abarcan Derecho, Finanzas, Industria, Salud y Ciencias Naturales, construido para evaluar agentes en escenarios económicamente consecuentes. A diferencia de trabajos previos, este benchmark requiere recuperar fuentes autorizadas, resolver evidencia conflictiva, aplicar reglas específicas de dominio y tomar decisiones con restricciones, donde la corrección depende tanto del proceso de razonamiento como de la respuesta final. Adoptamos un protocolo de evaluación basado en rúbricas que puntúa la precisión fáctica, la coherencia lógica, la viabilidad práctica y el cumplimiento profesional, centrado en problemas de nivel experto para garantizar una diferenciación significativa entre agentes. En conjunto, OneMillion-Bench proporciona un banco de pruebas unificado para evaluar la confiabilidad agentiva, la profundidad profesional y la preparación práctica en escenarios intensivos en dominio.
Si bien los sistemas de reconocimiento automático del habla (ASR) basados en modelos de lenguaje grandes (LLM) autoregresivos (AR) logran una alta precisión, su decodificación secuencial limita el paralelismo e incurre en una alta latencia. Proponemos NLE, un enfoque no autoregresivo (NAR) que formula el reconocimiento del habla como una edición condicional de la transcripción, permitiendo una predicción completamente paralela. NLE extrae *embeddings* acústicos y una hipótesis inicial de un codificador de habla preentrenado, y luego refina la hipótesis utilizando un editor LLM bidireccional entrenado con un objetivo de alineación latente. Una estrategia de relleno intercalado explota el sesgo de mapeo de identidad de los Transformers, permitiendo que el modelo se centre en correcciones en lugar de en una reconstrucción completa. En el ranking Open ASR, NLE++ logra un WER promedio del 5.67% con un RTFx (factor de tiempo real inverso) de 1630. En escenarios de enunciado único, NLE logra una aceleración de 27x sobre la línea base AR, haciéndolo adecuado para aplicaciones en tiempo real.
Los sistemas agentes que operan sobre grandes ecosistemas de herramientas deben planificar y ejecutar flujos de trabajo de largo horizonte bajo supervisión débil o no verificable. Si bien los modelos de última generación mitigan estos desafíos mediante escala y grandes presupuestos de contexto, los modelos de lenguaje pequeños (SLM, por sus siglas en inglés) siguen siendo frágiles: la carga ansiosa de herramientas satura el contexto, los errores de ejecución se acumulan con el tiempo y las recompensas dispersas limitan el aprendizaje. Presentamos ATLAS, un marco de ajuste fino por refuerzo que permite a los SLM operar eficazmente en entornos de espacios de herramientas a gran escala, aprendiendo a adquirir contexto y a ejecutar acciones. Nuestro enfoque presenta dos contribuciones clave. Primero, tratamos el control del contexto y la estructura de ejecución como decisiones aprendibles, combinando la carga iterativa de herramientas con la orquestación programática de las mismas para acotar el crecimiento del contexto y estabilizar las trayectorias de largo horizonte. Segundo, proponemos un ajuste fino por refuerzo basado en rúbricas, que descompone el éxito de la tarea en criterios estructurados y alineados con la misma, permitiendo un entrenamiento escalable mediante modelos jueces pequeños. En los benchmarks MCP, estas decisiones de diseño producen mejoras grandes y consistentes respecto a líneas base genéricas de RL, permitiendo que un SLM de 4B se aproxime al rendimiento de un agente de última generación con presupuestos de parámetros y contexto mucho más ajustados.
Presentamos AutoResearch-RL, un marco en el que un agente de aprendizaje por refuerzo lleva a cabo investigación abierta en arquitecturas neuronales e hiperparámetros sin supervisión humana, ejecutándose de forma perpetua hasta que un oráculo de terminación señala convergencia o agotamiento de recursos. En cada paso, el agente propone una modificación de código a un script de entrenamiento objetivo, lo ejecuta bajo un presupuesto fijo de tiempo de pared, observa una recompensa escalar derivada de los bits por byte de validación (val-bpb) y actualiza su política mediante Optimización de Políticas Proximales (PPO). La idea clave del diseño es la separación de tres aspectos: (i) un entorno congelado (canalización de datos, protocolo de evaluación y constantes) que garantiza una comparación justa entre experimentos; (ii) un archivo objetivo mutable (train.py) que representa el estado editable del agente; y (iii) un meta-aprendiz (el propio agente de RL) que acumula una trayectoria creciente de resultados experimentales y los utiliza para informar propuestas posteriores. Formalizamos esto como un Proceso de Decisión Markoviano, derivamos garantías de convergencia bajo supuestos moderados, y demostramos empíricamente en un benchmark de preentrenamiento nanochat con una sola GPU que AutoResearch-RL descubre configuraciones que igualan o superan líneas base ajustadas manualmente después de aproximadamente 300 iteraciones nocturnas, sin intervención humana en el ciclo.
Los agentes actuales de interfaz gráfica de usuario (GUI) operan principalmente bajo un paradigma reactivo: un usuario debe proporcionar una instrucción explícita para que el agente ejecute una tarea. Sin embargo, un asistente de IA inteligente debería ser proactivo, es decir, capaz de anticipar las intenciones del usuario directamente a partir de entradas visuales continuas, como capturas de pantalla de dispositivos móviles o de escritorio, y ofrecer recomendaciones oportunas sin que el usuario las solicite explícitamente. La transición a este paradigma proactivo presenta desafíos significativos. La actividad en pantalla del mundo real rara vez es lineal; consiste en trayectorias de largo recorrido plagadas de navegación ruidosa, acciones sin sentido y cambios de tarea multitarea. Para abordar esta brecha, presentamos PIRA-Bench (Benchmark de Agentes de Recomendación de Intenciones Proactivas), un nuevo benchmark para evaluar modelos de lenguaje grandes multimodales (MLLMs) en entradas visuales continuas y débilmente supervisadas. A diferencia de los conjuntos de datos reactivos, PIRA-Bench presenta trayectorias complejas con múltiples intenciones entrelazadas y segmentos ruidosos con diversos contextos de perfil de usuario, desafiando a los agentes a detectar eventos accionables mientras se adaptan a las preferencias del usuario. Además, proponemos la línea base PIRF, un marco de seguimiento de estado con memoria que capacita a los MLLMs generales para gestionar múltiples hilos de tareas y manejar entradas visuales engañosas. PIRA-Bench sirve como un paso inicial hacia asistentes personales robustos y proactivos basados en GUI.
Los modelos de difusión degradan las imágenes mediante ruido, y revertir este proceso revela una jerarquía de información a lo largo de los pasos temporales. La teoría del espacio de escalas exhibe una jerarquía similar mediante filtrado paso bajo. Formalizamos esta conexión y demostramos que los estados de difusión altamente ruidosos no contienen más información que imágenes pequeñas y reducidas en escala, lo que plantea la pregunta de por qué deben procesarse a resolución completa. Para abordarlo, fusionamos los espacios de escalas en el proceso de difusión formulando una familia de modelos de difusión con degradaciones lineales generalizadas e implementaciones prácticas. Utilizar la reducción de escala como degradación da lugar a nuestra propuesta: Difusión en el Espacio de Escalas. Para respaldar esta difusión, presentamos Flexi-UNet, una variante de UNet que realiza desruido que preserva la resolución y aumenta la resolución utilizando únicamente las partes necesarias de la red. Evaluamos nuestro marco de trabajo en CelebA e ImageNet y analizamos su comportamiento de escalado a través de resoluciones y profundidades de red. Nuestro sitio web del proyecto ( https://prateksha.github.io/projects/scale-space-diffusion/ ) está disponible públicamente.
Los modelos actuales de generación de vídeo adolecen de una alta latencia computacional, lo que hace prohibitivo el coste de las aplicaciones en tiempo real. En este artículo, abordamos esta limitación explotando la redundancia temporal inherente a los parches latentes de vídeo. Con este fin, proponemos el marco Latent Inter-frame Pruning with Attention Recovery (LIPAR), que detecta y omite el recálculo de parches latentes duplicados. Adicionalmente, introducimos un novedoso mecanismo de Recuperación de Atención que aproxima los valores de atención de los tokens podados, eliminando así los artefactos visuales que surgen de aplicar el método de poda de forma simplista. Empíricamente, nuestro método incrementa el rendimiento en la edición de vídeo en 1.45x, logrando en promedio 12.2 FPS en una NVIDIA A6000 frente a los 8.4 FPS de la línea base. El método propuesto no compromete la calidad de generación y puede integrarse perfectamente en el modelo sin entrenamiento adicional. Nuestro enfoque salva eficazmente la brecha entre los algoritmos de compresión tradicionales y los modernos pipelines generativos.
Si bien los modelos generativos de pocos pasos han permitido una potente generación de imágenes y videos a un costo significativamente menor, los paradigmas genéricos de aprendizaje por refuerzo (RL) para modelos de pocos pasos siguen siendo un problema sin resolver. Los enfoques de RL existentes para modelos de difusión de pocos pasos dependen en gran medida de la retropropagación a través de modelos de recompensa diferenciables, excluyendo así la mayoría de las señales de recompensa importantes del mundo real, por ejemplo, recompensas no diferenciables como la preferencia binaria humana, el recuento de objetos, etc. Para incorporar adecuadamente recompensas no diferenciables y así mejorar los modelos generativos de pocos pasos, presentamos TDM-R1, un novedoso paradigma de aprendizaje por refuerzo basado en un modelo líder de pocos pasos, el Emparejamiento de Distribución de Trayectorias (TDM). TDM-R1 desacopla el proceso de aprendizaje en el aprendizaje de recompensas sustitutas (surrogate) y el aprendizaje del generador. Además, desarrollamos métodos prácticos para obtener señales de recompensa por paso a lo largo de la trayectoria de generación determinista del TDM, dando como resultado un método unificado de post-entrenamiento por RL que mejora significativamente la capacidad de los modelos de pocos pasos con recompensas genéricas. Realizamos extensos experimentos que abarcan desde la representación de texto, la calidad visual y la alineación de preferencias. Todos los resultados demuestran que TDM-R1 es un paradigma de aprendizaje por refuerzo potente para modelos de texto a imagen de pocos pasos, logrando rendimientos de vanguardia en aprendizaje por refuerzo tanto en métricas dentro del dominio como fuera de él. Además, TDM-R1 también se escala eficazmente al reciente y potente modelo Z-Image, superando consistentemente tanto a sus variantes de 100 evaluaciones de función directa (NFE) como a las de pocos pasos con solo 4 NFE. Página del proyecto: https://github.com/Luo-Yihong/TDM-R1
Los Modelos de Lenguaje Grandes (LLM) han demostrado sólidas capacidades generales, sin embargo, su despliegue en el ámbito financiero sigue siendo un desafío debido a la densa terminología específica del dominio, los estrictos requisitos de razonamiento numérico y la baja tolerancia a errores fácticos. Realizamos un estudio empírico controlado que muestra que, en dominios verticales especializados, el rendimiento está determinado en gran medida por la calidad y el perfil de dificultad/verificabilidad de los datos posteriores al entrenamiento. Presentamos ODA-Fin-SFT-318k, construido mediante destilación y verificación en múltiples etapas para producir supervisión de alta calidad basada en Cadenas de Pensamiento (CoT), y ODA-Fin-RL-12k, curado para tareas difíciles pero verificables que equilibran la precisión de la recompensa y la diversidad de tareas. Utilizando pipelines estándar de SFT y RL, demostramos que la destilación de CoT de alta calidad establece una base sólida durante el SFT, mientras que el muestreo consciente de la dificultad y la verificabilidad mejora la generalización del RL. Evaluado en nueve benchmarks que abarcan tareas financieras generales, análisis de sentimientos y razonamiento numérico, nuestro modelo ODA-Fin-RL-8B supera consistentemente a los LLM financieros de código abierto más avanzados (SOTA) de tamaño comparable. Publicamos nuestros conjuntos de datos ODA-Fin-SFT-318k y ODA-Fin-RL-12k, junto con los modelos entrenados, para impulsar la investigación en IA financiera centrada en datos.
El entrenamiento de modelos de lenguaje grandes (LLM) como agentes autónomos suele comenzar con el aprendizaje por imitación, pero este solo enseña a los agentes qué hacer sin que comprendan el porqué: los agentes nunca contrastan las acciones exitosas con alternativas subóptimas y, por lo tanto, carecen de conciencia sobre la calidad de la acción. Enfoques recientes intentan solucionar esto introduciendo una supervisión de autorreflexión derivada de los contrastes entre acciones expertas y alternativas. Sin embargo, el paradigma de entrenamiento sigue siendo fundamentalmente un aprendizaje por imitación: el modelo imita texto de reflexión preconstruido en lugar de aprender a razonar de forma autónoma. Proponemos el Entrenamiento Crítico Agéntico (ACT), un paradigma de aprendizaje por refuerzo que entrena a los agentes para identificar la mejor acción entre alternativas. Al recompensar si el juicio del modelo es correcto, ACT impulsa al modelo a desarrollar autónomamente un razonamiento sobre la calidad de la acción, produciendo una autorreflexión genuina en lugar de imitarla. En tres benchmarks de agentes desafiantes, ACT mejora consistentemente el rendimiento del agente cuando se combina con diferentes métodos de post-entrenamiento. Logra una mejora promedio de 5.07 puntos sobre el aprendizaje por imitación y de 4.62 puntos sobre el aprendizaje por refuerzo. En comparación con los enfoques que inyectan capacidad de reflexión mediante destilación de conocimiento, ACT también demuestra ventajas claras, produciendo una mejora promedio de 2.42 puntos. Además, ACT permite una fuerte generalización fuera de distribución en benchmarks de agentes y mejora el rendimiento en benchmarks de razonamiento general sin ningún dato de entrenamiento específico para razonar, lo que subraya el valor de nuestro método. Estos resultados sugieren que ACT es un camino prometedor hacia el desarrollo de agentes LLM más reflexivos y capaces.
Los Transformadores de Visión (ViT) a menudo se degradan ante cambios de distribución porque dependen de correlaciones espurias, como las claves contextuales del fondo, en lugar de características semánticamente significativas. Los métodos de regularización existentes, que suelen basarse en máscaras simples de primer plano-fondo, no logran capturar los conceptos semánticos de grano fino que definen un objeto (por ejemplo, "pico largo" y "alas" para un "pájaro"). Como resultado, estos métodos ofrecen una robustez limitada frente a cambios de distribución. Para abordar esta limitación, presentamos un novedoso marco de ajuste fino que orienta el razonamiento del modelo hacia semánticas a nivel conceptual. Nuestro enfoque optimiza los mapas de relevancia internos del modelo para alinearlos con máscaras conceptuales espacialmente fundamentadas. Estas máscaras se generan automáticamente, sin anotación manual: primero se proponen conceptos relevantes para la clase utilizando un método basado en LLM y sin etiquetas, y luego se segmentan utilizando un VLM. El objetivo del ajuste fino alinea la relevancia con estas regiones conceptuales mientras suprime simultáneamente el enfoque en áreas espurias del fondo. Cabe destacar que este proceso requiere solo un conjunto mínimo de imágenes y utiliza la mitad de las clases del conjunto de datos. Experimentos exhaustivos en cinco benchmarks de distribución externa demuestran que nuestro método mejora la robustez en múltiples modelos basados en ViT. Además, mostramos que los mapas de relevancia resultantes exhiben una alineación más fuerte con las partes semánticas del objeto, ofreciendo un camino escalable hacia modelos de visión más robustos e interpretables. Finalmente, confirmamos que las máscaras guiadas por conceptos proporcionan una supervisión más efectiva para la robustez del modelo que los mapas de segmentación convencionales, respaldando nuestra hipótesis central.
La etapa de inicialización en frío (cold-start) desempeña un papel fundamental en el entrenamiento de Modelos de Razonamiento Multimodal a Gran Escala (MLRM), aunque sus mecanismos aún no se comprenden suficientemente. Para analizar esta etapa, presentamos la Puntuación de Atención Visual (VAS), una métrica basada en atención que cuantifica el grado en que un modelo atiende a tokens visuales. Descubrimos que el rendimiento del razonamiento está fuertemente correlacionado con el VAS (r=0,9616): los modelos con un VAS más alto logran un razonamiento multimodal sustancialmente más sólido. Sorprendentemente, la inicialización en frío multimodal no logra elevar el VAS, lo que da como resultado distribuciones de atención cercanas a las del modelo base, mientras que la inicialización en frío exclusiva con texto conduce a un aumento claro. Denominamos a este fenómeno contraintuitivo Localización de Atención Perezosa (Lazy Attention Localization). Para validar su papel causal, diseñamos intervenciones que no requieren entrenamiento y que modulan directamente la asignación de atención durante la inferencia, logrando ganancias de rendimiento del 1-2% sin necesidad de reentrenamiento. Basándonos en estas ideas, proponemos además Anclaje y Reflexión Visual Guiados por Atención (AVAR), un marco integral de inicialización en frío que integra síntesis de datos con anclaje visual, objetivos guiados por atención y modelado de recompensas con anclaje visual. Aplicado a Qwen2.5-VL-7B, AVAR logra una ganancia promedio del 7,0% en 7 benchmarks de razonamiento multimodal. Los estudios de ablación confirman además que cada componente de AVAR contribuye de manera escalonada a las ganancias generales. El código, los datos y los modelos están disponibles en https://github.com/lrlbbzl/Qwen-AVAR.
Los métodos existentes de personalización de conceptos han logrado resultados notables en la personalización de alta fidelidad y múltiples conceptos. Sin embargo, a menudo descuidan la influencia en el comportamiento y las capacidades del modelo original al aprender nuevos conceptos personalizados. Para abordar este problema, proponemos PureCC. PureCC introduce un novedoso objetivo de aprendizaje desacoplado para la personalización de conceptos, que combina la guía implícita del concepto objetivo con la predicción condicional original. Esta forma separada permite que PureCC se enfoque sustancialmente en el modelo original durante el entrenamiento. Además, basándose en este objetivo, PureCC diseña un pipeline de entrenamiento de doble rama que incluye un extractor congelado que proporciona representaciones purificadas del concepto objetivo como guía implícita y un modelo de flujo entrenable que produce la predicción condicional original, logrando conjuntamente un aprendizaje puro para conceptos personalizados. Es más, PureCC introduce una novedosa escala de guía adaptativa λ^star para ajustar dinámicamente la fuerza de guía del concepto objetivo, equilibrando la fidelidad de personalización y la preservación del modelo. Experimentos exhaustivos demuestran que PureCC alcanza un rendimiento de vanguardia en la preservación del comportamiento y capacidades originales, al mismo tiempo que permite una personalización de conceptos de alta fidelidad. El código está disponible en https://github.com/lzc-sg/PureCC.
El panorama de la asistencia mediante IA para programación está experimentando un cambio fundamental, pasando de complejos plugins para IDE a agentes versátiles nativos de terminal. Al operar directamente donde los desarrolladores gestionan el control de código fuente, ejecutan builds y despliegan entornos, los agentes basados en CLI ofrecen una autonomía sin precedentes para tareas de desarrollo de largo alcance. En este artículo, presentamos OPENDEV, un agente de programación de código abierto para línea de comandos, diseñado específicamente para este nuevo paradigma. Una asistencia autónoma efectiva requiere controles de seguridad estrictos y una gestión de contexto altamente eficiente para prevenir la inflación de contexto y la degradación del razonamiento. OPENDEV supera estos desafíos mediante una arquitectura de sistema de IA compuesto con enrutamiento de modelos especializados por carga de trabajo, una arquitectura de agente dual que separa la planificación de la ejecución, descubrimiento de herramientas bajo demanda y compactación de contexto adaptativa que reduce progresivamente las observaciones más antiguas. Además, emplea un sistema de memoria automático para acumular conocimiento específico del proyecto entre sesiones y contrarresta el desvanecimiento de instrucciones mediante recordatorios del sistema impulsados por eventos. Al hacer cumplir fases de razonamiento explícitas y priorizar la eficiencia del contexto, OPENDEV proporciona una base segura y extensible para la asistencia de IA centrada en la terminal, ofreciendo un modelo para una ingeniería de software autónoma robusta.
Los modelos de lenguaje autoregresivos (AR) se basan en una tokenización causal, pero extender este paradigma a la visión sigue siendo no trivial. Los tokenizadores visuales actuales o bien aplanan los parches 2D en secuencias no causales o imponen ordenaciones heurísticas que no se alinean con el patrón de "predicción del siguiente token". Los auto codificadores de difusión recientes también se quedan cortos: condicionar el decodificador en todos los tokens carece de causalidad, mientras que aplicar un mecanismo de *dropout* anidado introduce desequilibrio. Para abordar estos desafíos, presentamos CaTok, un tokenizador de imágenes causal 1D con un decodificador MeanFlow. Al seleccionar tokens en intervalos de tiempo y vincularlos al objetivo MeanFlow, como se ilustra en la Fig. 1, CaTok aprende representaciones causales 1D que admiten tanto una generación rápida en un paso como un muestreo de alta fidelidad en múltiples pasos, capturando naturalmente diversos conceptos visuales a través de los intervalos de tokens. Para estabilizar y acelerar aún más el entrenamiento, proponemos una regularización sencilla, REPA-A, que alinea las características del codificador con los Modelos Fundacionales de Visión (VFMs). Los experimentos demuestran que CaTok logra resultados de vanguardia en la reconstrucción de ImageNet, alcanzando 0.75 FID, 22.53 PSNR y 0.674 SSIM con menos épocas de entrenamiento, y el modelo AR alcanza un rendimiento comparable a los enfoques líderes.
La sintonización de prompts basada en CLIP permite que los Modelos de Visión y Lenguaje (VLM) preentrenados se adapten eficientemente a tareas posteriores. Aunque los estudios existentes han logrado progresos significativos, prestan una atención limitada a los cambios en las representaciones internas de atención de los VLM durante el proceso de sintonización. En este artículo, atribuimos los modos de fallo de las predicciones por sintonización de prompts a desplazamientos en la atención al primer plano del codificador visual, y proponemos la Sintonización de Prompts Guiada por Vista del Primer Plano (FVG-PT), un módulo plug-and-play adaptativo de guía de atención al primer plano, para aliviar estos desplazamientos. Concretamente, FVG-PT introduce una Puerta de Confiabilidad del Primer Plano entrenable para mejorar automáticamente la calidad de la vista del primer plano, aplica un módulo de Compensación por Destilación del Primer Plano para guiar la atención visual hacia el primer plano, e introduce además un módulo de Calibración Previo para mitigar la degradación de la generalización causada por una atención excesiva al primer plano. Los experimentos en múltiples modelos base y conjuntos de datos muestran la efectividad y compatibilidad de FVG-PT. El código está disponible en: https://github.com/JREion/FVG-PT
La formación de modelos de nueva generación para generación de código requiere conjuntos de datos de alta calidad, sin embargo, los conjuntos existentes presentan desequilibrio de dificultad, inconsistencia de formato y problemas de calidad de los datos. Abordamos estos desafíos mediante un procesamiento sistemático de datos y una escalabilidad de la dificultad. Introducimos un Marco de Procesamiento de Datos en cuatro etapas que abarca la recopilación, el procesamiento, el filtrado y la verificación, incorporando un Filtrado Automático de Dificultad mediante un marco predictivo-calibrar-seleccionar basado en LLM que aprovecha métricas de dificultad multidimensionales en cinco dimensiones ponderadas para retener problemas desafiantes mientras elimina los simplistas. El conjunto de datos resultante, MicroCoder, comprende decenas de miles de problemas currados de programación competitiva real procedentes de diversas plataformas, haciendo hincapié en la actualidad y la dificultad. Las evaluaciones en LiveCodeBench, estrictamente no visto durante el entrenamiento, demuestran que MicroCoder logra ganancias de rendimiento 3 veces mayores dentro de 300 pasos de entrenamiento en comparación con conjuntos de datos de referencia de uso generalizado y tamaño comparable, con ventajas consistentes bajo ambos algoritmos de entrenamiento, GRPO y su variante. El conjunto de datos MicroCoder ofrece mejoras evidentes en problemas de dificultad media y alta en diferentes tamaños de modelo, logrando ganancias relativas de hasta el 17.2% en el rendimiento general donde las capacidades del modelo son más exigidas. Estos resultados validan que la curación de datos consciente de la dificultad mejora el rendimiento del modelo en tareas desafiantes, proporcionando múltiples perspectivas para la creación de conjuntos de datos en generación de código.
Los modelos modernos de generación de código presentan salidas más extensas, un crecimiento acelerado de capacidades y dinámicas de entrenamiento modificadas, lo que vuelve ineficaces las metodologías, algoritmos y conjuntos de datos de entrenamiento tradicionales para mejorar su rendimiento. Para abordar estos cuellos de botella en el entrenamiento, proponemos MicroCoder-GRPO, un enfoque mejorado de Optimización de Políticas Relativas por Grupos con tres innovaciones: enmascaramiento por truncamiento condicional para mejorar el potencial de salidas largas manteniendo la estabilidad del entrenamiento, selección de temperatura determinada por diversidad para mantener y fomentar la diversidad de salidas, y eliminación de la pérdida KL con ratios de recorte altos para facilitar la diversidad de soluciones. MicroCoder-GRPO logra una mejora relativa de hasta el 17.6% sobre líneas base sólidas en LiveCodeBench v6, con ganancias más pronunciadas bajo evaluación de contexto extendido. Adicionalmente, publicamos MicroCoder-Dataset, un corpus de entrenamiento más desafiante que logra ganancias de rendimiento 3 veces mayores que los conjuntos de datos convencionales en LiveCodeBench v6 dentro de 300 pasos de entrenamiento, y MicroCoder-Evaluator, un marco robusto con aproximadamente un 25% de mejora en la precisión de evaluación y alrededor de un 40% de ejecución más rápida. Mediante un análisis exhaustivo en más de treinta experimentos controlados, revelamos 34 hallazgos sobre el entrenamiento en siete aspectos principales, demostrando que los modelos adecuadamente entrenados pueden alcanzar un rendimiento competitivo con contrapartes de mayor tamaño.
La esparsidad semiestructurada N:M y la cuantización de bajo bit (por ejemplo, BitNet de 1.58 bits) son dos enfoques prometedores para mejorar la eficiencia de los modelos de lenguaje grandes (LLMs), aunque hasta ahora se han estudiado principalmente de forma aislada. En este trabajo, investigamos su interacción y demostramos que BitNet de 1.58 bits es naturalmente más compatible con la esparsidad N:M que los modelos de precisión completa. Para estudiar este efecto, proponemos Sparse-BitNet, un marco unificado que aplica conjuntamente la cuantización de 1.58 bits y la esparsificación dinámica N:M, garantizando por primera vez un entrenamiento estable. A través de múltiples escalas de modelos y regímenes de entrenamiento (preentrenamiento disperso y programaciones de denso a disperso), BitNet de 1.58 bits exhibe consistentemente una menor degradación del rendimiento que los modelos base de precisión completa en los mismos niveles de esparsidad, y puede tolerar una esparsidad estructurada más alta antes del colapso de la precisión. Además, utilizando nuestro núcleo de tensor disperso personalizado, Sparse-BitNet logra aceleraciones sustanciales tanto en el entrenamiento como en la inferencia, alcanzando hasta 1.30X. Estos resultados destacan que combinar la cuantización de bits extremadamente bajos con la esparsidad semiestructurada N:M es una dirección prometedora para LLMs eficientes. Código disponible en https://github.com/AAzdi/Sparse-BitNet.
Los modelos de visión y lenguaje (VLM) han surgido como una dirección prometedora para la conducción autónoma de extremo a extremo al modelar conjuntamente observaciones visuales, contexto de conducción y razonamiento basado en lenguaje. Sin embargo, los sistemas existentes basados en VLM enfrentan una disyuntiva entre el razonamiento de alto nivel y la planificación de movimiento: los modelos grandes ofrecen una comprensión semántica sólida pero son costosos de adaptar para un control preciso, mientras que los modelos VLM pequeños pueden ajustarse eficientemente pero a menudo exhiben un razonamiento más débil. Proponemos NaviDriveVLM, un marco desacoplado que separa el razonamiento de la generación de acciones utilizando un Navegador a gran escala y un Controlador ligero entrenable. Este diseño preserva la capacidad de razonamiento, reduce el costo de entrenamiento y proporciona una representación intermedia explícita e interpretable para la planificación posterior. Los experimentos en el benchmark nuScenes demuestran que NaviDriveVLM supera a los grandes modelos VLM de referencia en la planificación de movimiento de extremo a extremo.
A medida que la creación de contenido en video se orienta hacia narrativas de formato largo, la composición de clips cortos en tramas coherentes adquiere creciente importancia. Sin embargo, las formulaciones de recuperación predominantes siguen siendo independientes del contexto en el momento de la inferencia, priorizando la alineación semántica local mientras descuidan la consistencia de estados e identidades. Para abordar esta limitación estructural, formalizamos la tarea de Recuperación de Video Consistente (CVR) e introducimos un benchmark de diagnóstico que abarca YouCook2, COIN y CrossTask. Proponemos CAST (Transición de Estado Consciente del Contexto), un adaptador ligero y plug-and-play compatible con diversos espacios de incrustación visión-lenguaje congelados. Al predecir una actualización residual condicionada por el estado (Δ) a partir del historial visual, CAST introduce un sesgo inductivo explícito para la evolución del estado latente. Experimentos exhaustivos demuestran que CAST mejora el rendimiento en YouCook2 y CrossTask, se mantiene competitivo en COIN y supera consistentemente a los baselines zero-shot en diversos modelos base fundacionales. Además, CAST proporciona una señal útil de reordenación para candidatos de generación de video de caja negra (por ejemplo, de Veo), promoviendo continuaciones temporalmente más coherentes.
Los modelos de lenguaje autorregresivos (AR) construyen representaciones de forma incremental mediante predicción izquierda-a-derecha, mientras que los modelos de lenguaje de difusión (dLLMs) se entrenan mediante desruido de secuencia completa. Aunque los dLLMs recientes igualan el rendimiento AR, aún no está claro si los objetivos de difusión reconfiguran fundamentalmente las representaciones internas a lo largo de la profundidad de la red. Realizamos el primer análisis representacional por capas y tokens comparando dLLMs nativos (LLaDA), modelos AR nativos (Qwen2.5) y dLLMs inicializados como AR (Dream-7B). Encontramos que los objetivos de difusión producen abstracciones diferentes y más jerárquicas, con redundancia sustancial en capas tempranas y un sesgo de recencia reducido, mientras que los objetivos AR generan representaciones estrechamente acopladas y dependientes de la profundidad. Críticamente, los dLLMs inicializados como AR mantienen dinámicas representacionales similares a AR a pesar del entrenamiento por difusión, revelando un sesgo de inicialización persistente. Aprovechando esta redundancia representacional observada, introducimos un método estático y agnóstico a la tarea de salto de capas durante la inferencia, que no requiere cambios arquitectónicos ni compartición de caché KV. Los dLLMs nativos logran hasta un 18.75% de reducción en FLOPS manteniendo más del 90% del rendimiento en benchmarks de razonamiento y generación de código, mientras que los modelos AR se degradan drásticamente con un salto comparable. Estos resultados vinculan los objetivos de entrenamiento con la estructura representacional y permiten ganancias de eficiencia prácticas y ortogonales a la caché.
La edición basada directamente en prompts a menudo falla en transformaciones complejas porque las instrucciones vagas y subjetivas requieren una comprensión matizada de lo que se debe cambiar en la imagen. Nuestra intuición central es que aprovechar herramientas de edición composicional de imágenes, en lugar de prompts directos, se beneficia de una planificación estructurada a nivel de agente con razonamiento explícito, lo que conduce a mejores resultados. Este marco de planificación estructurada permite un eficiente post-entrenamiento por RL offline en trayectorias evaluadas por calidad para mejorar el rendimiento. Presentamos un marco de post-entrenamiento RL agentico basado en herramientas que aborda esto mediante una planificación estructurada con razonamiento en cadena (chain-of-thought). Nuestras contribuciones clave incluyen: (1) Una metodología de planificación agentica basada en herramientas que combina una librería composicional de transformaciones primitivas ortogonales, una representación de contexto estructurada y un razonamiento explícito por paso para descomponer estilizaciones complejas en secuencias de herramientas interpretables. (2) Un pipeline de generación de datos sintéticos que produce tres conjuntos de datos a gran escala (cada uno simula 10K trayectorias) con cadenas de razonamiento, planes y puntuaciones de calidad, ya que no existen conjuntos de datos que proporcionen dicha supervisión. Nuestros conjuntos de datos y código están disponibles públicamente en el repositorio de HuggingFace. (3) Métodos de entrenamiento RL offline para aprender planificadores con razonamiento como nuestras principales contribuciones algorítmicas, que mejoran consistentemente la línea base de Solo-Editar en calidad visual y seguimiento de instrucciones. (4) Una evaluación exhaustiva en modelos Qwen3-VL de 4B y 8B parámetros que muestra que nuestros métodos superan a otras líneas base en la mayoría de las tareas composicionales, validado por evaluaciones humanas.
Presentamos OfficeQA Pro, un punto de referencia para evaluar agentes de IA en tareas de razonamiento fundamentado y multi-documento sobre un corpus de documentos grande y heterogéneo. El corpus consiste en los Boletines del Tesoro de EE. UU. que abarcan casi 100 años, comprendiendo 89,000 páginas y más de 26 millones de valores numéricos. OfficeQA Pro consta de 133 preguntas que requieren un análisis, recuperación y razonamiento analítico preciso de documentos, tanto en texto no estructurado como en datos tabulares. Los modelos de lenguaje de última generación, incluidos Claude Opus 4.6, GPT-5.4 y Gemini 3.1 Pro Preview, logran una precisión inferior al 5% en OfficeQA Pro cuando dependen únicamente de conocimiento paramétrico, y menos del 12% con acceso adicional a la web. Cuando se les proporciona directamente el corpus de documentos, los agentes más avanzados aún tienen dificultades en más de la mitad de las preguntas, obteniendo un 34.1% de precisión en promedio. Encontramos que proporcionar a los agentes una representación estructurada de los documentos producida por `ai_parse_document` de Databricks produce una ganancia de rendimiento relativa promedio del 16.1% entre los agentes. Realizamos ablaciones adicionales para estudiar los efectos de la selección del modelo, la representación de tablas, la estrategia de recuperación y el escalado en tiempo de prueba sobre el rendimiento. A pesar de estas mejoras, aún queda un margen significativo de mejora antes de que los agentes puedan considerarse confiables para un razonamiento fundamentado de grado empresarial.
Los modelos fundacionales están transitando de predictores estáticos a sistemas desplegados que deben operar en horizontes temporales prolongados. En implementaciones reales, los objetivos no son fijos: los dominios cambian, las preferencias de los usuarios evolucionan y surgen nuevas tareas tras el despliegue del modelo. Esto eleva el aprendizaje continuo y la personalización instantánea de características opcionales a requisitos arquitectónicos centrales. Sin embargo, la mayoría de los pipelines de adaptación siguen un paradigma de pesos estáticos: tras el entrenamiento (o cualquier etapa de adaptación), la inferencia ejecuta un único vector de parámetros independientemente de la intención del usuario, el dominio o las restricciones específicas de la instancia. Esto trata al modelo entrenado o adaptado como un punto único en el espacio de parámetros. En regímenes heterogéneos y en continua evolución, objetivos distintos pueden inducir regiones factibles separadas en los parámetros, forzando a cualquier actualización compartida a compromisos, interferencias o sobreespecialización. Como resultado, el aprendizaje continuo y la personalización suelen implementarse como sobrescritura repetida de pesos compartidos, arriesgando la degradación de comportamientos previamente aprendidos. Proponemos HY-WU (Desencadenamiento de Pesos), un marco de adaptación con prioridad en memoria que desplaza la presión adaptativa lejos de sobrescribir un único punto de parámetros compartido. HY-WU implementa memoria funcional (a nivel de operador) como un módulo neuronal: un generador que sintetiza actualizaciones de pesos bajo demanda desde la condición de instancia, produciendo operadores específicos por instancia sin optimización en tiempo de prueba.
Los modelos generativos de video recientes para mundos virtuales tienen como objetivo simular la evolución de entornos visuales, permitiendo que un observador explore interactivamente la escena mediante el control de la cámara. Sin embargo, asumen implícitamente que el mundo solo evoluciona dentro del campo de visión del observador. Una vez que un objeto sale de la vista del observador, su estado se "congela" en la memoria, y al revisitar la misma región más tarde, a menudo no se reflejan los eventos que deberían haber ocurrido en el interín. En este trabajo, identificamos y formalizamos esta limitación pasada por alto como el problema de la "dinámica fuera de vista", que impide que los modelos de video para mundos representen un mundo en continua evolución. Para abordar este problema, proponemos LiveWorld, un marco novedoso que extiende los modelos de video para mundos y permite la evolución persistente del mundo. En lugar de tratar el mundo como una memoria de observación estática, LiveWorld modela un estado global persistente compuesto por un fondo 3D estático y entidades dinámicas que continúan evolucionando incluso cuando no son observadas. Para mantener estas dinámicas no vistas, LiveWorld introduce un mecanismo basado en monitores que simula autónomamente la progresión temporal de las entidades activas y sincroniza sus estados evolucionados al revisitar, garantizando una representación visual espacialmente coherente. Para la evaluación, presentamos además LiveBench, un punto de referencia dedicado para la tarea de mantener la dinámica fuera de vista. Experimentos exhaustivos muestran que LiveWorld permite una evolución persistente de eventos y una coherencia escénica a largo plazo, cerrando la brecha entre la memoria basada en observación 2D existente y la verdadera simulación de mundos dinámicos en 4D. La línea base y el punto de referencia estarán disponibles públicamente en https://zichengduan.github.io/LiveWorld/index.html.
En este artículo, abordamos el problema de la transferencia *sim-to-real* de políticas táctiles para tareas que requieren un contacto rico. Los métodos existentes se centran principalmente en sensores basados en visión y enfatizan la calidad del renderizado de imágenes, mientras que proporcionan modelos de fuerza y cizalladura excesivamente simplificados. En consecuencia, estos modelos presentan una gran brecha *sim-to-real* para muchas tareas diestras. Aquí presentamos HydroShear, un simulador táctil hidroelástico no holonómico que avanza el estado del arte modelando: a) transiciones de adherencia-deslizamiento (*stick-slip*), b) la acumulación de fuerza y cizalladura dependiente de la trayectoria, y c) interacciones completas SE(3) entre el objeto y el sensor. HydroShear extiende los modelos de contacto hidroelásticos utilizando Funciones de Distancia con Signo (FDS) para rastrear los desplazamientos de los puntos en la superficie de un indentador durante la interacción física con la membrana del sensor. Nuestro enfoque genera campos de fuerza basados en la física y computacionalmente eficientes a partir de geometrías estancas arbitrarias, manteniéndose independiente del motor de física subyacente. En experimentos con sensores GelSight Mini, HydroShear reproduce la cizalladura táctil real de manera más fiel en comparación con los métodos existentes. Esta fidelidad permite la transferencia *sim-to-real* de políticas de aprendizaje por refuerzo sin ajuste específico (*zero-shot*) en cuatro tareas: inserción de clavijas, empaquetado en contenedores, colocación de libros en estanterías para inserción y apertura de cajones para un control fino de la pinza bajo deslizamiento. Nuestro método alcanza una tasa de éxito promedio del 93%, superando a las políticas entrenadas con imágenes táctiles (34%) y a métodos alternativos de simulación de cizalladura (58%-61%).
La destilación de conocimiento (KD) se ha aplicado ampliamente en segmentación semántica para comprimir modelos grandes, pero los enfoques convencionales priorizan principalmente la precisión intra-dominio, descuidando la generalización fuera del dominio, que es esencial bajo cambios de distribución. Esta limitación se agrava con la aparición de los modelos fundacionales de visión (VFMs): aunque los VFMs exhiben una gran robustez en datos no vistos, destilarlos con KD convencional a menudo compromete esta capacidad. Proponemos la Destilación de Conocimiento Generalizable (GKD), un marco multi-etapa que mejora explícitamente la generalización. GKD desacopla el aprendizaje de representaciones del aprendizaje de tareas. En la primera etapa, el estudiante adquiere representaciones independientes del dominio mediante destilación selectiva de características, y en la segunda etapa, estas representaciones se congelan para la adaptación a la tarea, mitigando así el sobreajuste a dominios visibles. Para apoyar aún más la transferencia, introducimos un mecanismo de destilación suave basado en consultas, donde las características del estudiante actúan como consultas a las representaciones del profesor para recuperar selectivamente conocimiento espacial transferible de los VFMs. Experimentos exhaustivos en cinco benchmarks de generalización de dominio demuestran que GKD supera consistentemente a los métodos de KD existentes, logrando mejoras promedio de +1.9% en destilación fundacional-a-fundacional (F2F) y +10.6% en destilación fundacional-a-local (F2L). El código estará disponible en https://github.com/Younger-hua/GKD.
Los modelos lingüísticos modernos aún dependen de tokenizaciones de subpalabras predefinidas y fijas. Una vez que un tokenizador es entrenado, el modelo de lenguaje solo puede operar en este nivel fijo de granularidad, lo que a menudo conduce a comportamientos frágiles y contraintuitivos incluso en modelos de razonamiento por lo demás sólidos. Presentamos ByteFlow Net, una nueva arquitectura jerárquica que elimina por completo los tokenizadores y, en su lugar, permite a los modelos aprender su propia segmentación de flujos de bytes brutos en unidades semánticamente significativas. ByteFlow Net realiza una segmentación impulsada por compresión basada en la tasa de codificación de las representaciones latentes, produciendo límites adaptativos mientras preserva un grafo computacional estático mediante selección Top-K. A diferencia de métodos anteriores de auto-tokenización que dependen de heurísticas frágiles con sesgos inductivos diseñados por humanos, ByteFlow Net adapta la granularidad de su representación interna a la propia entrada. Los experimentos demuestran que esta estrategia de segmentación basada en compresión produce ganancias sustanciales de rendimiento, superando ByteFlow Net tanto a Transformers basados en BPE como a arquitecturas previas a nivel de byte. Estos resultados sugieren que el modelado libre de tokenizadores y de extremo a extremo no solo es factible, sino también más efectivo, abriendo un camino hacia modelos de lenguaje más adaptativos y fundamentados en la información.
La optimización manual de kernels de GPU es una tarea compleja y que consume mucho tiempo. Con el rápido desarrollo de los LLM, la optimización automatizada de kernels de GPU se está convirtiendo gradualmente en una realidad tangible. Sin embargo, los métodos actuales de optimización automatizada impulsados por LLM se centran exclusivamente en aplicaciones de aprendizaje automático, como la optimización de operadores de PyTorch, mientras pasan por alto dominios más amplios, como las operaciones con matrices dispersas en la computación científica. Extender estos métodos a aplicaciones más amplias presenta nuevos desafíos para los benchmarks y algoritmos. Por lo tanto, desarrollar un método de optimización de kernels automatizado y de propósito general se convierte en nuestro objetivo principal. En este artículo, abordamos la ausencia de evaluación sistemática para entornos multiescenario mediante la introducción de MSKernelBench, que abarca múltiples escenarios, incluyendo operaciones algebraicas fundamentales, kernels comunes de LLM, operadores de matrices dispersas y rutinas de computación científica, cada uno compatible con precisiones FP32 y BF16. Sobre la base de este benchmark, presentamos CUDAMaster, un sistema multiagente y consciente del hardware para la optimización de kernels, que aprovecha información de profiling y construye automáticamente la cadena completa de herramientas de compilación y ejecución. Los resultados experimentales demuestran que CUDAMaster logra mejoras significativas de velocidad en la mayoría de los operadores, superando a Astra en aproximadamente un 35%. En varios casos, su rendimiento iguala o supera al de bibliotecas altamente optimizadas y de código cerrado, como cuBLAS. Una demostración que muestra el código original y optimizado para cada operador está disponible en https://hanyx2021.github.io/MSKernelBenchDemo/.
Predecir cómo responden las células a las perturbaciones genéticas es fundamental para comprender la función de los genes, los mecanismos de las enfermedades y el desarrollo de terapias. Si bien los enfoques recientes de aprendizaje profundo han mostrado potencial para modelar las respuestas de las células individuales a perturbaciones, tienen dificultades para generalizar entre tipos celulares y contextos de perturbación debido a la información contextual limitada durante la generación. Presentamos PT-RAG (Generación Aumentada por Recuperación en Dos Etapas con Conciencia de Perturbación), un marco novedoso que extiende la Generación Aumentada por Recuperación más allá de las aplicaciones tradicionales de modelos de lenguaje a la biología celular. A diferencia de los sistemas RAG estándar diseñados para la recuperación de texto con LLM preentrenados, la recuperación de perturbaciones carece de métricas de similitud establecidas y requiere aprender qué constituye un contexto relevante, haciendo que la recuperación diferenciable sea esencial. PT-RAG aborda esto mediante un proceso en dos etapas: primero, recupera las perturbaciones candidatas K utilizando incrustaciones de GenePT, y luego refina la selección de forma adaptativa mediante un muestreo discreto Gumbel-Softmax condicionado tanto al estado celular como a la perturbación de entrada. Esta recuperación diferenciable consciente del tipo celular permite la optimización de extremo a extremo del objetivo de recuperación de manera conjunta con la generación. En el conjunto de datos de perturbación de un solo gen Replogle-Nadig, demostramos que PT-RAG supera tanto a STATE como a RAG básico bajo condiciones experimentales idénticas, con las mejoras más sólidas en las métricas de similitud distribucional (W_1, W_2). Cabe destacar que el fracaso drástico del RAG básico es en sí mismo un hallazgo clave: demuestra que la recuperación diferenciable y consciente del tipo celular es esencial en este dominio, y que una recuperación ingenua puede dañar activamente el rendimiento. Nuestros resultados establecen la generación aumentada por recuperación como un paradigma prometedor para modelar las respuestas celulares a la perturbación génica. El código para reproducir nuestros experimentos está disponible en https://github.com/difra100/PT-RAG_ICLR.
El flujo de tráfico urbano está gobernado por la interacción compleja y no lineal entre la configuración del uso del suelo y la demanda de movilidad heterogénea en el espacio-tiempo. Los modelos convencionales de regresión global y series temporales no pueden capturar simultáneamente estas dinámicas multi-escala a través de múltiples modos de viaje. Este estudio propone un marco analítico Híbrido de GeoIA que integra secuencialmente la Regresión Geográficamente Ponderada Multiescala (MGWR), Bosques Aleatorios (RF) y Redes de Convolución de Grafos Espacio-Temporales (ST-GCN) para modelar la heterogeneidad espacio-temporal de los patrones de flujo de tráfico y su interacción con el uso del suelo en tres modos de movilidad: vehículo motorizado, transporte público y transporte activo. Aplicando el marco a un conjunto de datos calibrado empíricamente de 350 zonas de análisis de tráfico en seis ciudades que abarcan dos morfologías urbanas contrastantes, emergen cuatro hallazgos clave: (i) el Híbrido de GeoIA logra un error cuadrático medio (RMSE) de 0.119 y un R^2 de 0.891, superando todos los puntos de referencia entre un 23% y un 62%; (ii) el análisis SHAP identifica la mezcla de usos del suelo como el predictor más fuerte para los flujos de vehículos motorizados y la densidad de paradas de tránsito como el predictor más fuerte para el transporte público; (iii) el agrupamiento DBSCAN identifica cinco tipologías de tráfico urbano funcionalmente distintas con un índice de silueta de 0.71, y los residuos del Híbrido de GeoIA exhiben un I de Moran=0.218 (p<0.001), una reducción del 72% en relación con los modelos de Mínimos Cuadrados Ordinarios (MCO); y (iv) los experimentos de transferencia entre ciudades revelan una transferibilidad moderada dentro de los clústeres (R^2>=0.78) y una generalizabilidad limitada entre clústeres, subrayando la primacía del contexto morfológico urbano. El marco ofrece a planificadores e ingenieros de transporte un kit de herramientas interpretable y escalable para la gestión de movilidad multimodal basada en evidencia y el diseño de políticas de uso del suelo.
El seguimiento de puntos arbitrarios (TAP) es una tarea fundamental pero desafiante en visión por computadora, que requiere alta precisión y razonamiento de movimiento a largo plazo. Intentos recientes de combinar imágenes RGB y flujos de eventos han mostrado potencial, pero generalmente dependen de una fusión síncrona o no adaptativa, lo que genera desalineación temporal y degradación severa cuando una modalidad falla. Presentamos TAPFormer, un marco basado en transformadores que realiza una fusión asíncrona y temporalmente consistente de imágenes y eventos para un seguimiento robusto y de alta frecuencia de puntos arbitrarios. Nuestra innovación clave es un mecanismo de Fusión Asíncrona Transitoria (TAF), que modela explícitamente la evolución temporal entre imágenes discretas mediante actualizaciones continuas de eventos, cerrando la brecha entre imágenes de baja frecuencia y eventos de alta frecuencia. Además, un módulo de Fusión Ponderada Localmente Cross-modal (CLWF) ajusta adaptativamente la atención espacial según la confiabilidad de la modalidad, produciendo características estables y discriminativas incluso bajo desenfoque o poca luz. Para evaluar nuestro enfoque en condiciones realistas, construimos un novedoso conjunto de datos TAP de imágenes-eventos del mundo real bajo diversas condiciones de iluminación y movimiento. Nuestro método supera a los rastreadores de puntos existentes, logrando una mejora del 28.2% en el error promedio de píxeles dentro del umbral. Además, en benchmarks estándar de seguimiento de puntos, nuestro rastreador logra consistentemente el mejor rendimiento. Sitio web del proyecto: tapformer.github.io
Los mapas de flujo permiten la generación de imágenes de alta calidad en un único paso hacia adelante. Sin embargo, a diferencia de los modelos de difusión iterativos, su falta de una trayectoria de muestreo explícita dificulta la incorporación de restricciones externas para la generación condicional y la resolución de problemas inversos. Proponemos Variational Flow Maps (VFM), un marco para el muestreo condicional que cambia la perspectiva del condicionamiento de "guiar una trayectoria de muestreo" a la de "aprender el ruido inicial adecuado". Específicamente, dada una observación, buscamos aprender un modelo adaptador de ruido que genere una distribución de ruido, de modo que, después de mapear al espacio de datos a través del mapa de flujo, las muestras respeten la observación y el previo de los datos. Con este fin, desarrollamos un objetivo variacional fundamentado que entrena conjuntamente el adaptador de ruido y el mapa de flujo, mejorando la alineación ruido-datos, de tal manera que el muestreo a partir de una posterior de datos compleja se logra con un simple adaptador. Los experimentos en varios problemas inversos muestran que los VFM producen muestras condicionales bien calibradas en uno (o pocos) pasos. Para ImageNet, VFM alcanza una fidelidad competitiva mientras acelera el muestreo en órdenes de magnitud en comparación con modelos alternativos de difusión/flujo iterativos. El código está disponible en https://github.com/abbasmammadov/VFM.
Las diapositivas constituyen un medio fundamental para transmitir información en escenarios orientados a la presentación, como el ámbito académico, la educación y los negocios. A pesar de su importancia, la creación de presentaciones de diapositivas de alta calidad sigue siendo una tarea que consume tiempo y requiere un esfuerzo cognitivo considerable. Los recientes avances en modelos generativos, como Nano Banana Pro, han hecho que la generación automatizada de diapositivas sea cada vez más factible. Sin embargo, las evaluaciones existentes sobre la generación de diapositivas suelen ser de grano grueso y se basan en juicios holísticos, lo que dificulta la evaluación precisa de las capacidades del modelo o el seguimiento de avances significativos en el campo. En la práctica, la falta de criterios de evaluación verificables y de grano fino supone un cuello de botella crítico tanto para la investigación como para la implementación en el mundo real. En este artículo, proponemos PresentBench, un benchmark basado en rúbricas y de grano fino para evaluar la generación automatizada de diapositivas en entornos reales. Este contiene 238 instancias de evaluación, cada una complementada con los materiales de fondo necesarios para la creación de las diapositivas. Además, diseñamos manualmente un promedio de 54.1 ítems de lista de verificación por instancia, cada uno formulado como una pregunta binaria, para permitir una evaluación específica por instancia y de grano fino de las presentaciones de diapositivas generadas. Experimentos exhaustivos demuestran que PresentBench proporciona resultados de evaluación más fiables que los métodos existentes y exhibe una alineación significativamente más fuerte con las preferencias humanas. Asimismo, nuestro benchmark revela que NotebookLM supera significativamente a otros métodos de generación de diapositivas, lo que pone de relieve los sustanciales progresos recientes en este dominio.
Los modelos de difusión generativa se utilizan cada vez más para el aumento de datos de imágenes médicas, pero los prompts de texto no pueden producir datos de entrenamiento causales. El re-prompting reinicia toda la trayectoria de generación, alterando anatomía, textura y fondo. Los métodos de edición basados en inversión introducen un error de reconstrucción que provoca deriva estructural. Proponemos MedSteer, un marco de guiado de activaciones sin entrenamiento para síntesis endoscópica. MedSteer identifica un vector de patología para cada par de prompts contrastivos en las capas de atención cruzada de un transformador de difusión. Durante la inferencia, dirige las activaciones de la imagen a lo largo de este vector, generando pares contrafactuales desde cero donde la única diferencia es el concepto guiado. Toda otra estructura se preserva por construcción. Evaluamos MedSteer en tres experimentos con Kvasir v3 e HyperKvasir. En la generación contrafactual a través de tres pares de conceptos clínicos, MedSteer logra tasas de cambio de 0.800, 0.925 y 0.950, superando al mejor baseline basado en inversión tanto en tasa de cambio conceptual como en preservación estructural. En la separación de tinte, MedSteer logra un 75% de eliminación de tinte frente al 20% (PnP) y 10% (h-Edit). En la detección de pólipos downstream, el aumento con pares contrafactuales de MedSteer logra un AUC ViT de 0.9755 versus 0.9083 para el re-prompting con cantidad equivalente, confirmando que la estructura contrafactual impulsa la mejora. El código está en https://github.com/phamtrongthang123/medsteer.
La generación de textos diversos es necesaria para una exploración efectiva en tareas de razonamiento complejo, como la generación de código y la resolución de problemas matemáticos. Problemas del tipo Pass@k se benefician de candidatos distintos que cubran el espacio de soluciones. Sin embargo, los enfoques de muestreo tradicionales a menudo desperdician recursos computacionales en modos de fallo repetitivos. Si bien los Modelos de Lenguaje de Difusión han surgido como una alternativa competitiva al paradigma Autoregresivo predominante, siguen siendo susceptibles a esta redundancia, ya que muestras independientes frecuentemente colapsan en modos similares. Para abordar esto, proponemos una intervención de bajo costo y sin necesidad de entrenamiento para mejorar la diversidad generativa en los Modelos de Lenguaje de Difusión. Nuestro enfoque modifica muestras intermedias en un lote de forma secuencial, donde cada muestra es repelida del espacio de características de las muestras anteriores, penalizando activamente la redundancia. A diferencia de métodos anteriores que requieren reentrenamiento o búsqueda por haz, nuestra estrategia incurre en una sobrecarga computacional insignificante, a la vez que garantiza que cada muestra contribuya con una perspectiva única al lote. Evaluamos nuestro método en los benchmarks HumanEval y GSM8K utilizando el modelo LLaDA-8B-Instruct. Nuestros resultados demuestran una diversidad y un rendimiento Pass@k significativamente mejorados en varios ajustes de temperatura. Como una modificación simple al proceso de muestreo, nuestro método ofrece una mejora inmediata y de bajo costo para los Modelos de Lenguaje de Difusión actuales y futuros en tareas que se benefician de una búsqueda de soluciones diversa. Ponemos nuestro código a disposición en https://github.com/sean-lamont/odd.
Estudiamos la autodifusioforesis de una partícula esférica químicamente activa cerca de una pared plana e impermeable, centrándonos en la influencia de la orientación de la partícula en la propulsión. Analizamos una partícula Janus con actividad química superficial asimétrica, que consiste en una pequeña región inerte dentro de un casquete catalíticamente activo. Si bien se han utilizado simulaciones numéricas para estudiar dichas partículas, estas encuentran dificultades para resolver el flujo y el transporte en el régimen de extrema proximidad a la pared debido al confinamiento geométrico y a los pronunciados gradientes de concentración de soluto. Abordamos esta limitación mediante un análisis asintótico en el límite de contacto cercano, donde el espacio entre la partícula y la pared es estrecho. En particular, consideramos el límite distinguido en el que el tamaño de la región inerte es asintóticamente comparable al de la región de lubricación. Analizamos una configuración axisimétrica en la que la cara inerte está orientada paralelamente a la pared y extendemos el análisis a orientaciones ligeramente inclinadas. Encontramos que el vuelco determina si una partícula inclinada rota de vuelta hacia el estado axisimétrico o continúa reorientándose, caracterizando así su estabilidad rotacional en el régimen de contacto cercano.
Se espera que los agentes modernos de interfaz gráfica de usuario (GUI) basados en modelos de visión y lenguaje (VLM) no solo ejecuten acciones con precisión, sino que también respondan a las instrucciones del usuario con baja latencia. Si bien la investigación existente sobre la seguridad de los agentes de GUI se centra principalmente en manipular la corrección de las acciones, los riesgos de seguridad relacionados con la eficiencia de respuesta permanecen en gran medida inexplorados. En este artículo, presentamos SlowBA, un novedoso ataque de puerta trasera (backdoor) que tiene como objetivo la capacidad de respuesta de los agentes de GUI basados en VLM. La idea clave es manipular la latencia de respuesta induciendo cadenas de razonamiento excesivamente largas bajo patrones disparadores específicos. Para lograrlo, proponemos una estrategia de inyección de puerta trasera a nivel de recompensa (RBI) en dos etapas que primero alinea el formato de respuesta larga y luego aprende la activación consciente del disparador mediante aprendizaje por refuerzo. Además, diseñamos ventanas emergentes realistas como disparadores que aparecen de forma natural en entornos de GUI, mejorando el sigilo del ataque. Experimentos exhaustivos en múltiples conjuntos de datos y líneas base demuestran que SlowBA puede aumentar significativamente la longitud de la respuesta y la latencia, preservando en gran medida la precisión de la tarea. El ataque sigue siendo efectivo incluso con una pequeña proporción de envenenamiento de datos y bajo varios entornos de defensa. Estos hallazgos revelan una vulnerabilidad de seguridad previamente pasada por alto en los agentes de GUI y destacan la necesidad de defensas que consideren tanto la corrección de la acción como la eficiencia de la respuesta. El código puede encontrarse en https://github.com/tu-tuing/SlowBA.
El Aprendizaje por Imitación (IL) permite a los robots adquirir habilidades de manipulación a partir de demostraciones expertas. La Política de Difusión (DP) modela comportamientos expertos multimodales, pero sufre una degradación del rendimiento a medida que aumentan los horizontes de observación, lo que limita la manipulación de largo horizonte. Proponemos la Atención con Compuerta de Auto-Evolución (SEGA), un módulo temporal que mantiene un estado latente que evoluciona en el tiempo mediante atención con compuerta, permitiendo actualizaciones recurrentes eficientes que comprimen las observaciones de largo horizonte en una representación de tamaño fijo mientras filtran información temporal irrelevante. La integración de SEGA en DP da lugar a la Política de Difusión de Auto-Evolución (SeedPolicy), que resuelve el cuello de botella en el modelado temporal y permite una extensión escalable del horizonte con una sobrecarga moderada. En el benchmark RoboTwin 2.0 con 50 tareas de manipulación, SeedPolicy supera a DP y a otros métodos baseline de IL. Promediando tanto para backbones de CNN como de Transformer, SeedPolicy logra una mejora relativa del 36.8% en entornos limpios y del 169% en entornos desafiantes aleatorizados con respecto a DP. En comparación con modelos de visión-lenguaje-acción como RDT con 1.2B de parámetros, SeedPolicy logra un rendimiento competitivo con uno o dos órdenes de magnitud menos de parámetros, demostrando una fuerte eficiencia y escalabilidad. Estos resultados establecen a SeedPolicy como un método de aprendizaje por imitación de vanguardia para la manipulación robótica de largo horizonte. El código está disponible en: https://github.com/Youqiang-Gui/SeedPolicy.
Los modelos de mundo permiten planificar en un espacio futuro predicho e imaginado, ofreciendo un marco prometedor para la navegación corporeizada. Sin embargo, los modelos de mundo de navegación existentes a menudo carecen de consistencia condicionada por la acción, por lo que las predicciones visualmente plausibles pueden desviarse durante el despliegue multi-paso y degradar la planificación. Además, un despliegue eficiente requiere una inferencia de difusión en pocos pasos, pero los métodos de destilación existentes no preservan explícitamente la consistencia del despliegue, creando una discrepancia entre el entrenamiento y la inferencia. Para abordar estos desafíos, proponemos MWM, un modelo de mundo móvil para la navegación hacia un objetivo basada en imágenes y planificación. Específicamente, introducimos un marco de entrenamiento en dos etapas que combina el pre-entrenamiento de estructuras con un post-entrenamiento de Consistencia Condicionada por la Acción (ACC) para mejorar la consistencia del despliegue condicionado por la acción. Además, introducimos la Destilación de Estado Consistente en Inferencia (ICSD) para la destilación de difusión en pocos pasos con una consistencia de despliegue mejorada. Nuestros experimentos en tareas de referencia y del mundo real demuestran mejoras consistentes en fidelidad visual, precisión de trayectorias, éxito de la planificación y eficiencia de inferencia. Código: https://github.com/AIGeeksGroup/MWM. Sitio web: https://aigeeksgroup.github.io/MWM.