Artículos de investigación en IA seleccionados diariamente con traducciones
El desarrollo de Modelos de Lenguaje Visual (VLM) se ha basado en gran medida en el escalado del tamaño del modelo, lo que dificulta su despliegue en dispositivos móviles y periféricos con recursos computacionales limitados, como teléfonos inteligentes y robots. En este trabajo, exploramos los límites de rendimiento de los VLM compactos (por ejemplo, de 2B y 8B). Cuestionamos la práctica predominante de que los VLM de vanguardia deben depender de codificadores visuales inicializados mediante un preentrenamiento contrastivo masivo (por ejemplo, CLIP/SigLIP). Identificamos un desajuste de objetivos: el aprendizaje contrastivo, optimizado para la discriminación, impone invarianzas gruesas y a nivel de categoría que suprimen las señales visuales detalladas necesarias para el captioning denso y el razonamiento complejo en VLM. Para abordar este problema, presentamos Penguin-VL, cuyo codificador visual se inicializa a partir de un LLM basado únicamente en texto. Nuestros experimentos revelan que Penguin-Encoder sirve como una alternativa superior al preentrenamiento contrastivo tradicional, desbloqueando un mayor grado de fidelidad visual y eficiencia de datos para la comprensión multimodal. En varios benchmarks de imagen y video, Penguin-VL logra un rendimiento comparable al de los principales VLM (por ejemplo, Qwen3-VL) en razonamiento matemático y los supera en tareas como comprensión de documentos, conocimiento visual y comprensión de video multiperspectiva. Notablemente, estas mejoras se logran con una arquitectura ligera, demostrando que una representación visual mejorada, y no el escalado del modelo, es el principal impulsor del rendimiento. Nuestras ablaciones muestran que Penguin-Encoder supera consistentemente a los codificadores preentrenados de forma contrastiva, preservando señales espaciales y temporales detalladas que son críticas para la percepción densa y el razonamiento complejo. Esto lo convierte en una alternativa de reemplazo sólida para VLM eficientes en computación y permite un alto rendimiento en entornos con recursos limitados. Código: https://github.com/tencent-ailab/Penguin-VL
Las restricciones proximales son fundamentales para la estabilidad del aprendizaje por refuerzo en Modelos de Lenguaje a Gran Escala. Si bien el mecanismo de recorte canónico en PPO sirve como un sustituto eficiente de las regiones de confianza, identificamos un cuello de botella crítico: los límites fijos restringen estrictamente el margen de actualización ascendente de las acciones de baja probabilidad, suprimiendo desproporcionadamente las estrategias de cola de alta ventaja e induciendo un colapso rápido de la entropía. Para abordar esto, presentamos la Optimización de Políticas con Restricciones de Banda (BandPO). BandPO reemplaza el recorte canónico con Band, un operador teórico unificado que proyecta las regiones de confianza definidas por f-divergencias en intervalos de recorte dinámicos y sensibles a la probabilidad. El análisis teórico confirma que Band resuelve efectivamente este cuello de botella de exploración. Formulamos esta asignación como un problema de optimización convexa, garantizando una solución numérica globalmente óptima mientras derivamos soluciones de forma cerrada para divergencias específicas. Experimentos exhaustivos en diversos modelos y conjuntos de datos demuestran que BandPO supera consistentemente al recorte canónico y a Clip-Higher, mitigando robustamente el colapso de entropía.
Los modelos del mundo proporcionan un marco poderoso para simular la dinámica del entorno condicionada por acciones o instrucciones, permitiendo tareas posteriores como la planificación de acciones o el aprendizaje de políticas. Los enfoques recientes aprovechan los modelos del mundo como simuladores aprendidos, pero su aplicación a la planificación en tiempo de decisión sigue siendo computacionalmente prohibitiva para el control en tiempo real. Un cuello de botella clave reside en las representaciones latentes: los tokenizadores convencionales codifican cada observación en cientos de tokens, haciendo que la planificación sea lenta e intensiva en recursos. Para abordar esto, proponemos CompACT, un tokenizador discreto que comprime cada observación en tan solo 8 tokens, reduciendo drásticamente el coste computacional mientras preserva la información esencial para la planificación. Un modelo del mundo condicionado por acciones que utiliza el tokenizador CompACT logra un rendimiento de planificación competitivo con una velocidad de planificación órdenes de magnitud mayor, ofreciendo un paso práctico hacia la implementación en el mundo real de los modelos del mundo.
La generación de vídeos humanos listos para producción exige que los actores digitales mantengan identidades corporales completas estrictamente consistentes a través de planos dinámicos, puntos de vista y movimientos, un escenario que sigue siendo un desafío para los métodos existentes. Los métodos anteriores a menudo adolecen de un comportamiento centrado en el rostro que descuida la consistencia a nivel corporal, o producen artefactos de copia y pega donde los sujetos aparecen rígidos debido al bloqueo de posturas. Presentamos Actor-18M, un conjunto de datos de vídeo humano a gran escala diseñado para capturar la consistencia de identidad bajo puntos de vista y entornos no restringidos. Actor-18M comprende 1.6 millones de vídeos con 18 millones de imágenes humanas correspondientes, cubriendo tanto vistas arbitrarias como representaciones canónicas de tres vistas. Aprovechando Actor-18M, proponemos WildActor, un marco para la generación de vídeos humanos condicionada por cualquier vista. Introducimos un mecanismo de Atención Asimétrica para la Preservación de la Identidad, junto con una estrategia de Muestreo de Monte Carlo Adaptativo al Punto de Vista que re-pondera iterativamente las condiciones de referencia según la utilidad marginal para una cobertura equilibrada del manifold. Evaluado en el Actor-Bench propuesto, WildActor preserva consistentemente la identidad corporal bajo diversas composiciones de plano, transiciones de punto de vista amplias y movimientos sustanciales, superando a los métodos existentes en estos escenarios desafiantes.
La monitorización de la cadena de pensamiento (CoT) es una herramienta prometedora para detectar comportamientos indebidos y comprender las motivaciones de los modelos de razonamiento modernos. Sin embargo, si los modelos pueden controlar lo que verbalizan en su CoT, esto podría socavar su capacidad de ser monitorizados. Para medir esta capacidad no deseada —la controlabilidad de la CoT— presentamos el conjunto de evaluación CoT-Control, que incluye tareas que requieren que los modelos resuelvan problemas mientras siguen instrucciones sobre la CoT, por ejemplo, razonar sobre una pregunta de genética sin usar la palabra 'cromosoma'. Demostramos que los modelos de razonamiento poseen una controlabilidad de la CoT significativamente menor que la controlabilidad de la salida final; por ejemplo, Claude Sonnet 4.5 puede controlar su CoT solo en un 2.7% de los casos, pero en un 61.9% cuando controla su salida final. También encontramos que la controlabilidad de la CoT es mayor en modelos más grandes y disminuye con más entrenamiento por RL, mayor cómputo en tiempo de prueba y una mayor dificultad del problema. Los fallos de controlabilidad de la CoT se extienden incluso a situaciones en las que se dan incentivos a los modelos (en lugar de peticiones directas) para evadir los monitores de CoT, aunque los modelos muestran una controlabilidad ligeramente superior cuando se les informa de que están siendo monitorizados. Del mismo modo, elicitar la controlabilidad optimizando prompts de forma adversarial no aumenta significativamente la controlabilidad. Nuestros resultados nos dejan con un optimismo cauteloso de que la controlabilidad de la CoT actualmente no parece ser un modo de fallo de la capacidad de monitorización de la CoT. Sin embargo, el mecanismo detrás de la baja controlabilidad no se comprende bien. Dada su importancia para mantener la capacidad de monitorización de la CoT, recomendamos que los laboratorios de vanguardia realicen un seguimiento de la controlabilidad de la CoT en futuros modelos.
Las arquitecturas Transformer constituyen la columna vertebral de la mayoría de los Modelos de Lenguaje a Gran Escala (LLMs) modernos, por lo que su estabilidad durante el preentrenamiento y su velocidad de convergencia son de primordial importancia. Motivados por la dependencia lógica de las capas apiladas secuencialmente, proponemos el Calentamiento Progresivo de Residuales (ProRes) para el preentrenamiento de modelos de lenguaje. ProRes implementa una filosofía de "la capa temprana aprende primero" multiplicando el residual de cada capa por un escalar que se calienta gradualmente de 0 a 1, requiriendo las capas más profundas un mayor número de pasos de calentamiento. De esta manera, las capas más profundas esperan a que las capas tempranas se estabilicen en un régimen más estable antes de contribuir al aprendizaje. Demostramos la efectividad de ProRes mediante experimentos de preentrenamiento en varias escalas de modelo, así como en diferentes esquemas de normalización e inicialización. Un análisis exhaustivo muestra que ProRes no solo estabiliza el preentrenamiento, sino que también introduce una trayectoria de optimización única, conduciendo a una convergencia más rápida, una mayor capacidad de generalización y un mejor rendimiento en tareas posteriores. Nuestro código está disponible en https://github.com/dandingsky/ProRes.
La memoria es crítica para la manipulación robótica de largo horizonte temporal y dependiente del historial. Dichas tareas suelen implicar contar acciones repetidas o manipular objetos que quedan temporalmente ocluidos. Los modelos recientes de visión-lenguaje-acción (VLA) han comenzado a incorporar mecanismos de memoria; sin embargo, sus evaluaciones siguen limitadas a entornos estrechos y no estandarizados. Esto limita su comprensión sistemática, comparación y medición del progreso. Para abordar estos desafíos, presentamos RoboMME: un benchmark estandarizado a gran escala para evaluar y avanzar los modelos VLA en escenarios de largo horizonte y dependientes del historial. Nuestro benchmark comprende 16 tareas de manipulación construidas bajo una taxonomía cuidadosamente diseñada que evalúa la memoria temporal, espacial, de objetos y procedimental. Además, desarrollamos un conjunto de 14 variantes de VLA aumentadas con memoria, construidas sobre la arquitectura base π0.5, para explorar sistemáticamente diferentes representaciones de memoria en múltiples estrategias de integración. Los resultados experimentales muestran que la efectividad de las representaciones de memoria es altamente dependiente de la tarea, y que cada diseño ofrece ventajas y limitaciones distintas según la tarea. Los videos y el código pueden encontrarse en nuestro sitio web https://robomme.github.io.
Los Transformadores de Difusión procesan las imágenes como secuencias de longitud fija de tokens producidas por una operación estática de división en parches. Aunque es efectivo, este diseño emplea un cómputo uniforme tanto en regiones de baja como de alta información, ignorando que las imágenes contienen regiones de detalle variable y que el proceso de eliminación de ruido progresa desde una estructura gruesa en las primeras etapas temporales hasta detalles finos en las etapas finales. Presentamos el Transformador de Difusión con Segmentación Dinámica (DC-DiT), que aumenta la columna vertebral del DiT con un andamiaje aprendido de codificador-enrutador-decodificador que comprime adaptativamente la entrada 2D en una secuencia de tokens más corta de manera dependiente de los datos, utilizando un mecanismo de segmentación aprendido de extremo a extremo con el entrenamiento de difusión. El mecanismo aprende a comprimir regiones de fondo uniformes en menos tokens y regiones ricas en detalles en más tokens, surgiendo segmentaciones visuales significativas sin supervisión explícita. Además, también aprende a adaptar su compresión a lo largo de las etapas temporales de difusión, utilizando menos tokens en las etapas ruidosas y más tokens a medida que emergen los detalles finos. En ImageNet 256×256 condicionado por clase, DC-DiT mejora consistentemente el FID y el Inception Score respecto a las líneas base de DiT con igual número de parámetros y con igual número de FLOPS, a través de compresiones de 4× y 16×, lo que demuestra que esta es una técnica prometedora con posibles aplicaciones adicionales en generación en espacio de píxeles, vídeo y 3D. Más allá de la precisión, DC-DiT es práctico: puede ser reutilizado a partir de checkpoints de DiT preentrenados con un cómputo posterior al entrenamiento mínimo (hasta 8× menos pasos de entrenamiento) y se combina con otros métodos de cómputo dinámico para reducir aún más los FLOPS de generación.
Los recientes avances en generación de vídeo basada en difusión han logrado un realismo visual notable, pero aún presentan dificultades para obedecer leyes físicas básicas como la gravedad, la inercia y las colisiones. Los objetos generados a menudo se mueven de manera inconsistente entre fotogramas, exhiben dinámicas implausibles o violan restricciones físicas, lo que limita el realismo y la fiabilidad de los vídeos generados por IA. Abordamos esta brecha presentando PSIVG (Physical Simulator In-the-loop Video Generation), un marco novedoso que integra un simulador físico en el proceso de difusión de vídeo. Partiendo de un vídeo plantilla generado por un modelo de difusión preentrenado, PSIVG reconstruye la escena 4D y las mallas de objetos en primer plano, las inicializa dentro de un simulador físico y genera trayectorias físicamente consistentes. Estas trayectorias simuladas se utilizan luego para guiar al generador de vídeo hacia un movimiento espaciotemporalmente coherente desde el punto de vista físico. Para mejorar aún más la consistencia textural durante el movimiento de los objetos, proponemos una técnica de Optimización de Consistencia Textural en Tiempo de Prueba (TTCO) que adapta los embeddings de texto y características basándose en correspondencias de píxeles del simulador. Experimentos exhaustivos demuestran que PSIVG produce vídeos que se adhieren mejor a la física del mundo real, preservando al mismo tiempo la calidad visual y la diversidad. Página del proyecto: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
Los recientes avances en los modelos de lenguaje a gran escala (LLM) han abierto nuevas vías para el razonamiento multimodal. Sin embargo, la mayoría de los métodos existentes aún dependen de modelos de visión y lenguaje (VLM) preentrenados para codificar pares imagen-texto de forma aislada, ignorando la estructura relacional que los datos multimodales del mundo real forman naturalmente. Esto motiva el razonamiento sobre grafos multimodales (MMG), donde cada nodo tiene atributos textuales y visuales y las aristas proporcionan pistas estructurales. Habilitar el razonamiento basado en LLM sobre estas señales multimodales heterogéneas, preservando al mismo tiempo la topología del grafo, plantea dos desafíos clave: resolver la débil consistencia cross-modal y manejar la preferencia heterogénea por modalidad. Para abordar esto, proponemos Mario, un marco unificado que resuelve simultáneamente los dos desafíos anteriores y permite un razonamiento efectivo basado en LLM sobre MMG. Mario consta de dos etapas innovadoras. En primer lugar, un diseño de VLM condicionado por el grafo que refina conjuntamente las características textuales y visuales mediante un aprendizaje contrastivo cross-modal de grano fino guiado por la topología del grafo. En segundo lugar, un mecanismo de ajuste por instrucciones adaptativo a la modalidad que organiza las características multimodales alineadas en vistas de instrucciones conscientes del grafo y emplea un enrutador entrenable para presentar al LLM, para cada nodo y su vecindario, la configuración de modalidad más informativa. Experimentos exhaustivos en diversos benchmarks de MMG demuestran que Mario supera consistentemente a los modelos de grafos más avanzados tanto en escenarios supervisados como de cero disparos para las tareas de clasificación de nodos y predicción de enlaces. El código estará disponible en https://github.com/sunyuanfu/Mario.
Los agentes de LLM secuenciales fallan en la planificación de horizonte largo con restricciones estrictas como presupuestos y requisitos de diversidad. A medida que avanza la planificación y crece el contexto, estos agentes se desvían de las restricciones globales. Proponemos HiMAP-Travel, un marco jerárquico multiagente que divide la planificación en coordinación estratégica y ejecución paralela a nivel diario. Un Coordinador asigna recursos entre días, mientras que los Ejecutores Diarios planifican de forma independiente en paralelo. Tres mecanismos clave lo hacen posible: un monitor transaccional que aplica restricciones presupuestarias y de unicidad entre agentes paralelos, un protocolo de negociación que permite a los agentes rechazar subobjetivos inviables y activar una replanificación, y una única política entrenada con GRPO que impulsa a todos los agentes mediante condicionamiento por rol. En TravelPlanner, HiMAP-Travel con Qwen3-8B logra una Tasa de Éxito Final (FPR) del 52.78% en validación y 52.65% en prueba. En una comparación controlada con el mismo modelo, entrenamiento y herramientas, supera a la línea base secuencial DeepTravel en +8.67 pp. También supera a ATLAS en +17.65 pp y a MTP en +10.0 pp. En los escenarios multi-turno de FlexTravelBench, alcanza un 44.34% (2-turnos) y 37.42% (3-turnos) de FPR mientras reduce la latencia 2.5 veces mediante paralelización.
Los efectos visuales (VFX) son esenciales para potenciar la expresividad y creatividad del contenido de vídeo, aunque la producción de efectos de alta calidad normalmente requiere conocimientos especializados y costosos flujos de producción. Los sistemas existentes de AIGC (Contenido Generado por Inteligencia Artificial) enfrentan desafíos significativos en la generación de VFX debido a la escasez de datos específicos para efectos y la dificultad inherente de modelar efectos sobrenaturales o estilizados. Además, estos enfoques a menudo requieren un ajuste fino por efecto, lo que limita severamente su escalabilidad y generalización a nuevos VFX. En este trabajo, presentamos EffectMaker, un marco unificado de razonamiento-generación que permite la personalización de VFX basada en referencia. EffectMaker emplea un modelo de lenguaje grande multimodal para interpretar semánticas de alto nivel de los efectos y razonar sobre cómo deberían adaptarse a un sujeto objetivo, mientras que un transformador de difusión aprovecha el aprendizaje en contexto para capturar indicios visuales de grano fino a partir de vídeos de referencia. Estos dos componentes forman un mecanismo de guía de doble vía semántica-visual que permite una síntesis precisa, controlable y con consistencia de efectos, sin necesidad de ajuste fino por efecto. Adicionalmente, construimos EffectData, el conjunto de datos sintético de mayor tamaño y alta calidad, que contiene 130k vídeos distribuidos en 3k categorías de VFX, para mejorar la generalización y escalabilidad. Los experimentos demuestran que EffectMaker logra una calidad visual y una consistencia de efectos superiores a los métodos de referencia del estado del arte, ofreciendo un paradigma escalable y flexible para la generación personalizada de VFX. Página del proyecto: https://effectmaker.github.io
Los modelos de flujo de visión-lenguaje-acción (VLA) destacan en el control embodido, pero adolecen de verosimilitudes intratables durante el muestreo multi-etapa, lo que dificulta el aprendizaje por refuerzo en línea. Proponemos \textit{boldsymbolπ-StepNFT} (Ajuste Fino Negativo por Etapas), un marco libre de críticos y verosimilitudes que requiere solo una pasada hacia adelante por paso de optimización y elimina las redes de valor auxiliares. Identificamos que los espacios de exploración más amplios requieren una guía más granular y por etapas para la alineación. Empíricamente, π-StepNFT desbloquea el potencial latente en LIBERO con una robustez competitiva en escenarios de pocos ejemplos. Además, logra una generalización superior en ManiSkill, superando a los baselines basados en valor en escenarios OOD al evitar el sobreajuste a características multimodales. Esta propiedad ofrece una solución escalable prometedora para aplicaciones complejas del mundo real.
La modelización de contexto largo es una capacidad fundamental para los Modelos de Lenguaje a Gran Escala, aunque la complejidad cuadrática de la atención sigue siendo un cuello de botella crítico, particularmente durante la fase computacionalmente intensiva de prefilling. Si bien se han explorado varios mecanismos de atención dispersa, estos generalmente adolecen de una latencia de búsqueda significativa o de una dispersión insuficiente. En este artículo, proponemos FlashPrefill, un marco que permite un prefilling ultrarrápido mediante el descubrimiento instantáneo de patrones y umbralización. FlashPrefill aprovecha una técnica rápida de búsqueda por bloques para localizar simultáneamente patrones de atención dinámicos verticales, en diagonal y dispersos por bloques. De manera crucial, introduce un mecanismo de umbralización dinámica que evita la abrumadora sobrecarga de ordenar o acumular puntuaciones de atención, eliminando eficazmente la distribución de cola larga para mejorar la dispersión. Evaluaciones exhaustivas demuestran que FlashPrefill logra un avance sustancial en eficiencia, ofreciendo una aceleración sin precedentes de 27.78x en secuencias de 256K tokens. Notablemente, a diferencia de los métodos existentes que sufren una degradación de la eficiencia en contextos más cortos, FlashPrefill mantiene una aceleración de 1.71x incluso con una longitud de contexto de 4K, demostrando su robustez y utilidad práctica a través de diversas escalas de secuencias.
El rápido crecimiento de modelos lingüísticos grandes (LLM) con capacidades, costos y dominios diversos ha creado una necesidad crítica de selección inteligente de modelos en tiempo de inferencia. Mientras que los modelos más pequeños son suficientes para consultas rutinarias, las tareas complejas requieren modelos más capaces. Sin embargo, el despliegue estático de modelos no considera la complejidad y el dominio de las consultas entrantes, lo que genera un rendimiento subóptimo y mayores costos. Los sistemas de enrutamiento dinámico que seleccionan modelos de forma adaptativa según las características de la consulta han surgido como una solución a este desafío. Proporcionamos un análisis sistemático de los enfoques de enrutamiento y cascada multi-LLM más avanzados. En contraste con las arquitecturas de mezcla de expertos, que realizan el enrutamiento dentro de un único modelo, estudiamos el enrutamiento entre múltiples LLM entrenados de forma independiente. Cubrimos diversos paradigmas de enrutamiento, incluyendo la dificultad de la consulta, las preferencias humanas, la agrupación en clústeres, la cuantificación de la incertidumbre, el aprendizaje por refuerzo, la multimodalidad y el encadenamiento en cascada. Para cada paradigma, analizamos métodos representativos y examinamos las compensaciones clave. Más allá de la taxonomía, introducimos un marco conceptual que caracteriza los sistemas de enrutamiento en tres dimensiones: cuándo se toman las decisiones, qué información se utiliza y cómo se computan. Esta perspectiva destaca que los sistemas prácticos suelen ser compositivos, integrando múltiples paradigmas bajo restricciones operativas. Nuestro análisis demuestra que un enrutamiento multi-LLM efectivo requiere equilibrar objetivos contrapuestos. Elegir la estrategia de enrutamiento óptima depende de las restricciones de despliegue y computacionales. Los sistemas de enrutamiento bien diseñados pueden superar incluso a los modelos individuales más potentes, aprovechando estratégicamente capacidades especializadas entre modelos mientras se maximizan las ganancias de eficiencia. Mientras tanto, persisten desafíos abiertos en el desarrollo de mecanismos de enrutamiento que generalicen a través de diversas arquitecturas, modalidades y aplicaciones.
La generación de presentaciones requiere una investigación profunda del contenido, un diseño visual coherente y una refinación iterativa basada en la observación. Sin embargo, los agentes de presentación existentes a menudo dependen de flujos de trabajo predefinidos y plantillas fijas. Para abordar esto, presentamos DeepPresenter, un marco agéntico que se adapta a diversas intenciones del usuario, permite una refinación efectiva impulsada por retroalimentación y generaliza más allá de una canalización guionada. Específicamente, DeepPresenter planifica, renderiza y revisa de forma autónoma artefactos intermedios de diapositivas para apoyar una refinación de largo horizonte con observaciones del entorno. Además, en lugar de depender de la autorreflexión sobre señales internas (por ejemplo, trazas de razonamiento), nuestra reflexión basada en el entorno condiciona el proceso de generación a los estados perceptuales de los artefactos (por ejemplo, diapositivas renderizadas), permitiendo al sistema identificar y corregir problemas específicos de la presentación durante la ejecución. Los resultados en el conjunto de evaluación que cubre diversos escenarios de generación de presentaciones muestran que DeepPresenter logra un rendimiento de vanguardia, y el modelo ajustado de 9B mantiene una alta competitividad a un costo sustancialmente menor. Nuestro proyecto está disponible en: https://github.com/icip-cas/PPTAgent
Los modelos del mundo basados en difusión han demostrado un gran potencial para la simulación unificada del mundo, pero la eliminación iterativa de ruido sigue siendo demasiado costosa para su uso interactivo y las simulaciones de horizonte largo. Si bien el almacenamiento en caché de características puede acelerar la inferencia sin entrenamiento, encontramos que las políticas diseñadas para difusión unimodal se transfieren deficientemente a los modelos del mundo debido a dos obstáculos específicos: la heterogeneidad de tokens por el acoplamiento multimodal y la variación espacial, y las dinámicas temporales no uniformes donde un pequeño conjunto de tokens difíciles impulsa el crecimiento del error, haciendo que el salto uniforme sea inestable o excesivamente conservador. Proponemos WorldCache, un marco de almacenamiento en caché adaptado a los modelos del mundo de difusión. Introducimos la Predicción Heterogénea de Tokens Guiada por Curvatura, que utiliza una puntuación de curvatura basada en la física para estimar la predictibilidad de los tokens y aplica un predictor amortiguado guiado por Hermite para tokens caóticos con cambios abruptos de dirección. También diseñamos el Salto Adaptativo Prioritizado para lo Caótico, que acumula una señal de deriva adimensional normalizada por curvatura y recomputa solo cuando los tokens cuello de botella comienzan a derivar. Los experimentos en modelos del mundo de difusión muestran que WorldCache ofrece aceleraciones de extremo a extremo de hasta 3.7 veces manteniendo un 98% de calidad en la simulación, demostrando las vastas ventajas y practicidad de WorldCache en escenarios con recursos limitados. Nuestro código se publica en https://github.com/FofGofx/WorldCache.
El Diseño Asistido por Computadora (CAD) depende de representaciones geométricas estructuradas y editables; sin embargo, los métodos generativos existentes están limitados por conjuntos de datos anotados pequeños que contienen historiales de diseño explícitos o etiquetas de representación de límites (BRep). Mientras tanto, millones de mallas 3D sin anotaciones permanecen sin explotar, lo que limita el progreso en la generación escalable de CAD. Para abordar esto, proponemos DreamCAD, un marco generativo multimodal que produce directamente BReps editables a partir de supervisión a nivel de puntos, sin anotaciones específicas de CAD. DreamCAD representa cada BRep como un conjunto de parches paramétricos (por ejemplo, superficies de Bézier) y utiliza un método de teselación diferenciable para generar mallas. Esto permite el entrenamiento a gran escala en conjuntos de datos 3D mientras se reconstruyen superficies conectadas y editables. Además, presentamos CADCap-1M, el mayor conjunto de datos de subtitulado de CAD hasta la fecha, con más de 1 millón de descripciones generadas usando GPT-5 para impulsar la investigación de texto a CAD. DreamCAD logra un rendimiento de vanguardia en los benchmarks ABC y Objaverse a través de modalidades de texto, imagen y puntos, mejorando la fidelidad geométrica y superando el 75% de preferencia de los usuarios. El código y el conjunto de datos estarán disponibles públicamente.
Los agentes conversacionales se despliegan cada vez más en entornos intensivos en conocimiento, donde el comportamiento correcto depende de recuperar y aplicar conocimiento específico del dominio a partir de grandes corpus no estructurados y propietarios durante interacciones en tiempo real con usuarios. Sin embargo, la mayoría de los puntos de referencia existentes evalúan la recuperación o el uso de herramientas de forma independiente, creando una brecha en la evaluación realista y completamente agéntica sobre datos no estructurados en interacciones de horizonte largo. Presentamos τ-Knowledge, una extensión de τ-Bench para evaluar agentes en entornos donde el éxito depende de coordinar conocimiento externo en lenguaje natural con las salidas de herramientas para producir cambios de estado verificables y conformes a políticas. Nuestro nuevo dominio, τ-Banking, modela flujos de trabajo realistas de soporte al cliente en fintech, en los que los agentes deben navegar aproximadamente 700 documentos de conocimiento interconectados mientras ejecutan actualizaciones de cuenta mediadas por herramientas. Tanto en la recuperación basada en *embeddings* como en la búsqueda basada en terminales, incluso los modelos más avanzados con altos presupuestos de razonamiento alcanzan solo un ∼25.5% de aprobación, con una confiabilidad que se degrada marcadamente en ensayos repetidos. Los agentes tienen dificultades para recuperar los documentos correctos de bases de conocimiento densamente interconectadas y para razonar con precisión sobre políticas internas complejas. En general, τ-Knowledge proporciona un banco de pruebas realista para desarrollar agentes que integren conocimiento no estructurado en despliegues orientados a humanos.
La formación de solucionadores de PDE basados en redes neuronales a menudo se ve limitada por la generación costosa de datos o por el uso de redes neuronales informadas por la física (PINN), que son inestables debido a paisajes de optimización complejos provocados por derivadas de orden superior. Para abordar este problema, proponemos un enfoque alternativo que utiliza métodos de Monte Carlo para estimar la solución de la PDE como un proceso estocástico, proporcionando una supervisión débil durante el entrenamiento. Aprovechando el método de Caminata sobre Esferas (Walk-on-Spheres, WoS), introducimos un esquema de aprendizaje denominado Operador Neuronal de Caminata sobre Esferas (WoS-NO), que utiliza la supervisión débil de WoS para entrenar cualquier operador neuronal dado. Proponemos amortizar el coste de las caminatas de Monte Carlo a lo largo de la distribución de instancias de PDE utilizando representaciones estocásticas del algoritmo WoS para generar estimaciones baratas y ruidosas de la solución de la PDE durante el entrenamiento. Esto se formula como un objetivo de física sin datos, donde un operador neuronal se entrena para realizar una regresión contra estas supervisiones débiles, permitiendo que el operador aprenda un mapa de solución generalizado para toda una familia de PDEs. Esta estrategia no requiere conjuntos de datos precomputados costosos, evita calcular derivadas de orden superior para funciones de pérdida que son intensivas en memoria e inestables, y demuestra una generalización zero-shot a nuevos parámetros y dominios de PDE. Los experimentos muestran que, para el mismo número de pasos de entrenamiento, nuestro método exhibe una mejora de hasta 8.75 veces en el error L₂ en comparación con los esquemas de entrenamiento estándar informados por la física, una mejora de hasta 6.31 veces en la velocidad de entrenamiento y reducciones de hasta 2.97 veces en el consumo de memoria de la GPU. Presentamos el código en https://github.com/neuraloperator/WoS-NO.
La escalado del cómputo en tiempo de inferencia para los Modelos de Lenguaje a Gran Escala (LLMs) ha desbloqueado capacidades de razonamiento sin precedentes. Sin embargo, los métodos de escalado en tiempo de inferencia existentes suelen depender de algoritmos de búsqueda discreta ineficientes y subóptimos o de técnicas de prueba y error mediante *prompts* para mejorar la política en línea. En este artículo, proponemos nabla-Reasoner, un marco de generación iterativa que integra optimización diferenciable sobre los *logits* de los tokens en el bucle de decodificación para refinar la política sobre la marcha. Nuestro componente central, la Optimización Textual Diferenciable (DTO), aprovecha las señales de gradiente tanto de la verosimilitud del LLM como de un modelo de recompensa para refinar las representaciones textuales. nabla-Reasoner incorpora además muestreo por rechazo y un diseño de aceleración para robustecer y agilizar la decodificación. Teóricamente, demostramos que realizar descenso de gradiente en tiempo de inferencia en el espacio de muestras para maximizar la recompensa es dual a alinear una política de un LLM mediante aprendizaje por refuerzo regularizado con divergencia de Kullback-Leibler (KL). Empíricamente, nabla-Reasoner logra una mejora de más del 20% en precisión en un benchmark desafiante de razonamiento matemático, al tiempo que reduce el número de llamadas al modelo en aproximadamente un 10-40% en comparación con líneas de base sólidas. En general, nuestro trabajo introduce un cambio de paradigma desde la búsqueda de orden cero hacia la optimización de primer orden durante la fase de prueba, ofreciendo una ruta rentable para amplificar el razonamiento de los LLMs.
La Optimización de Políticas Relativas a Grupos (GRPO) es altamente efectiva para modelos de lenguaje autorregresivos (AR) posteriores al entrenamiento, sin embargo, su aplicación directa a modelos de lenguaje grandes de difusión (dLLMs) a menudo desencadena un colapso de la recompensa. Identificamos dos fuentes de incompatibilidad. En primer lugar, GRPO se basa en ratios de importancia definidos por probabilidades de secuencia, que son intratables en dLLMs y deben estimarse (por ejemplo, mediante aproximaciones de verosimilitud basadas en ELBO o de campo medio), lo que produce ratios inherentemente ruidosos. En segundo lugar, la formulación estándar de GRPO no está diseñada para ratios estimados: su recorte condicional puede ser anómalamente evitado por el ruido de estimación independiente del modelo, produciendo picos de gradiente, mientras que su normalización de tamaño de grupo fijo amplifica las fluctuaciones de magnitud del gradiente bajo estimaciones de ratio de alta varianza. Demostramos que estos efectos forman un bucle de inestabilidad auto-reforzante que impulsa la deriva de la política y aumenta aún más la varianza del ratio. Para romper este bucle, proponemos StableDRL, una reformulación de GRPO adaptada para dLLMs que utiliza (i) recorte incondicional para suprimir los picos inducidos por valores atípicos y (ii) auto-normalización para restringir las actualizaciones dentro del casco convexo de los gradientes por muestra. Además, extendemos StableDRL a modelos de difusión por bloques mediante un mecanismo de atención escalonada.
Los grandes modelos de lenguaje a veces producen respuestas falsas o engañosas. Dos enfoques para este problema son la elicitación de honestidad —modificar prompts o pesos para que el modelo responda con veracidad— y la detección de mentiras —clasificar si una respuesta dada es falsa—. Trabajos previos evalúan estos métodos en modelos entrenados específicamente para mentir u ocultar información, pero estas construcciones artificiales pueden no parecerse a la deshonestidad que ocurre de forma natural. En su lugar, estudiamos LLMs de pesos abiertos de desarrolladores chinos, que están entrenados para censurar temas políticamente sensibles: los modelos Qwen3 producen frecuentemente falsedades sobre temas como Falun Gong o las protestas de Tiananmen, mientras que ocasionalmente responden correctamente, lo que indica que poseen conocimiento que están entrenados para suprimir. Utilizando esto como banco de pruebas, evaluamos un conjunto de técnicas de elicitación y detección de mentiras. Para la elicitación de honestidad, el muestreo sin una plantilla de chat, el prompting con pocos ejemplos y el fine-tuning con datos genéricos de honestidad aumentan de manera más fiable las respuestas veraces. Para la detección de mentiras, pedir al modelo censurado que clasifique sus propias respuestas tiene un rendimiento cercano a un límite superior establecido por un modelo no censurado, y los sondas lineales entrenadas con datos no relacionados ofrecen una alternativa más económica. Las técnicas de elicitación de honestidad más sólidas también se transfieren a modelos de vanguardia de pesos abiertos, incluido DeepSeek R1. Cabe destacar que ninguna técnica elimina por completo las respuestas falsas. Publicamos todos los prompts, código y transcripciones.
Presentamos PixARMesh, un método para reconstruir autoregresivamente mallas 3D completas de escenas interiores directamente a partir de una única imagen RGB. A diferencia de métodos anteriores que dependen de campos de distancia con signo implícitos y optimización de distribución a posteriori, PixARMesh predice conjuntamente la distribución de objetos y la geometría dentro de un modelo unificado, produciendo mallas coherentes y listas para artistas en un único paso forward. Basándonos en avances recientes en modelos generativos de mallas, aumentamos un codificador de nube de puntos con características de imagen alineadas por píxel y contexto global de la escena mediante atención cruzada, lo que permite un razonamiento espacial preciso a partir de una sola imagen. Las escenas se generan de manera autoregresiva a partir de un flujo unificado de tokens que contiene contexto, pose y malla, produciendo mallas compactas con geometría de alta fidelidad. Los experimentos en conjuntos de datos sintéticos y del mundo real muestran que PixARMesh logra una calidad de reconstrucción state-of-the-art mientras produce mallas ligeras y de alta calidad listas para aplicaciones posteriores.
El aprendizaje por refuerzo fuera de línea condicionado por objetivos (GCRL, por sus siglas en inglés) aprende políticas condicionadas por objetivos a partir de conjuntos de datos estáticos previamente recopilados. Sin embargo, la estimación precisa del valor sigue siendo un desafío debido a la cobertura limitada del espacio de estados-acciones. Enfoques recientes basados en física han intentado abordar este problema imponiendo restricciones físicas y geométricas en la función de valor mediante regularización definida sobre ecuaciones diferenciales parciales (EDPs) de primer orden, como la ecuación Eikonal. Sin embargo, estas formulaciones a menudo pueden estar mal planteadas en entornos complejos y de alta dimensionalidad. En este trabajo, proponemos una regularización basada en física derivada de la solución de viscosidad de la ecuación de Hamilton-Jacobi-Bellman (HJB). Al proporcionar un sesgo inductivo basado en física, nuestro método fundamenta el proceso de aprendizaje en la teoría de control óptimo, regularizando y acotando explícitamente las actualizaciones durante las iteraciones de valor. Además, aprovechamos el teorema de Feynman-Kac para reformular la solución de la EDP como una expectativa, permitiendo una estimación manejable de Monte Carlo del objetivo que evita la inestabilidad numérica en gradientes de orden superior. Los experimentos demuestran que nuestro método mejora la consistencia geométrica, haciéndolo ampliamente aplicable a tareas de navegación y de manipulación complejas y de alta dimensionalidad. El código de fuente abierta está disponible en https://github.com/HrishikeshVish/phys-fk-value-GCRL.
La restauración de imágenes bajo degradaciones diversas sigue siendo un desafío para los marcos unificados todo-en-uno debido a la interferencia de características y la especialización insuficiente de expertos. Proponemos SLER-IR, un marco de enrutamiento de expertos por capas esférico que activa dinámicamente expertos especializados a través de las capas de la red. Para garantizar un enrutamiento confiable, introducimos una Incrustación de Degradación Esférica Uniforme con aprendizaje contrastivo, que mapea las representaciones de degradación sobre una hiperesfera para eliminar el sesgo geométrico en espacios de incrustación lineal. Adicionalmente, un módulo de Fusión de Granularidad Global-Local (GLGF) integra semántica global y claves de degradación local para abordar degradaciones espacialmente no uniformes y la brecha de granularidad entre entrenamiento y prueba. Los experimentos en benchmarks de tres y cinco tareas demuestran que SLER-IR logra mejoras consistentes sobre los métodos más avanzados tanto en PSNR como en SSIM. El código y los modelos serán publicados.
La especificación del espacio de acción juega un papel fundamental en el aprendizaje de políticas de manipulación robótica basadas en imitación, moldeando de forma esencial el panorama de optimización del aprendizaje de políticas. Si bien los avances recientes se han centrado en gran medida en escalar los datos de entrenamiento y la capacidad del modelo, la elección del espacio de acción sigue guiada por heurísticas ad-hoc o diseños heredados, lo que conduce a una comprensión ambigua de las filosofías de diseño de políticas robóticas. Para abordar esta ambigüedad, realizamos un estudio empírico sistemático a gran escala, confirmando que el espacio de acción sí tiene impactos significativos y complejos en el aprendizaje de políticas robóticas. Diseccionamos el espacio de diseño de acciones a lo largo de ejes temporales y espaciales, facilitando un análisis estructurado de cómo estas elecciones gobiernan tanto la capacidad de aprendizaje de la política como la estabilidad del control. Basándonos en más de 13.000 ejecuciones en el mundo real en un robot bimanual y la evaluación de más de 500 modelos entrenados en cuatro escenarios, examinamos las compensaciones entre las representaciones absolutas frente a las delta, y las parametrizaciones en el espacio de articulaciones frente al espacio de tareas. Nuestros resultados a gran escala sugieren que diseñar adecuadamente la política para predecir acciones delta mejora consistentemente el rendimiento, mientras que las representaciones en el espacio de articulaciones y en el espacio de tareas ofrecen fortalezas complementarias, favoreciendo la estabilidad del control y la generalización, respectivamente.
La capacidad de seguir instrucciones es una función fundamental de los grandes modelos de lenguaje (LLM), cuya mejora depende de comentarios escalables y precisos de modelos evaluadores. Sin embargo, la fiabilidad de los modelos evaluadores actuales en la tarea de seguimiento de instrucciones sigue sin explorarse adecuadamente debido a varias deficiencias de los benchmarks de meta-evaluación existentes, como su cobertura insuficiente de datos y paradigmas de evaluación por pares excesivamente simplificados que no se alinean con los escenarios de optimización de modelos. Para abordar este problema, proponemos IF-RewardBench, un benchmark integral de meta-evaluación para el seguimiento de instrucciones que cubre diversos tipos de instrucciones y restricciones. Para cada instrucción, construimos un grafo de preferencias que contiene todas las preferencias por pares entre múltiples respuestas basadas en la calidad del seguimiento de instrucciones. Este diseño permite un paradigma de evaluación por listas que valora la capacidad de los modelos evaluadores para clasificar múltiples respuestas, lo cual es esencial para guiar la alineación de modelos. Experimentos exhaustivos en IF-RewardBench revelan deficiencias significativas en los modelos evaluadores actuales y demuestran que nuestro benchmark logra una correlación positiva más fuerte con el rendimiento en tareas posteriores en comparación con los benchmarks existentes. Nuestros códigos y datos están disponibles en https://github.com/thu-coai/IF-RewardBench.
Es bien sabido que el FID de reconstrucción (rFID) de un VAE presenta una correlación débil con el FID de generación (gFID) de un modelo de difusión latente. Proponemos el FID interpolado (iFID), una variante simple del rFID que exhibe una fuerte correlación con el gFID. Específicamente, para cada elemento del conjunto de datos, recuperamos su vecino más cercano (NN) en el espacio latente e interpolamos sus representaciones latentes. Luego decodificamos el latente interpolado y calculamos el FID entre las muestras decodificadas y el conjunto de datos original. Adicionalmente, refinamos la afirmación de que el rFID se correlaciona pobremente con el gFID, demostrando que el rFID se correlaciona con la calidad de la muestra en la fase de refinamiento por difusión, mientras que el iFID se correlaciona con la calidad de la muestra en la fase de navegación por difusión. Además, proporcionamos una explicación de por qué el iFID se correlaciona bien con el gFID, y por qué las métricas de reconstrucción están negativamente correlacionadas con el gFID, vinculándolo con resultados sobre generalización y alucinación en difusión. Empíricamente, el iFID es la primera métrica que demuestra una fuerte correlación con el gFID de difusión, alcanzando correlaciones lineales de Pearson y de rangos de Spearman de aproximadamente 0.85. El código fuente se proporciona en https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
Aprovechar todo el potencial de los documentos visualmente ricos requiere sistemas de recuperación que comprendan no solo texto, sino diseños intrincados, un desafío fundamental en la Recuperación Visual de Documentos (RVD). Las arquitecturas multivectoriales predominantes, aunque potentes, enfrentan un cuello de botella crucial de almacenamiento que las estrategias de optimización actuales, como la fusión de *embeddings*, la poda o el uso de tokens abstractos, no logran resolver sin comprometer el rendimiento o ignorar pistas de diseño vitales. Para abordar esto, presentamos ColParse, un paradigma novedoso que aprovecha un modelo de análisis de documentos para generar un pequeño conjunto de *embeddings* de subimágenes informadas por el diseño, que luego se fusionan con un vector global a nivel de página para crear una representación multivectorial compacta y estructuralmente consciente. Experimentos exhaustivos demuestran que nuestro método reduce los requisitos de almacenamiento en más de un 95%, a la vez que produce mejoras significativas de rendimiento en numerosos puntos de referencia y modelos base. ColParse, por lo tanto, cierra la brecha crítica entre la precisión granular de la recuperación multivectorial y las demandas prácticas del despliegue a gran escala, ofreciendo un nuevo camino hacia sistemas de información multimodal eficientes e interpretables.
Estudios recientes han observado que las capas intermedias de los modelos fundacionales a menudo producen representaciones más discriminativas que la capa final. Aunque inicialmente se atribuyó al preentrenamiento autoregresivo, este fenómeno también se ha identificado en modelos entrenados mediante objetivos supervisados y de auto-supervisión discriminativa. En este artículo, realizamos un estudio exhaustivo para analizar el comportamiento de las capas intermedias en transformadores de visión preentrenados. A través de extensos experimentos de sondeo lineal en un conjunto diverso de benchmarks de clasificación de imágenes, encontramos que el cambio de distribución entre los datos de preentrenamiento y los datos de destino es la causa principal de la degradación del rendimiento en las capas más profundas. Además, realizamos un análisis detallado a nivel de módulo. Nuestros hallazgos revelan que el sondeo estándar de las salidas de los bloques del transformador es subóptimo; en su lugar, sondear la activación dentro de la red neuronal de avance produce el mejor rendimiento bajo un cambio de distribución significativo, mientras que la salida normalizada del módulo de autoatención multicabezal es óptima cuando el cambio es débil.