Artículos de investigación en IA seleccionados diariamente con traducciones
Los avances recientes en modelos de razonamiento han impulsado significativamente la resolución de problemas matemáticos y científicos de horizonte largo, con varios sistemas alcanzando ahora el nivel de medalla de oro en problemas de la Olimpiada Internacional de Matemáticas (IMO) y la Olimpiada Internacional de Física (IPhO). En este artículo, presentamos una receta simple y unificada para convertir un modelo base de razonamiento post-entrenado en un solucionador riguroso de nivel olímpico. La receta primero utiliza un currículo de perplejidad inversa para SFT con el fin de inculcar comportamientos rigurosos de búsqueda de pruebas y autoverificación; luego, escala estos comportamientos mediante un pipeline de RL en dos etapas que progresa desde RL con recompensas verificables hasta una RL más refinada a nivel de pruebas; y finalmente, mejora el rendimiento de resolución con escalamiento en tiempo de prueba. Aplicando esta receta, entrenamos un modelo base de 30B-A3B con SFT en aproximadamente 340 mil trayectorias de menos de 8 mil tokens, seguidas de 200 pasos de RL. El modelo resultante, SU-01, admite un razonamiento estable en problemas difíciles con trayectorias que superan los 100 mil tokens, al tiempo que alcanza un rendimiento de nivel de medalla de oro en competiciones olímpicas de matemáticas y física, incluyendo IMO 2025/USAMO 2026 e IPhO 2024/2025. También demuestra una fuerte generalización del razonamiento científico a dominios más allá de las matemáticas y la física.
La generación de video interactivo en tiempo real requiere despliegue con baja latencia, transmisión continua y controlabilidad. Los métodos existentes de destilación por difusión autorregresiva (AR) han logrado resultados sólidos en el régimen de 4 pasos por fragmento, al destilar modelos base bidireccionales en estudiantes AR de pocos pasos, pero siguen limitados por una granularidad de respuesta gruesa y una latencia de muestreo no despreciable. En este artículo, estudiamos un entorno más agresivo: autorregresión fotograma a fotograma con solo 1 o 2 pasos de muestreo. En este régimen, identificamos la inicialización de un estudiante AR de pocos pasos como el cuello de botella clave: las estrategias existentes o no están alineadas con el objetivo, son incapaces de generar en pocos pasos, o resultan demasiado costosas de escalar. Proponemos Causal Forcing++, un pipeline escalable y fundamentado que utiliza destilación de consistencia causal (causal CD) para la inicialización AR de pocos pasos. La idea central es que la causal CD aprende el mismo mapa de flujo condicionado AR que la destilación ODE causal, pero obtiene supervisión de un único paso ODE del profesor en línea entre instantes de tiempo adyacentes, evitando la necesidad de precalcular y almacenar trayectorias completas de ODE PF. Esto hace que la inicialización sea más eficiente y fácil de optimizar. El pipeline resultante, \ours, supera al estado del arte Causal Forcing de 4 pasos por fragmento en el **entorno de 2 pasos fotograma a fotograma** en 0.1 en VBench Total, 0.3 en VBench Calidad y 0.335 en VisionReward, al tiempo que reduce la latencia del primer fotograma en un 50% y el coste de entrenamiento de la Etapa 2 en aproximadamente 4 veces. Además, extendemos el pipeline a la generación de modelos del mundo condicionados por acción, siguiendo el espíritu de Genie3. Página del proyecto: https://github.com/thu-ml/Causal-Forcing y https://github.com/shengshu-ai/minWM.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido como un paradigma central para el post-entrenamiento de agentes LLM, aunque su señal de recompensa a nivel de trayectoria proporciona una supervisión únicamente gruesa para interacciones de horizonte largo. La autodestilación en política (OPSD, por sus siglas en inglés) complementa al RL introduciendo una guía densa a nivel de tokens desde una rama profesora aumentada con contexto privilegiado. Sin embargo, transferir OPSD a agentes de múltiples turnos resulta problemático: la inestabilidad compuesta de múltiples turnos desestabiliza la supervisión, mientras que la guía privilegiada condicionada por habilidades requiere un tratamiento asimétrico, ya que los rechazos negativos del profesor pueden surgir de una recuperación o utilización imperfecta de habilidades. Presentamos SDAR (Aprendizaje por Refuerzo Agéntico Autodestilado), que trata a OPSD como un objetivo auxiliar con compuerta, manteniendo a RL como la columna vertebral principal de optimización. SDAR mapea señales separadas a nivel de tokens en una compuerta sigmoidea, fortaleciendo la destilación en tokens con brecha positiva respaldados por el profesor y atenuando suavemente los rechazos negativos del profesor. En las familias Qwen2.5 y Qwen3 en ALFWorld, WebShop y Search-QA, SDAR mejora sustancialmente en comparación con GRPO (+9.4% en ALFWorld, +7.0% en Search-QA, +10.2% en WebShop-Acc), evita la inestabilidad de la combinación ingenua de GRPO+OPSD, y supera consistentemente a las líneas base híbridas de RL-OPSD en diferentes escalas de modelos.
La memoria es esencial para que los grandes modelos de lenguaje-visión (LVLMs) manejen interacciones largas y multimodales, existiendo dos direcciones metodológicas que proporcionan esta capacidad: LVLMs de contexto largo y agentes aumentados con memoria. Sin embargo, ningún punto de referencia existente realiza una comparación sistemática de ambos enfoques en preguntas que realmente requieren evidencia multimodal. Para llenar este vacío, presentamos MEMLENS, un punto de referencia integral para la memoria en conversaciones multimodales de múltiples sesiones, que comprende 789 preguntas en cinco habilidades de memoria (extracción de información, razonamiento en múltiples sesiones, razonamiento temporal, actualización de conocimiento y rechazo de respuesta) en cuatro longitudes de contexto estándar (32K–256K tokens) bajo un esquema de conteo de tokens entre modalidades. Un estudio de ablación de imágenes confirma que resolver MEMLENS requiere evidencia visual: eliminar imágenes de evidencia reduce la precisión de dos LVLMs punteros por debajo del 2% en el 80.4% de las preguntas cuya evidencia incluye imágenes. Al evaluar 27 LVLMs y 7 agentes aumentados con memoria, encontramos que los LVLMs de contexto largo logran una alta precisión en contextos cortos mediante un fundamento visual directo, pero se degradan a medida que las conversaciones se alargan, mientras que los agentes de memoria son estables en longitud pero pierden fidelidad visual bajo compresión en el momento del almacenamiento. El razonamiento en múltiples sesiones limita a la mayoría de los sistemas por debajo del 30%, y ninguno de los enfoques por sí solo resuelve la tarea. Estos resultados motivan arquitecturas híbridas que combinen atención de contexto largo con recuperación multimodal estructurada. Nuestro código está disponible en https://github.com/xrenaf/MEMLENS.
Presentamos SANA-WM, un modelo del mundo eficiente de código abierto con 2.6 mil millones de parámetros, entrenado de forma nativa para la generación de un minuto, capaz de sintetizar videos de alta fidelidad en 720p y duración de un minuto con control preciso de cámara. SANA-WM alcanza una calidad visual comparable a la de referencias industriales a gran escala como LingBot-World y HY-WorldPlay, mejorando significativamente la eficiencia. Cuatro diseños centrales impulsan nuestra arquitectura: (1) Atención Lineal Híbrida, que combina Gated DeltaNet (GDN) por fotograma con atención softmax para el modelado eficiente de contextos largos en términos de memoria. (2) Control de Cámara de Doble Ramal, que asegura una adherencia precisa a la trayectoria de 6 grados de libertad (6-GDL). (3) Pipeline de Generación en Dos Etapas, que aplica un refinador de video largo a las salidas de la primera etapa, mejorando la calidad y la consistencia a lo largo de las secuencias. (4) Pipeline de Anotación Robusta, que extrae poses de cámara precisas a escala métrica de 6-GDL a partir de videos públicos para generar etiquetas de acción de alta calidad, espaciotemporalmente consistentes. Impulsado por estos diseños, SANA-WM demuestra una eficiencia notable en datos, cómputo de entrenamiento y hardware de inferencia: utiliza solo aproximadamente 213 mil clips de video públicos con supervisión de pose a escala métrica, completa el entrenamiento en 15 días en 64 H100, y genera cada clip de 60 segundos en una sola GPU; su variante destilada puede implementarse en una sola RTX 5090 con cuantificación NVFP4 para eliminar el ruido de un clip de 720p de 60 segundos en 34 segundos. En nuestro punto de referencia de modelos del mundo de un minuto, SANA-WM demuestra una precisión de seguimiento de acciones superior a la de los competidores de código abierto previos y alcanza una calidad visual comparable con un rendimiento 36 veces mayor para un modelado del mundo escalable.
La memoria a largo plazo de los agentes es cada vez más multimodal, pero las evaluaciones existentes rara vez comprueban si los agentes preservan la evidencia visual necesaria para el razonamiento posterior. En trabajos previos, muchas preguntas basadas en información visual pueden responderse utilizando solo descripciones o trazas textuales, lo que permite inferir respuestas sin necesidad de conservar la evidencia visual detallada. Mientras tanto, los casos más difíciles que requieren razonar sobre estados visuales cambiantes son prácticamente inexistentes. Por ello, presentamos MemEye, un marco que evalúa las capacidades de memoria desde dos dimensiones: una mide la granularidad de la evidencia visual decisiva (desde evidencia a nivel de escena hasta evidencia a nivel de píxel), y la otra mide cómo debe utilizarse la evidencia recuperada (desde evidencia única hasta síntesis evolutiva). Bajo este marco, construimos un nuevo conjunto de referencia en 8 tareas de escenarios cotidianos, con compuertas de validación impulsadas por ablación para evaluar la capacidad de respuesta, la resistencia a atajos, la necesidad visual y la estructura de razonamiento. Mediante la evaluación de 13 métodos de memoria en 4 modelos base de VLM, demostramos que las arquitecturas actuales aún tienen dificultades para preservar detalles visuales finos y razonar sobre cambios de estado a lo largo del tiempo. Nuestros hallazgos indican que la memoria multimodal a largo plazo depende del enrutamiento de la evidencia, el seguimiento temporal y la extracción de detalles.
Presentamos Darwin Family, un marco para la fusión evolutiva sin entrenamiento de modelos de lenguaje grandes mediante recombinación en el espacio de pesos sin gradientes. Preguntamos si el rendimiento de razonamiento de vanguardia puede mejorarse sin entrenamiento adicional, reorganizando capacidades latentes ya codificadas en puntos de control existentes. Darwin introduce tres ideas clave: (i) un genoma de fusión adaptativo de 14 dimensiones que permite una recombinación detallada a nivel de componentes y bloques; (ii) Fusión MRI-Trust, que equilibra adaptativamente señales de importancia de capa diagnóstica con búsqueda evolutiva mediante un parámetro de confianza aprendible; y (iii) un Mapeador de Arquitecturas que posibilita el cruce entre arquitecturas de familias de modelos heterogéneas. Empíricamente, el modelo insignia Darwin-27B-Opus alcanza un 86.9% en GPQA Diamond, ocupando el puesto n.º 6 entre 1.252 modelos evaluados, y supera a su modelo fundacional completamente entrenado sin ningún entrenamiento basado en gradientes. En escalas desde 4B hasta 35B parámetros, los modelos Darwin mejoran consistentemente respecto a sus padres, admiten evolución recursiva multigeneracional y permiten una fusión evolutiva sin entrenamiento que combina componentes basados en Transformer y Mamba. En conjunto, la Familia Darwin demuestra que la fusión evolutiva guiada por diagnóstico es una alternativa práctica y reproducible a los costosos procesos posteriores al entrenamiento para modelos de lenguaje centrados en razonamiento.
Los agentes autónomos basados en LLM han demostrado capacidades sólidas en razonamiento, planificación y uso de herramientas, pero aún son limitados cuando las tareas requieren una coordinación sostenida entre roles, herramientas y entornos. Los sistemas multiagente abordan esto mediante una colaboración estructurada entre agentes especializados, pero una coordinación más estrecha también amplifica un riesgo menos explorado: los errores pueden propagarse entre agentes y rondas de interacción, generando fallos difíciles de diagnosticar y que rara vez se traducen en una automejora estructural. Las revisiones existentes cubren por separado las capacidades individuales de los agentes, la colaboración multiagente o la autoevolución de los agentes, dejando sin examinar las dependencias causales entre ellas. Esta revisión proporciona un análisis unificado organizado en torno a cuatro etapas vinculadas causalmente, que denominamos la progresión LIFE: Establecer la base de capacidades, Integrar agentes mediante colaboración, Encontrar fallas mediante atribución y Evolucionar mediante automejora autónoma. Para cada etapa, proporcionamos taxonomías sistemáticas y caracterizamos formalmente las dependencias entre etapas adyacentes, revelando cómo cada etapa depende y a la vez condiciona la siguiente. Más allá de sintetizar el trabajo existente, identificamos desafíos abiertos en los límites entre etapas y proponemos una agenda de investigación transversal para sistemas multiagente de bucle cerrado, capaces de diagnosticar fallos de forma continua, reorganizar estructuras y refinar comportamientos de los agentes, extendiendo los marcos de coordinación actuales hacia formas más autoorganizadas de inteligencia colectiva. Al unir estos hilos de investigación previamente fragmentados, esta revisión pretende ofrecer tanto una referencia sistemática como una hoja de ruta conceptual hacia una inteligencia multiagente autónoma y en mejora continua.
Los agentes de modelos de lenguaje de gran escala (LLM) son cada vez más requeridos para mantener una memoria personalizada coherente y a largo plazo. Sin embargo, los referentes actuales se centran principalmente en la recuperación estática de hechos, pasando por alto la capacidad de revisar creencias almacenadas cuando surge nueva evidencia. Identificamos un modo de fallo crítico y poco explorado, el Conflicto Implícito: una observación posterior invalida un recuerdo anterior sin negación explícita, lo que requiere inferencia contextual y razonamiento de sentido común para detectarlo. Para evaluar rigurosamente esta capacidad, presentamos STALE, un referente de 400 escenarios de conflicto validados por expertos (1.200 consultas de evaluación en tres dimensiones de análisis) que abarca más de 100 temas cotidianos con contextos de hasta 150 000 tokens. Proponemos un marco de análisis tridimensional que evalúa la Resolución de Estado (detectar que una creencia previa está desactualizada), la Resistencia a Premisas (rechazar consultas que presuponen falsamente un estado obsoleto) y la Adaptación Implícita de Políticas (aplicar proactivamente estados actualizados en el comportamiento descendente). Una evaluación sistemática de LLMs de frontera y marcos de memoria especializados revela una brecha generalizada entre recuperar evidencia actualizada y actuar en consecuencia; incluso el mejor modelo evaluado alcanza solo un 55,2% de precisión global. Los modelos suelen aceptar suposiciones obsoletas implícitas en la consulta del usuario y tienen dificultades para reconocer cuándo un cambio en un aspecto del estado del usuario debe invalidar recuerdos relacionados. Para establecer una línea base inicial para una memoria consciente del estado, presentamos además CUPMem, un prototipo que fortalece la revisión en el momento de la escritura mediante una consolidación estructurada del estado y una búsqueda con propagación, lo que sugiere que la adjudicación explícita de estados es una dirección prometedora para una memoria de agente robusta.
Los modelos de lenguaje grandes y los modelos de lenguaje-visión impulsan cada vez más agentes que actúan en nombre de un usuario a través de entornos de interfaz de línea de comandos (CLI). Sin embargo, la mayoría de los puntos de referencia para agentes aún dependen de entornos sintéticos aislados, tareas de horizonte corto, API de servicios simulados y verificaciones de respuesta final, dejando abierta la cuestión de si los agentes pueden completar tareas realistas de horizonte largo en los entornos de ejecución donde se implementan. Este trabajo presenta WildClawBench, un punto de referencia en entorno de ejecución nativo que consta de 60 tareas bilingües, multimodales y redactadas por humanos, distribuidas en seis categorías temáticas. Cada tarea requiere en promedio aproximadamente 8 minutos de tiempo real y más de 20 llamadas a herramientas, y se ejecuta dentro de un contenedor Docker reproducible que aloja un entorno de agente CLI real (OpenClaw, Claude Code, Codex o Hermes Agent) con acceso a herramientas reales en lugar de servicios simulados. La evaluación es híbrida, combinando comprobaciones deterministas basadas en reglas, auditoría del estado del entorno para efectos secundarios y un juez LLM/VLM para verificación semántica. Entre 19 modelos de frontera, el mejor, Claude Opus 4.7, alcanza solo un 62.2% global bajo OpenClaw, mientras que todos los demás modelos se mantienen por debajo del 60%, y el simple cambio de entorno hace que un mismo modelo varíe hasta en 18 puntos. Estos resultados muestran que la evaluación de agentes en entorno de ejecución nativo con horizonte largo sigue siendo una tarea lejos de estar resuelta para los modelos de frontera actuales. Publicamos las tareas, el código y las herramientas contenerizadas para respaldar una evaluación reproducible.
La generación de video controlada por cámara ha logrado avances sustanciales, permitiendo que los videos generados sigan trayectorias de punto de vista prescritas. Sin embargo, los métodos existentes suelen aprender condicionamientos específicos de la cámara mediante codificadores de cámara, ramas de control o modificaciones en la codificación posicional y de atención, lo que a menudo requiere un posentrenamiento en videos anotados con cámara a gran escala. Las alternativas sin entrenamiento evitan dicho posentrenamiento, pero con frecuencia trasladan el costo a una optimización en tiempo de prueba o a una guía adicional durante la eliminación de ruido. Proponemos Warp-as-History, una interfaz simple que convierte las deformaciones inducidas por la cámara en una pseudo-historia deformada por cámara, con alineación posicional del fotograma objetivo y selección de tokens visibles. Dada una trayectoria de cámara objetivo, construimos una pseudo-historia deformada por cámara a partir de observaciones pasadas y la alimentamos a través de la vía de historia visual del modelo. De manera crucial, alineamos su codificación posicional con los fotogramas objetivo que se están denoising y eliminamos los tokens de la historia deformada que carecen de observaciones fuente válidas. Sin ningún entrenamiento, modificación arquitectónica ni optimización en tiempo de prueba, esta interfaz revela una capacidad no trivial de cero disparos de un modelo de generación de video congelado para seguir trayectorias de cámara. Además, un ajuste fino LoRA ligero fuera de línea, realizado en un solo video anotado con cámara, mejora aún más esta capacidad y se generaliza a videos no vistos, mejorando la adherencia a la cámara, la calidad visual y las dinámicas de movimiento sin necesidad de optimización en tiempo de prueba ni adaptación al video objetivo. Experimentos exhaustivos en diversos conjuntos de datos confirman la efectividad de nuestro método.
A medida que el ecosistema de modelos de lenguaje grande (LLM) se expande, los modelos individuales muestran capacidades variables según las consultas, los puntos de referencia y los dominios, lo que motiva el desarrollo del enrutamiento de LLM. Si bien trabajos previos se han centrado principalmente en el diseño de mecanismos de enrutamiento, los perfiles de LLM, que capturan las capacidades del modelo, siguen estando poco explorados. En este trabajo, preguntamos: ¿cómo afecta el diseño del perfil de LLM al rendimiento del enrutamiento en diferentes enrutadores? Abordar esta pregunta ayuda a aclarar el papel de los perfiles en el enrutamiento, a separar el diseño de perfiles del diseño de enrutadores, y a permitir una comparación más justa y un desarrollo más fundamentado de los sistemas de enrutamiento. Con este fin, consideramos la creación de perfiles de LLM como un problema de integración de información estructurada sobre historiales de interacción heterogéneos. Desarrollamos un espacio de diseño general para perfiles de LLM, denominado RouteProfile, a lo largo de cuatro dimensiones clave: forma organizativa, tipo de representación, profundidad de agregación y configuración de aprendizaje. Mediante una evaluación sistemática en tres enrutadores representativos, tanto en configuraciones estándar como de generalización a nuevos LLM, demostramos que: (1) los perfiles estructurados superan consistentemente a los planos; (2) las señales a nivel de consulta son más fiables que las señales gruesas a nivel de dominio; y (3) la generalización a modelos recién introducidos se beneficia más de los perfiles estructurados bajo configuraciones entrenables. En general, nuestro trabajo destaca el diseño de perfiles de LLM como una dirección importante para la futura investigación en enrutamiento.
La memoria del agente se construye típicamente, ya sea fuera de línea a partir de demostraciones seleccionadas, o en línea a partir de interacciones posteriores al despliegue. Sin embargo, independientemente de cómo se construya, un agente enfrenta una brecha de inicio en frío cuando se introduce por primera vez en un nuevo entorno sin experiencia previa específica de la tarea disponible. En este artículo, estudiamos la construcción de memoria previa a la tarea: si un agente puede construir memoria procedimental antes de observar cualquier tarea del entorno objetivo, utilizando únicamente práctica sintética autogenerada. Sin embargo, la interacción sintética por sí sola es insuficiente, ya que sin controlar qué practicar y qué almacenar, las tareas sintéticas se vuelven redundantes, inviables y, en última instancia, poco informativas, y la memoria se degrada rápidamente debido a trayectorias no filtradas. Para superar esto, presentamos Preping, un marco de construcción de memoria guiado por un proponente. En su núcleo se encuentra la memoria del proponente, un estado de control estructurado que da forma a la práctica futura. Un Proponente genera tareas sintéticas condicionadas a este estado, un Solucionador las ejecuta, y un Validador determina qué trayectorias son elegibles para la inserción en la memoria, al mismo tiempo que proporciona retroalimentación para guiar futuras propuestas. Experimentos en AppWorld, BFCL v3 y MCP-Universe muestran que Preping mejora sustancialmente en comparación con una línea base sin memoria y logra un rendimiento competitivo con métodos sólidos basados en manuales de jugadas construidos a partir de experiencia fuera de línea o en línea, con un costo de despliegue 2.99 veces menor en AppWorld y 2.23 veces menor en BFCL v3 en comparación con la construcción de memoria en línea. Análisis adicionales revelan que el principal beneficio no proviene únicamente del volumen sintético, sino del control por parte del proponente sobre la viabilidad, la redundancia y la cobertura, combinado con actualizaciones selectivas de la memoria.
La memoria a largo plazo es esencial para los agentes LLM que operan a través de múltiples sesiones; sin embargo, los sistemas de memoria existentes tratan la infraestructura de recuperación como fija: el contenido almacenado evoluciona, mientras que las funciones de puntuación, las estrategias de fusión y las políticas de generación de respuestas permanecen inalterables desde el despliegue. Sostenemos que una memoria verdaderamente adaptativa requiere coevolución en dos niveles: el conocimiento almacenado y el mecanismo de recuperación que lo consulta. Presentamos EvolveMem, una arquitectura de memoria autoevolutiva que expone su configuración de recuperación completa como un espacio de acción estructurado optimizado por un módulo de diagnóstico impulsado por LLM. En cada ronda de evolución, el módulo lee los registros de fallos por pregunta, identifica las causas raíz y propone ajustes de configuración dirigidos; un meta-analizador con protección los aplica con salvaguardas automáticas de reversión ante regresión y exploración ante estancamiento. Esta autoevolución en bucle cerrado materializa un proceso AutoResearch: el sistema realiza de forma autónoma ciclos de investigación iterativos sobre su propia arquitectura, reemplazando el ajuste manual de configuración. Partiendo de una línea base mínima, el proceso converge de forma autónoma, descubriendo estrategias de recuperación eficaces que incluyen dimensiones de configuración completamente nuevas, no presentes en el espacio de acción original. En LoCoMo, EvolveMem supera a la línea base más fuerte en un 25,7% relativo y logra una mejora relativa del 78,0% sobre la línea base mínima. En MemBench, EvolveMem supera a la línea base más fuerte en un 18,9% relativo. Las configuraciones evolucionadas se transfieren entre conjuntos de datos de referencia con transferencia positiva, no catastrófica, lo que indica que el proceso de autoevolución captura principios universales de recuperación, en lugar de heurísticas específicas de cada conjunto. El código está disponible en https://github.com/aiming-lab/SimpleMem.
A menudo buscamos generar imágenes que sean tanto fotorrealistas como consistentes en 3D, adhiriéndose a controles precisos de geometría, material y punto de vista. Normalmente, esto se logra ajustando un generador de imágenes, preentrenado con miles de millones de imágenes reales, utilizando representaciones de activos sintéticos en 3D, donde las anotaciones para las señales de control están disponibles. Si bien este enfoque puede aprender los controles deseados, a menudo compromete el realismo de las imágenes debido a la brecha de dominio entre las fotografías y las representaciones. Observamos que este problema surge en gran medida porque el modelo aprende una asociación no deseada entre la presencia de señales de control y la apariencia sintética de las imágenes. Para abordar esto, presentamos Realiz3D, un marco ligero para entrenar modelos de difusión que desacopla los controles y el dominio visual. La idea clave es aprender explícitamente el dominio visual, real o sintético, por separado de otras señales de control mediante la introducción de una covariable que, al ser alimentada a pequeños adaptadores residuales, desplaza el dominio. Así, el generador puede entrenarse para ganar controlabilidad sin ajustarse a un dominio visual específico. De esta manera, el modelo puede ser guiado para producir imágenes realistas incluso cuando se aplican controles. Mejoramos la transferibilidad del control al dominio real aprovechando conocimientos sobre los roles de diferentes capas y pasos de eliminación de ruido en los generadores basados en difusión, lo que informa nuevas estrategias de entrenamiento e inferencia que mitigan aún más la brecha. Demostramos las ventajas de Realiz3D en tareas como la generación de múltiples vistas a partir de texto y el texturizado a partir de entradas 3D, produciendo resultados que son consistentes en 3D y fotorrealistas.
El razonamiento visual, a menudo intercalado con estados visuales intermedios, ha surgido como una dirección prometedora en el campo. Un enfoque directo consiste en generar imágenes directamente mediante modelos unificados durante el razonamiento, pero esto resulta costoso desde el punto de vista computacional y no trivial a nivel arquitectónico. Alternativas recientes incluyen el razonamiento agentivo a través de código o llamadas a herramientas, y el razonamiento latente con representaciones ocultas aprendibles. Sin embargo, los métodos agentivos incurren en latencia de cambio de contexto debido a la ejecución externa, mientras que los métodos latentes carecen de generalización de tareas y son difíciles de entrenar con paralelización autoregresiva. Para combinar sus fortalezas y mitigar sus limitaciones, proponemos ATLAS, un marco en el que una única 'palabra' discreta, denominada token funcional, sirve tanto como operación agentiva como unidad de razonamiento visual latente. Cada token funcional está asociado a una operación visual internalizada, pero no requiere supervisión visual y sigue siendo un token estándar en el vocabulario del tokenizador, que puede generarse mediante predicción del siguiente token. Este diseño evita la generación verbosa de contenido visual intermedio, al tiempo que preserva la compatibilidad con el entrenamiento escalable estándar de SFT y RL, sin modificaciones arquitectónicas o metodológicas. Para abordar además la escasez de tokens funcionales durante el RL, introducimos GRPO Anclado en Latentes (LA-GRPO), que estabiliza el entrenamiento anclando los tokens funcionales con un objetivo auxiliar de ponderación estática, proporcionando actualizaciones de gradiente más sólidas. Experimentos y análisis exhaustivos demuestran que ATLAS logra un rendimiento superior en puntos de referencia desafiantes, manteniendo una clara interpretabilidad. Esperamos que ATLAS ofrezca un nuevo paradigma que inspire futuras investigaciones en razonamiento visual.
La búsqueda de caminos multiagente (MAPF, por sus siglas en inglés) es una abstracción ampliamente utilizada para problemas de planificación de trayectorias multi-robot, donde múltiples agentes homogéneos se mueven simultáneamente en un entorno compartido. Aunque resolver MAPF de manera óptima es NP-difícil, contar con solucionadores escalables y eficientes es fundamental para aplicaciones del mundo real como la logística y la búsqueda y rescate. Con este fin, la comunidad investigadora ha propuesto diversos solucionadores MAPF subóptimos descentralizados que aprovechan el aprendizaje automático. Dichos métodos formulan MAPF (desde la perspectiva de un solo agente) como un Proceso de Decisión de Markov Parcialmente Observable Descentralizado (Dec-POMDP), donde en cada paso temporal un agente debe decidir una acción basándose en la observación local y, típicamente, resuelven el problema mediante aprendizaje por refuerzo o aprendizaje por imitación. Seguimos el mismo enfoque, pero además introducimos un módulo de comunicación aprendible diseñado para mejorar la cooperación entre agentes mediante un intercambio eficiente de características. Presentamos el módulo de Comunicación Local para Búsqueda de Caminos Multiagente (LC-MAPF), un modelo preentrenado generalizable que aplica comunicación multi-ronda entre agentes vecinos para intercambiar información y mejorar su coordinación. Nuestros experimentos muestran que el método introducido supera a los solucionadores MAPF existentes basados en aprendizaje, incluyendo enfoques basados en aprendizaje por imitación y aprendizaje por refuerzo, en diversas métricas dentro de un amplio rango de escenarios de prueba (no vistos). Notablemente, el mecanismo de comunicación introducido no compromete la escalabilidad de LC-MAPF, un cuello de botella común en los solucionadores MAPF basados en comunicación.
Muchos desafíos de codificación del mundo real son de carácter abierto y no admiten una solución óptima conocida. Sin embargo, los avances recientes en la codificación con LLM se han centrado en tareas bien definidas como la implementación de características, la corrección de errores y la programación competitiva. La codificación abierta sigue siendo un punto débil para los LLM, en gran medida porque los problemas abiertos de entrenamiento son escasos y costosos de construir. Nuestro objetivo es sintetizar problemas de codificación abiertos a gran escala para entrenar codificadores LLM más robustos. Presentamos FrontierSmith, un sistema automatizado que evoluciona iterativamente problemas abiertos a partir de tareas cerradas de codificación existentes. Partiendo de problemas de programación competitiva, FrontierSmith genera variantes abiertas candidatas modificando los objetivos de los problemas, restringiendo las salidas y generalizando las entradas. Luego utiliza una métrica cuantitativa de divergencia de ideas para seleccionar problemas que induzcan enfoques genuinamente diversos por parte de diferentes solucionadores. Los agentes generan entonces casos de prueba y verificadores para los candidatos supervivientes. En dos puntos de referencia de codificación abierta, el entrenamiento con nuestros datos sintéticos produce mejoras sustanciales con respecto a los modelos base: Qwen3.5-9B mejora en +8.82 puntos en FrontierCS y +306.36 (rendimiento basado en puntuación Elo) en ALE-bench; Qwen3.5-27B mejora en +12.12 y +309.12, respectivamente. Los problemas sintetizados también hacen que los agentes tomen más turnos y usen más tokens, de manera similar a los problemas curados por humanos, lo que sugiere que las semillas cerradas pueden ser un punto de partida práctico para datos de codificación de horizonte largo.
El entrenamiento de transformadores causales en longitudes de secuencia extremas está limitado por el tiempo y la memoria cuadráticos de la atención de producto punto escalado (SDPA). En este trabajo, proponemos la Atención Faro, un algoritmo de atención jerárquica basado en selección simétrica exclusivo para entrenamiento que envuelve al SDPA ordinario y puede eliminarse fácilmente hacia el final del entrenamiento. Nuestra selección jerárquica también es libre de gradiente, lo que nos exime de tener que lidiar con un kernel de paso hacia atrás complicado y potencialmente ineficiente. Nuestra contribución es triple: (i) Un paso de preprocesamiento y posprocesamiento jerárquico subcuadrático que realiza compresión y descompresión adaptativa de la secuencia. (ii) Una estrategia de compresión simétrica que agrupa consultas, claves y valores al mismo tiempo, preservando la causalidad de izquierda a derecha, lo que mejora enormemente el paralelismo. (iii) Un enfoque de entrenamiento en dos etapas en el que preentrenamos durante la mayor parte del tiempo con Atención Faro y recuperamos un modelo de atención completa al final con un entrenamiento corto. Realizamos experimentos preliminares de preentrenamiento de LLM a pequeña escala que muestran la efectividad de nuestro método en comparación con el entrenamiento de atención completa con todas las demás configuraciones igualadas, donde logramos un tiempo total de entrenamiento más rápido y una pérdida final más baja después de la fase de recuperación. El código completo está disponible en: https://github.com/ighoshsubho/lighthouse-attention
Los datos de imitación robótica suelen ser multimodales: observaciones similares de lenguaje visual pueden ser seguidas por diferentes segmentos de acción porque los demostradores humanos actúan con distintas intenciones de corto horizonte, fases de tarea o contexto reciente. Las políticas VLA existentes condicionadas por el fotograma actual infieren cada segmento únicamente a partir de la observación actual y la instrucción, por lo que, bajo observabilidad parcial, pueden remuestrear diferentes intenciones entre pasos de replanificación adyacentes, lo que genera conflictos entre segmentos y una ejecución inestable. Presentamos IntentVLA, un marco VLA condicionado por el historial que codifica observaciones visuales recientes en una representación compacta de intención de corto horizonte y la utiliza para condicionar la generación de segmentos. Además, introducimos AliasBench, un banco de pruebas con 12 tareas consciente de la ambigüedad en RoboTwin2, con datos de entrenamiento y entornos de evaluación emparejados que aíslan el aliasing de observación de corto horizonte. En AliasBench, SimplerEnv, LIBERO y RoboCasa, IntentVLA mejora la estabilidad de ejecución y supera a las líneas base VLA sólidas.
El aprendizaje por refuerzo se ha convertido en una herramienta poderosa para mejorar los modelos de difusión de texto a imagen, pero los métodos existentes se limitan en gran medida a la optimización de una sola tarea. Extender el RL a múltiples tareas es un desafío: la optimización conjunta sufre de interferencia entre tareas y desequilibrio, mientras que el RL en cascada es engorroso y propenso al olvido catastrófico. Proponemos DiffusionOPD, un nuevo paradigma de entrenamiento multitarea para modelos de difusión basado en Destilación de Políticas en Línea (OPD, por sus siglas en inglés). DiffusionOPD primero entrena profesores específicos por tarea de forma independiente y luego destila sus capacidades en un estudiante unificado a lo largo de las trayectorias de simulación propias del estudiante. Esto desacopla la exploración de tarea única de la integración multitarea y evita la carga de optimización de resolver todas las tareas conjuntamente desde cero. Teóricamente, extendemos el marco OPD de tokens discretos a procesos de Markov de estado continuo, derivando un objetivo KL por paso de forma cerrada que unifica tanto el refinamiento mediante SDE estocástico como mediante EDO determinista a través de la coincidencia de medias. Demostramos formal y empíricamente que este gradiente analítico proporciona menor varianza y mejor generalidad en comparación con los gradientes de política estilo PPO convencionales. Experimentos exhaustivos muestran que DiffusionOPD supera consistentemente tanto las líneas base de RL de recompensa múltiple como las de RL en cascada en eficiencia de entrenamiento y rendimiento final, logrando resultados de última generación en todos los puntos de referencia evaluados.
La reconstrucción de escenas 3D de alta calidad ha avanzado recientemente hacia arquitecturas de alimentación directa generalizables, lo que permite generar entornos complejos en un solo paso directo. Sin embargo, a pesar de su sólido rendimiento en la percepción de escenas estáticas, estos modelos siguen siendo limitados para responder a instrucciones humanas dinámicas, lo que restringe su uso en aplicaciones interactivas. Los métodos de edición existentes suelen basarse en una estrategia de elevación 2D, donde las vistas individuales se editan de forma independiente y luego se elevan de vuelta al espacio 3D. Este proceso indirecto a menudo genera texturas borrosas y geometría inconsistente, ya que los editores 2D carecen de la conciencia espacial necesaria para preservar la estructura entre diferentes puntos de vista. Para abordar estas limitaciones, proponemos VGGT-Edit, un marco de alimentación directa para la edición nativa de escenas 3D condicionada por texto. VGGT-Edit introduce una inyección de texto sincronizada con la profundidad para alinear la guía semántica con las posturas espaciales de la red principal, asegurando una base estable para las instrucciones. Esta señal semántica es procesada luego por un cabezal de transformación residual, que predice directamente desplazamientos geométricos 3D para deformar la escena mientras preserva la estabilidad del fondo. Para garantizar resultados de alta fidelidad, supervisamos el marco con una función objetivo de múltiples términos que refuerza la precisión geométrica y la consistencia entre vistas. También construimos el conjunto de datos DeltaScene, un conjunto de datos a gran escala generado mediante un proceso automatizado con filtrado de acuerdo 3D para asegurar la calidad de la verdad fundamental. Los experimentos muestran que VGGT-Edit supera significativamente a las líneas base de elevación 2D, produciendo detalles de objetos más nítidos, una consistencia multivista más sólida y una velocidad de inferencia casi instantánea.
El modelado agentivo busca transformar los LLM en agentes autónomos capaces de resolver tareas complejas mediante planificación, razonamiento, uso de herramientas e interacción multidialogo con entornos. A pesar de las grandes inversiones, la investigación abierta sigue limitada por deficiencias en infraestructura y formación. Muchos sistemas de alto rendimiento dependen de códigos propietarios, modelos o servicios, mientras que la mayoría de los marcos de código abierto se centran en la orquestación y evaluación, no en el entrenamiento escalable de agentes. Presentamos Orchard, un marco de código abierto para modelado agentivo escalable. Su núcleo es Orchard Env, un servicio de entorno ligero que proporciona primitivas reutilizables para la gestión del ciclo de vida de entornos aislados en distintos dominios de tareas, arneses de agente y etapas del pipeline. Sobre Orchard Env, construimos tres recetas de modelado agentivo. Orchard-SWE se enfoca en agentes de codificación. Destilamos 107K trayectorias de MiniMax-M2.5 y Qwen3.5-397B, introducimos SFT con asignación de crédito para aprender de segmentos productivos de trayectorias no resueltas, y aplicamos Despliegue Adaptativo Balanceado para RL. Partiendo de Qwen3-30B-A3B-Thinking, Orchard-SWE alcanza un 64.3% en SWE-bench Verified tras SFT y un 67.5% tras SFT+RL, estableciendo un nuevo estado del arte entre modelos de código abierto de tamaño comparable. Orchard-GUI entrena un agente de uso de ordenador de 4B basado en visión y lenguaje utilizando solo 0.4K trayectorias destiladas y 2.2K tareas abiertas. Logra tasas de éxito del 74.1%, 67.0% y 64.0% en WebVoyager, Online-Mind2Web y DeepShop, respectivamente, convirtiéndose en el modelo de código abierto más potente y manteniéndose competitivo con sistemas propietarios. Orchard-Claw se dirige a agentes asistentes personales. Entrenado con solo 0.2K tareas sintéticas, alcanza un 59.6% de pass@3 en Claw-Eval y un 73.9% cuando se combina con un arnés ZeroClaw más potente. En conjunto, estos resultados muestran que una capa de entorno ligera, abierta e independiente del arnés permite datos, recetas de entrenamiento y evaluaciones agentivas reutilizables en distintos dominios.
Cualquier nuevo medio, una vez que surge, se utiliza para algo más que la mera transmisión de contenido explícito. La información que transporta suele operar en dos niveles: uno es el contenido presentado directamente, mientras que el otro es el subtexto subyacente —las ideas e intenciones implícitas que el creador busca transmitir a través del medio. Del mismo modo, desde que las tecnologías de video se adoptaron ampliamente, el video no solo ha servido como una poderosa herramienta para registrar y comunicar información visual, sino también como un vehículo para emociones, actitudes y significados sociales que a menudo son difíciles de articular explícitamente. Por lo tanto, el verdadero significado de muchos videos no reside únicamente en lo que se muestra en la pantalla; a menudo está incrustado en el contexto, el estilo de expresión y la experiencia social del espectador. Algunas formas de este subtexto en video son humorísticas, mientras que otras conllevan ironía, burla o crítica. Estos significados implícitos también pueden interpretarse de manera muy diferente según los antecedentes culturales y los grupos sociales. Sin embargo, la mayoría de los modelos existentes de comprensión de video aún se centran principalmente en la comprensión visual literal, como reconocer objetos, acciones o relaciones temporales, y carecen de una capacidad sistemática para entender los significados metafóricos, irónicos y sociales incrustados en los videos. Para cerrar esta brecha, presentamos ViMU, el primer punto de referencia diseñado para evaluar sistemáticamente las capacidades de comprensión de subtexto de los modelos de frontera en videos. ViMU evalúa si los modelos de comprensión de video pueden ir más allá de la percepción literal para inferir significados implícitos, fundamentando sus interpretaciones en evidencia multimodal y respondiendo tanto a preguntas abiertas como de opción múltiple. Es importante destacar que todas las preguntas están diseñadas para ser sin pistas, lo que garantiza que no se revele evidencia clave a los modelos antes de responder.
Los modelos de difusión de video autorregresivos (AR) adoptan un marco de generación en streaming, lo que permite la generación de video de largo alcance con capacidad de respuesta en tiempo real, como ejemplifica el paradigma de entrenamiento Self Forcing. Sin embargo, los modelos AR de difusión de video existentes aún sufren una complejidad de atención significativa y un grave consumo de memoria debido a las cachés redundantes de clave-valor (KV) a través de los fotogramas históricos, lo que limita la escalabilidad. En este artículo abordamos este desafío introduciendo la compresión de la caché KV en la difusión de video autorregresiva. Observamos que las cabezas de atención en los modelos AR de difusión convencionales exhiben patrones de atención y roles funcionales marcadamente distintos que permanecen estables entre muestras y pasos de eliminación de ruido. Basándonos en nuestro estudio empírico de la especialización funcional por cabeza, dividimos las cabezas de atención en dos categorías: cabezas estáticas, que se centran en las transiciones entre bloques autorregresivos y en la fidelidad intra-fotograma, y cabezas dinámicas, que gobiernan el movimiento y la consistencia entre fotogramas. A continuación, proponemos Forcing-KV, una estrategia híbrida de compresión de la caché KV que realiza poda estática estructurada para las cabezas estáticas y poda dinámica basada en similitud por segmentos para las cabezas dinámicas. Manteniendo la calidad de salida, nuestro método alcanza una velocidad de generación de más de 29 fotogramas por segundo en una única GPU NVIDIA H200, junto con una reducción del 30% en la memoria de caché, logrando aceleraciones de hasta 1.35× y 1.50× en LongLive y Self Forcing a resolución 480P, y escalando hasta una aceleración de 2.82× a resolución 1080P. El código y los videos de demostración están disponibles en https://zju-jiyicheng.github.io/Forcing-KV-Page.
Avances recientes en la generación de imágenes han facilitado la producción de imágenes de alta calidad. Sin embargo, estos resultados son inherentemente planos, fusionando elementos del primer plano, fondo y texto dentro de un lienzo fijo. Como consecuencia, la edición flexible posterior a la generación sigue siendo un desafío, revelando una clara brecha de último kilómetro hacia la usabilidad práctica. Los enfoques existentes dependen de activos en capas patentados y escasos, o construyen datos parcialmente sintéticos a partir de priors estructurales limitados. Ambas estrategias enfrentan desafíos fundamentales en escalabilidad. En este trabajo, investigamos si los datos sintéticos puros en capas pueden mejorar la descomposición del diseño gráfico. Partimos del supuesto de que, en el diseño gráfico, una descomposición efectiva no requiere modelar las dependencias entre capas con tanta precisión como en la composición de imágenes naturales, ya que los elementos de diseño suelen estar dispuestos intencionalmente como componentes modulares y semánticamente separables. Concretamente, realizamos un estudio centrado en datos basado en la línea base CLD, un marco de descomposición de capas de última generación. Sobre esta línea base, construimos nuestro propio conjunto de datos sintéticos, SynLayers, generamos supervisión textual utilizando modelos de lenguaje visual, y automatizamos las entradas de inferencia con cajas delimitadoras predichas por VLM. Nuestro estudio revela tres hallazgos clave: (1) incluso entrenar únicamente con datos sintéticos puede superar alternativas no escalables como el conjunto de datos PrismLayersPro, ampliamente utilizado, demostrando su viabilidad como sustituto escalable y efectivo; (2) el rendimiento mejora consistentemente al aumentar la escala de los datos de entrenamiento, aunque las ganancias comienzan a saturarse alrededor de 50K muestras; y (3) los datos sintéticos permiten un control equilibrado sobre las distribuciones de recuento de capas, evitando el desequilibrio en el recuento de capas comúnmente observado en conjuntos de datos reales. Esperamos que este estudio centrado en datos fomente una adopción más amplia de datos sintéticos como base práctica para sistemas de edición de diseño en capas.
Los modelos de difusión de video autoregresivos causales permiten la generación en tiempo real en streaming al extrapolar fragmentos futuros a partir de contenido previamente generado. Destilar dichos generadores a partir de profesores bidireccionales de alta fidelidad produce modelos competitivos de pocos pasos; sin embargo, una brecha persistente entre las distribuciones del historial encontradas durante el entrenamiento y las que surgen en la inferencia limita la calidad de generación en horizontes largos. Presentamos la Red de Extrapolación de Video Autoregresiva en Tiempo Real (RAVEN), un marco de prueba en tiempo de entrenamiento que reorganiza cada auto-despliegue en una secuencia intercalada de puntos finales históricos limpios y estados de denoising ruidosos. Esta formulación alinea la atención del entrenamiento con la extrapolación en tiempo de inferencia y permite que las pérdidas de fragmentos posteriores supervisen las representaciones del historial de las que dependen las predicciones futuras. Además, proponemos la Optimización de Política Relativa de Grupo con Modelo de Consistencia (CM-GRPO), que reformula un paso de muestreo de consistencia como una transición Gaussiana condicional y aplica Aprendizaje por Refuerzo (RL) en línea directamente a este núcleo, evitando el proceso auxiliar de Euler-Maruyama adoptado en formulaciones previas de RL con modelos de flujo. Los experimentos demuestran que RAVEN supera las líneas base recientes de destilación de video causal en evaluaciones de calidad, semántica y grado dinámico, y que CM-GRPO proporciona mejoras adicionales cuando se combina con RAVEN.
Los modelos grandes multimodales de laboratorio (MLLMs, por sus siglas en inglés) aún presentan dificultades para la comprensión espacial bajo el paradigma dominante de imagen en perspectiva, el cual hereda el estrecho campo de visión propio de la percepción humana. Para tareas como navegación, búsqueda robótica y comprensión de escenas 3D, la detección panorámica de 360 grados ofrece una forma de supersensado al capturar todo el entorno circundante de una sola vez. Sin embargo, los flujos de trabajo existentes de MLLM suelen descomponer los panoramas en múltiples vistas en perspectiva, dejando en gran medida implícita la estructura esférica de la proyección equirrectangular (ERP). En este artículo, estudiamos la comprensión nativa de panorámicas, que requiere que un MLLM razone sobre un panorama ERP como un espacio continuo centrado en el observador. Para ello, primero definimos las capacidades clave para la comprensión nativa de panorámicas, incluyendo el anclaje semántico, la localización esférica, la transformación del sistema de referencia y el razonamiento espacial 3D con conciencia de profundidad. Luego, construimos un flujo de construcción de metadatos a gran escala que convierte panoramas ERP de fuentes mixtas en supervisión consciente de la geometría, fundamentada en lenguaje y con conciencia de profundidad, e instanciamos estas señales como datos de ajuste de instrucciones alineados con las capacidades. En el lado del modelo, presentamos PanoWorld con Atención Cruzada Espacial Esférica, que inyecta geometría esférica en el flujo visual. Además, construimos PanoSpace-Bench, un punto de referencia de diagnóstico para evaluar el razonamiento espacial nativo de ERP. Los experimentos muestran que PanoWorld supera sustancialmente a las líneas base tanto propietarias como de código abierto en los puntos de referencia PanoSpace-Bench, H* Bench y R2R-CE Val-Unseen. Estos resultados demuestran que un razonamiento panorámico robusto requiere supervisión nativa de panorámicas dedicada y adaptación del modelo consciente de la geometría. Todo el código fuente y los datos propuestos se publicarán abiertamente.
Los sistemas de memoria son fundamentales para que los agentes de juego de roles (RPA) mantengan consistencia a largo plazo. Sin embargo, los métodos de memoria existentes para RPA (por ejemplo, la elaboración de perfiles) dependen principalmente del resumen recurrente, cuya compresión inevitablemente descarta detalles importantes. Para abordar este problema, proponemos un marco de memoria basado en búsqueda llamado BOOKMARKS, que inicializa, mantiene y actualiza activamente piezas relevantes de marcadores para la tarea actual (por ejemplo, la actuación del personaje). Un marcador se estructura como la respuesta a una pregunta en un punto específico de la trama. Para cada tarea actual, BOOKMARKS selecciona marcadores existentes reutilizables o inicializa nuevos (al inicio de la trama) con preguntas útiles. Estos marcadores se sincronizan luego con el punto actual de la historia, actualizando sus respuestas en consecuencia, de modo que puedan reutilizarse eficientemente en futuras rondas de fundamentación. En comparación con el resumen recurrente, BOOKMARKS ofrece (1) fundamentación activa para capturar detalles específicos de la tarea y (2) actualización pasiva para evitar cálculos innecesarios. En la implementación, BOOKMARKS admite búsquedas de concepto, comportamiento y estado, cada una potenciada por un método eficiente de sincronización. BOOKMARKS supera significativamente a las líneas base de memoria de RPA en 85 personajes de 16 artefactos, demostrando la efectividad de la memoria basada en búsqueda para los RPA.
Perseguimos una visión de modelos de lenguaje auto-mejorantes en los que el modelo no se limita a generar problemas o trazas para imitar, sino que construye los entornos que lo entrenan. En el RL de razonamiento con cero datos, esto redefine la auto-mejora, pasando de un bucle de generación de datos a un bucle de construcción de entornos, donde cada artefacto es un objeto ejecutable reutilizable que muestrea instancias, calcula referencias y puntúa respuestas. Que esta visión sostenga la mejora depende de una única propiedad: los entornos deben exhibir una asimetría resolver-verificar estable; el modelo debe ser capaz de escribir un oráculo una vez que no pueda ejecutar de forma fiable en lenguaje natural sobre instancias nuevas. Esta asimetría adopta dos formas complementarias. Algunas tareas son algorítmicamente difíciles de razonar pero triviales como código: una programación dinámica o un recorrido de grafo, compilado una vez, produce un número ilimitado de instancias calibradas. Otras son intrínsecamente difíciles de resolver pero fáciles de verificar, como la suma de subconjuntos plantada o la satisfacción de restricciones. Ambas crean una brecha duradera entre proponer y resolver que la política no puede cerrar engañando al verificador, y es esta brecha la que mantiene la recompensa informativa a medida que el aprendiz mejora. Concretamos esta visión en EvoEnv, un método generador de política única y solucionador que sintetiza entornos Python a partir de diez semillas y los admite solo tras una validación por etapas, auto-revisión semántica, calibración de dificultad relativa al solucionador y comprobaciones de novedad. La evidencia más sólida proviene del régimen ya fuerte: en Qwen3-4B-Thinking, el RLVR con datos públicos fijos y el RLVR con entornos artesanales fijos reducen el promedio, mientras que EvoEnv lo mejora del 72,4 al 74,8, una ganancia relativa del 3,3 %. La auto-mejora estable, sugerimos, no depende de producir más datos sintéticos, sino de que los modelos aprendan a construir mundos cuya dificultad permanezca estructuralmente fuera de su propio alcance.
Generar movimiento humano realista es un desafío central pero no resuelto en la generación de video. Si bien el post-entrenamiento basado en aprendizaje por refuerzo (RL) ha impulsado avances recientes en la calidad general del video, extenderlo al movimiento humano sigue estando limitado por una señal de recompensa que no puede evaluar de manera confiable el realismo del movimiento. Las recompensas de video existentes se basan principalmente en señales perceptuales 2D, sin modelar explícitamente el estado corporal 3D, el contacto y la dinámica subyacentes al movimiento humano articulado, y a menudo asignan puntuaciones altas a videos con cuerpos flotantes o movimientos físicamente implausibles. Para abordar esto, proponemos PhyMotion, una recompensa de movimiento estructurada y detallada que fundamenta las trayectorias humanas 3D recuperadas en un simulador físico y evalúa la calidad del movimiento a lo largo de múltiples dimensiones de factibilidad física. En concreto, recuperamos mallas corporales SMPL de videos generados, las reorientamos a un humanoide en el simulador físico MuJoCo y evaluamos el movimiento resultante a lo largo de tres ejes: plausibilidad cinemática, consistencia de contacto y equilibrio, y factibilidad dinámica. Cada componente proporciona una señal continua e interpretable vinculada a un aspecto específico de la calidad del movimiento, lo que permite que la recompensa capte qué aspectos del movimiento son físicamente correctos o violados. Los experimentos muestran que PhyMotion logra una correlación más fuerte con los juicios humanos que las formulaciones de recompensa existentes. Estas ganancias se trasladan al post-entrenamiento basado en RL, donde optimizar PhyMotion conduce a mejoras más grandes y consistentes que optimizar las recompensas existentes, mejorando el realismo del movimiento tanto en generadores de video autorregresivos como bidireccionales bajo métricas automáticas y evaluación humana ciega (+68 de ganancia Elo). Los análisis de ablación muestran que los tres ejes proporcionan señales de supervisión complementarias, mientras que la recompensa preserva la calidad general de generación de video con solo una sobrecarga de entrenamiento modesta.
La auto-destilación on-policy se ha convertido en una receta poderosa para el razonamiento en LLM, donde un profesor privilegiado supervisa los propios rollouts del estudiante mientras condiciona la solución de referencia. Sin embargo, una elección de diseño compartida por casi todos estos métodos ha permanecido incuestionada: el profesor siempre ve el razonamiento de referencia completo. Sostenemos que esta omisión en sí misma es parte del problema e identificamos un desajuste de exposición del lado del profesor: cuando el profesor condiciona un razonamiento que excede con creces la competencia actual del estudiante, los objetivos de token resultantes se vuelven demasiado fuertes para ser absorbidos. Un barrido controlado de exposición fija hace esto concreto en dos frentes: 1) la exposición completa no es consistentemente la mejor opción, y 2) el desajuste estudiante-profesor crece monótonamente a medida que el profesor ve más razonamiento privilegiado. Esto motiva tratar la exposición del profesor no como un hiperparámetro fijo, sino como una variable de control aprendible durante el entrenamiento. Por lo tanto, proponemos Exposición Adaptativa del Profesor para Auto-Destilación (ATESD). ATESD modela la proporción de revelación con un controlador de política Beta ligero condicionado a estadísticas compactas del estado de entrenamiento, y utiliza una exposición muestreada para una ventana corta de actualizaciones del estudiante. Para que este controlador de exposición sea aprendible, lo optimizamos con una recompensa de progreso de aprendizaje descontada que puntúa cada decisión retenida según su efecto en la mejora futura del estudiante, en lugar de su cambio inmediato en la pérdida, abordando la asignación de crédito retardada inducida por la destilación on-policy. Los experimentos en AIME 24, AIME 25 y HMMT 25 con Qwen3-{1.7B, 4B, 8B} muestran que ATESD supera consistentemente a los modelos base competitivos de auto-destilación y RL, mejorando sobre OPSD en +0.95, +2.05 y +2.33 puntos Average@12 respectivamente, y estableciendo la exposición adaptativa del profesor como un nuevo eje efectivo para la auto-destilación de razonamiento.
El uso de modelos fundacionales multimodales para analizar imágenes de tablas constituye una aplicación de alto valor, aunque desafiante, en escenarios de consumo y empresariales. A pesar de su importancia, las evaluaciones actuales se basan en gran medida en tablas de texto estructurado o imágenes renderizadas limpias, dejando sin explorar la complejidad visual de las imágenes de tablas en entornos reales. Dichas imágenes presentan diseños variados y dominios diversos que exigen una percepción estructural sofisticada y un razonamiento numérico. Para subsanar esta brecha, presentamos WildTableBench, el primer punto de referencia de preguntas y respuestas para imágenes de tablas obtenidas de entornos reales. WildTableBench comprende 402 imágenes de tablas con alta densidad de información, recopiladas de foros en línea y sitios web de diversos dominios, junto con 928 preguntas anotadas y verificadas manualmente que abarcan 17 subtipos en cinco categorías. Evaluamos 21 modelos fundacionales multimodales de vanguardia, tanto propietarios como de código abierto, en este punto de referencia. Solo un modelo supera el 50% de precisión, mientras que los restantes oscilan entre el 4,1% y el 49,9%. Además, realizamos análisis diagnósticos para caracterizar los fallos de los modelos y revelamos debilidades persistentes en la percepción estructural y el razonamiento. Estos resultados y análisis proporcionan información útil sobre las capacidades actuales de los modelos y establecen a WildTableBench como un valioso punto de referencia de diagnóstico para la comprensión de imágenes de tablas.
La superresolución de texto (Text-SR) requiere más que una mera síntesis visualmente plausible de detalles: pequeños errores en la topología de los trazos pueden alterar la identidad de los caracteres y romper la legibilidad. Los métodos existentes mejoran la fidelidad del texto mediante prioridades más sólidas basadas en reconocimiento o generativas, pero aún enfrentan dos desafíos no resueltos bajo degradación severa: la condición de texto extraída de entradas de baja calidad puede ser en sí misma poco fiable, y una prioridad global plausible no determina por completo los límites finos de los trazos. Presentamos PRISM, un marco de Text-SR basado en difusión de un solo paso que aborda estos dos desafíos mediante la Rectificación de Prioridad por Flujo Matching (FMPR) y un Codificador de Residuos Consciente de Incertidumbre Guiado por Estructura (SURE). FMPR construye una prioridad privilegiada en tiempo de entrenamiento a partir de latentes emparejados de baja y alta calidad, y aprende un flujo matching que transporta las incrustaciones degradadas hacia ese espacio de prioridad orientado a la restauración, proporcionando una guía textual global más precisa y fiable. SURE predice además residuos estructurales conscientes de la incertidumbre para absorber selectivamente evidencia local fiable de contornos, suprimiendo al mismo tiempo las señales ambiguas de trazos. En conjunto, estos componentes permiten una rectificación explícita de la prioridad global y un refinamiento estructural local dentro de un único paso de restauración por difusión. Los experimentos en bases de referencia tanto sintéticas como del mundo real muestran que PRISM logra un rendimiento de última generación con inferencia a nivel de milisegundos. Nuestro conjunto de datos y código estarán disponibles en https://github.com/faithxuz/PRISM.
En este artículo, estudiamos los operadores de solución de ecuaciones de campos físicos en mallas geométricas desde una perspectiva de espacios de funciones. Revelamos que la ortogonalidad de Hodge resuelve fundamentalmente la interferencia espectral al aislar los grados de libertad topológicos no aprendibles de las dinámicas geométricas aprendibles, permitiendo una aproximación aditiva confinada a subespacios que preservan la estructura. Basándonos en la teoría de Hodge y la descomposición de operadores, derivamos una descomposición a nivel de operadores con principios sólidos. El resultado es una arquitectura híbrida euleriana-lagrangiana con un sesgo inductivo a nivel algebraico que denominamos Dualidad Espectral de Hodge (HSD). En nuestro marco, utilizamos formas diferenciales discretas para capturar componentes dominados por la topología y un espacio ambiente auxiliar ortogonal para representar dinámicas locales complejas. Nuestro método logra una precisión y eficiencia superiores en grafos geométricos con una fidelidad mejorada a los invariantes físicos. Nuestro código está disponible en https://github.com/ContinuumCoder/Hodge-Spectral-Duality
El emparejamiento de flujo latente para generación de imágenes normalmente transporta ruido gaussiano a latentes de autoencoders variacionales a lo largo de trayectorias lineales. Sin embargo, ambos extremos se concentran en capas esféricas delgadas, y una cuerda euclidiana abandona dichas capas incluso cuando el preprocesamiento alinea sus radios. Al descomponer cada token latente en componentes radial y angular, demostramos mediante sondeos de intercambio de componentes que el contenido perceptual y semántico decodificado está transportado predominantemente por la dirección, mientras que el radio contribuye mucho menos. Por lo tanto, proyectamos los latentes de datos sobre un radio de token fijo, utilizamos la proyección radial del ruido gaussiano como prior esférico, ajustamos finamente el decodificador con el codificador congelado, y reemplazamos la interpolación lineal por interpolación lineal esférica. Las trayectorias geodésicas resultantes permanecen sobre la esfera en cada paso temporal, y sus objetivos de velocidad son puramente angulares por construcción. Bajo entrenamiento equiparado, el método mejora consistentemente el FID condicionado por clase en ImageNet-256 a través de diferentes tokenizadores de imágenes, mantiene inalterada la arquitectura de difusión, y no requiere codificador auxiliar ni objetivo de alineación de representaciones.
Evaluar ediciones de imágenes guiadas por instrucciones requiere recompensas que reflejen preferencias humanas sutiles, sin embargo, los modelos de recompensa actuales suelen depender de anotaciones de preferencia a gran escala y entrenamiento adicional de modelos. Esto crea una brecha de eficiencia de datos: los humanos a menudo pueden inferir los criterios de evaluación objetivo a partir de solo unos pocos ejemplos, mientras que los modelos se entrenan típicamente con cientos de miles de comparaciones. Presentamos RewardHarness, un marco de recompensa agentivo auto-evolutivo que replantea el modelado de recompensas como evolución del contexto, en lugar de optimización de pesos. En lugar de aprender de anotaciones a gran escala, RewardHarness se alinea con las preferencias humanas evolucionando iterativamente una biblioteca de herramientas y habilidades a partir de tan solo 100 demostraciones de preferencia. Dada una imagen fuente, imágenes editadas candidatas y una instrucción de edición, un Orquestador selecciona el subconjunto de herramientas y habilidades más relevante de la biblioteca mantenida, y un Subagente congelado las utiliza para construir una cadena de razonamiento que produce un juicio de preferencia. Al comparar los juicios predichos con las preferencias reales y analizar los éxitos y fracasos en el proceso de razonamiento, el Orquestador refina automáticamente su biblioteca de herramientas y habilidades sin necesidad de anotaciones humanas adicionales. Utilizando solo el 0,05% de los datos de preferencia de EditReward, RewardHarness alcanza un 47,4% de precisión promedio en puntos de referencia de evaluación de edición de imágenes, superando a GPT-5 en 5,3 puntos. Cuando se utiliza como señal de recompensa para el ajuste fino con GRPO, los modelos ajustados con RL obtienen un 3,52 en ImgEdit-Bench. Página del proyecto: https://rewardharness.com.
Los agentes de IA se están implementando cada vez más en entornos dinámicos y abiertos que requieren adaptarse a nueva información a medida que llega. Para medir eficientemente esta capacidad en casos de uso realistas, proponemos construir simulaciones fundamentadas que reproduzcan eventos del mundo real en el orden en que ocurrieron. Construimos FutureSim, donde los agentes pronostican eventos mundiales más allá de su corte de conocimiento mientras interactúan con una reproducción cronológica del mundo: artículos de noticias reales que llegan y preguntas que se resuelven durante el período simulado. Evaluamos a los agentes de frontera en su entorno nativo, probando su capacidad para predecir eventos mundiales durante un período de tres meses, de enero a marzo de 2026. FutureSim revela una clara separación en sus capacidades, con una precisión del 25% para el mejor agente, y muchos obtienen una puntuación de habilidad de Brier peor que no hacer ninguna predicción. Mediante ablaciones cuidadosas, mostramos cómo FutureSim ofrece un entorno realista para estudiar líneas de investigación emergentes como la adaptación en tiempo de prueba a largo plazo, la búsqueda, la memoria y el razonamiento sobre la incertidumbre. En general, esperamos que nuestro diseño de referencia allane el camino para medir el progreso de la IA en la adaptación abierta que abarca horizontes temporales largos en el mundo real.
Generar una escena 3D a nivel de calle a partir de una única imagen satelital es una tarea crucial pero desafiante. Los métodos actuales presentan un marcado compromiso: los modelos de geometría-colorización logran una alta fidelidad geométrica, pero suelen centrarse en edificios y carecen de diversidad semántica. En contraste, los modelos basados en proxies emplean marcos de imagen a 3D de avance directo para generar escenas holísticas aprendiendo conjuntamente geometría y textura, un proceso que produce contenido rico pero geometría gruesa e inestable. Atribuimos estos fallos geométricos a la extrema brecha de punto de vista y a la supervisión escasa e inconsistente inherente a los datos de satélite a calle. Introducimos Sat3DGen para abordar estos desafíos fundamentales, el cual encarna una metodología de geometría primero. Esta metodología mejora el paradigma de avance directo al integrar restricciones geométricas novedosas con una estrategia de entrenamiento en vista de perspectiva, contrarrestando explícitamente las fuentes principales de error geométrico. Esta estrategia centrada en la geometría produce un salto dramático tanto en precisión 3D como en fotorrealismo. Para la validación, primero construimos un nuevo punto de referencia emparejando el conjunto de prueba VIGOR-OOD con datos DSM de alta resolución. En este punto de referencia, nuestro método mejora el RMSE geométrico de 6.76 m a 5.20 m. De manera crucial, este salto geométrico también impulsa el fotorrealismo, reduciendo la Distancia de Incepción de Fréchet (FID) de sim40 a 19 en comparación con el método líder, Sat2Density++, a pesar de no utilizar módulos adicionales de calidad de imagen adaptados. Demostramos la versatilidad de nuestros activos 3D de alta calidad a través de diversas aplicaciones posteriores, incluyendo síntesis de mapa semántico a 3D, generación de video multicámara, mallado a gran escala y estimación no supervisada de Modelo Digital de Superficie (DSM) a partir de una sola imagen. El código se ha publicado en https://github.com/qianmingduowan/Sat3DGen.
Los modelos de lenguaje omni-modales están diseñados para comprender conjuntamente entradas de audio, visuales y lenguaje, pero las ganancias en los puntos de referencia pueden inflarse cuando la evidencia visual por sí sola es suficiente para responder una consulta. Estudiamos si los puntos de referencia omni-modales actuales separan los atajos visuales de la integración genuina de evidencia audiovisual-lingüística, y cómo se comporta el post-entrenamiento bajo un entorno de evaluación con sesgo visual reducido. Auditamos nueve puntos de referencia omni-modales mediante pruebas exclusivamente visuales, eliminamos las consultas resolubles visualmente y conservamos subconjuntos completos cuando el filtrado no está definido o haría que las comparaciones fueran inestables. Esto produce OmniClean, una vista de evaluación depurada con 8,551 consultas retenidas de 16,968 consultas auditadas. En OmniClean, evaluamos OmniBoost, un procedimiento de post-entrenamiento en tres etapas basado en Qwen2.5-Omni-3B: SFT bi-modal mixto, RLVR de modalidad mixta y SFT sobre datos autodestilados. El SFT bi-modal equilibrado produce ganancias limitadas y desiguales, RLVR proporciona la primera mejora amplia y la autodestilación redefine el perfil del punto de referencia. Después del SFT sobre datos autodestilados, el modelo de 3B alcanza un rendimiento comparable y, en conjunto, ligeramente superior al de Qwen3-Omni-30B-A3B-Instruct sin usar un profesor omni-modal más fuerte. Estos resultados muestran que el progreso omni-modal es más fácil de interpretar cuando la evaluación controla la fuga visual, y que los modelos omni-modales pequeños pueden beneficiarse del post-entrenamiento gradual con supervisión de consultas omni autodestiladas. Página del proyecto: https://cheliu-computation.github.io/omni/
Investigamos la concatenación temporal de subpolíticas en Procesos de Decisión de Markov (MDP) con funciones de recompensa que varían en el tiempo. Introducimos la Búsqueda General de Dijkstra (GDS) y demostramos que las políticas globalmente óptimas para alcanzar objetivos pueden recuperarse mediante la composición temporal de subpolíticas óptimas intermedias. Motivados por el principio de "buscar, seleccionar, actualizar" subyacente a GDS, proponemos el Enrutamiento Latente Dinámico (DLR), un método de post-entrenamiento de modelos de lenguaje que aprende conjuntamente códigos latentes discretos, políticas de enrutamiento y parámetros del modelo mediante búsqueda dinámica en una única etapa de entrenamiento. En configuraciones de ajuste fino con pocos datos, DLR iguala o supera al ajuste fino supervisado en cuatro conjuntos de datos y seis modelos, logrando una ganancia media de +6.6 puntos porcentuales, mientras que las líneas base previas de latente discreto rinden consistentemente peor que SFT. Los análisis mecanicistas y las ablaciones de código dirigidas muestran que DLR aprende comportamientos de enrutamiento estructurados con roles causales distintos.
Presentamos un nuevo marco computacional para detectar y estructurar narrativas políticas manipuladoras, una tarea que ha cobrado mayor importancia debido al traslado de las discusiones políticas a las redes sociales. Uno de los principales desafíos consiste en diferenciar entre narrativas políticas manipuladoras y críticas legítimas, ya que algunas publicaciones pueden reformular eventos reales dentro de un contexto manipulador. Para lograr buenos resultados de agrupamiento, filtramos previamente las publicaciones manipuladoras mediante un prompt detallado de pocos ejemplos que combina narrativas documentadas de campañas con críticas legítimas para diferenciarlas. Este prompt permite que un modelo de razonamiento asigne etiquetas, conservando únicamente las publicaciones con narrativas manipuladoras para su posterior procesamiento. Las publicaciones restantes se incrustan posteriormente y se reduce su dimensionalidad mediante UMAP, antes de aplicar HDBSCAN para descubrir grupos narrativos. Una ventaja clave de este enfoque no supervisado es su independencia de una lista predefinida de categorías objetivo, lo que permite descubrir nuevos conglomerados narrativos. Finalmente, se emplea un modelo de razonamiento para descubrir la narrativa detrás de cada conglomerado. Este enfoque, aplicado a más de 1,2 millones de publicaciones en redes sociales, identificó eficazmente 41 conglomerados narrativos manipuladores distintos al integrar el filtrado basado en prompts con el agrupamiento no supervisado.
Las elecciones representan un hito crucial en el desarrollo continuo de una nación. Para comprender mejor la retórica política de diversos movimientos, desde la izquierda hasta la derecha, proponemos un modelo basado en transformadores capaz de proyectar la orientación política de un texto en un espectro continuo de izquierda a derecha, representado por un escalar normalizado d entre -1 y 1. Este enfoque permite a los analistas centrarse en segmentos específicos del panorama político, como los conservadores, excluyendo al mismo tiempo los movimientos liberales y de extrema derecha. Dicha tarea solo puede lograrse con clasificadores multiclase, siempre que la orientación deseada esté incorporada en una de sus clases predefinidas. Para determinar el modelo base más adecuado entre 13 transformadores candidatos para esta tarea, construimos cuatro corpus distintos. Un corpus comprendía notas plenarias anotadas del Bundestag alemán, mientras que otro se basó en una herramienta oficial de toma de decisiones en línea, Wahl-O-Mat. El tercer corpus consistió en artículos de 33 periódicos, cada uno identificado por su orientación política, y el cuarto incluyó 535,200 tuits de 597 miembros de los vigésimo y vigésimo primero Bundestag alemán. Para mitigar el sobreajuste, utilizamos dos corpus distintos para entrenamiento y dos para prueba, respectivamente. En cuanto al rendimiento dentro del dominio, DeBERTa-large obtuvo la puntuación F1 más alta (F1=0.844), así como en la prueba fuera del dominio de X (Twitter) (ACC=0.864). En la prueba fuera del dominio de periódicos, Gemma2-2B destacó (MAE = 0.172). Este estudio demuestra que los modelos transformadores pueden reconocer el encuadre político en noticias alemanas al nivel de las encuestas de opinión pública. Nuestros hallazgos sugieren que tanto la arquitectura del modelo como la disponibilidad de datos de entrenamiento específicos del dominio pueden ser tan influyentes como el tamaño del modelo para estimar el sesgo político. Discutimos limitaciones metodológicas y esbozamos direcciones para mejorar la robustez de la medición del sesgo.
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha logrado un gran éxito en el desarrollo de modelos de lenguaje de gran escala (LLMs) mediante despliegues de cadena de pensamiento para tareas como matemáticas y programación. No obstante, el RLVR enfrenta dificultades en cuanto a la eficiencia de muestra en problemas complejos donde generar despliegues correctos resulta complicado. Trabajos previos proponen abordar este problema mediante RLVR guiado por demostraciones, es decir, realizar un ajuste fino supervisado (SFT) cuando el RL falla; sin embargo, el SFT a menudo requiere una gran cantidad de datos, cuya adquisición puede ser costosa. En este artículo, proponemos FEST, un algoritmo de RLVR guiado por demostraciones de pocos ejemplos (Few-Shot). Logra resultados convincentes con solo 128 demostraciones seleccionadas aleatoriamente de un conjunto de datos de SFT. Descubrimos que tres componentes son vitales para el éxito: la señal supervisada, la señal dentro de la política (on-policy) y los pesos decrecientes en el conjunto de datos de SFT de pocos ejemplos para prevenir el sobreajuste durante el entrenamiento de múltiples épocas. En varios puntos de referencia, FEST supera a las líneas base con una cantidad de datos de SFT significativamente menor, incluso igualando su rendimiento cuando se utiliza el conjunto de datos completo.
Los modelos generativos de video se estudian cada vez más como modelos implícitos del mundo, sin embargo, evaluar si producen estructura y movimiento 3D físicamente plausibles sigue siendo un desafío. La mayoría de los pipelines de evaluación de video existentes dependen en gran medida del juicio humano o de evaluadores aprendidos, lo que puede ser subjetivo y débilmente diagnóstico para fallas geométricas. Presentamos PDI-Bench (Índice de Distorsión de Perspectiva), un marco cuantitativo para auditar la coherencia geométrica en videos generados. Dado un clip generado, obtenemos observaciones centradas en objetos mediante segmentación y seguimiento de puntos (por ejemplo, SAM 2, MegaSaM y CoTracker3), los elevamos a coordenadas del espacio mundial 3D mediante reconstrucción monocular, y calculamos un conjunto de residuos de geometría proyectiva que capturan tres dimensiones de falla: alineación escala-profundidad, consistencia del movimiento 3D y rigidez estructural 3D. Para apoyar la evaluación sistemática, construimos PDI-Dataset, que cubre diversos escenarios diseñados para estresar estas restricciones geométricas. A través de generadores de video de última generación, PDI revela modos de falla consistentes y específicos de la geometría que no son capturados por las métricas perceptuales comunes, y proporciona una señal diagnóstica para el progreso hacia la generación de video físicamente fundamentada y el modelo del mundo físico. Nuestro código y conjunto de datos se pueden encontrar en https://pdi-bench.github.io/.
Los sistemas de agentes LLM industriales suelen separar la planificación de la ejecución, pero los planificadores basados en LLM frecuentemente generan flujos de trabajo estructuralmente inválidos o innecesariamente largos, lo que provoca fallos frágiles y costos evitables en herramientas y API. Proponemos SPIN, un envoltorio de planificación que combina planificación de Grafos Acíclicos Dirigidos (DAG) validados con control de ejecución basado en prefijos. SPIN impone un estricto contrato DAG mediante `_validate_plan_text` e indicaciones de reparación (repair prompting), produciendo planes ejecutables antes de la ejecución descendente, y luego evalúa incrementalmente los prefijos del DAG para detenerse cuando el prefijo actual es suficiente para responder la consulta. En AssetOpsBench, con 261 escenarios, SPIN reduce las tareas ejecutadas de 1061 a 623 y mejora Accomplished de 0.638 a 0.706, a la vez que reduce las llamadas a herramientas de 11.81 a 6.82 por ejecución. En MCP Bench, el mismo envoltorio mejora los puntajes relacionados con planificación, fundamentación (grounding) y dependencias tanto para GPT OSS1 como para Llama 4 Maverick.
Las arquitecturas de Mezcla de Expertos (MoE) mejoran la eficiencia de los modelos de lenguaje grandes al activar solo un subconjunto de expertos por token. Sin embargo, el MoE estándar emplea una estrategia de enrutamiento Top-K fija, lo que genera cómputo redundante y una latencia de inferencia subóptima. Los métodos de aceleración existentes requieren un reentrenamiento costoso con cambios arquitectónicos o sufren una grave caída del rendimiento en alta dispersión debido al desajuste entre entrenamiento e inferencia. Para abordar estas limitaciones, proponemos BEAM (Binary Expert Activation Masking, enmascaramiento binario de activación de expertos), un método novedoso que aprende una selección de expertos adaptativa por token mediante máscaras binarias entrenables. Con un estimador de paso directo y una pérdida de regularización auxiliar, BEAM induce una dispersión dinámica de expertos a través del entrenamiento de extremo a extremo mientras mantiene la capacidad del modelo. Además, implementamos un kernel CUDA personalizado y eficiente para BEAM, garantizando una integración fluida con el marco de inferencia vLLM. Los experimentos muestran que BEAM retiene más del 98% del rendimiento del modelo original mientras reduce los FLOPs de la capa MoE hasta en un 85%, logrando una decodificación hasta 2.5 veces más rápida y un rendimiento 1.4 veces mayor, lo que demuestra su eficacia como una solución práctica y plug-and-play para la inferencia MoE eficiente.
A medida que los agentes de IA pasan de interfaces de chat a sistemas que leen datos privados, invocan herramientas y ejecutan flujos de trabajo en múltiples pasos, las barreras de seguridad se convierten en la última línea de defensa contra daños concretos en el despliegue. En estos entornos, las fallas de las barreras de seguridad ya no son meros errores de calidad de respuesta: pueden filtrar secretos, autorizar acciones inseguras o bloquear trabajo legítimo. Las fallas más difíciles suelen ser contextuales: si una acción es aceptable depende de normas locales de privacidad, políticas organizacionales y expectativas de los usuarios que se resisten a una especificación previa al despliegue. Esto crea una brecha práctica: las barreras de seguridad deben adaptarse a sus propios entornos operativos, pero la retroalimentación del despliegue suele limitarse a fallas reportadas por usuarios que son escasas y ruidosas, y el ajuste fino repetido a menudo resulta poco práctico. Para abordar esta brecha, proponemos LiSA (Adaptación de Seguridad de por Vida), un marco de inducción de políticas conservadoras que mejora una barrera base fija mediante memoria estructurada. LiSA convierte fallas ocasionales en abstracciones de políticas reutilizables para que los reportes escasos puedan generalizarse más allá de casos individuales, añade reglas locales conscientes de conflictos para evitar una generalización excesiva en contextos de etiquetas mixtas, y aplica un control de confianza basado en evidencia mediante un límite inferior posterior, de modo que la reutilización de memoria escale con la evidencia acumulada y no solo con la precisión empírica. En PrivacyLens+, ConFaide+ y AgentHarm, LiSA supera consistentemente a las líneas base basadas en memoria robusta bajo retroalimentación escasa, se mantiene robusto ante retroalimentación ruidosa de usuarios incluso con tasas de inversión de etiquetas del 20%, y empuja la frontera de latencia-rendimiento más allá del escalado del modelo base. En última instancia, LiSA ofrece un camino práctico para asegurar agentes de IA contra la impredecible cola larga de riesgos marginales del mundo real.
A pesar de los rápidos avances, los modelos actuales de texto a imagen (T2I) se basan predominantemente en un paradigma de generación de un solo paso, que presenta dificultades con semánticas complejas y enfrenta rendimientos decrecientes ante el escalado de parámetros. Si bien los enfoques recientes de razonamiento de múltiples pasos resultan prometedores, se ven obstaculizados por alucinaciones de planificación sin fundamento que carecen de verificación, una reflexión post-hoc monolítica, inestabilidades en la optimización de contexto largo y una latencia de inferencia prohibitiva. Para superar estos cuellos de botella, proponemos el marco de Razonamiento Visual en Bucle Cerrado (CLVR, por sus siglas en inglés), un sistema integral que acopla profundamente la planificación lógica visual-lingüística con la generación por difusión a nivel de píxeles. CLVR introduce un motor de datos automatizado con verificación visual a nivel de paso para sintetizar trayectorias de razonamiento fiables, y propone el Aprendizaje por Refuerzo con Prompts Proxy (PPRL) para resolver las inestabilidades de optimización de contexto largo mediante la destilación de historias multimodales intercaladas en señales de recompensa explícitas que permiten una atribución causal precisa. Además, para mitigar el grave cuello de botella de latencia provocado por la eliminación iterativa de ruido, proponemos la Fusión de Pesos en el Espacio Δ (DSWM), un método con fundamentos teóricos que fusiona pesos de alineación con prioris de destilación ya disponibles, reduciendo el costo de inferencia por paso a solo 4 NFE sin requerir una redistilación costosa. Experimentos exhaustivos demuestran que CLVR supera a los modelos de referencia de código abierto existentes en múltiples puntos de referencia y se aproxima al rendimiento de los modelos comerciales propietarios, desbloqueando capacidades generales de escalado en tiempo de prueba para la generación visual compleja.
Las estafas conversacionales, como las estafas románticas y de inversión, están emergiendo como una forma importante de fraude en línea. A diferencia de los señuelos únicos, como los mensajes de lotería falsa o de peajes impagados, estas estafas se desarrollan a través de conversaciones de múltiples turnos en las que los estafadores manipulan gradualmente a las víctimas mediante técnicas psicológicas en evolución. Sin embargo, la investigación existente se centra principalmente en la detección estática de estafas o en estafas sintéticas, dejando abierta la cuestión de si los modelos de lenguaje pueden comprender cómo progresan las estafas reales a lo largo del tiempo. Presentamos PreScam, un punto de referencia para modelar la progresión de estafas a partir de conversaciones tempranas. Construido a partir de informes de estafas enviados por usuarios, PreScam filtra y estructura 177.989 informes en bruto en 11.573 casos de estafas conversacionales que abarcan 20 categorías de estafas. Cada caso está estructurado jerárquicamente según el ciclo de vida de la estafa definido por la cadena de eliminación de estafas propuesta, y además anotado a nivel de turno con las acciones psicológicas del estafador y las respuestas de la víctima. Evaluamos los modelos en dos tareas: predicción de terminación en tiempo real, que estima si una conversación se acerca a la etapa de terminación, y predicción de acciones del estafador, que pronostica las acciones subsiguientes del estafador. Los resultados muestran una brecha clara entre la fluidez superficial y el modelado de la progresión: los codificadores supervisados superan sustancialmente a los LLMs de cero disparos en la predicción de terminación en tiempo real, mientras que la predicción de la siguiente acción sigue siendo solo moderadamente exitosa incluso para LLMs potentes. En conjunto, estos resultados muestran que los modelos actuales pueden capturar algunas señales relacionadas con estafas, pero aún tienen dificultades para rastrear cómo se intensifica el riesgo y cómo se desarrolla la manipulación a lo largo de los turnos.
La predicción de series temporales no es simplemente una extrapolación numérica, sino que a menudo requiere razonamiento con datos contextuales no estructurados, como noticias o eventos. Mientras que los Modelos Fundacionales de Series Temporales (TSFMs) especializados destacan en la predicción basada en patrones numéricos, permanecen ajenos a las señales textuales del mundo real. Por el contrario, aunque los LLMs están emergiendo como pronosticadores de cero disparos, su rendimiento sigue siendo desigual entre dominios y fundamentos contextuales. Para cerrar esta brecha, presentamos Nexus, un marco de predicción multiagente que descompone el pronóstico en etapas especializadas: aislar las fluctuaciones temporales a nivel macro y micro, e integrar información contextual cuando está disponible antes de sintetizar un pronóstico final. Esta descomposición permite que Nexus se adapte desde señales estacionales hasta información volátil impulsada por eventos, sin depender de anclajes estadísticos externos o indicaciones monolíticas. Demostramos que los LLMs de generación actual poseen una capacidad predictiva intrínseca sustancialmente más fuerte de lo reconocido anteriormente, dependiendo críticamente de cómo se organizan el razonamiento numérico y contextual. Evaluado en datos que suceden estrictamente después de los límites de conocimiento de los LLMs, abarcando métricas inmobiliarias de Zillow y acciones bursátiles volátiles, Nexus iguala o supera consistentemente a los TSFMs de última generación y a los modelos base LLM sólidos. Más allá de la precisión numérica, Nexus produce trazas de razonamiento de alta calidad que muestran explícitamente los impulsores fundamentales detrás de cada pronóstico. Nuestros resultados establecen que la predicción en el mundo real es un problema de razonamiento agéntico que se extiende mucho más allá del modelado secuencial.
Presentamos CurveBench, un punto de referencia para el razonamiento topológico jerárquico a partir de entradas visuales. CurveBench consta de 756 imágenes de curvas de Jordan sin intersecciones por pares, organizadas en configuraciones fáciles, poligonales, inspiradas en topografía, laberínticas y de conteo denso. Cada imagen está anotada con un árbol enraizado que codifica las relaciones de contención entre regiones planares. Formulamos la tarea como predicción estructurada: dado el input visual, el modelo debe recuperar el árbol completo de contención enraizado inducido por las curvas. A pesar de la simplicidad visual de la tarea, el modelo mejor evaluado, Gemini 3.1 Pro, solo alcanza un 71.1% de precisión en la generación de árboles en CurveBench-Easy y un 19.1% en CurveBench-Hard. Además, demostramos la utilidad del punto de referencia mediante el ajuste fino estilo RLVR de modelos de lenguaje-visión de peso abierto. Nuestro modelo entrenado Qwen3-VL-8B mejora del 2.8% al 33.3% en precisión de generación de árboles en CurveBench-Easy respecto a Qwen-3-VL-8B-Thinking, superando a GPT-5.4 y Claude Opus 4.5 según nuestro protocolo de evaluación. La brecha restante, especialmente en CurveBench-Hard, muestra que el razonamiento visual exacto con conciencia topológica está lejos de resolverse.
Los modelos Visión-Lenguaje-Acción (VLA) logran una notable flexibilidad y generalización más allá de los paradigmas de control clásicos. Sin embargo, la mayoría de los VLA predominantes se entrenan bajo un paradigma de observación de un solo fotograma, lo que los vuelve estructuralmente ciegos a las dinámicas temporales. En consecuencia, estos modelos se degradan gravemente en escenarios no estacionarios, incluso cuando se entrenan o ajustan en conjuntos de datos dinámicos. Los enfoques existentes requieren un reentrenamiento costoso o sufren cuellos de botella de latencia y una baja consistencia temporal entre fragmentos de acción. Proponemos Pace-and-Path Correction, un operador de inferencia en tiempo de ejecución, sin entrenamiento y de forma cerrada, que envuelve cualquier VLA de acciones fragmentadas. A partir de un único costo cuadrático, la minimización conjunta produce una solución unificada que se descompone ortogonalmente en dos canales distintos. El canal de ritmo comprime la ejecución a lo largo de la dirección planificada, mientras que el canal de trayectoria aplica un desplazamiento espacial ortogonal, absorbiendo conjuntamente las dinámicas percibidas dentro de la ventana de fragmentos. Evaluamos nuestro enfoque en un benchmark de diagnóstico integral, MoveBench, diseñado para aislar el movimiento como la única variable controlada. Los resultados empíricos demuestran que nuestro marco supera consistentemente a los envoltorios de última generación sin entrenamiento y a los métodos adaptativos dinámicos, mejorando las tasas de éxito hasta en un 28.8% y 25.9% en términos absolutos con respecto a los modelos VLA fundamentales en entornos exclusivamente dinámicos y mixtos estático-dinámicos, respectivamente.