Artículos de investigación en IA seleccionados diariamente con traducciones
La capacidad de contexto ultra largo se está volviendo indispensable para los LLMs de vanguardia: los flujos de trabajo agentivos, el razonamiento de código a escala de repositorio y la memoria persistente requieren que el modelo atienda de manera conjunta a cientos de miles o millones de tokens, pero el costo cuadrático de la atención softmax hace que esto sea insostenible a escala de despliegue. Presentamos MiniMax Sparse Attention (MSA), una atención dispersa por bloques construida sobre la base de Grouped Query Attention (GQA). Una Rama de Índice ligera puntúa los bloques clave-valor y selecciona de manera independiente un subconjunto Top-k para cada grupo de GQA, permitiendo una recuperación dispersa específica del grupo mientras mantiene una ejecución eficiente a nivel de bloques; la Rama Principal realiza entonces una atención dispersa por bloques exacta solo sobre los bloques seleccionados. Diseñada en torno a un principio de simplicidad y escalabilidad, MSA está deliberadamente simplificada, lo que la hace fácil de implementar de manera eficiente en una amplia variedad de GPUs. Para traducir la dispersión en aceleraciones prácticas, codiseñamos MSA con una ruta de ejecución en GPU que utiliza selección Top-k sin exp y atención dispersa KV-externa para mejorar la utilización de los núcleos tensoriales bajo acceso a granularidad de bloques. En un modelo de 109 mil millones de parámetros con entrenamiento multimodal nativo, MSA funciona a la par que GQA mientras reduce el cómputo de atención por token en 28.4x para un contexto de 1M. Junto con nuestro kernel codiseñado, MSA logra aceleraciones de tiempo real de 14.2x en prefill y 7.6x en decodificación en H800. Nuestro kernel de inferencia está disponible en: https://github.com/MiniMax-AI/MSA. Un modelo multimodal nativo de calidad de producción impulsado por MSA ha sido publicado públicamente en: https://huggingface.co/MiniMaxAI/MiniMax-M3.
Los agentes basados en modelos de lenguaje de gran escala (LLM) han logrado un rendimiento sólido en una amplia variedad de puntos de referencia, aunque la mayoría de las evaluaciones asumen entornos estáticos. En contraste, el despliegue en el mundo real es inherentemente dinámico, lo que exige que los agentes ajusten continuamente sus conocimientos, habilidades y comportamiento a entornos cambiantes y condiciones de tareas actualizadas. Para abordar esta brecha, presentamos EvoArena, un conjunto de puntos de referencia que modela los cambios en el entorno como secuencias de actualizaciones progresivas en los dominios terminal, software y social. Además, proponemos EvoMem, un paradigma de memoria basado en parches que registra la evolución de la memoria como historiales de actualización estructurados, permitiendo que los agentes razonen sobre la evolución del entorno a través de cambios en su memoria. Los experimentos muestran que los agentes actuales tienen dificultades en EvoArena, alcanzando una precisión promedio del 39.6% en los dominios evolutivos terminal, software y de preferencias sociales. EvoMem mejora consistentemente el rendimiento, logrando una ganancia promedio del 1.5% en EvoArena y también mejorando puntos de referencia estándar como GAIA y LoCoMo en un 6.1% y un 4.8%, respectivamente. Más allá de tareas individuales, EvoMem mejora aún más la precisión a nivel de cadena en un 3.7% en EvoArena, donde el éxito requiere completar una secuencia consecutiva de subtareas evolutivas relacionadas. El análisis mecanicista muestra que EvoMem mejora la captura de evidencia en la memoria, lo que indica una mejor preservación de los estados completos del entorno en evolución. Nuestros resultados resaltan la importancia de modelar la evolución tanto en la evaluación como en la memoria para un despliegue fiable de agentes.
Los agentes de uso de computadora (CUAs) operan cada vez más en entornos de ejecución que combinan control visual de escritorio, ejecución de línea de comandos, edición de código, navegadores y herramientas externas. Sin embargo, los puntos de referencia existentes suelen evaluar estas interfaces como capacidades separables, dejando insuficientemente evaluada la orquestación a largo plazo entre interfaces. Por ello, presentamos WeaveBench, un punto de referencia de interfaz híbrida de horizonte largo con 114 tareas en 8 dominios laborales del mundo real, fundamentadas en solicitudes reales de usuarios y artefactos verificables públicamente. Cada tarea requiere que los agentes combinen observaciones/acciones de GUI con operaciones de CLI/código dentro de una sola trayectoria. Evaluamos estas tareas en un escritorio Ubuntu real dentro de entornos de ejecución de agentes CLI implementados, aumentados con un complemento mínimo de control de escritorio. También proponemos un evaluador complementario consciente de la trayectoria que inspecciona entregables, archivos, capturas de pantalla, registros y rastros de acciones, mientras detecta comportamientos atajos como evidencia visual fabricada o métricas codificadas. En las combinaciones de modelos y entornos de ejecución más avanzados, la mejor tasa de aprobación (PassRate) alcanza solo el 41.2%, lo que demuestra que el punto de referencia está lejos de saturarse. El evaluador consciente de la trayectoria revela además que la calificación solo basada en resultados sobreestima sustancialmente el rendimiento del agente. En general, WeaveBench expone una brecha crítica en la evaluación de CUA y proporciona un banco de pruebas eficaz para medir si los agentes pueden orquestar operaciones de GUI, CLI y código en tareas del mundo real de horizonte largo.
El razonamiento espacial, la capacidad de determinar dónde están los objetos, cómo se relacionan y cómo se mueven en 3D, sigue siendo un desafío fundamental para los modelos de visión y lenguaje (VLMs). Los agentes aumentados con herramientas intentan abordar esto aumentando los VLMs con módulos de percepción especializados, pero su efectividad está limitada por la interfaz de acción a través de la cual se invocan esas herramientas. En este trabajo, estudiamos cómo el diseño de esta interfaz moldea la capacidad del agente para el razonamiento espacial de tipo abierto. Los agentes espaciales existentes emplean una ejecución de código de una sola pasada, que se compromete con una estrategia de análisis completa antes de observar cualquier resultado intermedio, o dependen de una interfaz estructurada de llamada a herramientas que a menudo ofrece menos flexibilidad para componer operaciones libremente o adaptar el análisis a cada tarea. Ambos diseños ofrecen una flexibilidad limitada para el razonamiento espacial de tipo abierto y complejo en 3D/4D. Por lo tanto, proponemos SpatialClaw, un marco sin entrenamiento para el razonamiento espacial que adopta el código como interfaz de acción. SpatialClaw mantiene un kernel de Python con estado, precargado con fotogramas de entrada y un conjunto de primitivas de percepción y geometría, lo que permite que un agente respaldado por VLM escriba una celda ejecutable por paso condicionada a todas las salidas anteriores, permitiendo al agente componer y manipular de forma flexible los resultados de percepción y adaptar su análisis tanto a las observaciones intermedias textuales y visuales como a las demandas de cada problema. Evaluado en 20 puntos de referencia de razonamiento espacial que abarcan una amplia gama de tareas de razonamiento espacial estáticas y dinámicas en 3D/4D, SpatialClaw alcanza una precisión promedio del 59.9%, superando al agente espacial reciente en +11.2 puntos, con ganancias consistentes en seis modelos base de VLM de dos familias de modelos sin ninguna adaptación específica de punto de referencia o de modelo.
Presentamos MaxProof, un marco de escalado de tiempo de prueba a nivel de población para la demostración matemática de nivel competitivo en la serie MiniMax-M3. M3 primero entrena tres capacidades orientadas a la demostración —generación de demostraciones, verificación de demostraciones y reparación de demostraciones condicionada por crítica— utilizando un verificador generativo de defensa en profundidad diseñado para una baja tasa de falsos positivos. Estas capacidades se fusionan en un único modelo M3 publicado. En tiempo de prueba, MaxProof trata el modelo como generador, verificador, refinador y clasificador, busca sobre una población de demostraciones candidatas y devuelve una demostración final mediante selección por torneo. Con el escalado de tiempo de prueba de MaxProof, el modelo M3 alcanza 35/42 en la IMO 2025 y 36/42 en la USAMO 2026, superando el umbral de medalla de oro humana en ambas competiciones.
Los generadores de imágenes recientes han demostrado un fotorrealismo impresionante y capacidades de seguimiento de instrucciones en la generación y edición de imágenes individuales. Sin embargo, limitados por sus arquitecturas, no pueden lograr una generación intercalada (secuencia texto-imagen), que tiene aplicaciones cruciales en narrativas visuales, guías y manipulación incorporada. Incluso los Modelos Multimodales Unificados (UMM) de código abierto más recientes muestran un rendimiento limitado en este aspecto. En este artículo, presentamos InterleaveThinker, el primer pipeline multiagente diseñado para dotar a cualquier generador de imágenes existente de capacidades de generación intercalada. Específicamente, empleamos un agente planificador para organizar la secuencia de entrada de imágenes y texto, instruyendo al generador de imágenes sobre la ejecución requerida en cada paso. Posteriormente, introducimos un agente crítico para evaluar las salidas del generador, identificar muestras que se desvían de las instrucciones planificadas y refinar las instrucciones para su regeneración. Para implementar este pipeline, construimos Interleave-Planner-SFT-80k e Interleave-Critic-SFT-112k para realizar un arranque en frío de formato. Luego desarrollamos Interleave-Critic-RL-13k para reforzar la capacidad de corrección de instrucciones paso a paso dentro de una trayectoria de generación utilizando GRPO. Dado que una sola trayectoria de generación intercalada puede implicar más de 25 llamadas al generador, optimizar toda la trayectoria es computacionalmente inviable. Por lo tanto, proponemos recompensas de precisión y recompensas por paso, lo que permite que el aprendizaje por refuerzo en un solo paso guíe eficazmente toda la trayectoria de generación. Los resultados muestran que InterleaveThinker mejora el rendimiento en varios generadores de imágenes. En los puntos de referencia de generación intercalada, logra un rendimiento comparable al de Nano Banana y GPT-5. Sorprendentemente, también mejora significativamente el modelo base en puntos de referencia basados en razonamiento; por ejemplo, en FLUX.2-klein de 4 pasos, observamos ganancias sustanciales en WISE y RISE.
Los Modelos de Lenguaje de Gran Escala Multimodales (MLLMs) han demostrado un éxito notable en la comprensión visual, pero su rendimiento se degrada significativamente bajo corrupciones visuales del mundo real. Si bien existen enfoques existentes para mejorar la robustez, son limitados: la alineación de características en caja negra carece de interpretabilidad, y el razonamiento basado en texto en caja blanca no puede restaurar los detalles perdidos a nivel de píxel. Este trabajo investiga una pregunta de investigación fundamental: ¿Pueden los MLLMs recuperar contenido visual corrupto por sí mismos? Para abordar esto, proponemos Robust-U1, un marco novedoso que dota a los MLLMs de una capacidad explícita de autorecuperación visual para una comprensión robusta. El enfoque comprende tres etapas centrales: ajuste fino supervisado para la reconstrucción inicial, aprendizaje por refuerzo con recompensas duales (SSIM a nivel de píxel y similitud CLIP a nivel semántico) para alinear una alta calidad visual, y razonamiento multimodal que considera conjuntamente tanto la entrada corrupta como la imagen recuperada. Experimentos exhaustivos demuestran que Robust-U1 alcanza una robustez de vanguardia en el modelo de referencia de corrupciones del mundo real y mantiene un rendimiento superior bajo corrupciones adversarias en modelos de referencia generales de VQA. El análisis confirma que la recuperación visual de alta calidad mejora directamente el rendimiento del razonamiento, estableciendo la autorecuperación como un mecanismo crítico para la comprensión visual robusta. El código fuente está disponible en https://github.com/jqtangust/Robust-U1.
Entrenar agentes de búsqueda profunda requiere preguntas verificables cuyas respuestas permanezcan inaccesibles hasta que se haya adquirido evidencia suficiente a través de la búsqueda. Los métodos de síntesis existentes a menudo aumentan la dificultad aparente al enriquecer las estructuras de grafos, pero la complejidad estructural por sí sola no garantiza la dificultad de búsqueda realizada: el proceso de búsqueda previsto puede colapsar a través de una ruta de identificación más económica. Formalizamos esta brecha con un marco de dificultad consciente de atajos e identificamos cuatro riesgos de atajos procesables: co-cobertura de evidencia, selectividad de una sola pista, constantes expuestas y vinculación con conocimiento previo. Para diagnosticar sus efectos realizados, utilizamos firmas de trayectoria que incluyen costo de resolución, tiempo de acierto de respuesta y tasa de atajos previos. Guiados por este marco, presentamos FORT, un Marco de Síntesis de Datos de Entrenamiento Resistentes a Atajos. FORT construye datos de entrenamiento resistentes a atajos mediante el control de riesgos de atajos en la selección de entidades, la construcción de grafos de evidencia, la formulación de preguntas y el refinamiento adversarial. Los experimentos muestran que FORT induce búsquedas previas a la respuesta más largas y menos patrones de atajos que los conjuntos de datos de búsqueda profunda de código abierto existentes. Utilizando las trayectorias resultantes, entrenamos FORT-Searcher solo con ajuste fino supervisado (SFT), y logra el mejor rendimiento general entre los agentes de búsqueda de código abierto de tamaño comparable en benchmarks desafiantes de búsqueda profunda. Los recursos relevantes estarán disponibles en https://github.com/RUCAIBox/FORT-Searcher.
Los laboratorios científicos dependen cada vez más de sistemas de inteligencia artificial para razonar sobre experimentos, pero el acto físico de hacer ciencia sigue estando en gran medida fuera de su alcance. La IA puede ayudar a leer literatura, generar hipótesis y planificar protocolos, sin embargo, la ejecución de dichos protocolos en el banco de laboratorio aún requiere un operador humano. Los modelos de Visión-Lenguaje-Acción (VLA) proporcionan una posible interfaz entre los protocolos escritos y la ejecución robótica, pero las políticas existentes se entrenan principalmente con demostraciones domésticas y de mesa, y rara vez se enfrentan a los instrumentos, líquidos transparentes o flujos de trabajo de protocolos fijos que se encuentran en los laboratorios científicos. Cerrar esta brecha requiere tanto supervisión específica de laboratorio como un marco de aprendizaje unificado que pueda acomodar las diversas configuraciones robóticas utilizadas para ejecutar protocolos experimentales. Por lo tanto, identificamos los datos y la configuración robótica como cuellos de botella centrales junto con el diseño del modelo. Para abordar el aspecto de los datos, construimos RoboGenesis, un flujo de trabajo basado en simulación y un motor de datos que compone flujos de trabajo de laboratorio configurados a partir de habilidades atómicas, valida y filtra los despliegues, y exporta demostraciones estructuradas para los perfiles robóticos compatibles. En el lado de las políticas, presentamos LabVLA, entrenado con una receta de dos etapas: el preentrenamiento de tokens de acción FAST primero hace que la columna vertebral Qwen3-VL-4B-Instruct sea consciente de la acción antes de aprender cualquier control continuo, y el postentrenamiento con flow matching luego adjunta un experto en acción DiT bajo aislamiento de conocimiento. En el punto de referencia LabUtopia, LabVLA logra la tasa de éxito promedio más alta entre todas las líneas base evaluadas tanto en configuraciones dentro de la distribución como fuera de la distribución.
La decodificación especulativa (DS) aborda los elevados costos de inferencia de los LLMs al hacer que borradores ligeros generen candidatos que grandes verificadores validen en paralelo. Los métodos actuales de verificación de borradores utilizan decisiones binarias: aceptar o recalcular por completo. Sin embargo, descubrimos que muchos tokens rechazados pueden verificarse correctamente mediante un submodelo reducido derivado del verificador completo mediante enrutamiento intramodelo, en lugar de recurrir al verificador completo. Esto motiva nuestro verificador reducido para manejar tokens que requieren recursos de verificación moderados, reduciendo así las costosas llamadas al modelo grande. Proponemos Verificación mediante Enrutamiento Intramodelo para Decodificación Especulativa (VIA-SD), un marco de múltiples niveles que utiliza un verificador reducido enrutado. Los tokens de borrador se procesan jerárquicamente: aceptación directa para casos de alta confianza, regeneración con el verificador reducido para casos de confianza media y verificación con el modelo completo para casos inciertos. En cuatro tareas representativas y múltiples familias de modelos, VIA-SD reduce las tasas de rechazo en 0.10–0.22 y proporciona aceleraciones del 10–20% sobre líneas base robustas de DS, logrando al mismo tiempo una aceleración de 2.5–3× respecto a la decodificación sin borrador. Además, VIA-SD es compatible con marcos de DS existentes sin modificar sus procedimientos de entrenamiento. Nuestros resultados sugieren que la DS de múltiples niveles constituye un paradigma general para una inferencia escalable y eficiente de LLMs. Página del proyecto: https://zju-xyc.github.io/VIA-SD-Project-Page/
La fusión de imágenes multimodales tiene como objetivo integrar información complementaria de diferentes modalidades en una imagen fusionada que preserve detalles locales ricos mientras mantiene una apariencia global coherente. Los enfoques existentes construyen representaciones compartidas en cuadrículas de características 2D, que destacan en modelar estructuras locales pero ofrecen un control limitado sobre los factores de apariencia global a nivel de imagen. Para equilibrar estos objetivos, introducimos una interfaz compacta de tokens 1D basada en un tokenizador de imágenes preentrenado y congelado para modelar factores de apariencia/base no locales. En lugar de usar el tokenizador como un backbone de reconstrucción, nuestro diseño emplea el espacio de tokens 1D como un portador global, manteniendo la ruta espacial 2D para la restauración de estructuras locales. Específicamente, presentamos la Edición Selectiva de Tokens (STE), que actualiza/reemplaza de forma dispersa un pequeño conjunto de tokens críticos, proporcionando un mecanismo ligero para guiar la coherencia de la apariencia global sin modificar el backbone de fusión y evitando pérdidas adicionales. Experimentos en cuatro puntos de referencia comúnmente utilizados muestran que nuestro método logra el mejor rendimiento general, con mejoras consistentes y multimétricas tanto en coherencia global como en fidelidad local. Página del proyecto: https://zju-xyc.github.io/1D-Fusion-Project-Page/
Los tokenizadores visuales holísticos son fundamentales para los modelos multimodales unificados (UMM), ya que mapean diversas entradas visuales en un espacio de representación unificado. En este artículo, presentamos HYDRA-X, el primer UMM que unifica la tokenización de imágenes y videos dentro de un único Vision Transformer (ViT). Nuestro diseño está impulsado por dos desafíos fundamentales: inyectar eficientemente capacidad de reconstrucción espacio-temporal en un ViT nativo, e incrustar conciencia semántica a nivel de imagen y video en el espacio latente. Para abordar el primero, ablaciones exhaustivas revelan dos hallazgos clave: (1) la atención temporal causal a nivel de fotograma es suficiente para la reconstrucción visual, mientras que la atención espacio-temporal completa la degrada; y (2) la compresión temporal jerárquica supera sustancialmente a las alternativas de un solo paso. Para abordar el segundo, proponemos un descompresor ligero que aumenta el muestreo de características temporalmente comprimidas bajo supervisión conjunta de maestro imagen-video, imponiendo así estructuras semánticas complementarias dentro del espacio latente compacto. Basándonos en este tokenizador holístico, proponemos además una mejora fundamentada del pipeline de edición: la interacción fuente-objetivo debe ocurrir a nivel latente dentro del tokenizador, en lugar de a nivel semántico dentro del LLM, mejorando sustancialmente la consistencia de edición y acelerando la convergencia. Instanciado en el modelo denso de 7B, HYDRA-X logra un rendimiento sólido en tareas de comprensión y generación de imágenes y videos, allanando el camino para futuros UMM con tokenizador unificado.
Los agentes basados en LLM han demostrado un potencial creciente en la automatización del descubrimiento científico. Dada una métrica optimizable y un entorno de ejecución, pueden proponer, validar e iterar soluciones científicas, produciendo resultados que superan a los enfoques diseñados por humanos. A medida que las capacidades de los modelos continúan mejorando, argumentamos que el cuello de botella para el descubrimiento científico autónomo está pasando de prescribir flujos de trabajo de agentes a diseñar entornos para agentes: los recursos, restricciones e interfaces que moldean el comportamiento del agente. Enmarcamos esto como ingeniería del entorno: construir entornos que amplifiquen comportamientos productivos, como la exploración abierta, la gestión sistemática de artefactos y la colaboración entre agentes, mientras suprimen comportamientos dañinos, como el aprovechamiento de recompensas y la supervisión humana de alta fricción. Presentamos EurekAgent, un sistema de agente con entorno diseñado para el descubrimiento científico autónomo guiado por métricas. EurekAgent diseña el entorno en cuatro dimensiones: ingeniería de permisos para la ejecución acotada del agente y la evaluación aislada; ingeniería de artefactos para la colaboración basada en sistema de archivos y Git; ingeniería de presupuesto para la exploración consciente del gasto; e ingeniería de intervención humana para una supervisión e intervención sencillas. EurekAgent establece nuevos resultados de última generación en múltiples tareas de matemáticas, ingeniería de kernels y aprendizaje automático, incluidos nuevos resultados de última generación en empaquetamiento de 26 círculos descubiertos con menos de 11 dólares en costos totales de API. Publicamos nuestro código y resultados en código abierto, y abogamos por la ingeniería del entorno como una dirección de investigación central para el desarrollo de agentes de investigación autónomos fiables.
El éxito de los Modelos de Lenguaje Grandes en el razonamiento matemático depende en gran medida de la generación de trayectorias de solución diversas y válidas durante la fase de despliegue. Sin embargo, las técnicas actuales de despliegue enfrentan una disyuntiva fundamental: el muestreo a nivel de tokens a menudo produce trayectorias redundantes que solo difieren en la reformulación, mientras que los métodos a nivel de embeddings que utilizan ruido aleatorio frecuentemente alteran la consistencia semántica. Para resolver esto, introducimos N-GRPO, una novedosa estrategia de exploración integrada en el marco de la Optimización de Política Relativa de Grupo (GRPO). En lugar de depender del muestreo a nivel de tokens o del ruido nativo a nivel de embeddings, nuestro enfoque aprovecha la Mezcla de Vecinos Semánticos. Este mecanismo construye dinámicamente representaciones de entrada mezclando los embeddings de un token ancla y sus vecinos semánticos más cercanos, inyectando así diversidad mientras se adhiere estrictamente a la variedad semántica local. Las evaluaciones experimentales en los modelos DeepSeek-R1-Distill-Qwen de diferentes tamaños muestran que N-GRPO no solo logra mejoras consistentes sobre líneas base sólidas en puntos de referencia de razonamiento matemático, sino que también exhibe capacidades de generalización robustas en tareas fuera de distribución.
La cadena de pensamiento latente comprime el razonamiento al reemplazar los rastros de razonamiento visibles con recurrencia de estado oculto continua, pero las formulaciones existentes son difíciles de optimizar con el aprendizaje por refuerzo (RL) on-policy estándar y difíciles de interpretar causalmente. Nuestra idea clave es que un solo par de tokens de frontera explícitos puede abordar ambos problemas a la vez: los anclajes de entrada y salida discretos hacen que el bloque latente sea compatible con el RL on-policy estándar, y los mismos anclajes ofrecen un punto de apoyo natural para el análisis mecanicista. Motivados por esto, proponemos SWITCH, un marco de razonamiento latente conmutable. El modelo emite \<swi\> para entrar en modo latente y \</swi\> para salir. Debido a que los límites son tokens discretos ordinarios, el ratio de política GRPO está bien definido en cada punto de decisión. Los mismos anclajes también exponen los pasos latentes a sondeo directo e intervención causal. Entrenamos el modelo con un currículo de visible a latente y un objetivo Switch-GRPO que propaga gradientes a través del cómputo recurrente latente. SWITCH supera consistentemente a enfoques anteriores de razonamiento latente con recurrencia de estado oculto a escala similar. El análisis mecanicista a través de los tokens de frontera revela además tres hallazgos: (i) \<swi\> es una política de conmutación aprendida y agudamente localizada, más que un artefacto estilístico; (ii) el paso latente que abre realiza un cómputo causalmente importante y específico del problema, en lugar de actuar como un marcador de posición inerte; y (iii) ese cómputo se concentra en una única transición de estado oculto en la entrada. En conjunto, estos resultados muestran que el razonamiento latente con recurrencia de estado oculto es tanto entrenable con RL como susceptible de análisis mecanicista directo, incluyendo cómo el propio RL on-policy mejora el modelo desde dentro.
Presentamos VideoMDM, un marco basado en difusión que entrena prioridades de movimiento humano 3D directamente a partir de poses 2D precisas extraídas de videos monoculares, sin necesidad de datos de referencia 3D. Un elevador 2D a 3D preentrenado proporciona secuencias de pose 3D aproximadas que sirven como un maestro ruidoso: estas se difunden, son denoizadas por el modelo en 3D y supervisadas en 2D mediante la reproyección de la predicción y su comparación con puntos clave precisos. Demostramos que, bajo supuestos moderados, una pérdida de reproyección 2D ponderada por profundidad es equivalente en expectativa a una supervisión 3D directa, y adaptamos regularizadores de movimiento 3D estándar (consistencia de velocidad y alineación de representación sobreparametrizada) a este entorno 2D. A diferencia de métodos que solo elevan 2D a 3D durante la inferencia, VideoMDM aprende una variedad de movimiento 3D coherente durante el entrenamiento. En HumanML3D, casi cierra la brecha con MDM supervisado completamente en 3D (FID 0.88 frente a 0.54); en conjuntos de datos de video reales Fit3D y NBA, el método aprende a generar movimientos consistentemente preferidos por humanos, con resultados cuantitativos sólidos.
A pesar de generar imágenes cada vez más fotorrealistas, los modelos de texto a imagen (T2I) todavía presentan fallos localizados, sutiles y estructuralmente complejos. Diagnosticar estos fallos requiere retroalimentación a nivel de instancia que responda dónde ocurre un defecto, de qué tipo es, por qué es defectuoso y su importancia para la calidad general de la imagen. Si bien los métodos recientes de retroalimentación densa van más allá de la supervisión escalar, sus representaciones centradas en mapas de calor siguen formulando el diagnóstico como una regresión en el campo de píxeles, lo que dificulta localizar defectos de cardinalidad variable y vincular razones semánticas a fallos individuales. Para abordar este cuello de botella en la representación, proponemos el Grounding Estructurado de Defectos (SDG, por sus siglas en inglés), que plantea el diagnóstico de T2I como una predicción de conjuntos estructurados, modelando cada defecto como una tupla (ubicación, tipo, razón, importancia). Para hacer que esta formulación sea entrenable y medible, introducimos SDG-30K, un conjunto de datos de 30K imágenes con anotaciones basadas en cajas en cuatro generadores T2I modernos, junto con un protocolo de evaluación dedicado, SDG-Eval. Basándonos en esta representación estructurada, presentamos además un marco de diagnóstico a alineación en el que un Modelo de Visión y Lenguaje (VLM) actúa como detector SDG, y BoxFlow-GRPO convierte los conjuntos de defectos predichos en recompensas espaciales derivadas de cajas y ponderadas por importancia para la alineación del modelo de difusión. Experimentos exhaustivos muestran que nuestro detector SDG supera a los principales VLMs propietarios en el grounding estructurado de defectos, mientras que las recompensas guiadas por SDG mejoran consistentemente la alineación de T2I y respaldan el refinamiento localizado de imágenes. Estos resultados establecen a SDG como una interfaz unificada a nivel de instancia para diagnosticar, evaluar y mejorar modelos generativos modernos.
Presentamos MoVerse, un modelo de video-mundo en tiempo real que crea una escena navegable interactivamente a partir de una única imagen de campo de visión estrecho. Este escenario es desafiante porque la entrada observa solo una pequeña fracción del entorno, mientras que la exploración interactiva requiere un mundo circundante completo, geometría persistente, movimiento de cámara controlable y observaciones de alta fidelidad temporalmente coherentes. MoVerse aborda este problema separando la construcción del mundo de la representación de la observación. Primero expande la entrada a un panorama de 360° alineado con la gravedad mediante difusión consciente de la topología, cerrando el campo de visión faltante antes del razonamiento 3D. Luego, eleva el panorama a un andamiaje gaussiano 3D persistente usando predicción residual panorámica consciente de la geometría, obteniendo una memoria espacial densa y directamente renderizable. Finalmente, un renderizador de video condicionado por gaussianos traduce las representaciones del andamiaje a lo largo de trayectorias de cámara especificadas por el usuario en video fotorrealista. Para hacer que este renderizador sea práctico para la interacción, entrenamos un profesor de difusión bidireccional para renderizado condicional de alta calidad y lo destilamos en un estudiante autorregresivo causal para streaming con latencia acotada. Este diseño combina la controlabilidad y consistencia a largo alcance de las representaciones 3D explícitas con la calidad perceptual de los modelos de video generativos. MoVerse admite la exploración de escenas en tiempo real a 8 FPS en una sola GPU NVIDIA RTX 4090, demostrando un camino práctico hacia la creación de mundos a partir de una sola imagen con salida de video interactiva.
Los modelos de lenguaje de gran escala se despliegan cada vez más como agentes para tareas de horizonte prolongado, pero su rendimiento no solo está moldeado por la capacidad del modelo y el diseño del entorno, sino también por el arnés que media la interacción agente-entorno. Los arneses existentes son en gran medida diseñados manualmente, lo que dificulta su escalabilidad a medida que las trayectorias se alargan y las interacciones se vuelven más complejas. En este trabajo, nos preguntamos si el arnés puede ser generado por un módulo conectable aprendible que pueda entrenarse de manera extremo a extremo. Presentamos HarnessBridge, un controlador de arnés aprendible y ligero que parametriza la interfaz agente-entorno como una proyección bidireccional. HarnessBridge aprende dos proyecciones bidireccionales: la proyección de observación, que destila trayectorias brutas en estados compactos y relevantes para la decisión, y la proyección de acción, que convierte las acciones propuestas en transiciones ejecutables o rechazos basados en la trayectoria. Entrenamos HarnessBridge en un conjunto de datos de supervisión del arnés mediante un ajuste de instrucciones unificado. En Terminal-Bench~2.0 y SWE-bench Verified, HarnessBridge iguala o supera a los arneses especializados robustos, reduciendo sustancialmente el uso de tokens y la longitud de las trayectorias, y se generaliza desde generadores más pequeños a modelos comerciales más grandes.
La destilación de difusión de pocos pasos se ha vuelto cada vez más madura para la generación de 4 a 8 pasos, pero avanzar a 2 pasos sigue siendo un desafío. En este trabajo, presentamos Z-Image Turbo++, un modelo de generación de imágenes de 2 pasos de alta calidad destilado a partir del maestro Z-Image Turbo de 8 pasos. Nuestro método aborda los cuellos de botella centrales del aumento de la dificultad de la tarea y la capacidad limitada del modelo en la generación de 2 pasos mediante tres opciones de diseño simples pero efectivas adaptadas a este régimen. Primero, proponemos el Aprendizaje Adversarial Alineado con la Distribución, que utiliza imágenes generadas por el maestro en lugar de imágenes reales externas como muestras reales para el entrenamiento GAN, proporcionando un objetivo adversarial más alcanzable e informativo. Segundo, adoptamos la Parametrización Desacoplada por Pasos, asignando parámetros de modelo independientes a los dos pasos de eliminación de ruido para adaptarse mejor a sus distintas demandas de capacidad. Tercero, realizamos Entrenamiento de Extremo a Extremo con Regularización Iterativa, permitiendo que el primer paso reciba gradientes de la calidad final de la imagen mientras se preserva una generación intermedia significativa mediante una pérdida explícita del paso 1. En conjunto, estos diseños reducen sustancialmente la brecha de calidad entre la generación de 2 pasos y la de 8 pasos tanto en evaluaciones cualitativas como cuantitativas, destacando el potencial de las estrategias de destilación cuidadosamente adaptadas para mejorar el equilibrio entre calidad y eficiencia en la generación de pocos pasos.
La búsqueda profunda requiere que los agentes respondan preguntas complejas mediante búsqueda web en múltiples pasos, navegación, comparación de evidencia y síntesis. Un desafío central es decidir cómo buscar cuando varias direcciones parecen plausibles pero solo algunas llevarán posteriormente a evidencia confiable. Si un agente sigue de manera codiciosa la dirección que parece mejor en ese momento, puede continuar extendiendo una continuación débil. Si explora sin disciplina, puede desperdiciar el presupuesto en pruebas inconexas. Proponemos TreeSeeker, un marco de trabajo en tiempo de inferencia para prueba y error controlada en búsqueda profunda. TreeSeeker organiza la búsqueda como una búsqueda de ramificación y retorno sobre estados estructurados en árbol, donde cada rama es una dirección tentativa para un subobjetivo. En cada ronda, TreeSearch lee todos los árboles de subobjetivos, identifica objetivos activos y utiliza señales textuales UCB de valor, incertidumbre y riesgo para seleccionar entre explotar una rama prometedora, explorar una alternativa incierta, o podar una continuación improductiva y regresar a un punto de ramificación anterior. TreeMem respalda este bucle de control al mantener evidencia, incertidumbre, conflictos, progreso e indicadores de fallo adjuntos a las ramas que los produjeron, de modo que los resultados de las pruebas puedan guiar decisiones posteriores. Los experimentos en XBench-DeepSearch, BrowseComp y BrowseComp-ZH muestran que TreeSeeker supera consistentemente a sólidas líneas base de código abierto, lo que sugiere que el control explícito de ramificación y retorno complementa un razonamiento y ejecución de herramientas más sólidos.
Las evaluaciones de robustez adversarial en modelos de lenguaje de gran escala (LLMs) suelen reportar la tasa de éxito del ataque (ASR) bajo presupuestos fijos de consultas, tratando implícitamente todos los ataques como igualmente costosos. En la práctica, el costo computacional de diferentes estrategias de ataque puede variar en órdenes de magnitud. En consecuencia, la ASR con un presupuesto fijo puede ocultar el esfuerzo real necesario para liberar un modelo, dificultando así determinar si el costo de un ataque justifica su beneficio para el atacante. Proponemos un marco de evaluación consciente del cómputo basado en la presión computacional, medida en operaciones de punto flotante (FLOPs) acumuladas, como un proxy del esfuerzo adversarial. Introducimos curvas de riesgo-cómputo, que asignan presupuestos de cómputo al riesgo de ataque, y derivamos dos métricas que resumen la presión promedio requerida para que un ataque dado tenga éxito. A través de diez modelos que abarcan tres familias y cuatro etapas diferentes en el entrenamiento y alineación de modelos de lenguaje, evaluados con tres estrategias de ataque (basadas en gradientes, refinamiento iterativo y plantillas) en dos benchmarks de robustez para liberación, encontramos: (1) el entrenamiento de alineación tiene efectos no monótonos en la robustez en el espacio de cómputo; (2) escalar el tamaño del modelo reduce la efectividad de los ataques basados en gradientes, pero tiene un impacto limitado en ataques más baratos basados en plantillas; (3) los ataques basados en gradientes optimizados en un modelo sustituto pueden transferirse a un modelo objetivo separado, proporcionando una forma de reducir los costos del atacante; (4) el costo computacional varía hasta aproximadamente 5 veces entre categorías de daño dentro de un mismo modelo; y (5) el RL alineado con seguridad aumenta el costo agregado mientras deja algunas categorías desproporcionadamente accesibles. Publicamos nuestro marco para permitir la evaluación y valoración del riesgo conscientes del cómputo.
El razonamiento visual requiere integrar evidencia distribuida entre regiones, atributos y relaciones, lo que hace que el razonamiento en cadena única sea propenso al compromiso perceptivo temprano y la alucinación. Proponemos Visual Para-Thinker++, un marco multiagente de política única en el que una política MLLM compartida se instancia como Agentes Principal, Trabajador y Resumen condicionados por roles. El Agente Principal descompone la tarea con patrones de asignación fijos; los Agentes Trabajadores razonan en paralelo bajo aislamiento de contexto; y el Agente Resumen concilia las trazas de razonamiento completas de los Trabajadores en lugar de votar por mayoría sobre las etiquetas finales. La política compartida se entrena mediante Inyección de Capacidad Multiagente y Optimización Multiagente con Roles Desacoplados, que asignan recompensas y ventajas específicas de cada rol a sus correspondientes segmentos de tokens para reducir el conflicto de gradientes entre roles colaborativos. Un motor de inferencia nativo permite un despliegue eficiente de múltiples agentes mediante un prefijo visual compartido y la reutilización de la caché KV. En V*, CountBench, la familia RefCOCO y HallusionBench, Visual Para-Thinker++ supera consistentemente a las líneas base de trayectoria única y paralelas en tiempo de inferencia, con ganancias especialmente significativas en el razonamiento visual sensible a las alucinaciones.
Anticipar las tendencias conductuales de los LLM a partir de sondas psicométricas de bajo costo es crucial para un despliegue seguro, pero solo si los autoinformes (SR) predicen el comportamiento de manera fiable. Trabajos recientes documentaron una disociación sustancial entre SR y comportamiento en los LLM, pero se basaron en rasgos de personalidad amplios (Big Five) que predicen comportamientos específicos de forma débil, incluso en humanos. Además, el aislamiento de las sesiones conversacionales combinado con un emparejamiento de contexto débil dejó abierta la cuestión de si los LLM realmente carecen de coherencia o si las condiciones necesarias para detectar dicha coherencia no se cumplieron. Contrastamos el Big Five con la Teoría del Comportamiento Planificado (TCP), que mide la intención dirigida a un comportamiento específico y predice el comportamiento humano sustancialmente mejor que los rasgos amplios. Realizamos experimentos en cuatro tareas conductuales y 11 LLM de frontera, variando también el contexto de sesión y la inducción de identidad. Encontramos que la coherencia SR-comportamiento existe pero es selectiva. 1) Dentro de una conversación compartida, la Teoría del Comportamiento Planificado alcanza una coherencia a nivel humano; el Big Five no. 2) Entre conversaciones separadas, la coherencia sobrevive solo para comportamientos anclados fuera de la instrucción inmediata, como el sesgo implícito moldeado por el entrenamiento, y colapsa cuando el comportamiento es fuertemente primado por el contexto, como en la adulación. 3) La indicación de persona (persona prompting) hace que los autoinformes sean más consistentes entre conversaciones, pero no alinea el comportamiento. Estos hallazgos sugieren que los marcos de personalidad gruesos, como el Big Five, pueden no ser las mejores herramientas para evaluar el comportamiento en el despliegue. Se necesitan instrumentos más específicos de tarea y comportamiento, e incluso estos deben evaluarse a través de tareas y contextos.
La destilación on-policy (OPD) entrena a un estudiante en sus propias trayectorias con una supervisión densa por token proveniente de un profesor más fuerte, y a menudo supera a la destilación off-policy y al aprendizaje por refuerzo estándar. Sin embargo, encontramos que su eficacia depende implícitamente de dos supuestos que con frecuencia se incumplen en la práctica: la alineación a nivel de trayectoria entre el estudiante y el profesor, y la fiabilidad uniforme a nivel de token de las preferencias del profesor. Por lo tanto, proponemos la Destilación On-Policy con Compuerta de Signo (SG-OPD), que utiliza un verificador binario como señal de confianza para el profesor en dos granularidades complementarias: el muestreo escalonado del profesor incorpora trayectorias del profesor respaldadas por el verificador en el arranque en frío, y una compuerta de consistencia de signo extrapola la actualización de destilación en los tokens donde el profesor coincide con la dirección corregida por el verificador y la interpola donde discrepa. Los experimentos en puntos de referencia de razonamiento matemático a nivel de competencia muestran que SG-OPD supera consistentemente a la OPD estándar, con ganancias promedio de 1,98 y 7,50 a nivel de muestra y de pregunta, respectivamente.
Los modelos de lenguaje (LM) compactos reducen el costo, la latencia y el riesgo de despliegue para agentes que utilizan herramientas. Sin embargo, el uso de herramientas al estilo MCP exige más que invocar funciones de forma aislada: un agente debe descubrir herramientas a partir de catálogos en vivo, cumplir con sus esquemas, preservar dependencias entre salidas intermedias y fundamentar las respuestas finales en la evidencia ejecutada. Los planificadores pequeños suelen generar grafos de flujo de trabajo plausibles que fallan en la resolución de herramientas, la validación de parámetros, el seguimiento de dependencias o la ejecución. Sostenemos que este modo de fallo es mal abordado por la destilación con corpus pequeños. Unos pocos cientos de rastros del profesor pueden enseñar el formato del flujo de trabajo, pero rara vez cubren el comportamiento de recuperación necesario para reparar planes fallidos en catálogos de herramientas cambiantes. Presentamos Evoflux, un método de búsqueda evolutiva en tiempo de inferencia que aborda el uso compacto de herramientas como la reparación de flujos de trabajo de herramientas ejecutables. Evoluciona grafos de flujo de trabajo tipados mediante ediciones estructuradas, retroalimentación de ejecución, intensidad adaptativa, rediseño guiado por metadatos y poda por diversidad. En tareas de MCP-Bench reservadas, que abarcan servidores MCP en vivo y 250 herramientas, Evoflux eleva la viabilidad de ejecución de aproximadamente 3% a 17-24% en distintos planificadores pequeños. En contraste, SFT y SFT+DPO sobre los mismos datos obtenidos por búsqueda igualan, tienen un rendimiento inferior o colapsan por debajo del rendimiento zero-shot; ReAct alcanza picos más altos, pero con mayor varianza y costo de tokens. Estos resultados muestran que la búsqueda basada en ejecución es más fiable bajo presupuestos escasos de rastros del profesor.
Los agentes LLM interactivos se están convirtiendo en parte del trabajo diario, pero no resultan de manera fiable más fáciles de usar con el tiempo: una corrección recordada en una sesión puede seguir siendo violada en la siguiente. Estudiamos esta brecha entre el acceso a preferencias y el cumplimiento de preferencias. En tareas derivadas de casos anónimos de fricción real de usuarios, la memoria de Mem0 aún deja un 57,5% de las comprobaciones de preferencias aplicables violadas. Presentamos Adquisición de Reglas en Tiempo de Prueba y Ejecución Compilada (TRACE), un canalización de capa de habilidades de inserción directa para entornos de ejecución de agentes de codificación que extrae correcciones del usuario, las reescribe como reglas atómicas y las compila en verificaciones en tiempo de ejecución que deben cumplirse antes de que un agente complete tareas futuras. A diferencia de las verificaciones en tiempo de ejecución escritas de antemano por los desarrolladores, las habilidades de TRACE provienen de las propias correcciones de chat del usuario. Evaluamos TRACE con experimentos simulados de usuario en el bucle en tareas de agente de codificación de ClawArena y tareas intensivas en memoria derivadas de MemoryArena. En ClawArena, TRACE reduce la violación de preferencias fuera de muestra del 100,0% al 37,6% en tareas dentro de la distribución y del 100,0% al 2,0% en tareas fuera de la distribución. En tareas derivadas de MemoryArena, TRACE reduce la violación dentro de la distribución del 100,0% al 60,5%, igualando o superando la línea base de memoria más fuerte en el éxito de la tarea. Estos resultados sugieren que compilar correcciones en ejecución en tiempo de ejecución puede abordar un modo de fallo por fricción repetida que la memoria por sí sola no resuelve de manera fiable, reduciendo la necesidad de que los usuarios repitan la misma corrección en sesiones futuras. El código del experimento está disponible en https://github.com/YujunZhou/TRACE_exp, y la habilidad desplegable está disponible en https://github.com/YujunZhou/tellonce.
Los Agentes de Búsqueda —modelos de lenguaje de gran escala aumentados con herramientas de búsqueda— han intensificado la necesidad de disponer de puntos de referencia de evaluación a prueba de futuro. Los puntos de referencia existentes, como BrowseComp, se basan en conocimiento estático, lo que los hace vulnerables a la contaminación del conjunto de prueba y a la memorización paramétrica. En consecuencia, los modelos pueden alcanzar puntuaciones elevadas mediante el recuerdo de hechos en lugar de una auténtica recuperación, ocultando la verdadera competencia de navegación a través de atajos de razonamiento. En este artículo presentamos EvoBrowseComp, un punto de referencia en evolución que consta de 400 preguntas complejas en inglés y 400 en chino, libres de contaminación, sintetizadas mediante recorridos de la web en vivo. Para recopilar estas preguntas, diseñamos un marco colaborativo de tres agentes: (1) un agente de síntesis de preguntas y respuestas que recupera conocimiento actualizado de la web en vivo para sintetizar pares de preguntas y respuestas; (2) un agente de filtrado de información que filtra el conocimiento recuperado en términos de credibilidad y popularidad para bloquear atajos paramétricos; y (3) un agente de guía de alto nivel que formaliza las preguntas en gráficos de razonamiento para reducir la redundancia lógica y los atajos en los pares de preguntas y respuestas sintetizados. Debido a que el marco admite una síntesis completamente automatizada, EvoBrowseComp puede actualizarse periódicamente para prevenir la contaminación de datos y mantener la vigencia temporal. Experimentos exhaustivos confirman su gran dificultad, ya que requiere una amplia búsqueda horizontal. Este establece un paradigma escalable para la creación de puntos de referencia actualizables automáticamente y de alta dificultad, que se mantienen al ritmo tanto del conocimiento mundial en evolución como de las capacidades cada vez más avanzadas de los agentes.
La geometría es invariante al punto de vista, lo que convierte cualquier conjunto de imágenes en una codificación redundante de un único estado 3D. Los modelos de reconstrucción feed-forward existentes no logran aprovechar esto: los métodos por vista generan mapas de puntos superpuestos y desalineados que crecen linealmente con el número de entradas, mientras que los métodos de latente global se comprometen con una salida fija y de baja resolución. Presentamos Surflo, que comprime un número variable de vistas RGB sin posar en K tokens latentes —un estado global— y decodifica puntos de superficie 3D orientados transportándolos independientemente desde el ruido hasta la superficie mediante flow matching. Esto libera la salida de cualquier rejilla fija o presupuesto de tokens: el mismo latente produce desde unos pocos miles hasta un millón de puntos en una sola pasada forward. Para suprimir las inconsistencias locales inherentes a la decodificación independiente punto por punto, un término de guía en tiempo de inferencia correlaciona puntos cercanos inyectando un gradiente fotométrico durante la integración de la EDO. Surflo iguala o supera a las líneas base feed-forward en métricas de superficie, se ejecuta un orden de magnitud más rápido que los métodos basados en optimización que requieren cientos de vistas, y es el único enfoque feed-forward que combina un latente global con decodificación de resolución arbitraria.
Presentamos Flash-GMM, un kernel Triton fusionado para el cómputo eficiente de Modelos de Mezcla Gaussianas (GMMs) sobre datos a gran escala en una sola pasada de GPU. Al eliminar la necesidad de materializar la matriz completa de responsabilidades en la memoria de la GPU, Flash-GMM logra una aceleración de 20 veces respecto a implementaciones existentes y permite entrenar conjuntos de datos más de 100 veces mayores de lo que era factible anteriormente en un solo dispositivo. Para demostrar su impacto, integramos Flash-GMM en el cuantizador grueso de IVF para la búsqueda aproximada de vecinos cercanos (ANN). Mostramos que el agrupamiento GMM suave es ahora una sustitución directa viable para k-means, y que las responsabilidades del GMM pueden aprovecharse para asignar vectores frontera a múltiples clústeres. Nuestro enfoque alcanza objetivos fijos de recall con hasta 1.7 veces menos cómputos de distancia, o equivalentemente, produce un incremento de +2 a 12 en recall@10 con un costo computacional equivalente. Publicamos el kernel como proyecto de código abierto.
La alineación de representaciones con modelos visuales preentrenados ha demostrado recientemente un gran potencial para acelerar el entrenamiento de transformers de difusión. Al alinear las características intermedias de difusión con representaciones de imágenes limpias obtenidas de codificadores visuales autosupervisados, los métodos existentes mejoran la convergencia y la calidad de generación. Sin embargo, dicha alineación también introduce una restricción no trivial: los modelos de difusión operan sobre entradas ruidosas cuya información utilizable varía a lo largo de los pasos temporales, mientras que las características de referencia se extraen de imágenes limpias. En este artículo, revisitamos este desajuste desde una perspectiva a nivel de tokens. Descubrimos que, bajo una alineación de representaciones con todos los tokens, aquellos con grandes normas de gradiente de alineación muestran una preferencia espacial estable, lo que sugiere que el objetivo de alineación no afecta a todos los tokens de manera uniforme y puede incentivar al modelo a depender del conjunto completo de tokens de imágenes limpias. Para abordar este problema, proponemos MaskAlign, un método de alineación de representaciones por subconjuntos de tokens que aplica alineación a subconjuntos de tokens muestreados aleatoriamente durante el entrenamiento. Al exponer el modelo a diferentes subconjuntos de tokens a lo largo de las iteraciones, MaskAlign reduce la dependencia de la alineación de representaciones del conjunto completo de tokens y fomenta un comportamiento de alineación más estable bajo perturbaciones de subconjuntos de tokens. Para mitigar la pérdida de información causada por eliminar tokens directamente, introducimos además un bloque ligero de mezcla de tokens previa a la máscara que comparte información entre los tokens antes del enmascaramiento.
Los simuladores robóticos son un pilar de la investigación moderna en robótica aérea, sirviendo tanto como vehículo para el desarrollo de nuevos algoritmos de control como fuente de datos para entrenar políticas de aprendizaje por refuerzo (RL). Sin embargo, los entornos de aprendizaje para cuadricópteros existentes a menudo enfrentan un compromiso entre la fidelidad física, el soporte multiagente y el rendimiento requerido por los pipelines modernos de RL profundo. En este artículo, presentamos MuJoCo-Drones-Gym, un entorno multiagente de código abierto compatible con Gymnasium, construido sobre el motor de física MuJoCo. MuJoCo-Drones-Gym soporta un número arbitrario de nano-cuadricópteros Bitcraze Crazyflie 2.x y expone una API modular para seleccionar (i) el modelo físico (MuJoCo de cuerpo rígido, dinámica explícita en Python, o cualquier subconjunto de efecto suelo, arrastre de palas y downwash entre drones), (ii) la interfaz de acción (RPM por motor, empuje normalizado colectivo, puntos de consigna de velocidad o comandos de waypoint PID), y (iii) el espacio de observación (vectores de estado cinemático, cámaras RGB / profundidad / segmentación, o información de adyacencia de vecindad). Un envoltorio PettingZoo ParallelEnv permite el aprendizaje por refuerzo multiagente sin modificaciones, mientras que un conjunto de siete entornos de tareas —estacionario, seguimiento de velocidad, estacionario multiagente, navegación por waypoints, vuelo en formación, carrera de puertas y una plantilla multiagente genérica— demuestra la amplitud de la interfaz. Describimos el diseño del entorno, la física subyacente y la dinámica del cuadricóptero, e ilustramos su uso mediante ejemplos de control y aprendizaje que reflejan los del proyecto estrechamente relacionado gym-pybullet-drones, aprovechando el mejor manejo de contactos, renderizado y paralelización de MuJoCo.
Los sistemas multiagente se comunican principalmente a través de texto, lo que implica un costoso proceso de decodificación y recodificación con pérdida de información. La comunicación mediante caché KV es una alternativa prometedora; sin embargo, la mayoría de los trabajos previos son homogéneos, utilizando copias duplicadas del mismo modelo, y evitan el desafío central de la alineación latente entre modelos. Los métodos heterogéneos existentes también son restrictivos, ya que generalmente asumen una entrada compartida y utilizan las cachés transferidas principalmente para dirigir el proceso. En este trabajo, abordamos una pregunta más fundamental: ¿pueden los agentes heterogéneos alinearse lo suficientemente bien como para realizar una auténtica "lectura de mente" y transferir tanto lo que un agente ve como cómo piensa? Nuestro análisis de la estructura de la información revela una dualidad: la transferencia sensible al contexto se impulsa mediante señales de razonamiento dispersas, mientras que la transferencia insensible al contexto, donde el receptor no ve ninguna entrada, requiere la preservación densa del conocimiento contextual. Motivados por esto, proponemos una alineación densa para la comunicación heterogénea mediante caché KV, a través de una transformación ligera de caché entre modelos y un entrenamiento en dos fases: primero reconstrucción y luego generación. En las seis direcciones de {Qwen3-4B, 8B, 14B} y seis conjuntos de referencia dentro y fuera del dominio, nuestro método supera a las líneas base heterogéneas previas, iguala o supera la comunicación textual en configuraciones sensibles al contexto con un costo computacional aproximadamente 2 o 3 veces menor, y sigue siendo efectivo en la transferencia insensible al contexto, donde los métodos anteriores colapsan.
Los posibles impactos de los modelos del mundo (WMs, por sus siglas en inglés, simuladores aprendidos) en robótica son de gran alcance: evaluación de políticas, mejora de políticas y planificación en tiempo de prueba, todo ello con una interacción limitada con el mundo real. Para desbloquear estas capacidades posteriores, un WM debe satisfacer conjuntamente tres desiderata: (i) fidelidad (es decir, producir trayectorias simuladas que se correlacionen con la realidad), (ii) consistencia (es decir, producir trayectorias simuladas coherentes a lo largo de horizontes largos) y (iii) eficiencia (es decir, producir trayectorias simuladas rápidamente). Proponemos WEAVER (Estimación Mundial a través de Vistas para Razonamiento Corporizado): una arquitectura de WM que logra simultáneamente los tres desiderata, proporcionando resultados de vanguardia en tareas de manipulación robótica. WEAVER es un WM multivista entrenado para predecir latentes futuros y valores de recompensa mediante una pérdida de emparejamiento de flujo. Destilamos las decisiones clave de diseño en arquitectura de modelo, memoria y objetivos de predicción necesarias para desbloquear el tipo de tareas de manipulación dinámica de largo horizonte que han desconcertado a enfoques anteriores de modelos del mundo. Aplicamos WEAVER en hardware robótico, demostrando su efectividad en evaluación de políticas (correlación ρ=0.870 con la tasa de éxito en el mundo real), mejora de políticas (mejora del 38% en la tasa de éxito en el mundo real sobre el modelo base de robot π_{0.5}) y planificación en tiempo de prueba (mejora del 14% en la tasa de éxito en el mundo real con una aceleración de 5 a 10 veces en comparación con WMs anteriores). WEAVER también demuestra un rendimiento superior al de WMs anteriores cuando se evalúa en escenarios fuera de la distribución. Código, modelos y vídeos en: https://arnavkj1995.github.io/WEAVER/ .
La navegación web autónoma sigue siendo un desafío para los agentes basados en modelos de lenguaje de gran escala (LLM), y los sistemas generalistas más potentes dependen de modelos de razonamiento propietarios cuyo costo de inferencia resulta prohibitivo para las tareas repetitivas en las que dichos agentes serían más útiles. Sostenemos que esta brecha no proviene de una capacidad insuficiente del modelo, sino de arquitecturas de agente que no logran replicar tres ventajas cognitivas humanas: la atención selectiva a regiones relevantes de la página, la memoria persistente de la estructura del sitio web y la fluidez procedimental en patrones de interacción comunes. Presentamos WebChallenger, un marco de trabajo para agentes web que aborda cada una de estas brechas mediante el diseño arquitectónico, no el escalado del modelo, construido en torno a PageMem: una representación estructurada de página construida determinísticamente a partir del DOM que expone cada página como una jerarquía de secciones semánticas con resúmenes breves. Sobre esta base compartida, implementamos tres mecanismos que reflejan las tres ventajas cognitivas: un pipeline de observación divide y vencerás que permite al agente revisar resúmenes de secciones y extraer detalles solo de regiones relevantes para la tarea; un sistema ligero de exploración y memoria que recorre cada sitio web una vez para construir un mapa reutilizable de páginas y comportamientos de elementos; y flujos de trabajo de acciones compuestas que convierten interacciones comunes de múltiples pasos en acciones únicas del agente, manejando automáticamente cambios de estado parciales. Dado que los tres operan sobre PageMem, el marco se generaliza entre sitios web sin necesidad de adaptadores específicos. Utilizando modelos abiertos listos para usar sin ajuste fino, nuestro sistema alcanza un 56.3% en WebArena, un 48.7% en VisualWebArena, un 51.0% en Online-Mind2Web y un 70.9% en WorkArena, acercándose a los sistemas propietarios de última generación a una fracción del costo. Nuestro código está disponible en https://github.com/jayoohwang1/webchallenger.
Basados en modelos de base de visión preentrenados (VFMs), los autoencoders de representación (RAEs) han surgido recientemente como un enfoque prometedor para construir espacios latentes semánticamente ricos para la generación de imágenes. Sin embargo, su calidad de reconstrucción suele seguir siendo subóptima, en gran parte porque las representaciones profundas de VFM no preservan suficiente detalle visual detallado. Esta limitación se vuelve aún más severa tras la discretización, donde la información de bajo nivel faltante es difícil de recuperar. De hecho, observamos que las características superficiales de VFM retienen un detalle de apariencia local y estructural considerablemente más rico, lo que complementa la semántica de alto nivel que portan las características profundas utilizadas en los RAEs existentes. Motivados por esta propiedad complementaria, proponemos Ideal, un marco de alineación profunda para la auto-codificación de representación discreta. Al alinear conjuntamente los tokens cuantizados con características tanto superficiales como profundas de VFM, Ideal permite que los tokens visuales discretos resultantes preserven tanto la fidelidad visual como una semántica rica. Experimentos exhaustivos demuestran que Ideal produce un rendimiento de reconstrucción superior, alcanzando un rFID de 0.61 en ImageNet y superando al mejor método anterior en 0.28. Cuando se utiliza para generación de imágenes autoregresiva, Ideal produce además un gFID de 1.89, estableciendo un nuevo estado del arte para la generación de imágenes autoregresiva.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han demostrado capacidades de razonamiento prometedoras en dominios generales, pero su rendimiento sigue siendo limitado en entornos especializados como la atención médica, especialmente en escenarios multilingües y de bajos recursos. Esta brecha es crítica en regiones como la India rural, donde los pacientes a menudo expresan consultas médicas complejas en lenguas índicas nativas y dependen de entradas multimodales como imágenes médicas. Los MLLMs existentes, centrados en inglés, tienen dificultades para respaldar dichos casos de uso, lo que limita el acceso equitativo a la asistencia sanitaria impulsada por IA. Para abordar este desafío, presentamos ArogyaBodha, un conjunto de datos multilingüe multimodal médico de preguntas y respuestas a gran escala construido a partir de ocho fuentes heterogéneas, que cubre 31 sistemas corporales, seis modalidades de imagen y 21 dominios clínicos en inglés y siete lenguas indias principales. Además, proponemos ArogyaSutra, un marco multiagente basado en actor-crítico que integra el anclaje de herramientas con mecanismos de memoria dual para la toma de decisiones paso a paso consciente del razonamiento, y utiliza trayectorias de simulación actor-crítico almacenadas para destilación. Los experimentos muestran que nuestro conjunto de datos y marco mejoran la precisión del razonamiento médico multilingüe en todas las lenguas índicas, y las ablaciones validan la contribución de cada componente. El código fuente y el conjunto de datos están disponibles en: https://iitp-cse.github.io/ArogyaSutra/
Estamos rodeados de diversos objetos con partes móviles y articuladas, como cajas, mangos o puertas. Una percepción precisa y generalizable de las partes articuladas es esencial para mejorar las capacidades de manipulación robótica. Atendiendo a esta necesidad, los esfuerzos recientes en la percepción de partes articuladas han seguido dos direcciones principales: una línea de trabajo utiliza representaciones basadas en pose, que requieren un alto costo manual; en paralelo, los métodos basados en affordance extraen el movimiento futuro de los objetos a partir del seguimiento de puntos sin esfuerzo manual adicional, pero sufren de datos de baja calidad. En este artículo, proponemos una nueva representación de partes articuladas, la Estructura Geométrica Primaria (GPS, por sus siglas en inglés), una abstracción de la estructura geométrica de las partes para equilibrar escalabilidad y calidad. Para una recolección de datos eficiente y escalable, GPS se integra con un dispositivo portátil de Realidad Virtual (VR) y requiere solo un minuto para anotar una secuencia de objetos. Esta anotación humana directa proporciona una mayor calidad que la affordance estimada. Con este sistema eficiente VR-GPS, recolectamos 41K fotogramas de 234 objetos en seis clases de partes, y entrenamos un modelo GPS generalizable con una única imagen RGB-D del objeto como entrada. Para la manipulación de objetos, implementamos una política heurística basada en la predicción de GPS. Sin ningún ajuste fino dentro del dominio, nuestro método alcanza una tasa de éxito del 73%, cubriendo 270 estados iniciales para 9 objetos. Nuestro código, datos y herramienta reutilizable están disponibles en https://enlighten0707.github.io/gps.
¿Son los agentes LLM que invocan herramientas igualmente seguros a lo largo de una conversación? Descubrimos que no: los agentes son más vulnerables al inicio de una sesión y se vuelven sustancialmente más seguros después de realizar algunas tareas agentivas regulares, un fenómeno que denominamos brecha de seguridad de arranque en frío. Para estudiarlo sistemáticamente, presentamos Safety Over Depth for Agents (SODA), un punto de referencia que controla cuántas tareas agentivas regulares completa el agente antes de enfrentar una amenaza de seguridad, admitiendo hasta 20 tareas previas. Al evaluar 7 modelos de 4 familias, la seguridad mejora entre un 9 y un 52% a medida que el número de tareas agentivas regulares previas aumenta de cero a veinte. El análisis de representaciones confirma que los estados ocultos del modelo se desplazan gradualmente hacia una región alineada con la seguridad a medida que hay más tareas previas. Al estudiar sistemáticamente qué parte de la conversación previa es más relevante, encontramos que las propias tareas agentivas regulares son el principal impulsor de la seguridad, mientras que las respuestas previas del agente tienen menos efecto en la seguridad pero son esenciales para preservar la utilidad posterior. Esta conclusión se respalda con la evaluación en puntos de referencia de seguridad de código abierto (AgentHarm, Agent Safety Bench) y puntos de referencia de utilidad (BFCL, API-Bank), confirmando que calentar al agente con tareas agentivas regulares antes del despliegue lo hace más seguro y preserva su capacidad completa. Basándonos en estos hallazgos, recomendamos una estrategia de despliegue simple: hacer que el agente complete algunas tareas agentivas regulares antes de una posible exposición a solicitudes críticas para la seguridad mitiga la brecha de seguridad de arranque en frío. Nuestro código está disponible en https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap.
Los modelos de lenguaje de gran escala desplegados como agentes sobre catálogos extensos de herramientas enfrentan un cuello de botella crítico en la recuperación de herramientas. Dado que los enfoques de recuperación basados en incrustaciones dependen de codificadores compactos que pueden no capturar adecuadamente la semántica especializada de las herramientas, la recuperación paramétrica de herramientas aborda esto codificando cada herramienta como un token virtual añadido al vocabulario del LLM, ajustado finamente en dos etapas (memorización y luego SFT de recuperación) para usar el LLM como recuperador, logrando un rendimiento sólido en los benchmarks estándar de recuperación de ToolBench. Sin embargo, estos benchmarks emplean consultas detalladas y completamente especificadas, y su evaluación aplica decodificación restringida que limita las salidas a rutas de tokens válidas, sin revelar si el modelo realmente comprende sus herramientas. Presentamos ToolSense, un marco de diagnóstico de código abierto basado en LLM que toma cualquier catálogo de herramientas como entrada y genera automáticamente tres benchmarks: un Benchmark de Recuperación Realista (RRB) con consultas en tres niveles de ambigüedad, un benchmark de sondeo de tipo MCQ y un benchmark de sondeo de tipo QA. Al aplicar ToolSense a ToolBench (~47k herramientas) y evaluar cinco configuraciones de entrenamiento de modelos paramétricos, se revela una disociación entre conocimiento y recuperación: en consultas del RRB, varias configuraciones colapsan entre ~50 y 64 puntos porcentuales en comparación con los benchmarks de ToolBench completamente especificados, cayendo por debajo de la línea base del modelo de incrustaciones. Además, a pesar de un rendimiento sólido en la recuperación, algunos modelos obtienen puntuaciones cercanas al azar en las sondas factuales, lo que sugiere una disociación entre conocimiento y recuperación. Publicamos el marco ToolSense y los benchmarks de diagnóstico de ToolBench en https://github.com/SAP/toolsense.
La representación interpretativa expresiva (EPR) busca generar interpretaciones realistas condicionadas a secuencias de notas. Sin embargo, los modelos de edición de audio por emparejamiento de flujo solo manipulan muestras musicales sincronizadas de la misma duración, lo que limita su comprensión del tiempo expresivo. Presentamos PianoKontext, un modelo de representación por emparejamiento de flujo para música clásica de piano que genera interpretaciones de duración variable en el espacio latente de un modelo Music2Latent preentrenado. Sintetizamos partituras MIDI en audio inexpresivo y empleamos Dynamic Time Warping (DTW) en el espacio latente para construir datos emparejados para el entrenamiento. Los embeddings alineados se concatenan en bloques DiT, lo que permite un aprendizaje simple y efectivo de las dependencias entre la partitura y las interpretaciones. Las muestras de audio están disponibles en nuestra página de demostración: https://realfolkcode.github.io/pianokontext_demo/.
Los avances en el reconocimiento de texto manuscrito han permitido la transcripción a gran escala de documentos históricos, pero aún ofrecen un acceso limitado a mediciones visuales interpretables para la paleografía, el estudio de las escrituras históricas. En este artículo, nuestra principal contribución es que el análisis morfológico de la escritura, en particular la capacidad de aprender prototipos de caracteres a partir de transcripciones a nivel de línea, permite definir mediciones paleográficas escalables, significativas y estables. Más precisamente, aprovechamos una arquitectura de detección basada en transformadores junto con un módulo de reconstrucción de línea basado en prototipos para aprender caracteres prototípicos y su ocurrencia, deformación y posicionamiento. Nuestras contribuciones son dobles. En primer lugar, presentamos una arquitectura profunda y una metodología de aprendizaje que permite un modelado eficiente de caracteres con solo supervisión de transcripción a nivel de línea, mejorando significativamente la línea base de Learnable Typewriter y permitiendo la predicción precisa de cuadros delimitadores de caracteres, desbloqueando su potencial para mediciones paleográficas. En segundo lugar, introducimos y demostramos la relevancia paleográfica de las mediciones automáticas habilitadas por nuestra arquitectura para caracteres, bigramas y espacios entre unidades gráficas. Para esta demostración, extendemos las anotaciones del códice París, BnF, fr. 2813, encargado a finales del siglo XIV por Carlos V y copiado por cuatro manos, a 160 páginas. Visualizamos nuestras mediciones en estas páginas, mostrando cómo nos permiten no solo diferenciar perfiles gráficos, sino también descubrir y analizar variaciones sutiles. Este estudio de caso demuestra la escalabilidad de nuestro enfoque y su frugalidad en términos de datos de entrenamiento requeridos, ya que una sola columna de texto es suficiente para calcular nuestras mediciones en cada una de las 160 páginas. Los datos y el código están disponibles públicamente en: https://malamatenia.github.io/morphology4metrology-analysis.
El aprendizaje de representaciones compatibles tiene como objetivo aprender representaciones de características que puedan usarse indistintamente a lo largo del tiempo cada vez que un modelo sufre actualizaciones. En este artículo, demostramos que las representaciones estacionarias aprendidas mediante clasificadores fijos en d-simplex implican compatibilidad según su definición formal. Este resultado establece una base para trabajos futuros y puede explotarse directamente en escenarios prácticos de aprendizaje. Abordamos el desafío de aprender compatibilidad utilizando clasificadores fijos en d-simplex cuando el modelo se ajusta finamente de forma secuencial. El aprendizaje según un clasificador fijo en d-simplex con la pérdida de entropía cruzada alinea las distribuciones de características en las estadísticas de primer orden. En consecuencia, puede no capturar completamente las dependencias de orden superior en la representación entre las actualizaciones del modelo. Para abordar este problema, demostramos que entrenar el modelo utilizando un clasificador fijo en d-simplex mediante una combinación convexa de la pérdida de entropía cruzada y una pérdida contrastiva no solo captura dependencias de orden superior, sino que también equivale a aprender con la entropía cruzada bajo las restricciones de compatibilidad. Confirmamos nuestros hallazgos con experimentos exhaustivos que también consideran un nuevo escenario donde un modelo preentrenado se ajusta finamente de forma secuencial y ocasionalmente se reemplaza con un modelo mejorado. Mostramos que las representaciones estacionarias permiten servicios de recuperación ininterrumpidos (sin reprocesar imágenes de la galería) mientras mejoran el rendimiento durante las actualizaciones y reemplazos del modelo, alcanzando el estado del arte. Código en https://github.com/miccunifi/iamcl2r.
Los Grandes Modelos de Lenguaje (LLMs) se utilizan cada vez más para tareas de anotación zero-shot y de LLM como juez, sin embargo, su fiabilidad depende de cómo los priores internalizados por el modelo interactúan con las instrucciones proporcionadas por el usuario. Investigamos tres dimensiones de esta interacción: (1) cómo la familiaridad del LLM con los datos y las definiciones de tareas afecta el rendimiento, (2) la medida en que información adicional en las instrucciones puede corregir errores zero-shot ("persistencia de decisiones"), y (3) la susceptibilidad del modelo a definiciones de tareas desalineadas. Mediante experimentos de detección de toxicidad en diversos conjuntos de datos (que abarcan redes sociales, videojuegos, noticias y foros) utilizando modelos densos y de mezcla de expertos, encontramos que casi dos tercios de los errores zero-shot son resistentes a la corrección, con una tasa de rescate general (fracción de errores iniciales corregidos mediante instrucciones) de solo el 34.8%. Los errores de alta confianza resultan especialmente resistentes a la corrección. Cuando se les proporcionan definiciones desalineadas, los LLMs las siguen manteniendo los niveles de confianza sin cambios respecto a la condición alineada. De manera crucial, introducimos la Familiaridad Específica de Definición (DSF), que mide la alineación entre el concepto interno del modelo y la definición de la tarea. Tras controlar por confusores a nivel de conjunto de datos, la DSF muestra una asociación positiva con el rendimiento del modelo (r parcial = +0.41), mientras que tres métricas de memorización distintas (ROUGE-L, BERTScore y similitud coseno de embeddings) no logran mostrar una asociación positiva. Estos hallazgos evidencian las limitaciones de la corrección basada en instrucciones en tareas de anotación, destacando la importancia de la alineación de definiciones por sobre la memorización a nivel de texto.