Artículos de investigación en IA seleccionados diariamente con traducciones
Las figuras científicas se encuentran entre los medios más efectivos para comunicar ideas complejas de investigación, sin embargo, la producción de ilustraciones de calidad para publicación sigue siendo una de las partes más laboriosas de la preparación de artículos. Los sistemas automatizados existentes se enfocan cada uno en un solo tipo de figura bajo entrada únicamente textual, dejando sin abordar la diversidad de tipos y condiciones que los investigadores realmente utilizan; además, sus salidas rasterizadas no pueden ser revisadas localmente. Debido a que las figuras científicas son composiciones estructuradas de componentes semánticos discretos, los errores localizados que los generadores producen en dichos diseños requieren no un modelo base más potente sino un arnés. Materializamos este arnés en dos sistemas complementarios: Crafter, un arnés multiagente para la generación de figuras que se generaliza a través de tipos de figuras y condiciones de entrada sin cambios arquitectónicos, y CraftEditor, que aplica el mismo patrón para convertir salidas rasterizadas en SVG editables. Además, presentamos CraftBench, un punto de referencia que abarca tres tipos de figuras y cuatro condiciones de entrada con anotación humana de calidad. Los experimentos muestran que Crafter supera sustancialmente tanto a los generadores independientes como a la línea base agentiva en PaperBanana-Bench y CraftBench, con ablaciones que confirman la contribución independiente de cada componente; CraftEditor convierte fielmente las salidas en SVG editables que superan todas las líneas base. Nuestro código y punto de referencia están disponibles en https://github.com/HaozheZhao/Crafter.
El ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés) suele tratarse como una alternativa más económica al ajuste fino completo. En este trabajo, estudiamos un rol más amplio: pequeños adaptadores entrenables como estado local persistente sobre modelos fundacionales compartidos sólidos. Bajo este marco, el modelo base proporciona competencia compartida, mientras que los adaptadores portan comportamientos específicos de cada instancia, como preferencias, habilidades, hábitos de uso de herramientas y actualizaciones similares a la memoria. Organizamos el problema en torno a tres ejes de escalado: Escalado hacia arriba (Scale Up), donde prioridades compartidas más fuertes hacen que las actualizaciones locales pequeñas sean más útiles; Escalado hacia abajo (Scale Down), donde estudiamos cuán pequeños pueden ser los adaptadores manteniendo su fiabilidad; y Escalado hacia afuera (Scale Out), donde muchas instancias adaptadas persistentes coexisten. MinT proporciona un ejemplo de infraestructura para gestionar la identidad, revisión, procedencia, evaluación y residencia de servicio de los adaptadores. En conjunto, los resultados sugieren que PEFT puede ser un sustrato compacto para modelos personales persistentes, en lugar de ser solo un sustituto económico del ajuste fino completo.
A medida que las capacidades de los agentes avanzan, los puntos de referencia existentes, como τ^2-Bench, se están saturando cada vez más. Sin embargo, la construcción de nuevas tareas de referencia sigue siendo compleja, costosa y laboriosa. Además, el enfoque estándar, en el que los escenarios se escriben primero en lenguaje natural y luego se asignan a secuencias de herramientas, captura solo un subconjunto limitado de los patrones de uso de herramientas que ejercen los agentes. En este artículo, abordamos estos problemas invirtiendo el proceso de construcción de tareas. Proponemos TASTE: Síntesis de Tareas a partir de la Evolución de Secuencias de Herramientas (Task Synthesis from Tool Sequence Evolution), un método automático que genera tareas desafiantes con una cobertura más amplia del uso de herramientas. TASTE utiliza un modelo adaptativo de n-gramas contrastivos entrenado con señales de validez evaluadas por un LLM. Esto permite muestrear secuencias de herramientas válidas que cubren una amplia gama de combinaciones de herramientas. Luego, TASTE selecciona secuencias representativas del conjunto mediante agrupamiento, las instancia en tareas de referencia completas y las refina mediante una evolución iterativa de la dificultad. Usando TASTE, construimos τ^c-Bench, una extensión desafiante de los tres dominios de τ^2-Bench. Evaluamos 11 pares agente/LLM de usuario y encontramos que los modelos que casi saturan τ^2-Bench sufren caídas severas en el rendimiento en nuestras tareas (por ejemplo, Gemini-3-Flash cae de 0.82-0.94 a 0.28-0.61). Más allá de aumentar la dificultad, nuestras tareas generadas más que duplican el número de combinaciones únicas de herramientas que los agentes deben ejecutar. Nuestros resultados sugieren que las puntuaciones altas en puntos de referencia existentes a menudo reflejan saturación en lugar de una capacidad robusta para resolver tareas. Al automatizar la generación de puntos de referencia difíciles y de alta cobertura, TASTE permite una evaluación continua y escalable de los agentes futuros.
Las evaluaciones de modelos frontera están desplazándose desde capacidades fundamentales (p. ej., seguir instrucciones y razonamiento) hacia capacidades composicionales y agentivas, pero los benchmarks agentivos en coreano siguen siendo escasos. Introducimos K-BrowseComp, un benchmark de agentes de navegación web contextualizado en coreano, compuesto por 400 problemas. El subconjunto de 300 problemas K-BrowseComp-Verified es construido manualmente y validado por hablantes nativos de coreano. En este subconjunto, los LLMs frontera, incluyendo GPT-5.5, DeepSeek-V4-Pro y GLM-5.1, alcanzan solo un 30.00–45.67%, una caída sustancial respecto a BrowseComp, mientras que los LLMs coreanos publicados a través del programa de Modelos de Fundación de IA Propietaria de Corea obtienen solo un 0.00–10.33%. Además, construimos una división sintética de 100 problemas utilizando ejemplares de few-shot difíciles y generación dirigida a modos de fallo para explotar la asimetría entre resolver y crear problemas de navegación web. En la división sintética diagnóstica filtrada adversarialmente, el modelo más fuerte alcanza solo un 26.00%, y reportamos esta división por separado como una prueba de estrés dirigida. Publicamos nuestros datos y código de forma abierta.
Los agentes de búsqueda a menudo se entrenan como políticas sobre transcripciones en crecimiento: el modelo debe decidir cómo buscar mientras recuerda lo que ha visto, qué evidencia es útil, qué restricciones permanecen abiertas y qué afirmaciones se han verificado realmente. Sostenemos que esta formulación impone demasiada gestión rutinaria de estado dentro de la política: el aprendizaje por refuerzo se ve forzado a optimizar tanto las decisiones semánticas de búsqueda como el mantenimiento de registros recuperables que el entorno puede gestionar de manera más fiable. Presentamos Harness-1, un agente de búsqueda (subagente de recuperación) de 20B entrenado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado. El arnés mantiene una memoria de trabajo del lado del entorno, que incluye un grupo de candidatos, un conjunto seleccionado etiquetado por importancia, enlaces de evidencia compactos, registros de verificación, observaciones comprimidas y deduplicadas, y una representación de contexto consciente del presupuesto. La política conserva las decisiones semánticas: qué buscar, qué documentos conservar o descartar, qué verificar y cuándo detenerse. En ocho puntos de referencia de recuperación que abarcan web, finanzas, patentes y preguntas-respuestas de múltiples saltos, Harness-1 alcanza un recall curado promedio de 0.730, superando al siguiente subagente de búsqueda abierta más fuerte en +11.4 puntos y manteniéndose competitivo con buscadores de modelos frontera mucho más grandes. Sus mejoras son especialmente notables en puntos de referencia de transferencia no vistos, lo que sugiere que el aprendizaje por refuerzo sobre un estado de búsqueda explícito puede producir comportamientos de recuperación que se generalizan más allá de los dominios de entrenamiento. Nuestro código está disponible en https://github.com/pat-jj/harness-1.
La decodificación especulativa acelera la inferencia en modelos de lenguaje grandes al emparejar un modelo objetivo con un modelo borrador ligero cuyas propuestas de tokens se verifican en paralelo. Un método común para construir modelos borrador, como EAGLE3 o DFlash, es el ajuste fino supervisado (SFT) sobre trayectorias generadas por el modelo objetivo. Sin embargo, observamos que el SFT se estanca rápidamente: la longitud de aceptación del modelo borrador en datos de prueba deja de mejorar. La razón es un desajuste entre el entrenamiento offline y la inferencia: en el SFT, el borrador aprende a partir de trayectorias fijas generadas por el modelo objetivo, mientras que durante la decodificación especulativa se evalúa sobre bloques propuestos bajo su propia política. Esto motiva la destilación on-policy (OPD), donde el modelo objetivo supervisa al borrador en estados inducidos por este último. Sin embargo, la OPD sigue siendo difícil para los modelos borrador, ya que no pueden desplegar secuencias completas de forma fiable e independiente, mientras que la generación asistida por el modelo objetivo hace que las secuencias recogidas sigan la distribución de este, eliminando así la señal on-policy. Por lo tanto, proponemos Draft-OPD, que utiliza un despliegue asistido por el modelo objetivo para continuaciones estables y reproduce el borrador desde las posiciones de error expuestas durante la verificación. Esto permite que el borrador aprenda de la retroalimentación del modelo objetivo tanto en propuestas aceptadas como rechazadas, centrando el entrenamiento en los errores inducidos por el borrador que limitan la aceptación especulativa. Los experimentos muestran que Draft-OPD logra una aceleración sin pérdidas de más de 5 veces para modelos de razonamiento en diversas tareas, mejorando en un 23% y un 13% respecto a EAGLE-3 y DFlash, respectivamente.
El decoding especulativo acelera la inferencia de LLM al generar borradores de múltiples tokens y verificarlos en paralelo con el modelo objetivo. Sin embargo, su aceleración práctica está limitada por el equilibrio entre la calidad del borrador y el costo de generación: los generadores de borradores autorregresivos modelan dependencias causales entre los tokens del borrador pero incurren en una sobrecarga secuencial, mientras que los generadores paralelos reducen el costo de generación pero debilitan el modelado de dependencias intra-bloque. En este artículo, proponemos Domino, un marco de decoding especulativo que desacopla el modelado de dependencias causales de la costosa ejecución autorregresiva de borradores. Domino primero utiliza una estructura principal de borrador paralelo para producir distribuciones preliminares de borrador para todo el bloque, y luego aplica una cabeza Domino ligera para refinarlas con información causal dependiente del prefijo. Para estabilizar la codificación causal forzada por el profesor, introducimos además un plan de entrenamiento anclado en la base que primero fortalece la estructura principal paralela y luego desplaza gradualmente la optimización hacia la distribución final corregida causalmente. Los experimentos con modelos Qwen3 muestran que Domino logra hasta \(5.49\times\) de aceleración extremo a extremo bajo el backend de Transformers y hasta \(5.8\times\) de aceleración de rendimiento bajo el servicio SGLang.
Las marcas de agua incorporan firmas estadísticas en el texto generado por IA para su detección y atribución. Revelamos una vulnerabilidad fundamental: cuando los usuarios acceden a múltiples modelos (la realidad actual), las marcas de agua fallan de forma trivial. Estas marcas alteran las distribuciones de salida respecto a la original y, en mercados competitivos, dichas alteraciones suelen ser independientes entre proveedores. Demostramos teóricamente que promediar las distribuciones de probabilidad de salida permite recuperar la distribución sin marca hasta un término de error de segundo orden. Empíricamente, el simple promedio de 3 a 5 modelos cancela estas perturbaciones. Presentamos WASH (Atenuación de Marca de Agua mediante Hibridación Estadística), que resuelve desafíos prácticos en la generación de conjuntos: desajuste de vocabulario y diferencias de tokenización entre modelos heterogéneos. Los experimentos con seis esquemas de marcado y tres LLM muestran que promediar entre 3 modelos reduce las puntuaciones z de detección de 5-300 a menos de 2 (por debajo del umbral de detección de 4) y disminuye la TPR al 5% de FPR por debajo del 50%, mientras mejora la calidad en un 27,5% y se ejecuta 6 veces más rápido que la mejor línea base en la generación de secuencias largas. Nuestros resultados sugieren que la detección robusta de texto de IA mediante marcas de agua requiere aceptar esta vulnerabilidad fundamental o una coordinación sin precedentes entre los proveedores de modelos.
La predicción estándar del siguiente token (NTP) supervisa los modelos de lenguaje únicamente mediante etiquetas discretas en el espacio de logits de salida. Argumentamos que esta supervisión one-hot dispersa deja el espacio de representación latente subconstreñido, permitiendo que los estados ocultos deriven hacia configuraciones degeneradas y anisotrópicas que pueden limitar la generalización. Para abordar este problema, proponemos la Predicción del Siguiente Token Implícito (NITP), que complementa la predicción discreta con una supervisión continua densa directamente en el espacio de representación. NITP entrena al modelo para predecir el contenido semántico implícito del siguiente token, utilizando representaciones de capas superficiales del mismo modelo como objetivos autosupervisados estables. Proporcionamos un análisis teórico que muestra que NITP regulariza el panorama de optimización al mitigar los grados de libertad subconstreñidos y fomentar una geometría de representación compacta y estructurada. Empíricamente, en modelos densos y MoE que van desde 0.5B hasta 9B parámetros, NITP mejora sistemáticamente el rendimiento descendente con una carga computacional insignificante. En un modelo MoE de 9B, NITP logra una mejora absoluta del 5.7% en MMLU-Pro, junto con ganancias del 6.4% en C3 y del 4.3% en CommonsenseQA, con aproximadamente un 2% adicional de FLOPs de entrenamiento y ningún coste adicional de inferencia. Nuestra implementación está disponible en https://github.com/aHapBean/NITP.
El reciente paradigma "Razonamiento con Video" utiliza Modelos de Generación de Video (VGMs) para generar trayectorias visuales temporalmente coherentes que completan tareas de razonamiento. Aunque los VGMs de última generación destacan en calidad visual, a menudo tienen dificultades para comprender y seguir reglas específicas de cada tarea, lo que provoca fallos lógicos en diversos escenarios de razonamiento. Los esfuerzos previos intentan emplear Modelos de Visión-Lenguaje (VLMs) como solucionadores previos del problema para generar o refinar instrucciones textuales para el VGM. Sin embargo, las descripciones textuales no logran capturar detalles espacio-temporales intrincados, y los VGMs suelen tener problemas para ejecutar fielmente instrucciones detalladas o de cola larga incluso con un plan válido. Si bien los VLMs tienen dificultades como solucionadores, poseen capacidades de percepción sólidas para evaluar la satisfacción de restricciones de proceso y el logro del objetivo final. Aprovechando esta fortaleza, introducimos un cambio de paradigma que transforma el rol de los VLMs en "maestros". Específicamente, un VLM maestro extrae reglas específicas de la tarea para formular recompensas diferenciables, guiando a un Razonador VGM mediante optimización en línea en tiempo de prueba de un módulo LoRA ligero. Esta estrategia permite una optimización adaptativa en tiempo de prueba y extiende las capacidades de razonamiento más allá de los límites intrínsecos del VGM. Las evaluaciones en puntos de referencia de razonamiento de video simbólico (VBVR-Bench) y de propósito general (RULER-Bench) muestran que el método propuesto obtiene una ganancia promedio de rendimiento de 16.7 puntos, superando con creces el paradigma VLM como Solucionador (+0.4 puntos) y el escalado Best-of-N (+2.2 puntos) con un coste comparable en tiempo de prueba. Estos hallazgos revelan que integrar VLMs como maestros en tiempo de prueba ofrece un paradigma prometedor para lograr un razonamiento de video generalizable. Página del proyecto: https://VLM-as-Teacher.github.io/
Aunque la comprensión de transmisiones de video en tiempo real ha logrado avances significativos, las aplicaciones del mundo real, como la transmisión de deportes en vivo, la conducción autónoma y la colaboración en múltiples pantallas, exigen inherentemente interacciones continuas con múltiples flujos. Sin embargo, los benchmarks existentes se limitan a paradigmas de un solo flujo, dejando un vacío crítico en la evaluación del razonamiento en línea y entre flujos. Para cerrar esta brecha, presentamos X-Stream, el primer benchmark dedicado a la comprensión de múltiples flujos en tiempo real. Compuesto por 4.220 pares de preguntas y respuestas rigurosamente seleccionados en 932 videos, X-Stream evalúa 11 subtareas en escenarios de múltiples ventanas, múltiples vistas y múltiples dispositivos. Crucialmente, nuestro conjunto de datos se construye utilizando un novedoso pipeline de verificación dual que evita la dependencia excesiva de un solo flujo. Además, somos pioneros en la conceptualización de modelos de lenguaje grandes multimodales (MLLMs) como multiplexores ingenuos, evaluando sistemáticamente su rendimiento a través del lente de la Teoría de Multiplexación de Señales. Nuestros extensos experimentos de inferencia en línea revelan una cruda realidad: los MLLMs de última generación tienen dificultades significativas con flujos concurrentes, logrando solo alrededor del 50% de puntuación y mostrando una pobre capacidad proactiva. En última instancia, X-Stream expone la compensación de los esquemas de multiplexación actuales, proporcionando tanto un protocolo de evaluación práctico como una guía empírica para los agentes de múltiples flujos de próxima generación.
La difusión causal de video de largo alcance ha convergido en un caché KV de ventana deslizante de tamaño fijo, y los avances recientes innovan dentro de esta estructura al cambiar qué tokens ocupan la ventana o cómo se codifican sus posiciones. La disposición KV por cabeza en sí misma, un factor dominante en la memoria y latencia de transmisión, ha permanecido prácticamente inalterada. En este artículo, presentamos el primer estudio de la Atención Latente Multi-Cabeza (MLA) en difusión de video. VideoMLA reemplaza las claves y valores por cabeza con un latente de contenido compartido de bajo rango y una clave posicional 3D-RoPE desacoplada y compartida, reduciendo la memoria KV por token en un 92.7% en cada capa almacenada en caché. Además, investigamos por qué MLA tiene éxito en difusión de video, incluso cuando la suposición espectral que a menudo la motiva en modelos de lenguaje no se cumple: la atención de video preentrenada no es de bajo rango, con un rango efectivo al 99% de energía muy por encima de cualquier dimensión latente práctica. VideoMLA mantiene la calidad en relaciones de compresión donde la aproximación espectral directa predeciría un gran error de reconstrucción. Demostramos que el cuello de botella de MLA, y no el espectro preentrenado, determina el rango efectivo: tanto la inicialización espectral como la aleatoria ocupan casi todo el presupuesto de rango desde la inicialización, y el entrenamiento preserva este presupuesto mientras se adapta dentro de él. En VBench, VideoMLA iguala las líneas base de difusión de video en streaming de horizonte corto, obtiene la mejor puntuación general en horizontes largos entre los métodos evaluados y mejora el rendimiento en 1.23x en un solo B200.
Los agentes basados en modelos de lenguaje grande (LLM) recurren cada vez más a habilidades externas reutilizables para resolver tareas interactivas de largo horizonte. Los pipelines existentes de adaptación de habilidades sin entrenamiento suelen actualizar las habilidades a partir de trayectorias completas o retroalimentación a nivel de sesión, lo que hace que la atribución de fallos sea imprecisa y a menudo genera revisiones inestables o excesivamente amplias. Proponemos SkillAdaptor, un marco de adaptación de habilidades a nivel de paso sin entrenamiento con atribución explícita de fallos, que puede integrarse en arneses de agente tipo OpenClaw. Dada una trayectoria fallida, SkillAdaptor identifica el primer paso de fallo accionable, vincula la responsabilidad a habilidades candidatas y aplica actualizaciones dirigidas bajo comprobaciones de aceptación explícitas, manteniendo el backbone congelado. Evaluamos en WebShop, PinchBench y Claw-Eval con Kimi-K2.5, GLM-5 y GPT-5.2. SkillAdaptor supera a las líneas de base sin habilidades y con adaptación de habilidades en los tres conjuntos, con las mayores mejoras individuales de +1.5 puntos en Avg Score% de PinchBench, +1.8 en Avg Score de Claw-Eval y +1.7 en tasa de éxito de WebShop. Estos resultados indican que la atribución a nivel de paso permite un mantenimiento de habilidades sin entrenamiento más estable y auditable. El código se publicará en https://github.com/zjunlp/SkillAdaptor.
Los humanos pueden reproducir el punto de vista especificado por una imagen objetivo mediante el movimiento activo de la cabeza y el cuerpo, sin embargo, la inteligencia espacial en los modelos fundacionales se ha estudiado mayormente como una comprensión pasiva de observaciones previamente recogidas. Presentamos la Reproducción de Punto de Vista Objetivo (TVR, por sus siglas en inglés) —una tarea activa en la que un agente ajusta su punto de vista en un entorno 3D hasta que su observación coincide con una imagen objetivo dada— y TVRBench, un punto de referencia de simulación en interiores que abarca la escala de la escena y la riqueza visual de la vista objetivo. TVR está lejos de estar resuelto: en la división de evaluación, los modelos de código abierto y cerrado más potentes alcanzan solo un 7,8% y un 12,0% de éxito, respectivamente. Un análisis detallado identifica dos cuellos de botella consistentes: los modelos comerciales tienen dificultades con el historial visual de múltiples turnos, y el rendimiento cae drásticamente cuando la reproducción del punto de vista requiere traslación del cuerpo en lugar de rotación in situ, lo que expone una brecha en el mapeo de discrepancias espaciales a movimiento encarnado. Para estudiar cómo reducir esta brecha, construimos un marco de post-entrenamiento unificado de TVR que abarca SFT con trayectorias de experto, CoT-SFT supervisado por razonamiento, GRPO de un solo turno fuera de línea y GRPO de múltiples turnos sobre la política a partir de ejecuciones en vivo del simulador. El SFT visual-accional proporciona la principal ganancia, elevando un modelo de código abierto de 9B a un 50,8% de éxito; el GRPO de múltiples turnos proporciona un refinamiento específico para múltiples salas y alcanza un 51,4% en general, mientras que la supervisión CoT y el GRPO de un solo turno degradan el rendimiento en bucle cerrado. Estos resultados establecen TVRBench como un banco de pruebas para medir y entrenar modelos fundacionales que perciben y actúan activamente en entornos 3D. Nuestro código, datos y modelos están disponibles en https://github.com/aim-uofa/TVRBench.
La inteligencia espacial requiere representaciones visuales que capturen tanto objetos semánticos como la estructura geométrica del mundo físico. Para respaldar esto, dos esquemas principales de preentrenamiento se utilizan actualmente como backbones fundamentales: los Modelos de Visión y Lenguaje (VLMs), que emplean supervisión lingüística para alinear observaciones visuales con conceptos semánticos, y los Modelos de Generación de Video (VGMs), que aprenden de mundos visuales que evolucionan temporalmente. Sin embargo, aún no está claro qué esquema de preentrenamiento proporciona un mejor sustrato de representación para la inteligencia espacial. En este artículo, presentamos el primer estudio sistemático de sondeo de características congeladas de VLMs y VGMs a lo largo de tres ejes representativos de la inteligencia espacial: etiquetado semántico, agrupación de instancias y predicción de geometría 3D. Mediante una sonda ligera, nuestro marco permite una comparación controlada de qué información ya está codificada en las representaciones congeladas de dos familias de modelos. Los resultados experimentales revelan una clara complementariedad: los VLMs son más fuertes en etiquetado semántico y agrupación de instancias, mientras que los VGMs proporcionan señales más accesibles para la geometría densa y el movimiento de cámara. Además, una fusión ingenua de ambos ya produce una representación que sobresale tanto en geometría como en semántica, lo que sugiere una dirección prometedora para construir backbones de inteligencia espacial más robustos mediante la integración efectiva de características de ambas familias de modelos. Nuestro código está disponible en https://github.com/om-ai-lab/Probing-VLM-VGM.
Los agentes de búsqueda de horizonte prolongado acumulan grandes cantidades de contenido recuperado a través de múltiples llamadas a herramientas, lo que hace que la eficiencia del presupuesto de contexto sea cada vez más importante. Una intervención mínima consiste en enmascarar las observaciones obsoletas del contexto a medida que avanza la trayectoria, pero aún no está claro cuándo esta forma de gestión del contexto resulta útil ni por qué. Estudiamos el enmascaramiento de observaciones mediante un barrido sistemático sobre diversos modelos base del agente (de 4 mil millones a 284 mil millones de parámetros) y tres recuperadores en benchmarks de búsqueda agente tanto fuera de línea como en la web en vivo. Encontramos que la ganancia en precisión derivada del enmascaramiento sigue una forma de U invertida asimétrica al representarla frente a la precisión del modelo sin gestión de contexto: una meseta con recuperadores débiles, un pico cuando un recuperador fuerte se combina con un modelo de capacidad media, y un colapso pronunciado cuando el modelo está saturado. Este patrón refleja la interacción entre la capacidad de recuperación del recuperador y la capacidad de filtrado implícito del modelo, más que cualquiera de los factores de forma aislada. Mecánicamente, el enmascaramiento implementa un intercambio entre tokens y turnos: elimina observaciones a las que el modelo ha dejado de prestar atención en gran medida y páginas que el agente rara vez vuelve a abrir. Los turnos añadidos ayudan cuando convierten fallos en éxitos, pero fracasan cuando el enmascaramiento elimina evidencia que el modelo habría utilizado en caso contrario. Por lo tanto, replanteamos la gestión del contexto como una intervención dependiente del régimen y proporcionamos una perspectiva holística para analizar el uso del contexto en la búsqueda profunda agente. Liberamos nuestro andamiaje y trayectorias aquí (https://github.com/i-DeepSearch/observation-masking) para apoyar futuras investigaciones.
Cuando un modelo de lenguaje de gran tamaño entrenado con aprendizaje por refuerzo comete un paso de razonamiento incorrecto al inicio de una trayectoria, los algoritmos estándar lo obligan a seguir generando hasta alcanzar el horizonte máximo, desperdiciando cómputo en tokens que nunca recibirán una recompensa positiva y contaminando las estimaciones de ventaja con ruido posterior al fallo. Proponemos ESPO (Optimización de Políticas Proximales con Parada Anticipada), que detecta el fallo de la trayectoria sobre la marcha y finaliza los despliegues de forma temprana. En cada paso de generación, ESPO calcula un arrepentimiento sustituto utilizando únicamente los logits ya computados durante el muestreo, y se detiene cuando el arrepentimiento acumulado suavizado supera significativamente sus valores estimados. Las trayectorias truncadas se tratan como estados de fallo absorbentes con una recompensa terminal, concentrando errores negativos de diferencia temporal (TD) cerca del paso de fallo detectado, sin necesidad de ningún modelo de recompensa adicional ni anotación humana. En DeepSeek-R1-Distill-Qwen-7B entrenado para razonamiento matemático, ESPO supera a PPO en AIME 2024 (46,28 % frente a 45,25 %), AMC 2023 (85,83 % frente a 82,94 %) y MATH-500 (87,42 % frente a 85,43 %), al tiempo que ahorra más del 20 % de tokens de despliegue de forma acumulativa.
Los flujos de trabajo multiagente con LLM enrutan la inferencia a través de roles especializados para mejorar la precisión en la tarea final, pero el entrenamiento conjunto de esos roles con aprendizaje por refuerzo es inestable de maneras que se comprenden mal. Estudiamos cuándo el entrenamiento de RL de extremo a extremo de flujos de trabajo multiagente con LLM mejora con respecto a sus modelos base, comparando el entrenamiento de política compartida, donde todos los roles actualizan una política, con el entrenamiento de política aislada, donde cada rol tiene sus propios parámetros. Nuestra matriz experimental abarca los flujos de trabajo Eval-Opt, Voting y Orch-Workers, tareas de matemáticas y código, y tres escalas de modelo (0.6B, 1.7B, 4B). Encontramos que el RL multiagente generalmente mejora con respecto a los modelos base, pero las ganancias dependen conjuntamente del flujo de trabajo, la tarea y la escala, no solo del uso de política compartida. La política aislada tiende a alcanzar una precisión máxima más alta pero con mayor frecuencia cae en un precipicio de precisión terminal, mientras que el entrenamiento de política compartida no elimina el fracaso; lo redistribuye en patrones cualitativamente diferentes. Luego explicamos los patrones más fuertes a través de dinámicas de gradiente a nivel de rol inducidas por la topología del flujo de trabajo y el enrutamiento de políticas: bajo política aislada, los agentes paralelos del mismo rol en indicaciones compartidas amplifican los gradientes por rol y conducen a una degradación terminal en los flujos de trabajo Voting y Orch-Workers; bajo política compartida, la masa asimétrica de gradiente por paso provoca que la política compartida sea capturada por el rol dominante, produciendo diferentes firmas de fracaso según la tarea y el flujo de trabajo. En conjunto, el mapa empírico y sus mecanismos subyacentes muestran que la política compartida enruta la presión de entrenamiento a través de diferentes canales en lugar de ofrecer estabilidad uniforme, convirtiéndola en una elección de diseño con compensaciones condicionadas por el flujo de trabajo y la tarea.
El Model Context Protocol (MCP) ha emergido como un estándar transformador para conectar modelos de lenguaje de gran escala (LLMs) con fuentes de datos y herramientas externas, y ha sido rápidamente adoptado en aplicaciones personales y plataformas de desarrollo. Sin embargo, los benchmarks existentes se centran predominantemente en herramientas genéricas de búsqueda de información y no logran capturar los desafíos prácticos que presentan las aplicaciones sociales personales, donde las herramientas interactúan con cuentas individuales o bases de datos locales. Para cerrar esta brecha crítica, presentamos MCP-Persona, el primer benchmark diseñado específicamente para evaluar el rendimiento de agentes en herramientas MCP personalizadas del mundo real. MCP-Persona abarca un conjunto diverso de aplicaciones ampliamente utilizadas, que van desde plataformas de redes sociales como Reddit y Xiaohongshu (Rednote) hasta suites de colaboración empresarial como Lark (Feishu) y Slack. Nuestros extensos experimentos con diversos agentes de última generación (SOTA) demuestran sus dificultades significativas con el uso de herramientas personalizadas, resaltando así el papel crucial del benchmark para identificar y abordar estas limitaciones. MCP-Persona está disponible públicamente en https://github.com/wwh0411/MCP-Persona.
La auto-atención densa constituye el cuello de botella computacional y de calidad en la inferencia de difusión de video de larga duración: el costo crece cuadráticamente con la longitud de la secuencia y, más allá del horizonte de entrenamiento, el modelo converge a una salida casi estática, es decir, un video repetitivo y "congelado". Los enfoques de vanguardia son demasiado costosos, por ejemplo, requieren reentrenamiento, o no logran satisfacer de manera escalable tanto los objetivos de rendimiento como los de calidad. Con este fin, presentamos LVSA (Long Video Sparse Attention), una atención de bloques dispersos para transformers de difusión de video, independiente del modelo y sin necesidad de entrenamiento, que combina un patrón de ventana estructurado con anclajes globales rotativos, eliminando así el sesgo de cuadrícula fija que causa artefactos temporales de largo alcance. LVSA, combinado con un kernel de FlashInfer, reduce el cómputo hasta 3.17× en Wan 2.1 1.3B con un horizonte 6×, 2.98× en Wan 2.1 14B con un horizonte 6× y 3.33× en HunyuanVideo 1.5 con un horizonte 1.5×, en comparación con la atención densa. Más allá de reducir el cómputo, LVSA permite la generación de HunyuanVideo 1.5 con un horizonte 2×, lo cual de otro modo resulta imposible por falta de memoria en una sola GPU. Además, LVSA proporciona aceleraciones de hasta 2.41× en comparación con RIFLEx y 3.27× en comparación con UltraViCo en Wan 2.1 1.3B. Para demostrar su aplicabilidad en diversas plataformas, aplicamos LVSA en NPU y logramos aceleraciones de hasta 2.71× en Wan 2.2 A14B y 3.24× en Wan 2.1 1.3B en comparación con la atención densa. Para evaluar la calidad de manera justa, introducimos VQeval, una herramienta que puntúa adecuadamente los fallos de video en bucle, los cuales, en cambio, son recompensados por evaluadores de última generación como VBench-Long. LVSA es neutro en calidad para generación con el horizonte de entrenamiento y positivo en calidad para horizontes extendidos.
En entornos abiertos, la exploración es fundamental para los agentes autónomos, pero los agentes actuales basados en modelos de lenguaje enfrentan dificultades con esto. La exploración efectiva requiere memoria, pero retener historiales de interacción sin procesar es computacionalmente costoso en trayectorias largas. Si bien la memoria latente ofrece una solución para comprimir los historiales de interacción, su entrenamiento carece de señales de supervisión fiables. Presentamos Joint Agent Memory and Exploration Learning (JAMEL), un marco que entrena la memoria del agente y la política de exploración de manera conjunta mediante interacción impulsada por la novedad. Observamos que la memoria y la exploración forman un bucle de dependencia mutua: la exploración sostenida requiere memoria para distinguir comportamientos ya realizados de aquellos no vistos, mientras que la interacción en busca de novedad proporciona la supervisión necesaria para que la memoria sea útil en exploraciones futuras. Al utilizar señales de novedad deterministas y persistentes, como la cobertura de código en el dominio de la interfaz gráfica de usuario, proporcionamos una supervisión natural y sin anotaciones para el módulo de memoria. Las evaluaciones empíricas demuestran que \ours se generaliza con éxito a entornos no vistos. Su capacidad de exploración supera a las líneas base de pesos abiertos y rivaliza con la profundidad de exploración de un modelo de código cerrado, reduciendo el consumo de tokens. Nuestro código y modelo son de código abierto en https://github.com/MobileLLM/JAMEL.
La difusión de video autorregresiva (AR) permite la síntesis de longitud variable, pero la generación a largo plazo suele sufrir errores acumulados y deriva de identidad. Por eficiencia, los métodos existentes adoptan comúnmente la atención de ventana deslizante durante la generación. Esto crea una trayectoria de generación irreversible: una vez que la ventana activa acumula errores de apariencia, las generaciones posteriores solo pueden condicionarse a esta trayectoria degradada y desviarse aún más. Abordamos esta limitación formulando la generación de videos largos como un problema de generación aumentada por recuperación (RAG). En lugar de depender únicamente de la ventana reciente, tratamos los latentes generados previamente como un historial dinámico y recuperable. Proponemos LongLive-RAG, un marco de recuperación general para la generación de videos AR. En cada nuevo bloque, LongLive-RAG utiliza un embedding de consulta para recuperar latentes históricos relevantes. Este paso de recuperación ligero añade solo una pequeña sobrecarga en relación con la generación y permite que el generador se condicione en contexto no local en lugar de solo la ventana reciente. Para hacer la recuperación más discriminativa, introducimos la Pérdida Delta Temporal de Ventana que suprime la similitud local redundante y alienta a los embeddings a capturar cambios temporales significativos. En conjunto, estos componentes ayudan a reducir la acumulación de errores causada por la atención de ventana deslizante. Los experimentos con múltiples backbones AR y longitudes de generación muestran una mejora en la calidad del video largo y el mejor rango promedio en VBench-Long. Hasta donde sabemos, entre los métodos de generación de video largo AR de final abierto, LongLive-RAG es el primero en formular el historial latente autogenerado como memoria de recuperación direccionable por contenido. El código está disponible en https://github.com/qixinhu11/LongLive-RAG.
Decodificar el contenido visual a partir de señales de fMRI registradas mientras una persona observa imágenes, y específicamente responder preguntas sobre las imágenes vistas, es un desafío de larga data. Aunque en los últimos años se ha logrado un progreso significativo en la respuesta a preguntas visuales (VQA) a partir de fMRI, el rendimiento sigue siendo limitado. Además, si bien los modelos recientes pueden realizar predicciones cada vez más precisas, rara vez se han utilizado como herramientas para comprender la estructura de las representaciones visuales en el cerebro. Presentamos Brain-IT-VQA, un marco para la respuesta a preguntas visuales a partir de fMRI. Basado en el Transformer de Interacción Cerebral (Brain-IT), nuestro método decodifica tokens de lenguaje a partir de la actividad cerebral y los integra con un modelo de lenguaje para responder preguntas visuales. Nuestro modelo supera sustancialmente a enfoques previos de descripción de imágenes y VQA basados en fMRI. Además, introducimos NSD-VQA, un nuevo conjunto de datos y punto de referencia para la respuesta a preguntas visuales a partir de fMRI. A diferencia de los conjuntos de datos existentes de VQA con imágenes y fMRI, que típicamente proporcionan solo unas pocas preguntas amplias y débilmente controladas por imagen, NSD-VQA ofrece en promedio 20 pares de preguntas y respuestas por imagen en 20 categorías de preguntas controladas que desentrañan múltiples niveles de comprensión visual. Esto permite una evaluación más fiable e interpretable a pesar de los datos limitados de prueba de fMRI. En conjunto, Brain-IT-VQA y NSD-VQA proporcionan tanto un marco predictivo sólido como una herramienta para estudiar las representaciones cerebrales. Utilizando este punto de referencia, cuantificamos qué formas de información visual y semántica pueden decodificarse de manera fiable a partir de las respuestas de fMRI a imágenes naturales. Además, analizamos las contribuciones de diferentes regiones cerebrales según los tipos de preguntas.
La generación conjunta de audio y video en tiempo real para la animación de personajes requiere que un generador reproduzca la transcripción solicitada, mantenga la identidad visual entre segmentos y opere dentro de un estricto presupuesto de reproducción. Estos requisitos son difíciles de satisfacer simultáneamente: la generación autorregresiva por segmentos puede acumular desalineación entre la transcripción y el audio y deriva visual, mientras que la destilación de pocos pasos necesaria para baja latencia a menudo degrada la diversidad espacial y la calidad temporal. Presentamos StreamChar, un marco de transmisión que separa la orquestación a largo plazo de la eliminación de ruido de audio y video en ventanas cortas. Un orquestador basado en LLM utiliza la transcripción y el contexto histórico para producir condiciones de audio alineadas por fotograma, y un DiT conjunto de audio y video realiza eliminación de ruido bidireccional local con acondicionamiento de fotogramas de referencia y movimiento. Para un despliegue eficiente, utilizamos una tubería de destilación en dos etapas que primero comprime el muestreador y luego ajusta el estudiante bajo despliegues de segmentos en línea. Un puntero consciente del progreso alinea transcripciones parciales con el audio generado durante el entrenamiento con despliegues, y una memoria de segmento sumidero proporciona un ancla visual persistente para reducir la deriva a largo plazo. Experimentos en protocolos de clips cortos y horizontes largos muestran que StreamChar funciona en tiempo real en una sola GPU H100 y ofrece un equilibrio favorable a nivel de sistema entre fidelidad de la transcripción, sincronización audiovisual, calidad visual y estabilidad de la transmisión en comparación con líneas base conjuntas y basadas en audio recientes.
Los agentes basados en LLM recurren cada vez más a habilidades externamente seleccionadas —instrucciones procedimentales recuperadas en el momento de la decisión— para mejorar su desempeño en tareas interactivas de largo horizonte. Las bibliotecas de habilidades existentes suelen tratarse como independientes del modelo, reutilizando las mismas formulaciones de habilidades en backbones con capacidades y comportamientos sustancialmente diferentes. Sin embargo, nuestros experimentos controlados en múltiples escalas de modelos muestran que la efectividad de las habilidades depende fuertemente del modelo: una habilidad que beneficia a un backbone puede perjudicar a otro. Motivados por esta observación, proponemos MASA (Model-Aware Skill Alignment, Alineamiento de Habilidades Consciente del Modelo), un marco que adapta las habilidades a cada backbone objetivo sin modificar los pesos del agente. MASA opera en dos etapas: (1) un pipeline jerárquico de evolución de habilidades que reescribe iterativamente habilidades generales y específicas de la tarea mediante escalada de colinas y búsqueda en árboles impulsada por UCB, guiado por la retroalimentación del entorno y los perfiles de capacidad del modelo; y (2) un reescritor de habilidades ligero condicionado al modelo, entrenado en trayectorias de evolución para reproducir la adaptación en un único pase hacia adelante. Los experimentos en tres entornos interactivos y cuatro backbones muestran que MASA logra consistentemente el mejor rendimiento global, con mejoras de hasta 25,8 puntos sobre la línea base más fuerte. El reescritor aprendido además se generaliza a tareas y entornos no vistos sin búsqueda adicional, superando consistentemente a un LLM profesor mucho más grande con una fracción del costo de inferencia.
Construir agentes web visuales capaces requiere razonamiento a largo plazo, fundamentación precisa e interacción robusta con sitios web dinámicos del mundo real. A pesar del rápido progreso, los sistemas más potentes siguen siendo en gran medida propietarios, mientras que los agentes abiertos aún dependen fuertemente del post-entrenamiento supervisado sobre grandes colecciones de trayectorias web curadas. Esta dependencia crea un cuello de botella de escalabilidad importante: las demostraciones de alta calidad son costosas de recolectar, y los conjuntos de datos estáticos ofrecen una cobertura limitada de la web abierta, diversa y en constante cambio. Aunque el RL en línea ha mostrado ser prometedor para agentes basados en texto, su potencial para entrenar directamente agentes web visuales en sitios web reales sigue estando en gran medida inexplorado. En este artículo, presentamos OpenWebRL, un marco abierto para entrenar agentes web visuales con RL en línea de múltiples turnos en sitios web reales. OpenWebRL cubre todo el pipeline de entrenamiento, incluyendo infraestructura escalable de navegador en vivo, inicialización supervisada, gestión de contexto multimodal, evaluación de éxito a nivel de trayectoria y optimización eficiente de políticas multi-turno. Usando este marco, entrenamos OpenWebRL-4B, que establece un nuevo estado del arte de código abierto en benchmarks desafiantes de la web en vivo. Con solo 0.4K trayectorias de inicialización y 2.2K tareas de entrenamiento RL abiertas, OpenWebRL-4B alcanza un 67.0% de éxito en Online-Mind2Web y un 64.0% en DeepShop, superando a agentes abiertos previos de escala similar o mayor y manteniéndose competitivo con sistemas propietarios como OpenAI CUA y Gemini CUA. Más allá del sólido rendimiento en benchmarks, estudiamos sistemáticamente las decisiones clave de diseño que hacen que el RL en línea sea efectivo para agentes web visuales, y analizamos cómo el RL mejora el razonamiento agentivo. En general, nuestro trabajo ofrece un camino práctico hacia la construcción de agentes web abiertos más capaces, reproducibles y rentables. Publicaremos nuestros datos de entrenamiento, modelos y código para apoyar investigaciones futuras.
La Decodificación Especulativa (SD) acelera la inferencia de LLM con baja concurrencia empleando un paradigma de borrador y verificación. Sin embargo, los métodos convencionales típicamente se basan en predicción de múltiples tokens, lo que introduce una dificultad de predicción creciente y latencia de borrador en serie. Para abordar esto, proponemos la Decodificación Especulativa en Tubería (SPD), un marco innovador que desbloquea el verdadero potencial del paralelismo en tubería. Al dividir el LLM objetivo en n etapas de tubería, SPD permite que el LLM procese n tokens en paralelo para acelerar la decodificación. Para llenar continuamente la tubería en la decodificación de secuencia única, un módulo de especulación agrega características intermedias a través de diferentes profundidades de tubería para predecir el siguiente token, ejecutándose estrictamente en paralelo con el paso de tubería del modelo objetivo, logrando así dificultad acotada, tasas de aceptación más altas y burbujas de latencia cero. Nuestros experimentos demuestran que SPD alcanza una aceleración teórica significativamente mayor en comparación con las líneas base convencionales, ofreciendo una solución altamente escalable para la aceleración de la decodificación de LLM. Nuestro código está disponible en https://github.com/yuyijiong/speculative_pipeline_decoding.
El aprendizaje por refuerzo (AR) mejora los agentes basados en modelos de lenguaje grande (MLG) al enseñarles qué acciones conducen a altas recompensas, pero proporciona poca supervisión sobre qué efectos tienen dichas acciones en el entorno. El modelado del mundo (MM) puede llenar este vacío, aunque los enfoques existentes suelen requerir simuladores separados, etapas de entrenamiento adicionales o cómputo extra en tiempo de inferencia. Observamos que las ejecuciones de AR dentro de política ya contienen la señal necesaria: cada transición empareja una acción con la observación resultante posterior. Basándonos en esta observación, proponemos PaW, un marco de coentrenamiento de política y modelado del mundo que añade supervisión auxiliar de MM a la misma política durante el AR, sin alterar el paradigma de inferencia. Para que la supervisión auxiliar de MM sea informativa y estable, PaW introduce tres componentes: selección de datos de MM basada en la entropía de la acción, pérdida de MM tolerante al ruido y balanceo de pérdida adaptativo a la recompensa. Los experimentos en tres conjuntos de tareas de agente muestran mejoras consistentes frente a bases sólidas de AR en distintos modelos y algoritmos de AR. Estos resultados sugieren que las ejecuciones estándar de AR constituyen una fuente práctica de supervisión de MM para el entrenamiento de agentes lingüísticos.
La comprensión de las affordances establece un puente entre la percepción visual y la acción física, sirviendo como una interfaz explicable para la manipulación robótica en entornos reales abiertos y no estructurados. Sin embargo, construir un modelo fundacional de affordances que no solo entienda dónde y cómo debe ocurrir la interacción, sino que también generalice a través de entornos, objetos y tareas diversas, sigue siendo un desafío de investigación de larga data. Los métodos existentes típicamente abordan solo una parte de este desafío: o localizan regiones relevantes para la tarea sin especificar el movimiento ejecutable, o predicen el movimiento pero con escalabilidad limitada. En este artículo, presentamos nuestromodelo, un paso hacia un modelo fundacional de affordances para la comprensión funcional. A partir de una única observación RGB-D y una descripción lingüística de la tarea, nuestromodelo predice una máscara funcional condicionada a la tarea (dónde interactuar) y una curva de movimiento 3D posterior al contacto (cómo interactuar). Para apoyar la generalización en entornos abiertos, construimos un pipeline de datos estandarizado a gran escala que convierte datos heterogéneos de robots, humanos, simulaciones y escaneos del mundo real en un esquema compartido de affordances con lenguaje, máscaras y etiquetas de movimiento 3D centradas en el objeto. Evaluamos nuestromodelo desde tres aspectos: en segmentación de affordances, nuestromodelo supera a todas las líneas base por un amplio margen en 8 conjuntos de prueba de 4 benchmarks, mejorando el gIoU/cIoU medio en +23.9/+26.3; en predicción de puntos de contacto, predice puntos sustancialmente más precisos, con una ganancia en la tasa de aciertos del 12.7–61.3% sobre la mejor línea base; y en movimiento 3D, logra el mejor rendimiento en los tres conjuntos de prueba. Nuestromodelo puede desplegarse para manipulación robótica en el mundo real sin ajuste fino para la corporalidad del robot ni el uso de heurísticas específicas de la tarea, demostrando la capacidad de adaptarse a tareas de affordances en entornos abiertos. Página del proyecto: https://www.zhaoningwang.com/AFUN
Las habilidades reutilizables son un mecanismo clave para ampliar las capacidades de los agentes, permitiéndoles acumular experiencia y resolver tareas cada vez más complejas. Sin embargo, la mayoría de los métodos existentes de aprendizaje de habilidades almacenan la experiencia reutilizable como activos exclusivamente textuales, como instrucciones, trazas de razonamiento o trayectorias resumidas. Sostenemos que este paradigma puramente textual crea un cuello de botella fundamental para las tareas centradas en lo visual, donde el conocimiento reutilizable a menudo depende de la disposición espacial, el anclaje visual, la apariencia detallada y los cambios de estado localizados. Para abordar esta limitación, proponemos \NAME, un paradigma de habilidad multimodal que combina lógica textual declarativa con soporte visual explícito. Distinguimos tres formas reutilizables: prioridades estáticas para convenciones espaciales estables, prioridades dinámicas para la memoria de trabajo visual in situ, y habilidades visuales entrelazadas que vinculan pasos de texto ordenados con los fotogramas fuente, capturas de pantalla o regiones de página que los justifican. En lugar de solo describir qué hacer, las habilidades visuales también codifican dónde mirar, cómo inspeccionar y cómo verificar los resultados visuales. Para escalar la construcción de habilidades visuales, introducimos \SYSTEM, un sistema automático que convierte la experiencia del agente en habilidades multimodales reutilizables, preservando el razonamiento textual, las referencias espaciales, los límites visuales y los patrones de interacción de las trayectorias de las tareas. Los experimentos en tareas de interfaz gráfica de usuario (GUI) y otras centradas en lo visual muestran que las habilidades visuales superan consistentemente a las habilidades puramente textuales, particularmente cuando el éxito requiere correspondencia espacial, evidencia visual e interacción consciente del estado. Estos resultados respaldan nuestra posición central: las habilidades reutilizables de los agentes deberían ir más allá del texto y convertirse en activos multimodales para futuros agentes multimodales.
Los Modelos de Visión y Lenguaje (VLM, por sus siglas en inglés) han demostrado una sólida capacidad de comprensión visual y se implementan cada vez más en sistemas de IA corporizada, donde la percepción fiable en condiciones reales resulta esencial. Sin embargo, los benchmarks existentes evalúan los VLM utilizando imágenes limpias o perturbaciones aisladas, en lugar de los estreses causados por la formación física de escenas. Este planteamiento presenta dos limitaciones: abarca solo un subconjunto reducido de estreses visuales cotidianos, y algunas perturbaciones rara vez aparecen en escenas corporizadas realistas. Esta brecha plantea una cuestión fundamental: ¿cómo podemos definir el estrés visual de manera fundamentada que capture los diversos factores presentes en entornos físicos? Para abordar esta cuestión, formulamos la percepción visual desde una perspectiva de gráficos inversos e introducimos RoboStressBench, un benchmark para evaluar la robustez de los VLM frente al estrés visual físico en escenas corporizadas. Inspirado en la ecuación física de renderizado, RoboStressBench descompone el estrés visual en cuatro dimensiones físicamente fundamentadas: Material (M), Punto de Vista (V), Iluminación (L) y Geometría (G). Este diseño permite que RoboStressBench abarque un amplio espectro de estreses visuales en entornos del mundo real, a la vez que facilita un análisis controlado de sus efectos sobre capacidades de los VLM como el reconocimiento visual, el razonamiento y la planificación. Mediante evaluaciones exhaustivas de VLM de última generación, identificamos modos de fallo específicos para cada tipo de estrés y revelamos que diferentes factores físicos degradan distintas capacidades corporizadas, las cuales a menudo quedan ocultas por la precisión agregada. Además, introducimos un solucionador agéntico consciente del estrés que detecta factores estresantes visuales y activa habilidades de edición visual antes de razonar, mejorando la robustez en escenarios de alto estrés. En conjunto, RoboStressBench proporciona un marco de evaluación fundamentado para diagnosticar y mejorar la percepción de los VLM bajo estrés físico del mundo real, apoyando el desarrollo de sistemas de IA corporizada más fiables.
Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) mapean las entradas visuales en secuencias densas de tokens, imponiendo un cuello de botella computacional cuadrático para la inferencia. La compresión elástica de tokens visuales aborda esto entrenando un solo modelo que puede ejecutarse con múltiples presupuestos de tokens visuales. Sin embargo, los enfoques existentes tienen dificultades bajo una compresión agresiva. La compresión solo espacial, como en el pooling anidado, se comporta como un filtro de paso bajo imperfecto e induce aliasing espectral que oscurece los detalles finos. La compresión solo de consultas, como en el remuestreo de consultas anidadas, reemplaza los tokens alineados en una rejilla explícita por resúmenes no locales y degrada sustancialmente la fundamentación espacial. Para resolver este conflicto representacional, presentamos PARCEL (Remuestreo Anclado en Pooling con Consultas Elásticas Condicionadas para una Comprensión Eficiente de Visión y Lenguaje), una arquitectura de tokenización visual que divide dinámicamente el trabajo de extracción de características. PARCEL establece tokens de pooling espacial como anclajes de diseño de baja frecuencia y condiciona los tokens de consulta elástica en estos anclajes mediante el Remuestreo de Consultas Condicionado por Pooling. Esto alienta a los tokens de consulta a centrarse en características visuales complementarias en lugar de en un mapeo espacial redundante. Evaluaciones exhaustivas en 27 puntos de referencia muestran que PARCEL mejora la frontera de Pareto entre rendimiento y eficiencia, superando consistentemente las líneas base matryoshka existentes en todos los presupuestos de tokens visuales, preservando al mismo tiempo el paradigma de "entrenar una vez, implementar en cualquier lugar".
Los modelos de lenguaje multimodal grandes (MLLMs) han demostrado fuertes capacidades en percepción, razonamiento y generación de acciones. Sin embargo, su capacidad para mantener la exploración en mundos abiertos dinámicos sigue sin estar clara. Los benchmarks existentes basados en agentes encarnados y en juegos a menudo comprimen la interacción en tareas de horizonte corto o enredan el éxito con mecánicas de juego específicas del dominio. En este artículo, presentamos el benchmark MineExplorer para evaluar las capacidades de exploración en mundos abiertos de agentes MLLM en Minecraft. Primero filtramos tareas atómicas cuyas soluciones dependen en gran medida del conocimiento específico de Minecraft para reflejar mejor el razonamiento general en mundos abiertos. Luego organizamos el benchmark en torno a una formulación de capacidad al estilo ReAct y componemos tareas atómicas en tareas implícitas de múltiples pasos. Para construir instancias confiables adicionales, MineExplorer utiliza un flujo de trabajo de síntesis multiagente que diseña conjuntamente gráficos de tareas, escenarios de sandbox y evaluadores de hitos basados en reglas. La evaluación humana muestra que el flujo de trabajo de síntesis multiagente produce instancias significativamente más confiables que una línea base de agente único. Los experimentos con agentes MLLM avanzados muestran que la exploración en mundos abiertos sigue siendo un desafío, ya que los modelos fuertes pueden manejar muchas tareas de un solo paso, pero se degradan drásticamente cuando deben coordinarse requisitos previos ocultos a lo largo de trayectorias más largas. Un análisis adicional encuentra que la dificultad de la tarea sigue el rendimiento del agente, y que los modelos más grandes o los modos de pensamiento no se traducen consistentemente en un mejor rendimiento. El código y el conjunto de datos están disponibles en https://github.com/Jometeorie/MineExplorer.
Los modelos visión-lenguaje-acción (VLA) se basan en la premisa de que la comprensión semántica proveniente de backbones preentrenados de lenguaje o visión-lenguaje debe guiar la predicción de acciones robóticas. Sin embargo, el ajuste fino del robot se optimiza como imitación sobre distribuciones de acciones específicas de la tarea, y muchas evaluaciones pueden resolverse mediante atajos visuales o de instrucción-acción. Presentamos RoboSemanticBench (RSB), un benchmark encarnado para diagnosticar el anclaje semántico en la predicción de acciones: si los modelos VLA post-entrenados pueden usar semántica de instrucciones complejas para seleccionar y manipular el objetivo físico correcto. En cada episodio, un robot recibe una pregunta de opción múltiple de matemáticas o cultura general, observa bloques de respuestas candidatas y debe agarrar el bloque correspondiente a la respuesta correcta. RSB cubre aritmética controlada, comprensión matemática de nivel escolar y comprensión de sentido común o factual bajo conjuntos de cuatro y diez opciones. En modelos VLA representativos, encontramos que muchas políticas aprenden a agarrar bloques candidatos pero seleccionan el bloque semánticamente correcto a tasas casi aleatorias o por debajo de lo aleatorio después de controlar por el éxito de agarre, revelando una brecha persistente entre la competencia semántica a nivel de backbone y la predicción de acciones.
Seleccionar la mejor respuesta a partir de múltiples muestras de un modelo pequeño utilizando un evaluador más fuerte es una estrategia simple en tiempo de inferencia, pero falla cuando el modelo pequeño ya se ha comprometido con trayectorias de razonamiento incorrectas. La búsqueda guiada por PRM evita esto puntuando las continuaciones candidatas durante la generación, pero requiere un modelo de recompensa entrenado con etiquetas a nivel de paso. Proponemos Generación Guiada a Nivel de Fragmento, una alternativa sin entrenamiento que utiliza un modelo de lenguaje grande ya disponible como evaluador de proceso. En cada paso, un modelo pequeño muestrea \(k\) fragmentos candidatos de longitud fija, mientras que el modelo grande puntúa los candidatos usando verosimilitudes sin generar texto. El fragmento seleccionado se fija antes del siguiente paso, guiando la generación antes de que los errores puedan propagarse. Instanciamos este marco con dos reglas de selección: Selección Guiada por Verosimilitud (LGS), que elige el fragmento con mayor log-probabilidad de modelo grande normalizada por longitud, y Selección Guiada por Contraste (CGS), que resta la log-probabilidad del modelo pequeño para favorecer fragmentos donde la preferencia del modelo grande diverge de la del modelo pequeño. Mostramos que puntuar pasos de razonamiento de longitud variable con verosimilitudes de modelos grandes no es fiable debido a un sesgo sistemático de longitud que persiste incluso tras la normalización, y que los fragmentos de longitud fija evitan este factor de confusión. En GSM8K, MATH, Minerva Math, AMC23 y AIME24 con Qwen2.5-1.5B guiado por Qwen2.5-32B y Llama-3.2-1B guiado por Llama-3.1-70B, CGS supera a la votación por mayoría en hasta 28 puntos porcentuales y, bajo presupuestos de guía igualados, iguala o supera a la búsqueda guiada por Qwen2.5-Math-PRM-72B en la mayoría de los benchmarks sin entrenamiento de modelo de recompensa. Con Qwen2.5-7B guiado por Qwen2.5-72B, CGS alcanza el 81.8% en MATH y el 63.6% en Minerva Math con \(k=16\), superando a la votación por mayoría en 4–6 puntos porcentuales. Finalmente, la Generación Guiada a Nivel de Fragmento produce trazas de razonamiento sustancialmente más cortas que la búsqueda guiada por PRM.
Los agentes de uso de computadora (CUAs) se despliegan actualmente principalmente como agentes seriales individuales. Esta configuración es subóptima para tareas complejas de largo horizonte que se benefician de la descomposición de tareas, la ejecución paralela y la replanificación constante basada en nueva información. En este artículo, argumentamos que deberíamos avanzar hacia la evaluación y construcción de sistemas de uso de computadora multiagente (MACU). Estos sistemas, que enfatizan la planificación y la ejecución paralela, mitigan muchas de las limitaciones de los CUAs de agente único. Proponemos una configuración multiagente general en la que un modelo administrador descompone las tareas de uso de computadora como un grafo acíclico dirigido (DAG), codificando dependencias y objetivos relevantes para los subagentes. En cada iteración, el administrador envía subagentes CUA paralelos para ejecutar los nodos en la frontera lista del DAG, y revisa continuamente el DAG (añadiendo, cancelando o reescribiendo nodos) a medida que llegan nuevos hallazgos de los subagentes. Este diseño trata el entorno parcialmente observable del uso de computadora como un desafío de primera clase: la información que los agentes posteriores podrían no poder reobservar se retiene y se transmite hacia adelante a través del administrador y la estructura del DAG. Demostramos que MACU mejora consistentemente en comparación con bases sólidas de agente único en un 3.4-25.5% en puntos de referencia de escritorio (OSWorld) y navegación web (Online-Mind2Web, WebTailBench, Odysseys), exhibe un escalado en tiempo de prueba más favorable y resuelve tareas complejas de largo horizonte donde los CUAs de agente único se estancan. En Odysseys, un punto de referencia de navegación web de largo horizonte, MACU mejora el tiempo de finalización promedio de la tarea en tiempo de reloj en aproximadamente 1.5 veces, demostrando su eficacia para acelerar los pipelines tradicionalmente lentos de CUAs. Nuestros hallazgos destacan que la coordinación multiagente es un eje prometedor para escalar agentes de uso de computadora para que trabajen de manera más productiva durante más tiempo y de forma más efectiva. Publicamos todo el código y las visualizaciones interactivas en https://jykoh.com/multi-agent-computer-use.
Medir la comprensión de objetos estructurados en modelos de visión base sigue siendo un desafío debido a protocolos de evaluación inconsistentes y una supervisión limitada a nivel de partes. La correspondencia semántica (SC) evalúa esta capacidad al verificar si las partes de los objetos pueden emparejarse entre instancias y categorías bajo grandes variaciones en apariencia, punto de vista y geometría. Para permitir una evaluación sistemática de SC, presentamos SOCO, un nuevo punto de referencia para la Correspondencia Semántica de Objetos que introduce una taxonomía de tipos de correspondencia y proporciona anotaciones consistentes y funcionalmente significativas de puntos clave en 100 categorías y más de 1 millón de pares de correspondencia. Además, SOCO incluye descripciones lingüísticas de los puntos clave, lo que permite evaluar modelos grandes de visión y lenguaje (LVLMs) y su comprensión detallada a nivel de partes. Experimentos exhaustivos revelan que (i) los backbones de visión base codifican una fuerte estructura semántica pero transfieren correspondencias deficientes entre categorías relacionadas y capturan solo parcialmente la posición de las partes del objeto, (ii) los LVLMs son más fuertes en la localización de partes mediante indicaciones de texto que en el emparejamiento entre imágenes con referencia visual, lo que expone una brecha entre la localización basada en lenguaje y la correspondencia visual detallada, y (iii) el rendimiento en correspondencia predice el rendimiento en tareas densas posteriores, como segmentación, seguimiento, estimación de pose 3D y detección 3D, de manera más sólida que la clasificación de ImageNet. En conjunto, estos hallazgos posicionan a SOCO como un punto de referencia para la calidad de representación estructurada a nivel de partes en modelos base de visión y multimodales.
El desaprendizaje de modelos de lenguaje grandes (LLM) ha surgido como un mecanismo post-hoc crucial para la protección de la privacidad y la seguridad de la IA, pero la auditoría de si el conocimiento objetivo está realmente eliminado sigue siendo un desafío. Las métricas existentes a nivel de salida no logran detectar cuándo este conocimiento sigue siendo recuperable a partir de representaciones internas. Estudios recientes de caja blanca revelan dicho conocimiento residual, pero a menudo dependen de entrenamiento auxiliar o adaptaciones específicas del conjunto de datos, sin dejar una métrica generalizable. Para abordar estas limitaciones, proponemos la Puntuación de Profundidad de Desaprendizaje (UDS), una métrica que cuantifica la profundidad mecanicista del desaprendizaje mediante parcheo de activaciones. UDS primero identifica las capas que codifican el conocimiento objetivo utilizando una línea base de modelo retenido, luego mide cuánto de este se ha eliminado en el modelo desaprendido en una escala de 0 a 1. En una metaevaluación a través de 20 métricas en 150 modelos desaprendidos que abarcan 8 métodos, UDS logra la mayor fidelidad y robustez, confirmando nuestro enfoque causal como el más confiable para la evaluación del desaprendizaje. Estudios de caso revelan además que las métricas de caja blanca pueden discrepar a nivel de capas y que la profundidad de eliminación varía entre ejemplos. Proporcionamos pautas para integrar UDS en marcos de referencia existentes y optimizar el flujo de evaluación. El código y los datos están disponibles en https://github.com/gnueaj/unlearning-depth-score
Comprender imágenes de gráficos y tablas es esencial para aplicar modelos de visión y lenguaje (VLMs) al análisis de documentos del mundo real. Si bien los puntos de referencia en inglés han avanzado rápidamente, sus contrapartes en otros idiomas siguen siendo escasas, lo que deja sin claridad si este progreso se generaliza entre lenguas. Un obstáculo clave es la dificultad de recopilar imágenes realistas y diversas de gráficos y tablas en otros idiomas a gran escala. Para abordar esto, aprovechamos los documentos gubernamentales como una fuente escalable para la construcción de puntos de referencia más allá del inglés, ya que contienen gráficos y tablas que aparecen de forma natural en diversos formatos y dominios, y son de acceso gratuito en muchos países. Como primera instanciación, presentamos HakushoBench, un desafiante punto de referencia de VQA (respuesta a preguntas visuales) sobre gráficos y tablas en japonés, construido a partir de 33 documentos gubernamentales. HakushoBench contiene 2053 imágenes que abarcan más de 10 tipos de imágenes, con pares de preguntas y respuestas anotados manualmente, diseñados para evaluar una comprensión profunda y holística de gráficos y tablas, más allá de las señales visuales locales únicamente. Los experimentos realizados en una amplia gama de VLMs demuestran que HakushoBench sigue siendo un desafío para los modelos de pesos abiertos: el mejor modelo de pesos abiertos alcanza solo un 58.6% de precisión, y una brecha de 34.9 puntos entre modelos de pesos abiertos y propietarios resalta un margen sustancial de mejora en la comprensión compleja de gráficos y tablas. Publicamos nuestro conjunto de datos y código.
La verdadera inteligencia en video exige más que reconocer lo visible: requiere razonar sobre por qué ocurren los eventos, predecir qué cambiaría bajo condiciones distintas y decidir qué acción tomar a continuación. Denominamos a esta progresión —desde la percepción, pasando por el razonamiento causal y la simulación, hasta la planificación estratégica— como Inteligencia de Video Estratégica (SVI, por sus siglas en inglés). Ningún punto de referencia existente evalúa esta pila de capacidades: los videos del mundo real carecen de verdad fundamental verificable para preguntas causales y estratégicas, mientras que los entornos sintéticos sacrifican la complejidad de los sistemas multiagente reales. Para cerrar esta brecha, presentamos SVI-Bench, un punto de referencia a gran escala que aprovecha los deportes de equipo como micromundo dinámico, combinando la complejidad de la interacción multiagente del mundo real (de 10 a 22 agentes tomando decisiones coordinadas bajo presión adversarial) con la verificabilidad de reglas explícitas y resultados definitivos. SVI-Bench comprende aproximadamente 35.000 horas de video transmitido, 15 millones de acciones anotadas, 15.000 horas de comentarios de expertos, 23.000 informes de partidos y 103.000 registros estadísticos estructurados en baloncesto, fútbol y hockey, todo construido mediante un motor de datos que transforma datos de juego en bruto en un corpus denso y con referencias cruzadas. Organizamos la evaluación en 9 tareas distribuidas en una jerarquía progresiva de cuatro pilares: Comprensión de Escenas Dinámicas, Razonamiento Causal, Simulación Estratégica y Síntesis Agentiva. Al evaluar líneas base multimodales y agentivas sólidas, encontramos un acantilado de capacidad: los modelos se desempeñan competentemente en tareas perceptivas, logrando aproximadamente un 73% en preguntas y respuestas detalladas sobre acciones, pero se degradan abruptamente en cada nivel cognitivo sucesivo. Las tareas agentivas resultan ser las más difíciles: el modelo más fuerte alcanza solo un 5% de precisión cuando debe recopilar e integrar evidencia de manera autónoma a través de un corpus de 1.8 millones de clips.
La búsqueda agentiva requiere que los agentes de modelos de lenguaje exploren múltiples fuentes y respondan preguntas complejas de búsqueda de información. Escalar el cómputo en tiempo de prueba es un enfoque prometedor para mejorar estos agentes, pero los métodos actuales pueden fallar, ya que las respuestas correctas suelen ser escasas y la selección basada en puntuaciones depende de la calibración del modelo. Proponemos FineVerify, un marco de autoverificación detallada que descompone cada pregunta en subpreguntas verificables, verifica los candidatos muestreados respecto a cada subpregunta y selecciona el candidato con la puntuación agregada más alta. Esta estructura de verificación por elemento convierte la selección en juicios locales más simples y produce puntuaciones bajo los mismos criterios explícitos. En cuatro puntos de referencia de búsqueda agentiva y dos modelos, FineVerify supera consistentemente a las líneas base estándar de escalado. Con solo cuatro trayectorias muestreadas, mejora a GPT-5-mini en 8.2 puntos de precisión y a Gemini-3-flash en un 5.6% en promedio. Con 12 muestras, FineVerify permite que GPT-5-mini supere al GPT-5 de frontera en BrowseComp-Plus. Más allá de la precisión, FineVerify genera trazas de verificación interpretables que ayudan a auditar errores en los puntos de referencia, lo que sugiere aplicaciones más amplias para la inspección de sistemas de búsqueda agentiva. El código y los datos están disponibles en https://github.com/XuZhao0/fineverify.
Los sistemas de IA Física mapean cada vez más observaciones multimodales, instrucciones en lenguaje y representaciones aprendidas del mundo en acciones físicamente consecuentes. Los modelos fundacionales de robótica, los modelos visión-lenguaje-acción y los sistemas autónomos basados en modelos del mundo pueden condicionar decisiones que mueven vehículos, robots, drones y máquinas industriales. Esta transición expone un problema de seguridad que no está completamente capturado por la moderación de contenido convencional de IA ni por la seguridad robótica clásica por sí sola: un modelo de caja negra puede emitir una acción físicamente consecuente mientras parece confiado, plausible y semánticamente alineado. El fallo resultante puede ser silencioso, proveniente de deriva del sensor, oclusión, error de estimación de estado, cambio de distribución, affordances alucinados o suposiciones físicas inválidas, antes de que los controladores de hardware aguas abajo detecten una violación. A lo largo de modelos fundacionales encarnados, modelos del mundo, simulación robótica, benchmarks de seguridad para sistemas encarnados, control seguro, garantía en tiempo de ejecución, estimación de incertidumbre, verificación y evaluación de salvaguardas, la capacidad del modelo y los mecanismos de seguridad han avanzado por vías técnicas en gran medida separadas. Una brecha recurrente sintetizada aquí es que ninguna corriente única entre las revisadas proporciona un límite de autorización en tiempo de ejecución completo entre los modelos de IA Física de caja negra y la ejecución física. El análisis resultante desarrolla una formulación del problema acotada, una definición de fallo silencioso de acciones físicas, una taxonomía de funciones de salvaguarda en tiempo de ejecución y requisitos de evaluación para comparar salvaguardas como mecanismos de aseguramiento de IA Física.
El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en una técnica central para el post-entrenamiento de modelos de lenguaje grandes (LLMs). Si bien la optimización de políticas está impulsada por todos los tokens muestreados bajo una recompensa escalar transmitida globalmente, los comportamientos de política heterogéneos que se manifiestan a lo largo de las trayectorias son en gran medida ignorados sin diferenciación. Los trabajos existentes abordan esto mediante la asignación de crédito, incluyendo la reponderación de ventajas a nivel de token y la optimización selectiva de tokens; sin embargo, los criterios de asignación permanecen principalmente estáticos durante todo el entrenamiento, lo que limita la evolución resiliente de la política. En este trabajo, sostenemos que *cuándo* se programan las señales de aprendizaje puede ser tan importante como *dónde* se asignan entre los tokens, e introducimos la dimensión temporal que programa los criterios de asignación de crédito a lo largo del proceso de optimización RLVR. Descubrimos que priorizar tokens específicos enfatizados con comportamientos de política concretos, y atenuar gradualmente hacia una optimización general, conduce a dinámicas de aprendizaje más estables y eficientes. Además, mostramos que los percentiles simples de trayectoria proporcionan una perspectiva natural para distinguir comportamientos de política, y funcionan eficazmente con la programación temporal. Nuestro análisis revela que la optimización estándar sacrifica sustancialmente la entropía de la política al acomodar simultáneamente comportamientos heterogéneos, mientras que la programación temporal produce dinámicas de evolución de política más saludables. Los experimentos en benchmarks de razonamiento matemático y general demuestran mejoras consistentes, lo que sugiere que la programación temporal constituye una dimensión de optimización prometedora.
Los embeddings de oraciones son un componente fundamental para la búsqueda semántica, la agrupación, la clasificación y la generación aumentada por recuperación. Este artículo presenta embeddingmagibu-200m, un modelo de embeddings de oraciones enfocado en turco que produce vectores L2-normalizados de 768 dimensiones y admite una ventana de contexto de 8,192 tokens, superando con creces el límite de 512 tokens de los codificadores turcos anteriores basados en BERT. En lugar de un preentrenamiento completo, se introduce un eficiente proceso de adaptación en tres etapas: (1) construir un tokenizador multilingüe optimizado para turco con un vocabulario de 131,072 tokens, eliminando tokens redundantes del vocabulario del maestro e incorporando tokens multilingües mediante análisis de frecuencia en un corpus de 40 idiomas; (2) clonar un modelo de embeddings maestro, preservando los pesos del transformador subyacente e inicializando una tabla de embeddings compatible para el nuevo vocabulario mediante un mapeo de tokens por composición de medias; y (3) realizar destilación de embeddings fuera de línea a partir de vectores maestros precomputados utilizando un objetivo de similitud coseno sobre un corpus equilibrado de Wikipedia en 40 idiomas. El modelo estudiante resultante contiene aproximadamente 200 millones de parámetros y se entrena en aproximadamente cuatro horas en una sola GPU al evitar la inferencia en línea del maestro durante el entrenamiento, con un costo total de 5–20. Empíricamente, se obtienen correlaciones de Pearson/Spearman de 77.55%/77.45% en STSbTR, superando al modelo maestro de 300 millones de parámetros (73.84%/72.92%). En TR-MTEB (26 tareas), se logra una puntuación media de 63.9% (7.° de 26 modelos), ofreciendo un compromiso costo-calidad competitivo con un 33% menos de parámetros que el maestro. Para facilitar la reproducibilidad y el uso posterior, se publican todos los artefactos, incluidos los pesos del modelo, los archivos del tokenizador, los conjuntos de datos de embeddings precomputados y las herramientas de código abierto para clonación y destilación.
El modelado 3D procedural mediante código está surgiendo como un paradigma versátil, que ofrece activos deterministas, listos para motores y precisamente editables que los generadores 3D neuronales carecen inherentemente. No obstante, la creación de dicho contenido procedural exige un profundo conocimiento en APIs de software 3D, diseño paramétrico y razonamiento geométrico a nivel de código. En este artículo, proponemos 3DCodeBench, un benchmark sistemático para evaluar agentes de modelos de visión-lenguaje (VLM) para la generación procedural 3D en software de modelado 3D. Específicamente, 3DCodeBench evalúa la eficacia con la que 12 VLM avanzados pueden servir como modeladores 3D procedurales traduciendo referencias de texto e imágenes a código procedural para software de modelado 3D. Reconociendo que las métricas automatizadas pueden no capturar completamente la calidad perceptual de las formas 3D, construimos 3DCodeArena, una plataforma de clasificación basada en preferencias humanas por pares sobre las salidas 3D generadas. A partir de extensas evaluaciones y resultados, observamos que: (1) Los fallos surgen principalmente de discrepancias en las APIs, mientras que los renders exitosos aún sufren de componentes geométricos 3D desconectados o flotantes. (2) El escalado en tiempo de prueba, como mayores presupuestos de pensamiento y refinamiento en múltiples turnos, mejora el rendimiento general. Nuestros hallazgos resaltan una necesidad crítica de datos de codificación procedural de alta calidad para avanzar en los VLM comerciales. Además, el modelado 3D procedural efectivo requiere un entorno de ejecución robusto que proporcione retroalimentación de alta fidelidad para el refinamiento iterativo. Publicamos 3DCodeBench, que incluye el conjunto de datos a gran escala curado de indicaciones multimodales (texto/imagen), código procedural, tripletes de objetos 3D, protocolo de evaluación y la plataforma pública 3DCodeArena como un conjunto de herramientas fundamental para explorar modeladores 3D procedurales basados en VLM.
A medida que las aplicaciones del mundo real exigen cada vez más procesar entradas de más de 100k tokens, la brecha entre la longitud del contexto y la eficiencia de inferencia se ha convertido en un cuello de botella crítico. La compresión de contexto ofrece una forma de reducir los costos de prellenado mientras se preserva la precisión de la tarea. Sin embargo, los métodos existentes basados en atención sin entrenamiento presentan brechas considerables en tareas exigentes de contexto largo, como el razonamiento de código. Presentamos LongAttnComp, una adaptación de AttnComp para contextos largos que ajusta una capa ligera de puntuación de atención cruzada e introduce fragmentación a nivel de tokens, un algoritmo top-p con presupuesto de tokens, reordenamiento posicional y un analizador de consultas independiente del formato. Además, diseñamos una receta de ajuste fino en dos etapas para el compresor: la Etapa 1 construye una base de recuperación general a partir de datos estilo NIAH, y la Etapa 2 la extiende con datos de múltiples saltos y razonamiento para una cobertura más amplia de tareas de contexto largo. En InfiniteBench Code-Debug, LongAttnComp iguala o supera la precisión de contexto completo, supera sustancialmente las líneas base sin entrenamiento y se transfiere a cuatro modelos objetivo de tres familias. En LongBench v2, la receta en dos etapas reduce en gran medida la brecha de la Etapa 1 en razonamiento multdocumento mientras preserva el rendimiento en Code-Debug.
Este artículo aborda el desafío de integrar mallas 3D como una modalidad nativa en Modelos de Lenguaje Grandes Multimodales (MLLMs). Los modelos de reconstrucción grandes basados en difusión separan la comprensión semántica del razonamiento geométrico, operando como reconstructores sin estado condicionados a priores densos de píxeles 2D. Los métodos recientes basados en MLLMs tratan la modalidad 3D como una salida externa en lugar de un componente nativo de la secuencia multimodal, realizando adaptaciones incrementales sin un análisis sistemático de cómo las variedades geométricas se alinean con los espacios de características de los MLLMs. Presentamos EVA01, un marco unificado que amplía el límite de modalidad de los MLLMs para incorporar de forma nativa la comprensión, generación y edición sensible al contexto de mallas 3D. Construido sobre una arquitectura de Mezcla de Transformers (MoT), EVA01 desacopla el modelo en un Experto de Comprensión preentrenado (E_{und}) y un Experto de Generación estructuralmente reflejado (E_{gen}), acoplados a través de una autoatención global compartida con enrutamiento de modalidad estricto. Este diseño alinea el espacio latente semántico del backbone del MLLM con la variedad geométrica, permitiendo la transferencia directa de priores multimodales sin representaciones 2D intermedias. Los resultados muestran que EVA01 logra una fidelidad de vanguardia en la generación nativa de texto a 3D y desbloquea una edición geométrica robusta de múltiples turnos con contexto largo y preservación de identidad, una capacidad fundamentalmente inaccesible para los pipelines de reconstrucción sin estado. Nuestros hallazgos además ofrecen ideas arquitectónicas para integrar modelos base 2D con tareas 3D, informando el diseño de sistemas multimodales nativos en 3D. Página del proyecto: https://www.seeles.ai/research/pages/EVA01
Los investigadores académicos necesitan métodos eficientes y fiables para recopilar información de alta calidad procedente de fuentes de confianza, pero las herramientas modernas para la investigación asistida por IA aún adolecen de la tendencia de los Modelos de Lenguaje de Gran Escala (LLMs) a producir resultados factualmente inexactos o sin sentido, comúnmente denominados alucinaciones. Aplicamos el sistema de respuesta a preguntas extractivo VerbatimRAG a artículos de investigación del ACL Anthology, asignando directamente las consultas de los usuarios a fragmentos de texto literales en los documentos recuperados. Contribuimos con un conjunto de datos de referencia novedoso para la tarea de asignar consultas de usuarios a fragmentos de texto relevantes en artículos de investigación, y lo utilizamos para entrenar y evaluar una variedad de modelos extractivos. La anotación humana es realizada por investigadores de PLN y se basa en consultas de usuarios sintéticas generadas mediante un pipeline personalizado basado en la metodología ScIRGen, emparejadas con fragmentos de artículos de investigación recuperados por VerbatimRAG. En este punto de referencia, un clasificador de tokens ModernBERT de 150 millones de parámetros entrenado con supervisión plateada de nuestro pipeline logra el mejor F1 a nivel de palabra (53.6), superando al extractor LLM evaluado más fuerte (48.7).
SwiGLU se ha convertido en una activación con compuerta estándar en los MLP de los Transformers modernos; sin embargo, su nitidez de compuerta —la suavidad y selectividad de la función de activación— suele ser fija durante todo el entrenamiento. En este trabajo, proponemos Confidence-Aware SwiGLU (κ-SwiGLU), una variante de SwiGLU para modelos de Mixtura de Expertos (MoE) que ajusta la nitidez de la compuerta del experto según la confianza de enrutamiento a nivel de token. Específicamente, κ-SwiGLU parametriza el coeficiente de nitidez de la compuerta SiLU como una función aprendible del logit del enrutador, lo que permite que cada unidad de compuerta del experto interpole entre una activación suave y de amplio espectro, y una activación nítida y selectiva. Evaluamos κ-SwiGLU en el conjunto de datos FineWeb-Edu con modelos Transformer MoE de 8 a 28 capas. En estas configuraciones, κ-SwiGLU mejora el rendimiento CORE medio, a la vez que añade parámetros insignificantes e incurre solo en una pequeña sobrecarga computacional, lo que demuestra que la nitidez de compuerta consciente de la confianza es un mecanismo prometedor para mejorar los MLP de MoE. El código está disponible en https://github.com/askerlee/kappa-swiglu.
Los agentes de investigación profunda han demostrado una gran capacidad en la recuperación de información en múltiples pasos, el razonamiento y la generación de informes extensos, pero los puntos de referencia y sistemas existentes siguen siendo predominantemente centrados en texto, con una evaluación limitada de si los elementos visuales son confiables desde el punto de vista fáctico y están bien alineados con el análisis circundante. Para abordar esta carencia, presentamos TVIR (Generación de Informes Intercalados Texto-Visual), que incluye TVIR-Bench, un punto de referencia de 100 tareas de investigación profunda multimodal seleccionadas por expertos que requieren elementos visuales para cumplir objetivos analíticos específicos, y TVIR-Agent, un marco jerárquico multiagente que sirve como una línea base sólida para construir esquemas, recuperar imágenes, generar gráficos con fuentes rastreables y redactar informes mediante escritura secuencial consciente del contexto. Además, desarrollamos un marco de evaluación de doble vía que combina Evaluación Textual y Evaluación Visual. Los experimentos realizados en nueve sistemas de investigación profunda muestran que TVIR-Agent logra un rendimiento general sólido, subrayando la importancia de un diseño y evaluación multimodales explícitos para la generación de informes basados en evidencia.
Para brindar asistencia efectiva en el mundo real, los agentes de inteligencia artificial necesitan una Teoría de la Mente (ToM) robusta: inferir los estados mentales humanos a partir de su comportamiento. A pesar de los avances recientes, persisten varios desafíos clave, entre ellos (1) la inferencia en línea con actualizaciones de incertidumbre robustas sobre múltiples hipótesis; (2) un razonamiento eficiente adecuado para la asistencia en tiempo real; y (3) la falta de anotaciones de estados mentales verdaderas en dominios reales. Abordamos estos desafíos introduciendo MindZero, un marco de aprendizaje por refuerzo autosupervisado que entrena modelos de lenguaje multimodal grandes (MLLMs) para un razonamiento mental en línea eficiente y robusto. Durante el entrenamiento, el modelo es recompensado por generar hipótesis de estados mentales que maximicen la probabilidad de las acciones observadas estimadas por un planificador, de manera similar al razonamiento ToM basado en modelos. Este método elimina así la necesidad de anotaciones explícitas de estados mentales. Tras el entrenamiento, MindZero internaliza el razonamiento basado en modelos en una inferencia rápida de un solo paso. Evaluamos MindZero frente a enfoques de referencia en tareas desafiantes de razonamiento mental y asistencia con IA en dominios de cuadrícula y domésticos. Encontramos que los LLMs por sí solos son insuficientes; los métodos basados en modelos mejoran la precisión pero son lentos, costosos y limitados por la capacidad del MLLM subyacente. En contraste, MindZero mejora la capacidad ToM intrínseca de los MLLM y supera significativamente a los métodos basados en modelos tanto en precisión como en eficiencia, demostrando que el razonamiento mental puede aprenderse efectivamente como una habilidad autosupervisada.
A pesar del rápido avance de los modelos de texto a imagen (T2I), la generación de imágenes que reflejen con precisión indicaciones compositivas complejas (que abarcan vinculaciones de atributos, relaciones entre objetos y conteo) sigue siendo un desafío. Para abordar esto, proponemos BiDPO, un marco que mejora la capacidad de los modelos T2I para la generación compositiva de imágenes a partir de texto. Comenzamos introduciendo un flujo de trabajo cuidadosamente diseñado para construir un conjunto de datos de preferencias a gran escala, BiComp, con un estricto control de calidad. Luego, extendemos Diffusion DPO para optimizar conjuntamente las preferencias de imagen y texto, lo que demuestra ser muy eficaz para mejorar la capacidad de los modelos de seguir indicaciones textuales complejas durante la generación. Para potenciar aún más el alineamiento detallado de los modelos, empleamos un método de guía a nivel de región que se centra en las áreas relevantes para los conceptos compositivos. Los resultados experimentales muestran que nuestro BiDPO mejora sustancialmente la fidelidad compositiva, superando consistentemente a métodos anteriores en múltiples puntos de referencia. Nuestro enfoque resalta el potencial del ajuste fino basado en preferencias para tareas complejas de texto a imagen, ofreciendo una alternativa flexible y escalable a las técnicas existentes.
Los modelos del mundo (WMs) basados en video han mostrado potencial para la evaluación y mejora de políticas al imaginar resultados futuros realistas condicionados a las acciones del robot-ego. Si bien los WMs pueden modelar distribuciones sobre futuros, la evaluación y mejora de políticas típicamente dependen de imaginaciones nominales, que pueden pasar por alto resultados de alto impacto de las acciones del robot a menos que se extraigan una cantidad prohibitiva de muestras. Para permitir una evaluación y mejora robusta de políticas sobre las imaginaciones de los WMs, proponemos StressDream, que dirige las imaginaciones hacia resultados de alto impacto pero plausibles, especificados en tiempo de inferencia mediante la optimización del ruido inicial de los WMs basados en difusión. Sin embargo, optimizar ruido de alta dimensión es desafiante: la optimización debe razonar sobre eventos objetivo sutiles y dependientes de la escena en videos generados, mientras evita ruido fuera de distribución (OOD) que produce imaginaciones implausibles. Abordamos esto con dos objetivos complementarios: un objetivo semántico con un modelo de visión y lenguaje que proporciona gradientes informativos al razonar sobre el video generado, y un objetivo de plausibilidad que evita que el ruido optimizado se desvíe hacia OOD. Con modelos del mundo de video de última generación para conducción autónoma y manipulación robótica, mostramos que StressDream dirige efectivamente las imaginaciones hacia resultados de alto impacto pero plausibles especificados por texto en tiempo de inferencia, como fallos en tareas, permitiendo una evaluación y mejora robusta de políticas al identificar acciones cuyos futuros plausibles incluyen resultados no deseados. Los resultados en video están disponibles en https://junwon.me/StressDream/.
Presentamos una forma funcional (que denominamos Ley de Escalado Neural Unificada (UNSL)) que modela y extrapola con precisión los comportamientos de escalado de las redes neuronales profundas cuando múltiples dimensiones varían simultáneamente (es decir, cómo cambia la métrica de evaluación de interés al variar simultáneamente el número de parámetros del modelo, el tamaño del conjunto de datos de entrenamiento, el número de pasos de entrenamiento, el número de pasos de inferencia, la cantidad de cómputo y diversos hiperparámetros) para varias arquitecturas y para cada una de las diversas tareas dentro de un conjunto variado de tareas previas y posteriores. Este conjunto incluye visión a gran escala, lenguaje, matemáticas y aprendizaje por refuerzo. En comparación con otras formas funcionales para el escalado neuronal, esta forma funcional produce extrapolaciones del comportamiento de escalado considerablemente más precisas en este conjunto.
Los sistemas de IA Física Predictiva generan despliegues de estado, fragmentos de acción y planes latentes, sin embargo, un error cuadrático medio bajo (RMSE) no implica que una propuesta particular sea físicamente ejecutable. Formulamos la admisibilidad física como una interfaz de predicción-control: antes de la ejecución, una propuesta decodificada se trata como dinámica candidata y se evalúa utilizando condiciones cinemáticas, dinámicas y de horizonte directo a compuesto. Superar la evaluación no es un certificado de éxito de la tarea; el rechazo identifica una violación del entorno físico especificado y proporciona una razón a nivel de componente. En Hugging Face LeRobot PushT, la falsificación controlada muestra que el RMSE de predicción de un solo paso y los residuos de dinámica estandarizados alcanzan un área bajo la curva de característica operativa del receptor (AUC) de 0.982 y 0.972, las condiciones solo cinemáticas alcanzan un AUC de 0.592, y la compuerta completa alcanza un AUC de 0.957 con atribución a nivel de condición. En experimentos de intervención basados en repetición, los filtros basados en residuos y la compuerta completa de admisibilidad física evitan entre el 87% y el 89% de las propuestas inválidas, manteniendo un progreso medio cercano a 0.998.
Los modelos de lenguaje grandes resuelven problemas complejos generando largas cadenas de tokens explícitos de razonamiento. Aunque efectivo, esto hace que el razonamiento sea costoso, sensible a la longitud y restringido al lenguaje natural (discreto). Si bien el razonamiento latente ofrece una alternativa continua, determinar estructuras útiles para los estados latentes intermedios es un desafío abierto. En este artículo, formulamos el razonamiento latente como un problema de aproximación geométrica de trayectorias dentro del espacio de incrustación de tokens preentrenado del modelo. Introducimos el Razonamiento Latente Geométrico (GLR, por sus siglas en inglés), que utiliza una cabeza de transición ligera para predecir actualizaciones iterativas de dirección en el espacio de incrustación. Usando trazas textuales de cadena de pensamiento como anclajes, GLR aprende a aproximar trayectorias discretas de razonamiento mientras permite desviaciones continuas de las incrustaciones exactas de tokens. Las evaluaciones en puntos de referencia de razonamiento matemático con modelos Qwen3 revelan un fenómeno emergente: el razonamiento latente geométrico induce generaciones sustancialmente más cortas sin un objetivo explícito de longitud. Al reemplazar el razonamiento explícito temprano con pasos latentes continuos, los modelos a menudo alcanzan respuestas correctas utilizando sustancialmente menos pasos totales de generación. Estos hallazgos sugieren que las trayectorias continuas actúan como estados intermedios de razonamiento compactos, exponiendo un nuevo equilibrio entre el presupuesto de cómputo latente, la longitud de salida y la precisión.
Los gráficos son un medio principal para transmitir información cuantitativa y relacional, sin embargo, evaluar sistemáticamente los modelos de análisis de gráficos sigue siendo difícil. Los puntos de referencia existentes se centran en tipos de gráficos limitados y dejan sin abordar en gran medida estructuras diagramáticas como diagramas de flujo y mapas mentales, mientras que los modelos producen resultados en formatos incompatibles, y los conjuntos de datos rara vez incluyen las imágenes impresas o dibujadas a mano que se encuentran en la práctica. Para abordar estos problemas, presentamos ChartArena, un punto de referencia bilingüe integral que abarca ocho familias de gráficos, que incluyen tanto gráficos numéricos como estructuras diagramáticas, cada uno evaluado en tres escenarios visuales: representaciones digitales, fotos impresas y fotos dibujadas a mano. El conjunto de datos se construye mediante un pipeline de anotación colaborativa humano-agente con verificación humana en múltiples etapas para garantizar la fiabilidad de las anotaciones. Para permitir una comparación justa entre modelos, diseñamos además un protocolo de evaluación independiente del formato que mapea las salidas heterogéneas en dos espacios semánticos canónicos: una vista triple normalizada y una vista de grafo dirigido, y las puntúa con métricas sensibles a la estructura. A través de una evaluación exhaustiva de 26 MLLMs líderes, observamos tres hallazgos consistentes: (i) los modelos propietarios de vanguardia como Gemini 3.1 Pro lideran en general, pero los sistemas de código abierto más potentes están cerrando rápidamente la brecha; (ii) los modelos de análisis de documentos manejan razonablemente los gráficos numéricos, pero quedan muy rezagados en las estructuras diagramáticas; y (iii) los analizadores de gráficos especializados siguen limitados a familias de gráficos reducidas. En todos los modelos, los gráficos de radar y los escenarios dibujados a mano siguen siendo especialmente desafiantes. Estos hallazgos muestran que ChartArena expone brechas de capacidad claras y proporciona una base unificada para futuros avances. ChartArena está disponible públicamente en https://github.com/pspdada/ChartArena.
Los gráficos inversos constituyen un problema de larga data y altamente subcondicionado que busca reconstruir imágenes como escenas 3D editables, capaces de ser renderizadas, reiluminadas y manipuladas. En este trabajo, investigamos si los modelos de visión-lenguaje (VLMs) preentrenados pueden realizar gráficos inversos ejecutables directamente a partir de una sola imagen, reconstruyendo una escena como un programa editable de Blender, sin depender de modelos fundamentales 2D o 3D especializados, renderizado diferenciable ni supervisión multivista. Presentamos Gráficos Inversos Ejecutables por Etapas (SEIG), un marco agéntico que reconstruye una escena 3D a partir de una sola imagen mediante el refinamiento progresivo de factores de la escena —geometría, materiales, composición e iluminación— directamente en el espacio de código ejecutable de Blender. Evaluamos nuestro marco en diversas escenas utilizando un conjunto de métricas de reconstrucción que abarcan fidelidad a nivel de píxel, perceptual y semántica. Nuestros experimentos muestran que la reconstrucción por etapas mejora sustancialmente la fidelidad de la reconstrucción, lo que destaca la importancia de la descomposición de tareas para los gráficos inversos ejecutables con VLMs de propósito general. Finalmente, presentamos diversas aplicaciones posteriores habilitadas por las escenas editables de Blender reconstruidas.
Describimos una biblioteca de finanzas matemáticas construida en el asistente de demostraciones Lean 4, sobre Mathlib y el paquete BrownianMotion. Es amplia: más de doscientos teoremas libres de "sorry" en once áreas, desde los fundamentos de la teoría de la medida del cálculo estocástico en tiempo continuo hasta la valoración de derivados financieros, pasando por la teoría aplicada de riesgo, carteras y renta fija, y, hasta donde sabemos, el desarrollo más completo verificado por ordenador de finanzas matemáticas hasta la fecha. La amplitud es el contexto, no el objetivo. Dos cosas lo convierten en algo más que un catálogo. Se adentra en la teoría continua lo suficiente como para construir la integral de Itô en L2 como una isometría lineal acotada y para derivar, en lugar de asumir, la medida de valoración neutral al riesgo. Y audita su propia fidelidad: cada resultado se clasifica según cómo su enunciado en Lean se relaciona con las matemáticas que afirma, y una puerta impuesta por la compilación fija los axiomas que cada demostración utiliza realmente, para que el lector pueda ver con precisión qué se ha demostrado y qué solo se ha demostrado bajo hipótesis adicionales. Concluimos con un hallazgo sincero: una base formal sobre las finanzas matemáticas clásicas produce una unificación certificada de resultados conocidos, en lugar de una nueva teoría financiera. La contribución es, por lo tanto, metodológica e infraestructural: fundamentos verificados reutilizables para las finanzas matemáticas, junto con la auditoría de fidelidad.
Presentamos una formulación novedosa para la simulación de orden reducido sin malla de objetos hiperelásticos deformables. Los trabajos existentes en simulación elastodinámica de orden reducido representan la geometría de entrada mediante mallas, que pueden ser difíciles de obtener debido a los desafíos en el escaneo y triangulación de formas complejas, o mediante campos neuronales que requieren optimización por forma. Proponemos adoptar una representación basada en el Método de Partículas con Núcleo Reproductor (RKPM), que permite construir pesos de skinning de orden reducido resolviendo un sistema propio generalizado sobre la matriz Hessiana de la energía elástica. Demostramos que esta formulación no solo conduce a una aceleración del entrenamiento de 40 veces en comparación con la optimización por forma de campos neuronales, sino que también logra un menor error de simulación al evaluarse frente a los resultados convergentes del método de elementos finitos. Mostramos nuestros resultados de simulación en una amplia variedad de objetos en diferentes representaciones, incluyendo mallas y splats gaussianos, así como la aplicación de nuestro método en la tarea posterior de simulación de robots.
Los bitedos multilingües a gran escala suelen presentar dos problemas distintos: pares de oraciones no paralelas y traducciones de baja calidad. Descomponemos la evaluación basada en modelos para estos datos en dos componentes independientes: evaluación de paralelismo con incrustaciones multilingües y estimación de calidad sin referencia (QE). Para el paralelismo, evaluamos comparativamente cuatro modelos de incrustación en las tareas de recuperación de FLORES-200 y BOUQuET, que abarcan 6.654 direcciones fuente-destino en nuestro inventario de pares de idiomas objetivo. Para la QE, evaluamos nueve evaluadores sin referencia en traducciones profesionales de FLORES-200 a lo largo de 41.412 direcciones fuente-destino ordenadas. Los resultados muestran que ningún modelo es universalmente fiable en todas las direcciones de traducción. Los conjuntos ingenuos de QE diluyen las señales fuertes del modelo, mientras que la cobertura documentada del idioma de destino está fuertemente asociada con puntuaciones de QE más altas. En conjunto, estos hallazgos sugieren que la evaluación de datos paralelos multilingües se aborda mejor como un problema de enrutamiento y calibración que tiene en cuenta la dirección, donde no se espera que una única métrica universal sea suficiente para todos los idiomas.
Los modelos de razonamiento se evalúan en puntos de referencia de un solo turno, pero se implementan en diálogos de múltiples turnos, donde los usuarios cuestionan las respuestas correctas. Bajo presión adversaria sostenida, encontramos un modo de fallo no documentado previamente: la cadena de pensamiento se mantiene factualmente correcta desde el primer turno hasta el último, mientras que la respuesta emitida se vuelve errónea. Llamamos a esto capitulación desleal (UC, por sus siglas en inglés) y lo aislamos mediante un marco latente-conductual de 2×2 que tanto las métricas de tasa de cambio como los sondeos de fidelidad de un solo turno pasan por alto. En tres conjuntos de datos (MT-Consistency, MMLU-Pro, GSM8K), la tasa de corrección latente en el punto de cambio conductual se agrupa cerca del 50 % en modo de pensamiento y cae al 11-15 % bajo no_think —evidencia causal pareada, dentro del modelo, de que el razonamiento crea la brecha. Entre modelos, el efecto sigue el canal de razonamiento (alto en Qwen3-32B y GPT-OSS-20B, bajo en Gemma-4-31B-it con CoT en línea). Un juez independiente GPT-4o corrobora el 86 % de las etiquetas de UC; un sondeo a nivel de token muestra que el argmax de la ranura de respuesta es correcto en el 84 % de las celdas de UC; y una defensa ingenua anclada en trazas resulta contraproducente. Publicamos todas las trayectorias, trazas y etiquetas del juez.
Un sistema de generación aumentada por recuperación (RAG) desplegado sobre un corpus institucional de múltiples autores puede proporcionar una respuesta diferente a la misma pregunta según la fuente que recupere, un modo de fallo que el paradigma dominante de respuesta única de referencia no puede diagnosticar. Sostenemos que la dependencia de fuentes es un eje faltante en la evaluación de PLN, y que auditarla implica trasladar la unidad de evaluación de la corrección de la respuesta a la relación entre fuentes. Concretamos esto en el contexto de la educación de pacientes de trasplante, donde fuentes institucionales discrepan claramente, publicando tres artefactos: TransplantQA, un punto de referencia de preguntas reales de pacientes, cada una respondida mediante la generación fundamentada en múltiples manuales institucionales como fuentes candidatas; HERO-QA, una estrategia de recuperación jerárquica que fundamenta y audita cada respuesta; y un juez de salida estructurada que puntúa las relaciones entre fuentes en una taxonomía validada de 5 etiquetas. A escala, una mejor recuperación revela mucho más desacuerdo del que estimaban estudios previos —subestimando su prevalencia, no su intensidad. El marco es agnóstico al dominio y se transfiere a RAG jurídicos y educativos: medir la dependencia de fuentes es una responsabilidad para el PLN desplegado sobre múltiples fuentes en general.
Las reseñas generadas por LLM para artículos científicos están ganando considerable relevancia e incluso están siendo probadas oficialmente en conferencias importantes. Debemos suponer que no solo los revisores utilizan asistencia de LLM, sino que también los autores emplean LLM para revisar sus artículos antes de enviarlos. En este trabajo, realizamos experimentos empíricos con artículos de la Revisión Continua de ACL (ARR) de 2025 para evaluar las reseñas generadas por LLM tanto desde la perspectiva del autor como del revisor. En primer lugar, identificamos una alineación limitada entre las reseñas de LLM y las humanas. En el mejor de los casos, la alineación es razonable. Sin embargo, también encontramos que la alineación entre LLM y humanos varía sustancialmente según las indicaciones y los modelos. Finalmente, investigamos el escenario en el que el autor utiliza un flujo de trabajo iterativo de borrador-revisión para mejorar el envío de acuerdo con la reseña del LLM. Descubrimos que esta "manipulación" de las reseñas de LLM puede ser efectiva en escenarios específicos, lo que lleva a un aumento estadísticamente significativo de las puntuaciones generales en hasta un 35 % de los artículos. Publicamos nuestro código: https://github.com/uhh-hcds/reviewarcade.
Los sistemas de inteligencia artificial son falibles, y los humanos pueden cometer errores al decidir si confiar en la IA o en su propio juicio. Por lo tanto, mejorar la colaboración humano-IA requiere comprender cuándo, por qué y cómo los humanos deciden confiar en la IA. Estudiamos dos decisiones de confianza distintas: la elección de delegación —decidir cuándo dejar que la IA actúe de forma autónoma sin conocer su resultado— y la elección de adopción —evaluar las sugerencias de la IA y decidir cómo utilizarlas—. Ambos patrones de confianza desacoplados moldean la colaboración, pero los trabajos previos rara vez los estudian juntos en entornos realistas con los mismos usuarios. Abordamos esta brecha estudiando equipos colaborativos humano-IA que compiten en un juego de preguntas y respuestas donde los humanos pueden elegir cuándo y cómo trabajar con agentes de IA para ganar. Nuestros 24 enfrentamientos emparejan a 23 expertos humanos con 16 agentes de IA, capturando 387 decisiones de delegación y 1440 decisiones de adopción. Si bien la colaboración humano-IA obtiene mejores resultados que la IA o los humanos por separado, los humanos toman decisiones de colaboración subóptimas, tanto confiando por debajo de lo debido en sugerencias correctas de la IA (3.9% de oportunidades perdidas) como confiando en exceso cuando la IA los engaña (1.7%). Ambas partes contribuyen con respuestas incorrectas: la confianza reportada del modelo es cercana al azar cuando humanos e IA discrepan, mientras que el sesgo de confirmación impulsa una mayor subconfianza (64.5%) cuando una sugerencia de la IA coincide con la respuesta inicial incorrecta de los humanos. Para cerrar esta brecha, recomendamos una confianza calibrada, explicaciones basadas en evidencia y mecanismos que ayuden a los usuarios a refinar su confianza.
En este artículo, el entrenamiento de una red neuronal se identifica, exactamente, como una búsqueda a través de problemas de valor inicial de Hamilton-Jacobi: cada paso de gradiente selecciona los datos iniciales de una ecuación viscosa de Hamilton-Jacobi cuyo propagador de Hopf-Cole se ajusta mejor a las observaciones; en la inferencia, la entrada es el punto espacial en el que se evalúa esa solución y la condición inicial ya está codificada en los pesos. La correspondencia es exacta para capas log-sum-exp y estructural para arquitecturas más amplias: las redes residuales, los transformadores y las arquitecturas recurrentes (RNN, LSTM, SSM) discretizan cada una la misma clase de ecuaciones de Hamilton-Jacobi, con hamiltoniano y viscosidad dependientes de la arquitectura. Un único parámetro de deformación ε unifica las cuatro perspectivas (red, álgebra tropical, EDP viscosa, optimización convexa) en un diagrama conmutativo cerrado bajo condiciones de Lipschitz. Las consecuencias cuantitativas incluyen: la tasa de generalización óptima minimax O(n^{-1/(d+2)}) para t fijo; robustez adversarial controlada por ε; la retropropagación como la ecuación co-estado del sistema hamiltoniano para redes residuales (Principio del Máximo de Pontryagin); exponentes de escalado consistentes con la dimensión intrínseca de los datos mediante cuadratura de EDP; y una función de influencia de forma cerrada O(N) (pesos de atribución softmax π_j) cuyo paisaje de entropía experimenta bifurcaciones en pliegue a medida que ε aumenta, fusionando cuencas de atribución.
La evolución diacrónica del latín a las lenguas romances implicó una reestructuración del sistema de género gramatical, pasando de una configuración tripartita (masculino, femenino, neutro) a una bipartita (masculino, femenino) en la mayoría de las lenguas romances. En este trabajo, presentamos un marco de aprendizaje profundo interpretable para investigar este fenómeno tanto a nivel léxico como contextual. Primero, demostramos que las estrategias convencionales de tokenización no son suficientemente robustas para este contexto histórico de bajos recursos, y que nuestro tokenizador propuesto mejora el rendimiento en comparación con estas líneas base. A nivel léxico, evaluamos la contribución de las características morfológicas a la predicción del género. A nivel contextual, cuantificamos las contribuciones de diferentes categorías gramaticales a la predicción del género gramatical. En conjunto, estos análisis caracterizan la distribución de la información de género entre el lema y su contexto oracional. Ponemos a disposición del público nuestro código, conjuntos de datos y resultados en https://github.com/ahan-2000/Lost-in-Translation-.
El escalado de los Modelos de Lenguaje de Gran Tamaño (LLMs) ha impulsado mejoras significativas en el rendimiento, pero ha creado desafíos sustanciales en la eficiencia de inferencia. Si bien las arquitecturas de Mezcla de Expertos (MoEs) abordan este problema al desacoplar el tamaño del modelo del costo de inferencia, entrenar MoEs desde cero suele ser inestable y computacionalmente intensivo. La conversión de modelos densos preentrenados en MoEs dispersos ha surgido como una solución alternativa; sin embargo, los métodos existentes típicamente dependen de agrupamiento heurístico de neuronas o división aleatoria para particionar la Red de Avance Alimentado (FFN) en expertos. En este trabajo, proponemos DOT-MoE, un marco novedoso que formula la descomposición de capas densas como un problema de Transporte Óptimo Diferenciable (DOT). En lugar de heurísticas estáticas, modelamos la asignación de neuronas como un problema de transporte balanceado, utilizando iteraciones diferenciables de Sinkhorn-Knopp para imponer restricciones estrictas de capacidad de experto. Además, utilizamos Estimadores de Paso Directo (STE) para aprender conjuntamente la asignación discreta neurona-a-experto y la política de enrutamiento token-a-experto de extremo a extremo. Experimentos exhaustivos en múltiples arquitecturas y benchmarks demuestran que DOT-MoE supera significativamente a las líneas base de poda estructurada, agrupamiento heurístico y división aleatoria, reteniendo el 90% del rendimiento del modelo denso original mientras reduce los parámetros activos en un 50%.
Aprender una representación compartida entre el texto hablado y el gesto es fundamental para la recuperación, síntesis y comprensión de gestos co-verbales, pero sigue siendo un desafío en el caso de gestos semánticamente significativos, cuyo propósito comunicativo no se captura únicamente mediante el movimiento. El alineamiento contrastivo directo entre transcripciones y representaciones continuas del movimiento tiende a sobredimensionar la cinemática de bajo nivel y pasa por alto el contenido simbólico de los gestos semánticos. Proponemos los anclajes semánticos de movimiento, abstracciones en lenguaje natural del movimiento gestual que capturan tanto la forma física como la intención comunicativa. Nuestro método discretiza gestos 3D en primitivas de movimiento cuerpo-mano, las verbaliza en descripciones estructuradas y las fundamenta en la transcripción para proporcionar una supervisión contrastiva auxiliar. En BEAT2, nuestro método mejora el R@1 de texto a gesto en un 8,2 % con respecto a una línea base directa de texto-movimiento, y supera a enfoques previos de recuperación tanto en la dirección de texto a gesto como de gesto a texto. Más allá de las métricas agregadas de recuperación, la supervisión mediante anclajes semánticos de movimiento ayuda a recuperar gestos que son semánticamente significativos para la consulta hablada, en lugar de recurrir a patrones de movimiento genéricos. Un estudio posterior de generación de gestos aumentada por recuperación mostró que los usuarios prefirieron significativamente los gestos recuperados por nuestro enfoque frente a una línea base de generación aumentada por recuperación, lo que demuestra que una recuperación fundamentada semánticamente se traduce en gestos que transmiten mejor la intención comunicativa en la generación descendente.
La anotación humana constituye el fundamento empírico de gran parte de la investigación en PLN, desde la construcción de conjuntos de datos hasta la evaluación de modelos, pero los artículos a menudo dejan sin especificar quién produjo las anotaciones y cómo se controló el proceso de anotación. Presentamos la primera auditoría a gran escala y a nivel de tarea sobre la documentación de la anotación humana en las principales conferencias de PLN, preguntando qué detalles de la anotación se documentan, cuáles faltan y cómo varía la documentación según el tiempo, el tema, la conferencia y el uso previsto del juicio humano. Introducimos una taxonomía unificada de prácticas de documentación de anotaciones y validamos un canal de extracción asistido por LLM frente a Annotated-gold, un estándar de oro adjudicado por humanos compuesto por 41 artículos y 72 tareas de anotación, donde el mejor modelo alcanza un acuerdo comparable al humano con las etiquetas adjudicadas, con un alfa de Krippendorff de 0,606 frente a 0,585 para el acuerdo entre humanos. Utilizando este canal, construimos Annotated-llm, un conjunto de datos que abarca artículos de las conferencias ACL entre 2018 y 2025, con 2.667 tareas de anotación extraídas de 1.603 artículos, y encontramos que los artículos reportan con frecuencia detalles operativos como las estrategias de reclutamiento, la experiencia de los anotadores y el volumen de anotación, pero omiten detalles necesarios para evaluar la validez de la anotación, incluyendo la capacitación, la competencia lingüística, la compensación, los datos sociodemográficos, la adjudicación y los valores de acuerdo, especialmente en los estudios de evaluación de modelos. Nuestros resultados muestran que la documentación de la anotación en PLN ha mejorado con el tiempo, pero sigue siendo desigual, y establecen un marco escalable y recomendaciones mínimas de documentación para hacer que la anotación humana sea más fiable, reproducible e interpretable.
La manipulación robótica requiere modelos que generen acciones ejecutables mientras anticipan y evalúan sus consecuencias futuras antes de la ejecución física. Presentamos τ_0-World Model (τ_0-WM), un modelo mundial unificado de video-acción que integra aprendizaje de políticas, predicción de video y evaluación de acciones dentro de un único marco de predicción futura. Construido sobre un backbone compartido de difusión de video, τ_0-WM proporciona dos interfaces complementarias. Primero, un modelo de acción de video que predice conjuntamente latentes visuales futuros y fragmentos de acción continuos a partir de observaciones multivista, instrucciones en lenguaje y el estado del robot. Segundo, un simulador de video condicionado por acciones que despliega fragmentos de acción candidatos en futuros multivista y predice puntuaciones densas de progreso de la tarea. El modelo se entrena con aproximadamente 27.300 horas de teleoperación real de robots, interacción al estilo UMI, videos humanos egocéntricos y trayectorias de despliegue o fallo, utilizando máscaras de supervisión específicas de la modalidad. En tiempo de inferencia, τ_0-WM emplea cómputo en tiempo de prueba para muestrear candidatos de acción, clasificarlos según consistencia de re-denoising e invocar la rectificación basada en el simulador para candidatos de baja calidad. En tareas desafiantes de manipulación robótica de largo horizonte y grano fino, τ_0-WM muestra un rendimiento superior en comparación con otras líneas base relevantes.
La investigación sobre la detección de texto generado por IA ha presentado varios enfoques para distinguir el texto humano del generado por IA, algunos de los cuales alcanzan un alto rendimiento dentro de la distribución. Sin embargo, su aplicabilidad en el mundo real se ha estancado porque sus resultados no están alineados con las necesidades de los usuarios, como los profesores, a quienes se les presenta una puntuación numérica sin explicación adjunta. Abordamos este problema con una arquitectura novedosa, TELL, que incorpora la explicabilidad desde su diseño fundamental. Si bien nuestro sistema aún ofrece una puntuación numérica como otros detectores para garantizar la comparabilidad, TELL adopta un enfoque fundamentalmente diferente: buscamos mostrar al usuario las "pistas" mediante las cuales el modelo considera que un texto está escrito por IA o por un humano, para capacitar al usuario a decidir quién escribió un texto utilizando su propio criterio y comprensión del contexto de la escritura y su presunto autor. Entrenamos TELL en un conjunto de datos personalizado de SFT con anotaciones de autoría específicas del dominio, y refinamos aún más el sistema utilizando GRPO con aprendizaje curricular para mejorar el rendimiento. Logramos un rendimiento competitivo con los detectores de última generación (AUROC 0.927), a la vez que proporcionamos de forma nativa anotaciones que explican la base de la decisión del detector. Además, evaluamos la calidad de nuestras explicaciones utilizando un conjunto de datos de anotaciones humanas y reportamos una alta tasa de victorias (media del 72.3 %) en concreción, falseabilidad, coherencia, plausibilidad y fundamentación de las anotaciones, lo que permite a los usuarios pensar críticamente y decidir por sí mismos. Por lo tanto, nuestro trabajo reformula el problema de la detección de texto generado por IA desde una perspectiva centrada en el ser humano y allana el camino para una nueva familia de detectores que se centran en la explicabilidad nativa.