Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos del mundo para la generación de video interactivo se han centrado en gran medida en entornos de un solo agente, donde las observaciones futuras se generan a partir de una única señal de control. Sin embargo, muchos entornos generados requieren interacción multiagente: múltiples jugadores, robots o agentes corporizados actúan simultáneamente en un espacio compartido. Escalar los modelos del mundo a dichos entornos requiere un diseño multiagente fundamentado: los agentes deben permanecer controlables de forma independiente, ser simétricos por permutaciones y permitir una inferencia eficiente manteniendo la consistencia a lo largo del tiempo y las perspectivas. En este artículo presentamos nuestro modelo del mundo generativo multiagente para simulación interactiva. Este introduce la Codificación Rotacional de Agente Simplex, una extensión sin parámetros de RoPE 3D que representa a los agentes como vértices de un simplex regular en el espacio de ángulos rotacionales. Esto otorga a cada agente una fase distinta, al tiempo que hace que todos los agentes sean equivalentes por permutaciones, permitiendo una identidad de agente escalable sin identidades aprendidas por ranura ni un ordenamiento fijo de agentes. Para evitar la atención densa todos-contra-todos entre agentes, proponemos además la Atención Hub Dispersa, donde tokens hub aprendibles median la interacción de tokens entre agentes, reduciendo el costo de atención entre agentes de cuadrático a lineal en el número de agentes. Para la ejecución en tiempo real, destilamos un profesor de difusión de contexto completo en un estudiante causal que genera bloques temporales de forma secuencial con almacenamiento en caché KV, permitiendo una generación sensible a la acción a 24 FPS. Experimentos en entornos virtuales multijugador muestran que nuestro modelo mejora la fidelidad del video, la controlabilidad de la acción y la consistencia entre agentes en comparación con las líneas base basadas en ranuras y atención densa, además de generalizar de dos a cuatro jugadores sin entrenamiento adicional.
Los Sistemas de Recomendación Proactivos (SRP) tienen como objetivo guiar el cambio de preferencias del usuario hacia ítems objetivo mediante la generación de trayectorias de recomendaciones intermedias. El aprendizaje por refuerzo (RL, por sus siglas en inglés) proporciona un marco fundamentado para optimizar dichas tareas de decisión secuencial, ya que las recompensas de las trayectorias pueden capturar de forma natural tanto la aceptación a corto plazo como la eficacia de la guía a largo plazo. Sin embargo, la aplicación ingenua de gradientes de política a los SRP resulta en una estimación deficiente del gradiente. Identificamos dos deficiencias: (1) las recompensas a nivel de trayectoria se descomponen en recompensas a nivel de paso con media positiva, creando un sesgo dependiente de la longitud que hace que los gradientes favorezcan la extensión de la trayectoria sobre una exploración significativa; (2) ponderar cada paso con la recompensa completa de la trayectoria ignora la estructura de descomposición, lo que conduce a una alta varianza del gradiente. Para corregir estas dos deficiencias, proponemos un marco efectivo de RL, ProRL, con dos mecanismos novedosos para la recomendación proactiva. Primero, el Centrado de Recompensa por Pasos resta las recompensas esperadas para neutralizar el sesgo dependiente de la longitud, asegurando que la extensión de la trayectoria produzca una señal de gradiente esperada nula. Segundo, la Estimación de Ventaja Específica de la Posición aprovecha la estructura de descomposición de la recompensa para calcular líneas base dependientes del paso, reduciendo la varianza del gradiente. En conjunto, estos mecanismos producen gradientes de política que se dirigen con precisión a la calidad de la trayectoria. Nuestros experimentos en tres conjuntos de datos del mundo real demuestran que ProRL supera significativamente a los SRP de última generación. Nuestro código está disponible en https://github.com/hongruhou89/ProRL.
Los modelos de visión-lenguaje con razonamiento extendido logran resolver problemas complejos, pero muchos problemas del mundo real requieren herramientas externas que el razonamiento interno por sí solo a menudo no puede resolver. Por ello, el razonamiento agéntico intercala dos comportamientos con una asimetría estructural: el pensamiento (el modo predeterminado autónomo) y el uso de herramientas (una acción auxiliar de alta varianza). Nos referimos a esta asimetría como la Brecha Pensamiento-Acción. Bajo recetas estándar de RL como GRPO, la brecha se manifiesta durante el entrenamiento mediante dos síntomas diagnósticos: el uso de herramientas se intenta solo en aproximadamente el 30% de los despliegues, y cuando se intenta, los despliegues con uso de herramientas dentro de un grupo son totalmente incorrectos en aproximadamente el 40% de las preguntas, suprimiendo la señal de aprendizaje precisamente en las llamadas a herramientas que la necesitaban. Proponemos AXPO (Optimización de Política Exploratoria para Agentes): para cada subgrupo de despliegues con uso de herramientas totalmente incorrectos, AXPO fija el prefijo de pensamiento y remuestrea la llamada a la herramienta y su continuación, junto con una selección de prefijo basada en incertidumbre. En nueve puntos de referencia multimodales y tres escalas de Qwen3-VL-Thinking, SFT+AXPO supera a SFT+GRPO en promedio (+1,8 pp en Pass@1 y +1,8 pp en Pass@4 a 8B de media) y con SFT+AXPO a 8B se supera al modelo Base 32B en Pass@4 con 4 veces menos parámetros.
Los modelos actuales de visión-lenguaje (VLMs) suelen combinar codificadores de imagen y decodificadores de lenguaje independientes mediante una alineación en múltiples etapas, un marco modular que fragmenta inevitablemente las señales a nivel de píxel entre fotogramas y dispersa las interacciones tempranas píxel-palabra. Paralelamente, los VLMs nativos, a pesar de su impresionante rendimiento en imágenes individuales, permanecen en gran medida inexplorados en comprensión de múltiples imágenes, video e inteligencia espacial. Por lo tanto, presentamos NEO-ov, un modelo fundacional nativo que aprende la correspondencia entre fotogramas y entre píxeles y palabras de extremo a extremo, sin codificadores externos, adaptadores auxiliares ni fusión a posteriori. Al eliminar por completo los límites entre módulos, NEO-ov permite que surja de forma nativa dentro del modelo un modelado espacio-temporal detallado y unificado. Notablemente, NEO-ov reduce en gran medida la brecha con sus contrapartes modulares, a la vez que sobresale en la percepción visual detallada, validando que las arquitecturas nativas de "una sola visión" no solo son factibles sino competitivas a escala. Más allá del rendimiento empírico, revelamos análisis arquitectónicos sistemáticos y recetas de entrenamiento detalladas para facilitar el modelado multimodal nativo posterior. Nuestro código y modelos están disponibles públicamente en: https://github.com/EvolvingLMMs-Lab/NEO.
La búsqueda se ha propuesto como un método eficaz para modelos de lenguaje y sistemas agentivos que se automejoran, tanto para la generación de muestras en el post-entrenamiento como para la inferencia. Sin embargo, métodos ampliamente utilizados como el muestreo best-of-N y la búsqueda en árbol presentan dos limitaciones fundamentales: están guiados por señales de verificación dispersas y construyen candidatos principalmente mediante expansión autorregresiva, lo que restringe la exploración a regiones con una masa de probabilidad sustancial del modelo. Para abordar esto, proponemos la Búsqueda Evolutiva Bidireccional (BES, por sus siglas en inglés), un marco de búsqueda que combina la evolución directa de candidatos con la descomposición inversa de objetivos. En la búsqueda hacia adelante, BES aumenta la expansión estándar con operadores evolutivos que recombinan trayectorias parciales para generar candidatos difíciles de obtener mediante una sola ejecución del modelo. En la búsqueda hacia atrás, BES descompone recursivamente la tarea original en subobjetivos verificables, produciendo retroalimentación intermedia densa que guía la búsqueda hacia adelante. Proporcionamos una motivación teórica que muestra que los candidatos generados únicamente mediante expansión se limitan a una capa de entropía estrecha, mientras que los operadores evolutivos pueden escapar de ella, y que la búsqueda hacia atrás puede reducir exponencialmente el número de muestras necesarias para encontrar una respuesta correcta. Los experimentos muestran que en tareas desafiantes de post-entrenamiento donde los algoritmos convencionales de post-entrenamiento no logran mejorar, BES permite ganancias consistentes, y en tres conjuntos de problemas abiertos de razonamiento en inferencia, BES supera a los marcos de código abierto existentes tanto en rendimiento promedio como en el mejor caso. El código y los modelos entrenados están disponibles en https://github.com/Embodied-Minds-Lab/BES.
La frontera de las matemáticas está definida por problemas cuyas soluciones aún se desconocen, y no está claro si los modelos de lenguaje pueden abordar significativamente dichos problemas sin intervención humana. Un obstáculo importante es la falta de conjuntos de datos matemáticos a nivel de investigación a gran escala. Con este fin, presentamos ResearchMath-14k, un conjunto de 14 056 problemas extraídos de fuentes académicas mediante un pipeline multiagente, lo que lo convierte en la mayor colección de problemas matemáticos a nivel de investigación hasta la fecha. Además, generamos ResearchMath-Reasoning, que contiene 220 000 trayectorias de profesor a partir de dos modelos abiertos, donde observamos comportamientos recurrentes de evitación, como no-intentos y referencias fabricadas. Es interesante notar que, en ocho modelos de pesos abiertos, las generaciones más recientes producen 5,6 veces más referencias y 5,0 veces más referencias falsas por traza. Tras el filtrado agéntico de ResearchMath-Reasoning, el ajuste fino de los modelos Qwen3, desde 4B hasta 30B parámetros, mejora en promedio 9,2 puntos respecto a los modelos base. Esto demuestra que los intentos filtrados de problemas abiertos pueden proporcionar supervisión útil incluso sin trayectorias de razonamiento completamente correctas. Ponemos ResearchMath-14k a disposición del público para futuros trabajos sobre razonamiento matemático a nivel de investigación.
El aprendizaje por refuerzo se ha convertido en un paradigma central para avanzar en el razonamiento de los modelos de lenguaje extensos; sin embargo, la mayoría de los métodos existentes aún dependen de modelos docentes más fuertes o de conjuntos de datos difíciles cuidadosamente seleccionados, lo que limita la mejora escalable de las capacidades. En este artículo presentamos DenoiseRL, un marco de aprendizaje por refuerzo que sustituye la supervisión externa por una optimización orientada a la recuperación sobre fallos provenientes de modelos débiles. En lugar de confiar en una supervisión más potente o en datos meticulosamente diseñados, DenoiseRL aprende directamente de trazas de razonamiento incorrectas, transformándolas en oportunidades de mejora, lo que hace que el entrenamiento sea más escalable y menos dependiente de recursos externos. Esto genera una señal de aprendizaje más rica y diversa, mejorando la eficiencia de exploración a partir del comportamiento imperfecto del modelo. Como resultado, DenoiseRL mejora el rendimiento del razonamiento y la eficiencia general del entrenamiento, a la vez que reduce la necesidad de una costosa curación de datos o de modelos docentes más fuertes. Empíricamente, DenoiseRL supera sistemáticamente a las líneas base sólidas de aprendizaje por refuerzo on-policy en benchmarks competitivos de razonamiento matemático y general, y promueve un comportamiento autocorrectivo más robusto a medida que aumenta la dificultad del entrenamiento, lo que destaca una vía alternativa efectiva y escalable para mejorar el razonamiento en modelos de lenguaje extensos.
Los Modelos de Visión-Lenguaje Embodied (VLM) han demostrado un rendimiento y generalización impresionantes en robótica, particularmente dentro de los marcos Visión-Lenguaje-Acción. Sin embargo, persiste una brecha significativa entre el enfoque semántico de alto nivel de los paradigmas estándar de pre-entrenamiento guiado por texto y el conocimiento espacial y físico de bajo nivel crítico para la ejecución en entornos embodied. En este artículo, presentamos GEM, un Modelo de Visión-Lenguaje Embodied con Supervisión Generativa diseñado para cerrar esta brecha. Proponemos integrar una tarea de generación de mapas de profundidad directamente en la fase de pre-entrenamiento del VLM. Al entrenar este objetivo generativo de manera conjunta con el modelo principal, observamos mejoras sustanciales en la inteligencia embodied, mejorando significativamente tanto la comprensión semántica como las capacidades de operación física. Para respaldar este paradigma, curamos y publicamos GEM-4M, un conjunto de datos integral a gran escala que incluye una mezcla de datos de fundamentación, razonamiento y planificación junto con supervisión de profundidad de alta calidad. Experimentos exhaustivos demuestran que GEM logra resultados de última generación en diversos puntos de referencia embodied. Además, nuestro modelo de acción desplegado, GEM-VLA, exhibe habilidades de ejecución de tareas vastamente superiores tanto en entornos de simulación como en evaluaciones del mundo real. El código, los modelos y los conjuntos de datos están disponibles en https://zhaorw02.github.io/GEM/.
La memoria es esencial para que los modelos de lenguaje grandes puedan realizar razonamientos de horizonte largo; sin embargo, los sistemas de memoria existentes siguen siendo poco fiables y difíciles de depurar. Rastrear la evolución dinámica de la memoria es crucial para comprender cómo se sintetiza, propaga o corrompe la información a lo largo del tiempo. En este trabajo, estudiamos el nuevo problema del trazado y atribución de errores en sistemas de memoria de LLM. Proponemos un marco novedoso que transforma los pipelines de memoria en grafos de evolución de la memoria ejecutables, permitiendo un seguimiento detallado del flujo de información operacional. Luego construimos MemTraceBench, un punto de referencia recopilado a partir de sistemas de memoria representativos como Long-Context, RAG, Mem0 y EverMemOS, para estudiar sistemáticamente los modos de fallo de la memoria. Introducimos además un método de atribución automática que recorre iterativamente los subgrafos de operaciones para identificar la causa raíz de cualquier caso de fallo. Nuestro análisis revela que los fallos de memoria son sistemáticos, derivados de problemas a nivel de operación como la pérdida de información y la desalineación en la recuperación. De manera crucial, aprovechamos estas señales de atribución de grano fino para guiar la optimización posterior de prompts, estableciendo un sistema de circuito cerrado que corrige automáticamente los fallos y mejora el rendimiento de la tarea final hasta en un 7.62%. El código se publicará en https://github.com/zjunlp/MemTrace.
Los agentes de uso de computadora (CUA, por sus siglas en inglés) han logrado avances sustanciales recientemente, pero implementar un experto de gran tamaño y separado para cada dominio de software sigue siendo costoso. Los agentes pequeños de uso de computadora de código abierto constituyen objetivos de especialización más prácticos, aunque siguen siendo considerablemente más débiles y presentan fallos específicos de dominio desiguales. Una solución directa consiste en sintetizar datos de entrenamiento a gran escala para el dominio objetivo; sin embargo, encontramos que este enfoque ingenuo solo produce mejoras marginales. A partir de esta observación, presentamos LearnWeak, un marco de especialización sin anotaciones para agentes pequeños de uso de computadora que utiliza un agente de referencia más fuerte para identificar las debilidades del estudiante en el dominio objetivo, sintetizar tareas específicas y construir supervisión de forma automática. LearnWeak introduce además un objetivo de especialización consciente de errores que desglosa los errores de planificación y ejecución, lo que permite actualizaciones conductualmente más precisas que la supervisión uniforme y amplia. En OSWorld, LearnWeak logra mejoras promedio de 11,6 y 11,1 puntos porcentuales sobre EvoCUA-8B y OpenCUA-7B, respectivamente, en ocho dominios. También validamos que nuestros métodos de generación y entrenamiento de conjuntos de datos conscientes del estudiante superan las líneas base existentes de generación autónoma de trayectorias y entrenamiento. Nuestro trabajo destaca la importancia de la conciencia del estudiante tanto en la síntesis de datos como en el entrenamiento de agentes, señalando un camino más fundamentado y eficiente para la especialización de agentes pequeños de uso de computadora en diversos dominios.
Los agentes autónomos de investigación producen soluciones competitivas y manuscritos de aspecto profesional, pero sus resultados contienen fallas de verificabilidad indetectables mediante una evaluación superficial: citas inventadas, puntajes irreproducibles y descripciones de métodos que divergen de la implementación. Abordamos esto mediante tres contribuciones. Primero, Chain-of-Evidence (CoE), un marco de verificabilidad que exige que cada afirmación sea rastreable hasta su fuente de evidencia. Segundo, ScientistOne, un sistema de investigación autónomo de extremo a extremo que mantiene cadenas de evidencia por construcción a lo largo de la revisión de literatura, el descubrimiento de soluciones y la redacción de artículos. Tercero, CoE Audit, una auditoría post-hoc cuyas cuatro verificaciones de integridad —verificación de puntajes, violación de especificaciones, verificación de referencias y alineación método-código— se aplican uniformemente a todos los sistemas. En 75 artículos que abarcan cinco sistemas y cinco tareas de investigación de frontera, cada línea base presenta al menos un modo de falla sistemático: las tasas de referencias alucinadas alcanzan el 21%, la verificación de puntajes se supera en tan solo el 42% de los artículos, y la alineación método-código oscila entre el 20% y el 80%. ScientistOne logra cero referencias alucinadas (0/337), verificación perfecta de puntajes (12/12) y la alineación método-código más alta (14/15), a la vez que iguala o supera el rendimiento de expertos humanos en las cinco tareas. ScientistOne se generaliza además a seis tareas adicionales que abarcan imágenes médicas, reconocimiento de grano fino, percepción 3D y modelado de lenguaje, logrando el estado del arte en Parameter Golf y medallas de oro en tareas de MLE-Bench donde las líneas base fallan por completo.
Los agentes de investigación basados en IA pueden ahora generar ideas de investigación, diseñar experimentos, ejecutar código y redactar artículos, lo que plantea la posibilidad de un descubrimiento científico asistido por IA a gran escala. Muchos marcos actuales de agentes fomentan explícitamente la generación de ideas novedosas y de alto impacto. Sin embargo, aún no está claro si la ideación asistida por IA amplía la exploración científica o se concentra principalmente en torno a trabajos existentes. Estudiamos los agentes de investigación de IA como sistemas de búsqueda científica. Utilizando cuatro marcos de agentes de investigación de IA y seis modelos de lenguaje grandes, generamos 37,802 ideas científicas a partir de literatura semilla compartida en áreas de investigación definidas por citas dentro de la IA y el aprendizaje automático. Luego comparamos las ideas resultantes de la IA con artículos escritos por humanos de las mismas áreas de investigación, con investigaciones humanas posteriores que surgieron de la misma literatura semilla, y con la propia literatura semilla. En todos los experimentos, surgen cuatro patrones consistentes. Primero, las ideas generadas por IA están sustancialmente más concentradas que los artículos escritos por humanos de las mismas áreas de investigación. Segundo, las ideas generadas por IA permanecen mucho más cerca de su literatura inicial que los trabajos humanos posteriores. Tercero, los artículos más similares a las ideas generadas por IA tienden a recibir menos citas posteriores. Cuarto, cuando las ideas generadas por IA difieren del trabajo previo, las diferencias surgen principalmente de la recombinación de métodos técnicos existentes, en lugar de introducir preguntas de investigación fundamentalmente nuevas. En general, los agentes de investigación de IA actuales parecen más adecuados para la elaboración local que para ampliar la exploración científica.
Los agentes LLM con memoria aumentada existentes a menudo tratan la memoria como un repositorio estático con representaciones predefinidas y tuberías de recuperación fijas, lo cual es frágil en entornos dinámicos de agentes donde la retroalimentación, la variación de tareas y las señales heterogéneas remodelan continuamente lo que debe recordarse y cómo debe conectarse. Para abordar esto, proponemos FluxMem, un marco de memoria con conectividad evolutiva que modela la memoria como un grafo heterogéneo y refina progresivamente su topología a través de tres etapas: formación inicial de conexiones, refinamiento impulsado por retroalimentación y consolidación a largo plazo. Durante la ejecución, FluxMem repara enlaces faltantes, poda interferencias, alinea la granularidad de abstracción y destila trayectorias recurrentes exitosas en circuitos procedimentales reutilizables, guiado por una métrica de generalizabilidad de la memoria y madurez evolutiva. En tres conjuntos de referencia fundamentalmente distintos, incluidos LoCoMo, Mind2Web y GAIA, FluxMem logra un rendimiento consistente de última generación, demostrando una fuerte adaptación y generalización en entornos complejos de agentes. El código será de código abierto en https://github.com/zjunlp/LightMem.
Los modelos de lenguaje Transformer causales adolecen de una decodificación estrictamente secuencial y un costo de atención cuadrático por paso. Si bien los modelos causales de tiempo lineal y los modelos de difusión discreta abordan cada una de estas debilidades, su integración sigue siendo inherentemente inconsistente: la difusión requiere atención bidireccional, mientras que los modelos causales son unidireccionales. Para unificar estas arquitecturas, proponemos B^3D-RWKV, una variante de RWKV con difusión que integra la eficiencia de inferencia O(L) del modelo con difusión discreta bidireccional paralela mediante un método de disposición de bloques triplete. B^3D-RWKV-7.2B alcanza una precisión comparable en un conjunto de 8 tareas frente a los modelos existentes, al tiempo que supera significativamente a las líneas base en rendimiento de decodificación con una aceleración promedio de 1.6 veces.
Las habilidades de agente proporcionan una forma liviana de adaptar agentes basados en LLM a dominios especializados, almacenando conocimiento procedural reutilizable en archivos estructurados. Sin embargo, ya sea que se descarguen de terceros o se generen por cuenta propia, estas habilidades suelen ser poco fiables, incompletas o desactualizadas. Los métodos existentes de evolución de habilidades a menudo abordan estas deficiencias mediante reflexiones heurísticas sin una formulación explícita de optimización. En este artículo, proponemos SkillGrad, un marco inspirado en el descenso de gradiente para optimizar habilidades de agente. SkillGrad trata el paquete de habilidades como un parámetro estructurado a optimizar de manera similar al descenso de gradiente: las ejecuciones de tareas proporcionan evidencia de pérdida a nivel de trayectoria, luego los diagnósticos automáticos brindan gradientes basados en texto que indican las direcciones de corrección. Para estabilizar la optimización entre iteraciones, un agente de momento acumula patrones de diagnóstico recurrentes en una superposición de memoria persistente. Finalmente, un parcheador basado en LLM ejecuta la actualización de parámetros aplicando ediciones conscientes de capas al paquete de habilidades. Evaluado en SpreadsheetBench Verified y WikiTableQuestions, SkillGrad supera consistentemente a las líneas base de evolución de habilidades basadas en entrenamiento en dos LLMs subyacentes, mejorando la línea base de entrenamiento más fuerte en 6.7 puntos porcentuales en promedio. Los análisis de ablación muestran además que tanto el momento como el diagnóstico contrastivo contribuyen a la calidad final de la habilidad.
Los Transformers de Difusión logran una alta calidad en la generación de videos, pero el costo cuadrático de la atención completa limita la eficiencia. Presentamos OSP-Next, un modelo eficiente de generación de texto a video que integra atención dispersa, paralelismo, cuantización y aprendizaje por refuerzo. OSP-Next utiliza una arquitectura de atención híbrida completa-dispersa, donde el componente disperso se implementa con Atención Dispersa Skiparse-2D. Este mecanismo de patrón fijo aplica atención dispersa por token y por grupo a lo largo de las dimensiones espaciales, aprovechando la localidad mientras mantiene compatibilidad nativa con los kernels de FlashAttention. Basándonos en la equivalencia local del reordenamiento en la Atención Dispersa Skiparse-2D, proponemos además el Paralelismo de Secuencias Dispersas (SSP), que divide subsecuencias entre rangos y cambia los patrones dispersos mediante una única comunicación All-to-All. En comparación con el Paralelismo de Secuencias Ulysses (SP), SSP proporciona una estrategia paralela nativa para la atención dispersa y reduce el volumen de comunicación en un 75%. OSP-Next también incorpora la cuantización HiF8 para permitir un entrenamiento conjunto estable con cuantización de 8 bits y ajuste fino disperso, y aplica un post-entrenamiento Mix-GRPO para mejorar el rendimiento del modelo disperso. Los experimentos muestran que OSP-Next alcanza una puntuación total VBench de 83.73%, superando la línea base de Wan2.1. Bajo las configuraciones de 5 segundos 720P y 5 segundos 768P, OSP-Next logra una aceleración de hasta 1.64 veces en una sola GPU y más de 1.52 veces en ocho GPUs NVIDIA H200. Además, con solo una caída del 0.4% en la puntuación total VBench, OSP-Next-HiF8 alcanza aceleraciones de 1.69 y 2.27 veces bajo las dos configuraciones en una sola Ascend 950PR, demostrando la eficiencia y el rendimiento de OSP-Next en diferentes plataformas de hardware.
A pesar del rápido progreso de los modelos de lenguaje grandes multimodales en la construcción de agentes para Interfaces Gráficas de Usuario (GUI), su capacidad para completar tareas en entornos reales se ve fundamentalmente limitada por la falta de conocimiento del mundo sobre las operaciones GUI. Las soluciones existentes generalmente dependen de costosos andamiajes multiagente o paradigmas convencionales de post-entrenamiento, como el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL). Sin embargo, el post-entrenamiento solo permite que los agentes absorban conocimiento del mundo de manera implícita a través de anotaciones de acciones o señales de recompensa, lo que conduce a una memorización ineficiente de trayectorias en lugar de una comprensión genuina. Por lo tanto, es imperativo un enfoque que permita el aprendizaje explícito de este conocimiento. Con este fin, proponemos GUI-CIDER, un método de entrenamiento intermedio que internaliza explícitamente el conocimiento del mundo GUI mediante Internalización Causal y Reselección de Ejemplares con Conciencia de Densidad. GUI-CIDER opera en tres etapas: (1) síntesis de datos, que destila el conocimiento de planificación estática y causal dinámica a partir de trayectorias GUI en texto; (2) reselección de ejemplares, que filtra el corpus recompensando estructuras causales y penalizando la redundancia semántica; y (3) entrenamiento intermedio, donde los datos refinados se utilizan para incrustar el conocimiento adquirido. Experimentos exhaustivos en dos benchmarks de conocimiento GUI y tres benchmarks de finalización de tareas demuestran que GUI-CIDER mejora consistentemente tanto la comprensión del agente sobre las operaciones GUI como sus tasas de éxito en tareas. Los códigos están disponibles en https://github.com/Wuzheng02/GUI-CIDER.
Avances recientes en aprendizaje por refuerzo en línea (RL) para modelos de lenguaje de gran escala (LLMs) han demostrado un rendimiento prometedor en tareas de razonamiento complejo. Sin embargo, a menudo presentan un equilibrio desbalanceado entre exploración y explotación, lo que resulta en una optimización inestable y un rendimiento subóptimo. Presentamos IB-Score, una métrica novedosa basada en la teoría del Cuello de Botella Informacional que evalúa el equilibrio entre exploración y explotación de la política, cuantificando el compromiso entre la diversidad de razonamiento a nivel de paso y la información mutua compartida con la respuesta correcta. El análisis basado en IB-Score muestra que los enfoques populares de RL en línea (por ejemplo, GRPO) con regularizadores comunes no logran mantener consistentemente el equilibrio durante el entrenamiento, obteniendo resultados subóptimos. Para abordar esto, proponemos Optimización de Política Basada en Árboles Impulsada por Cuello de Botella Informacional (IB-TPO), un marco fundamentado que formula IB-Score como un objetivo de optimización detallado y utiliza una estrategia novedosa de muestreo de árbol guiado por IB que no solo mejora la eficiencia del muestreo en línea con un 50% más de trayectorias bajo el mismo presupuesto de tokens, sino que también reutiliza la estructura del árbol para una estimación efectiva de IB-Score mediante Monte Carlo. Experimentos exhaustivos en benchmarks estándar muestran que nuestro método supera significativamente la línea base GRPO en un 2.9% a 3.6% y también supera a otros enfoques de RL en línea de última generación. Nuestro código está disponible en https://github.com/alibaba/EfficientRL.
La conducción autónoma de extremo a extremo mediante modelos de Visión-Lenguaje-Acción (VLA) exige un delicado equilibrio entre la planificación de trayectorias de alta fidelidad y una inferencia eficiente. Los paradigmas existentes normalmente presentan deficiencias: los VLA autorregresivos (AR) están limitados por el ancho de banda de memoria en hardware periférico y son propensos a la deriva por sesgo de exposición, mientras que los modelos de difusión de secuencia completa impiden la reutilización de la caché KV y sufren de "fugas lógicas" que violan la causalidad fundamental de percibir y luego planificar. Presentamos Fast-dDrive, un VLA de difusión por bloques que realiza un refinamiento bidireccional dentro de unidades semánticas, al tiempo que impone un estricto orden causal entre ellas. Aprovechando la observación de que los VLA de conducción a menudo generan salidas estructuradas similares a JSON, Fast-dDrive congela los tokens estructurales en un andamio de secciones y emplea una receta de entrenamiento consciente de las secciones que prioriza la planificación crítica para la seguridad. Además, introducimos el Decodificación Especulativa con Andamio para lograr una calidad equivalente a la de los modelos AR con un rendimiento significativamente mayor. Finalmente, proponemos un esquema de escalado en tiempo de prueba de baja sobrecarga: al bifurcar N trayectorias estocásticas a partir de una única caché KV de prefijo compartido y promediarlas, suprimimos eficazmente la varianza de predicción a un costo computacional fraccionario. Los resultados empíricos demuestran que Fast-dDrive redefine la frontera velocidad-precisión para los agentes de conducción. En el conjunto de prueba WOD-E2E, Fast-dDrive alcanza ADE@3s y ADE@5s de última generación, junto con el RFS más alto entre los VLA basados en difusión; en nuScenes, reduce el error L2 promedio a 0.32 m (una mejora del 22%). Al integrarse con SGLang, nuestro marco proporciona una aceleración de rendimiento de 12 veces en comparación con la línea base AR, reduciendo la brecha entre los VLA de alta capacidad y las demandas de eficiencia del despliegue en tiempo real en vehículos.
Los agentes de IA de larga duración se despliegan cada vez más como sistemas operativos persistentes, pero aún se evalúan como modelos recién inicializados. Los puntos de referencia del primer día omiten una pregunta básica de sistemas: ¿cuánto tiempo permanece fiable un agente tras su despliegue? Incluso cuando los pesos del modelo están congelados, el estado efectivo del agente sigue cambiando a medida que comprime el historial de interacciones, recupera información de un almacén de memoria en crecimiento, revisa hechos tras actualizaciones y se somete a mantenimiento rutinario. Por lo tanto, la fiabilidad se convierte en una propiedad de la vida útil del arnés completo del agente, y no solo en una propiedad instantánea del modelo base. Presentamos AgingBench, un punto de referencia longitudinal de fiabilidad para la ingeniería de la vida útil de los agentes: que mide no solo si los agentes desplegados se degradan, sino qué forma adopta la degradación y dónde debería centrarse la reparación. AgingBench organiza el envejecimiento de los agentes en cuatro mecanismos: envejecimiento por compresión, envejecimiento por interferencia, envejecimiento por revisión y envejecimiento por mantenimiento. Para diagnosticar estos fallos, AgingBench utiliza gráficos de dependencia temporal y sondas contrafactuales emparejadas que producen perfiles de diagnóstico para las etapas de escritura, recuperación y utilización del pipeline de memoria. A través de 7 escenarios, 14 modelos, múltiples políticas de memoria, y tanto agentes controlados por ejecutor como autónomos, más de ~400 ejecuciones que abarcan de 8 a 200 sesiones muestran que el envejecimiento de los agentes no es unidimensional: las pruebas conductuales pueden mantenerse limpias mientras la precisión factual se deteriora; el seguimiento de estados derivados puede colapsar bruscamente dentro de un solo modelo; y la misma respuesta incorrecta puede requerir reparaciones diferentes dependiendo de lo que indique el perfil de diagnóstico. Estos resultados sugieren que el despliegue fiable de agentes requiere evaluación de la vida útil, diagnóstico a nivel de mecanismo y reparación dirigida por etapa, no solo modelos más potentes desde el primer día.
Presentamos GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), un simulador de mundo de vídeo en bucle cerrado para manipulación robótica. Basado en el marco de generación de vídeo condicionado por acciones de Genie Envisioner, GE-Sim 2.0 se reentrena con miles de horas de datos robóticos del mundo real que abarcan teleoperación, interacción rica en contacto y despliegue de políticas en el robot, mejorando sustancialmente la fidelidad en el seguimiento de acciones y la cobertura de trayectorias. Sobre esta base, tres nuevos módulos cierran el bucle desde la simulación de vídeo hasta el aprendizaje de políticas: un experto en estado que decodifica el estado propioceptivo a partir de las latencias del vídeo para apoyar la predicción del siguiente fragmento por parte de políticas VLA posteriores; un juez del mundo que puntúa los despliegues generados frente a las instrucciones de la tarea, proporcionando señales de éxito y recompensas verificables por máquina en lugar de inspección manual; y un marco de aceleración que entrega un despliegue de 25 fotogramas en 2.3 segundos en un solo H100, con un salto de hasta 4× fotogramas en inferencia para evaluación de horizonte largo. GE-Sim 2.0 encabeza la tabla de clasificación pública de WorldArena con solo 2 mil millones de parámetros, superando tanto a modelos de mundo robóticos dedicados como a generadores de vídeo generales de código cerrado, y las políticas entrenadas con sus despliegues y recompensas se traducen en mejoras medibles en el mundo real, consolidando a GE-Sim 2.0 como una plataforma práctica para la evaluación escalable y el aprendizaje en bucle cerrado de políticas de manipulación.
Los componentes internos del modelo codifican información detallada sobre cómo un modelo de lenguaje grande (LLM) procesa sus datos de entrenamiento; sin embargo, la ingeniería de datos post-entrenamiento se basa en gran medida en señales externas e ignora las ricas señales intrínsecas presentes en los internos del modelo. Proponemos SAERL, un marco de ingeniería de datos para el aprendizaje por refuerzo (RL) de LLM. Este modela tres propiedades intrínsecas de los datos —diversidad, dificultad y calidad— utilizando internos del modelo extraídos con un Autoencoder Disperso (SAE), una herramienta avanzada de interpretabilidad mecanicista. Cada propiedad fundamenta una operación concreta de ingeniería de datos: agrupamiento en el espacio del SAE con mezcla moderada de lotes para controlar la diversidad en los lotes, una proxy de dificultad para el ordenamiento curricular de fácil a difícil, y una sonda de calidad para el filtrado de datos. SAERL mejora la precisión promedio en un 3,00% respecto a GRPO estándar y alcanza la precisión objetivo con un 20% menos de pasos de entrenamiento en Qwen2.5-Math-1.5B, con ganancias consistentes en distintas escalas de modelo y algoritmos de RL. Los experimentos muestran que el SAE se transfiere eficazmente entre familias y escalas de modelo, funcionando como una herramienta de ingeniería de datos ligera y reutilizable. Estos resultados demuestran que los internos del modelo constituyen una fuente poderosa y práctica de señales para la ingeniería de datos post-entrenamiento.
¿Los agentes de búsqueda basados en LLM realmente buscan, o utilizan la web para verificar lo que ya saben? Estudiamos esta cuestión en BrowseComp mediante tres diagnósticos. Nuestro análisis revela la Dependencia del Conocimiento Intrínseco (IKD): incluso con acceso a herramientas, los agentes a menudo se apoyan en el conocimiento intrínseco —información codificada en el modelo antes de la recuperación— en lugar de en evidencia externa. Los agentes responden hasta el 44.5% de las preguntas de BrowseComp sin herramientas, generan más de la mitad de sus consultas de búsqueda a partir de hipótesis producidas internamente en lugar de pistas recuperadas, y obtienen peores resultados que las líneas base a libro cerrado cuando se elimina la evidencia que respalda las respuestas. Estos resultados sugieren que los benchmarks de búsqueda estáticos pueden recompensar la verificación respaldada por la memoria en lugar del descubrimiento basado en evidencia, confundiendo lo que los agentes ya saben con lo que pueden encontrar. A continuación, presentamos LiveBrowseComp, un benchmark de búsqueda profunda diseñado para evaluar agentes más allá de la cobertura intrínseca. Contiene 335 preguntas redactadas por humanos cuyas respuestas dependen de hechos publicados durante los 90 días anteriores a la construcción del benchmark, extraídas de seis fuentes actualizadas y filtradas para excluir eventos de relevancia global. En LiveBrowseComp, todos los agentes evaluados obtienen menos del 2% de precisión a libro cerrado, las puntuaciones aumentadas con búsqueda caen entre 25 y 40 puntos en comparación con BrowseComp, y los rankings previos de modelos ya no predicen el rendimiento de manera fiable. LiveBrowseComp está disponible en https://huggingface.co/datasets/Forival/LiveBrowseComp.
Los modelos de lenguaje grandes (LLMs) de razonamiento híbrido exponen controles explícitos sobre el esfuerzo de razonamiento, lo que permite a usuarios o sistemas intercambiar la calidad de la respuesta por el costo de inferencia. Sin embargo, los métodos existentes para la selección adaptativa del modo de pensamiento suelen evaluarse bajo diferentes modelos, conjuntos de datos y supuestos de implementación, lo que dificulta la comparación de su comportamiento práctico. Presentamos HRBench, un marco de evaluación unificado para estudiar la conmutación del modo de pensamiento en LLMs de razonamiento híbrido. HRBench organiza el espacio de diseño a lo largo de dos ejes: tres familias de estrategias de conmutación —selección basada en indicaciones, enrutamiento externo y ejecución especulativa— y cuatro regímenes de entrenamiento —sin entrenamiento, fine-tuning supervisado (SFT), aprendizaje por refuerzo (RL) fuera de línea y en línea—, lo que da lugar a 12 configuraciones de evaluación controladas. Evaluamos estas configuraciones en 6 LLMs, desde Qwen3.5-2B hasta Kimi-K2.5-1.1T, y 5 benchmarks de razonamiento que abarcan matemáticas, ciencias y código, reimplementando más de 12 métodos representativos previos dentro del mismo pipeline. Nuestro análisis caracteriza cómo las diferentes estrategias de conmutación ocupan distintas regiones de compensación entre efectividad y eficiencia: los métodos basados en indicaciones suelen ofrecer compensaciones favorables entre tokens y precisión, los métodos de enrutamiento proporcionan una reducción de costos más estable y los métodos especulativos tienden a mejorar la precisión a un mayor costo de tokens. Además, encontramos que el entrenamiento afecta a las estrategias de manera diferente y que la estrategia preferida varía según la escala del modelo y el dominio de la tarea. HRBench proporciona implementaciones de referencia y una plataforma de evaluación unificada para apoyar una investigación más controlada sobre el razonamiento eficiente en LLMs de razonamiento híbrido. Nuestros datos, código y repositorio están disponibles en https://github.com/usail-hkust/HRBench.
La destilación *on-policy* ha surgido recientemente como una alternativa prometedora a la imitación estándar a nivel de secuencia, entrenando a un estudiante mediante la puntuación de sus propias trayectorias generadas con un modelo profesor. Sin embargo, observamos un problema de "Decaimiento del Profesor Fuera de Política" (*Off-policy Teacher Decay*) en este paradigma: para los tokens posteriores, dado que el contexto proporcionado por la trayectoria anterior del estudiante es fuera de política para el profesor, la capacidad del profesor para generar una puntuación correctiva disminuye, y puede recaer en un comportamiento de completado de tokens aprendido durante la etapa de preentrenamiento. Verificamos empíricamente este problema y proponemos *Early Stopping Rollout* (ESR) para solucionarlo: una estrategia de destilación simple pero efectiva que simplemente restringe la generación de trayectorias a los primeros tokens de respuesta. Demostramos que ESR supera el rendimiento de la destilación *on-policy* con trayectorias completas en distintos tamaños de modelo, familias, tareas y regímenes de entrenamiento, y exhibe una eficiencia de GPU y estabilidad de entrenamiento mucho mayores, especialmente en escenarios entre familias de modelos. Investigamos además el mecanismo detrás de este sorprendente rendimiento y descubrimos los efectos de "Alineamiento en Cascada" y "Compromiso de Submodo" de ESR, que pueden explicar por qué funciona eficazmente e incluso supera a veces el rendimiento del modelo profesor. Además, mostramos que esta estrategia de selección de tokens basada en la posición no es completamente explicable mediante la divergencia KL y las señales de entropía.
Para habilitar una interacción confiable a largo plazo, los agentes basados en modelos de lenguaje grande requieren un sistema de memoria que pueda almacenar fielmente, recuperar eficientemente y razonar profundamente sobre el historial de diálogos acumulado. La mayoría de los métodos existentes adoptan un paradigma basado en hechos extraídos: prompts estáticos elaborados manualmente comprimen los diálogos originales en hechos atómicos, que luego se almacenan, emparejan e inyectan en el razonamiento posterior. Sin embargo, estos diseños centrados en hechos inevitablemente descartan detalles finos de los diálogos originales y no logran respaldar un razonamiento profundo sobre hechos aislados dispersos. Además, los prompts estáticos no pueden mantener una granularidad de extracción consistente en diversos estilos de diálogo. Para abordar estas limitaciones, proponemos TriMem, que mantiene tres granularidades de representación coexistentes: segmentos de diálogo sin procesar anclados por identificadores de fuente para la fidelidad de almacenamiento, hechos atómicos extraídos para la recuperación eficiente de memoria, y perfiles sintetizados que agregan hechos dispersos en una comprensión semántica holística para el razonamiento profundo. Además, adoptamos la optimización de prompts basada en TextGrad, que refina iterativamente los prompts de extracción y creación de perfiles mediante la retroalimentación de la calidad de las respuestas, logrando una evolución permanente sin necesidad de actualizar parámetros. Experimentos exhaustivos en LoCoMo y PerLTQA con múltiples backbones de modelos de lenguaje grande demuestran que TriMem supera consistentemente a las líneas base de memoria sólidas. El código está disponible en https://TMLR-TriMem.github.io.
Los Grandes Modelos de Lenguaje (GMLs) modernos son a menudo criticados por generar texto repetitivo y homogéneo, a pesar de poseer vastos vocabularios latentes. Si bien investigaciones previas se han centrado en el conocimiento del modelo y los datos de entrenamiento, nosotros investigamos el papel de la mecánica de decodificación en la supresión de la diversidad lingüística. Introducimos el Puntaje de Cobertura Léxica (Word Coverage Score, WCS), una métrica que cuantifica en qué medida el vocabulario humano contextualmente apropiado es matemáticamente podado por los filtros de muestreo estándar (p. ej., Top-p, Top-k y Min-p). En lugar de evaluar el conocimiento estático, el WCS mide la tasa de supervivencia léxica de palabras humanas de baja frecuencia y alta información en función de los parámetros de muestreo. Al auditar modelos de peso abierto en fragmentos de corpus escritos por humanos, identificamos qué elecciones léxicas lógicas son vuelven inalcanzables por el decodificador, incluso cuando residen dentro del espacio de probabilidad. Nuestros resultados proporcionan evidencia cuantitativa de que los valores predeterminados de muestreo estándar de la industria actúan como mecanismos de censura no intencionados, suavizando las texturas únicas de la expresión humana en un discurso homogeneizado. El WCS ofrece un marco riguroso para optimizar el equilibrio entre la coherencia textual y la riqueza léxica, proporcionando una herramienta diagnóstica para preservar la diversidad del lenguaje humano en modelos generativos.
El ajuste fino de modelos de lenguaje grandes con datos no confiables expone a los modelos a ataques de puerta trasera, donde muestras envenenadas provocan comportamientos incorrectos dirigidos. Las defensas existentes basadas en filtrado de muestras recurren a la agrupación (clustering), lo que requiere suficientes datos y puede fallar en proporciones extremas de envenenamiento. Proponemos GradSentry ({Grad}ient {Sentry}), un método de filtrado de muestras con puerta trasera basado en la entropía espectral de los gradientes por muestra. Nuestro hallazgo clave es que las muestras envenenadas producen gradientes con una entropía espectral más alta en comparación con las muestras limpias. GradSentry captura firmas de puerta trasera que alteran la salida mediante espectros de gradientes por muestra, evitando comparaciones por pares de muestras y agrupación durante la construcción de características. Es importante destacar que nuestro método es independiente del entrenamiento: funciona tanto para métodos de ajuste fino eficientes en parámetros, como LoRA, como para el ajuste completo de parámetros, ya que el análisis de gradientes opera independientemente de qué parámetros se actualicen durante el entrenamiento. GradSentry no requiere agrupación, opera de manera efectiva en todas las proporciones de envenenamiento (1%–90%) e introduce una sobrecarga computacional mínima (20–50 ms por muestra para un modelo de 7B). La evaluación en cuatro conjuntos de datos de preguntas y respuestas y cuatro tipos de ataque demuestra la eficacia de la entropía espectral para la detección de puertas traseras. El código está disponible en https://github.com/dongdongzhaoUP/GradSentry.
Los activos 3D interactivos utilizados en juegos y simulación suelen descomponerse en partes semánticas específicas para respaldar animación, física y comportamientos programados; sin embargo, la mayoría de los modelos generativos 3D producen mallas monolíticas o descomposiciones arbitrarias de partes que no pueden alinearse con los requisitos específicos de la aplicación. Presentamos CubePart, un marco generativo para la generación de mallas 3D controlables por partes y de vocabulario abierto, que expone la estructura de partes como una señal de control explícita durante la inferencia. Dado un prompt textual global y un esquema de partes definido por el usuario expresado como una lista abierta de nombres de partes, nuestro método genera un conjunto de mallas (una por elemento del esquema) que se ensamblan en un objeto coherente respetando la estructura semántica especificada. Para habilitar esta capacidad, introducimos un pipeline de datos escalable para construir un gran conjunto de datos 3D etiquetado por partes y de vocabulario abierto, junto con una arquitectura generativa de dos etapas que separa la síntesis de forma global de la decodificación a nivel de partes. Demostramos que los activos resultantes pueden integrarse directamente en motores de juegos y controlarse mediante scripts de animación y comportamiento sin necesidad de posprocesamiento manual. Página del proyecto: https://cubepart.github.io/
Los agentes basados en LLM obtienen puntuaciones altas en los benchmarks de búsqueda, pero los usuarios reales encuentran sistemáticamente insatisfactorios los resultados, revelando una brecha persistente entre evaluación y experiencia. Atribuimos esta brecha a la dependencia de los benchmarks existentes en consultas sobrespecificadas, interacciones de un solo turno y evaluación con esquemas fijos, ninguno de los cuales refleja el comportamiento real de búsqueda, donde usuarios y agentes refinan colaborativamente intenciones vagas a través de diálogos de múltiples turnos. Denominamos a este paradigma VibeSearch e introducimos VibeSearchBench, un benchmark compuesto por 200 tareas bilingües (chino e inglés) seleccionadas manualmente en 20 dominios, dividido en los subconjuntos VibeSearch-Pro (profesional) y VibeSearch-Daily (vida cotidiana). Cada tarea empareja una persona de usuario con un grafo de conocimiento de verdad fundamental sin esquema, y se evalúa mediante un simulador de usuario con revelación progresiva y un marco de evaluación de coincidencia de grafos. Evaluamos siete modelos de vanguardia bajo el marco ReAct y el arnés de agente OpenClaw. Los resultados muestran que todos los modelos son sustancialmente inadecuados para VibeSearch (mejor F1: 30,30), lo que resalta la necesidad de avances fundamentales en razonamiento de contexto largo, elicitación proactiva de intenciones y construcción de conocimiento estructurado.
Los resultados visuales son cada vez más centrales en los modelos de lenguaje grandes multimodales, lo que hace que una verificación fiable y de grano fino sea esencial para escalar modelos fundacionales generalistas. En este trabajo, investigamos la meta-verificación multimodal, que aprovecha razonamientos generados por el verificador en lugar de señales de solo decisión, y exploramos cómo incorporar eficazmente la retroalimentación de meta-verificación en el entrenamiento del verificador multimodal. Identificamos dos hallazgos clave. Primero, las salidas simbólicas del verificador (por ejemplo, cajas delimitadoras) superan a las explicaciones textuales como razonamientos de meta-verificación, lo que permite recompensas eficientes de aprendizaje por refuerzo basado en reglas, evitando la dependencia de recompensas basadas en modelos de modelos evaluadores auxiliares. Segundo, desacoplar los objetivos de aprendizaje por refuerzo para el juicio binario y la meta-verificación supera sustancialmente la optimización conjunta de recompensas, debido a diferencias intrínsecas en la estructura de salida y las dinámicas de aprendizaje. Basándonos en estas ideas, entrenamos OmniVerifier-M1, un verificador visual generalista que aprovecha la meta-verificación simbólica y el aprendizaje por refuerzo desacoplado. OmniVerifier-M1 proporciona una verificación robusta y una localización de errores de grano fino, y además habilita M1-TTS, un sistema de generación agente impulsado por verificador que logra autocorrección dinámica a nivel de región. Este enfoque allana el camino para una verificación multimodal más fiable, interpretable y de grano fino, apoyando un despliegue de modelos fundacionales más seguro y controlable.
Se ha propuesto el monitoreo de la cadena de pensamiento (CoT) como un mecanismo de seguridad prometedor para detectar comportamientos desalineados en modelos de lenguaje de gran escala. Sin embargo, su fiabilidad sigue sin explorarse en gran medida más allá del inglés y en diversas familias de modelos. Presentamos la primera evaluación a gran escala de la monitorizabilidad del CoT en 13 idiomas diversos y siete familias de modelos de frontera, comprendiendo 16 modelos. Mediante evaluaciones con pistas adversariales que requieren un cómputo intermedio explícito, junto con el análisis de las probabilidades internas de los tokens de respuesta, encontramos consistentemente infidelidad del CoT en todos los idiomas y tipos de pistas, con una tasa promedio del 95.9% en modelos de entre 8B y 120B parámetros. Observamos que los modelos de frontera realizan sistemáticamente una manipulación estratégica, que incluye cambio de respuesta, racionalización post-hoc y explotación procedimental de pistas, lo que dificulta que los monitores externos detecten el engaño. Demostramos que los modelos de frontera a menudo se comprometen con la señal desalineada en sus activaciones latentes dentro del primer 15% de la generación, incluso cuando el CoT parece fiel. Sorprendentemente, estos patrones engañosos permanecen al 100% en idiomas de bajos recursos, revelando limitaciones fundamentales en la supervisión actual basada en CoT. Nuestros resultados revelan que el monitoreo del CoT es fundamentalmente frágil bajo cambios en la distribución lingüística, proporcionando una señal de seguridad sustancialmente más débil de lo que sugieren los estudios exclusivamente en inglés. Estos hallazgos subrayan la necesidad urgente de desarrollar monitores de CoT robustos y de acelerar la investigación en técnicas de monitoreo de caja blanca, especialmente para mejorar la monitorizabilidad del CoT en idiomas de recursos medios y bajos. Nuestro código está disponible en https://multilingual-cot-monitoring.github.io/{blue{here}}.
Crear imágenes a partir de ruido es generación de imágenes; reconstruir detalles finos a partir de entradas de baja resolución es superresolución. A pesar de sus diferencias prácticas, ambas pueden entenderse como la reversión de la pérdida de información a través de escalas. Presentamos SKILD, un modelo de difusión de aprendizaje de imágenes en el espacio K invariante a la escala que unifica la generación y la superresolución continua dentro de un único marco incondicional. Tanto las imágenes naturales como los sistemas físicos críticos exhiben invariancia de escala, y la aprovechamos para diseñar un proceso directo que atenúa el contenido de la imagen desde escalas finas a gruesas mientras inyecta ruido gaussiano ajustado al espectro, convirtiendo la escala en una coordenada explícita de la dinámica de difusión. El mismo proceso inverso entrenado realiza generación y superresolución continua variando únicamente el paso temporal inicial: sin arquitectura específica de tarea, sin rama de condicionamiento, sin guía libre de clasificador, sin reentrenamiento por factor de escala. Empíricamente, SKILD alcanza un FID de 2.65 y un Inception Score de 9.63 en CIFAR-10 incondicional, realiza superresolución de 2× a 8× en ImageNet desde un único punto de control incondicional, superando a los modelos condicionales en métricas perceptuales, y reconstruye modelos críticos de Ising cuyas correlaciones conectadas de cuatro puntos siguen de cerca la verdad fundamental.
El ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés) se ha convertido en el enfoque estándar para adaptar modelos de lenguaje grandes, pero las evaluaciones enfatizan en gran medida la precisión en tareas posteriores mientras pasan por alto la retención de capacidades preentrenadas. Sostenemos que PEFT debería evaluarse a través del dilema estabilidad-plasticidad: el equilibrio entre la adaptación a la tarea objetivo y la resistencia al olvido. Presentamos PEFT-Arena, un punto de referencia que mide conjuntamente el rendimiento en tareas posteriores y la retención de capacidades generales. A través de los métodos, encontramos perfiles de estabilidad-plasticidad distintos; bajo presupuestos de parámetros comparables, el ajuste fino ortogonal logra la frontera de Pareto más favorable. Para explicar estas diferencias, analizamos las actualizaciones de PEFT desde dos perspectivas geométricas. En el espacio de pesos, el análisis espectral revela cómo las parametrizaciones interactúan con la estructura de valores singulares preentrenada. En el espacio de activaciones, las métricas de retención muestran si el ajuste fino preserva o distorsiona las representaciones de capacidades generales, con el olvido vinculado a la distorsión de representación no isométrica. Finalmente, un análisis muestra que los puntos de control finales de SFT a menudo sobrepasan un mejor punto operativo de retención objetivo. Inspirados por esto, presentamos estudios de caso de una mejora post-hoc con rebobinado por trayectoria.
El razonamiento espacial entre vistas sigue siendo un punto débil para los modelos de lenguaje visual (VLMs): a menudo razonan en lenguaje y pierden la geometría detallada necesaria para la tarea. Pensar con imágenes pretende abordar esto generando una imagen de pensamiento intermedia, pero trabajos recientes muestran que los modelos suelen ignorar la evidencia visual en estas trazas. Por lo tanto, nos preguntamos cómo hacer que el pensamiento visual sea relevante y qué tipo de pensamiento visual funciona mejor. Estudiamos estas cuestiones en modelos multimodales unificados (UMMs), que soportan de forma nativa la generación intercalada de imágenes y texto. Para la primera pregunta, proponemos View Dropout (VDrop), una intervención durante el entrenamiento que oculta partes de una vista de entrada del segmento de respuesta mientras las mantiene visibles para los tokens de la imagen de pensamiento. Esto fomenta que el modelo utilice la imagen de pensamiento al responder, en lugar de depender únicamente de las vistas de entrada. Una vez que la imagen de pensamiento se emplea para la predicción de la respuesta, estudiamos qué tipo de pensamiento visual es más efectivo. Enmarcamos esto como un equilibrio entre capacidad de aprendizaje e informatividad, y comparamos tres variantes de imagen de pensamiento: representaciones de arriba hacia abajo, panorámicas y de coincidencia de puntos. Entrenado en escenas sintéticas y evaluado en cinco conjuntos de referencia del mundo real fuera del dominio, el pensamiento visual panorámico con VDrop es la única configuración que es tanto informativa como aprendible, y logra la mejor generalización fuera del dominio.
Los sistemas multiagente construidos sobre modelos de lenguaje de gran escala (LLMs) requieren numerosas decisiones de coordinación que son difíciles de fijar a priori: qué protocolo de habilidad invocar, qué rol de agente debe realizar una subtarea, qué modelo asignar a cada rol, cómo deben interactuar los roles, cuándo recurrir a la recuperación o verificación, y cuándo omitir un paso por completo. Estas decisiones interactúan con el régimen de tareas y las restricciones operativas, por lo que los pipelines estáticos y las comparaciones puntuales de modelos ofrecen solo una visión limitada del espacio de diseño. Este artículo presenta AgensFlow, un marco de código abierto que trata la coordinación multiagente como un problema de aprendizaje de políticas en línea bajo observabilidad parcial. El marco hace que las decisiones de coordinación sean observables y aprendibles a partir de trayectorias repetidas, en lugar de tratar las elecciones de habilidad, rol, modelo, topología y evaluación como parte de un diseño de pipeline fijo. AgensFlow se evalúa en dos corpus: tareas de incidentes de sistemas distribuidos y tareas de avisos de seguridad. La evaluación muestra tres resultados principales: el enrutamiento aprendido alcanza un punto operativo de mayor calidad que un pipeline fijo de referencia en clases con alta carga de coordinación; skip:X aísla la compresión de topología como una parte significativa del sustrato; y los grafos de políticas con inicio en caliente pueden reducir el costo de exploración mientras preservan la calidad de meseta. En general, los resultados respaldan que un enrutamiento aprendido y auditable puede mejorar los flujos de trabajo multiagente con alta carga de coordinación en comparación con el cableado estático.
El Aprendizaje por Refuerzo a partir de Recompensas Verificables (RLVR) ha surgido como el paradigma estándar para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes, mientras que la Predicción de Múltiples Tokens (MTP) ha sido un módulo ampliamente adoptado durante el preentrenamiento. Combinarlos es un enfoque natural; sin embargo, las prácticas actuales de RL separan los gradientes de MTP porque el entrenamiento conjunto degrada el rendimiento. Reexaminamos este fallo desde una perspectiva de optimización. Demostramos que el efecto por paso de MTP sobre el objetivo de RL se puede descomponer en dos términos: una correlación de primer orden y una penalización por perturbación de segundo orden. Esta descomposición unifica tres regímenes de entrenamiento de MTP: Separación (Detach), pérdida de entropía cruzada y pérdida de política, y explica por qué cada uno tiene éxito o fracasa. Un análisis adicional de la pérdida de política revela que, aunque se alinea con la intuición, el rendimiento sigue degradándose: el término de correlación disminuye mientras que la penalización cuadrática persiste. Guiados por el análisis, proponemos la Calibración Óptima de Coeficientes (OCC), un esquema adaptativo que rastrea el coeficiente óptimo en línea mediante un proxy de log-probabilidad a un costo insignificante. En seis puntos de referencia de razonamiento matemático de nivel competitivo, OCC iguala o supera consistentemente la línea base de Separación, logrando un mejor rendimiento en el entrenamiento conjunto de MTP-RL.
La validez de las evaluaciones de seguridad de la IA depende de que los modelos se comporten de manera consistente en entornos controlados y de implementación. Trabajos previos han identificado las señales contextuales en el momento de la prueba, como los escenarios hipotéticos, como una fuente de conciencia verbalizada de la evaluación y el posterior cambio de comportamiento. En este artículo, investigamos una posible explicación de este fenómeno: el meta-conocimiento de la evaluación, definido como conocimiento paramétrico sobre los rasgos estructurales que caracterizan a las evaluaciones. Similar a la contaminación del conjunto de datos, donde la exposición a puntos de referencia conduce a un mejor rendimiento mediante la memorización, planteamos la hipótesis de que los modelos entrenados en textos que describen prácticas de evaluación pueden aprender implícitamente a reconocer y responder a contextos similares a una evaluación, por ejemplo, a través de la exposición a artículos científicos o publicaciones en redes sociales sobre la evaluación comparativa de IA. Para probar esto, afinamos modelos en documentos sintéticos que describen rasgos de evaluación como estructuras verificables o dilemas morales. Al evaluar este modelo afinado en seis puntos de referencia de seguridad, encontramos que es significativamente más seguro que el modelo base y el modelo de control. Este cambio de comportamiento persiste incluso cuando se restringe el análisis a respuestas que carecen de verbalización explícita de conciencia de la evaluación. Nuestros resultados demuestran que el meta-conocimiento de la evaluación puede inflar el rendimiento en los puntos de referencia de seguridad, introduciendo un nuevo factor de confusión que es independiente de la memorización explícita o de la conciencia verbalizada de la evaluación, siendo, por lo tanto, difícil de detectar. Estos hallazgos tienen implicaciones importantes para el diseño y la interpretación de las evaluaciones de seguridad de la IA. Nuestro código y modelos están disponibles en https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.
Los benchmarks de preguntas y respuestas (QA) sobre gráficos tienen como objetivo plantear preguntas que requieren razonamiento visual para responder correctamente, pero los modelos a menudo pueden llegar a soluciones mediante atajos o familiaridad previa con un gráfico basada en su propio conocimiento de fondo. Para evaluar estrictamente el razonamiento visual, proponemos gráficos contrafactuales donde la tarea de pregunta-gráfico permanece fija, pero el gráfico subyacente y la respuesta correspondiente varían. Presentamos Chartographer, un marco para realizar ingeniería inversa de gráficos en código ejecutable, validar la fidelidad de la reconstrucción, generar variantes contrafactuales controladas por semilla y derivar nuevas respuestas a partir de la lógica QA ejecutable. Aplicamos este marco a conjuntos de datos QA de gráficos existentes y evaluamos modelos de lenguaje-visión (VLM) propietarios y de código abierto, midiendo la sensibilidad a la variación y la capacidad de generalización. Los gráficos contrafactuales revelan fallos ocultos por el rendimiento en un solo gráfico: los VLM a menudo fallan al generalizar después de responder correctamente al gráfico original. Encontramos que los fallos son más frecuentes cuando los gráficos actualizados requieren nuevas vías de razonamiento visual.
La investigación científica avanza mediante ciclos iterativos de generación de hipótesis, diseño experimental, ejecución y revisión. Los agentes de IA pueden automatizar partes de este proceso, pero los enfoques existentes suelen seguir una única trayectoria de investigación o coordinar a través de un planificador central con objetivos fijos. Como resultado, tienen dificultades para mantener una exploración paralela, adaptarse a medida que cambia la evidencia experimental o preservar el conocimiento de las vías fallidas durante experimentos de larga duración. Presentamos AutoScientists, un equipo descentralizado de agentes de IA para la experimentación científica computacional de larga duración. Los agentes interpretan un estado experimental compartido, se autoorganizan en equipos en torno a hipótesis prometedoras, critican propuestas antes de utilizar recursos computacionales experimentales y comparten éxitos y fracasos para reducir la exploración redundante. Bajo presupuestos experimentales equivalentes, AutoScientists supera a los agentes de IA previos en aprendizaje automático biomédico, optimización del entrenamiento de modelos de lenguaje y predicción de aptitud proteica. En BioML-Bench, que abarca imágenes biomédicas, ingeniería de proteínas, ómica unicelular y descubrimiento de fármacos, AutoScientists alcanza un percentil medio en el ranking del 74.4 % en 24 tareas, superando al agente de IA más fuerte en un +8.33 %. En la optimización del entrenamiento de GPT, AutoScientists alcanza un valor objetivo de bits por byte en validación 1.9 veces más rápido que Autoresearch y continúa descubriendo mejoras a partir de un campeón inicial donde el enfoque de agente único no encuentra ninguna (7 mejoras aceptadas frente a 0). En la predicción de aptitud de ProteinGym, AutoScientists descubre un método para la unión ACE2-Spike que mejora la correlación de Spearman en un +12.5 % respecto al modelo de última generación actual. Aplicado sin modificaciones en los 217 ensayos de ProteinGym, el mismo método mejora en un +6.5 % respecto al estado del arte anterior (correlación de Spearman).
Los sistemas existentes de conversación de apoyo emocional (ESC, por sus siglas en inglés) dependen principalmente de la generación de respuestas de extremo a extremo o de una supervisión estratégica grosera, lo que ofrece una interpretabilidad limitada y escaso soporte para la mejora sistemática de habilidades. Proponemos ESC-Skills, un marco centrado en habilidades que descubre y auto-evoluciona habilidades ejecutables de apoyo emocional. Primero modelamos las interacciones localizadas de apoyo como Unidades de Intervención (IU), que capturan las dinámicas estado-acción-resultado entre los estados del buscador, las intervenciones de apoyo y los cambios emocionales posteriores a la respuesta. Con base en las IU extraídas tanto de diálogos ESC exitosos como fallidos, construimos el Banco de Habilidades ESC, un repositorio de habilidades ejecutables de apoyo emocional que contiene guía de intervención, condiciones de aplicabilidad, resultados esperados y riesgos potenciales. Para mejorar aún más la robustez, introducimos un marco de refinamiento autoevolutivo multiperfil en el que un agente ESC interactúa con diversos perfiles simulados de buscadores bajo la evaluación SAGE. Las trazas de interacción resultantes se analizan para identificar habilidades faltantes, intervenciones no seguras y patrones de fallo específicos del perfil, que luego se utilizan para refinar el Banco de Habilidades mediante verificación basada en simulación. Los resultados experimentales demuestran que ESC-Skills mejora tanto la calidad a nivel de respuesta como los resultados emocionales a nivel de diálogo, al mismo tiempo que proporciona comportamientos de apoyo más interpretables y controlables. Publicaremos el código, las indicaciones y el Banco de Habilidades ESC en https://github.com/aliyun/qwen-dianjin.
Los agentes de codificación basados en IA se utilizan cada vez más para escribir software real, pero garantizar que sus resultados sean correctos sigue siendo un desafío fundamental. La verificación formal ofrece un camino prometedor: un agente genera código junto con una prueba verificada por máquina, garantizando que el código satisface una especificación formal. Sin embargo, no hay garantía de que la propia especificación formal corresponda con la intención del usuario. En este trabajo, estudiamos la autoformalización de especificaciones: si los agentes basados en LLM pueden traducir problemas informales de programación en especificaciones formales fieles. Presentamos Verus-SpecBench, un benchmark de 581 tareas de redacción de especificaciones derivadas de problemas de Codeforces orientados a Verus, un verificador para Rust, y Verus-SpecGym, un entorno agéntico en el que los modelos interactúan con Verus, bash y el sistema de archivos para desarrollar estas especificaciones. El desafío central es la evaluación: las especificaciones de referencia escritas por expertos son costosas de elaborar, y los jueces LLM pueden pasar por alto sutiles errores. Abordamos esto mediante (a) la extensión del mecanismo exec_spec de Verus para que las especificaciones generadas puedan ejecutarse como código Rust, y (b) probándolas contra pruebas oficiales de Codeforces y casos adversarios extraídos de los "hacks" de Codeforces, que son casos límite escritos por competidores para romper soluciones incorrectas. En Verus-SpecBench, el modelo más fuerte, Gemini 3.1 Pro, resuelve el 77.8% de las tareas; otros modelos fronterizos resuelven entre el 51.1% y el 57.8%, y los modelos de código abierto solo alcanzan entre el 21.5% y el 25.5%. Nuestro análisis de modos de fallo muestra que las especificaciones generadas por modelos pueden omitir supuestos importantes de entrada, aceptar salidas incorrectas y rechazar válidas. También encontramos que la evaluación de LLM como juez omite el 26% de los fallos que nuestro evaluador detecta. En general, nuestros resultados sugieren que la autoformalización de especificaciones está al alcance de los agentes fronterizos, pero sigue siendo frágil incluso en problemas donde ya pueden generar código correcto. El código, los datos y los registros se pueden encontrar en https://github.com/formal-verif-is-cool/verus-spec-gym
El progreso reciente en tareas agentivas de horizonte largo ha sido impulsado principalmente por el escalamiento vertical de agentes individuales mediante modelos más potentes, mejores herramientas y andamiajes más efectivos. En contraste, se comprende mucho menos sobre el escalamiento horizontal: si múltiples agentes pares, todos orientados a la misma tarea, pueden convertirse en una fuente adicional de capacidad sin depender de una especialización explícita de roles o de la orquestación de flujos de trabajo. Estudiamos esta cuestión y proponemos AgentFugue, un marco de razonamiento colectivo construido alrededor de un centro de razonamiento compartido. Mientras los agentes pares exploran la misma tarea en paralelo, el centro registra notas concisas sobre lo que cada agente ha establecido, intentado o descartado, y permite que cada agente acceda selectivamente a lo que otros agentes han descubierto en una forma útil para su búsqueda actual. Este diseño transforma trayectorias que de otro modo serían aisladas en una ecología conectada de razonamiento intermedio reutilizable sin requerir una planificación centralizada. Implementamos el centro como una capa de comunicación complementaria, entrenada con ajuste fino supervisado y aprendizaje por refuerzo de extremo a extremo. En los exigentes escenarios de horizonte largo que estudiamos, AgentFugue mejora sobre líneas base sólidas. Nuestros resultados sugieren que el razonamiento colectivo puede convertir el escalamiento horizontal de sistemas de agentes pares en una fuente distintiva de ganancias de capacidad, y no simplemente en una forma de gastar más cómputo.
Los agentes autónomos de uso de computadora impulsados por modelos de lenguaje grandes multimodales (MLLMs) están surgiendo como asistentes capaces de completar flujos de trabajo digitales complejos. Sin embargo, los entornos de ejecución del mundo real distan mucho de ser ideales: las ventanas emergentes, los cambios de resolución y las aplicaciones en competencia interfieren frecuentemente con la percepción y el control del agente. Presentamos AgentHijack, un punto de referencia diseñado para evaluar la robustez de los agentes de uso de computadora bajo corrupciones comunes, donde las incertidumbres en un entorno dinámico interrumpen el flujo de ejecución sin intención adversaria directa. Específicamente, AgentHijack introduce 9 corrupciones comunes configurables para replicar escenarios imperfectos realistas. Evaluamos una variedad de tareas de escritorio que utilizan agentes basados en MLLM y descubrimos que incluso instancias menores de corrupción pueden provocar una degradación sustancial del rendimiento, lo que enfatiza la fragilidad de los agentes y subraya la necesidad de una evaluación de robustez. Posteriormente, proponemos AgentHijack-Agent, un marco que integra un generador de acciones con capacidades de anclaje mejoradas y un observador encargado del resumen del comportamiento y la verificación del entorno. Amplios experimentos validan su efectividad. Nuestro código, entorno, modelos de referencia y datos están disponibles públicamente en: https://AgentHijack.github.io.
Los Modelos Multimodales Grandes (LMMs) han avanzado rápidamente en percepción y razonamiento; sin embargo, no está claro si estas capacidades se generalizan al descubrimiento de soluciones fundamentadas visualmente en entornos abiertos, más allá del reconocimiento de patrones. En tales entornos, la inteligencia requiere más que responder preguntas bien formuladas: implica identificar cómo los elementos de una escena pueden ser reutilizados de maneras no obvias pero físicamente factibles. Esta forma de resolución creativa de problemas es central para la inteligencia humana, pero sigue siendo en gran medida no evaluada en los puntos de referencia actuales. Para evaluar esta habilidad, presentamos MM-CreativityBench, un punto de referencia para el uso creativo de herramientas fundamentado en affordances en entornos visualmente ricos y físicamente restringidos. Cada instancia presenta una imagen de escenario con vistas estructuradas de entidades candidatas y sus partes, permitiendo una evaluación interactiva y detallada de cómo los modelos inspeccionan la escena de manera iterativa, identifican affordances relevantes y componen soluciones fundamentadas visual y físicamente. Nuestros experimentos muestran que los LMMs actuales a menudo no alcanzan el objetivo, no por falta de capacidad generativa, sino porque no sostienen una exploración fundamentada. Los modelos frecuentemente pasan por alto entidades relevantes, examinan insuficientemente partes críticas o alucinan atributos no fundamentados en la imagen. Motivados por este modo de fallo, proponemos el alineamiento fundamentado en affordances, que plantea el uso creativo de herramientas como un problema de aprendizaje por preferencias. Utilizando la Optimización Directa de Preferencias, alentamos a los modelos a preferir el razonamiento atributo-affordance fundamentado en evidencia visual sobre alternativas alucinadas. Además, incorporamos supervisión derivada de una base de conocimiento de affordances para guiar una exploración más amplia de entidades y la planificación en múltiples turnos. Nuestros resultados muestran mejoras consistentes en la selección de las entidades y partes correctas, reduciendo sustancialmente los errores relacionados con alucinaciones y fundamentación.
Las restricciones de recursos espaciales y temporales son fundamentales tanto para los sistemas inteligentes biológicos como artificiales. Aquí definimos términos de costo diferenciables para la anchura, profundidad y tiempo dentro de una red neuronal convolucional recurrente concebida como un subconjunto finito de un retículo infinito. Optimizamos estos costos de manera conjunta con los errores de la tarea mediante retropropagación. Aplicamos diferentes presiones sobre la anchura, profundidad y tiempo, lo que da lugar a que surjan de forma orgánica diversos grafos computacionales durante el entrenamiento. Observamos que los tres recursos pueden intercambiarse entre sí para alcanzar un nivel determinado de precisión. Las redes crecen en las tres dimensiones con la complejidad de la tarea y toman espontáneamente más pasos recurrentes cuando las entradas están ocluidas. Sorprendentemente, el tiempo utilizado por el modelo se correlaciona con los tiempos de reacción humanos en una tarea de reconocimiento de objetos. Nuestro marco proporciona una explicación normativa de cómo las restricciones de recursos moldean las arquitecturas neuronales, conectando con cuestiones sobre el diseño del cerebro en neurociencia, y puede ayudar a iluminar la diversidad de soluciones neurales encontradas en la naturaleza.
Los modelos de lenguaje grandes (LLM) para la finalización y generación de código se utilizan cada vez más en el desarrollo de software, aunque pueden reproducir ejemplos de entrenamiento textualmente y sin atribución de autoría, lo que plantea preocupaciones legales y éticas en torno al plagio y el cumplimiento de licencias. Los detectores de plagio clásicos basados en huellas dactilares, como Winnowing, siguen siendo muy efectivos; sin embargo, la inspección requiere comparar fragmentos de código con todo el conjunto de entrenamiento, y su búsqueda en tiempo lineal los hace impracticables para los corpus a escala de miles de millones utilizados para entrenar LLM de código modernos. Para cerrar esta brecha, presentamos SOURCETRACKER, un codificador de 300 millones de parámetros diseñado para la recuperación de código, junto con un pipeline híbrido de seguimiento de procedencia en dos etapas, HYBRIDSOURCETRACKER (HST). HST primero reduce un conjunto pequeño de fragmentos candidatos mediante búsqueda vectorial y luego reordena esos candidatos utilizando Winnowing sobre huellas exactas. Entrenamos y evaluamos nuestro sistema en un subconjunto de 10 millones de fragmentos del conjunto de datos THESTACKV2, con fragmentos tanto textuales como adaptados que emulan un cambio de nombre realista de identificadores. En un espacio de búsqueda in vitro de 100 mil fragmentos con consultas adaptadas, nuestro enfoque híbrido alcanza un rango recíproco medio similar al de Winnowing para fragmentos de 30 tokens. Luego, a partir de ventanas de 60 tokens o más, supera consistentemente hasta en un 5.4 %, preservando la complejidad logarítmica de las consultas. En una evaluación complementaria utilizando un juez basado en LLM, encontramos que muchos fragmentos recuperados no etiquetados como referencia verdadera siguen siendo muy similares a las fuentes esperadas, particularmente con ventanas de contexto más largas, y por lo tanto siguen siendo útiles para los usuarios finales. En general, nuestros resultados demuestran que integrar la búsqueda vectorial con la toma de huellas dactilares permite un seguimiento de procedencia escalable y de alta precisión para el código producido por LLM.
El pronóstico temprano de la trayectoria de degradación de baterías (BDTF, por sus siglas en inglés), que predice la trayectoria completa del estado de salud a partir de datos operativos iniciales, es fundamental para la optimización, fabricación e implementación de baterías. Los datos de degradación de baterías presentan dos características clave. Primero, los datos de degradación exhiben una estructura multinivel, que incluye regularidades compartidas dentro de las condiciones de envejecimiento y patrones de trayectoria comunes entre baterías. Segundo, las variaciones relacionadas con la degradación en los perfiles de voltaje-corriente suelen localizarse en intervalos específicos del estado de carga (SOC). Los enfoques existentes a menudo no modelan explícitamente estas características. Para abordar esta brecha, proponemos BatteryMFormer, un Transformer multinivel para BDTF temprano. BatteryMFormer integra (1) un decodificador consciente de las condiciones de envejecimiento que inyecta conocimientos previos sobre dichas condiciones mediante consultas informadas y atención consciente de las condiciones de envejecimiento, (2) una memoria de patrones de degradación meta que aprende y recupera prototipos de trayectorias para guiar el pronóstico a largo plazo, y (3) un codificador de doble vista que captura conjuntamente la dinámica temporal y las variaciones localizadas en el SOC a partir de series temporales de voltaje y corriente. Experimentos exhaustivos en cuatro dominios de baterías muestran que BatteryMFormer supera consistentemente a los modelos de referencia de última generación, marcando un avance significativo hacia un BDTF confiable. Nuestro código está disponible en https://github.com/Ruifeng-Tan/BatteryMFormer.
Estudios recientes han demostrado que los Modelos de Lenguaje Grandes (LLMs) pueden lograr un sólido rendimiento en razonamiento al incorporar representaciones simbólicas funcionales que describen de manera abstracta algoritmos de recorrido de grafos y razonamiento paso a paso en configuraciones de aprendizaje con pocos ejemplos. Sin embargo, aún no está claro cómo los LLMs comprenden genuinamente el significado abstracto de cada paso de razonamiento y del algoritmo completo a partir de un número limitado de demostraciones. Este trabajo tiene como objetivo localizar las cabezas de atención responsables de pasos de razonamiento individuales y caracterizar los tipos de información transferidos entre ellas. Primero alineamos los pasos de razonamiento constituyentes con sus logits de token correspondientes bajo un marco de incitación de Cadena de Pensamiento (CoT) asistido por símbolos. Nuestro análisis muestra que las posiciones de token que dirigen el proceso de razonamiento están asociadas con puntuaciones de confianza bajas causadas por restricciones en la satisfacción de patrones de comportamiento de razonamiento en las demostraciones. Luego adoptamos técnicas de análisis de mediación causal para identificar las cabezas de atención responsables de estos patrones. Además, nuestros hallazgos indican que los LLMs recuperan información factual y basada en reglas para tareas de sub-razonamiento individuales a través de cabezas de atención especializadas (aproximadamente el 3% del total de cabezas), mientras que las capas superiores facilitan predominantemente la integración de información y la aparición de estrategias globales de razonamiento (por ejemplo, algoritmos de recorrido de grafos) que coordinan múltiples pasos de razonamiento intermedios para resolver la tarea general.
Los agentes de LLM cada vez actúan más mediante la escritura de código, pero persiste una brecha entre el entorno de ejecución que impulsa al agente y el código que el modelo escribe. El entorno de ejecución controla el bucle, el contexto y el flujo de control, y el modelo tiene poca influencia sobre ellos. Permitir que el código escrito por el modelo moldee el propio entorno de ejecución haría que los agentes fueran más expresivos, pero también agudizaría los problemas de seguridad. Un modelo puede ser desviado por una inyección de instrucciones, llamar a la herramienta equivocada o fallar a medio camino dejando un estado inconsistente, y cada uno de estos fallos alcanza un mayor alcance cuando el código da forma al entorno de ejecución que cuando expresa una única acción. Presentamos LACUNA, un modelo de programación para agentes que cierra esta brecha manteniendo la seguridad. Cada acción del agente es una llamada tipada agent[T](tarea) que el LLM completa con código cuando la ejecución la alcanza, y el código es verificado por tipos con respecto al programa circundante antes de ejecutarse. Dado que cada acción se acepta o rechaza en su totalidad, una acción rechazada deja el entorno intacto, y sus diagnósticos de compilación impulsan un reintento. La misma verificación también acota qué herramientas y datos puede usar una acción y cómo fluyen. Nuestra primitiva expresa bucles ReAct, subagentes, habilidades, descomposición en paralelo y planificación multimodelo como flujo de control ordinario. Evaluamos LACUNA en un conjunto de casos de prueba, BrowseComp-Plus y τ²-bench. En BrowseComp-Plus, el 8.6% de las generaciones se rechazan antes de la ejecución, con un promedio de 0.7 reintentos por consulta, y el agente alcanza un 27.1% de precisión. En τ²-bench, LACUNA resuelve el 76.0% de 392 tareas en cuatro dominios con un modelo capaz, a la par con el agente de referencia.
La segmentación por referencia tiene como objetivo segmentar los objetos objetivo en imágenes o videos basándose en una consulta textual. A pesar del notable progreso en los últimos años, los trabajos existentes siempre asumen que las consultas proporcionadas por el usuario ya son precisas y claras. Sin embargo, esta suposición no es práctica. En escenarios del mundo real, no es realista esperar que todos los usuarios revisen a fondo su contenido visual y se aseguren cuidadosamente de que sus consultas sean únicas y sin ambigüedades. Al enfrentarse a tales casos, los modelos de segmentación existentes tienden a adivinar arbitrariamente las preferencias del usuario, a menudo dando lugar a resultados no deseados. Para abordar esta limitación, proponemos IC-Seg, un novedoso marco agéntico que aclara proactivamente la intención del usuario a través de conversaciones de múltiples turnos antes de la segmentación. Para incentivar eficazmente esta capacidad, introducimos además Hi-GRPO, una nueva estrategia de optimización jerárquica que inyecta señales de supervisión densas e informativas a nivel de trayectoria, turno y paso. Esta estrategia fomenta una clarificación eficiente de la intención, eliminando efectivamente las interacciones redundantes y mejorando la calidad general del diálogo. Para la evaluación, establecemos Ambi-RVOS, un punto de referencia de segmentación de objetos en video por referencia con consultas de usuario ambiguas. Experimentos exhaustivos demuestran que IC-Seg no solo supera a los métodos existentes por un amplio margen en la resolución de consultas ambiguas, sino que también mantiene un rendimiento de vanguardia en los puntos de referencia estándar de segmentación por razonamiento. El código y los datos se publicarán en https://github.com/iSEE-Laboratory/IC-Seg.
Comprender objetos 3D a partir de imágenes es fundamental para la robótica y las aplicaciones de realidad aumentada/realidad virtual. Aunque investigaciones recientes han avanzado en la estimación de pose a nivel de categoría, las representaciones actuales no logran capturar la semántica detallada necesaria para razonar sobre partes, funciones e interacciones de los objetos. En este trabajo, estudiamos la correspondencia 3D a nivel de categoría en el espacio de la cámara —prediciendo, a partir de una sola imagen, ubicaciones 3D consistentes entre instancias dentro de una categoría— y demostramos que esta puede surgir sin supervisión explícita de correspondencia al aprender un prior morfable de objeto compartido. Para impulsar la investigación en esta dirección, presentamos HouseCorr3D, el primer punto de referencia a gran escala para la correspondencia 3D monoccular a nivel de categoría, con 178k imágenes de 50 categorías de objetos domésticos, 280 instancias únicas y anotaciones de puntos clave 3D directamente sobre modelos CAD. Un aspecto crucial es que HouseCorr3D proporciona etiquetas de correspondencia amodal para regiones ocluidas y anotaciones explícitas de simetría, abordando limitaciones clave de los conjuntos de datos existentes. Además, proponemos Morpheus, un método que aprende priores de forma de categoría deformables al desenredar la forma canónica, la deformación y la pose del objeto. A través de este anclaje canónico compartido, las correspondencias 3D semánticamente significativas en el espacio de la cámara emergen implícitamente. Estas correspondencias 3D emergentes establecen un nuevo estado del arte en HouseCorr3D, demostrando que la comprensión semántica de objetos 3D puede surgir sin supervisión directa de correspondencia. Los datos y el código están disponibles públicamente en https://github.com/GenIntel/HouseCorr3D.
Clark Hash es un método compacto para almacenar embeddings neuronales en menos espacio. Normaliza cada vector de la base de datos, aplica una proyección determinista dispersa con signo de Johnson-Lindenstrauss, recorta el resultado y almacena un código de cuantización escalar de ancho fijo. Las consultas permanecen en punto flotante y se puntúan comparándolas con los bocetos almacenados. En la configuración predeterminada de embeddings de oraciones de 384 dimensiones, Clark Hash almacena un vector de búsqueda por coseno en 48 bytes en lugar de 1536 bytes para almacenamiento denso f32. Esto es 32 veces más pequeño. El método no requiere un pase de entrenamiento, libros de códigos aprendidos, rotaciones ni estadísticas del corpus antes de poder almacenar nuevos vectores. Describimos el códec, la implementación en Rust y una evaluación multilingüe de similitud de oraciones en 9,304 pares etiquetados de 29 subconjuntos. Con un codificador MiniLM multilingüe, los bocetos de 48 bytes alcanzaron una correlación de Pearson macro de 0.910 y 0.946 con las puntuaciones de coseno densas en STS17 y STS22. Clark Hash no es un nuevo teorema de Johnson-Lindenstrauss ni un reemplazo para los índices de vecinos más cercanos aproximados. Es un códec simple sin estado para almacenamiento compacto de embeddings.
Las evaluaciones de seguridad de los LLM prueban predominantemente los modelos de forma aislada, sin embargo, los agentes de IA desplegados operan cada vez más en entornos sociales persistentes junto con otros agentes. Introducimos una plataforma de simulación estilo Moltbook donde miles de agentes LLM interactúan a través de comunidades durante un mes simulado, y la utilizamos para evaluar la privacidad como una preocupación de seguridad descendente bajo distintos grados de presión social. Encontramos que pasar de una evaluación social de un solo turno a múltiples turnos amplifica las violaciones de privacidad (CIMemories 19,95% a Ours 45,30% en modelos de OpenAI), que las filtraciones son socialmente contagiosas, con agentes 8 veces más propensos a divulgar información sensible después de observar a un par hacerlo, y que las instrucciones explícitas de privacidad reducen pero no eliminan este efecto, dejando tasas de filtración por encima del 37,8% incluso con salvaguardas. Nuestros hallazgos sugieren que los puntos de referencia de seguridad estáticos basados en chat subestiman sistemáticamente los riesgos en el despliegue agencial, y que el contexto social por sí solo es suficiente para provocar divulgaciones sensibles que las evaluaciones de un solo turno nunca sacarían a la luz.
Enfoques recientes de superresolución de video (VSR) utilizan redes neuronales profundas para mejorar la calidad de videos de entrada con baja resolución y recuperar detalles visuales, destacando particularmente los métodos basados en difusión por sus resultados prometedores. En este artículo, investigamos si los modelos existentes de calidad de video pueden emplearse para evaluar el rendimiento de estos métodos de VSR basados en difusión, comparando las predicciones de los modelos con los resultados de una prueba subjetiva. El estudio compara seis métodos de escalado (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) aplicados tanto a videos de baja resolución comprimidos (con AV1 y DCVC-RT) como sin comprimir, considerando la reproducción en una pantalla UHD-1/4K. Se utiliza un conjunto de modelos de calidad con y sin referencia para evaluar su aplicabilidad a este nuevo tipo de degradación, centrándose en el rendimiento dentro de la secuencia. Los resultados destacan que los modelos de referencia completa basados en CNN, como LPIPS, DISTS y CVQA-FR, presentan coeficientes de correlación significativamente más altos que tanto los modelos convencionales de referencia completa como los modelos sin referencia evaluados. La mayoría sobreestima los resultados excesivamente nítidos de SCST, y VMAF falla principalmente debido a las inconsistencias espaciales introducidas por Starlight Mini. Ninguno de los modelos de calidad de video evaluados alcanza una precisión suficiente como para reemplazar las pruebas subjetivas complementarias. Los videos de referencia, degradados y escalados, así como las valoraciones de los usuarios y las puntuaciones de los modelos, se ponen a disposición junto con el artículo en https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR como datos abiertos.
Los modelos de lenguaje de gran escala (LLMs) están predominantemente gobernados por marcos probabilísticos en los que la suma de las probabilidades de los resultados está restringida a la unidad. Esta limitación arquitectónica, a menudo impuesta por las capas Softmax, conduce a un colapso de la incertidumbre que dificulta diferenciar entre incertidumbre epistémica, paradoja y vaguedad. Presentamos una investigación empírica sobre la aplicación de la Lógica Neutrosófica, un marco que trata la Verdad (T), la Indeterminación (I) y la Falsedad (F) como tres dimensiones independientes, para modelar estados epistémicos en LLMs. Realizamos experimentos en una familia de cuatro modelos GPT de OpenAI en cinco fenómenos lingüísticos: paradojas lógicas, ignorancia epistémica, vaguedad, contradicciones éticas y contingencias futuras, bajo tres estrategias de incitación: neutrosófica, probabilística y derivada de la entropía. Nuestros hallazgos revelan que el enfoque neutrosófico, al permitir T+I+F > 1, un estado que denominamos hiperverdad, proporciona una representación más rica del estado interno de un modelo. En el 35% de las evaluaciones, la hiperverdad emergió espontáneamente, predominantemente bajo contradicción ética y paradoja lógica. Demostramos que este enfoque preserva los valores de verdad en contextos difusos y ofrece un método robusto para identificar y cuantificar el conflicto interno del modelo. Concluimos que la integración de capas de evaluación neutrosófica es un paso crítico hacia sistemas de IA más transparentes, fiables y éticamente conscientes.
Presentamos PEAM, un marco de memoria paramétrica para agentes encarnados en Minecraft que transforma la memoria del agente desde una recuperación en tiempo de inferencia hasta habilidades residentes en parámetros internalizadas a través de la experiencia. PEAM combina un LLM deliberativo lento para el razonamiento abierto con un módulo paramétrico rápido para la ejecución refleja de habilidades consolidadas. El módulo rápido es una arquitectura multimodal LoRA de mezcla de expertos con adaptadores físicamente aislados por categoría, lo que permite un aprendizaje continuo a nivel de parámetros sin olvido catastrófico. Tratamos el fallo como una señal de entrenamiento de primera clase: los pares de trayectorias de fallo-corrección se internalizan mediante un objetivo conjunto de clonación de comportamiento y contrastivo, de modo que el agente aprende no solo lo que tiene éxito, sino también en qué se diferencian las acciones corregidas de las fallidas. Para gobernar la consolidación, PEAM introduce una puntuación de merecimiento de parametrización para decidir qué experiencia debe internalizarse, y un mecanismo de consolidación autoactivado sin escala para decidir cuándo internalizar sin umbrales ajustados manualmente para tareas específicas, haciendo que el agente sea autoevolutivo a medida que el activador se transfiere entre distribuciones de tareas sin reajuste. Los experimentos en Minecraft muestran que PEAM mejora el rendimiento en tareas de largo plazo, mitiga el olvido de habilidades previamente consolidadas y mejora la eficiencia paramétrica frente a la recuperación en comparación con agentes encarnados basados en recuperación y variantes de memoria paramétrica.
Los modelos de difusión discretos han emergido como marcos poderosos para generar datos categóricos estructurados. Sin embargo, muestrear eficientemente a partir de distribuciones sesgadas por recompensa sigue siendo un desafío fundamental. Si bien el Monte Carlo Secuencial Torcido (SMC, por sus siglas en inglés) ofrece exactitud asintótica para esta tarea, estimar la función de torsión óptima en espacios de estados discretos requiere costosas aproximaciones Monte Carlo, lo que genera un grave cuello de botella computacional durante la inferencia. Para superar esta limitación, introducimos la Coincidencia de Distribuciones Contrastiva (CDM), un novedoso marco que amortiza el costo de la inferencia SMC aprendiendo una función de torsión parametrizada mediante muestras positivas y negativas. Para un entrenamiento eficiente, reformulamos el estimador del gradiente aprovechando los núcleos directos de forma cerrada de los modelos de difusión discretos. En la práctica, evaluar nuestra función de torsión aprendida genera menos de un 5% de sobrecarga computacional adicional en comparación con una sola pasada directa del modelo base. Mediante amplias evaluaciones empíricas, demostramos que CDM supera consistentemente a las líneas base existentes bajo tiempo real comparable. Validamos la efectividad y versatilidad de nuestro enfoque en una variedad de aplicaciones diversas, que incluyen la generación de texto tóxico, el diseño de secuencias de ADN reguladoras, la capacidad de diseño de proteínas y la alineación de modelos de lenguaje grandes mediante difusión.