Artículos de investigación en IA seleccionados diariamente con traducciones
La generación en pocos pasos ha sido un objetivo de larga data, y los métodos recientes de generación en un solo paso, ejemplificados por MeanFlow, han logrado resultados notables. La investigación existente sobre MeanFlow se centra principalmente en la generación de clase a imagen. Sin embargo, una dirección intuitiva pero aún inexplorada es extender la condición de las etiquetas de clase fijas a entradas de texto flexibles, permitiendo una creación de contenido más rica. En comparación con las limitadas etiquetas de clase, las condiciones de texto plantean mayores desafíos a la capacidad de comprensión del modelo, lo que requiere la integración efectiva de potentes codificadores de texto en el marco de MeanFlow. Sorprendentemente, aunque incorporar condiciones de texto parece sencillo, encontramos que integrar potentes codificadores de texto basados en LLM utilizando estrategias de entrenamiento convencionales da como resultado un rendimiento insatisfactorio. Para descubrir la causa subyacente, realizamos análisis detallados y revelamos que, debido al número extremadamente limitado de pasos de refinamiento en la generación de MeanFlow, como solo un paso, se requiere que las representaciones de características de texto posean una discriminabilidad suficientemente alta. Esto también explica por qué las características de clase discretas y fácilmente distinguibles funcionan bien dentro del marco de MeanFlow. Guiados por estas ideas, aprovechamos un potente codificador de texto basado en LLM, validado para poseer las propiedades semánticas requeridas, y adaptamos el proceso de generación de MeanFlow a este marco, logrando por primera vez una síntesis eficiente condicionada por texto. Además, validamos nuestro enfoque en el modelo de difusión ampliamente utilizado, demostrando mejoras significativas en el rendimiento de la generación. Esperamos que este trabajo proporcione una referencia general y práctica para futuras investigaciones sobre la generación de MeanFlow condicionada por texto. El código está disponible en https://github.com/AMAP-ML/EMF.
El razonamiento de Cadena de Pensamiento (CoT) se ha convertido en un potente impulsor de la predicción de trayectorias en la conducción autónoma basada en VLA (Asistentes de Lenguaje Visual), aunque su naturaleza autorregresiva impone un coste de latencia prohibitivo para el despliegue en tiempo real. Los métodos de CoT Latente intentan cerrar esta brecha comprimiendo el razonamiento en estados ocultos continuos, pero consistentemente se quedan por detrás de sus contrapartes explícitas. Sugerimos que esto se debe a que las representaciones latentes puramente lingüísticas comprimen una abstracción simbólica del mundo, en lugar de las dinámicas causales que realmente gobiernan la conducción. Por ello, presentamos OneVL (Razonamiento y planificación latente en un solo paso con explicaciones de Visión-Lenguaje), un marco unificado de VLA y Modelo Mundial que canaliza el razonamiento a través de tokens latentes compactos supervisados por decodificadores auxiliares duales. Junto a un decodificador de lenguaje que reconstruye el CoT textual, introducimos un decodificador de modelo mundial visual que predice tokens de frames futuros, forzando al espacio latente a internalizar las dinámicas causales de la geometría vial, el movimiento de agentes y el cambio ambiental. Una canalización de entrenamiento en tres etapas alinea progresivamente estos latentes con objetivos de trayectoria, lenguaje y visión, asegurando una optimización conjunta estable. En la inferencia, los decodificadores auxiliares se descartan y todos los tokens latentes se precargan en una única pasada paralela, igualando la velocidad de la predicción de solo-respuesta. En cuatro benchmarks, OneVL se convierte en el primer método de CoT Latente en superar al CoT explícito, ofreciendo una precisión de vanguardia con la latencia de solo-respuesta, y proporcionando evidencia directa de que una compresión más ajustada, cuando se guía con supervisión tanto de lenguaje como de modelo mundial, produce representaciones más generalizables que el razonamiento token-por-token verboso. Página del proyecto: https://xiaomi-embodied-intelligence.github.io/OneVL
Se espera cada vez más que los grandes modelos de lenguaje funcionen como agentes de propósito general que interactúan con entornos externos de herramientas con estado. El Protocolo de Contexto del Modelo (MCP) y las habilidades de agentes en general ofrecen una interfaz unificada para conectar agentes con servicios del mundo real escalables, pero el entrenamiento de agentes robustos sigue limitado por la falta de entornos realistas y mecanismos fundamentados para el aprendizaje continuo. En este artículo, presentamos Agent-World, una arena de entrenamiento de auto-evolución para avanzar en la inteligencia general de agentes mediante entornos escalables. Agent-World tiene dos componentes principales: (1) el Descubrimiento Autónomo de Entornos y Tareas, que explora de forma autónoma bases de datos temáticamente alineadas y ecosistemas de herramientas ejecutables a partir de miles de temas de entornos del mundo real, y sintetiza tareas verificables con dificultad controlable; y (2) el Entrenamiento Continuo de Agentes de Auto-Evolución, que combina el aprendizaje por refuerzo multi-entorno con una arena de agentes de auto-evolución que identifica automáticamente las brechas de capacidad mediante la síntesis dinámica de tareas e impulsa el aprendizaje dirigido, permitiendo la co-evolución de las políticas de los agentes y los entornos. En 23 benchmarks desafiantes para agentes, Agent-World de 8B y 14B parámetros supera consistentemente a modelos propietarios sólidos y a líneas base de escalado de entornos. Análisis adicionales revelan tendencias de escalado en relación con la diversidad de entornos y las rondas de auto-evolución, ofreciendo perspectivas para la construcción de una inteligencia de agentes general.
El desarrollo de videojuegos se sitúa en la intersección del diseño creativo y la ingeniería de software compleja, exigiendo la orquestación conjunta de motores de juego, bucles en tiempo real y estados estrechamente acoplados a través de múltiples archivos. Si bien los Modelos de Lenguaje a Gran Escala (LLMs) y los agentes de código ahora resuelven tareas de programación aisladas con facilidad, tropiezan consistentemente cuando se les solicita producir un juego completamente jugable a partir de un diseño de alto nivel, colapsando bajo inconsistencias entre archivos, cableado de escenas roto e incoherencia lógica. Cerramos esta brecha con OpenGame, el primer marco agente de código abierto diseñado explícitamente para la creación de videojuegos web de extremo a extremo. En su núcleo se encuentra Game Skill, una capacidad reutilizable y en evolución compuesta por una Template Skill que desarrolla una biblioteca de esqueletos de proyectos a partir de la experiencia y una Debug Skill que mantiene un protocolo vivo de correcciones verificadas, permitiendo juntas al agente crear andamiajes de arquitecturas estables y reparar sistemáticamente errores de integración en lugar de parchear errores de sintaxis aislados. Impulsando este marco está GameCoder-27B, un LLM de código especializado en el dominio de motores de juego mediante un pipeline de tres etapas: pre-entrenamiento continuo, ajuste fino supervisado y aprendizaje por refuerzo basado en ejecución. Dado que verificar la jugabilidad interactiva es fundamentalmente más difícil que verificar código estático, introducimos además OpenGame-Bench, un pipeline de evaluación que puntúa la generación de juegos por agentes a lo largo de tres ejes: Salud de la Compilación, Usabilidad Visual y Alineación con la Intención, mediante ejecución en navegador headless y evaluación con Modelos de Lenguaje Visual (VLM). En 150 prompts de juegos diversos, OpenGame establece un nuevo estado del arte. Esperamos que OpenGame impulse a los agentes de código más allá de los problemas discretos de ingeniería de software y hacia la construcción de aplicaciones mundiales complejas e interactivas. Nuestro marco será completamente de código abierto.
Los modelos de video del mundo han logrado un éxito notable en la simulación de dinámicas ambientales en respuesta a acciones de usuarios o agentes. Se modelan como sistemas de generación de video condicionados por acciones que toman frames históricos y acciones actuales como entrada para predecir frames futuros. Sin embargo, la mayoría de los enfoques existentes se limitan a escenarios de agente único y no logran capturar las interacciones complejas inherentes a los sistemas multiagente del mundo real. Presentamos MultiWorld, un marco unificado para el modelado del mundo multiagente y multivista que permite el control preciso de múltiples agentes manteniendo la consistencia multivista. Introducimos el Módulo de Condición Multiagente para lograr una controlabilidad multiagente precisa, y el Codificador de Estado Global para garantizar observaciones coherentes en diferentes vistas. MultiWorld admite la escalabilidad flexible de recuentos de agentes y vistas, y sintetiza diferentes vistas en paralelo para una alta eficiencia. Los experimentos en entornos de juegos multijugador y tareas de manipulación multirobot demuestran que MultiWorld supera a los métodos base en fidelidad de video, capacidad de seguimiento de acciones y consistencia multivista. Página del proyecto: https://multi-world.github.io/
El aprendizaje por refuerzo a partir de recompensas verificables (RLVR) ha demostrado una notable eficacia para mejorar las capacidades de razonamiento de los grandes modelos de lenguaje. A medida que los modelos evolucionan hacia arquitecturas nativamente multimodales, extender el RLVR a la comprensión de vídeo se vuelve cada vez más importante, aunque sigue siendo un campo mayormente inexplorado. Esto se debe a la diversidad de tipos de tareas de vídeo, la sobrecarga computacional de decodificar y preprocesar repetidamente entradas visuales de alta dimensión, y la dificultad de una evaluación reproducible entre numerosos hiperparámetros sensibles. Los marcos de entrenamiento RL de código abierto existentes proporcionan una infraestructura sólida para escenarios de texto e imagen, pero carecen de optimizaciones sistemáticas adaptadas a la modalidad de vídeo. En este trabajo, presentamos EasyVideoR1, un marco de aprendizaje por refuerzo completo y eficiente diseñado específicamente para entrenar grandes modelos de visión y lenguaje en tareas de comprensión de vídeo. EasyVideoR1 realiza las siguientes contribuciones: (1) una canalización completa de entrenamiento RL para vídeo con preprocesamiento offline y almacenamiento en caché de tensores que elimina la decodificación redundante de vídeo y produce una mejora del rendimiento de 1.47 veces; (2) un sistema de recompensas integral y consciente de la tarea, que cubre 11 tipos distintos de problemas de vídeo e imagen con enrutamiento unificado y extensión modular; (3) un paradigma de entrenamiento de datos mixto offline-online que combina trayectorias curadas de alta calidad con exploración on-policy, beneficiando el aprendizaje de tareas más desafiantes; (4) entrenamiento conjunto de imagen-vídeo con presupuestos de píxeles independientemente configurables, permitiendo que las dos modalidades se refuercen mutuamente; y (5) un marco de evaluación asíncrono multi-benchmark que cubre 22 benchmarks principales de comprensión de vídeo, con una precisión reproducida estrechamente alineada con las puntuaciones reportadas oficialmente.
Los modelos de lenguaje a gran escala suelen ajustarse posteriormente mediante fine-tuning supervisado (SFT) y aprendizaje por refuerzo (RL), aunque unificar eficazmente la inyección eficiente de conocimiento con una robusta generalización sigue siendo un desafío. En este trabajo, presentamos un análisis de la dinámica del entrenamiento que demuestra que el SFT puede interpretarse como un caso especial de optimización de gradiente de políticas con una recompensa implícita extremadamente dispersa y una ponderación inversa de probabilidad inestable, lo que en conjunto conduce a dependencia de trayectorias únicas, colapso de entropía y explosión de gradientes. Motivados por este diagnóstico, proponemos Group Fine-Tuning (GFT), un marco unificado de entrenamiento posterior que aborda estas limitaciones intrínsecas mediante dos mecanismos: Group Advantage Learning, que construye grupos de respuestas diversos y deriva una supervisión contrastiva normalizada para aliviar la dispersión de recompensas, y Dynamic Coefficient Rectification, que acota adaptativamente los pesos de probabilidad inversa para estabilizar la optimización mientras preserva la inyección eficiente de conocimiento. Los experimentos demuestran que GFT supera consistentemente a los métodos basados en SFT y produce políticas que se integran de manera más fluida con el entrenamiento posterior de RL.
Los modelos de lenguaje grande están evolucionando rápidamente hacia agentes de codificación interactivos capaces de realizar codificación web de extremo a extremo; sin embargo, los benchmarks existentes evalúan solo porciones reducidas de esta capacidad, típicamente la generación condicionada por texto con métricas de corrección estática, dejando en gran medida sin medir la fidelidad visual, la calidad de la interacción y el razonamiento a nivel de base de código. Presentamos WebCompass, un benchmark multimodal que proporciona una evaluación unificada del ciclo de vida de la capacidad de ingeniería web. Reconociendo que la codificación web en el mundo real es un ciclo iterativo de generación, edición y reparación, WebCompass abarca tres modalidades de entrada (texto, imagen, video) y tres tipos de tareas (generación, edición, reparación), dando lugar a siete categorías de tareas que reflejan flujos de trabajo profesionales. Mediante un pipeline multietapa con intervención humana, seleccionamos instancias que cubren 15 dominios de generación, 16 tipos de operaciones de edición y 11 tipos de defectos para reparación, cada una anotada en niveles Fácil/Medio/Difícil. Para la evaluación, adoptamos un protocolo de LLM-como-Juez guiado por checklist para edición y reparación, y proponemos un nuevo paradigma de Agente-como-Juez para generación que ejecuta autónomamente los sitios web generados en un navegador real, explora comportamientos interactivos mediante el Protocolo de Contexto del Modelo (MCP) y sintetiza iterativamente casos de prueba específicos, aproximándose estrechamente a las pruebas de aceptación humanas. Evaluamos modelos representativos de código cerrado y abierto y observamos que: (1) los modelos de código cerrado siguen siendo sustancialmente más fuertes y equilibrados; (2) la edición y la reparación exhiben perfiles de dificultad distintos, siendo que la reparación preserva mejor la interactividad pero sigue siendo difícil en términos de ejecución; (3) la estética es el cuello de botella más persistente, especialmente para los modelos de código abierto; y (4) la elección del marco de trabajo afecta materialmente los resultados, siendo Vue consistentemente desafiante, mientras que React y Vanilla/HTML tienen un rendimiento más sólido dependiendo del tipo de tarea.
La construcción de entornos para entrenar y evaluar agentes tipo garra sigue siendo un proceso manual e intensivo en recursos humanos que no es escalable. Sostenemos que lo que se necesita no es solo un conjunto de datos, sino una canalización automatizada capaz de generar entornos diversos y verificados bajo demanda. Con este fin, presentamos ClawEnvKit, una canalización de generación autónoma que materializa este formalismo a partir de descripciones en lenguaje natural. La canalización consta de tres módulos: (1) un analizador que extrae parámetros estructurados de generación a partir de una entrada en lenguaje natural; (2) un generador que produce la especificación de la tarea, la interfaz de herramientas y la configuración de puntuación; y (3) un validador que aplica la factibilidad, diversidad, validez estructural y coherencia interna en todos los entornos generados. Utilizando ClawEnvKit, construimos Auto-ClawEval, el primer punto de referencia a gran escala para agentes tipo garra, que comprende 1.040 entornos en 24 categorías. Empíricamente, Auto-ClawEval iguala o supera a los entornos curados por humanos en coherencia y claridad con un costo 13.800 veces menor. Evaluado en 4 familias de modelos y 8 marcos de trabajo de agentes, encontramos que la ingeniería de arneses aumenta el rendimiento hasta en 15,7 puntos porcentuales sobre una línea base ReAct básica, la finalización sigue siendo el eje principal de variación sin que ningún modelo sature el benchmark, y la generación automatizada permite la evaluación a una escala antes inviable. Más allá de la evaluación estática, ClawEnvKit permite la evaluación en vivo: los usuarios describen una capacidad deseada en lenguaje natural y obtienen un entorno verificado bajo demanda, convirtiendo la evaluación en un proceso continuo y dirigido por el usuario. El mismo mecanismo sirve como un generador de entornos de entrenamiento bajo demanda, produciendo distribuciones de tareas que se adaptan a las debilidades actuales de un agente en lugar de estar limitadas por los registros de usuario existentes.
Los modelos de lenguaje a gran escala han logrado mejoras significativas en el razonamiento mediante el aprendizaje por refuerzo con recompensas verificables (RLVR). Sin embargo, a medida que crecen las capacidades de los modelos, construir señales de recompensa de alta calidad se vuelve cada vez más difícil, lo que hace esencial comprender cuándo el RLVR puede tener éxito bajo formas más débiles de supervisión. Realizamos un estudio empírico sistemático en diversas familias de modelos y dominios de razonamiento bajo tres configuraciones de supervisión débil: datos escasos, recompensas ruidosas y recompensas proxy auto-supervisadas. Descubrimos que la generalización está gobernada por la dinámica de saturación de la recompensa durante el entrenamiento: los modelos que generalizan exhiben una fase pre-saturación prolongada durante la cual la recompensa de entrenamiento y el rendimiento en tareas posteriores aumentan conjuntamente, mientras que los modelos que se saturan rápidamente memorizan en lugar de aprender. Identificamos la fidelidad del razonamiento, definida como el grado en que los pasos intermedios apoyan lógicamente la respuesta final, como la propiedad pre-RL que predice en qué régimen cae un modelo, mientras que la diversidad de las salidas por sí sola no es informativa. Motivados por estos hallazgos, desentrañamos las contribuciones del pre-entrenamiento continuo y del ajuste fino supervisado (SFT), encontrando que el SFT en trazas de razonamiento explícitas es necesario para la generalización bajo supervisión débil, mientras que el pre-entrenamiento continuo en datos del dominio amplifica el efecto. Aplicadas conjuntamente a Llama3.2-3B-Base, estas intervenciones permiten la generalización en las tres configuraciones donde el modelo base previamente fallaba.
A medida que la frontera de capacidades de los agentes autónomos sigue expandiéndose, estos son cada vez más capaces de completar tareas especializadas mediante habilidades externas plug-and-play. Sin embargo, los puntos de referencia actuales prueban mayoritariamente si los modelos pueden utilizar las habilidades proporcionadas, dejando abierta la cuestión de si pueden descubrir habilidades a partir de la experiencia, repararlas tras un fallo y mantener una biblioteca coherente a lo largo del tiempo. Presentamos SkillFlow, un benchmark de 166 tareas distribuidas en 20 familias, en el que la construcción de tareas dentro de cada familia sigue un Flujo de Ejecución Independiente del Dominio (DAEF) que define un marco de trabajo para el flujo del agente, permitiendo que estas tareas compartan un flujo de trabajo consistente. Los agentes son evaluados bajo un protocolo de Aprendizaje Continuo Agéntico en el que comienzan sin habilidades, resuelven tareas secuencialmente dentro de cada familia, externalizan las lecciones aprendidas mediante parches de habilidades basados en trayectorias y rúbricas, y trasladan la biblioteca actualizada a tareas posteriores. Los experimentos revelan una brecha sustancial de capacidades. Para Claude Opus 4.6, la evolución continua de habilidades mejora la tasa de éxito en las tareas del 62.65% al 71.08% (+8.43 puntos). No obstante, un alto uso de habilidades no implica necesariamente una alta utilidad: Kimi K2.5 gana solo +0.60 puntos a pesar de un uso de habilidades del 66.87%, mientras que Qwen-Coder-Next alcanza solo una tasa de finalización de tareas del 44.58% y aún así experimenta una regresión respecto a la configuración básica. SkillFlow contribuye con un banco de pruebas estructurado para esta dirección de investigación y un análisis empírico en profundidad del descubrimiento, aplicación de parches, transferencia de habilidades y sus modos de fallo bajo evaluación continua.
La fusión de adaptadores LoRA entrenados por separado es una alternativa práctica al entrenamiento multitarea conjunto, pero a menudo perjudica el rendimiento. Los métodos existentes suelen tratar la actualización LoRA ΔW = BA como un único objeto y no distinguen las dos matrices LoRA. Demostramos que la principal fuente de interferencia en la fusión de LoRA proviene de la matriz B del lado de la salida. Entre diferentes tareas, B utiliza repetidamente un pequeño conjunto de direcciones compartidas, mientras que A permanece mucho más específica de la tarea. Como resultado, el adaptador fusionado enfatiza en exceso estas direcciones compartidas y se pierde la información específica de la tarea. Proponemos Pico (Calibración de interferencia pre-fusión en el espacio de salida), un método sin datos que calibra B antes de la fusión reduciendo la escala de las direcciones sobreexplotadas y luego reescalando la actualización fusionada. Pico se integra directamente en métodos de fusión existentes como Task Arithmetic, TIES y TSV-M. En ocho benchmarks diferentes de dominios como matemáticas, programación, finanzas y medicina, Pico mejora la precisión promedio en 3.4-8.3 puntos sobre el método base correspondiente y logra el mejor rendimiento promedio general. Pico también permite que los adaptadores fusionados superen al LoRA entrenado con todos los datos de las tareas. Estos resultados demuestran que la fusión de LoRA funciona mejor cuando las dos matrices LoRA se tratan por separado.
La destilación bajo la misma política (OPD, por sus siglas en inglés) es un paradigma cada vez más importante para el post-entrenamiento de modelos de lenguaje. Sin embargo, identificamos una Ley de Escalado de la Descalibración generalizada: si bien la OPD mejora eficazmente la precisión en las tareas, atrapa sistemáticamente a los modelos en una severa sobreconfianza. Rastreamos este fallo hasta un desajuste de información: la supervisión del profesor se forma bajo un contexto privilegiado disponible durante el entrenamiento, mientras que el modelo desplegado debe reportar su confianza utilizando únicamente la información disponible en el momento del despliegue. Formalizamos esta perspectiva teóricamente, demostrando que el éxito condicionado al profesor generalmente no es un objetivo válido para la confianza en el despliegue, y que un contexto privilegiado útil induce un colapso de la entropía y un sesgo de optimismo sistemático. Para abordar esto, proponemos un marco de OPD consciente de la calibración, CaOPD, que estima la confianza empírica a partir de las ejecuciones del modelo, reemplaza la confianza auto-reportada con este objetivo basado en el estudiante, y destila la respuesta revisada a través de la misma canalización de auto-destilación. Los experimentos en varios modelos y dominios muestran que CaOPD logra una calibración Pareto-óptima manteniendo una capacidad competitiva, generalizando de manera robusta bajo condiciones fuera de distribución y aprendizaje continuo. Nuestros hallazgos destacan que la destilación de capacidad no implica una confianza calibrada, y que la confianza debe tratarse como un objetivo esencial en el post-entrenamiento. Código: https://github.com/SalesforceAIResearch/CaOPD
Los modelos de visión y lenguaje demuestran capacidades notables, pero a menudo luchan con el razonamiento compositivo, exhibiendo vulnerabilidades en cuanto al orden de las palabras y la vinculación de atributos. Esta limitación surge de la escasez de muestras informativas necesarias para diferenciar variaciones semánticas sutiles durante el preentrenamiento contrastivo. Aunque la minería de negativos difíciles ofrece una solución prometedora, los métodos existentes carecen de mecanismos explícitos para dictar qué elementos lingüísticos se someten a modificación. En lugar de diseñar arquitecturas generativas, este estudio establece la concreción léxica como un determinante fundamental de la eficacia de las muestras negativas. Modificar términos altamente concretos genera discrepancias estructurales y visuales más pronunciadas, proporcionando una señal de aprendizaje sustancialmente más fuerte. Aprovechando este principio, se propone ConcretePlant para aislar y manipular sistemáticamente conceptos perceptualmente fundamentados. Los análisis de la función InfoNCE revelan además un grave desequilibrio de gradientes, donde los pares fácilmente distinguibles abruman desproporcionadamente el proceso de optimización y restringen el ancho de banda disponible para el aprendizaje matizado. Para resolver esta degradación, se formula la pérdida Cement utilizando un enfoque basado en márgenes. Al correlacionar las puntuaciones psicolingüísticas con la dificultad de la muestra, este objetivo calibra dinámicamente el castigo aplicado a los pares de entrenamiento individuales. Las evaluaciones exhaustivas corroboran estas afirmaciones teóricas. El marco integrado, designado como Slipform, logra una precisión de vanguardia en diversos puntos de referencia de evaluación compositiva, recuperación cruzada modal general, y sondeo lineal con una o múltiples etiquetas.
Los agentes de uso informático han mejorado rápidamente en tareas del mundo real como la navegación web, la automatización de escritorio y la interacción con software, en algunos casos superando el rendimiento humano. Sin embargo, incluso cuando la tarea y el modelo permanecen sin cambios, un agente que tiene éxito una vez puede fallar en una ejecución repetida de la misma tarea. Esto plantea una pregunta fundamental: si un agente puede realizar una tarea con éxito una vez, ¿qué le impide hacerlo de manera confiable? En este trabajo, estudiamos las fuentes de falta de confiabilidad en los agentes de uso informático a través de tres factores: la estocasticidad durante la ejecución, la ambigüedad en la especificación de la tarea y la variabilidad en el comportamiento del agente. Analizamos estos factores en OSWorld mediante ejecuciones repetidas de la misma tarea junto con pruebas estadísticas pareadas que capturan cambios a nivel de tarea en diferentes configuraciones. Nuestro análisis muestra que la confiabilidad depende tanto de cómo se especifican las tareas como de cómo varía el comportamiento del agente entre ejecuciones. Estos hallazgos sugieren la necesidad de evaluar a los agentes bajo ejecución repetida, permitir que los agentes resuelvan la ambigüedad de las tareas mediante la interacción y favorecer estrategias que se mantengan estables entre ejecuciones.
La resolución de problemas matemáticos sigue siendo una prueba desafiante de razonamiento para los modelos lingüísticos y multimodales de gran escala; sin embargo, los puntos de referencia existentes son limitados en tamaño, cobertura lingüística y diversidad de tareas. Presentamos MathNet, un conjunto de datos multimodal y multilingüe de alta calidad y gran escala, compuesto por problemas matemáticos de nivel olímpico, junto con un benchmark para evaluar el razonamiento matemático en modelos generativos y la recuperación matemática en sistemas basados en embeddings. MathNet abarca 47 países, 17 idiomas y dos décadas de competiciones, e incluye 30.676 problemas creados por expertos con sus soluciones en diversos dominios. Además del conjunto de datos principal, construimos un benchmark de recuperación que consiste en pares de problemas matemáticamente equivalentes y estructuralmente similares, seleccionados por expertos humanos. MathNet admite tres tareas: (i) Resolución de Problemas, (ii) Recuperación con Conciencia Matemática y (iii) Resolución de Problemas Aumentada por Recuperación. Los resultados experimentales muestran que incluso los modelos de razonamiento más avanzados (78,4% para Gemini-3.1-Pro y 69,3% para GPT-5) siguen enfrentándose a dificultades, mientras que los modelos de embeddings tienen problemas para recuperar problemas equivalentes. Además, demostramos que el rendimiento de la generación aumentada por recuperación es muy sensible a la calidad de la recuperación; por ejemplo, DeepSeek-V3.2-Speciale logra mejoras de hasta el 12%, alcanzando las puntuaciones más altas en el benchmark. MathNet proporciona el conjunto de datos olímpico más grande y de mayor calidad, junto con el primer benchmark para evaluar la recuperación de problemas matemáticos, y publicamos tanto el conjunto de datos como el benchmark en https://mathnet.mit.edu.
Los modelos recientes de diálogo hablado de extremo a extremo permiten una interacción natural. Sin embargo, a medida que las demandas de los usuarios se vuelven cada vez más complejas, los modelos que dependen únicamente de habilidades conversacionales a menudo tienen dificultades para adaptarse. Por lo tanto, la incorporación de capacidades agentivas es esencial: al permitir el uso de herramientas, estos modelos pueden extender sus límites de conocimiento y resolver mejor las tareas del mundo real. No obstante, la investigación existente se ha centrado en gran medida en la percepción y generación central, con una exploración comparativamente limitada de tales extensiones aumentadas con herramientas. Para cerrar esta brecha, presentamos VoxMind, un marco integrado diseñado para dotar a los modelos de diálogo hablado de extremo a extremo con capacidades agentivas integrales. Aprovechando nuestro conjunto de datos AgentChat de 470 horas cuidadosamente seleccionado, incorporamos un mecanismo de "Pensar-Antes-de-Hablar", que permite al modelo internalizar el razonamiento estructurado como un prerrequisito crítico para la planificación y generación de respuestas. Además, para mitigar los cuellos de botella de latencia causados por la integración de herramientas a gran escala, proponemos una arquitectura de Gestión Dinámica de Herramientas Multi-Agente. Al delegar asincrónicamente las tareas de recuperación a un agente auxiliar alineado con la trayectoria de razonamiento del modelo principal, este sistema desacopla efectivamente la latencia de inferencia del tamaño del conjunto de herramientas. Los resultados experimentales confirman que VoxMind logra mejoras significativas en el rendimiento del agente: en comparación con líneas base sólidas, la tasa de finalización de tareas aumenta del 34,88% al 74,57%, superando a Gemini-2.5-Pro en tareas de agente hablado mientras preserva la calidad conversacional general. El código fuente y los datos asociados están disponibles públicamente en https://github.com/MM-Speech/VoxMind.
Los agentes de modelos de lenguaje grandes (LLM) de horizonte largo están fundamentalmente limitados por el contexto. A medida que las interacciones se alargan, las descripciones de herramientas, los recuerdos recuperados y la retroalimentación ambiental sin procesar se acumulan y desplazan la información necesaria para la toma de decisiones. Al mismo tiempo, la experiencia útil obtenida de las tareas a menudo se pierde entre episodios. Sostenemos que el rendimiento a largo plazo no está determinado por la longitud del contexto, sino por cuánta información relevante para la decisión se mantiene dentro de un presupuesto de contexto finito. Presentamos GenericAgent (GA), un sistema de agente LLM de propósito general y auto-evolutivo construido en torno a un único principio: la maximización de la densidad de información en el contexto. GA implementa esto a través de cuatro componentes estrechamente conectados: un conjunto de herramientas atómicas mínimas que mantiene la interfaz simple, una memoria jerárquica bajo demanda que solo muestra una vista general de alto nivel por defecto, un mecanismo de auto-evolución que convierte trayectorias pasadas verificadas en Procedimientos Operativos Estándar (SOP) reutilizables y código ejecutable, y una capa de truncamiento y compresión de contexto que mantiene la densidad de información durante ejecuciones largas. En finalización de tareas, eficiencia en el uso de herramientas, efectividad de la memoria, auto-evolución y navegación web, GA supera consistentemente a los principales sistemas de agentes mientras utiliza significativamente menos tokens e interacciones, y continúa evolucionando con el tiempo. Proyecto: https://github.com/lsdefine/GenericAgent
Los modelos lingüísticos multimodales actuales (MLLMs) han demostrado capacidades notables en la comprensión de videos cortos; sin embargo, traducir videos cinematográficos de larga duración a guiones detallados y anclados temporalmente sigue siendo un desafío significativo. Este artículo presenta la novedosa tarea de video-a-guion (V2S), que busca generar guiones jerárquicos, escena por escena, que abarquen acciones de personajes, diálogos, expresiones y señales de audio. Para facilitar esto, construimos un punto de referencia pionero anotado por humanos y proponemos un marco de evaluación jerárquico y consciente del tiempo. Además, presentamos OmniScript, un modelo de lenguaje omni-modal (audiovisual) de 8 mil millones de parámetros especializado en la comprensión narrativa de larga duración. OmniScript se entrena mediante una canalización progresiva que aprovecha el ajuste fino supervisado mediante cadena de pensamiento para el razonamiento sobre la trama y los personajes, seguido de un aprendizaje por refuerzo que utiliza recompensas segmentadas temporalmente. Experimentos exhaustivos demuestran que, a pesar de su eficiencia en parámetros, OmniScript supera significativamente a modelos de código abierto más grandes y alcanza un rendimiento comparable al de los modelos propietarios más avanzados, incluido Gemini 3-Pro, tanto en localización temporal como en precisión semántica de campos múltiples.
Se asume que los agentes basados en LLM integran las observaciones del entorno en su razonamiento: el descubrimiento de información altamente relevante pero inesperada debería llevar naturalmente a que un modelo explote sus propios hallazgos. Demostramos que esta suposición es falsa para los agentes basados en LLM actuales, que tienen dificultades para reflexionar o reaccionar ante información inesperada. En tres puntos de referencia (Terminal-Bench, SWE-Bench, AppWorld), inyectamos soluciones completas de tareas en los entornos de los agentes para exponer deliberadamente la solución de una tarea a un modelo. Si bien los agentes descubren estas soluciones en Terminal-Bench en el 79-81% de las ejecuciones, interactúan con ellas o las explotan solo en el 37-50% de los casos. Esta brecha es más marcada en AppWorld: los agentes ven documentación que afirma que un comando "devuelve la solución completa a esta tarea" en más del 90% de los intentos, pero explotan esto en menos del 7% de las pruebas. Demostramos que a los agentes les falta lo que llamamos *curiosidad ambiental*: la capacidad de reconocer e investigar observaciones inesperadas pero relevantes en respuesta a estímulos ambientales. Identificamos tres factores principales que influyen en la curiosidad ambiental: las herramientas disponibles en la arquitectura del agente, el cómputo en tiempo de prueba y la distribución de datos de entrenamiento. Nuestros hallazgos identifican que las configuraciones que maximizan la curiosidad también logran el mejor rendimiento en los puntos de referencia sin modificar. Sin embargo, incluso los agentes optimizados conjuntamente siguen ignorando las soluciones descubiertas en la mayoría de las pruebas: los agentes actuales utilizan el entorno para obtener información esperada, pero no para revisar su estrategia o explotar al máximo los estímulos útiles.
La decodificación visual a partir de señales cerebrales es un desafío fundamental en la intersección de la visión por computador y la neurociencia, que requiere métodos que conecten las representaciones neurales con los modelos computacionales de la visión. Un objetivo general del campo es lograr modelos generalizables entre distintos sujetos. Un obstáculo importante para este objetivo es la variabilidad sustancial en las representaciones neurales entre individuos, lo que hasta ahora ha requerido entrenar modelos personalizados o ajustar parámetros por separado para cada sujeto. Para abordar este desafío, presentamos un enfoque optimizado mediante meta-aprendizaje para la decodificación visual semántica a partir de fMRI que generaliza a sujetos nuevos sin ningún ajuste fino. Simplemente condicionando el modelo con un pequeño conjunto de ejemplos de activación cerebral-imagen del nuevo individuo, nuestro modelo infiere rápidamente sus patrones únicos de codificación neural para facilitar una decodificación visual robusta y eficiente. Nuestro enfoque está explícitamente optimizado para el aprendizaje en contexto del modelo de codificación del nuevo sujeto y realiza la decodificación mediante inferencia jerárquica, invirtiendo el codificador. Primero, para múltiples regiones cerebrales, estimamos los parámetros del codificador de respuesta visual por vóxel construyendo un contexto sobre múltiples estímulos y respuestas. Segundo, construimos un contexto que consiste en parámetros del codificador y valores de respuesta a través de múltiples vóxeles para realizar una inversión funcional agregada. Demostramos una fuerte generalización entre sujetos y entre escáneres en diversos modelos base de visión sin reentrenamiento o ajuste fino. Además, nuestro enfoque no requiere ni alineación anatómica ni superposición de estímulos. Este trabajo representa un paso crítico hacia un modelo base generalizable para la decodificación cerebral no invasiva.
La mayoría de los agentes actuales "auto-evolucionan" siguiendo recompensas y reglas definidas por humanos. Sin embargo, este proceso sigue siendo fundamentalmente dependiente de una supervisión externa; sin la guía humana, la evolución se detiene. En este trabajo, entrenamos a agentes para que posean una capacidad intrínseca de meta-evolución que les permita aprender espontáneamente sobre entornos no vistos antes de ejecutar una tarea. Para inculcar esta habilidad, diseñamos un mecanismo de recompensa basado en resultados que mide cuánto mejora el conocimiento del mundo autogenerado por un agente su tasa de éxito en tareas posteriores. Esta señal de recompensa se utiliza exclusivamente durante la fase de entrenamiento para enseñar al modelo a explorar y resumir eficazmente. En el momento de la inferencia, el agente no requiere recompensas externas ni instrucciones humanas. Realiza espontáneamente una auto-evolución nativa para adaptarse a entornos desconocidos utilizando sus parámetros internos. Cuando se aplica a Qwen3-30B y Seed-OSS-36B, este cambio hacia una evolución nativa produce un aumento del 20% en el rendimiento en WebVoyager y WebWalker. Lo más notable es que el conocimiento del mundo generado incluso permite que un modelo compacto de Qwen3 de 14B supere al Gemini-2.5-Flash sin asistencia, estableciendo un nuevo paradigma para agentes verdaderamente evolutivos.
Los juegos ofrecen un paradigma convincente para desarrollar capacidades de razonamiento general en modelos de lenguaje, ya que exigen naturalmente planificación estratégica, inferencia probabilística y toma de decisiones adaptativa. Sin embargo, los enfoques existentes de auto-juego dependen únicamente de los resultados finales del juego, sin proporcionar ningún mecanismo para distinguir los patrones de razonamiento transferibles de las heurísticas específicas del juego. Presentamos STRATAGEM, que aborda dos barreras fundamentales para la transferencia de razonamiento: la especificidad de dominio, donde los patrones aprendidos permanecen anclados en la semántica del juego, y la estasis contextual, donde los contextos estáticos del juego no logran cultivar un razonamiento progresivo. STRATAGEM refuerza selectivamente las trayectorias que exhiben un razonamiento abstracto y agnóstico al dominio mediante un Coeficiente de Transferibilidad de Razonamiento, mientras incentiva el desarrollo de un razonamiento adaptativo a través de una Recompensa de Evolución de Razonamiento. Los experimentos en benchmarks de razonamiento matemático, razonamiento general y generación de código demuestran mejoras sustanciales, con avances particularmente fuertes en matemáticas de nivel competitivo donde el razonamiento multi-etapa es crítico. Los estudios de ablación y la evaluación humana confirman que ambos componentes contribuyen a un razonamiento transferible.
Los modelos de lenguaje multimodal (LLM) pueden percibir con precisión contenido numérico a través de diferentes modalidades, pero no logran realizar multiplicaciones exactas de múltiples dígitos cuando el mismo problema aritmético subyacente se presenta como numerales, palabras numéricas, imágenes o en forma de audio. Dado que los puntos de referencia existentes a menudo carecen de instancias sistemáticamente emparejadas entre modalidades, sigue siendo difícil comparar los límites aritméticos genuinos dentro de las familias de modelos y entre ellas. Por lo tanto, presentamos un punto de referencia controlado de multiplicación multimodal que varía factorialmente la longitud de los dígitos, la dispersión de dígitos, la representación (por ejemplo, numerales frente a palabras numéricas) y la modalidad (texto, imágenes renderizadas, audio), con instancias emparejadas procedentes de un generador reproducible. También definimos la carga aritmética, C, como el producto del recuento total de dígitos y el recuento de dígitos no nulos, como un indicador compacto y motivado mecanicísticamente para el recuento de operaciones. En todas las evaluaciones, la precisión disminuye drásticamente a medida que C aumenta, a menudo acercándose a cero para C > 100. De hecho, C sigue siendo predictivo del rendimiento a través de modalidades y modelos, con un R-cuadrado a menudo > 0,5, aproximándose al valor de medidas más complejas de carga aritmética que cuentan el número de pasos aritméticos intermedios. Una descomposición separada de percepción versus cálculo muestra que la degradación multimodal es principalmente computacional y no perceptual: en verificaciones de percepción equiparada, los modelos son casi perfectos (> 99%) en todas las modalidades, incluso cuando la precisión de la multiplicación cae. Más allá de medir cuándo fallan los modelos, preguntamos qué procedimientos están predispuestos a seguir. Introducimos una sonda de pérdida por finalización forzada que puntúa prefijos de razonamiento específicos de heurísticas, incluyendo la multiplicación en columnas, la descomposición distributiva y el redondeo/compensación. Aquí, la descomposición es favorecida tanto en modalidades de texto como de visión; los adaptadores LoRA específicos de heurística producen actualizaciones casi ortogonales y, sin embargo, degradan la precisión, lo que indica que el modelo base mantiene un enrutador interno bien ajustado.
Presentamos SemanticQA, una suite de evaluación diseñada para valorar a los modelos de lenguaje (LM) en tareas de procesamiento de frases semánticas. El benchmark consolida recursos existentes de expresiones multipalabra (MwE) y los reorganiza en un banco de pruebas unificado. Abarca tanto fenómenos léxicos generales, como las colocaciones léxicas, como tres categorías detalladas: expresiones idiomáticas, compuestos nominales y construcciones verbales. A través de SemanticQA, evaluamos LM de diversas arquitecturas y escalas en tareas de extracción, clasificación e interpretación, así como en composiciones secuenciales de tareas. Revelamos una variación sustancial en el rendimiento, particularmente en tareas que requieren razonamiento semántico, lo que pone de relieve diferencias en la eficacia del razonamiento y la comprensión semántica de los LM, ofreciendo perspectivas para impulsar modelos con una comprensión más sólida de frases semánticas no triviales. El sistema de evaluación y los datos de SemanticQA están disponibles en https://github.com/jacklanda/SemanticQA.
A diferencia de la finalización de código, la depuración requiere localizar fallos y aplicar ediciones dirigidas. Observamos que los LLMs de vanguardia a menudo regeneran soluciones correctas pero sobreditadas durante la depuración. Para evaluar cuán lejos están los LLMs de una depuración precisa, presentamos el marco de referencia *Precise Debugging Benchmark* (PDB), que convierte automáticamente cualquier conjunto de datos de programación en un benchmark de depuración con evaluación consciente de la precisión. PDB genera programas con errores mediante la síntesis de fallos atómicos verificados y su composición en programas con múltiples errores. Definimos dos métricas novedosas: la *precisión a nivel de edición* y la *exhaustividad a nivel de fallo*, que miden cuántas ediciones necesarias se realizan y cuántos errores se resuelven. Publicamos dos benchmarks de evaluación: PDB-Single-Hard, sobre errores de una sola línea, y PDB-Multi, sobre errores de múltiples líneas. Los experimentos muestran que los modelos de vanguardia, como GPT-5.1-Codex y DeepSeek-V3.2-Thinking, logran tasas de paso de pruebas unitarias superiores al 76%, pero exhiben una precisión inferior al 45%, incluso cuando se les instruye explícitamente para realizar una depuración mínima. Finalmente, demostramos que las estrategias de depuración iterativas y agentales no mejoran sustancialmente la precisión ni la exhaustividad, lo que subraya la necesidad de repensar los procesos de ajuste posterior para los modelos de programación.
Los Modelos de Lenguaje Grandes Omnimodales Nativos (OLLMs) han evolucionado desde arquitecturas en pipeline hacia espacios de representación unificados. Sin embargo, esta integración nativa da lugar a un fenómeno crítico pero poco explorado: la preferencia modal. Para abordar esta brecha, primero cuantificamos sistemáticamente la preferencia modal de los OLLMs utilizando un nuevo benchmark basado en conflicto y la métrica de tasa de selección modal. Nuestra evaluación de diez OLLMs representativos revela un cambio de paradigma notable: a diferencia del "dominio textual" de los modelos de lenguaje visual tradicionales, la mayoría de los OLLMs exhiben una marcada preferencia visual. Para comprender mejor el mecanismo subyacente, realizamos un análisis por capas que demuestra que dicha preferencia modal no es estática, sino que emerge progresivamente en las capas medias y tardías. Basándonos en estos hallazgos, aprovechamos estas señales internas para diagnosticar alucinaciones cross-modales, logrando un rendimiento competitivo en tres benchmarks multimodales posteriores sin datos específicos de la tarea. Nuestro trabajo proporciona tanto una comprensión mecanicista como una herramienta práctica para construir OLLMs más confiables. Nuestro código y recursos relacionados están disponibles públicamente en: https://github.com/icip-cas/OmniPreference
Los modelos de lenguaje de gran escala (LLM) son ampliamente explorados para tareas de investigación que requieren razonamiento intensivo; sin embargo, los recursos para evaluar si pueden inferir conclusiones científicas a partir de evidencia biomédica estructurada siguen siendo limitados. Presentamos MedConclusion, un conjunto de datos a gran escala de 5,7 millones de resúmenes estructurados de PubMed para la generación de conclusiones biomédicas. Cada instancia empareja las secciones no conclusivas de un resumen con la conclusión original escrita por el autor, proporcionando supervisión natural para el razonamiento de evidencia a conclusión. MedConclusion también incluye metadatos a nivel de revista, como la categoría biomédica y el SJR, lo que permite realizar análisis de subgrupos en distintos dominios biomédicos. Como estudio inicial, evaluamos diversos LLM bajo configuraciones de indicación para conclusión y resumen, y calificamos las salidas tanto con métricas basadas en referencia como con el enfoque de "LLM como juez". Encontramos que la redacción de conclusiones es conductualmente distinta a la de resúmenes, que los modelos más potentes permanecen estrechamente agrupados bajo las métricas automáticas actuales, y que la identidad del juez puede alterar sustancialmente las puntuaciones absolutas. MedConclusion proporciona un recurso de datos reutilizable para estudiar el razonamiento científico de evidencia a conclusión. Nuestro código y datos están disponibles en: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
Los Modelos de Lenguaje Grandes (LLM) han demostrado un rendimiento excepcional en diversos dominios, pero están cada vez más limitados por una alta latencia de inferencia. La Salida Temprana ha surgido como una solución prometedora para acelerar la inferencia al evitar dinámicamente capas redundantes. Sin embargo, en arquitecturas de solo decodificador, la eficiencia de la Salida Temprana se ve severamente limitada por el problema de la Ausencia de Caché KV, donde las capas omitidas no pueden proporcionar los estados históricos necesarios para los tokens subsiguientes. Las soluciones existentes, como el recálculo o el enmascaramiento, introducen una sobrecarga de latencia significativa o incurren en una severa pérdida de precisión, sin lograr cerrar la brecha entre la reducción teórica de capas y la aceleración práctica en tiempo real. En este artículo, proponemos River-LLM, un marco libre de entrenamiento que permite una Salida Temprana a nivel de token sin interrupciones. River-LLM introduce un ligero "Río de Salida" de KV Compartido que permite que la caché KV faltante del modelo principal se genere y preserve naturalmente durante el proceso de salida, eliminando la necesidad de costosas operaciones de recuperación. Además, utilizamos la similitud de transición de estado dentro de los bloques decodificadores para predecir errores acumulativos de KV y guiar decisiones de salida precisas. Experimentos exhaustivos en tareas de razonamiento matemático y generación de código demuestran que River-LLM logra una aceleración práctica de 1.71 a 2.16 veces, manteniendo una alta calidad en la generación.
La ingeniería genómica ha logrado una precisión notable a nivel de secuencia, pero predecir el estado transcriptómico que una célula ocupará tras una perturbación sigue siendo un problema abierto. Los cribados CRISPR de células individuales miden cuánto se alejan las células de su estado no perturbado, pero esta magnitud del efecto ignora una cuestión fundamental: ¿se mueven las células de forma coordinada? Dos perturbaciones con idéntica magnitud pueden producir resultados cualitativamente diferentes si una impulsa a las células de manera coherente a lo largo de una trayectoria compartida, mientras que la otra las dispersa por el espacio de expresión. Introducimos una métrica de estabilidad geométrica, Shesha, que cuantifica la coherencia direccional de las respuestas a perturbaciones en células individuales como la similitud de coseno media entre los vectores de desplazamiento celular individuales y la dirección media de la perturbación. En cinco conjuntos de datos CRISPR (más de 2.200 perturbaciones que abarcan CRISPRa, CRISPRi y cribados agrupados), la estabilidad se correlaciona fuertemente con la magnitud del efecto (Spearman ρ=0.75-0.97), con una correlación calibrada entre conjuntos de datos de 0.97. Crucialmente, los casos discordantes donde las dos métricas se desacoplan exponen la arquitectura reguladora: reguladores maestros pleiotrópicos como CEBPA y GATA1 pagan un "impuesto geométrico", produciendo desplazamientos grandes pero incoherentes, mientras que factores específicos de linaje como KLF1 producen respuestas estrechamente coordinadas. Tras controlar por la magnitud, la inestabilidad geométrica se asocia independientemente con una elevada activación de chaperonas (HSPA5/BiP; ρ_parcial=-0.34 y -0.21 entre conjuntos de datos), y el cuadrante de alta estabilidad/alto estrés está sistemáticamente agotado. La relación magnitud-estabilidad persiste en los *embeddings* del modelo fundacional scGPT, confirmando que es una propiedad del espacio de estados biológico y no de la proyección lineal. La estabilidad de la perturbación proporciona un eje complementario para la priorización de *hits* en cribados, el control de calidad fenotípico en la fabricación de células y la evaluación de predicciones de perturbaciones *in silico*.
La convergencia entre los grandes modelos de lenguaje y los agentes está catalizando una nueva era del descubrimiento científico: la Ciencia Agéntica. Aunque el método científico es inherentemente iterativo, los marcos de agentes existentes son predominantemente estáticos, de alcance limitado y carecen de capacidad para aprender mediante prueba y error. Para cerrar esta brecha, presentamos EvoMaster, un marco fundamental de agentes en evolución diseñado específicamente para la Ciencia Agéntica a Gran Escala. Impulsado por el principio central de la autoevolución continua, EvoMaster permite a los agentes refinar hipótesis de forma iterativa, autoevaluarse y acumular conocimiento progresivamente a lo largo de ciclos experimentales, reflejando fielmente la indagación científica humana. De manera crucial, como plataforma base independiente del dominio, EvoMaster es excepcionalmente fácil de escalar, permitiendo a los desarrolladores construir e implementar agentes científicos altamente capacitados y autoevolutivos para disciplinas arbitrarias en aproximadamente 100 líneas de código. Sobre la base de EvoMaster, incubamos el ecosistema SciMaster en diversos campos como el aprendizaje automático, la física y las ciencias generales. Las evaluaciones en cuatro benchmarks autorizados (Humanity's Last Exam, MLE-Bench Lite, BrowseComp y FrontierScience) demuestran que EvoMaster alcanza puntuaciones state-of-the-art del 41.1%, 75.8%, 73.3% y 53.3%, respectivamente. Supera integralmente al baseline de propósito general OpenClaw con mejoras relativas que van desde +159% hasta +316%, validando robustamente su eficacia y generalidad como el principal marco fundamental para la próxima generación de descubrimiento científico autónomo. EvoMaster está disponible en https://github.com/sjtu-sai-agents/EvoMaster.
Los recientes avances en correspondencia semántica se basan en arquitecturas de doble codificador, que combinan DINOv2 con _backbones_ de difusión. Aunque son precisos, estos modelos de miles de millones de parámetros se generalizan pobremente más allá de los puntos clave de entrenamiento, revelando una brecha entre el rendimiento en _benchmarks_ y la usabilidad en el mundo real, donde los puntos consultados rara vez coinciden con los vistos durante el entrenamiento. Partiendo de DINOv2, presentamos MARCO, un modelo unificado para correspondencia generalizable impulsado por un novedoso marco de entrenamiento que mejora tanto la localización de grano fino como la generalización semántica. Al combinar un objetivo de coarse-to-fine que refina la precisión espacial con un marco de auto-destilación, que expande la supervisión escasa más allá de las regiones anotadas, nuestro enfoque transforma un puñado de puntos clave en correspondencias densas y semánticamente coherentes. MARCO establece un nuevo estado del arte en SPair-71k, AP-10K y PF-PASCAL, con ganancias que se amplían en umbrales de localización de grano fino (+8.9 PCK@0.01), la generalización más sólida a puntos clave no vistos (+5.1, SPair-U) y categorías (+4.7, MP-100), mientras sigue siendo 3 veces más pequeño y 10 veces más rápido que los enfoques basados en difusión. El código está disponible en https://github.com/visinf/MARCO.
Los usuarios a menudo omiten detalles esenciales en sus solicitudes a agentes basados en LLM, lo que genera entradas subespecificadas para el uso de herramientas. Esto plantea un desafío fundamental para los agentes aumentados con herramientas, ya que la ejecución de API normalmente requiere argumentos completos, lo que subraya la necesidad de una llamada a herramientas personalizada. Para estudiar este problema, presentamos MPT, un benchmark que comprende 265 diálogos multi-sesión que cubren tres desafíos: Recuerdo de Preferencias, Inducción de Preferencias y Transferencia de Preferencias. También proponemos PRefine, un método aumentado con memoria en tiempo de prueba que representa las preferencias del usuario como hipótesis evolutivas. Mediante un bucle de generar-verificar-refinar, extrae restricciones reutilizables del historial y mejora la precisión de las llamadas a herramientas mientras utiliza solo el 1.24% de los tokens requeridos por el prompting de historial completo. Estos resultados indican que la personalización robusta en sistemas agenticos depende de una memoria que capture las razones detrás de las elecciones del usuario, no solo de las elecciones en sí mismas.
La Conversación de Apoyo Emocional (ESC) tiene como objetivo ayudar a las personas que experimentan angustia generando diálogo empático y de apoyo. Mientras que trabajos previos suelen asumir que cada intervención del partidario corresponde a una única estrategia, la comunicación de apoyo en el mundo real a menudo involucra múltiples estrategias dentro de una sola expresión. En este artículo, revisitamos la tarea ESC formulándola como una generación de expresiones multiestrategia, donde cada expresión puede contener uno o más pares estrategia-respuesta. Proponemos dos métodos de generación: Todo-en-Uno, que predice todos los pares estrategia-respuesta en un único paso de decodificación, y Uno-por-Uno, que genera iterativamente los pares estrategia-respuesta hasta completarse. Ambos métodos se mejoran además con razonamiento cognitivo guiado por aprendizaje por refuerzo para mejorar la selección de estrategias y la composición de respuestas. Evaluamos nuestros modelos en el conjunto de datos ESConv bajo configuraciones a nivel de expresión y a nivel de diálogo. Los resultados experimentales muestran que nuestros métodos modelan efectivamente las expresiones multiestrategia y conducen a una mejora en la calidad de apoyo y el éxito del diálogo. Hasta donde sabemos, este trabajo proporciona la primera evidencia empírica sistemática de que permitir múltiples estrategias de apoyo dentro de una sola expresión es factible y beneficioso para las conversaciones de apoyo emocional. Todo el código y los datos estarán disponibles públicamente en https://github.com/aliyun/qwen-dianjin.
La implementación confiable de modelos de lenguaje requiere dos capacidades que parecen distintas pero comparten una base geométrica común: predecir si un modelo aceptará un control conductual dirigido y detectar cuándo se degrada su estructura interna. Demostramos que la estabilidad geométrica, la consistencia de la estructura de distancias por pares de una representación, aborda ambas. Las variantes supervisadas Shesha que miden la estabilidad geométrica alineada con la tarea predicen la capacidad de direccionamiento lineal con una precisión casi perfecta (ρ= 0.89-0.97) en 35-69 modelos de *embedding* y tres tareas de PLN, capturando una varianza única más allá de la separabilidad de clases (ρ parcial= 0.62-0.76). Surge una disociación crítica: la estabilidad no supervisada falla por completo para el direccionamiento en tareas del mundo real (ρ≈ 0.10), revelando que la alineación con la tarea es esencial para la previsión de controlabilidad. Sin embargo, la estabilidad no supervisada sobresale en la detección de deriva, midiendo un cambio geométrico casi 2 veces mayor que CKA durante la alineación posterior al entrenamiento (hasta 5.23 veces en Llama) mientras proporciona una alerta más temprana en el 73% de los modelos y mantiene una tasa de falsas alarmas 6 veces menor que Procrustes. Juntas, la estabilidad supervisada y no supervisada forman diagnósticos complementarios para el ciclo de vida de implementación de LLM: uno para la evaluación de controlabilidad previa a la implementación y el otro para el monitoreo posterior a la misma.
Los Modelos de Visión-Lenguaje (VLM) se utilizan cada vez más en diagnósticos clínicos, aunque su robustez frente a ataques adversarios sigue sin explorarse en gran medida, lo que plantea riesgos graves. Los ataques médicos existentes se centran en objetivos secundarios, como el robo de modelos o el ajuste fino adversario, mientras que los ataques transferibles desde imágenes naturales introducen distorsiones visibles que los clínicos pueden detectar fácilmente. Para abordar este problema, proponemos MedFocusLeak, un ataque multimodal de caja negra altamente transferible que induce diagnósticos incorrectos pero clínicamente plausibles, manteniendo las perturbaciones imperceptibles. El método inyecta perturbaciones coordinadas en regiones de fondo no diagnósticas y emplea un mecanismo de distracción de la atención para desviar el enfoque del modelo de las áreas patológicas. Evaluaciones exhaustivas en seis modalidades de imágenes médicas demuestran que MedFocusLeak logra un rendimiento de vanguardia, generando resultados diagnósticos engañosos pero realistas en diversos VLM. Además, introducimos un marco de evaluación unificado con nuevas métricas que capturan conjuntamente el éxito del ataque y la fidelidad de la imagen, revelando una vulnerabilidad crítica en las capacidades de razonamiento de los VLM clínicos modernos.
Los modelos de lenguaje multimodal (MLLM) han demostrado capacidades impresionantes, pero a menudo luchan por capturar eficazmente la información textual de grano fino dentro de las imágenes, crucial para una traducción de imagen precisa. Esto suele dar lugar a una brecha de modalidad entre las entradas de texto visual y las entradas/salidas textuales para la traducción de imágenes. Los métodos existentes, que se basan principalmente en el ajuste fino por instrucciones, conllevan el riesgo de redundancia paramétrica del conocimiento preentrenado, lo que dificulta el rendimiento de generalización. Para abordar esto, presentamos el ajuste fino consciente de las neuronas de modalidad (MNAFT), un enfoque novedoso que aprovecha los roles especializados de las neuronas individuales dentro de los MLLM para mejorar la traducción de imágenes. MNAFT identifica neuronas independientes del lenguaje y específicas del lenguaje en los módulos de visión y lenguaje mediante un análisis de activación impulsado por instrucciones, evaluando su importancia en varias tareas de traducción. Luego realizamos un ajuste fino selectivo, actualizando solo los parámetros de las neuronas específicas del lenguaje e independientes del lenguaje dentro de las capas seleccionadas relevantes para la tarea objetivo, mientras preservamos el conocimiento codificado en otras neuronas y capas. Nuestros extensos experimentos en múltiples puntos de referencia demuestran que MNAFT supera significativamente a los métodos de vanguardia en traducción de imágenes, incluidos los modelos en cascada, el ajuste fino completo estándar y las técnicas de ajuste eficiente de parámetros. Además, proporcionamos un análisis exhaustivo, que incluye visualizaciones de las activaciones neuronales y patrones de agrupamiento, para ofrecer información sobre los roles de los diferentes grupos de neuronas en la mediación de la comprensión multimodal y la facilitación de una traducción precisa y específica del lenguaje.
Comprender y anticipar la actividad relacionada con vulnerabilidades es un gran desafío en la inteligencia sobre amenazas cibernéticas. Este trabajo investiga si los avistamientos de vulnerabilidades, como las publicaciones de pruebas de concepto, las plantillas de detección o las discusiones en línea, pueden pronosticarse a lo largo del tiempo. Partiendo de nuestro trabajo anterior sobre VLAI, un modelo basado en transformers que predice la gravedad de las vulnerabilidades a partir de descripciones textuales, examinamos si las puntuaciones de gravedad pueden mejorar la predicción de series temporales como variables exógenas. Evaluamos varios enfoques para la predicción a corto plazo de avistamientos por vulnerabilidad. Primero, probamos modelos SARIMAX con y sin transformaciones log(x+1) e inputs de gravedad derivados de VLAI. Aunque estos ajustes proporcionan mejoras limitadas, SARIMAX sigue siendo poco adecuado para datos de vulnerabilidades escasos, cortos y con picos de actividad. En la práctica, los pronósticos a menudo producen intervalos de confianza excesivamente amplios y, a veces, valores negativos poco realistas. Para capturar mejor la naturaleza discreta y impulsada por eventos de los avistamientos, exploramos luego métodos basados en conteo, como la regresión de Poisson. Los primeros resultados muestran que estos modelos producen pronósticos más estables e interpretables, especialmente cuando los avistamientos se agregan semanalmente. También discutimos alternativas operativas más simples, incluidas las funciones de decaimiento exponencial para horizontes de pronóstico cortos, para estimar la actividad futura sin requerir largas series históricas. En general, este estudio resalta tanto el potencial como las limitaciones de pronosticar eventos cibernéticos raros y con picos de actividad, y proporciona orientación práctica para integrar análisis predictivos en los flujos de trabajo de inteligencia de vulnerabilidades.
Los Modelos de Lenguaje de Voz en Dúplex Completo (FD-SLMs) permiten interacciones conversacionales superpuestas en tiempo real, ofreciendo una experiencia de usuario más dinámica en comparación con los modelos tradicionales de semidúplex. Sin embargo, los benchmarks existentes se centran principalmente en evaluar interacciones de una sola ronda, descuidando las complejidades de la comunicación multi-ronda. Evaluar los FD-SLMs en entornos multi-ronda plantea desafíos significativos, incluyendo límites de turno difusos en la comunicación e inconsistencias de contexto durante la inferencia del modelo. Además, los benchmarks existentes a menudo se centran únicamente en evaluar características conversacionales, descuidando otros aspectos críticos. Para abordar estas brechas, presentamos MTR-DuplexBench, un benchmark novedoso diseñado para una evaluación integral multi-ronda de los FD-SLMs. MTR-DuplexBench no solo segmenta diálogos continuos de dúplex completo en turnos discretos para una evaluación turno por turno, sino que también incorpora varias dimensiones de evaluación, incluyendo características conversacionales, calidad del diálogo, seguimiento de instrucciones y seguridad. Los resultados experimentales revelan que los FD-SLMs actuales enfrentan dificultades para mantener un rendimiento consistente a través de múltiples rondas y dimensiones de evaluación, destacando la necesidad y efectividad de nuestro benchmark. El código y los datos están disponibles en: https://github.com/ZhangHe0918/MTR-DuplexBench
Presentamos Forge-UGC (Motor de Optimización FX y Gráfico de Registros para Compilación Universal de Grafos), un compilador de cuatro fases para el despliegue de transformers en hardware acelerador heterogéneo, validado en Intel AI Boost NPU. Frameworks existentes como OpenVINO y ONNX Runtime suelen utilizar pipelines de compilación opacos, con visibilidad limitada a nivel de passes y una gestión débil de búferes, lo que puede derivar en mayores costes de compilación y sobrecarga en tiempo de ejecución. Forge-UGC aborda estos problemas con un diseño independiente del hardware que separa la captura del grafo, la optimización, el lowering de la representación intermedia y la planificación del backend. La Fase 1 captura los grafos con torch.export a nivel de operador ATen, dando soporte a componentes modernos de transformers como rotary position embeddings, grouped-query attention y SwiGLU sin necesidad de descomposición manual. La Fase 2 aplica seis passes de optimización: eliminación de código inalcanzable, eliminación de subexpresiones comunes, plegado de constantes, fusión de atención, fusión de operadores y optimización de layout, reduciendo el número de nodos del grafo entre un 14,2% y un 21,9%. La Fase 3 transforma el grafo optimizado en una representación intermedia tipada con asignaciones explícitas de registros virtuales. La Fase 4 realiza un análisis de vitalidad (liveness), una asignación de búferes mediante linear-scan —que reduce el número máximo de búferes entre un 30% y un 48%— y una planificación con afinidad de dispositivo, que reduce las transiciones NPU-CPU entre un 42% y un 65%. En seis familias de modelos que van desde 125M hasta 8B de parámetros, evaluadas en WikiText-103 y GLUE, Forge-UGC ofrece una compilación entre 6,9 y 9,2 veces más rápida que OpenVINO y ONNX Runtime, una latencia de inferencia entre un 18,2% y un 35,7% menor, y un consumo de energía por inferencia entre un 30,2% y un 40,9% inferior. Se preserva la fidelidad, con diferencias absolutas máximas en los logits por debajo de 2,1e-5 y una divergencia KL por debajo de 8,4e-9. También introducimos el Índice de Ganancia por Fusión, el Índice de Eficiencia de Compilación y la generación de perfiles de ejecución por pass para la evaluación sistemática de pipelines de compilación en NPU.
Las interacciones Genotipo por Ambiente (GxA) influyen en el rendimiento de los genotipos en diversos ambientes, reduciendo la predictibilidad de los fenotipos en los ambientes objetivo. El análisis en profundidad de las interacciones GxA facilita la identificación de cómo las ventajas o defectos genéticos se expresan o suprimen bajo condiciones ambientales específicas, permitiendo así la selección genética y mejorando las prácticas de fitomejoramiento. Este artículo presenta dos modelos clave para la investigación de interacciones GxA. Específicamente, incluye: análisis de significancia basado en el modelo de efectos mixtos para determinar si los genes o las interacciones GxA afectan significativamente los rasgos fenotípicos; y análisis de estabilidad, que investiga más a fondo las relaciones interactivas entre genes y ambientes, así como la superioridad o inferioridad relativa de los genotipos en diferentes ambientes. Adicionalmente, este artículo presenta RGxEStat, una herramienta interactiva ligera desarrollada por los autores que integra la construcción, solución y visualización de los modelos antes mencionados. Diseñada para eliminar la necesidad de que los fitomejoradores y agrónomos aprendan programación compleja en SAS o R, RGxEStat proporciona una interfaz amigable para el usuario que agiliza el análisis de datos de mejoramiento, acelerando significativamente los ciclos de investigación. Los códigos y conjuntos de datos están disponibles en https://github.com/mason-ching/RGxEStat.
Presentamos JuRe (Just Repair), una red mínima de eliminación de ruido para detección de anomalías en series temporales que revela un hallazgo central: la complejidad arquitectónica es innecesaria cuando el objetivo de entrenamiento implementa correctamente el principio de proyección en la variedad. JuRe consiste en un único bloque residual convolucional separable en profundidad con dimensión oculta 128, entrenado para reparar ventanas de series temporales corruptas y evaluado en inferencia mediante una función de discrepancia estructural fija y sin parámetros. A pesar de no utilizar atención, variables latentes ni componentes adversarios, JuRe ocupa el segundo puesto en el benchmark multivariante TSB-AD (AUC-PR 0.404, 180 series, 17 conjuntos de datos) y el segundo en el archivo univariante UCR por AUC-PR (0.198, 250 series), liderando todos los baselines neuronales en AUC-PR y VUS-PR. La ablación de componentes en TSB-AD identifica la corrupción durante el entrenamiento como el factor dominante (ΔAUC-PR = 0.047 al eliminarla), confirmando que el objetivo de eliminación de ruido, no la capacidad de la red, impulsa la calidad de la detección. Las pruebas de rangos con signo de Wilcoxon por pares establecen significancia estadística frente a 21 de 25 baselines en TSB-AD. El código está disponible en la URL https://github.com/iis-esslingen/JuRe.
Lanzamos Terminal Wrench, un subconjunto de 331 entornos de evaluación para agentes de terminal, extraídos de los populares benchmarks abiertos que son demostrablemente vulnerables a la piratería de recompensas. El conjunto de datos incluye 3.632 trayectorias de ataques exitosos y 2.352 trayectorias legítimas de referencia obtenidas de tres modelos de vanguardia (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Cada entrada conserva la definición original de la tarea junto con las trayectorias de ataque completas que muestran cómo se eludió el verificador. También incluye casos en los que la tarea no se resolvió según lo previsto. Las tareas abarcan administración de sistemas, aprendizaje automático, ingeniería de software y desafíos de seguridad; los exploits van desde la suplantación simple de salida hasta la introspección de la pila de ejecución, la modificación de bibliotecas estándar y el secuestro de binarios al estilo rootkit. Crucialmente, estos exploits son específicos de cada tarea, y no del entorno de evaluación, lo que dificulta su corrección. También presentamos un estudio de monitorización en el que las trayectorias de ataque son saneadas o se les eliminan las trazas de razonamiento, para luego ser evaluadas por un modelo de lenguaje juez, demostrando que la detección se degrada significativamente cuando se elimina la cadena de pensamiento (el AUC cae de 0.97 a 0.92). El conjunto de datos está disponible públicamente en https://github.com/few-sh/terminal-wrench.
El problema arquitectónico más importante en la inteligencia artificial no es el tamaño del modelo, sino la ausencia de una capa que perpetúe lo que el modelo ha llegado a comprender. Las sesiones terminan. Las ventanas de contexto se llenan. Las APIs de memoria devuelven datos planos que el modelo debe reinterpretar desde cero en cada lectura. El resultado es una inteligencia que es potente por sesión y amnésica a través del tiempo. Este artículo de posición sostiene que la capa que soluciona esto, la *capa de continuidad*, es la pieza de infraestructura más trascendental que el campo aún no ha construido, y que el trabajo de ingeniería para construirla ha comenzado en público. El marco de evaluación formal para la propiedad aquí descrita es el benchmark ATANT (arXiv:2604.06710), publicado por separado con resultados de evaluación sobre un corpus de 250 historias; un artículo complementario (arXiv:2604.10981) sitúa este marco frente a los benchmarks existentes de memoria, contexto largo y memoria agentiva. El artículo define la continuidad como una propiedad del sistema con siete características requeridas, distinta de la memoria y de la recuperación; describe una primitiva de almacenamiento (Memoria por Convergencia de Trazas Descompuestas) cuya descomposición en el momento de escritura y reconstrucción en el momento de lectura producen dicha propiedad; cartografía la arquitectura de ingeniería según el patrón teológico de la *kenosis* y el patrón simbólico del Alfa y el Omega, y argumenta que esta cartografía es estructural y no metafórica; propone un arco de desarrollo de cuatro capas, desde un SDK externo hasta un nodo de hardware y una infraestructura humana de largo horizonte; examina por qué los límites físicos que ahora constriñen la capa del modelo hacen que la capa de continuidad sea newly trascendental; y argumenta que la arquitectura de gobernanza (la privacidad implementada como física en lugar de como política, acciones de clase controladas por el fundador sobre compromisos arquitectónicos no negociables) es inseparable del producto en sí.
Las representaciones de grafos escénicos permiten una comprensión visual estructurada mediante el modelado de objetos y sus relaciones, y se han utilizado ampliamente para el razonamiento multivista y 3D de escenas. Métodos existentes como MSG aprenden representaciones incrustadas de grafos escénicos en espacio euclidiano utilizando aprendizaje contrastivo y asociación basada en atención. Sin embargo, la geometría euclidiana no captura explícitamente las relaciones de implicación jerárquica entre lugares y objetos, limitando la consistencia estructural de las representaciones aprendidas. Para abordar esto, proponemos el Grafo Escénico Hiperbólico (HSG), que aprende representaciones incrustadas de grafos escénicos en espacio hiperbólico, donde las relaciones jerárquicas se codifican naturalmente a través de la distancia geométrica. Nuestros resultados muestran que HSG mejora la calidad de la estructura jerárquica mientras mantiene un fuerte rendimiento en recuperación. Las mayores mejoras se observan en métricas a nivel de grafo: HSG logra un PP IoU de 33.17 y el Graph IoU más alto de 33.51, superando a la mejor variante de AoMSG (25.37) por 8.14, destacando la efectividad del aprendizaje de representaciones hiperbólicas para el modelado de grafos escénicos. Código: https://github.com/AIGeeksGroup/HSG.
Los grandes modelos de lenguaje (LLM) de solo decodificación están reemplazando progresivamente a las arquitecturas estilo BERT como columna vertebral de la recuperación densa, logrando ganancias sustanciales de rendimiento y una amplia adopción. Sin embargo, la robustez de estos recuperadores basados en LLM sigue estando poco explorada. En este artículo, presentamos el primer estudio sistemático de la robustez de los recuperadores densos basados en LLM de código abierto de vanguardia desde dos perspectivas complementarias: generalizabilidad y estabilidad. Para la generalizabilidad, evaluamos la efectividad de la recuperación en cuatro puntos de referencia que abarcan 30 conjuntos de datos, utilizando modelos lineales de efectos mixtos para estimar el rendimiento medio marginal y desentrañar la capacidad intrínseca del modelo de la heterogeneidad del conjunto de datos. Nuestro análisis revela que, si bien los modelos ajustados por instrucciones generalmente sobresalen, aquellos optimizados para razonamiento complejo a menudo sufren un "impuesto de especialización", exhibiendo una generalizabilidad limitada en contextos más amplios. Para la estabilidad, evaluamos la resiliencia del modelo contra variaciones de consulta no intencionales (por ejemplo, paráfrasis, errores tipográficos) y ataques adversarios maliciosos (por ejemplo, envenenamiento del corpus). Encontramos que los recuperadores basados en LLM muestran una robustez mejorada contra errores tipográficos y envenenamiento del corpus en comparación con los modelos de referencia de solo codificación, pero siguen siendo vulnerables a perturbaciones semánticas como la sinonimización. Un análisis más profundo muestra que la geometría de los embeddings (por ejemplo, uniformidad angular) proporciona señales predictivas para la estabilidad léxica y sugiere que escalar el tamaño del modelo generalmente mejora la robustez. Estos hallazgos informan el futuro diseño de recuperadores conscientes de la robustez y la evaluación comparativa fundamentada. Nuestro código está disponible públicamente en https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.
Presentamos la primera versión de KWBench (Knowledge Work Bench), un benchmark para evaluar el reconocimiento no solicitado de problemas en modelos de lenguaje grandes: ¿puede un LLM identificar un escenario profesional antes de intentar resolverlo? Los benchmarks de vanguardia existentes han alcanzado saturación, y la mayoría de las evaluaciones de trabajo del conocimiento hasta la fecha se reducen a extracción o finalización de tareas contra una especificación. KWBench apunta al paso previo: reconocer la estructura rectora de la situación únicamente a partir de entradas en bruto. El benchmark contiene 223 tareas obtenidas de profesionales en áreas como adquisiciones, negociaciones contractuales, farmacia clínica, política organizacional, análisis de fraude y diseño de incentivos. Cada tarea codifica un patrón formal de teoría de juegos (conflicto principal-agente, señalización, fallo de diseño de mecanismos, omisión estratégica, dinámicas coalicionales, interdependencia estratégica) e incluye una verdad de referencia estructurada que registra la interpretación experta de la situación y los modos de fallo anticipados. Los modelos reciben datos en bruto y un enunciado de tarea sin indicación del tipo de problema. La puntuación sigue una rúbrica de tres niveles sujeta a una verificación conjuntiva obligatoria. Los criterios obligatorios codifican las vías de solución erróneas previstas. Evaluamos 16 modelos. El mejor modelo supera el 27.9% de las tareas. Los dos mejores modelos coinciden solo en el 31.7% de sus aciertos. Entre los 8 mejores, 44 tareas son resueltas por exactamente un modelo; la distribución entre los 8 principales cubre el 50.7% del benchmark, casi el doble que el mejor modelo individual. Condicionado a superar la tarea, las puntuaciones de calidad convergen (aprox. 83% entre modelos); las puntuaciones incondicionales no lo hacen. Los mismos modelos articulan correctamente el concepto de teoría de juegos relevante cuando se les pregunta, pero fallan en aplicarlo sin indicación previa. Publicamos KWBench para cambiar cómo se evalúan los modelos de vanguardia en trabajo del conocimiento, valorándolos según si reconocen el problema correcto solo a partir de la situación, no solo por su ejecución una vez que el problema ha sido enmarcado para ellos.
Los agentes de IA que interactúan con su entorno mediante herramientas permiten aplicaciones potentes, pero en entornos empresariales de alto riesgo, las acciones no intencionadas pueden causar daños inaceptables, como violaciones de la privacidad y pérdidas financieras. Las mitigaciones existentes, como los métodos basados en entrenamiento y las barreras de protección neuronales, mejoran la fiabilidad de los agentes pero no pueden ofrecer garantías. Estudiamos las barreras de protección simbólicas como una vía práctica para lograr garantías sólidas de seguridad y protección para los agentes de IA. Nuestro estudio de tres partes incluye una revisión sistemática de 80 benchmarks de seguridad y protección de agentes de última generación para identificar las políticas que evalúan, un análisis de qué requisitos de política pueden garantizarse mediante barreras simbólicas, y una evaluación de cómo estas barreras afectan a la seguridad, protección y éxito del agente en τ²-Bench, CAR-bench y MedAgentBench. Hallamos que el 85% de los benchmarks carecen de políticas concretas, basándose en cambio en objetivos de alto nivel mal definidos o en el sentido común. Entre las políticas especificadas, el 74% de los requisitos pueden aplicarse mediante barreras simbólicas, a menudo utilizando mecanismos simples y de bajo coste. Estas barreras mejoran la seguridad y protección sin sacrificar la utilidad del agente. En general, nuestros resultados sugieren que las barreras de protección simbólicas son una forma práctica y eficaz de garantizar algunos requisitos de seguridad y protección, especialmente para agentes de IA específicos de dominio. Publicamos todos los códigos y artefactos en https://github.com/hyn0027/agent-symbolic-guardrails.
La destilación de conocimiento es una técnica ampliamente adoptada para transferir capacidades de los LLM a modelos estudiantiles más pequeños y eficientes. Sin embargo, el uso no autorizado de la destilación de conocimiento se aprovecha injustamente del considerable esfuerzo y costo invertidos en el desarrollo de modelos de vanguardia. Investigamos métodos para modificar las trazas de razonamiento generadas por el modelo profesor con el fin de lograr dos objetivos que disuaden la destilación no autorizada: (1) anti-destilación, o degradar la utilidad para el entrenamiento de las respuestas a las consultas, y (2) marca de agua para API, que incrusta firmas verificables en los modelos estudiantiles. Introducimos varios enfoques para reescribir dinámicamente las salidas de razonamiento del profesor preservando la corrección de la respuesta y la coherencia semántica. Dos de estos aprovechan las capacidades de reescritura de los LLM, mientras que otros utilizan técnicas basadas en gradientes. Nuestros experimentos muestran que un simple enfoque de reescritura basado en instrucciones logra un fuerte efecto de anti-destilación manteniendo o incluso mejorando el rendimiento del profesor. Además, demostramos que nuestro enfoque de reescritura también permite incrustar marcas de agua que pueden detectarse de manera fiable con esencialmente ninguna falsa alarma. Nuestro código está disponible en https://github.com/xhOwenMa/trace-rewriting.