Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Step 3.5 Flash, un modelo disperso de Mezcla de Expertos (MoE, por sus siglas en inglés) que conecta la inteligencia agentica de nivel frontera con la eficiencia computacional. Nos centramos en lo que más importa al construir agentes: un razonamiento agudo y una ejecución rápida y confiable. Step 3.5 Flash combina una base de 196.000 millones de parámetros con 11.000 millones de parámetros activos para una inferencia eficiente. Está optimizado con una atención intercalada de ventana deslizante/global en proporción 3:1 y Predicción Multi-Token (MTP-3) para reducir la latencia y el coste de las interacciones agenticas multi-ronda. Para alcanzar una inteligencia de nivel frontera, diseñamos un marco de aprendizaje por refuerzo escalable que combina señales verificables con retroalimentación de preferencias, manteniendo la estabilidad durante el entrenamiento a gran escala fuera de política, lo que permite una mejora constante en matemáticas, código y uso de herramientas. Step 3.5 Flash demuestra un sólido rendimiento en tareas de agentes, programación y matemáticas, logrando un 85,4% en IMO-AnswerBench, un 86,4% en LiveCodeBench-v6 (2024.08-2025.05), un 88,2% en tau2-Bench, un 69,0% en BrowseComp (con gestión de contexto) y un 51,0% en Terminal-Bench 2.0, resultados comparables a modelos frontera como GPT-5.2 xHigh y Gemini 3.0 Pro. Al redefinir la frontera de la eficiencia, Step 3.5 Flash proporciona una base de alta densidad para desplegar agentes sofisticados en entornos industriales del mundo real.
Estudios recientes han adaptado Modelos de Lenguaje Grandes Multimodales (MLLMs) generativos para funcionar como extractores de *embeddings* en tareas de visión, normalmente mediante ajuste fino para producir representaciones universales. Sin embargo, su rendimiento en vídeo sigue siendo inferior al de los Modelos Fundacionales de Vídeo (VFMs). En este artículo, nos centramos en aprovechar los MLLMs para la obtención de *embeddings* y la recuperación de vídeo-texto. En primer lugar, realizamos un análisis sistemático por capas que muestra que las capas intermedias (preentrenadas) de los MLLMs ya codifican información sustancial relevante para la tarea. Aprovechando esta observación, demostramos que combinar los *embeddings* de capas intermedias con una cabeza de MLLM calibrada produce un sólido rendimiento de recuperación *zero-shot* sin ningún entrenamiento. Basándonos en estos hallazgos, introducimos una estrategia de alineamiento ligera basada en texto que mapea descripciones densas de vídeo a resúmenes breves y permite el aprendizaje de *embeddings* vídeo-texto relacionados con la tarea sin supervisión visual. Notablemente, sin ningún ajuste fino más allá del texto, nuestro método supera a los métodos actuales, a menudo por un margen sustancial, logrando resultados punteros en los benchmarks comunes de recuperación de vídeo.
Los Modelos Multimodales Unificados (UMMs) han mostrado un progreso notable en la generación visual. Sin embargo, los puntos de referencia existentes evalúan predominantemente la Inteligencia Cristalizada, que se basa en recordar conocimientos acumulados y esquemas aprendidos. Este enfoque pasa por alto la Inteligencia Fluida Generativa (GFI): la capacidad de inducir patrones, razonar mediante restricciones y adaptarse sobre la marcha a escenarios novedosos. Para evaluar rigurosamente esta capacidad, presentamos GENIUS (Suite de Evaluación de Inteligencia Fluida GEN). Formalizamos la GFI como una síntesis de tres primitivas. Estas incluyen la Inducción de Patrones Implícitos (por ejemplo, inferir preferencias visuales personalizadas), la Ejecución de Restricciones Ad-hoc (por ejemplo, visualizar metáforas abstractas) y la Adaptación al Conocimiento Contextual (por ejemplo, simular física contraintuitiva). Colectivamente, estas primitivas desafían a los modelos a resolver problemas basados completamente en el contexto inmediato. Nuestra evaluación sistemática de 12 modelos representativos revela déficits significativos de rendimiento en estas tareas. Crucialmente, nuestro análisis diagnóstico desentraña estos modos de fallo. Demuestra que los déficits provienen de una comprensión contextual limitada, y no de una capacidad generativa intrínseca insuficiente. Para cerrar esta brecha, proponemos una estrategia de intervención de atención que no requiere entrenamiento. En última instancia, GENIUS establece un estándar riguroso para la GFI, guiando al campo más allá de la utilización del conocimiento hacia un razonamiento dinámico y de propósito general. Nuestro conjunto de datos y código se publicarán en: https://github.com/arctanxarc/GENIUS.
Con el rápido desarrollo de los modelos multimodales grandes, los modelos críticos y evaluadores fiables se han vuelto esenciales para la evaluación de respuestas abiertas y la alineación de preferencias, proporcionando preferencias por pares, puntuaciones numéricas y justificaciones explicativas para valorar las respuestas generadas por los modelos. Sin embargo, los críticos existentes se entrenan principalmente en dominios visuales generales como la generación de descripciones o la respuesta a preguntas sobre imágenes, dejando en gran medida inexploradas las tareas de IA física que implican percepción, razonamiento causal y planificación. Presentamos PhyCritic, un modelo crítico multimodal optimizado para IA física mediante un pipeline RLVR en dos etapas: una etapa de calentamiento de habilidades físicas que mejora la percepción y el razonamiento orientados a la física, seguida de un ajuste fino crítico autorreferencial, donde el crítico genera su propia predicción como referencia interna antes de juzgar las respuestas candidatas, mejorando la estabilidad del juicio y la corrección física. Tanto en benchmarks de evaluación multimodal física como de propósito general, PhyCritic logra fuertes mejoras de rendimiento respecto a los baselines de código abierto y, cuando se aplica como modelo de política, mejora aún más la percepción y el razonamiento en tareas con base física.
La adaptación de agentes de LLM al uso de herramientas específicas de dominio sigue siendo notablemente frágil ante interfaces en evolución. La ingeniería de prompts y esquemas es fácil de implementar pero a menudo resulta frágil ante cambios de distribución y analizadores estrictos, mientras que el fine-tuning continuo y eficiente en parámetros mejora la confiabilidad a costa del entrenimiento, mantenimiento y posible olvido. Identificamos un modo de fallo crítico del Agente Perezoso (Lazy Agent) donde la necesidad de herramientas es casi perfectamente decodificable a partir de activaciones de capas intermedias, pero el modelo se mantiene conservador al entrar en modo herramienta, revelando una brecha entre representación y comportamiento. Proponemos el Adaptador de Direccionamiento por Activación (ASA), un controlador sin entrenamiento que opera en tiempo de inferencia, realiza una intervención única en capas intermedias y se dirige a dominios de herramientas mediante una mezcla condicionada por un enrutador de vectores de direccionamiento con una compuerta signada guiada por un probe para amplificar la intención real mientras suprime activaciones espurias. En MTU-Bench con Qwen2.5-1.5B, ASA mejora el F1 estricto de uso de herramientas de 0.18 a 0.50 mientras reduce la tasa de falsos positivos de 0.15 a 0.05, utilizando solo unos 20KB de recursos portátiles y sin actualizaciones de pesos.
Los recientes avances en modelos fundacionales han producido sistemas de razonamiento capaces de alcanzar un estándar de medalla de oro en la Olimpiada Internacional de Matemáticas. Sin embargo, la transición de la resolución de problemas a nivel competitivo a la investigación profesional requiere navegar por una vasta literatura y construir demostraciones de largo alcance. En este trabajo, presentamos a Aletheia, un agente de investigación matemática que genera, verifica y revisa soluciones de forma iterativa y end-to-end en lenguaje natural. Específicamente, Aletheia está impulsado por una versión avanzada de Gemini Deep Think para problemas de razonamiento complejos, una novedosa ley de escalado en tiempo de inferencia que se extiende más allá de los problemas de nivel olímpico, y un uso intensivo de herramientas para navegar las complejidades de la investigación matemática. Demostramos la capacidad de Aletheia desde problemas olímpicos hasta ejercicios de nivel doctoral y, de manera más notable, a través de varios hitos distintos en la investigación matemática asistida por IA: (a) un artículo de investigación (Feng26) generado por IA sin ninguna intervención humana para calcular ciertas constantes estructurales en geometría aritmética llamadas eigenpesos; (b) un artículo de investigación (LeeSeo26) que demuestra la colaboración humano-IA para probar cotas en sistemas de partículas interactuantes llamados conjuntos independientes; y (c) una evaluación semi-autónoma extensiva (Feng et al., 2026a) de 700 problemas abiertos en la base de datos de las Conjeturas de Erdős de Bloom, incluyendo soluciones autónomas a cuatro preguntas abiertas. Para ayudar al público a comprender mejor los desarrollos relacionados con la IA y las matemáticas, sugerimos codificar niveles estándar que cuantifiquen la autonomía y la novedad de los resultados asistidos por IA. Concluimos con reflexiones sobre la colaboración humano-IA en matemáticas.
Si bien el razonamiento sobre contextos extensos es crucial para diversas aplicaciones del mundo real, sigue siendo un desafío para los modelos de lenguaje grandes (LLM), ya que sufren una degradación del rendimiento a medida que aumenta la longitud del contexto. Trabajos recientes como MemAgent han intentado abordar este problema procesando el contexto fragmento por fragmento en un bucle similar a una RNN y actualizando una memoria textual para la respuesta final. Sin embargo, esta actualización de memoria recurrente ingenua presenta dos inconvenientes cruciales: (i) la memoria puede expandirse rápidamente porque puede actualizarse de manera indiscriminada, incluso en fragmentos sin evidencia; y (ii) el bucle carece de un mecanismo de salida, lo que conduce a cálculos innecesarios incluso después de que se ha recopilado evidencia suficiente. Para abordar estos problemas, proponemos GRU-Mem, que incorpora dos compuertas controladas por texto para un razonamiento de contexto largo más estable y eficiente. Específicamente, en GRU-Mem, la memoria solo se actualiza cuando la compuerta de actualización está abierta y el bucle recurrente terminará inmediatamente una vez que la compuerta de salida se abra. Para dotar al modelo de dichas capacidades, introducimos dos señales de recompensa, r^{actualizar} y r^{salir}, dentro del aprendizaje por refuerzo de extremo a extremo, premiando los comportamientos correctos de actualización y salida, respectivamente. Los experimentos en varias tareas de razonamiento de contexto largo demuestran la efectividad y eficiencia de GRU-Mem, que generalmente supera al MemAgent básico con aceleraciones de velocidad de inferencia de hasta un 400%.
Este artículo propone Omni Dense Captioning, una nueva tarea diseñada para generar narrativas audiovisuales continuas, detalladas y estructuradas con marcas temporales explícitas. Para garantizar una cobertura semántica densa, introducimos un esquema estructural de seis dimensiones para crear descripciones "similares a un guion", permitiendo a los lectores imaginar vívidamente el contenido del video escena por escena, análogo a un guion cinematográfico. Para facilitar la investigación, construimos OmniDCBench, un benchmark de alta calidad anotado manualmente, y proponemos SodaM, una métrica unificada que evalúa descripciones detalladas con conciencia temporal mientras mitiga la ambigüedad en los límites de las escenas. Además, construimos un conjunto de datos de entrenamiento, TimeChatCap-42K, y presentamos TimeChat-Captioner-7B, un sólido baseline entrenado mediante SFT y GRPO con recompensas específicas para la tarea. Experimentos exhaustivos demuestran que TimeChat-Captioner-7B alcanza un rendimiento state-of-the-art, superando a Gemini-2.5-Pro, mientras que sus descripciones densas generadas mejoran significativamente las capacidades posteriores en razonamiento audiovisual (DailyOmni y WorldSense) y localización temporal (Charades-STA). Todos los conjuntos de datos, modelos y código estarán disponibles públicamente en https://github.com/yaolinli/TimeChat-Captioner.
Los modelos de lenguaje grandes de solo decodificador se utilizan cada vez más como codificadores conductuales para el aprendizaje de representaciones de usuarios; sin embargo, el impacto del enmascaramiento de atención en la calidad de los embeddings de usuario sigue estando poco explorado. En este trabajo, realizamos un estudio sistemático de máscaras de atención causales, híbridas y bidireccionales dentro de un marco unificado de aprendizaje contrastivo, entrenado en datos a gran escala del mundo real de Alipay que integra comportamientos de usuario heterogéneos de largo horizonte. Para mejorar la dinámica de entrenamiento al transicionar de atención causal a bidireccional, proponemos Enmascaramiento Suave Guiado por Gradientes, un precalentamiento basado en gradientes aplicado antes de un programador lineal que abre gradualmente la atención futura durante la optimización. Evaluado en 9 benchmarks industriales de cognición de usuario que cubren tareas de predicción, preferencia y sensibilidad de marketing, nuestro enfoque genera consistentemente un entrenamiento más estable y representaciones bidireccionales de mayor calidad en comparación con líneas base causales, híbridas y solo con programador, manteniendo la compatibilidad con el preentrenamiento del decodificador. En general, nuestros hallazgos destacan la importancia del diseño del enmascaramiento y la transición de entrenamiento para adaptar los LLMs de solo decodificador a un aprendizaje efectivo de representaciones de usuario. Nuestro código está disponible en https://github.com/JhCircle/Deepfind-GGSM.
Si bien los Modelos de Lenguaje a Gran Escala (LLMs) han mostrado recientemente potencial en el Diseño Automatizado de Heurísticas (AHD), los enfoques existentes suelen formular el AHD en torno a reglas de prioridad constructivas o a la guía parametrizada de búsqueda local, restringiendo así el espacio de búsqueda a formas heurísticas fijas. Dichos diseños ofrecen una capacidad limitada para la exploración estructural, lo que dificulta escapar de óptimos locales profundos en Problemas de Optimización Combinatoria (COPs) complejos. En este trabajo, proponemos G-LNS, un marco evolutivo generativo que extiende el AHD basado en LLMs al diseño automatizado de operadores de Búsqueda en Vecindarios Grandes (LNS). A diferencia de métodos previos que evolucionan heurísticas de forma aislada, G-LNS aprovecha los LLMs para co-evolucionar pares estrechamente acoplados de operadores de destrucción y reparación. Un mecanismo de evaluación cooperativa captura explícitamente su interacción, permitiendo el descubrimiento de lógicas de operadores complementarias que realizan conjuntamente una disruptura y reconstrucción estructural efectiva. Experimentos exhaustivos en benchmarks desafiantes de COPs, como los Problemas del Viajante de Comercio (TSP) y los Problemas de Ruteo de Vehículos con Capacidad (CVRP), demuestran que G-LNS supera significativamente a los métodos de AHD basados en LLMs, así como a sólidos solucionadores clásicos. Las heurísticas descubiertas no solo logran soluciones casi óptimas con presupuestos computacionales reducidos, sino que también exhiben una generalización robusta en distribuciones de instancias diversas y no vistas.
Los agentes impulsados por modelos de lenguaje extenso (LLM) son cada vez más adoptados en la industria del software, contribuyendo código como colaboradores o incluso como desarrolladores autónomos. A medida que su presencia crece, resulta importante evaluar los límites actuales de sus capacidades de codificación. Sin embargo, los benchmarks existentes para la codificación agéntica cubren un alcance de tareas limitado, por ejemplo, la corrección de errores dentro de una única solicitud de extracción (PR), y a menudo dependen de evaluaciones no ejecutables o carecen de un enfoque automatizado para actualizar continuamente la cobertura de la evaluación. Para abordar estos problemas, proponemos FeatureBench, un benchmark diseñado para evaluar el rendimiento de la codificación agéntica en el desarrollo de software orientado a características de principio a fin. FeatureBench incorpora un protocolo de evaluación basado en ejecución y un método escalable basado en pruebas que deriva tareas automáticamente desde repositorios de código con un esfuerzo humano mínimo. Al rastrear desde las pruebas unitarias a lo largo de un gráfico de dependencias, nuestro enfoque puede identificar tareas de codificación a nivel de características que abarcan múltiples commits y PRs dispersos a lo largo de la línea de tiempo de desarrollo, asegurando al mismo tiempo el funcionamiento correcto de otras características después de la separación. Utilizando este marco, hemos seleccionado 200 tareas de evaluación desafiantes y 3825 entornos ejecutables a partir de 24 repositorios de código abierto en la primera versión de nuestro benchmark. La evaluación empírica revela que el modelo agéntico más avanzado, como Claude 4.5 Opus, que alcanza una tasa de resolución del 74.4% en SWE-bench, solo tiene éxito en el 11.0% de las tareas, abriendo nuevas oportunidades para el avance de la codificación agéntica. Además, beneficiándose de nuestro kit de herramientas de recolección automática de tareas, FeatureBench puede escalarse y actualizarse fácilmente con el tiempo para mitigar la filtración de datos. La verificabilidad inherente de los entornos construidos también hace que nuestro método sea potencialmente valioso para el entrenamiento de agentes.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un enfoque eficaz para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). A pesar de su eficacia, el RLVR enfrenta un cuello de botella de metaaprendizaje: carece de mecanismos para la atribución de errores y la internalización de la experiencia intrínsecos al ciclo de aprendizaje humano más allá de la práctica y la verificación, limitando así la asignación de crédito de grano fino y la formación de conocimiento reutilizable. Denominamos a dichas representaciones de conocimiento reutilizable derivadas de errores pasados como meta-experiencia. Basándonos en esta idea, proponemos el Aprendizaje por Meta-Experiencia (MEL), un marco novedoso que incorpora la meta-experiencia auto-destilada en la memoria paramétrica del modelo. Partiendo del RLVR estándar, introducimos un diseño adicional que aprovecha la capacidad de auto-verificación del LLM para realizar un análisis contrastivo en trayectorias correctas e incorrectas emparejadas, identificar los puntos de bifurcación precisos donde surgen los errores de razonamiento y resumirlos en una meta-experiencia generalizable. La meta-experiencia se internaliza aún más en la memoria paramétrica del LLM minimizando la log-verosimilitud negativa, lo que induce una señal de recompensa modelada por lenguaje que tiende un puente entre las trayectorias de razonamiento correctas e incorrectas y facilita la reutilización efectiva del conocimiento. Los resultados experimentales demuestran que MEL logra mejoras consistentes en puntos de referencia, obteniendo ganancias de Pass@1 del 3.92% al 4.73% en distintos tamaños de modelo.
En el panorama actual de los Modelos de Lenguaje a Gran Escala (LLMs), la curación de datos de entrenamiento a gran escala y de alta calidad es un factor primordial para el rendimiento del modelo. Un elemento clave es la receta de datos, que comprende un pipeline de procesamiento para transformar fuentes en bruto en corpus de entrenamiento. A pesar del creciente uso de LLMs para automatizar pasos individuales de procesamiento de datos, como la síntesis y el filtrado de datos, el diseño general de las recetas de datos sigue siendo en gran medida manual y laborioso, requiriendo una considerable experiencia humana e iteración. Para salvar esta brecha, formulamos la generación de recetas de datos de extremo a extremo para la adaptación de LLMs. Dado un benchmark objetivo y un conjunto de fuentes de datos disponibles, se requiere que un modelo genere una receta de datos completa que adapte un LLM base a la tarea objetivo. Presentamos DataChef-32B, que realiza aprendizaje por refuerzo en línea utilizando una recompensa proxy que predice el rendimiento final de recetas candidatas. En seis tareas de evaluación independientes, DataChef-32B produce recetas prácticas que alcanzan un rendimiento comparable a las curadas por expertos humanos. Es notable que la receta de DataChef-32B adapta Qwen3-1.7B-Base al dominio matemático, logrando un 66.7 en AIME'25 y superando a Qwen3-1.7B. Este trabajo arroja nueva luz sobre la automatización del entrenamiento de LLMs y el desarrollo de sistemas de IA auto-evolutivos.
Presentamos ROCKET, un método de compresión de modelos sin necesidad de entrenamiento que logra un rendimiento puntero en comparación con métodos base de factorización, esparcidización estructurada y compresión dinámica. Operando bajo un presupuesto global de compresión, ROCKET comprende dos innovaciones clave: En primer lugar, formula la asignación de compresión por capas como un problema de la mochila con múltiples opciones, seleccionando el nivel de compresión óptimo para cada capa con el fin de minimizar el error total de reconstrucción mientras se adhiere a un tamaño de modelo objetivo. En segundo lugar, introduce una factorización de matrices dispersas en un solo paso inspirada en el aprendizaje de diccionarios: utilizando únicamente un pequeño conjunto de calibración, esparcidiza los coeficientes de peso basándose en la sensibilidad activaciones-pesos y luego actualiza el diccionario en forma cerrada mediante mínimos cuadrados, evitando por completo la optimización iterativa, la codificación dispersa o la retropropagación. ROCKET supera consistentemente a los enfoques de compresión existentes en diferentes arquitecturas de modelo con tasas de compresión del 20-50%. Notablemente, retiene más del 90% del rendimiento del modelo original con una compresión del 30% sin ningún ajuste fino. Además, al aplicar una fase ligera de ajuste fino, la recuperación se ve sustancialmente mejorada: por ejemplo, comprimir Qwen3-14B a un modelo de 8B parámetros y recuperarlo con solo 30 millones de tokens produce un rendimiento casi a la par con el Qwen3-8B original. El código de ROCKET se encuentra en github.com/mts-ai/ROCKET/tree/main.
El aprendizaje por refuerzo para modelos de lenguaje grandes sufre de ratios de muestreo por importancia a nivel de token con alta varianza, lo que desestabiliza la optimización de políticas a gran escala. Para mejorar la estabilidad, los métodos recientes suelen utilizar un ratio de muestreo por importancia fijo a nivel de secuencia para todos los tokens de una secuencia o ajustar el ratio de cada token por separado, descuidando así la derivación temporal fuera de la política entre los tokens de una secuencia. En este artículo, identificamos empíricamente que la desviación local fuera de la política es estructuralmente inconsistente a nivel de token, lo que puede distorsionar las actualizaciones del gradiente de políticas en tokens adyacentes y provocar un colapso del entrenamiento. Para abordar este problema, proponemos el Filtrado de Kalman Causal en Línea para la Optimización de Políticas Estable y Efectiva (KPO). Concretamente, modelamos el ratio de muestreo por importancia deseado como un estado latente que evoluciona a lo largo de los tokens y aplicamos un filtro de Kalman para actualizar este estado en línea y de forma autorregresiva basándonos en los estados de tokens anteriores, independientemente de los tokens futuros. Los ratios de muestreo por importancia filtrados resultantes preservan la variación local consciente de la estructura a nivel de token mientras suavizan fuertemente los picos de ruido, produciendo actualizaciones de políticas más estables y efectivas. Experimentalmente, KPO logra resultados superiores en conjuntos de datos desafiantes de razonamiento matemático en comparación con las alternativas más avanzadas.
Los Transformadores con Bucles han surgido como una clase de modelos eficiente y potente para el razonamiento en el dominio lingüístico. Estudios recientes muestran que estos modelos logran un rendimiento sólido en tareas algorítmicas y de razonamiento, lo que sugiere que las arquitecturas con bucles poseen un sesgo inductivo hacia el razonamiento latente. Sin embargo, los enfoques previos fijan el número de iteraciones del bucle durante el entrenamiento y la inferencia, dejando abierta la cuestión de si estos modelos pueden adaptar flexiblemente su profundidad computacional bajo presupuestos de cálculo variables. Presentamos LoopFormer, un Transformer con bucles entrenado en trayectorias de longitud variable para permitir un razonamiento condicionado por el presupuesto. Nuestra contribución principal es un esquema de entrenamiento de consistencia por atajos que alinea trayectorias de diferentes longitudes, garantizando que los bucles más cortos produzcan representaciones informativas mientras que los bucles más largos continúan refinándolas. LoopFormer condiciona cada bucle al tiempo actual y al tamaño del paso, permitiendo que las representaciones evolucionen de manera consistente a través de trayectorias de longitud variable en lugar de derivar o estancarse. Empíricamente, LoopFormer demuestra un rendimiento robusto en benchmarks de modelado del lenguaje y razonamiento, incluso bajo restricciones computacionales agresivas, mientras escala de forma gradual con un presupuesto adicional. Estos resultados muestran que los Transformadores con bucles son inherentemente adecuados para el modelado adaptable del lenguaje, abriendo un camino hacia modelos de lenguaje grandes controlables y conscientes del presupuesto.
A pesar del rápido progreso en agentes de codificación, los avances en sus contrapartes multimodales han ido a la zaga. Un desafío clave es la escasez de bancos de pruebas de evaluación que combinen la complejidad del desarrollo de software con la necesidad de una comprensión multimodal profunda. El desarrollo de videojuegos proporciona un banco de pruebas de este tipo, ya que los agentes deben navegar por bases de código grandes y densas mientras manipulan activos intrínsecamente multimodales, como sombreadores, sprites y animaciones, dentro de una escena de juego visual. Presentamos GameDevBench, el primer punto de referencia para evaluar agentes en tareas de desarrollo de videojuegos. GameDevBench consta de 132 tareas derivadas de tutoriales web y en video. Las tareas requieren una comprensión multimodal significativa y son complejas: la solución promedio requiere más del triple de líneas de código y cambios de archivo en comparación con los puntos de referencia anteriores de desarrollo de software. Los agentes aún tienen dificultades con el desarrollo de videojuegos, y el mejor agente resuelve solo el 54.5% de las tareas. Encontramos una fuerte correlación entre la dificultad percibida de la tarea y la complejidad multimodal, con tasas de éxito que caen del 46.9% en tareas orientadas al juego al 31.6% en tareas de gráficos 2D. Para mejorar la capacidad multimodal, presentamos dos mecanismos de retroalimentación simples basados en imágenes y video para agentes. A pesar de su simplicidad, estos métodos mejoran consistentemente el rendimiento, siendo el cambio más grande un aumento en el rendimiento de Claude Sonnet 4.5 del 33.3% al 47.7%. Publicamos GameDevBench para apoyar más investigación en el desarrollo de videojuegos agentivo.
El ajuste fino supervisado (SFT) en datos de cadena de pensamiento es un paso esencial posterior al entrenamiento para los modelos de lenguaje de razonamiento. La intuición estándar del aprendizaje automático sugiere que entrenar con más muestras de entrenamiento únicas produce una mejor generalización. De manera contraintuitiva, demostramos que el SFT se beneficia de la repetición: bajo un presupuesto fijo de actualizaciones, entrenar durante más épocas en conjuntos de datos más pequeños supera al entrenamiento de una sola época en conjuntos de datos más grandes. En los puntos de referencia AIME'24/25 y GPQA, Olmo3-7B entrenado durante 128 épocas con 400 muestras supera al equivalente de 1 época con 51200 muestras en 12-26 puntos porcentuales, sin olvido catastrófico adicional. Encontramos que la precisión de los tokens de entrenamiento señala de manera confiable cuándo la repetición se ha saturado; las mejoras de épocas adicionales se estabilizan en la memorización completa, un patrón consistente en todos los escenarios. Estos hallazgos proporcionan un enfoque práctico para el SFT de razonamiento, donde escalar las épocas usando la precisión de tokens como criterio de parada puede reemplazar la costosa escalada de datos no dirigida. Planteamos la ventaja de la repetición, donde la memorización completa coincide con una generalización mejorada, como un nuevo problema abierto para la comunidad en la comprensión de la dinámica del entrenamiento de los modelos de lenguaje grandes.
La Optimización de Políticas Relativa a Grupos (GRPO, por sus siglas en inglés) asigna una única ventaja escalar a todos los tokens en una finalización. Para generaciones estructuradas con segmentos y objetivos explícitos, esto acopla señales de recompensa no relacionadas entre segmentos, lo que conduce a interferencia de objetivos y atribución errónea del crédito. Proponemos la Estimación de Ventaja por Bloques, una familia de métodos compatibles con GRPO que asigna a cada objetivo su propia ventaja y la aplica únicamente a los tokens en el bloque de texto correspondiente, reduciendo la dependencia de recompensas escalares diseñadas manualmente y escalando naturalmente a objetivos adicionales. Un desafío clave es estimar las ventajas para bloques posteriores cuyas recompensas están condicionadas a prefijos muestreados; los enfoques estándar no sesgados requieren costosas simulaciones anidadas a partir de estados intermedios. Concretamente, introducimos una Línea Base Condicionada al Resultado que aproxima los valores de estado intermedio utilizando únicamente estadísticas intragrupales, estratificando las muestras según un resultado intermedio derivado del prefijo. En tareas matemáticas con estimación de incertidumbre, nuestro método mitiga la interferencia de recompensas, es competitivo con un enfoque de vanguardia basado en diseño de recompensas y preserva las ganancias en tiempo de prueba del ensamblaje ponderado por confianza. En términos más generales, proporciona una receta modular para optimizar objetivos secuenciales en generaciones estructuradas sin simulaciones adicionales.
En el mundo de Harry Potter, cuando la mente de Dumbledore está sobrecargada, extrae recuerdos en un Pensadero para revisarlos más tarde. En el mundo de la IA, si bien poseemos el equivalente al Pensadero —bases de datos maduras y sistemas de recuperación—, nuestros modelos carecen inexplicablemente de la "varita" para operarlo. Siguen siendo como un Dumbledore sin agencia, aceptando pasivamente un contexto diseñado manualmente como toda su memoria. Este trabajo finalmente coloca la varita en la mano del modelo. Presentamos StateLM, una nueva clase de modelos de base dotados de un bucle de razonamiento interno para gestionar su propio estado. Equipamos nuestro modelo con un conjunto de herramientas de memoria, como la poda de contexto, la indexación de documentos y la toma de notas, y lo entrenamos para gestionar activamente estas herramientas. Al aprender a diseñar dinámicamente su propio contexto, nuestro modelo se libera de la prisión arquitectónica de una ventana fija. Los experimentos en varios tamaños de modelo demuestran la eficacia de StateLM en diversos escenarios. En tareas de preguntas y respuestas sobre documentos largos, los StateLM superan consistentemente a los LLM estándar en todas las escalas de modelo; en la tarea de memoria de chat, logran mejoras de precisión absoluta del 10% al 20% sobre los LLM estándar. En la tarea de investigación profunda BrowseComp-Plus, la brecha de rendimiento se vuelve aún más pronunciada: StateLM alcanza hasta un 52% de precisión, mientras que los LLM estándar equivalentes se sitúan alrededor del 5%. En última instancia, nuestro enfoque traslada a los LLM de ser predictores pasivos a agentes conscientes del estado, donde el razonamiento se convierte en un proceso con estado y gestionable.
La implementación de modelos de lenguaje extensos (LLM) en entornos clínicos de alto riesgo exige una evaluación rigurosa y fiable. Sin embargo, los puntos de referencia médicos existentes siguen siendo estáticos y adolecen de dos limitaciones críticas: (1) la contaminación de datos, donde los conjuntos de prueba se filtran inadvertidamente a los corpus de entrenamiento, lo que genera estimaciones de rendimiento infladas; y (2) el desfase temporal, que no logra capturar la rápida evolución del conocimiento médico. Además, las métricas de evaluación actuales para el razonamiento clínico de respuesta abierta a menudo dependen de una superposición léxica superficial (por ejemplo, ROUGE) o de una puntuación subjetiva mediante un LLM como juez, ambas inadecuadas para verificar la corrección clínica. Para salvar estas brechas, presentamos LiveMedBench, un punto de referencia continuamente actualizado, libre de contaminación y basado en rúbricas, que recopila semanalmente casos clínicos del mundo real de comunidades médicas en línea, garantizando una separación temporal estricta de los datos de entrenamiento de los modelos. Proponemos un Marco de Curación Clínica Multiagente que filtra el ruido de los datos brutos y valida la integridad clínica frente a principios médicos basados en la evidencia. Para la evaluación, desarrollamos un Marco de Evaluación Automatizado Basado en Rúbricas que descompone las respuestas médicas en criterios granulares y específicos de cada caso, logrando una alineación sustancialmente mayor con médicos expertos que el método de LLM como juez. Hasta la fecha, LiveMedBench comprende 2.756 casos del mundo real que abarcan 38 especialidades médicas y múltiples idiomas, junto con 16.702 criterios de evaluación únicos. La evaluación exhaustiva de 38 LLM revela que incluso el modelo con mejor rendimiento alcanza solo un 39,2%, y que el 84% de los modelos muestran una degradación del rendimiento en casos posteriores a la fecha límite, lo que confirma los riesgos generalizados de contaminación de datos. El análisis de errores identifica además la aplicación contextual—no el conocimiento factual—como el cuello de botella dominante, ya que entre el 35% y el 48% de los fallos provienen de la incapacidad de adaptar el conocimiento médico a las restricciones específicas del paciente.
El aprendizaje por refuerzo (RL) es una etapa crítica en el post-entrenamiento de modelos de lenguaje grandes (LLM), que implica la interacción repetida entre la generación de rollouts, la evaluación de recompensas y el aprendizaje centralizado. Distribuir la ejecución de rollouts ofrece oportunidades para aprovechar recursos de inferencia más rentables, pero introduce desafíos en la coordinación de área amplia y la diseminación de políticas. Presentamos ECHO-2, un marco de RL distribuido para post-entrenamiento con trabajadores de inferencia remotos y una latencia de diseminación no despreciable. ECHO-2 combina el aprendizaje centralizado con rollouts distribuidos y trata el desfase acotado de la política como un parámetro controlado por el usuario, permitiendo que la generación de rollouts, la diseminación y el entrenamiento se solapen. Introducimos un modelo de capacidad basado en solapamiento que relaciona el tiempo de entrenamiento, la latencia de diseminación y el rendimiento de los rollouts, produciendo una regla práctica de aprovisionamiento para mantener la utilización del aprendiz. Para mitigar los cuellos de botella en la diseminación y reducir costos, ECHO-2 emplea difusión pipeline asistida por pares y activación consciente del costo de trabajadores heterogéneos. Los experimentos en el post-entrenamiento GRPO de modelos de 4B y 8B bajo regímenes reales de ancho de banda de área amplia muestran que ECHO-2 mejora significativamente la eficiencia de costos mientras preserva una recompensa de RL comparable con líneas base sólidas.
Los Modelos de Lenguaje Grandes (LLM) capaces de mejorar continuamente más allá de sus presupuestos de entrenamiento pueden resolver problemas de dificultad creciente adaptándose en el momento de la prueba, una propiedad que denominamos extrapolación. Sin embargo, el aprendizaje por refuerzo (RL) estándar opera sobre distribuciones de problemas y presupuestos de entrenamiento fijos, lo que limita la extrapolación ante cambios de distribución durante la prueba. Para abordar esto, presentamos RC, un algoritmo de decodificación iterativa que reemplaza la decodificación autorregresiva estándar tanto durante el entrenamiento como en la inferencia. RC explota una asimetría entre las capacidades de generación de respuestas y de resumen de los LLM para construir cadenas de razonamiento que mejoran consistentemente entre iteraciones. Los modelos entrenados para usar RC pueden extrapolar y mejorar continuamente en horizontes de razonamiento más de un orden de magnitud más largos que los observados durante el entrenamiento. Empíricamente, entrenar un modelo de 4B parámetros con RC usando un presupuesto de entrenamiento de 16k tokens mejora el rendimiento en HMMT 2025 del 40% a casi el 70% con 0.5 millones de tokens en la prueba, superando tanto a modelos de tamaño comparable como a muchos LLM de razonamiento más grandes. Finalmente, también demostramos que los modelos entrenados con RC pueden aprovechar más efectivamente los andamiajes existentes para escalar aún más el rendimiento en la prueba, debido a las habilidades mejoradas de generación condicionada por resúmenes aprendidas durante el entrenamiento.
Los modelos de lenguaje grandes omni-modales (OLLMs) buscan unificar la comprensión y generación multimodal; sin embargo, la incorporación del habla con animación facial 3D sigue siendo un área poco explorada, a pesar de su importancia para la interacción natural. Un desafío clave surge del desajuste de representación entre el razonamiento semántico discreto a nivel de tokens en los LLMs y las dinámicas temporales densas y de grano fino requeridas para el movimiento facial 3D, lo que dificulta la optimización del modelado directo con datos limitados. Proponemos Expressive Omni (Ex-Omni), un marco omni-modal de código abierto que aumenta los OLLMs con animación facial 3D acompañada de habla. Ex-Omni reduce la dificultad de aprendizaje al desacoplar el razonamiento semántico de la generación temporal, utilizando unidades de habla como andamiaje temporal y un mecanismo unificado de fusión controlada por tokens como consultas (TQGF) para la inyección semántica controlada. Además, presentamos InstructEx, un conjunto de datos diseñado para facilitar la mejora de los OLLMs con animación facial 3D acompañada de habla. Experimentos exhaustivos demuestran que Ex-Omni tiene un rendimiento competitivo frente a los OLLMs de código abierto existentes, al mismo tiempo que permite una generación estable y alineada de habla y animación facial.
La planificación a largo plazo es ampliamente reconocida como una capacidad fundamental de los agentes autónomos basados en LLM; sin embargo, los marcos de evaluación actuales adolecen de ser en gran medida episódicos, específicos de dominio o insuficientemente basados en dinámicas económicas persistentes. Presentamos EcoGym, un benchmark generalizable para la toma de decisiones continua de planificación y ejecución en economías interactivas. EcoGym comprende tres entornos diversos: Vending, Freelance y Operation, implementados en un proceso unificado de toma de decisiones con interfaces estandarizadas y acciones con presupuesto sobre un horizonte efectivamente ilimitado (1000+ pasos si se usan bucles de 365 días para evaluación). La evaluación en EcoGym se basa en resultados relevantes para los negocios (por ejemplo, patrimonio neto, ingresos y DAU), apuntando a la coherencia estratégica a largo plazo y la robustez bajo observabilidad parcial y estocasticidad. Los experimentos en once LLMs líderes exponen una tensión sistemática: ningún modelo único domina en los tres escenarios. Críticamente, encontramos que los modelos exhiben una suboptimalidad significativa, ya sea en estrategias de alto nivel o en la ejecución eficiente de acciones. EcoGym se publica como un banco de pruebas abierto y extensible para la evaluación transparente de agentes a largo plazo y para estudiar las compensaciones entre controlabilidad y utilidad en entornos económicos realistas.
La codificación agéntica requiere que los agentes interactúen eficazmente con entornos de ejecución, como las interfaces de línea de comandos (CLI), para completar tareas como resolver problemas de dependencias, solucionar fallos del sistema, etc. Sin embargo, aún está poco explorado cómo obtener a gran escala este tipo de tareas intensivas en entorno para mejorar las capacidades de los agentes. Para abordarlo, basándonos en una analogía entre el Dockerfile y la tarea agéntica, proponemos emplear agentes para simular y explorar historiales de entorno, guiados por retroalimentación de ejecución. Al rastrear los historiales de un entorno saludable, su estado puede invertirse a uno anterior con fallos de ejecución, a partir del cual se puede derivar una tarea empaquetando el estado con errores y los mensajes de error correspondientes. Con nuestro método, denominado CLI-Gym, se han derivado un total de 1.655 tareas intensivas en entorno, constituyendo la colección más grande de su tipo. Además, con trayectorias exitosas curadas, nuestro modelo fine-tuned, llamado LiberCoder, logra mejoras absolutas sustanciales de +21.1% (alcanzando 46.1%) en Terminal-Bench, superando a varias líneas base sólidas. Hasta donde sabemos, este es el primer pipeline público para la derivación escalable de tareas intensivas en entorno.
Los activos 3D con rigging son fundamentales para la deformación y animación 3D. Sin embargo, los métodos existentes de generación 3D enfrentan desafíos para generar geometría animable, mientras que las técnicas de rigging carecen de un control estructural detallado sobre la creación del esqueleto. Para abordar estas limitaciones, presentamos Stroke3D, un marco novedoso que genera mallas con rigging directamente a partir de entradas del usuario: trazos dibujados en 2D y un texto descriptivo. Nuestro enfoque pionero utiliza un proceso de dos etapas que separa la generación en: 1) Generación de Esqueleto Controlable, donde empleamos el VAE de Grafo Esquelético (Sk-VAE) para codificar la estructura de grafo del esqueleto en un espacio latente, y el DiT de Grafo Esquelético (Sk-DiT) genera un *embedding* esquelético. El proceso de generación se condiciona tanto por el texto para la semántica como por los trazos 2D para un control estructural explícito, y el decodificador del VAE reconstruye el esqueleto 3D final de alta calidad; y 2) Síntesis de Malla Mejorada mediante TextuRig y SKA-DPO, donde sintetizamos una malla texturizada condicionada por el esqueleto generado. Para esta etapa, primero mejoramos un modelo existente de esqueleto-a-malla aumentando sus datos de entrenamiento con TextuRig: un conjunto de datos de mallas texturizadas y con rigging con descripciones, curado a partir de Objaverse-XL. Adicionalmente, empleamos una estrategia de optimización de preferencias, SKA-DPO, guiada por una puntuación de alineación esqueleto-malla, para mejorar aún más la fidelidad geométrica. En conjunto, nuestro marco permite un flujo de trabajo más intuitivo para crear contenido 3D listo para animar. Hasta donde sabemos, nuestro trabajo es el primero en generar mallas 3D con rigging condicionadas por trazos 2D dibujados por el usuario. Experimentos exhaustivos demuestran que Stroke3D produce esqueletos plausibles y mallas de alta calidad.
A medida que los Modelos de Lenguaje a Gran Escala (LLM, por sus siglas en inglés) se despliegan cada vez más en aplicaciones en idioma polaco, la necesidad de clasificadores de seguridad de contenido eficientes y precisos se ha vuelto primordial. Presentamos Bielik Guard, una familia de clasificadores de seguridad compactos para el idioma polaco que comprende dos variantes de modelo: un modelo de 0.1B de parámetros basado en MMLW-RoBERTa-base y un modelo de 0.5B de parámetros basado en PKOBP/polish-roberta-8k. Fine-tuneados sobre un conjunto de datos anotado por la comunidad de 6,885 textos en polaco, estos modelos clasifican el contenido en cinco categorías de seguridad: Odio/Agresión, Vulgaridades, Contenido Sexual, Crimen y Autolesión. Nuestra evaluación demuestra que ambos modelos logran un rendimiento sólido en múltiples benchmarks. La variante de 0.5B ofrece la mejor capacidad de discriminación general con puntuaciones F1 de 0.791 (micro) y 0.785 (macro) en el conjunto de prueba, mientras que la variante de 0.1B demuestra una eficiencia excepcional. Cabe destacar que Bielik Guard 0.1B v1.1 logra una precisión superior (77.65%) y una tasa de falsos positivos muy baja (0.63%) en prompts de usuarios reales, superando a HerBERT-PL-Guard (31.55% de precisión, 4.70% TFP) a pesar de tener un tamaño de modelo idéntico. Los modelos están disponibles públicamente y están diseñados para proporcionar respuestas apropiadas en lugar de un simple bloqueo de contenido, particularmente para categorías sensibles como la autolesión.
El Procesamiento de Consultas (QP) actúa como puente entre la intención del usuario y el suministro de contenido en los motores de búsqueda de Servicios de Redes Sociales (SNS) a gran escala. Los sistemas QP tradicionales se basan en pipelines de modelos discriminativos aislados (por ejemplo, BERT), adoleciendo de una comprensión semántica limitada y una alta sobrecarga de mantenimiento. Si bien los Modelos de Lenguaje Grandes (LLMs) ofrecen una solución potencial, los enfoques existentes suelen optimizar sub-tareas de forma aislada, descuidando la sinergia semántica intrínseca y necesitando iteraciones independientes. Además, los métodos generativos estándar a menudo carecen de una base contextual en escenarios de SNS, no logrando cerrar la brecha entre los corpus de dominio abierto y los patrones lingüísticos informales de las SNS, al tiempo que luchan por adherirse a definiciones empresariales rigurosas. Presentamos QP-OneModel, un LLM Generativo Unificado para la Comprensión de Consultas Multi-Tarea en el dominio de las SNS. Reformulamos sub-tareas heterogéneas en un paradigma unificado de generación de secuencias, adoptando una estrategia de alineación progresiva de tres etapas que culmina en un Aprendizaje por Refuerzo multi-recompensa. Además, QP-OneModel genera descripciones de intención como una novedosa señal semántica de alta fidelidad, augmentando efectivamente tareas posteriores como la reescritura y la clasificación de consultas. Las evaluaciones offline muestran que QP-OneModel logra una mejora general del 7.35% sobre los modelos discriminativos de referencia, con aumentos significativos en F1 para Reconocimiento de Entidades Nombradas (NER) (+9.01%) y Ponderación de Términos (+9.31%). También exhibe una generalización superior, superando a un modelo de 32B en un 7.60% de precisión en tareas no vistas. Desplegado completamente en Xiaohongshu, las pruebas A/B online confirman su valor industrial, optimizando la relevancia en la recuperación (DCG) en un 0.21% y aumentando la retención de usuarios en un 0.044%.
Los recientes avances en los grandes modelos de edición de imágenes han desplazado el paradigma de las instrucciones basadas en texto hacia la edición mediante indicaciones visuales, donde la intención del usuario se infiere directamente a partir de entradas visuales como marcas, flechas y mensajes visual-textuales. Si bien este paradigma amplía enormemente la usabilidad, también introduce un riesgo de seguridad crítico y poco explorado: la propia superficie de ataque se vuelve visual. En este trabajo, proponemos el Ataque de Jailbreak Centrado en la Visión (VJA), el primer ataque de jailbreak visual-a-visual que transmite instrucciones maliciosas únicamente a través de entradas visuales. Para estudiar sistemáticamente esta amenaza emergente, presentamos IESBench, un punto de referencia orientado a la seguridad para modelos de edición de imágenes. Experimentos exhaustivos en IESBench demuestran que el VJA compromete efectivamente modelos comerciales de vanguardia, logrando tasas de éxito de ataque de hasta el 80,9% en Nano Banana Pro y del 70,1% en GPT-Image-1.5. Para mitigar esta vulnerabilidad, proponemos una defensa sin necesidad de entrenamiento basada en el razonamiento multimodal introspectivo, que mejora sustancialmente la seguridad de modelos con alineación deficiente hasta un nivel comparable con los sistemas comerciales, sin necesidad de modelos de protección auxiliares y con un costo computacional negligible. Nuestros hallazgos exponen nuevas vulnerabilidades, y proporcionan tanto un punto de referencia como una defensa práctica para avanzar en el desarrollo de sistemas modernos de edición de imágenes seguros y confiables. Advertencia: Este artículo contiene imágenes ofensivas creadas por grandes modelos de edición de imágenes.
Los Grafos de Conocimiento (KG, por sus siglas en inglés) almacenan conocimiento factual estructurado mediante la vinculación de entidades a través de relaciones, siendo cruciales para muchas aplicaciones. Estas aplicaciones dependen de la precisión factual del KG, por lo que la verificación de hechos es esencial, aunque desafiante. La verificación manual por expertos es ideal pero impracticable a gran escala. Los métodos automatizados son prometedores pero no están listos para su uso en KG del mundo real. Los Modelos de Lenguaje Grandes (LLMs) ofrecen potencial gracias a su comprensión semántica y acceso al conocimiento; sin embargo, su idoneidad y eficacia para la validación de hechos en KG permanecen en gran medida inexploradas. En este artículo, presentamos FactCheck, un benchmark diseñado para evaluar LLMs en la validación de hechos de KG a través de tres dimensiones clave: (1) el conocimiento interno de los LLMs; (2) la evidencia externa mediante Generación Aumentada por Recuperación (RAG); y (3) el conocimiento agregado empleando una estrategia de consenso multi-modelo. Evaluamos LLMs de código abierto y comerciales en tres KG reales y diversos. FactCheck también incluye un conjunto de datos RAG con más de 2 millones de documentos específicamente adaptado para la validación de hechos en KG. Adicionalmente, ofrecemos una plataforma de exploración interactiva para analizar las decisiones de verificación. Los análisis experimentales demuestran que, si bien los LLMs arrojan resultados prometedores, aún no son lo suficientemente estables y confiables para ser utilizados en escenarios de validación de KG del mundo real. La integración de evidencia externa mediante métodos RAG produce un rendimiento fluctuante, ofreciendo mejoras inconsistentes frente a enfoques más simples, y conlleva mayores costos computacionales. De manera similar, las estrategias basadas en consenso multi-modelo no superan consistentemente a los modelos individuales, lo que subraya la falta de una solución universal. Estos hallazgos enfatizan aún más la necesidad de un benchmark como FactCheck para evaluar sistemáticamente e impulsar el progreso en esta tarea difícil pero crucial.
Si bien el pensamiento en cadena explícito (Chain-of-Thought, CoT) dota a los Grandes Modelos de Lenguaje (LLMs) de sólidas capacidades de razonamiento, requiere que los modelos verbalicen cada paso intermedio en tokens de texto, lo que restringe los pensamientos del modelo al espacio discreto del vocabulario. Recientemente, el razonamiento en espacio latente continuo ha surgido como una alternativa prometedora, permitiendo una inferencia más robusta y un cómputo flexible más allá de las restricciones de los tokens discretos. Sin embargo, los paradigmas latentes actuales a menudo adolecen de colapso de características e inestabilidad, derivados de desajustes en la distribución al usar recurrentemente estados ocultos como *embeddings* de entrada, o de problemas de alineación al depender de modelos auxiliares. Para abordar esto, proponemos Latent Thoughts Tuning (LT-Tuning), un marco que redefine cómo se construyen y despliegan los pensamientos latentes. En lugar de depender únicamente de estados ocultos en bruto, nuestro método introduce un mecanismo de Fusión de Contexto y Predicción que aprovecha conjuntamente estados ocultos contextuales y una guía semántica predictiva del espacio de *embeddings* del vocabulario. Combinado con una canalización de aprendizaje curricular progresivo de tres etapas, LT-Tuning también permite cambiar dinámicamente entre modos de pensamiento latente y explícito. Los experimentos demuestran que nuestro método supera a los baselines existentes de razonamiento latente, mitigando efectivamente el colapso de características y logrando una precisión de razonamiento robusta.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha fortalecido recientemente el razonamiento de los LLM, pero su enfoque en la corrección de la respuesta final deja una brecha crítica: no garantiza la solidez del proceso de razonamiento en sí. Adoptamos una perspectiva filosófica simple: un razonamiento sólido debe seguir siendo útil más allá de la mente que lo produjo, y tratamos el razonamiento como una forma de transferencia de significado que debe sobrevivir a la truncación, reinterpretación y continuación. Basándonos en este principio, presentamos el Aprendizaje por Refuerzo con Recompensa Transferible (RLTR), que operacionaliza la solidez mediante una *recompensa de transferencia* que prueba si un prefijo de razonamiento parcial de un modelo puede guiar a un modelo separado hacia la respuesta correcta. Esto incentiva a los LLM a producir un razonamiento que sea estable, interpretable y genuinamente generalizable. Nuestro enfoque mejora la consistencia del muestreo al mismo tiempo que mejora la precisión de la respuesta final, y alcanza un rendimiento comparable en sustancialmente menos pasos de entrenamiento. Por ejemplo, en MATH500, RLTR logra una ganancia de +3.6%p en Maj@64 en comparación con RLVR y iguala la precisión promedio de RLVR con aproximadamente 2.5 veces menos pasos de entrenamiento, proporcionando tanto un razonamiento más confiable como una eficiencia muestral significativamente mayor.
Los modelos de razonamiento mejoran la resolución de problemas mediante el escalado del cómputo en tiempo de prueba, pero enfrentan una paradoja crítica: los tokens de pensamiento excesivos a menudo degradan el rendimiento en lugar de mejorarlo. Atribuimos esto a un defecto arquitectónico fundamental: los LLM estándar operan como motores de "solo asignación" (malloc-only), acumulando continuamente pasos válidos y redundantes por igual, sin un mecanismo para podar información obsoleta. Para romper este ciclo, proponemos Free()LM, un modelo que introduce una capacidad intrínseca de auto-olvido mediante el Free-Module, un adaptador LoRA plug-and-play. Al alternar iterativamente entre modos de razonamiento y limpieza, Free()LM identifica y elimina dinámicamente fragmentos de contexto inútiles, manteniendo un estado compacto y libre de ruido. Extensos experimentos muestran que Free()LM proporciona mejoras consistentes en todas las escalas de modelos (8B a 685B). Logra una mejora promedio del 3.3% sobre los mejores modelos base de razonamiento, incluso estableciendo un nuevo estado del arte (SOTA) en IMOanswerBench utilizando DeepSeek V3.2-Speciale. Más notablemente, en tareas de horizonte largo donde el modelo estándar Qwen3-235B-A22B sufre un colapso total (0% de precisión), Free()LM restaura el rendimiento al 50%. Nuestros hallazgos sugieren que la inteligencia sostenible requiere tanto la libertad de olvidar como el poder de pensar.
Los agentes basados en modelos de lenguaje grande (LLM) son cada vez más requeridos para negociar, coordinar y realizar transacciones de forma autónoma; sin embargo, los puntos de referencia existentes carecen de entornos fundamentados para evaluar la interacción económica mediada por lenguaje entre múltiples agentes. Presentamos AgenticPay, un punto de referencia y marco de simulación para la negociación multiagente entre compradores y vendedores impulsada por lenguaje natural. AgenticPay modela mercados en los que compradores y vendedores poseen restricciones privadas y valoraciones dependientes del producto, y deben llegar a acuerdos mediante una negociación lingüística en múltiples rondas, no solo mediante ofertas numéricas. El marco admite un conjunto diverso de más de 110 tareas que van desde la negociación bilateral hasta mercados muchos-a-muchos, con extracción estructurada de acciones y métricas de factibilidad, eficiencia y bienestar. La evaluación comparativa de LLM propietarios y de peso abierto de última generación revela brechas sustanciales en el rendimiento de la negociación y resalta los desafíos en el razonamiento estratégico de horizonte largo, estableciendo a AgenticPay como una base para estudiar el comercio agéntico y la interacción de mercados basada en lenguaje. El código y el conjunto de datos están disponibles en el enlace: https://github.com/SafeRL-Lab/AgenticPay.
Los agentes de código basados en modelos de lenguaje grande (LLM) resuelven cada vez más problemas a nivel de repositorio mediante la edición iterativa de código, la invocación de herramientas y la validación de parches candidatos. En estos flujos de trabajo, los agentes a menudo escriben pruebas sobre la marcha, un paradigma adoptado por muchos agentes de alto rendimiento en el ranking de SWE-bench. Sin embargo, observamos que GPT-5.2, que apenas escribe nuevas pruebas, puede lograr un rendimiento comparable al de los agentes mejor posicionados. Esto plantea la pregunta crítica: si dichas pruebas mejoran significativamente la resolución de problemas o simplemente imitan las prácticas humanas de testing mientras consumen un presupuesto de interacción sustancial. Para revelar el impacto de las pruebas escritas por agentes, presentamos un estudio empírico que analiza las trayectorias de agentes en seis LLMs de vanguardia en SWE-bench Verified. Nuestros resultados muestran que, aunque la escritura de pruebas es comúnmente adoptada, las tareas resueltas y no resueltas dentro del mismo modelo exhiben frecuencias similares de escritura de pruebas. Además, estas pruebas suelen servir como canales de retroalimentación observacional, donde los agentes prefieren significativamente más las sentencias de impresión que revelan valores que las comprobaciones formales basadas en aserciones. Con base en estos hallazgos, realizamos un experimento controlado revisando los prompts de cuatro agentes para aumentar o reducir la escritura de pruebas. Los resultados sugieren que los cambios en el volumen de pruebas escritas por agentes no alteran significativamente los resultados finales. En conjunto, nuestro estudio revela que las prácticas actuales de escritura de pruebas pueden ofrecer una utilidad marginal en las tareas de ingeniería de software autónoma.
Los modelos de lenguaje grandes (LLM) se utilizan cada vez más para la generación de código en flujos de trabajo de desarrollo rápidos e informales, a menudo denominados *vibe coding*, donde se prioriza la velocidad y la conveniencia, y rara vez se explicitan los requisitos de seguridad. En este contexto, los modelos producen con frecuencia código funcionalmente correcto pero inseguro, creando un riesgo de seguridad creciente. Los enfoques existentes para mejorar la seguridad del código se basan en el ajuste fino de todos los parámetros o en adaptaciones eficientes en parámetros, que son costosos y propensos al olvido catastrófico, o operan con una granularidad gruesa y ofrecen una capacidad de interpretación y control limitadas. Presentamos GoodVibe, un marco a nivel neuronal para mejorar la seguridad de los modelos de lenguaje de código de forma predeterminada. GoodVibe se basa en la idea clave de que el razonamiento relevante para la seguridad se localiza en un pequeño subconjunto de neuronas. Identificamos estas neuronas utilizando atribuciones basadas en gradientes a partir de una tarea de seguridad supervisada y realizamos un ajuste fino neuronal-selectivo que actualiza únicamente este subespacio crítico para la seguridad. Para reducir aún más el coste de entrenamiento, introducimos la agrupación de neuronas basada en activaciones, lo que permite realizar actualizaciones estructuradas con una sobrecarga mínima. Evaluamos GoodVibe en seis LLM a través de lenguajes de programación críticos para la seguridad, incluyendo C++, Java, Swift y Go. GoodVibe mejora sustancialmente la seguridad del código generado mientras preserva la utilidad general del modelo, logrando una mejora de hasta 2.5x sobre los modelos base, igualando o superando al ajuste fino completo con más de 4,700x menos parámetros entrenables, y reduciendo el cómputo de entrenamiento en más de 3.6x en comparación con la línea base eficiente en parámetros (LoRA). Nuestros resultados demuestran que la optimización a nivel neuronal ofrece un enfoque efectivo y escalable para asegurar la generación de código sin sacrificar la eficiencia o la generalidad.
La memoria de auto-evolución sirve como parámetro entrenable para agentes basados en Modelos de Lenguaje a Gran Escala (LLMs), donde la extracción (destilando conocimientos de la experiencia) y la gestión (actualizando el banco de memoria) deben estar estrechamente coordinadas. Los métodos existentes optimizan predominantemente la gestión de la memoria mientras tratan la extracción de memoria como un proceso estático, lo que resulta en una pobre generalización, donde los agentes acumulan ruido específico de instancias en lugar de memorias robustas. Para abordar esto, proponemos Extracción y Gestión Unificada de Memoria (UMEM), un marco de agente auto-evolutivo que optimiza conjuntamente un Modelo de Lenguaje a Gran Escala para extraer y gestionar memorias simultáneamente. Para mitigar el sobreajuste a instancias específicas, introducimos Modelado de Vecindarios Semánticos y optimizamos el modelo con una recompensa de utilidad marginal a nivel de vecindario mediante GRPO. Este enfoque asegura la generalización de la memoria evaluando la utilidad de la memoria a través de grupos de consultas semánticamente relacionadas. Extensos experimentos en cinco benchmarks demuestran que UMEM supera significativamente líneas base altamente competitivas, logrando una mejora de hasta el 10.67% en tareas interactivas multi-turno. Además, UMEM mantiene una curva de crecimiento monótona durante la evolución continua. Los códigos y modelos serán liberados públicamente.
Los robots en entornos dinámicos centrados en humanos deben seguir instrucciones lingüísticas manteniendo un control reactivo en tiempo real. Los modelos visión-lenguaje-acción (VLA) ofrecen un marco prometedor, pero asumen un razonamiento y control temporalmente alineados, a pesar de que la inferencia semántica es inherentemente retardada respecto a la acción en tiempo real. Presentamos TIC-VLA (Think-in-Control), un marco consciente de la latencia que modela explícitamente el razonamiento semántico retardado durante la generación de acciones. TIC-VLA define una interfaz semántica-control retardada que condiciona la generación de acciones a estados semánticos de visión-lenguaje retardados y metadatos explícitos de latencia, además de las observaciones actuales, permitiendo que las políticas compensen el razonamiento asíncrono. Además, proponemos un pipeline de entrenamiento consistente con la latencia que inyecta retardos de inferencia semántica durante el aprendizaje por imitación y el aprendizaje por refuerzo en línea, alineando el entrenamiento con el despliegue asíncrono. Para permitir una evaluación realista, presentamos DynaNav, un conjunto de simulaciones foto-realistas con física precisa para la navegación guiada por lenguaje en entornos dinámicos. Experimentos exhaustivos en simulación y en un robot real muestran que TIC-VLA supera consistentemente a los modelos VLA anteriores, manteniendo un control robusto en tiempo real bajo retardos de razonamiento de varios segundos. Sitio web del proyecto: https://ucla-mobility.github.io/TIC-VLA/
Los modelos de difusión han logrado una calidad de generación notable, pero sufren de un costo de inferencia significativo debido a su dependencia de múltiples pasos secuenciales de eliminación de ruido, lo que motiva los esfuerzos recientes para destilar este proceso de inferencia en un régimen de pocos pasos. Sin embargo, los métodos de destilación existentes típicamente aproximan la trayectoria del profesor utilizando atajos lineales, lo que dificulta igualar sus direcciones tangentes en constante cambio a medida que las velocidades evolucionan a lo largo de los intervalos de tiempo, conduciendo así a una degradación de la calidad. Para abordar esta limitación, proponemos ArcFlow, un marco de destilación de pocos pasos que emplea explícitamente trayectorias de flujo no lineales para aproximar las trayectorias preentrenadas del profesor. Concretamente, ArcFlow parametriza el campo de velocidad subyacente a la trayectoria de inferencia como una mezcla de procesos de momento continuos. Esto permite a ArcFlow capturar la evolución de la velocidad y extrapolar velocidades coherentes para formar una trayectoria no lineal continua dentro de cada paso de eliminación de ruido. Es importante destacar que esta parametrización admite una integración analítica de esta trayectoria no lineal, lo que evita errores de discretización numérica y resulta en una aproximación de alta precisión de la trayectoria del profesor. Para entrenar esta parametrización en un generador de pocos pasos, implementamos ArcFlow mediante destilación de trayectoria en modelos profesores preentrenados utilizando adaptadores ligeros. Esta estrategia garantiza una convergencia rápida y estable mientras preserva la diversidad y calidad generativas. Basado en modelos a gran escala (Qwen-Image-20B y FLUX.1-dev), ArcFlow solo ajusta finamente menos del 5% de los parámetros originales y logra una aceleración de 40x con solo 2 Evaluaciones de Función Neuronal (NFEs) sobre los profesores originales de múltiples pasos, sin una degradación significativa de la calidad. Los experimentos en puntos de referencia muestran la efectividad de ArcFlow tanto cualitativa como cuantitativamente.
La rápida adopción de las arquitecturas Mixture-of-Experts (MoE) marca un cambio importante en el despliegue de los Modelos de Lenguaje a Gran Escala (LLM). Los LLM MoE mejoran la eficiencia de escalado activando solo un pequeño subconjunto de parámetros por token, pero su estructura de enrutamiento introduce nuevas superficies de ataque para la seguridad. Descubrimos que los comportamientos críticos para la seguridad en los LLM MoE (por ejemplo, la negativa a responder) se concentran en un pequeño conjunto de expertos en lugar de estar distribuidos uniformemente. Basándonos en esto, proponemos Large Language Lobotomy (L^3), un ataque agnóstico a la arquitectura y que no requiere entrenamiento, que compromete la alineación de seguridad explotando la dinámica de enrutamiento de los expertos. L^3 aprende los patrones de enrutamiento que se correlacionan con la negativa, atribuye el comportamiento de seguridad a expertos específicos y silencia de forma adaptativa a los expertos más relevantes para la seguridad hasta que se producen resultados dañinos. Evaluamos L^3 en ocho LLM MoE de código abierto de última generación y demostramos que nuestro silenciamiento adaptativo de expertos aumenta el éxito promedio del ataque del 7.3% al 70.4%, alcanzando hasta un 86.3%, superando a los métodos anteriores de jailbreak para MoE que no requieren entrenamiento. Además, eludir las salvaguardas normalmente requiere silenciar a menos del 20% de los expertos por capa, preservando en gran medida la utilidad general del lenguaje. Estos resultados revelan una tensión fundamental entre el diseño de MoE orientado a la eficiencia y una alineación de seguridad robusta, y motivan la distribución de mecanismos de seguridad de manera más robusta en futuros LLM MoE mediante métodos conscientes de la arquitectura y el enrutamiento.
El paradigma predominante en el desarrollo de modelos de lenguaje grandes (LLM) consiste en preentrenar un modelo base y luego realizar entrenamiento adicional para mejorar el rendimiento y el comportamiento del modelo. Sin embargo, la optimización de hiperparámetros y las leyes de escalado se han estudiado principalmente desde la perspectiva de la pérdida de validación del modelo base, ignorando la adaptabilidad a tareas posteriores. En este trabajo, estudiamos el preentrenamiento desde la perspectiva de la plasticidad del modelo, es decir, la capacidad del modelo base para adaptarse exitosamente a tareas posteriores mediante ajuste fino. Nos centramos en el papel del *weight decay* (decaimiento de pesos), un parámetro de regularización clave durante el preentrenamiento. Mediante experimentos sistemáticos, demostramos que los modelos entrenados con valores más altos de *weight decay* son más plásticos, lo que significa que muestran mayores ganancias de rendimiento cuando se ajustan finamente en tareas posteriores. Este fenómeno puede dar lugar a compensaciones contraintuitivas, donde modelos base con peor rendimiento tras el preentrenamiento pueden obtener mejores resultados después del ajuste fino. Una investigación más profunda de los efectos mecanicistas del *weight decay* en el comportamiento del modelo revela que fomenta representaciones linealmente separables, regulariza las matrices de atención y reduce el sobreajuste en los datos de entrenamiento. En conclusión, este trabajo demuestra la importancia de utilizar métricas de evaluación más allá de la pérdida de entropía cruzada para la optimización de hiperparámetros y arroja luz sobre el papel multifacético que un único hiperparámetro de optimización desempeña en la configuración del comportamiento del modelo.
Los agentes de uso informático (CUA) han logrado un progreso tremendo en el último año, pero aún producen con frecuencia acciones desalineadas que se desvían de la intención original del usuario. Dichas acciones desalineadas pueden surgir de ataques externos (por ejemplo, inyección indirecta de instrucciones) o de limitaciones internas (por ejemplo, razonamiento erróneo). Estas no solo exponen a los CUA a riesgos de seguridad, sino que también degradan la eficiencia y confiabilidad de las tareas. Este trabajo realiza el primer esfuerzo por definir y estudiar la detección de acciones desalineadas en CUA, con una cobertura integral tanto de las acciones desalineadas inducidas externamente como de las que surgen internamente. Además, identificamos tres categorías comunes en la implementación real de CUA y construimos MisActBench, un benchmark de trayectorias realistas con etiquetas de alineación a nivel de acción anotadas por humanos. Además, proponemos DeAction, un guardarriel práctico y universal que detecta acciones desalineadas antes de su ejecución y las corrige iterativamente mediante retroalimentación estructurada. DeAction supera a todas las líneas base existentes en evaluaciones offline y online con una sobrecarga de latencia moderada: (1) En MisActBench, supera a las líneas base en más de un 15% absoluto en puntuación F1; (2) En la evaluación online, reduce la tasa de éxito de ataques en más de un 90% bajo configuraciones adversarias, mientras preserva o incluso mejora la tasa de éxito de tareas en entornos benignos.
Durante la última década, la IA explicable se ha centrado principalmente en interpretar predicciones individuales de modelos, produciendo explicaciones post-hoc que relacionan entradas y salidas bajo una estructura de decisión fija. Los recientes avances en los modelos de lenguaje extenso (LLM) han permitido sistemas de IA agentes cuyo comportamiento se desarrolla a lo largo de trayectorias de múltiples pasos. En estos contextos, el éxito y el fracaso están determinados por secuencias de decisiones en lugar de por una única salida. Aunque son útiles, no está claro cómo los enfoques explicativos diseñados para predicciones estáticas se trasladan a entornos agentes donde el comportamiento emerge con el tiempo. En este trabajo, cerramos la brecha entre la explicabilidad estática y la agente comparando explicaciones basadas en atribución con diagnósticos basados en trazas en ambos entornos. Para hacer explícita esta distinción, comparamos empíricamente las explicaciones basadas en atribución utilizadas en tareas de clasificación estática con los diagnósticos basados en trazas utilizados en benchmarks agentes (TAU-bench Airline y AssistantBench). Nuestros resultados muestran que, si bien los métodos de atribución logran clasificaciones de características estables en entornos estáticos (ρ de Spearman = 0.86), no pueden aplicarse de forma fiable para diagnosticar fallos a nivel de ejecución en trayectorias agentes. Por el contrario, la evaluación mediante rúbrica basada en trazas para entornos agentes localiza consistentemente las rupturas del comportamiento y revela que la inconsistencia en el seguimiento del estado es 2.7 veces más prevalente en ejecuciones fallidas y reduce la probabilidad de éxito en un 49%. Estos hallazgos motivan un cambio hacia la explicabilidad a nivel de trayectoria para sistemas agentes al evaluar y diagnosticar el comportamiento autónomo de la IA. Recursos: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
El Aprendizaje Federado (AF) permite que múltiples partes entrenen modelos de aprendizaje automático de forma colaborativa sin compartir datos brutos. Sin embargo, antes del entrenamiento, los datos deben preprocesarse para abordar valores faltantes, formatos inconsistentes y escalas heterogéneas de características. Esta etapa de preprocesamiento es crítica para el rendimiento del modelo, pero está ampliamente ignorada en la investigación sobre AF. En los sistemas prácticos de AF, las restricciones de privacidad prohíben la centralización de datos brutos, mientras que la eficiencia en las comunicaciones introduce desafíos adicionales para el preprocesamiento distribuido. Presentamos FedPS, un marco unificado para el preprocesamiento federado de datos basado en estadísticas agregadas. FedPS aprovecha técnicas de resumen de datos para resumir eficientemente los conjuntos de datos locales preservando la información estadística esencial. Sobre la base de estos resúmenes, diseñamos algoritmos federados para escalado de características, codificación, discretización e imputación de valores faltantes, y extendemos modelos relacionados con el preprocesamiento, como k-Medias, k-Vecinos Más Cercanos y Regresión Lineal Bayesiana, a entornos de AF tanto horizontales como verticales. FedPS proporciona canalizaciones de preprocesamiento flexibles, eficientes en comunicación y consistentes para implementaciones prácticas de AF.
La recomendación generativa mediante modelos autorregresivos ha unificado la recuperación y la clasificación en un único marco de generación condicional. Sin embargo, el ajuste fino de estos modelos con Aprendizaje por Refuerzo (RL) sufre a menudo de un desajuste fundamental entre probabilidad y recompensa. La decodificación convencional dominada por verosimilitud (por ejemplo, búsqueda por haz) exhibe un sesgo miope hacia prefijos localmente probables, lo que causa dos fallos críticos: (1) exploración insuficiente, donde ítems de alta recompensa en ramas de baja probabilidad son podados prematuramente y raramente muestreados, y (2) compresión de ventaja, donde las trayectorias que comparten prefijos de alta probabilidad reciben recompensas altamente correlacionadas con baja varianza intragrupo, produciendo una señal comparativa débil para el RL. Para abordar estos desafíos, proponemos V-STAR, un marco de Muestreo Guiado por Valor y Ventaja de Estructura Arbórea para RL. V-STAR forma un bucle de auto-evolución mediante dos componentes sinérgicos. Primero, se desarrolla una Decodificación Eficaz Guiada por Valor (VED) para identificar nodos decisivos y profundizar selectivamente prefijos de alto potencial. Esto mejora la eficiencia de exploración sin necesidad de una búsqueda exhaustiva en árbol. Segundo, proponemos Sibling-GRPO, que explota la topología de árbol inducida para calcular ventajas relativas entre nodos hermanos y concentra las señales de aprendizaje en decisiones de ramificación decisivas. Experimentos exhaustivos en conjuntos de datos tanto offline como online demuestran que V-STAR supera a los métodos de referencia más avanzados, ofreciendo una precisión superior y una diversidad de conjuntos de candidatos bajo estrictas restricciones de latencia.
El Problema de Planificación de Máquinas Paralelas No Relacionadas (UPMSP) con fechas de liberación, preparaciones y restricciones de elegibilidad presenta un desafío multiobjetivo significativo. Los métodos tradicionales tienen dificultades para equilibrar la minimización de la Tardanza Total Ponderada (TWT) y el Tiempo Total de Preparación (TST). Este artículo propone un marco de Aprendizaje por Refuerzo Profundo que utiliza la Optimización de Políticas Proximales (PPO) y una Red Neuronal de Grafo (GNN). La GNN representa eficazmente el estado complejo de trabajos, máquinas y preparaciones, permitiendo que el agente PPO aprenda una política de planificación directa. Guiado por una función de recompensa multiobjetivo, el agente minimiza simultáneamente la TWT y el TST. Los resultados experimentales en instancias de referencia demuestran que nuestro agente PPO-GNN supera significativamente a una regla de despacho estándar y a una metaheurística, logrando un equilibrio superior entre ambos objetivos. Esto proporciona una solución robusta y escalable para la planificación compleja en entornos de fabricación.
Los detectores de texto generado por IA enfrentan un desafío crítico de robustez: los ataques de paráfrasis adversarial que preservan la semántica mientras evaden la detección. Presentamos StealthRL, un marco de aprendizaje por refuerzo que evalúa la robustez de los detectores bajo condiciones adversariales realistas. StealthRL entrena una política de paráfrasis contra un conjunto de múltiples detectores utilizando Optimización de Política Relativa Grupal (GRPO) con adaptadores LoRA en Qwen3-4B, optimizando una recompensa compuesta que equilibra la evasión del detector con la preservación semántica. Evaluamos seis configuraciones de ataque (M0-M5) contra tres familias de detectores (RoBERTa, FastDetectGPT y Binoculars) en el punto de operación de seguridad relevante con una tasa de falsos positivos del 1%. StealthRL logra una detección casi nula (TPR@1%FPR media de 0.001), reduce la AUROC media de 0.74 a 0.27 y alcanza una tasa de éxito de ataque del 99.9%. Críticamente, los ataques se transfieren a una familia de detectores excluida no vista durante el entrenamiento, revelando vulnerabilidades arquitectónicas compartidas en lugar de fragilidad específica del detector. Adicionalmente, realizamos una evaluación de calidad basada en LLM mediante puntuación Likert, analizamos las distribuciones de puntuación de los detectores para explicar por qué la evasión tiene éxito y proporcionamos la AUROC por detector con intervalos de confianza bootstrap. Nuestros resultados exponen brechas significativas de robustez en la detección actual de texto generado por IA y establecen a StealthRL como un protocolo de evaluación adversarial fundamentado. El código y la pipeline de evaluación están disponibles públicamente en https://github.com/suraj-ranganath/StealthRL.