Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos GLM-5, un modelo de base de próxima generación diseñado para transicionar el paradigma de la programación por ambiente hacia la ingeniería agentiva. Basándose en las capacidades de agentividad, razonamiento y programación (ARC) de su predecesor, GLM-5 adopta DSA para reducir significativamente los costos de entrenamiento e inferencia manteniendo la fidelidad de contexto largo. Para avanzar en la alineación y autonomía del modelo, implementamos una nueva infraestructura de aprendizaje por refuerzo asíncrono que mejora drásticamente la eficiencia posterior al entrenamiento al desacoplar la generación del entrenamiento. Además, proponemos nuevos algoritmos asíncronos de RL para agentes que mejoran aún más la calidad del RL, permitiendo que el modelo aprenda de interacciones complejas y de largo horizonte de manera más efectiva. A través de estas innovaciones, GLM-5 logra un rendimiento de vanguardia en los principales benchmarks abiertos. Más críticamente, GLM-5 demuestra una capacidad sin precedentes en tareas de programación del mundo real, superando los baselines anteriores en el manejo de desafíos de ingeniería de software de extremo a extremo. El código, los modelos y más información están disponibles en https://github.com/zai-org/GLM-5.
Las Habilidades de Agente son paquetes estructurados de conocimiento procedimental que mejoran a los agentes de LLM durante el tiempo de inferencia. A pesar de su rápida adopción, no existe una forma estándar de medir si realmente ayudan. Presentamos SkillsBench, un benchmark de 86 tareas en 11 dominios, emparejadas con Habilidades curadas y verificadores deterministas. Cada tarea se evalúa bajo tres condiciones: sin Habilidades, con Habilidades curadas y con Habilidades autogeneradas. Probamos 7 configuraciones de modelos de agente a lo largo de 7,308 trayectorias. Las Habilidades curadas aumentan la tasa de aprobación promedio en 16.2 puntos porcentuales (pp), pero los efectos varían ampliamente según el dominio (desde +4.5pp para Ingeniería de Software hasta +51.9pp para Salud) y 16 de las 84 tareas muestran deltas negativos. Las Habilidades autogeneradas no proporcionan beneficio alguno en promedio, demostrando que los modelos no pueden crear de manera confiable el conocimiento procedimental del que se benefician al consumirlo. Las Habilidades enfocadas con 2-3 módulos superan a la documentación exhaustiva, y los modelos más pequeños con Habilidades pueden igualar el rendimiento de modelos más grandes sin ellas.
Los Autoencoders Dispersos (SAE) han surgido como una herramienta prometedora para interpretar redes neuronales al descomponer sus activaciones en conjuntos dispersos de características interpretables para humanos. Trabajos recientes han introducido múltiples variantes de SAE y las han escalado con éxito a modelos de vanguardia. A pesar del gran entusiasmo, un número creciente de resultados negativos en tareas posteriores pone en duda si los SAE recuperan características significativas. Para investigar esto directamente, realizamos dos evaluaciones complementarias. En una configuración sintética con características de verdad fundamental conocidas, demostramos que los SAE recuperan solo el 9% de las características verdaderas a pesar de alcanzar un 71% de varianza explicada, lo que muestra que fallan en su tarea principal incluso cuando la reconstrucción es sólida. Para evaluar los SAE en activaciones reales, introducimos tres líneas de base que restringen las direcciones de las características del SAE o sus patrones de activación a valores aleatorios. A través de experimentos exhaustivos en múltiples arquitecturas de SAE, mostramos que nuestras líneas de base igualan a los SAE completamente entrenados en interpretabilidad (0.87 vs 0.90), sondeo disperso (0.69 vs 0.72) y edición causal (0.73 vs 0.72). En conjunto, estos resultados sugieren que los SAE en su estado actual no descomponen de manera confiable los mecanismos internos de los modelos.
A medida que los agentes de modelos lingüísticos de gran escala pueblan cada vez más entornos en red, surge una pregunta fundamental: ¿experimentan las sociedades de agentes de inteligencia artificial (IA) dinámicas de convergencia similares a los sistemas sociales humanos? Recientemente, Moltbook aproxima un escenario futuro plausible en el que agentes autónomos participan en una sociedad en línea de evolución continua y abierta. Presentamos el primer diagnóstico sistémico a gran escala de esta sociedad de agentes de IA. Más allá de la observación estática, introducimos un marco de diagnóstico cuantitativo para la evolución dinámica en sociedades de agentes de IA, midiendo la estabilización semántica, la rotación léxica, la inercia individual, la persistencia de la influencia y el consenso colectivo. Nuestro análisis revela un sistema en equilibrio dinámico en Moltbook: mientras los promedios semánticos globales se estabilizan rápidamente, los agentes individuales conservan una alta diversidad y una rotación léxica persistente, desafiando la homogeneización. Sin embargo, los agentes exhiben una fuerte inercia individual y una respuesta adaptativa mínima a los interlocutores, impidiendo la influencia mutua y el consenso. En consecuencia, la influencia permanece transitoria sin supernodos persistentes, y la sociedad no logra desarrollar anclajes de influencia colectiva estables debido a la ausencia de una memoria social compartida. Estos hallazgos demuestran que la escala y la densidad de interacción por sí solas son insuficientes para inducir la socialización, proporcionando principios de diseño y análisis accionables para las próximas sociedades de agentes de IA de próxima generación.
Los modelos de incrustación de texto se utilizan ampliamente para tareas de similitud semántica, incluyendo recuperación de información, agrupamiento y clasificación. Los modelos de propósito general suelen entrenarse con procesos de una o varias etapas utilizando funciones de pérdida contrastiva. Presentamos un novedoso régimen de entrenamiento que combina técnicas de destilación de modelos con pérdida contrastiva específica de tarea para producir modelos de incrustación compactos y de alto rendimiento. Nuestros hallazgos sugieren que este enfoque es más efectivo para entrenar modelos pequeños que los paradigmas de entrenamiento puramente contrastivos o basados únicamente en destilación. Las puntuaciones de referencia de los modelos resultantes, jina-embeddings-v5-text-small y jina-embeddings-v5-text-nano, superan o igualan el estado del arte para modelos de tamaño similar. Los modelos jina-embeddings-v5-text además admiten textos largos (hasta 32k tokens) en muchos idiomas, y generan incrustaciones que mantienen su robustez ante truncamiento y cuantización binaria. Los pesos del modelo están disponibles públicamente, con la esperanza de inspirar nuevos avances en el desarrollo de modelos de incrustación.
Clawdbot es un agente de IA personal autoalojado que utiliza herramientas, con un amplio espacio de acción que abarca desde la ejecución local hasta flujos de trabajo mediados por la web, lo que plantea mayores preocupaciones de seguridad y protección bajo ambigüedad y direccionamiento adverso. Presentamos una evaluación centrada en trayectorias de Clawdbot a lo largo de seis dimensiones de riesgo. Nuestra suite de pruebas toma muestras y adapta ligeramente escenarios de benchmarks previos de seguridad de agentes (incluyendo ATBench y LPS-Bench) y los complementa con casos diseñados manualmente adaptados a la superficie de herramientas de Clawdbot. Registramos trayectorias de interacción completas (mensajes, acciones, argumentos/salidas de llamadas a herramientas) y evaluamos la seguridad utilizando tanto un juez de trayectorias automatizado (AgentDoG-Qwen3-4B) como revisión humana. En 34 casos canónicos, encontramos un perfil de seguridad no uniforme: el rendimiento es generalmente consistente en tareas centradas en la confiabilidad, mientras que la mayoría de los fallos surgen bajo intención poco especificada, objetivos abiertos o indicaciones de jailbreak de apariencia benigna, donde pequeñas interpretaciones erróneas pueden escalar hacia acciones de herramientas de mayor impacto. Complementamos los resultados generales con estudios de caso representativos y resumimos las características comunes de estos casos, analizando las vulnerabilidades de seguridad y los modos de fallo típicos que Clawdbot tiende a desencadenar en la práctica.
Presentamos ResearchGym, un benchmark y entorno de ejecución para evaluar agentes de IA en investigación de extremo a extremo. Para materializarlo, reutilizamos cinco artículos de tipo oral y spotlight de las conferencias ICML, ICLR y ACL. Para cada repositorio de artículo, preservamos los conjuntos de datos, el sistema de evaluación y las implementaciones de referencia, pero omitimos el método propuesto en el artículo. Esto da como resultado cinco entornos de tareas containerizados que comprenden 39 sub-tareas en total. Dentro de cada entorno, los agentes deben proponer hipótesis novedosas, ejecutar experimentos e intentar superar los sólidos resultados de referencia humanos en las métricas del artículo. En una evaluación controlada de un agente basado en GPT-5, observamos una marcada brecha capacidad-fiabilidad. El agente mejora los resultados de referencia proporcionados por el repositorio en solo 1 de 15 evaluaciones (6,7%), con una mejora del 11,5%, y completa solo el 26,5% de las sub-tareas en promedio. Identificamos modos de fallo recurrentes de horizonte largo, que incluyen impaciencia, mala gestión del tiempo y los recursos, exceso de confianza en hipótesis débiles, dificultad para coordinar experimentos paralelos y límites estrictos debidos a la longitud de contexto. Sin embargo, en una única ejecución, el agente supera la solución de una tarea Spotlight de ICML 2025, lo que indica que los agentes de última generación pueden alcanzar ocasionalmente un rendimiento de vanguardia, pero lo hacen de manera poco fiable. También evaluamos andamiajes de agentes propietarios, incluidos Claude Code (Opus-4.5) y Codex (GPT-5.2), que muestran una brecha similar. ResearchGym proporciona la infraestructura para la evaluación sistemática y el análisis de agentes autónomos en investigación de bucle cerrado.
Los modelos unificados pueden manejar tanto la comprensión como la generación multimodal dentro de una única arquitectura, pero normalmente operan en una sola pasada sin refinar iterativamente sus salidas. Muchas tareas multimodales, especialmente aquellas que implican composiciones espaciales complejas, múltiples objetos que interactúan o instrucciones en evolución, requieren descomponer instrucciones, verificar resultados intermedios y realizar correcciones iterativas. Si bien el escalado en tiempo de prueba (TTS) ha demostrado que asignar capacidad de cómputo adicional para el razonamiento iterativo mejora sustancialmente el rendimiento de los modelos de lenguaje, extender este paradigma a los modelos multimodales unificados sigue siendo un desafío abierto. Presentamos UniT, un marco de trabajo para el escalado en tiempo de prueba con cadena de pensamiento multimodal que permite a un único modelo unificado razonar, verificar y refinar a lo largo de múltiples rondas. UniT combina la síntesis de datos agentica, el entrenamiento de modelos unificados y una inferencia en tiempo de prueba flexible para elicitar comportamientos cognitivos que incluyen verificación, descomposición de subobjetivos y memoria de contenido. Nuestros hallazgos clave son: (1) los modelos unificados entrenados en trayectorias de razonamiento cortas generalizan a cadenas de inferencia más largas en tiempo de prueba; (2) el razonamiento secuencial con cadena de pensamiento proporciona una estrategia TTS más escalable y eficiente en cómputo que el muestreo paralelo; (3) el entrenamiento en trayectorias de generación y edición mejora el razonamiento visual fuera de distribución. Estos resultados establecen el escalado multimodal en tiempo de prueba como un paradigma eficaz para avanzar tanto en la generación como en la comprensión en modelos unificados.
La Hipótesis de la Representación Platónica sugiere que las representaciones de las redes neuronales están convergiendo hacia un modelo estadístico común de la realidad. Demostramos que las métricas existentes utilizadas para medir la similitud representacional están sesgadas por la escala de la red: aumentar la profundidad o el ancho del modelo puede inflar sistemáticamente las puntuaciones de similitud representacional. Para corregir estos efectos, introducimos un marco de calibración nula basado en permutaciones que transforma cualquier métrica de similitud representacional en una puntuación calibrada con garantías estadísticas. Reexaminamos la Hipótesis de la Representación Platónica con nuestro marco de calibración, lo que revela un panorama matizado: la aparente convergencia reportada por las medidas espectrales globales desaparece en gran medida después de la calibración, mientras que la similitud de vecindario local, pero no las distancias locales, conserva un acuerdo significativo entre diferentes modalidades. Con base en estos hallazgos, proponemos la Hipótesis de la Representación Aristotélica: las representaciones en las redes neuronales están convergiendo hacia relaciones de vecindario locales compartidas.
Los modelos predictivos del mundo que simulan observaciones futuras bajo control explícito de la cámara son fundamentales para la IA interactiva. A pesar de los rápidos avances, los sistemas actuales carecen de persistencia espacial: no logran mantener estructuras estables de la escena en trayectorias largas, alucinando con frecuencia detalles cuando las cámaras revisitan ubicaciones previamente observadas. Identificamos que esta deriva geométrica surge de la dependencia de *embeddings* posicionales en el espacio de pantalla, los cuales entran en conflicto con la geometría proyectiva requerida para la consistencia 3D. Presentamos ViewRope, una codificación consciente de la geometría que inyecta direcciones de rayos de cámara directamente en las capas de auto-atención de los transformadores de video. Al parametrizar la atención con geometría de rayos relativa en lugar de la localidad de píxeles, ViewRope proporciona un sesgo inductivo nativo del modelo para recuperar contenido 3D-consistente a través de intervalos temporales. Además, proponemos la Atención Esparcida entre Fotogramas Consciente de la Geometría, que explota estas señales geométricas para atender selectivamente a fotogramas históricos relevantes, mejorando la eficiencia sin sacrificar la consistencia de la memoria. También presentamos ViewBench, un conjunto de herramientas de diagnóstico que mide la fidelidad de cierre de bucles y la deriva geométrica. Nuestros resultados demuestran que ViewRope mejora sustancialmente la consistencia a largo plazo mientras reduce los costos computacionales.
El entrenamiento de grandes modelos de lenguaje (LLM) se basa casi exclusivamente en optimizadores adaptativos densos con precondicionadores cada vez más sofisticados. Cuestionamos este enfoque demostrando que el enmascaramiento aleatorio de las actualizaciones de parámetros puede ser altamente efectivo, donde una variante enmascarada de RMSProp supera consistentemente a los optimizadores más avanzados recientes. Nuestro análisis revela que el enmascaramiento aleatorio induce una regularización geométrica dependiente de la curvatura que suaviza la trayectoria de optimización. Motivados por este hallazgo, presentamos el enmascaramiento de gradientes alineado con momento (Magma), que modula las actualizaciones enmascaradas utilizando la alineación momento-gradiente. Experimentos exhaustivos de preentrenamiento de LLM muestran que Magma es un reemplazo directo y simple para los optimizadores adaptativos, que ofrece ganancias consistentes con una sobrecarga computacional negligible. Notablemente, para el modelo de 1B de parámetros, Magma reduce la perplejidad en más de un 19% y un 9% en comparación con Adam y Muon, respectivamente.
El Examen Final de la Humanidad (HLE, por sus siglas en inglés) se ha convertido en un punto de referencia ampliamente utilizado para evaluar modelos de lenguaje de última generación en preguntas complejas y multidisciplinares. Sin embargo, análisis liderados por la comunidad han señalado que el HLE contiene un número no despreciable de ítems ruidosos, lo que puede sesgar los resultados de la evaluación y distorsionar las comparaciones entre modelos. Para abordar este desafío, presentamos HLE-Verified, una versión verificada y revisada del HLE que incluye un protocolo de verificación transparente y una taxonomía de errores detallada. Nuestra construcción sigue un flujo de trabajo de validación y reparación en dos etapas, dando como resultado un benchmark certificado. En la Etapa I, cada ítem se somete a una validación binaria del problema y la respuesta final mediante revisión por expertos en el dominio y verificaciones cruzadas basadas en modelos, obteniendo 641 ítems verificados. En la Etapa II, los ítems defectuosos pero reparables se revisan bajo estrictas restricciones que preservan la intención evaluativa original, mediante reparaciones duales e independientes por expertos, auditorías asistidas por modelos y una adjudicación final, lo que da como resultado 1.170 ítems revisados y certificados. Los 689 ítems restantes se publican como un conjunto incierto documentado, con fuentes de incertidumbre explícitas y etiquetas de especialización para futuros refinamientos. Evaluamos siete modelos de lenguaje de vanguardia en HLE y HLE-Verified, observando una ganancia media de precisión absoluta de 7 a 10 puntos porcentuales en HLE-Verified. La mejora es particularmente notable en los ítems donde el enunciado del problema original y/o la respuesta de referencia son erróneos, con ganancias de 30 a 40 puntos porcentuales. Nuestros análisis revelan además una fuerte asociación entre la confianza del modelo y la presencia de errores en el enunciado del problema o la respuesta de referencia, respaldando la efectividad de nuestras revisiones. En general, HLE-Verified mejora las evaluaciones de tipo HLE al reducir el ruido en las anotaciones y permitir una medición más fiel de las capacidades de los modelos. Los datos están disponibles en: https://github.com/SKYLENAGE-AI/HLE-Verified
Los Modelos de Lenguaje a Gran Escala (LLMs) están cambiando el paradigma de la programación, conocido como *vibe coding*, pero la síntesis de código algorítmicamente sofisticado y robusto sigue siendo un desafío crítico. Incentivar las capacidades de razonamiento profundo de los LLMs es esencial para superar este obstáculo. El Ajuste Fino por Refuerzo (RFT) ha surgido como una estrategia prometedora para abordar esta necesidad. Sin embargo, la mayoría de los enfoques existentes pasan por alto la dificultad y granularidad heterogéneas inherentes a los casos de prueba, lo que conduce a una distribución desequilibrada de las señales de recompensa y, en consecuencia, a actualizaciones de gradiente sesgadas durante el entrenamiento. Para abordar esto, proponemos el Ajuste Fino por Refuerzo con Plan de Estudios impulsado por Pruebas y adaptativo a la Capacidad (TAROT). TAROT construye sistemáticamente, para cada problema, una suite de pruebas de cuatro niveles (básico, intermedio, complejo, casos límite), proporcionando un panorama de dificultad controlado para el diseño curricular y la evaluación. Crucialmente, TAROT desacopla la progresión del plan de estudios de las puntuaciones brutas de recompensa, permitiendo una evaluación condicionada por la capacidad y una selección fundamentada de un portafolio de políticas curriculares, en lugar de una composición incidental de la dificultad de los casos de prueba. Este diseño fomenta una optimización estable y una adquisición de competencia más eficiente. Resultados experimentales extensivos revelan que el plan de estudios óptimo para RFT en generación de código está estrechamente ligado a la capacidad inherente del modelo: los modelos menos capaces logran mayores ganancias con una progresión de fácil a difícil, mientras que los modelos más competentes sobresalen bajo un plan de estudios que prioriza la dificultad. TAROT proporciona un método reproducible que adapta el diseño curricular a la capacidad de un modelo, mejorando consistentemente la corrección funcional y la robustez del código generado. Todo el código y los datos se han publicado para fomentar la reproducibilidad y avanzar en la investigación comunitaria en https://github.com/deep-diver/TAROT.
La compresión post-entrenamiento de modelos Transformer comúnmente se basa en la descomposición por valores singulares truncada (SVD). Sin embargo, imponer un único subespacio compartido puede degradar la precisión incluso con compresión moderada. El aprendizaje de diccionarios dispersos proporciona una representación más flexible de unión de subespacios, pero los enfoques existentes a menudo sufren de actualizaciones iterativas de diccionarios y coeficientes. Proponemos COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), un marco de compresión libre de entrenamiento que utiliza un pequeño conjunto de datos de calibración para estimar una factorización de pesos dispersa. COMPOT emplea diccionarios ortogonales que permiten actualizaciones de Procrustes en forma cerrada para el diccionario y una codificación dispersa analítica de un solo paso para los coeficientes, eliminando la optimización iterativa. Para manejar la sensibilidad heterogénea de las capas bajo un presupuesto global de compresión, COMPOT introduce además una estrategia de asignación dinámica de una sola vez que redistribuye adaptivamente las tasas de compresión por capa. Experimentos exhaustivos en diversas arquitecturas y tareas muestran que COMPOT ofrece consistentemente una relación calidad-compresión superior frente a sólidos baselines de baja dimensionalidad y dispersos, manteniendo además una compatibilidad total con la cuantización post-entrenamiento para compresión extrema. El código está disponible https://github.com/mts-ai/COMPOT{aquí}.
Los modelos del mundo requieren una comprensión relacional robusta para sustentar la predicción, el razonamiento y el control. Si bien las representaciones céntricas en objetos proporcionan una abstracción útil, no son suficientes para capturar dinámicas dependientes de interacciones. Por lo tanto, proponemos C-JEPA, un modelo del mundo céntrico en objetos, simple y flexible, que extiende la predicción de embeddings conjuntos enmascarados desde parches de imagen a representaciones céntricas en objetos. Al aplicar un enmascaramiento a nivel de objeto que requiere inferir el estado de un objeto a partir de otros objetos, C-JEPA induce intervenciones latentes con efectos contrafactuales y evita soluciones por atajos, haciendo que el razonamiento sobre interacciones sea esencial. Empíricamente, C-JEPA produce mejoras consistentes en la respuesta a preguntas visuales, con una mejora absoluta de aproximadamente el 20% en el razonamiento contrafactual en comparación con la misma arquitectura sin enmascaramiento a nivel de objeto. En tareas de control de agentes, C-JEPA permite una planificación sustancialmente más eficiente al utilizar solo el 1% de las características latentes de entrada totales requeridas por los modelos del mundo basados en parches, logrando un rendimiento comparable. Finalmente, proporcionamos un análisis formal que demuestra que el enmascaramiento a nivel de objeto induce un sesgo inductivo causal mediante intervenciones latentes. Nuestro código está disponible en https://github.com/galilai-group/cjepa.
La investigación actual en modelos multimodales enfrenta un desafío clave: la mejora de las capacidades generativas a menudo se produce a expensas de la comprensión, y viceversa. Analizamos esta disyuntiva e identificamos que la causa principal podría ser el conflicto potencial entre generación y comprensión, lo que crea una dinámica competitiva dentro del modelo. Para abordarlo, proponemos el marco Razona-Reflexiona-Refina (R3). Este algoritmo innovador reformula la tarea de generación en un solo paso en un proceso multi-etapa de "generar-comprender-regenerar". Al aprovechar explícitamente la capacidad de comprensión del modelo durante la generación, mitigamos exitosamente el dilema de optimización, logrando resultados de generación más sólidos y una capacidad de comprensión mejorada relacionada con el proceso generativo. Esto ofrece perspectivas valiosas para diseñar la próxima generación de modelos multimodales unificados. El código está disponible en https://github.com/sen-ye/R3.
Los modelos de lenguaje se utilizan cada vez más para razonar sobre contenido en el que no fueron entrenados, como documentos nuevos, conocimientos en evolución y datos específicos del usuario. Un enfoque común es la generación aumentada por recuperación (RAG), que almacena documentos textuales externamente (en fragmentos) y recupera solo un subconjunto relevante en el momento de la inferencia para que un LLM razone sobre ellos. Sin embargo, esto resulta en un uso ineficiente del cómputo en tiempo de prueba (el LLM razona repetidamente sobre los mismos documentos); además, la recuperación de fragmentos puede inyectar contexto irrelevante que aumenta la generación no sustentada. Proponemos un marco de aprendizaje continuo no paramétrico similar al humano, donde el modelo base permanece fijo y el aprendizaje ocurre integrando cada nueva experiencia en un estado de memoria semántica externa que se acumula y consolida continuamente. Presentamos Panini, que materializa esto representando documentos como Espacios de Trabajo Semánticos Generativos (GWS, por sus siglas en inglés) —una red consciente de entidades y eventos de pares pregunta-respuesta (QA), suficiente para que un LLM reconstruya las situaciones experimentadas y extraiga conocimiento latente mediante cadenas de inferencia basadas en razonamiento sobre la red. Dada una consulta, Panini solo recorre el GSW actualizado continuamente (no los documentos o fragmentos textuales) y recupera las cadenas de inferencia más probables. En seis benchmarks de QA, Panini logra el mayor rendimiento promedio, un 5%-7% superior al de otras líneas base competitivas, mientras utiliza entre 2 y 30 veces menos tokens de contexto-respuesta, admite pipelines completamente de código abierto y reduce las respuestas no sustentadas en consultas curadas sin respuesta. Los resultados muestran que una estructuración eficiente y precisa de las experiencias en el momento de escritura —como la lograda por el marco GSW— produce ganancias tanto de eficiencia como de confiabilidad en el momento de lectura. El código está disponible en https://github.com/roychowdhuryresearch/gsw-memory.
La web está plagada de imágenes, creadas originalmente para consumo humano y que ahora son interpretadas cada vez más por agentes que utilizan modelos de visión y lenguaje (VLMs). Estos agentes toman decisiones visuales a gran escala, decidiendo en qué hacer clic, qué recomendar o qué comprar. Sin embargo, sabemos poco sobre la estructura de sus preferencias visuales. Introducimos un marco para estudiar esto colocando a los VLMs en tareas de elección basadas en imágenes controladas y perturbando sistemáticamente sus entradas. Nuestra idea clave es tratar la función de decisión del agente como una utilidad visual latente que puede inferirse mediante la preferencia revelada: las elecciones entre imágenes editadas sistemáticamente. Partiendo de imágenes comunes, como fotos de productos, proponemos métodos para la optimización de prompts visuales, adaptando métodos de optimización de texto para proponer e aplicar iterativamente modificaciones visualmente plausibles utilizando un modelo de generación de imágenes (como en la composición, iluminación o fondo). Luego evaluamos qué ediciones aumentan la probabilidad de selección. Mediante experimentos a gran escala con VLMs de vanguardia, demostramos que las ediciones optimizadas alteran significativamente las probabilidades de elección en comparaciones cara a cara. Desarrollamos una canalización de interpretabilidad automática para explicar estas preferencias, identificando temas visuales consistentes que impulsan la selección. Sostenemos que este enfoque ofrece una forma práctica y eficiente de sacar a la luz vulnerabilidades visuales y problemas de seguridad que, de otro modo, podrían descubrirse implícitamente en entornos reales, apoyando una auditoría y gobernanza más proactivas de los agentes de IA basados en imágenes.
Para el despliegue de modelos fundacionales, los profesionales necesitan cada vez más leyes de escalado prescriptivas: dado un presupuesto de cómputo para el preentrenamiento, ¿qué precisión *downstream* es alcanzable con las prácticas contemporáneas de postentrenamiento, y cuán estable es esa correlación a medida que el campo evoluciona? Utilizando evaluaciones observacionales a gran escala con 5k datos observacionales y 2k datos recién muestreados sobre el rendimiento de modelos, estimamos fronteras de capacidad, cuantiles condicionales altos de las puntuaciones en *benchmarks* en función del logaritmo de los FLOPS de preentrenamiento, mediante regresión cuantílica suavizada con una parametrización sigmoide monótona y saturable. Validamos la confiabilidad temporal ajustando el modelo a generaciones anteriores de modelos y evaluando en lanzamientos posteriores. En diversas tareas, las fronteras estimadas son mayormente estables, con la excepción del razonamiento matemático, que exhibe una frontera en avance constante en el tiempo. Luego, extendemos nuestro enfoque para analizar la saturación dependiente de la tarea y para investigar los desplazamientos relacionados con la contaminación en tareas de razonamiento matemático. Finalmente, introducimos un algoritmo eficiente que recupera las fronteras de datos casi completas utilizando aproximadamente el 20% del presupuesto de evaluación. En conjunto, nuestro trabajo publica Proteus 2k, el conjunto de datos de evaluación de rendimiento de modelos más reciente, e introduce una metodología práctica para traducir presupuestos de cómputo en expectativas de rendimiento confiables y para monitorear cuándo las fronteras de capacidad cambian a lo largo del tiempo.
El Aprendizaje por Refuerzo (RL) ha mejorado significativamente el razonamiento de los modelos de lenguaje grandes, pero los métodos existentes de ajuste fino mediante RL dependen en gran medida de técnicas heurísticas, como la regularización de entropía y la reponderación, para mantener la estabilidad. En la práctica, a menudo experimentan un colapso del rendimiento en etapas tardías, lo que conduce a una calidad de razonamiento degradada y a un entrenamiento inestable. Derivamos que la magnitud de los gradientes de política por token en RL está negativamente correlacionada con la probabilidad del token y la entropía local de la política. Basándonos en este resultado, demostramos que la inestabilidad del entrenamiento está impulsada por una pequeña fracción de tokens, aproximadamente el 0,01%, que denominamos *tokens espurios*. Cuando estos tokens aparecen en respuestas correctas, contribuyen poco al resultado del razonamiento pero heredan la recompensa completa a nivel de secuencia, lo que lleva a actualizaciones de gradiente anormalmente amplificadas. Motivados por esta observación, proponemos la Optimización de Políticas con Conciencia de Tokens Espurios (STAPO) para el refinamiento de modelos a gran escala, que enmascara selectivamente dichas actualizaciones y renormaliza la pérdida sobre los tokens válidos. En seis benchmarks de razonamiento matemático utilizando los modelos base Qwen 1.7B, 8B y 14B, STAPO demuestra consistentemente una estabilidad de entropía superior y logra una mejora promedio en el rendimiento del 7,13% sobre GRPO, 20-Entropy y JustRL.
La fragmentación de acciones permite que los modelos de Visión, Lenguaje y Acción (VLA) se ejecuten en tiempo real, pero la ejecución ingenua por fragmentos suele presentar discontinuidades en los límites de los fragmentos. La Fragmentación en Tiempo Real (RTC) mitiga este problema, pero al ser externa a la política, provoca conmutaciones multimodales espurias y trayectorias que no son intrínsecamente suaves. Proponemos Legato, un método de continuación durante el entrenamiento para políticas VLA basadas en flujo y fragmentación de acciones. Específicamente, Legato inicializa el proceso de eliminación de ruido a partir de una mezcla, con forma determinada por el programa temporal, de acciones conocidas y ruido, exponiendo así al modelo a información parcial de las acciones. Además, Legato remodela la dinámica de flujo aprendida para garantizar que el proceso de eliminación de ruido sea consistente entre el entrenamiento y la inferencia bajo guía por paso. Legato utiliza además una condición de programa temporal aleatorizada durante el entrenamiento para soportar retardos de inferencia variables y lograr una suavidad controlable. Empíricamente, Legato produce trayectorias más suaves y reduce las conmutaciones multimodales espurias durante la ejecución, lo que se traduce en menos vacilaciones y un menor tiempo de finalización de la tarea. Extensos experimentos en el mundo real demuestran que Legato supera consistentemente a RTC en cinco tareas de manipulación, logrando mejoras aproximadas del 10% tanto en la suavidad de la trayectoria como en el tiempo de finalización de la tarea.
Los Sistemas Multiagente (MAS) impulsados por Modelos de Lenguaje Grande han desbloqueado un razonamiento colaborativo avanzado, pero siguen lastrados por la ineficiencia de la comunicación discreta de texto, que impone una sobrecarga computacional significativa y una pérdida de información por cuantización. Si bien la transferencia de estados latentes ofrece una alternativa de alto ancho de banda, los enfoques existentes asumen arquitecturas homogéneas de emisor-receptor o dependen de traductores aprendidos específicos para cada par, lo que limita la escalabilidad y modularidad entre diversas familias de modelos con variedades disjuntas. En este trabajo, proponemos el "Vision Wormhole", un marco novedoso que readapta la interfaz visual de los Modelos de Lenguaje-Visión (VLMs) para permitir una comunicación libre de texto y agnóstica al modelo. Mediante la introducción de un Codec Visual Universal, mapeamos trazas de razonamiento heterogéneas en un espacio latente continuo compartido y las inyectamos directamente en la vía visual del receptor, tratando efectivamente al codificador visual como un puerto universal para la telepatía interagente. Nuestro marco adopta una topología de estrella para reducir la complejidad del alineamiento por pares de O(N²) a O(N) y aprovecha un objetivo de destilación profesor-estudiante sin etiquetas para alinear el canal visual de alta velocidad con los patrones de razonamiento robustos de la vía textual. Experimentos exhaustivos en diversas familias de modelos heterogéneos (por ejemplo, Qwen-VL, Gemma) demuestran que el Vision Wormhole reduce el tiempo de ejecución de extremo a extremo en comparaciones controladas, manteniendo una fidelidad de razonamiento comparable a los MAS estándar basados en texto. El código está disponible en https://github.com/xz-liu/heterogeneous-latent-mas.
Aunque los grandes modelos de lenguaje (LLM) demuestran conocimientos médicos de nivel experto, alinear sus respuestas de código abierto con las preferencias detalladas de los clínicos sigue siendo un desafío. Los métodos existentes a menudo dependen de objetivos generales o de evaluadores automáticos poco fiables que tienen una base débil en las directrices profesionales. Proponemos un marco de trabajo de dos etapas para abordar esta brecha. Primero, presentamos HealthRubrics, un conjunto de datos de 7,034 ejemplos de preferencias verificados por médicos, en los que los clínicos refinan rúbricas redactadas por LLM para cumplir con rigurosos estándares médicos. Segundo, destilamos estas rúbricas en HealthPrinciples: 119 principios ampliamente reutilizables y basados en la clínica, organizados por dimensiones clínicas, lo que permite una supervisión escalable más allá de la anotación manual. Utilizamos HealthPrinciples para (1) la alineación offline mediante la síntesis de rúbricas para consultas no etiquetadas y (2) como una herramienta en tiempo de inferencia para una autorevisión guiada. Un modelo de 30B de parámetros que activa solo 3B de parámetros durante la inferencia, entrenado con nuestro marco, alcanza un 33.4% en HealthBench-Hard, superando a modelos mucho más grandes como Deepseek-R1 y o3, estableciendo así un punto de referencia eficiente en recursos para la alineación clínica.
El procesamiento eficiente de contextos largos sigue siendo un desafío crucial para los modelos de lenguaje grandes (LLM) contemporáneos, especialmente en entornos con recursos limitados. Las arquitecturas de compresión blanda prometen extender la longitud efectiva del contexto reemplazando secuencias largas de tokens con conjuntos más pequeños de tokens comprimidos aprendidos. Sin embargo, los límites de la compresibilidad —y cuándo la compresión comienza a eliminar contenido relevante para la tarea— siguen estando poco explorados. En este artículo, definimos el desbordamiento de tokens como un régimen en el que las representaciones comprimidas ya no contienen información suficiente para responder a una consulta dada, y proponemos una metodología para caracterizarlo y detectarlo. En el entorno de compresión blanda xRAG, encontramos que las estadísticas de saturación independientes de la consulta separan de manera confiable las representaciones de tokens comprimidos de las no comprimidas, proporcionando una herramienta práctica para identificar tokens comprimidos pero mostrando una capacidad limitada para detectar desbordamiento. Clasificadores de sondeo ligeros sobre las representaciones xRAG tanto de la consulta como del contexto detectan desbordamiento con un AUC-ROC promedio de 0.72 en los conjuntos de datos HotpotQA, SQuADv2 y TriviaQA, demostrando que incorporar información de la consulta mejora el rendimiento de la detección. Estos resultados avanzan desde diagnósticos independientes de la consulta hacia detectores conscientes de ella, permitiendo una selección previa al LLM de bajo coste para mitigar errores inducidos por la compresión.
Los grandes modelos de lenguaje (LLM) siguen teniendo dificultades con preguntas que requieren conocimientos intensivos, información actualizada y razonamiento de múltiples saltos. Aumentar los LLM con conocimiento externo híbrido, como texto no estructurado y grafos de conocimiento estructurados, ofrece una alternativa prometedora al costoso preentrenamiento continuo. Por ello, la evaluación fiable de sus capacidades de recuperación y razonamiento se vuelve crítica. Sin embargo, muchos puntos de referencia existentes se solapan cada vez más con los datos de preentrenamiento de los LLM, lo que significa que las respuestas o el conocimiento de apoyo pueden estar ya codificados en los parámetros del modelo, dificultando distinguir la recuperación y el razonamiento genuinos del recuerdo paramétrico. Presentamos HybridRAG-Bench, un marco para construir puntos de referencia que evalúen el razonamiento intensivo en recuperación y de múltiples saltos sobre conocimiento híbrido. HybridRAG-Bench acopla automáticamente representaciones de texto no estructurado y de grafos de conocimiento estructurado derivados de literatura científica reciente en arXiv, y genera pares de preguntas-respuestas de alto contenido knowledge basados en rutas de razonamiento explícitas. El marco admite una selección flexible del dominio y del período temporal, permitiendo una evaluación personalizable y consciente de la contaminación a medida que evolucionan los modelos y el conocimiento. Los experimentos en tres dominios (inteligencia artificial, gobernanza y políticas, y bioinformática) demuestran que HybridRAG-Bench premia la recuperación y el razonamiento genuinos en lugar del recuerdo paramétrico, ofreciendo un banco de pruebas fundamentado para evaluar sistemas de razonamiento aumentados con conocimiento híbrido. Publicamos nuestro código y datos en github.com/junhongmit/HybridRAG-Bench.