Artículos de investigación en IA seleccionados diariamente con traducciones
Recientes grandes modelos de lenguaje (LLMs) han demostrado capacidades sólidas en la comprensión y generación de código, desde programación competitiva hasta ingeniería de software a nivel de repositorio. En los emergentes sistemas agentivos, el código ya no es solo un resultado objetivo. Cada vez más, sirve como sustrato operativo para el razonamiento del agente, la acción, el modelado del entorno y la verificación basada en ejecución. Enmarcamos este cambio a través de la lente de los arneses de agente e introducimos el código como arnés de agente: una visión unificada que sitúa el código como base de la infraestructura del agente. Para estudiar sistemáticamente esta perspectiva, organizamos el estudio en torno a tres capas interconectadas. Primero, estudiamos la interfaz del arnés, donde el código conecta a los agentes con el razonamiento, la acción y el modelado del entorno. Segundo, examinamos los mecanismos del arnés: planificación, memoria y uso de herramientas para la ejecución a largo plazo, junto con el control y la optimización basados en retroalimentación que hacen que el arnés sea fiable y adaptable. Tercero, discutimos la escalabilidad del arnés desde sistemas de un solo agente hasta entornos multiagente, donde los artefactos de código compartido apoyan la coordinación, revisión y verificación entre múltiples agentes. A través de estas capas, resumimos métodos representativos y aplicaciones prácticas del código como arnés de agente, abarcando asistentes de codificación, automatización de GUI/SO, agentes encarnados, descubrimiento científico, personalización y recomendación, DevOps y flujos de trabajo empresariales. Además, esbozamos desafíos abiertos para la ingeniería de arneses, incluyendo la evaluación más allá del éxito final de la tarea, la verificación bajo retroalimentación incompleta, la mejora del arnés sin regresión, el estado compartido consistente entre múltiples agentes, la supervisión humana para acciones críticas de seguridad y las extensiones a entornos multimodales. Al centrar el código como el arnés de la IA agentiva, este estudio proporciona una hoja de ruta unificada hacia sistemas de agentes de IA ejecutables, verificables y con estado.
Los agentes LLM de largo horizonte dejan rastros que podrían convertirse en experiencia reutilizable, pero las trayectorias en bruto son ruidosas y difíciles de gobernar. Tratamos las Habilidades de Agente como un esquema de experiencia que combina scripts ejecutables con guías no ejecutables sobre procedimientos. Sin embargo, los ecosistemas abiertos de habilidades contienen artefactos redundantes, desiguales y sensibles al entorno, y las actualizaciones indiscriminadas pueden contaminar el contexto futuro. Presentamos SkillsVote, un marco de gobernanza del ciclo de vida para Habilidades de Agente, desde la recolección y recomendación hasta la evolución. SkillsVote perfila un corpus open-source a escala de millones para identificar requisitos de entorno, calidad y verificabilidad, y luego sintetiza tareas para habilidades verificables. Antes de la ejecución, SkillsVote realiza una búsqueda agentiva en una biblioteca estructurada de habilidades para exponer el contexto instructivo de la habilidad. Tras la ejecución, descompone las trayectorias en subtareas vinculadas a habilidades, atribuye los resultados al uso de la habilidad, la exploración del agente, el entorno y las señales de resultado, y admite solo los descubrimientos reutilizables exitosos en actualizaciones basadas en evidencia. En nuestra evaluación, la evolución fuera de línea mejora GPT-5.2 en Terminal-Bench 2.0 hasta en 7.9 puntos porcentuales, mientras que la evolución en línea mejora SWE-Bench Pro hasta en 2.6 pp. En general, las bibliotecas externas de habilidades gobernadas pueden mejorar agentes congelados sin actualizaciones del modelo cuando los sistemas controlan la exposición, el crédito y la preservación.
Presentamos LongLive-2.0, una infraestructura paralela basada en NVFP4 que abarca todo el flujo de trabajo de entrenamiento e inferencia para la generación de videos largos, abordando los cuellos de botella de velocidad y memoria. Para el entrenamiento, introducimos el entrenamiento autorregresivo (AR) con paralelismo de secuencia, implementado como Balanced SP, que co-diseña una disposición eficiente de teacher forcing con la ejecución de SP al emparejar fragmentos temporales de historial limpio y objetivo ruidoso en cada rango, lo que permite una máscara de teacher forcing natural con codificación VAE por fragmentos consciente de SP. Combinado con precisión NVFP4, reduce el costo de memoria de la GPU y acelera el cálculo GEMM durante el entrenamiento, cuya proporción aumenta a medida que crece la longitud del video. Además, mostramos que una infraestructura y un conjunto de datos de alta calidad permiten un pipeline de entrenamiento notablemente limpio. A diferencia de los métodos existentes de la serie Self-Forcing, que dependen de la inicialización ODE y la posterior destilación por emparejamiento de distribuciones (DMD), LongLive-2.0 ajusta directamente un modelo de difusión en un modelo de difusión autorregresivo (AR) largo, de múltiples tomas e interactivo. Este puede convertirse adicionalmente en generación en tiempo real (de 4 a 2 pasos de eliminación de ruido) con pesos LoRA independientes. Para la inferencia en GPUs Blackwell, habilitamos inferencia NVFP4 W4A4, cuantizamos la caché KV a NVFP4 para ahorrar memoria y aumentamos el rendimiento de extremo a extremo con decodificación VAE asíncrona en flujo continuo. En arquitecturas de GPU no Blackwell, implementamos inferencia con SP para igualar la velocidad en GPUs Blackwell, mientras que la caché KV cuantizada puede reducir la comunicación entre GPUs del SP. Los experimentos muestran una aceleración de hasta 2,15x en el entrenamiento y 1,84x en la inferencia. LongLive-2.0-5B logra una inferencia de 45,7 FPS con un rendimiento sólido en los puntos de referencia. Hasta donde sabemos, LongLive-2.0 es el primer sistema de entrenamiento e inferencia basado en NVFP4 para la generación de videos largos.
Presentamos Lance, un modelo unificado nativo ligero que admite comprensión, generación y edición multimodal tanto para imágenes como para videos. En lugar de depender del escalado de la capacidad del modelo o de diseños dominantes texto-imagen, Lance explora un paradigma práctico para el modelado unificado multimodal mediante entrenamiento colaborativo multitarea. Este enfoque se fundamenta en dos principios básicos: modelado de contexto unificado y rutas de capacidad desacopladas. Específicamente, Lance se entrena desde cero y emplea una arquitectura de mezcla de expertos de doble flujo sobre secuencias multimodales intercaladas compartidas, lo que permite un aprendizaje conjunto del contexto mientras se desacoplan las rutas para comprensión y generación. Además, introducimos una codificación posicional rotatoria con conciencia de modalidad para mitigar la interferencia entre tokens visuales heterogéneos y potenciar la alineación entre tareas. Durante el entrenamiento, Lance adopta un paradigma de entrenamiento multitarea por etapas con objetivos orientados a capacidades y programación adaptativa de datos para fortalecer tanto la comprensión semántica como el rendimiento de generación visual. Los resultados experimentales demuestran que Lance supera sustancialmente a los modelos unificados de código abierto existentes en generación de imágenes y videos, manteniendo al mismo tiempo sólidas capacidades de comprensión multimodal. La página de inicio está disponible en https://lance-project.github.io.
La investigación asistida por IA está cruzando un umbral: los sistemas completamente automatizados ya pueden generar artículos de investigación por tan solo 15 dólares, mientras que los agentes de largo horizonte pueden ejecutar experimentos, redactar manuscritos y simular críticas con una intervención humana mínima. Sin embargo, esta frontera de productividad revela un problema de integridad más profundo: bajo presión científica, incluso los LLM de frontera siguen fabricando resultados, pasando por alto errores ocultos y fallando al evaluar la novedad de manera fiable. Examinando los avances hasta abril de 2026, presentamos un análisis integral de la IA a lo largo del ciclo completo de investigación, organizado en cuatro fases epistemológicas: Creación (generación de ideas, revisión bibliográfica, codificación y experimentos, tablas y figuras), Escritura (redacción del artículo), Validación (revisión por pares, réplica y revisión) y Difusión (pósteres, diapositivas, videos, redes sociales, páginas de proyecto y agentes interactivos). Identificamos un límite nítido y dependiente de la etapa entre la asistencia confiable y la autonomía no confiable: la IA sobresale en tareas estructuradas, basadas en recuperación y mediadas por herramientas, pero sigue siendo frágil para ideas genuinamente novedosas, experimentos a nivel de investigación y juicio científico. Las ideas generadas a menudo se degradan tras su implementación, el código de investigación queda muy rezagado respecto a los puntos de referencia de reconocimiento de patrones, y los sistemas autónomos de extremo a extremo aún no han alcanzado de manera consistente los estándares de aceptación de las principales revistas. Además, mostramos que una mayor automatización puede ocultar, en lugar de eliminar, los modos de fallo, lo que convierte a la colaboración gobernada por humanos en el paradigma de despliegue más creíble. Finalmente, proporcionamos una taxonomía estructurada, un conjunto de puntos de referencia y un inventario de herramientas, principios de diseño transversales a las etapas y un manual orientado a profesionales, con recursos mantenidos en nuestra página del proyecto.
La automatización integral de operaciones sanitarias realistas exige tres capacidades que están insuficientemente representadas en los benchmarks actuales: densidad normativa (las decisiones deben fundamentarse en una amplia biblioteca de reglas médicas, de seguros y operativas); composición multirrol (una única tarea requiere que el agente desempeñe múltiples roles con transferencias entre ellos); e interacción multilateral (los pasos intermedios del flujo de trabajo son diálogos de múltiples turnos, como revisiones entre pares y contacto con pacientes). Presentamos χ-Bench, un benchmark de flujos de trabajo sanitarios de largo plazo en tres dominios: autorización previa del proveedor, gestión de utilización del pagador y gestión de cuidados. Cada tarea entrega al agente un caso clínico en un simulador de alta fidelidad de 20 aplicaciones sanitarias expuestas a través de 87 herramientas MCP, que el agente debe llevar a un estado terminal mediante llamadas a herramientas y redacción de los artefactos del rol, guiado por un manual de operaciones de atención gestionada de más de 1290 documentos. Entre 30 configuraciones de arnés/modelo de agente, el mejor agente resuelve solo el 28,0 % de las tareas; ningún agente supera el 20 % en la métrica estricta pass^3, y ejecutar todas las tareas en una sola sesión reduce el rendimiento al 3,8 %. Estos resultados plantean la hipótesis de que es probable que surjan brechas similares en otros dominios empresariales irreversibles, con alta densidad normativa y composición de roles.
El diseño de habitaciones interiores 3D realistas y funcionales es fundamental para una amplia gama de aplicaciones, como el diseño de interiores, la realidad virtual, los videojuegos y la IA corpórea. Aunque los enfoques recientes basados en MLLM han mostrado un gran potencial para la síntesis de habitaciones 3D a partir de descripciones textuales o imágenes de referencia, los métodos basados en texto tienen dificultades para capturar información espacial precisa, y los agentes existentes condicionados por imágenes sufren de inestabilidad y bucles infinitos cuando se les asigna la generación holística de habitaciones desde vistas cenitales. Para abordar estas limitaciones, proponemos Code-as-Room, un marco de agente basado en MLLM equipado con un arnés de ejecución estructurado, que representa habitaciones 3D mediante códigos de Blender. Dada una imagen cenital de una habitación, el marco analiza la imagen de referencia para extraer los elementos de la escena y sus relaciones espaciales, y sintetiza código ejecutable de Blender para la geometría, los materiales y la iluminación en un proceso de múltiples etapas basado en principios. Se mantiene un módulo de memoria entre etapas a lo largo del proceso para mitigar el olvido de contexto inherente a los marcos basados en agentes existentes. Además, introducimos un punto de referencia específico para la síntesis de habitaciones 3D basada en código, que abarca diversos protocolos de evaluación. Con base en nuestro punto de referencia, se realizan comparaciones exhaustivas con métodos basados en agentes existentes para validar la efectividad del arnés de ejecución propuesto.
Alinear generadores de video autorregresivos (AR) en streaming con las preferencias humanas es un desafío. Los métodos existentes de aprendizaje por refuerzo dependen principalmente de la exploración basada en ruido y de políticas sustitutas basadas en EDE que no se corresponden con la dinámica determinista de EDO de los modelos AR destilados, y tienden a perturbar la apariencia de bajo nivel en lugar de la progresión de la trama semántica de alto nivel, crucial para la coherencia a largo plazo. Para abordar estas limitaciones, presentamos KVPO, un marco nativo de EDO de Optimización Relativa de Políticas en Grupo (GRPO) en línea para alinear generadores de video en streaming. Para la exploración de diversidad, KVPO introduce un paradigma de exploración semántico-causal que reubica la fuente de variación del ruido estocástico al caché KV histórico. Mediante el enrutamiento estocástico de entradas KV históricas, se construyen ramas de generación semánticamente diversas que permanecen estrictamente en la variedad de datos. Para el modelado de políticas, KVPO introduce una política sustituta de campo de velocidad basada en la Energía de Velocidad de Trayectoria (TVE), que cuantifica la probabilidad de las ramas en el espacio de velocidad de correspondencia de flujo y genera un objetivo contrastivo ponderado por recompensa totalmente consistente con la formulación nativa de EDO. Experimentos en múltiples generadores de video AR destilados demuestran mejoras consistentes en calidad visual, calidad de movimiento y alineación texto-video tanto en entornos de video corto con una sola indicación como en video largo con múltiples indicaciones.
El progreso reciente en la demostración formal de teoremas se ha beneficiado de la generación de pruebas a gran escala y del entrenamiento consciente del verificador, pero la demostración agente rara vez se integra en el entrenamiento del demostrador, apareciendo solo en el momento de la inferencia. Presentamos OProver, un marco unificado para la demostración formal de teoremas basada en agentes en Lean 4, en el que los intentos fallidos de prueba se revisan iterativamente utilizando pruebas verificadas por el compilador recuperadas y la retroalimentación del compilador de Lean. OProver se entrena mediante preentrenamiento continuado seguido de post-entrenamiento iterativo: cada iteración ejecuta la demostración agente, indexa las pruebas recién verificadas en OProofs y la memoria de recuperación, utiliza trayectorias de reparación como datos de ajuste fino supervisado (SFT), y utiliza casos difíciles no resueltos para el aprendizaje por refuerzo (RL). OProofs se construye a partir de recursos públicos de Lean, síntesis de pruebas a gran escala y trazas de demostración agente, conteniendo 1.77 millones de enunciados de Lean, 6.86 millones de pruebas verificadas por el compilador, y trayectorias serializadas con contexto recuperado, intentos fallidos, retroalimentación y reparaciones. En cinco puntos de referencia, OProver-32B obtiene el mejor Pass@32 en MiniF2F (93.3%), ProverBench (58.2%) y PutnamBench (11.3%), y ocupa el segundo lugar en MathOlympiad (22.8%) y ProofNet (33.2%), con más mejores posiciones que cualquier demostrador previo de pruebas completas de peso abierto.
La Mezcla de Expertos (MoE) escala modelos de lenguaje de manera eficiente mediante la activación dispersa de expertos, y su variante dinámica reduce aún más el cómputo ajustando los expertos activados según la entrada. Los métodos dinámicos de MoE existentes suelen depender del preentrenamiento desde cero o de la adaptación específica de tarea, dejando poco explorada la conversión práctica de modelos MoE completamente entrenados. Habilitar dicha adaptación aliviaría directamente los costos de inferencia al permitir que los tokens fáciles eviten expertos innecesarios durante el servicio. Este artículo presenta la Adaptación por Autodestilación de Experto Cero (ZEDA), un marco de bajo costo que transforma modelos MoE estáticos post-entrenados en modelos dinámicos eficientes. Para estabilizar esta conversión arquitectónica, ZEDA inyecta expertos de salida cero sin parámetros en cada capa de MoE y adapta el modelo aumentado mediante autodestilación en dos etapas, utilizando el MoE original como maestro congelado y aplicando una pérdida de equilibrio a nivel de grupo. En Qwen3-30B-A3B y GLM-4.7-Flash, evaluados en 11 puntos de referencia que abarcan matemáticas, código y seguimiento de instrucciones, ZEDA elimina más del 50% de los FLOPs de los expertos con una pérdida marginal de precisión. Supera al mejor método dinámico de MoE en 6,1 y 4,0 puntos en ambos modelos, y logra un incremento de velocidad de inferencia de extremo a extremo de aproximadamente 1,20×.
Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) han mostrado avances significativos en la comprensión de video, pero enfrentan desafíos sustanciales en tareas que requieren una localización espacio-temporal precisa a nivel de instancia. Los métodos existentes se basan principalmente en indicaciones de texto para la interacción humano-modelo, pero estas indicaciones tienen dificultades para proporcionar referencias espaciales y temporales precisas, lo que resulta en una mala experiencia de usuario. Además, los enfoques actuales típicamente desacoplan la percepción visual del razonamiento lingüístico, centrando el razonamiento en el lenguaje en lugar del contenido visual, lo que limita la capacidad del modelo para percibir proactivamente evidencia visual detallada. Para abordar estos desafíos, proponemos VideoSeeker, un nuevo paradigma para la comprensión de video a nivel de instancia mediante indicaciones visuales. VideoSeeker integra de manera fluida el razonamiento agentivo con tareas de comprensión de video a nivel de instancia, permitiendo que el modelo perciba y recupere proactivamente segmentos de video relevantes bajo demanda. Construimos un pipeline de síntesis de datos completamente automatizado de cuatro etapas para generar eficientemente datos de video a nivel de instancia a gran escala y de alta calidad. Internalizamos las capacidades de llamada a herramientas y percepción proactiva en el modelo mediante supervisión de arranque en frío y entrenamiento con RL, construyendo un potente modelo de comprensión de video. Los experimentos demuestran que nuestro modelo logra una mejora promedio del +13.7% sobre las líneas base en tareas de comprensión de video a nivel de instancia, superando a potentes modelos de código cerrado como GPT-4o y Gemini-2.5-Pro, al mismo tiempo que muestra una transferibilidad efectiva en benchmarks generales de comprensión de video. Los conjuntos de datos y el código relevantes se publicarán públicamente.
El desafío fundamental en la escalabilidad de los Modelos de Lenguaje Extensos para Video (Video LLMs) hacia el video de larga duración radica en gestionar la explosión de la longitud de contexto de los tokens visuales. Las estrategias existentes se centran predominantemente en la reducción de tokens "post-hoc" — reducir los tokens visuales tras la extracción de características para aliviar la carga computacional del LLM. Si bien estos métodos reducen eficazmente la cantidad de tokens visuales, observamos que el principal cuello de botella de latencia se desplaza entonces del LLM al costoso procesamiento por fotograma del codificador visual. Para abordar esto, presentamos LiteFrame, un backbone de codificador visual robusto pero altamente eficiente para Video LLMs. Para entrenar LiteFrame, proponemos Destilación de Tokens Comprimidos (DTC), un novedoso marco de entrenamiento que enseña a un codificador visual compacto estudiante a predecir directamente representaciones comprimidas espaciotemporalmente y densas en información, producidas por un modelo visual docente de gran tamaño, evitando así eficazmente el cómputo redundante. Cuando se combina con una posterior Adaptación del Modelo de Lenguaje (AML), este enfoque da lugar a una nueva frontera de Pareto en latencia-precisión: en comparación con InternVL3-8B, LiteFrame proporciona una reducción del 35% en la latencia de extremo a extremo mientras procesa 8 veces más fotogramas y mejora la precisión media de comprensión de video en múltiples puntos de referencia. Nuestros resultados demuestran una nueva vía potencial para desbloquear la comprensión de video de mayor duración bajo presupuestos computacionales fijos.
Los Large Reasoning Models (LRMs) logran un alto rendimiento al generar largas cadenas de pensamiento (CoT), pero a menudo piensan en exceso, continuando razonando después de que una solución ya se ha estabilizado, desperdiciando así tokens y aumentando la latencia. Los métodos existentes de salida temprana en tiempo de inferencia se basan principalmente en señales a nivel de respuesta, como la confianza o la consistencia de prueba-respuesta, para decidir cuándo detenerse. Sin embargo, estas señales reflejan principalmente la preparación de la respuesta más que la convergencia del razonamiento: pueden activarse antes de que el modelo haya terminado de explorar o autocorregirse, provocando salidas prematuras que pueden degradar la precisión de la respuesta final y dejar la cadena de razonamiento retenida semánticamente incompleta. Identificamos la redundancia semántica a nivel de razonamiento como una señal complementaria para la salida temprana que preserva la semántica: cuando los pasos sucesivos ya no añaden progreso novedoso y en su lugar revisitan conclusiones establecidas, es probable que la trayectoria de razonamiento haya convergido. Basándonos en esta idea, proponemos PUMA, un marco plug-and-play que combina un Detector de Redundancia ligero con verificación a nivel de respuesta. El detector señala salidas candidatas semánticamente redundantes, mientras que la verificación confirma si detenerse es seguro, permitiendo a PUMA eliminar la continuación redundante mientras preserva tanto la precisión de la respuesta como un prefijo de razonamiento coherente. En cinco LRMs y cinco puntos de referencia de razonamiento desafiantes, PUMA logra una reducción promedio de tokens del 26,2% mientras preserva la precisión y la calidad retenida de CoT. Experimentos adicionales en generación de código, razonamiento visual-lingüístico zero-shot e internalización de políticas de parada aprendidas demuestran además que la redundancia a nivel de razonamiento es una señal robusta, transferible y aprendible para un razonamiento eficiente. Nuestro código está disponible en https://github.com/giovanni-vaccarino/PUMA.
El rango dinámico de las activaciones es una restricción de primer orden para la cuantización de baja precisión, el escalado de activaciones y la inferencia estable de LLM. Trabajos previos caracterizaron características atípicas y activaciones masivas en modelos estilo LLaMA anteriores a 2024, y la pila de cuantización de activaciones aguas abajo hereda esa imagen sin revisarla para el auge de modelos abiertos posterior a LLaMA. Planteamos la pregunta orientada al despliegue: ¿qué tan grandes pueden llegar a ser las activaciones en los LLM abiertos modernos, y cómo varía esta magnitud entre familias, generaciones y etapas de entrenamiento? Bajo un pipeline unificado (corpus multidisciplinario de 5,000 muestras, tokenización específica por familia, hooks idénticos en embeddings, estados ocultos, atención, MLP/MoE, compuertas SwiGLU y norma final), medimos los máximos globales y por capa en 27 checkpoints de 8 familias abiertas que abarcan variantes densas, MoE, visión-lenguaje, entrenamiento intermedio y ajuste por instrucciones. Encontramos que (i) los máximos globales abarcan casi cuatro órdenes de magnitud en conteos de parámetros comparables, con Qwen3.5 y checkpoints MoE en el rango de 10² a 10³ y Gemma3-27B-it alcanzando ~7 × 10⁵; (ii) las comparaciones entre familias y entre generaciones rompen el escalamiento monotónico simple; y (iii) los checkpoints MoE exhiben picos 14.0-23.4× más bajos que sus contrapartes densas de escala equivalente, mientras que la transmisión residual transporta el máximo global en 22/24 checkpoints. Una verificación de cordura INT-8 ligera muestra que los máximos medidos covarián con el error de reconstrucción de baja precisión a través de la selección de escala de activación. Concluimos que la magnitud máxima de activación es una propiedad del modelo vinculada a la familia, la arquitectura y la etapa de entrenamiento —no un simple subproducto del tamaño— y debe medirse e informarse junto con cualquier publicación de pesos abiertos antes del despliegue de baja precisión. El código está disponible públicamente en https://github.com/clx1415926/Max_act_llm.
Es inviable abarcar todas las posibles perturbaciones dentro del conjunto de datos de entrenamiento. Esto plantea una cuestión crítica respecto a la robustez de los modelos Visión-Lenguaje-Acción (VLA) al enfrentar perturbaciones visuales del mundo real no vistas previamente, particularmente bajo condiciones visuales imperfectas. En este trabajo, realizamos un estudio sistemático basado en modelos VLA de última generación recientes y revelamos una caída significativa en el rendimiento cuando se introducen perturbaciones visuales ausentes en los datos de entrenamiento. Para mitigar este problema, proponemos un módulo adaptador ligero fundamentado en la teoría de la información, denominado Adaptador de Cuello de Botella Informacional (IB-Adapter), que filtra selectivamente el ruido potencial de las entradas visuales. Sin requerir datos adicionales ni estrategias de aumento, IB-Adapter mejora consistentemente la línea base en un promedio del 30%, añadiendo menos de 10M de parámetros, lo que demuestra una notable eficiencia y efectividad. Además, incluso con un backbone 14 veces más pequeño (0.5B de parámetros) y sin preentrenamiento en el conjunto de datos Open X-Embodiment, nuestro modelo StableVLA logra una robustez competitiva con los VLA de última generación a escala de 7B. Con una sobrecarga de parámetros insignificante (<10M), nuestro enfoque mantiene la precisión en tareas de horizonte largo y supera a OpenPi tanto bajo corrupciones visuales sintéticas como físicas.
Ampliar la ventana de contexto de los modelos de lenguaje grandes típicamente requiere entrenar con secuencias de la longitud objetivo, lo que conlleva costos cuadráticos de memoria y cómputo que hacen que la adaptación a contextos largos sea costosa y difícil de reproducir. Proponemos EndPrompt, un método que logra una extensión efectiva del contexto utilizando únicamente secuencias de entrenamiento cortas. La idea central es que exponer un modelo a distancias posicionales relativas de largo alcance no requiere construir entradas de longitud completa: preservamos el contexto corto original como un primer segmento intacto y añadimos un breve mensaje terminal como segundo segmento, asignándole índices posicionales cercanos a la longitud objetivo del contexto. Esta construcción de dos segmentos introduce distancias relativas tanto locales como de largo alcance dentro de una secuencia física corta, manteniendo al mismo tiempo la continuidad semántica del texto de entrenamiento—una propiedad ausente en los enfoques de simulación basados en fragmentos que dividen el contexto contiguo. Proporcionamos un análisis teórico fundamentado en el Rotary Position Embedding y la desigualdad de Bernstein, mostrando que la interpolación de posiciones impone una restricción de suavidad rigurosa sobre la función de atención, y que los parámetros compartidos del Transformer suprimen aún más la extrapolación inestable a distancias intermedias no observadas. Aplicado a modelos de la familia LLaMA para extender la ventana de contexto de 8K a 64K, EndPrompt logra una puntuación RULER promedio de 76.03 y el promedio más alto en LongBench, superando a LCEG (72.24), LongLoRA (72.95) y el ajuste fino de longitud completa (69.23), requiriendo sustancialmente menos cómputo. Estos resultados demuestran que la generalización a contextos largos puede inducirse a partir de una supervisión posicional dispersa, desafiando la suposición predominante de que es necesario entrenar con secuencias largas densas para una extensión confiable de la ventana de contexto. El código está disponible en https://github.com/clx1415926/EndPrompt.
Los modelos de lenguaje de gran escala (LLMs) actúan cada vez más como agentes autónomos que deben decidir cuándo responder directamente y cuándo recurrir a herramientas externas. Trabajos previos sobre el uso adaptativo de herramientas han tratado en gran medida la necesidad de estas como una propiedad independiente del modelo, anotada por un humano o un juez LLM, y mayormente cubren casos donde la respuesta es obvia (por ejemplo, consultar el clima frente a parafrasear texto). Sin embargo, la necesidad de herramientas en escenarios reales es más matizada debido a la divergencia de límites de capacidad entre modelos: un problema que un modelo fuerte puede resolver por sí solo puede requerir herramientas para uno más débil. En este trabajo, introducimos una definición adaptativa al modelo de necesidad de herramientas, basada en el rendimiento empírico de cada modelo. Siguiendo esta definición, comparamos la necesidad con el comportamiento observado de llamadas a herramientas en cuatro modelos sobre conjuntos de datos de aritmética y preguntas factuales, y encontramos desajustes sustanciales del 26,5-54,0% y 30,8-41,8%, respectivamente. Para diagnosticar el fallo, descomponemos el uso de herramientas en dos etapas: una etapa de cognición interna que refleja si un modelo cree que una herramienta es necesaria, y una etapa de ejecución que determina si el modelo realmente realiza una acción de llamada a herramienta. Al sondear los estados ocultos del LLM, encontramos que ambas señales suelen ser decodificables linealmente, aunque sus direcciones de sonda se vuelven casi ortogonales en el régimen de última capa y último token que impulsa la acción del siguiente token. Al rastrear la trayectoria de las muestras en el proceso de dos etapas, descubrimos además que la mayoría del desajuste se concentra en la transición de cognición a acción, no en la cognición misma. Estos resultados revelan una brecha entre saber y hacer en el uso de herramientas por parte de los LLM: mejorar la fiabilidad del uso de herramientas requiere no solo un mejor reconocimiento de cuándo se necesitan herramientas, sino también una mejor traducción de ese reconocimiento en acción.
El aprendizaje por refuerzo (RL) se utiliza cada vez más para mejorar las capacidades de razonamiento, codificación y uso de herramientas de los grandes modelos de lenguaje, pero el RL agéntico sigue siendo prohibitivamente costoso. Escalar el RL a los LLM agénticos requiere soportar cargas de trabajo complejas, incluyendo el entrenamiento colaborativo de múltiples políticas, mientras se utilizan de manera eficiente recursos de cómputo elásticos, heterogéneos y entre regiones. Los sistemas de RL para LLM existentes soportan algunas de estas capacidades, pero cada nueva extensión a menudo requiere ingeniería de sistemas dedicada. Esta carga surge de las arquitecturas de control centradas en el entrenador y la falta de abstracciones basadas en principios para los componentes del sistema de RL. Para abordar estas limitaciones, proponemos AstraFlow, un sistema de RL orientado al flujo de datos que reemplaza el control convencional centrado en el entrenador con abstracciones de componentes basadas en principios. En AstraFlow, los servicios de despliegue, la gestión del flujo de datos y el entrenamiento se desacoplan en componentes autónomos, lo que permite que el sistema soporte de forma nativa cargas de trabajo de RL agéntico de múltiples políticas y explote eficientemente diversos recursos de cómputo. Evaluamos AstraFlow en cargas de trabajo de matemáticas, código, búsqueda y AgentBench, mostrando que el mismo sistema soporta entrenamiento de múltiples políticas, escalado elástico, ejecución heterogénea entre regiones y algoritmos de datos componibles sin cambios de código a nivel de sistema. En el entrenamiento colaborativo de múltiples políticas, AstraFlow logra una precisión comparable o mejor que los sistemas de RL existentes mientras acelera el tiempo de entrenamiento en 2.7 veces.
Los modelos de lenguaje de difusión continua están rezagados respecto a los transformadores autorregresivos, en parte porque la difusión se aplica en espacios poco adecuados para la eliminación de ruido y la recuperación de tokens en lenguaje. Proponemos DiHAL, un híbrido difusión-transformer guiado por geometría que aborda dónde debería entrar la difusión en un transformer preentrenado. DiHAL puntúa las capas con proxies basados en geometría, selecciona una interfaz de estado oculto favorable para la difusión y reemplaza el prefijo inferior del transformer con un puente de difusión, conservando las capas superiores y el cabezal original del modelo de lenguaje (LM). Al reconstruir el estado oculto de la capa seleccionada en lugar de los tokens, DiHAL evita la recuperación directa de continuo a discreto. Los experimentos con backbones de escala 8B muestran que la puntuación geométrica predice capas de inserción superficiales efectivas bajo un protocolo fijo de entrenamiento del puente, y que la recuperación del estado oculto mejora respecto a las líneas base de difusión continua en una comparación diagnóstica que iguala el presupuesto de entrenamiento de difusión/recuperación. Estos resultados sugieren que la geometría del estado oculto ayuda a identificar dónde es factible un reemplazo basado en difusión dentro de modelos de lenguaje preentrenados.
Los modelos de lenguaje se ajustan mediante instrucciones para rechazar solicitudes dañinas, pero los mecanismos subyacentes a este comportamiento aún no se comprenden bien. Los métodos de dirección populares operan sobre el flujo residual y degradan la coherencia de la salida con intensidades de intervención altas, lo que limita su uso práctico. Introducimos la atribución contrastiva de neuronas (CNA), que identifica el 0.1% de las neuronas MLP cuyas activaciones distinguen más claramente entre indicaciones dañinas y benignas, requiriendo solo pasos hacia adelante sin gradientes ni entrenamiento auxiliar. En modelos instructivos, la ablación del circuito descubierto reduce las tasas de rechazo en más del 50% en un benchmark estándar de jailbreak, manteniendo la fluidez y la no degeneración en todas las intensidades de dirección. Aplicando CNA a modelos base e instructivos emparejados en las arquitecturas Llama y Qwen (desde 1B hasta 72B parámetros), encontramos que los modelos base contienen estructuras de discriminación en capas tardías similares, pero dirigir estas neuronas produce solo cambios de contenido, no cambios de comportamiento. Estos resultados demuestran que la intervención a nivel de neuronas permite una dirección conductual fiable sin las compensaciones de calidad de los métodos de flujo residual. En términos más amplios, nuestros hallazgos sugieren que el ajuste fino de alineación transforma la estructura de discriminación preexistente en una puerta de rechazo escasa y dirigible.
El prellenado por fragmentos se ha convertido en una estrategia de servicio ampliamente adoptada para modelos de lenguaje grandes de contexto largo, pero el cómputo eficiente de la atención en este régimen sigue siendo un desafío. Los métodos existentes de atención dispersa están diseñados principalmente para prellenado de una sola vez y no se traducen eficientemente al prellenado por fragmentos: los kernels de bloques dispersos pierden eficiencia cuando la longitud de la consulta está limitada por el tamaño del fragmento, mientras que la búsqueda de patrones de grano fino se vuelve costosa cuando se repite sobre la caché de KV acumulada en cada fragmento. QUOKA, un método reciente que apunta directamente al prellenado por fragmentos, evita la sobrecarga de kernels dispersos pero se basa en la selección de KV a nivel de token con submuestreo de consultas, lo cual puede omitir entradas KV específicas de la consulta e introducir una sobrecarga explícita de copia de KV. Para abordar estas limitaciones, proponemos CompactAttention, un mecanismo de atención de prellenado por fragmentos basado en la Selección de KV por Unión de Bloques. CompactAttention trata las máscaras dispersas de bloques 2D como señales de selección de KV en lugar de planes directos de ejecución de kernels dispersos, y las convierte en tablas de bloques KV por grupo conscientes de GQA mediante la unión de bloques Q y la unión intragrupo. Esta construcción produce las tablas de bloques mínimas que preservan todos los bloques KV seleccionados por las máscaras de entrada bajo restricciones de ejecución paginada, permitiendo que los bloques KV seleccionados sean accedidos in situ sin compactación explícita de KV. En LLaMA-3.1-8B-Instruct, CompactAttention mantiene una precisión cercana a la atención densa en el benchmark RULER, al tiempo que proporciona una aceleración de atención de hasta 2.72x en una longitud de contexto de 128K bajo prellenado por fragmentos.
Los agentes de codificación pueden generar aplicaciones web a partir de descripciones en lenguaje natural, sin embargo, un estudio de referencia reciente muestra que las aplicaciones generadas no cumplen con los requisitos funcionales en más del 70% de los casos. La dificultad central radica en que la corrección de una aplicación web no puede evaluarse a partir de archivos fuente o la salida del terminal: la aplicación debe desplegarse, ejercitarse mediante interacciones simuladas en un navegador, y los fallos deben traducirse en señales de reparación procesables, pasos que los agentes actuales no pueden realizar sin mediación humana. Presentamos TDDev, un marco de trabajo que automatiza este ciclo cerrado a través de tres etapas: (1) convertir requisitos de alto nivel en pruebas de aceptación estructuradas antes de escribir cualquier código, (2) desplegar la aplicación y validarla mediante simulación de interacciones basadas en el navegador, y (3) traducir los fallos observados en el navegador a informes de reparación estructurados para el agente de codificación. Gracias a TDDev, realizamos el primer estudio empírico controlado de estrategias de Desarrollo Guiado por Pruebas (TDD) para la generación de aplicaciones web, comparando cuatro protocolos de desarrollo en dos agentes de codificación, dos modelos base y dos referencias. La infraestructura TDD mejora consistentemente la calidad de la generación entre 34 y 48 puntos porcentuales con respecto a una línea base sin TDD. El hallazgo central es que el protocolo óptimo depende del estilo de generación del modelo: los modelos que construyen aplicaciones de manera holística se benefician más de la aplicación mediante agentes, mientras que los modelos que extienden el código de forma conservadora se benefician de la aplicación incremental. Un protocolo inadecuado para el estilo de generación elimina por completo el beneficio del TDD, al tiempo que multiplica el costo en tokens hasta 25 veces. Un estudio de usuario confirma que TDDev reduce la intervención manual del desarrollador a cero, desplazando la carga de trabajo de la ingeniería continua de instrucciones a un refinamiento autónomo basado en retroalimentación.
Estudios recientes introducen módulos de memoria condicional que desacoplan el almacenamiento de conocimiento del cómputo neuronal, permitiendo un acceso más directo al conocimiento. En comparación con MoE, que se basa en rutas dinámicas de cómputo, la búsqueda explícita proporciona un mecanismo de recuperación de conocimiento más eficiente. Sin embargo, estos enfoques aún dependen de embeddings de memoria aprendidos, lo que requiere entrenamiento adicional y limita la flexibilidad. Para abordar esto, proponemos N-gram Memory (NGM), un módulo plug-and-play que no requiere entrenamiento, compuesto por un Codificador Causal de N-gramas y un Inyector de Memoria con Puerta Coseno. El Codificador Causal de N-gramas promedia directamente los embeddings de tokens preentrenados del modelo base para construir representaciones de N-gramas, eliminando así la necesidad de entrenar embeddings de N-gramas separados desde cero. Este diseño no requiere ni una tabla de memoria adicional ni un pipeline de recuperación. El Inyector de Memoria con Puerta Coseno utiliza entonces una puerta coseno no paramétrica con ReLU para modular los embeddings recuperados en las representaciones contextuales. Evaluamos NGM en la serie Qwen3 desde 0.6B hasta 14B en ocho benchmarks. NGM mejora el rendimiento promedio entre 0.5 y 1.2 puntos, con ganancias particularmente claras en generación de código y tareas intensivas en conocimiento (por ejemplo, +3.0 en LiveCodeBench y +3.03 en GPQA para Qwen3-14B). Además, NGM también mejora el rendimiento en benchmarks multimodales (por ejemplo, MMStar +1.53 en Qwen3-VL-2B).
La generación de audio moderna se basa predominantemente en la compresión en el espacio latente, lo que introduce complejidad adicional y una posible pérdida de información. En este trabajo, desafiamos este paradigma con WavFlow, un marco que genera audio de alta fidelidad directamente en el espacio de forma de onda sin procesar, sin representaciones intermedias. Para superar las dificultades inherentes al modelado de señales de alta dimensionalidad y baja energía, reformateamos el audio en cuadrículas de tokens 2D mediante el parcheado de formas de onda e introducimos la elevación de amplitud para alinear las escalas de la señal, lo que permite una optimización estable mediante la predicción directa de x en el acoplamiento de flujo. Para capturar la compleja alineación semántica y la sincronización temporal, aprovechamos un pipeline automatizado de datos para seleccionar 5 millones de tripletas video-texto-audio de alta calidad, lo que permite que el modelo aprenda patrones acústicos detallados desde cero. Los resultados experimentales muestran que WavFlow logra un rendimiento competitivo en el punto de referencia de video a audio VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) y en el punto de referencia de texto a audio AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), igualando o superando el rendimiento de métodos basados en latentes establecidos. Nuestro trabajo demuestra que la compresión intermedia no es un requisito previo para una síntesis de alta calidad, ofreciendo una alternativa más simple y escalable para la generación de audio multimodal.
Se espera cada vez más que los agentes que utilizan herramientas operen en flujos de trabajo profesionales realistas, donde deben interpretar entradas multimodales, coordinar herramientas externas, inspeccionar artefactos intermedios y revisar sus acciones antes de producir un resultado final. Sin embargo, los benchmarks existentes a menudo evalúan el uso de herramientas, el uso de computadoras y el razonamiento multimodal de forma aislada, dejando una brecha entre los entornos de benchmark y el uso omni-modal de herramientas de extremo a extremo en el mundo real. Para abordar esta brecha, presentamos MM-ToolBench, un benchmark y un conjunto de herramientas de evaluación para el uso omni-modal de herramientas orientado a tareas. MM-ToolBench contiene 100 tareas ejecutables de dos familias de tareas macro, Servicio al Cliente y Creación Inteligente, que abarcan 20 segmentos de subcategorías y están respaldadas por 27 servidores MCP con 324 herramientas. El diseño central de MM-ToolBench es la verificación multimodal en bucle cerrado: los agentes deben ejecutar herramientas, inspeccionar artefactos renderizados o transformados, y autocorregirse cuando los resultados no cumplen con los requisitos específicos de la tarea. Para que dicha evaluación sea escalable y verificable, MM-ToolBench acopla la ejecución basada en MCP con evaluadores fundamentados específicos de la tarea y un pipeline de construcción semiautomatizado para el descubrimiento de escenarios, la instanciación de tareas, la síntesis de evaluadores y la auditoría humana. Los experimentos con 15 modelos agentivos contemporáneos muestran que MM-ToolBench sigue siendo altamente desafiante: Claude Opus 4.6, comúnmente considerado uno de los modelos agentivos de codificación más fuertes, logra solo un 32.0% de éxito en las tareas, muy por debajo del 94.0% del benchmark humano. Visualizamos MM-ToolBench como una base práctica para evaluar y avanzar en los agentes omni-modales de próxima generación que utilizan herramientas mediante verificación multimodal en bucle cerrado.
Los agentes basados en modelos de visión-lenguaje (VLM) dependen cada vez más del aprendizaje por refuerzo aumentado con memoria para reutilizar la experiencia en tareas de largo horizonte; sin embargo, la mayoría de los marcos existentes almacenan la memoria como texto y requieren modelos docentes propietarios para resumirla o refinarla. Este diseño se adapta mal a la toma de decisiones espaciales: las prioridades geométricas se comprimen en un lenguaje con pérdidas, y la interacción dispersa a menudo se supervisa mediante retroalimentación textual retardada en lugar de señales densas visualmente fundamentadas. Sostenemos que la experiencia reutilizable para los agentes VLM debe permanecer visualmente fundamentada. Con base en esta idea, proponemos AtlasVA, un marco de memoria de habilidades visuales sin maestro que organiza la memoria en tres capas complementarias: mapas de calor espaciales, ejemplares visuales y habilidades textuales simbólicas. AtlasVA además evoluciona atlas de peligro y afinidad directamente a partir de estadísticas de trayectorias y heurísticas ligeras basadas en cuadrículas, y reutiliza estos atlas auto-evolutivos como recompensas de modelado basadas en potencial para el aprendizaje por refuerzo. Esto unifica percepción, memoria y optimización sin supervisión externa de LLM. Los experimentos en los puntos de referencia de Sokoban, FrozenLake, navegación encarnada en 3D y manipulación robótica en 3D muestran que AtlasVA supera consistentemente a las líneas base de memoria centradas en texto y a agentes VLM competitivos, con mejoras especialmente notables en tareas espacialmente intensivas. Página web: https://wangpan-ustc.github.io/AtlasvaWeb
El ajuste fino supervisado (SFT) se utiliza ampliamente para inyectar nuevo conocimiento en los modelos de lenguaje, pero a menudo degrada capacidades preentrenadas como el razonamiento y el rendimiento en dominios generales. Sostenemos que este olvido surge porque los objetivos de ajuste fino provenientes de humanos o sistemas externos divergen de la distribución autorregresiva del modelo, obligando al optimizador a imitar secuencias de tokens de baja probabilidad. Para abordar este problema, proponemos MixSD, un método simple sin maestro externo para la inyección de conocimiento alineada con la distribución. En lugar de entrenar sobre objetivos fijos, MixSD construye supervisión de forma dinámica mezclando tokens de dos condicionales del propio modelo base: un condicional experto que observa el hecho inyectado en contexto, y un condicional ingenuo que refleja la prioridad original del modelo. Las secuencias de supervisión resultantes preservan la señal de aprendizaje del hecho mientras permanecen sustancialmente más cercanas a la distribución del modelo base. Evaluamos MixSD en dos corpus sintéticos que construimos para estudiar el recuerdo factual y la adquisición de funciones aritméticas en un entorno controlado, junto con puntos de referencia establecidos para la respuesta a preguntas factuales de dominio abierto y la edición de conocimiento. A través de múltiples escalas y configuraciones de modelo, MixSD logra consistentemente un mejor compromiso memorización-retención en comparación con los puntos de referencia de SFT y autodestilación on-policy, reteniendo hasta el 100% de la capacidad no utilizada del modelo base mientras mantiene una precisión de entrenamiento casi perfecta, mientras que el SFT estándar retiene tan solo el 1%. Además, mostramos que MixSD produce objetivos de supervisión con NLL sustancialmente menor bajo el modelo base y reduce el movimiento dañino a lo largo de direcciones de parámetros sensibles a Fisher. Estos resultados sugieren que alinear la supervisión con la distribución de generación nativa del modelo es un principio simple y efectivo para la inyección de conocimiento que mitiga el olvido catastrófico.
Los agentes de GUI recientes han logrado avances significativos en el grounding visual y la predicción de acciones, pero siguen siendo frágiles en tareas de largo horizonte que requieren mantener el estado de la tarea a través de múltiples transiciones de interfaz. Los agentes existentes suelen basarse en la reproducción del historial en bruto o en una memoria solo textual, lo cual sobrecarga al modelo con capturas de pantalla redundantes o descarta la evidencia visual localizada necesaria para decisiones futuras. Para abordar estas limitaciones, presentamos MementoGUI, un marco de memoria agéntica como complemento que dota a los agentes de GUI basados en MLLM con MementoCore, un controlador aprendido para la selección, compresión y recuperación de memoria en línea. En lugar de tratar el historial de interacción como un contexto fijo, MementoGUI formula el control de GUI de largo horizonte como un problema de control de memoria en línea: la memoria de trabajo preserva selectivamente eventos de interfaz relevantes para la tarea mediante resúmenes textuales y evidencia visual a nivel de ROI, mientras que la memoria episódica recupera trayectorias pasadas reutilizables mediante una selección de relevancia aprendida. MementoCore modulariza el control de memoria en operadores especializados para el procesamiento de pasos, compresión de memoria, escritura episódica y selección episódica, lo que permite un aumento de memoria como complemento sin necesidad de ajustar fino el backbone del agente de GUI. Además, desarrollamos un pipeline escalable de curación de datos que convierte trayectorias de uso de computadora en datos de entrenamiento para el controlador de memoria, introducimos MementoGUI-Bench para evaluar la toma de decisiones de largo horizonte en agentes de GUI, y diseñamos métricas basadas en MLLM para la coincidencia de acciones semánticas, el progreso de la tarea y la consistencia de la memoria. Los experimentos en GUI-Odyssey, MM-Mind2Web y MementoGUI-Bench muestran que MementoGUI mejora consistentemente a los agentes de GUI frente a las líneas base sin historial, con reproducción de historial y con memoria solo textual, mientras que backbones más grandes de MementoCore fortalecen aún más el control de GUI aumentado con memoria.
Los modelos de lenguaje de gran tamaño (LLMs) se están aplicando cada vez más al análisis financiero, la elaboración de informes, el apoyo a decisiones de inversión, la gestión de riesgos, el cumplimiento normativo y la formación profesional. Sin embargo, la evaluación sólida de su competencia en el ámbito financiero sigue siendo incompleta. Referencias abiertas ampliamente utilizadas como FinQA, ConvFinQA y TAT-QA han desempeñado un papel importante en el avance de la respuesta a preguntas financieras y el razonamiento numérico, pero se centran principalmente en la respuesta a preguntas sobre informes financieros y no proporcionan una jerarquía explícita de dificultad profesional. Recursos más amplios, como FinanceBench, PIXIU, FinBen y FLaME, expanden la cobertura de las tareas financieras, pero el problema de evaluar la transición desde el conocimiento fundamental hasta el razonamiento financiero de nivel experto sigue abierto. En este trabajo presentamos FINESSE-Bench, un conjunto de ocho referencias especializadas que comprenden 3,993 preguntas para la evaluación jerárquica de las competencias financieras en los LLMs. FINESSE-Bench combina conjuntos de datos orientados a exámenes inspirados en certificaciones profesionales (Niveles 1-3 tipo CFA, Nivel 2 tipo CMT y Nivel 1 tipo CFTe), colecciones de tareas aplicadas de trading y una referencia de olimpiada en idioma ruso. Este diseño permite evaluar la amplitud del dominio, la degradación del rendimiento a medida que aumenta la dificultad, la capacidad para resolver tareas computacionales y el comportamiento del modelo en ámbitos financieros especializados. También describimos un protocolo de evaluación unificado que abarca preguntas de opción múltiple, respuestas numéricas y respuestas breves abiertas, junto con un esquema de puntuación automatizada para respuestas libres basado en el paradigma de LLM como juez. FINESSE-Bench se concibe tanto como un complemento a las referencias financieras abiertas existentes como una herramienta para una evaluación más sustancial de las competencias financieras profesionalmente relevantes en los modelos de lenguaje de gran tamaño.
El despliegue de Grandes Modelos de Lenguaje (LLMs) como agentes económicos autónomos introduce riesgos sistémicos que van más allá de fallos de capacidad individuales. A medida que los agentes transitan hacia la interacción directa con mercados, su comportamiento colectivo puede amplificar la volatilidad y enmascarar el engaño a gran escala. Presentamos el Bazar de Agentes, un marco de simulación multiagente para evaluar la Alineación Económica, es decir, la capacidad de los sistemas agentivos para preservar la estabilidad e integridad del mercado. Identificamos dos modos de fallo: (1) Inestabilidad Algorítmica en un mercado B2C ("El Colapso"), donde las empresas amplifican la volatilidad de precios hasta que el mercado colapsa, y (2) Engaño Sybil en un mercado C2C ("El Mercado de Limones"), donde un único agente engañoso que controla múltiples identidades vendedoras coordinadas inunda el mercado con listados fraudulentos, erosionando la confianza y el bienestar del consumidor. Evaluamos modelos de frontera y de pesos abiertos en ambos escenarios y encontramos que los modelos fracasan en gran medida en autorregularse, con una gravedad del fallo que varía según el modelo, no según su tamaño. Proponemos arneses alineados económicamente —Empresas Estabilizadoras y Guardianes Escépticos— que mejoran los resultados pero siguen siendo frágiles en condiciones de mercado más duras. Para cerrar esta brecha, entrenamos agentes con REINFORCE++ utilizando un currículo adaptativo, obteniendo un modelo de 9B que supera a todos los modelos de frontera y de pesos abiertos evaluados. Proponemos la Puntuación de Alineación Económica (EAS), una métrica escalar de 4 componentes que agrega estabilidad, integridad, bienestar y rentabilidad, permitiendo la comparación directa entre modelos. Nuestros resultados muestran que la alineación económica es ortogonal a la capacidad general y puede entrenarse directamente con RL dirigido.
Evaluar sistemas encarnados sobre hardware diestro real requiere más que habilidades primitivas aisladas: un agente debe percibir una escena de mesa cambiante, elegir una acción apropiada al contexto, ejecutarla con una mano diestra y dejar la escena utilizable para decisiones posteriores. Presentamos DexHoldem, un banco de pruebas a nivel de sistema y del mundo real, construido en torno a la manipulación diestra de Texas Hold'em con una ShadowHand. DexHoldem proporciona 1.470 demostraciones teleoperadas en 14 primitivas de manipulación de Texas Hold'em, un banco de pruebas físico estandarizado de políticas y un banco de pruebas de percepción agéntica que evalúa si los agentes pueden recuperar el estado estructurado del juego necesario para la toma de decisiones encarnada. En ejecución de primitivas, π_{0.5} obtiene la tasa de finalización de tareas más alta (61,2 %), mientras que π_{0.5} y π_0 empatan en la tasa de éxito de preservación de la escena (47,5 %). En percepción agéntica, Opus 4.7 obtiene la mejor precisión estricta a nivel de problema (34,3 %), mientras que GPT 5.5 obtiene la mejor precisión promedio a nivel de campo (66,8 %), exponiendo una brecha entre las subcapacidades visuales aisladas y la recuperación completa del estado relevante para el enrutamiento. Finalmente, implementamos el bucle completo agente-encarnado en tres casos de estudio, donde las esperas, los envíos de recuperación, las solicitudes de ayuda humana y la ejecución repetida de primitivas revelan cómo los errores de percepción y política se acumulan durante el despliegue en bucle cerrado. Por lo tanto, DexHoldem evalúa la ejecución diestra sobre la mesa, la percepción agéntica y el enrutamiento de decisiones encarnadas en un entorno físico compartido. Página web del proyecto: https://dexholdem.github.io/Dexholdem/.
Los modelos de mundo de video interactivos modernos han logrado una fidelidad visual impresionante, pero carecen de control multientidad de grano fino y de generalización entre entidades y entre mundos. Atribuimos esta limitación a la interfaz de acción: los protocolos de control estándar (por ejemplo, identificadores de animación, entradas de dispositivo, descripciones a nivel de escena) vinculan la semántica de las acciones a entidades o motores específicos en el momento del diseño. Proponemos el lenguaje natural como interfaz para desbloquear una expresividad que ninguna interfaz previa puede alcanzar, y presentamos Incantation, el primer modelo de mundo de video interactivo con condicionamiento por lenguaje natural por fotograma latente (0,25 s) que admite control simultáneo de múltiples entidades y transferencia conceptual entre entidades más allá de cualquier pipeline de renderizado fijo. Combinamos un backbone de video bidireccional preentrenado con atención cruzada de texto local por fotograma, y habilitamos la transmisión en tiempo real de horizonte largo mediante destilación de Self-Forcing inicializada con EDO junto con un caché KV deslizante desacoplado de RoPE. Superamos la línea base Action-Index en transferencia entre entidades (89% frente a 43%) y en prompts fuera de vocabulario (90% frente a 0%), y nuestro estudiante de 2 pasos mantiene 19,7 FPS a 480p con FVD estable durante despliegues de 2 horas. Además, aplicamos la misma arquitectura y receta de entrenamiento a The King of Fighters, cambiando únicamente las ranuras de vocabulario de acciones por entidad. Hemos publicado un subconjunto de vista previa del conjunto de datos Incantation en https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, que contiene clips de combate jugador-jefe de Elden Ring recopilados manualmente con metadatos estructurados orientados a la acción. Los datos a mayor escala de Elden Ring y KOF se publicarán con el proyecto completo.
Si bien la IA agente y sus modelos grandes de lenguaje multimodal (MLLM, por sus siglas en inglés) han demostrado un notable potencial en el razonamiento lingüístico y visual en ámbitos que van desde la vida cotidiana hasta la investigación científica avanzada, persiste una profunda brecha entre la inteligencia artificial y la humana. A pesar de la integración de potentes herramientas y MLLM avanzados, los agentes de IA de última generación fracasan frecuentemente en tareas fundamentales, aparentemente simples, que un niño puede resolver con facilidad. Inspirados en la Escala de Inteligencia Wechsler para Niños (WISC), presentamos ChildAgentEval, el primer benchmark interactivo con base psicométrica para evaluar la alineación de la edad cognitiva en agentes basados en MLLM. ChildAgentEval compara sistemáticamente el rendimiento en razonamiento de diversos agentes interactivos basados en MLLM con etapas de desarrollo humano específicas por edad, revelando dónde los sistemas actuales de IA agente pueden y no pueden simular el comportamiento cognitivo propio de cada edad.
Inspirado por los comportamientos emergentes en modelos de lenguaje grandes que generalizan la inteligencia humana, la comunidad investigadora persigue capacidades emergentes similares dentro de modelos del mundo, con énfasis en modelar el mundo físico. Dentro del ámbito del modelo del mundo físico, los objetos son las primitivas fundamentales que constituyen la realidad física. Desde humanos hasta computadoras, casi todo con lo que interactuamos es un objeto. Estos objetos rara vez son estáticos; son entidades accionables con estados variables determinados por sus propiedades intrínsecas. Si bien los métodos actuales abordan los estados de acción de los objetos ya sea mediante generación de video o reconstrucción dinámica de escenas, ninguno modela explícitamente este elemento básico de manera unificada y fundamentada para construir una representación de objeto accionable. Proponemos WorldString, una arquitectura neuronal capaz de modelar la variedad de estados de objetos del mundo real aprendiendo directamente de nubes de puntos o flujos de video RGB-D. Actuando como un gemelo digital versátil, sirve como bloque fundamental para modelos del mundo físico; por lo tanto, lo llamamos WorldString. Afortunadamente, su estructura completamente diferenciable permite sin problemas la integración futura con aprendizaje de políticas y dinámicas neuronales.
Los modelos de difusión han sido ampliamente estudiados para eliminar contenido inseguro aprendido durante el preentrenamiento. Los métodos existentes requieren datos supervisados costosos, ya sea texto inseguro emparejado con la verdad fundamental de imágenes seguras o pares de imágenes negativas/positivas, lo que los hace poco prácticos para escalar. Además, los enfoques de aprendizaje por refuerzo fuera de línea y de ajuste fino supervisado que generan datos sintéticos fuera de línea sufren de olvido catastrófico, degradando la calidad de generación. Proponemos un novedoso marco de aprendizaje por refuerzo en línea que aborda tanto la escasez de datos como la degradación del modelo mediante el post-entrenamiento con Optimización de Política Relativa de Grupo (GRPO) en indicaciones de texto tanto negativas como positivas. Para eliminar la necesidad de ajustar modelos de recompensa especializados seguros/inseguros, introducimos un mecanismo de recompensa de dirección que explota una propiedad inherente de los embeddings de CLIP: dirigir las representaciones de texto hacia direcciones de seguridad positivas y alejarlas de las negativas en el espacio de embeddings. Nuestro enfoque de política en línea permite que el modelo aprenda de diversas indicaciones, incluyendo contenido explícitamente inseguro, sin olvido catastrófico. Experimentos extensos demuestran que nuestro método reduce el contenido inapropiado al 18,07 % (frente al 48,9 % para SD v1.4) y las detecciones de desnudos a 15 (frente a 646 en la línea base) mientras mejora la calidad de generación composicional del 42,08 % al 47,83 % en GenEval. Notablemente, estas ganancias de seguridad se generalizan a indicaciones inseguras fuera de dominio en siete categorías de daño, logrando un rendimiento de última generación sin datos emparejados supervisados ni ajuste de recompensa. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.
La capacidad de razonamiento abstracto refleja la inteligencia y la capacidad de generalización de los LLMs para extraer y aplicar reglas abstractas. Sin embargo, medir con precisión esta capacidad sigue siendo un desafío: los benchmarks existentes dependen de costosas anotaciones manuales, lo que limita su escala, o corren el riesgo de medir memorización en lugar de razonamiento genuino. Para abordar esto, presentamos un pipeline automatizado denominado A2RBench, que abarca generación, expansión, evaluación y análisis. Específicamente, en la etapa de generación, los LLMs crean diversas tareas que requieren razonamiento genuino; en la etapa de expansión, los LLMs reutilizan reglas validadas y expanden nuevos espacios de entrada para generar variaciones de tareas, logrando escalabilidad. Sin embargo, dicho proceso puede causar alucinaciones. Para eliminarlo, establecemos además un marco teórico y demostramos que la verificación programática (probar si la operación inversa revierte perfectamente la operación directa, consistencia cíclica) garantiza una solución única. Mediante evaluaciones exhaustivas en LLMs convencionales, encontramos: (1) Los LLMs actuales presentan deficiencias fundamentales en el razonamiento abstracto, con modelos destacados que rinden significativamente peor que los humanos en un subconjunto representativo (39.8% frente a 68.5%). (2) Los LLMs actuales quedan muy por debajo de 2D y 1D en la complejidad de las tareas 3D generadas, lo que revela su falta de comprensión de tareas de alta dimensionalidad. (3) De manera contraintuitiva, las entradas con mayor complejidad informativa pueden simplificar el proceso de razonamiento.
La cuantización de la caché KV en INT2 resulta atractiva para el servicio de modelos de lenguaje de gran longitud de contexto, pero sigue siendo difícil lograr que sea precisa y desplegable al mismo tiempo. Rotaciones simples, como las transformadas de Hadamard, reducen los valores atípicos, pero siguen degradándose en INT2 porque no están alineadas con la atención downstream. Proponemos OSCAR, un método de cuantización de caché KV de ultra-bajo bit que estima estructuras de covarianza conscientes de la atención fuera de línea y las utiliza para derivar rotaciones fijas y umbrales de recorte para la cuantización. De esta manera, alinea la cuantización KV con las estructuras de covarianza que la atención realmente consume. Más importante aún, no solo proporcionamos una justificación teórica, sino que también desarrollamos un sistema OSCAR completamente desplegable con un kernel de atención INT2 personalizado que sigue siendo compatible con el servicio de caché KV paginada y los pipelines de kernels fusionados, lo que permite una integración fluida en marcos modernos de servicio de modelos de lenguaje como SGLang y vLLM. Evaluamos nuestros métodos en modelos de razonamiento recientes con cadenas de razonamiento de hasta 32k tokens en 5 tareas. En Qwen3-4B-Thinking-2507 y Qwen3-8B, OSCAR reduce la brecha de precisión con BF16 a 3.78 y 1.42 puntos, respectivamente, mientras que la rotación INT2 ingenua colapsa a casi cero. Escalamos OSCAR a Qwen3-32B y GLM-4.7 (358B parámetros), donde se mantiene efectivamente a la par con BF16. En contexto largo — RULER-NIAH hasta 128K, OSCAR se mantiene robusto en ambos modelos Qwen3, mientras que la rotación INT2 ingenua colapsa. A nivel de sistema, OSCAR reduce la memoria de la caché KV en aproximadamente 8 veces, mejora el rendimiento hasta 7 veces en lotes grandes bajo el mismo presupuesto de memoria, y acelera la decodificación con tamaño de lote 1 hasta 3 veces en comparación con BF16 debido a la reducción de la sobrecarga del ancho de banda de memoria.
La optimización de kernels de GPU es cada vez más crítica para sistemas eficientes de aprendizaje profundo, pero escribir kernels de alto rendimiento aún requiere una experiencia considerable de bajo nivel. Los agentes de codificación de IA recientes pueden leer código de forma iterativa, invocar compiladores y perfiladores, y refinar implementaciones; sin embargo, los benchmarks existentes para kernels evalúan llamadas individuales a modelos de lenguaje en lugar de flujos de trabajo completos de agentes, y ninguno incluye tanto optimización entre kernels como pruebas de generalización a configuraciones no vistas. Presentamos AgentKernelArena, un benchmark de código abierto para medir agentes de codificación de IA en la optimización de kernels de GPU. El benchmark contiene 196 tareas que abarcan optimización de HIP a HIP, optimización de Triton a Triton y traducción de PyTorch a HIP, y evalúa flujos de trabajo completos de agentes en espacios de trabajo aislados mediante compilación controlada, verificaciones de corrección y rendimiento, puntuación centralizada y un protocolo de generalización a configuraciones no vistas que prueba si las optimizaciones se transfieren a configuraciones de entrada que el agente nunca observó. En agentes de producción como Cursor Agent, Claude Code y Codex Agent, encontramos una compilación casi perfecta y altas tasas de corrección en la mayoría de las categorías de tareas, con las configuraciones más fuertes logrando aceleraciones medias de hasta 6,89x en tareas de PyTorch a HIP, 6,69x en tareas de HIP a HIP y 2,13x en tareas de Triton a Triton. Nuestra evaluación con configuraciones no vistas muestra que las optimizaciones de HIP a HIP y de Triton a Triton se transfieren en gran medida a formas de entrada no vistas, mientras que PyTorch a HIP exhibe caídas sustanciales en la corrección, lo que indica que los agentes que generan kernels desde cero a menudo codifican supuestos específicos de forma. AgentKernelArena está diseñado como un marco modular y extensible para la evaluación rigurosa de la optimización agentiva de kernels de GPU en diferentes agentes, tareas y objetivos de hardware.
Los modelos de lenguaje autorregresivos ejecutan las capas Transformer de forma secuencial, creando un cuello de botella de latencia que no se elimina con el paralelismo convencional de tensores o de pipelines. Estudiamos si esta dependencia entre capas puede relajarse tratando la traza de estados ocultos a través de las capas como la solución de una ecuación residual no lineal y resolviéndola con actualizaciones paralelas de estilo Newton. Si bien este enfoque es sólido desde un punto de vista teórico, las correcciones exactas de Newton requieren costosos productos Jacobiano-vector y las iteraciones de punto fijo ingenuas son inestables en Transformers entrenados. Presentamos el Paralelismo de Capas con Newton Estructurado (SNLP, por sus siglas en inglés), un marco de entrenamiento e inferencia que reemplaza los Jacobianos exactos de las capas por dinámicas sustitutas baratas inducidas por la arquitectura. En Transformers residuales, esto da lugar a Newton Identidad (IDN), donde la corrección se reduce a una actualización similar a suma de prefijos; en arquitecturas de estilo mHC, Newton HC (HCN) utiliza la matriz de mezcla residual del modelo. Además, introducimos una regularización consciente de SNLP, que entrena a los modelos para que una o unas pocas iteraciones de Newton estructurado aproximen con precisión el forward secuencial. Experimentos en Transformers a escala nanochat muestran que la regularización SNLP mejora la compatibilidad con el paralelismo entre capas y también puede mejorar la perplejidad secuencial estándar, reduciendo la PPL de referencia entre un 4.7% y un 23.4%. En tiempo de inferencia, SNLP combinado con fusión de capas y descomposición por fragmentos logra aceleraciones prácticas en tiempo real: en un modelo Nanochat de 0.5B parámetros, alcanza una aceleración de 2.3x mientras sigue mejorando la PPL en un 6.1%. Estos resultados sugieren que la inferencia con paralelismo entre capas no es simplemente una aproximación numérica a la ejecución secuencial, sino que puede actuar como un sesgo de inferencia útil inducido por el solucionador. También caracterizamos las limitaciones: los modelos preentrenados estándar son menos adecuados para este procedimiento, y la convergencia exacta recupera el cómputo secuencial en lugar de proporcionar un escalado monótono en tiempo de inferencia.
Los sistemas de memoria pueden almacenar cantidades de información muy diferentes a pesar de tener restricciones hardware similares. Aquí mostramos que la memoria espacial superior surge de un endurecimiento discreto de la geometría de la población hipocampal —una transición desde una codificación colectiva desorganizada a una cristalina. Comparando carboneros que almacenan alimento con pinzones cebra que no lo hacen, encontramos que el hipocampo de los almacenadores mantiene una geometría topológicamente rígida, "cristalina", con una estabilidad geométrica significativamente mayor (Shesha 0,245 frente a 0,166) y una coherencia temporal casi dos veces superior (Shesha 0,393 frente a 0,209), mientras que el hipocampo de los no almacenadores se asemeja a una "niebla" desorganizada. Esta estabilidad es construida activamente por dinámicas de circuito sinérgicas: las neuronas excitatorias forman el andamiaje espacial mientras que las poblaciones inhibitorias contribuyen con una decorrelación ortogonal, un motivo de circuito en el que las poblaciones excitatorias e inhibitorias ocupan subespacios representacionales en gran medida no superpuestos. Una doble disociación con el Asignador de Memoria Estable de Valiant, un modelo que predice que conjuntos neuronales dedicados subyacen a cada memoria, confirma que esta ventaja refleja una organización topológica continua más que una asignación discreta de neuronas: las redes de almacenamiento muestran una fiabilidad de asignación mitad-mitad casi nula a pesar de su superioridad geométrica. El modelado computacional a través de 10k configuraciones revela que la rigidez topológica es el requisito matemático para la escala: los códigos cristalinos mantienen una lectura de alta fidelidad más allá de M=1k ubicaciones, mientras que los códigos de niebla fallan por debajo de M=10, una ventaja de capacidad >100 veces. Esta capacidad requiere una redundancia representacional de 169 veces: un "impuesto geométrico" que estabiliza la variedad frente al ruido biológico. Estos resultados establecen la estabilidad geométrica como un posible principio organizativo de la memoria biológica: la evolución logra memoria de alta capacidad no proliferando neuronas, sino diseñando la geometría del propio código neuronal.
Una disparidad geométrica llamativa ha persistido durante mucho tiempo en la práctica del aprendizaje profundo. Mientras que las arquitecturas modernas de redes neuronales exhiben naturalmente ricas propiedades de simetría y equivarianza, los optimizadores populares como Adam y sus variantes operan inherentemente de manera coordenada, lo que les impide respetar las estructuras de equivarianza del espacio de parámetros. Abordamos esta disparidad introduciendo un principio compatible con la simetría para el diseño de optimizadores: la regla de actualización del gradiente debe ser equivariante bajo el grupo de simetría que actúa sobre el bloque de pesos correspondiente. Siguiendo este principio, primero proporcionamos una perspectiva unificada sobre las actualizaciones biequivariantes ortogonales para capas de matrices generales, tal como se emplean en el descenso espectral estocástico, Muon, Scion y los métodos de gradiente polar. De manera más importante, al pasar de grupos ortogonales a simetrías de permutación y desplazamiento compartido, derivamos optimizadores compatibles con la simetría para bloques de parámetros cuyas simetrías difieren de las de las capas de matrices generales: matrices de embeddings y cabezas de modelos de lenguaje, proyecciones MLP SwiGLU y matrices de enrutadores MoE. Estas construcciones incluyen actualizaciones espectrales unilaterales, de norma de fila, híbridas norma de fila/espectrales, conscientes de fila, conscientes de columna, de norma de fila centrada y espectrales izquierdas. Proporcionan una pila de optimizadores capa por capa de extremo a extremo en la que a cada clase principal de parámetros matriciales se le asigna una actualización cuya equivarianza coincide con su grupo de simetría. Corroboramos este principio mediante experimentos de preentrenamiento en modelos de lenguaje densos y MoE dispersos, incluidas arquitecturas estilo Qwen3-0.6B, Gemma 3 1B, OLMoE-1B-7B y gpt-oss reducidas. En todos estos experimentos, las actualizaciones compatibles con la simetría mejoran consistentemente la pérdida final de validación y, en varios casos, la estabilidad del entrenamiento, en comparación con las actualizaciones AdamW correspondientes.
Las restricciones de despliegue con recursos limitados han hecho que la cuantización de modelos sea esencial para desplegar redes neuronales mientras se mantiene el rendimiento. Por otro lado, la fusión de modelos se ha convertido en una estrategia práctica de bajos recursos para integrar múltiples expertos especializados en tareas o dominios en un solo modelo sin necesidad de entrenamiento conjunto ni servicio de múltiples modelos. En conjunto, la cuantización y la fusión de modelos permiten un flujo de despliegue eficiente con recursos limitados al integrar varios expertos en un modelo de baja precisión. Formulamos este escenario como Cuantización Posterior a la Fusión (PMQ, por sus siglas en inglés). Demostramos que aplicar directamente la cuantización posterior al entrenamiento (PTQ) a un modelo fusionado no es fiable porque se acoplan dos desviaciones distintas: la desviación de cuantización introducida por la reconstrucción de baja precisión y la desviación de fusión relativa a los expertos heredada de la fusión de modelos. Para mitigar estas desviaciones, proponemos E-PMQ, un marco PMQ guiado por expertos que utiliza los pesos de los expertos fuente para proporcionar objetivos de salida guiados por expertos durante la calibración por capas, junto con el anclaje de pesos fusionados para estabilizar la calibración y preservar el comportamiento integrado del modelo fusionado. En la fusión de ocho tareas con CLIP-ViT-B/32, E-PMQ mejora GPTQ de 4 bits del 65,0% al 73,6% bajo Task Arithmetic y del 69,1% al 74,8% bajo TIES-Merging. En configuraciones más exigentes, E-PMQ mejora GPTQ del 34,8% al 76,7% en CLIP-ViT-L/14 con 20 tareas y del 78,26% al 83,34% en FLAN-T5-base GLUE. Estos resultados demuestran que E-PMQ permite una cuantización posterior a la fusión efectiva y un despliegue de baja precisión.
Los modelos de lenguaje grandes multimodales se exploran cada vez más como evaluadores automatizados en entornos clínicos, pero su comportamiento de puntuación en escalas clínicas ordinales sigue siendo poco comprendido. Evaluamos tres familias de modelos de lenguaje grandes de última generación frente a modelos de aprendizaje profundo supervisado para puntuar imágenes del Test del Reloj (CDT) en dos conjuntos de datos públicos utilizando la rúbrica de Shulman. Si bien los Transformers de Visión completamente ajustados logran la mejor calibración (MAE 0.52, precisión dentro de 1 del 91%), los modelos de lenguaje grandes en modo zero-shot siguen siendo competitivos en cuanto a concordancia basada en tolerancia (GPT-5 MAE 0.67, precisión dentro de 1 del 92%) a pesar de un error absoluto mayor. Sin embargo, el análisis por puntuación revela que las tres familias de modelos de lenguaje grandes presentan un pronunciado efecto de tendencia central (compresión sistemática de los extremos): las predicciones se comprimen sistemáticamente hacia el centro de la escala, con sobrepredicción en el extremo inferior (puntuación 0 a 1) y subpredicción en el extremo superior (puntuación 5 a 4). Este efecto afecta desproporcionadamente a los extremos clínicamente críticos, donde una puntuación precisa tiene mayor impacto en las decisiones de cribado para el deterioro cognitivo. Las ablaciones dirigidas muestran que ni los ejemplos de pocas muestras que abarcan todo el rango de puntuación ni la eliminación de terminología clínica de la instrucción eliminan el efecto. Nuestros hallazgos extienden la literatura sobre sesgos en modelos de lenguaje grandes como jueces, desde la evaluación del procesamiento del lenguaje natural hasta la evaluación clínica, y destacan la necesidad de una evaluación consciente de la calibración y de una calibración post-hoc antes de implementar evaluadores basados en modelos de lenguaje grandes en flujos de trabajo de cribado de alto riesgo.
Los Modelos de Razonamiento a Gran Escala (LRMs) abren nuevas oportunidades para la monitorización de la seguridad mediante su razonamiento en Cadena de Pensamiento (CoT). Sin embargo, la CoT no siempre es fiel al resultado final del modelo, lo que socava su fiabilidad como herramienta de monitorización. Para abordar esto, investigamos las representaciones ocultas de los LRMs para determinar si el comportamiento futuro puede predecirse a partir de las representaciones de la instrucción inicial y la CoT. Al evaluar una sonda en cada token generado, construimos una trayectoria de sonda, es decir, la evolución continua de la probabilidad de un concepto a lo largo del proceso de razonamiento. Encontramos que el comportamiento futuro del modelo es más distinguible cuando se examina a lo largo de la trayectoria completa que a partir de una única predicción estática. Para caracterizar estas dinámicas temporales, extraemos características de procesamiento de señales que capturan la volatilidad, la tendencia y el comportamiento de estado estacionario, mejorando significativamente la separación de los estados futuros del modelo. También presentamos dos aportes metodológicos. Primero, los datos de entrenamiento basados en plantillas logran una paridad casi completa con las respuestas del modelo generadas dinámicamente, eliminando la necesidad de una inferencia inicial costosa y etiquetado. Segundo, la elección de la operación de pooling es crítica: los métodos de promedio-pooling y último-token colapsan a un rendimiento casi aleatorio, mientras que el max-pooling alcanza hasta un 95% de AUROC y produce trayectorias de sonda estables. Utilizando cuatro conjuntos de datos y cuatro modelos de razonamiento en los dominios de seguridad y matemáticas, demostramos que las características de las trayectorias codifican dinámicas específicas de la tarea que mejoran la separabilidad de los resultados. Estos hallazgos establecen las trayectorias de sonda como un marco complementario para monitorizar el comportamiento de los LRMs. Advertencia: Este artículo contiene contenido potencialmente dañino.
Los Modelos de Lenguaje de Gran Escala (LLMs) se implementan cada vez más como asistentes científicos de IA, y un creciente conjunto de puntos de referencia evalúa sus capacidades en recuperación de conocimiento, razonamiento, generación de código y uso de herramientas. Sin embargo, estas evaluaciones suelen asumir que el problema científico ya está bien planteado, mientras que la asistencia científica práctica a menudo comienza con una solicitud de usuario mal planteada que debe refinarse mediante diálogo antes de que cualquier cálculo, análisis o experimento pueda realizarse de manera confiable. Presentamos SCICONVBENCH, un punto de referencia para la aclaración en múltiples turnos en la formulación de tareas científicas en cuatro dominios de problemas de ciencia computacional: mecánica de fluidos, mecánica de sólidos, ciencia de materiales y ecuaciones diferenciales parciales (EDP). SCICONVBENCH se enfoca en dos capacidades complementarias: obtener información faltante (desambiguación) y detectar y corregir solicitudes erróneas que contengan información internamente contradictoria (resolución de inconsistencias). Nuestro punto de referencia combina una ontología de tareas estructurada con un marco de evaluación basado en rúbricas, permitiendo la medición sistemática del rendimiento de los LLM en tres dimensiones: comportamiento de aclaración, fundamentación conversacional y fidelidad de la especificación final. Los modelos frontera actuales se desempeñan relativamente bien en la resolución de inconsistencias, pero incluso el mejor modelo resuelve solo el 52.7% de los casos de desambiguación en mecánica de fluidos. Además, encontramos que los LLM frontera frecuentemente hacen suposiciones implícitas y realizan reparaciones implícitas de especificaciones que no están fundamentadas en la conversación con los usuarios. SCICONVBENCH establece una base para evaluar el razonamiento conversacional inicial que requiere un asistente de ciencia computacional confiable. El código y los datos se pueden encontrar en https://github.com/csml-rpi/SciConvBench.
Proponemos un Experto en Acciones autorregresivo (AR) independiente que genera acciones como una secuencia causal continua mientras se condiciona a prefijos de visión-lenguaje actualizables. En contraste con los modelos existentes de Visión-Lenguaje-Acción (VLA) y las políticas de difusión que restablecen el contexto temporal con cada nueva observación y predicen acciones de forma reactiva, nuestro Experto en Acciones mantiene su propio historial a través de una memoria de larga duración y es inherentemente consciente del contexto. Esta estructura aborda el desajuste de frecuencia entre el control rápido y el razonamiento lento, permitiendo un preentrenamiento independiente y eficiente de la sintaxis cinemática y una integración modular con backbones de percepción pesados, asegurando de forma natural una generación de acciones espacio-temporalmente consistente entre los fotogramas. Para sincronizar estas modalidades asíncronas híbridas V-L-A, utilizamos un mecanismo de reanclaje que contabiliza matemáticamente el rezago de percepción tanto durante el entrenamiento como en la inferencia. Experimentos en tareas de manipulación con robots simulados y reales demuestran que el método propuesto puede reemplazar eficazmente los cabezales de acciones basados en fragmentos tradicionales tanto para políticas especialistas como generalistas. AR-VLA exhibe una conciencia de historial superior y trayectorias de acción sustancialmente más suaves, manteniendo o superando las tasas de éxito en las tareas de los VLA reactivos de última generación. En general, nuestro trabajo introduce un esquema escalable de generación de acciones consciente del contexto que proporciona una base estructural sólida para entrenar políticas robóticas efectivas. Código y videos disponibles en https://arvla.insait.ai
Comprender las interacciones sociales requiere razonar sobre señales no verbales sutiles; sin embargo, los modelos de lenguaje grandes multimodales (MLLMs) actuales suelen fallar al identificar quién interactúa con quién en videos con múltiples personas. Presentamos GRASP, un conjunto de datos de razonamiento social a gran escala que conecta preguntas-respuestas (QA) sociales de alto nivel con eventos detallados de mirada y gestos deícticos. GRASP contiene 290K pares de pregunta-respuesta sobre 46K videos que suman 749 horas, organizados según una taxonomía de 16 categorías que abarcan razonamiento sobre mirada, gesto y la combinación de mirada y gesto, junto con GRASP-Bench para evaluación. A diferencia de recursos anteriores que se centran en señales aisladas o en preguntas-respuestas sociales de alto nivel, GRASP construye preguntas a partir de trayectorias de mirada consistentes con la identidad, gestos deícticos y sus composiciones conjuntas en eventos sociales. Además, proponemos la Recompensa de Fundamentación Social (SGR), una señal de aprendizaje que utiliza estos eventos sociales para incentivar a los modelos a razonar sobre los participantes involucrados en cada interacción. Los experimentos muestran que SGR mejora el rendimiento en GRASP-Bench, manteniendo al mismo tiempo un rendimiento de cero disparos en conjuntos de datos relacionados de preguntas-respuestas sobre videos sociales.
Presentamos TopoPrimer, un marco que hace que la estructura topológica global de la población de series sea una entrada explícita para cualquier modelo de pronóstico. TopoPrimer mejora la precisión en diversos dominios, estabiliza los pronósticos ante picos de demanda estacional y reduce la brecha de arranque en frío. Precalculado una vez por dominio mediante homología persistente y coordenadas de haz espectral, TopoPrimer se despliega por token para modelos completamente entrenados y como un adaptador ligero para arquitecturas preentrenadas. De estos dos componentes, las coordenadas de haz son el principal impulsor de la precisión. En cuatro puntos de referencia públicos sobre Chronos y TimesFM, TopoPrimer mejora consistentemente la precisión del pronóstico, con ganancias de hasta un 7,3% en ECM en ECL. La ventaja topológica persiste con una magnitud casi idéntica tanto en modelos de cero disparos como en los ajustados, lo que sugiere que la topología y el entrenamiento por serie capturan señales complementarias. Las ganancias son más pronunciadas en regímenes difíciles. Bajo picos de demanda estacional, los modelos clásicos y de cero disparos se degradan hasta un 50%, mientras que TopoPrimer se mantiene dentro del 10%. En arranque en frío sin historial de ítems, TopoPrimer reduce el MAE en un 27% en comparación con una línea base sin topología.