Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos ABot-Earth 0.5, un marco generativo 3D diseñado para sintetizar vastos entornos 3D continuos a partir de imágenes satelitales geoespacialmente referenciadas de ubicación ubicua. Para lograrlo, proponemos un novedoso modelo generativo formulado directamente sobre la representación de 3D Gaussian Splatting (3DGS). El modelo se entrena con un corpus diverso de reconstrucciones urbanas reales existentes, aprendiendo a generar geometría y texturas realistas. Durante la inferencia, sintetiza nuevas escenas 3D condicionadas únicamente por imágenes satelitales, a una tasa escalable de menos de 10 minutos por kilómetro cuadrado, demostrando un realismo excepcional. El marco está diseñado para ser accesible, con estructuras integradas de nivel de detalle (LOD) jerárquico que permiten la visualización interactiva en tiempo real en motores de mapas basados en web. Este arenero de simulación de alta fidelidad mitiga eficazmente la brecha simulación-realidad (sim-to-real), lo que permite aplicaciones críticas posteriores de IA encarnada, como la navegación en lazo cerrado de UAV. Al proporcionar una solución de costo ultrabajo y alta eficiencia, ABot-Earth 0.5 reduce significativamente las barreras técnicas y financieras para la reconstrucción 3D a gran escala y potencia el futuro de la visualización global de la Tierra digital.
Presentamos Kwai Keye-VL-2.0-30B-A3B, un modelo fundacional multimodal de código abierto basado en Mezcla de Expertos (MoE) diseñado para avanzar en la comprensión de videos largos y la inteligencia agente. Para abordar los desafíos de contextos ultraextensos, redundancia informativa y costos computacionales prohibitivos inherentes a videos de duración horaria, Keye-VL-2.0 es el primero en adaptar DeepSeek Sparse Attention (DSA) a arquitecturas multimodales basadas en GQA, permitiendo el procesamiento sin pérdidas de contextos de 256K a la vez que captura fotogramas críticos y dependencias temporales de largo alcance. Esta arquitectura se sustenta en una infraestructura de entrenamiento e inferencia altamente optimizada, que incluye E/S de video escalable, paralelismo heterogéneo ViT-LM y kernels DSA personalizados que maximizan significativamente el rendimiento y minimizan la sobrecarga computacional. Además, para superar el dilema algorítmico del olvido catastrófico durante el alineamiento multitarea, introducimos la Destilación On-Policy Multi-Maestro entre Modalidades (MOPD) emparejada con Context-RL y Video-RL. Al destilar la retroalimentación densa a nivel de token de maestros obtenida de despliegues on-policy de vuelta a la columna vertebral MoE, que activa solo 3 mil millones de parámetros, Keye-VL-2.0 habilita de forma nativa la colaboración avanzada entre agentes en escenarios de Código, Herramienta y Búsqueda con autocorrección multimodal. Evaluaciones exhaustivas en benchmarks de comprensión de video, anclaje temporal, razonamiento, STEM y agentes demuestran que Keye-VL-2.0-30B-A3B alcanza un rendimiento de vanguardia entre modelos de escala similar, destacando especialmente en localización temporal fina en TimeLens y comprensión de videos largos en Video-MME-v2 y LongVideoBench. Publicamos nuestros puntos de control del modelo para acelerar el progreso de la comunidad hacia aplicaciones agente multimodales escalables y robustas.
Aunque los agentes basados en Modelos de Lenguaje Grande (LLM) han demostrado un rendimiento sólido en tareas complejas, su aprendizaje a menudo se ve limitado por la retroalimentación ineficiente de la interacción y entornos de entrenamiento estáticos, lo que dificulta una generalización más amplia. Para abordar estas limitaciones, este artículo presenta Role-Agent, un marco que aprovecha un único LLM para funcionar simultáneamente como agente y como entorno, permitiendo una coevolución autoiniciada. Role-Agent comprende dos componentes sinérgicos: Mundo-en-Agente (WIA) y Agente-en-Mundo (AIW). En WIA, el LLM actúa como agente y predice estados futuros después de cada acción; la alineación entre los estados predichos y reales se utiliza entonces como recompensa de proceso, fomentando un razonamiento consciente del entorno. En AIW, el LLM analiza los modos de fallo de trayectorias fallidas y recupera tareas con patrones de fallo similares, remodelando así la distribución de los datos de entrenamiento para una práctica dirigida. Los experimentos en múltiples puntos de referencia muestran que Role-Agent mejora consistentemente el rendimiento, obteniendo una ganancia promedio de más del 4% sobre bases de referencia sólidas.
Los agentes de IA dependen de un armazón de habilidades, herramientas y flujos de trabajo para resolver problemas complejos. La mejora continua de este armazón es esencial para adaptarse a nuevas tareas. Sin embargo, los métodos de optimización existentes suelen requerir conjuntos de validación con datos reales, y dichos datos etiquetados son difíciles de obtener en entornos prácticos de despliegue. Para abordar este problema, introducimos la Optimización Retrospectiva del Armazón (RHO), un método autosupervisado que optimiza el armazón del agente utilizando únicamente trayectorias pasadas. Específicamente, RHO selecciona un conjunto núcleo diverso de tareas desafiantes a partir de trayectorias pasadas y las resuelve nuevamente en paralelo. El agente analiza estas ejecuciones mediante autovalidación y autoconsistencia, luego genera actualizaciones candidatas del armazón y selecciona la más efectiva según su propia autopreferencia por pares. Evaluamos RHO en tres dominios diversos, que abarcan ingeniería de software, trabajo técnico y trabajo de conocimiento. En particular, una sola ronda de optimización mejora la tasa de aprobación en SWE-Bench Pro del 59% al 78% sin necesidad de calificación externa. Además, nuestro análisis demuestra que RHO apunta efectivamente a modos de fallo previos. Como resultado, el armazón optimizado altera los patrones de comportamiento del agente y mantiene una mayor precisión durante sesiones de largo horizonte temporal.
Los modelos de lenguaje de gran escala están cada vez más llamados a manejar tareas complejas y de horizonte largo en el mundo real, cuyas demandas de contexto pueden crecer sin límite, aunque las ventanas de contexto de los modelos siguen siendo inherentemente finitas. Trabajos recientes exploran un paradigma donde un agente principal descompone tareas y asigna subtareas a subagentes, quienes las ejecutan y devuelven únicamente resultados resumidos, conservando así el presupuesto de contexto del agente principal. Sin embargo, realizar esto de forma adecuada requiere inteligencia de delegación: la capacidad de descomponer tareas complejas, determinar cuándo y qué delegar, e integrar los resultados devueltos en el flujo de trabajo en curso. Los datos de entrenamiento para esta capacidad escasean en el texto natural existente y, hasta donde sabemos, cómo sintetizar dichos datos y entrenar modelos para adquirir esta capacidad permanece en gran medida inexplorado en la comunidad de código abierto. Para cerrar esta brecha, presentamos una exploración preliminar centrada en la investigación profunda, una tarea de agente representativa de horizonte largo. En concreto, diseñamos una herramienta de guía que orienta al modelo hacia una descomposición y delegación de tareas de alta calidad, al tiempo que restringe a los subagentes a devolver resultados adecuadamente para respaldar el flujo de trabajo del agente principal. Las trayectorias guiadas por esta herramienta codifican de manera natural decisiones de delegación correctas, las cuales utilizamos como datos de ajuste fino supervisado para internalizar la inteligencia de delegación en los pesos del modelo. Nuestro modelo resultante, SearchSwarm-30B-A3B, alcanza 68,1 en BrowseComp y 73,3 en BrowseComp-ZH, los mejores resultados entre todos los modelos de escala comparable. Publicaremos nuestra herramienta de guía, los pesos del modelo y los datos de entrenamiento para facilitar futuras investigaciones.
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en el estándar para mejorar el razonamiento de los LLM. Sin embargo, los mecanismos de región de confianza estilo PPO existentes siguen siendo independientes de la posición, ya que imponen umbrales uniformes en todos los tokens de manera individual. Este tratamiento puntual entra en conflicto con la generación autorregresiva en dos aspectos críticos. Primero, los umbrales uniformes ignoran la asimetría autorregresiva. Las desviaciones en etapas tempranas producen una deriva acumulativa a nivel de secuencia, lo que provoca que los umbrales estáticos regulen insuficientemente la divergencia temprana y restrinjan excesivamente la exploración en etapas tardías. Segundo, evaluar la divergencia a nivel de token de forma aislada ignora la deriva acumulativa del prefijo, otorgando el mismo margen de divergencia independientemente de cuánto se haya desviado ya el historial condicionante con respecto a la política de despliegue. Para abordar esta limitación, proponemos CPPO (Optimización de Política con Divergencia Acumulativa del Prefijo), una regla de enmascaramiento a nivel de token que alinea las actualizaciones con una cota de mejora de política en horizonte finito mediante dos mecanismos acoplados. Primero, un umbral ponderado por posición impone límites más estrictos en posiciones tempranas, cuyos efectos persisten más tiempo, relajando las restricciones para los tokens en etapas tardías. Segundo, un presupuesto acumulativo del prefijo rastrea las desviaciones históricas, restringiendo dinámicamente la divergencia adicional a nivel de token para evitar errores acumulativos a lo largo del prefijo. Empíricamente, CPPO mejora la estabilidad del entrenamiento y aumenta significativamente la precisión en el razonamiento en varias escalas de modelo.
Los actuales Modelos de Lenguaje Visual (VLM) tienen dificultades con vídeos de horas de duración, ya que procesar secuencias visuales completas provoca una explosión prohibitiva de tokens y una dilución de la atención. Para superar esto, presentamos MemDreamer, que desacopla la percepción y el razonamiento, transformando la comprensión de vídeos largos en un proceso de exploración agéntico. Como marco de trabajo plug-and-play, transmite vídeos de forma incremental para construir una Memoria Jerárquica en Grafo, una arquitectura de tres niveles de arriba abajo para la abstracción semántica, anclada en un grafo fundamental que captura relaciones espaciotemporales y causales. Durante la inferencia, el modelo de razonamiento emplea una recuperación aumentada por herramientas agénticas, navegando por las jerarquías, buscando nodos y recorriendo aristas lógicas mediante un bucle de Observación-Razonamiento-Acción. Los experimentos muestran que MemDreamer logra resultados de estado del arte (SOTA) en cuatro bancos de pruebas principales, reduciendo la brecha con los expertos humanos a solo 3,7 puntos. Limita la ventana de contexto de razonamiento a apenas el 2% de la ingesta de contexto completo, al tiempo que ofrece una ganancia absoluta de precisión de 12,5 puntos. Además, el análisis estadístico revela una fuerte correlación lineal positiva entre el rendimiento de un VLM en razonamiento lógico y en bancos de pruebas de comprensión de vídeos largos, estableciendo el escalado de capacidades agénticas como un nuevo paradigma para la comprensión multimodal.
Trabajos recientes han demostrado que el aprendizaje por refuerzo (RL) online puede mejorar sustancialmente la calidad y la alineación de los modelos de matching de flujo para la generación de imágenes y videos. Métodos como Flow-GRPO y CPS modelan el proceso de eliminación de ruido como un Proceso de Decisión de Markov y aplican recorte de ratios al estilo PPO para imponer una región de confianza. Sin embargo, sostenemos que el recorte de ratios es estructuralmente inadecuado para los modelos de flujo: la relación de probabilidad entre las políticas nueva y antigua es una estimación ruidosa de una sola muestra de la verdadera divergencia de políticas, lo que conduce a una restricción excesiva en algunas regiones de la trayectoria y a una restricción insuficiente en otras. Proponemos Flow-DPPO (Optimización de Política Proximal por Divergencia de Flujo), que reemplaza el recorte de ratios con una restricción proximal de divergencia. Una observación clave es que la política por paso en los modelos de flujo es gaussiana, lo que permite calcular de forma exacta y eficiente la divergencia KL entre las políticas antigua y nueva. Flow-DPPO emplea una máscara de divergencia asimétrica que bloquea las actualizaciones de gradiente solo cuando estas se alejan simultáneamente de la región de confianza y violan el umbral de divergencia. Los experimentos muestran que Flow-DPPO logra recompensas más altas con una mejor eficiencia proximal-KL, alivia el olvido catastrófico, promueve una optimización multiobjetivo balanceada y permite un entrenamiento estable en múltiples épocas donde el recorte de ratios se degrada. El código y los modelos están disponibles en https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.
La animación controlada de personajes requiere transferir el movimiento de una secuencia conductora a un personaje de referencia. Trabajos previos dependen en gran medida de representaciones intermedias, como esqueletos de pose para representar el movimiento o fondos enmascarados para representar el entorno, lo que inevitablemente conlleva pérdida de información. Para abordar esto, presentamos SCAIL-2, un marco que evita dichos intermediarios y logra una animación de personajes de extremo a extremo. Al concatenar directamente los videos conductores a la secuencia, el modelo puede obtener toda la información visual necesaria a partir del video de entrada. Para solventar la falta de datos de extremo a extremo, unificamos las subtareas de animación de personajes con condiciones desacopladas y luego curamos un pipeline para sintetizar MotionPair-60K, un conjunto de datos de transferencia de movimiento de extremo a extremo que contiene tareas heterogéneas de animación de personajes. Para lograr la unificación, utilizamos condicionamiento de máscara en contexto y RoPE específico de modo como guía suave más allá de las instrucciones textuales y la información visual bruta. Para abordar la discrepancia sintética en regiones detalladas, proponemos DPO consciente del sesgo para construir ítems de preferencia y mitigar los errores. Experimentos exhaustivos demuestran que nuestro método supera significativamente a los enfoques de última generación en diversas tareas de animación de personajes. Un subconjunto grande de datos sintéticos, así como los pesos del modelo, se publicarán en nuestra página del proyecto: https://teal024.github.io/SCAIL-2/.
Los modelos de sincronización labial basados en difusión logran una alta calidad visual y una sólida alineación audiovisual, pero la atención bidireccional de secuencia completa y los numerosos pasos de eliminación de ruido los hacen poco prácticos para la inferencia en tiempo real. Presentamos Lip Forcing, según nuestro conocimiento el primer método de difusión autorregresivo para la sincronización labial de video a video (V2V), que destila un maestro de difusión de video bidireccional condicionado por audio de 14B en estudiantes causales. En la inferencia, los estudiantes generan cada fragmento en solo dos pasos de eliminación de ruido sin CFG en tiempo de inferencia, lo que permite la sincronización labial en tiempo real. Un análisis de la trayectoria del maestro específico para sincronización labial revela una compensación entre fidelidad y sincronización del CFG: las predicciones sin CFG favorecen la fidelidad de referencia, mientras que las predicciones guiadas por CFG favorecen la sincronización dentro de una banda de trayectoria media. Lip Forcing traduce este hallazgo en tres componentes derivados del análisis: Sync-Window DMD, un programa de inferencia de dos pasos y una recompensa basada en SyncNet. Validamos Lip Forcing en dos escalas de estudiantes, ambos destilados del maestro de 14B. El estudiante de 1.3B alcanza la transmisión en tiempo real a 31 FPS, 17.6 veces más rápido que su modelo bidireccional de la misma escala. El estudiante de 14B, el modelo de difusión más grande reportado para la sincronización labial V2V, funciona 39.8 veces más rápido que su maestro con una fidelidad de referencia comparable. El tiempo hasta el primer fotograma es inferior a un milisegundo en ambas escalas, muy por debajo de todos los modelos de referencia de difusión.
Presentamos WorldOlympiad, un punto de referencia para diagnosticar modelos del mundo basados en vídeo a través de la fidelidad física, la consistencia geométrica y la fidelidad de interacción. Si bien los puntos de referencia existentes a menudo se centran en la calidad visual, la alineación semántica o la coherencia temporal a corto plazo, proporcionan información limitada sobre si los vídeos generados obedecen reglas físicas, preservan una estructura 3D coherente y mantienen interacciones controlables a lo largo de horizontes largos. Para abordar esta brecha, WorldOlympiad descompone la evaluación del modelo del mundo en tres dimensiones complementarias. La pista física utiliza segmentación de objetos y MLLM como juez para evaluar si los vídeos generados siguen reglas interpretables en mecánica, fenómenos térmicos y propiedades de materiales. La pista geométrica reconstruye los vídeos generados con Gaussian splatting y evalúa la consistencia estructural, la coherencia entre vistas y la alineación de la trayectoria de la cámara. La pista de interacción evalúa si los despliegues generados siguen instrucciones de acción complejas y mantienen transiciones suaves y coherentes a través de fragmentos de vídeo consecutivos. WorldOlympiad abarca además tres escenarios principales de aplicación descendente, que incluyen videojuegos, robótica y vídeos generales del mundo real, capturando diversos desafíos que van desde el control interactivo y la manipulación corpórea hasta el movimiento en dominio abierto y la dinámica de cámara. En conjunto, estas pistas y escenarios conforman un conjunto de evaluación escalable e interpretable que expone modos de fallo más allá de la calidad genérica del vídeo. Experimentos con modelos de última generación revelan brechas sustanciales en el razonamiento físico, la consistencia 3D y la interacción a largo plazo, subrayando la necesidad de protocolos de evaluación más estructurados para modelos generativos del mundo.
El aprendizaje por refuerzo (RL) se ha convertido en un componente clave del post-entrenamiento de modelos de lenguaje a gran escala (LLMs). En la práctica, el RL en LLMs suele ser fuera de política debido al desajuste entre entrenamiento e inferencia y al estancamiento de la política, lo que hace que el control de la región de confianza sea esencial para una optimización estable. Métodos principales como PPO y GRPO aproximan este control con un mecanismo de recorte de razón, pero la razón de importancia puede ser un proxy deficiente para el cambio distribucional en vocabularios de cola larga. Trabajos recientes como DPPO abordan este desajuste reemplazando el recorte basado en razón con una máscara basada en divergencia, generando una región de confianza definida por el cambio absoluto de probabilidad del token muestreado. Sin embargo, DPPO aún depende de una máscara dura: una vez que un token cruza el límite de la región de confianza en una dirección dañina, su gradiente se descarta en lugar de corregirse. Para abordar esto, proponemos la Optimización de Política Regularizada por Divergencia (DRPO), que reemplaza la máscara dura con un regularizador cuadrático suave ponderado por ventaja sobre el cambio de política. DRPO preserva la misma geometría de región de confianza que DPPO mientras induce pesos de gradiente acotados y continuos que atenúan actualizaciones divergentes y proporcionan señales correctivas más allá del límite. Experimentos a través de escalas de modelo, arquitecturas y configuraciones de precisión muestran que DRPO mejora la estabilidad y eficiencia del entrenamiento de RL en LLMs.
En este artículo, proponemos EEVEE, el primer marco de aprendizaje de indicaciones en tiempo de prueba con múltiples conjuntos de datos para agentes LLM, que permite el aprendizaje de indicaciones en tiempo de prueba bajo flujos de tareas del mundo real. Los métodos existentes están diseñados principalmente para entornos con un solo conjunto de datos, mientras que las aplicaciones del mundo real requieren que los modelos manejen flujos de entrada heterogéneos provenientes de múltiples conjuntos de datos, dominios y distribuciones de tareas, lo que limita su aplicabilidad práctica. Para mitigar la interferencia entre conjuntos de datos, EEVEE introduce un enrutador que particiona las entradas entrantes en clústeres de tareas y las asigna a configuraciones de indicaciones adecuadas. Este diseño se optimiza mediante una estrategia de co-evolución enrutador-indicación, que emplea fases intercaladas de aprendizaje del enrutador y de las indicaciones para abordar su dependencia mutua. Los experimentos realizados en múltiples conjuntos de datos demuestran que el marco mejora la robustez bajo flujos de datos heterogéneos, manteniendo al mismo tiempo la capacidad de aprendizaje y eficiencia en un único punto de referencia. Específicamente, EEVEE mejora la puntuación media en múltiples puntos de referencia en 10,38 y 24,32 puntos en comparación con Qwen3-4B-Instruct y DeepSeek-V3.2, superando a los métodos de vanguardia GEPA y ACE hasta en un 37,2% y un 48,2%.
Este artículo presenta ARM, un modelo autorregresivo basado en representaciones discretas que unifica la comprensión, generación y edición de imágenes dentro de un marco de predicción del siguiente token. ARM se sustenta en tres contribuciones: primero, entrenamos un tokenizador visual semántico discreto que convierte imágenes en secuencias compactas de tokens. Nuestro tokenizador se supervisa con múltiples objetivos que promueven conjuntamente la discriminabilidad semántica, la alineación lingüística y la reconstrucción fiel, apoyando así tareas diversas en un espacio latente compartido. Con esto, entrenamos un modelo autorregresivo de 7B sobre secuencias de tokens de texto e imagen a gran escala, desarrollando de forma fluida capacidades de percepción y generación visión-lenguaje. Finalmente, para mejorar aún más el comportamiento alineado con preferencias en la generación de texto a imagen y la edición guiada por instrucciones, ARM aplica aprendizaje por refuerzo (RL) para optimizar objetivos a nivel de tarea, como la calidad visual, la adherencia a instrucciones y la coherencia de edición. Sorprendentemente, los resultados muestran que RL no solo mejora sustancialmente el rendimiento en las tareas objetivo (por ejemplo, elevando WISE general de 0.50 a 0.56, y GEdit-Bench-EN G_O de 5.75 a 6.68), sino que también induce sinergias entre tareas de generación y edición de texto a imagen. En conjunto, estos hallazgos destacan el modelado autorregresivo, cuando se combina con representaciones sólidas y optimización de preferencias, como una base escalable para la inteligencia multimodal. Código: https://github.com/wdrink/ARM.
En los últimos años, se ha observado una rápida evolución de los agentes de inteligencia artificial hacia el manejo de tareas complejas del mundo real. Sin embargo, los puntos de referencia existentes rara vez evalúan si los agentes pueden operar interfaces gráficas de usuario para completar flujos de trabajo profesionales de alto valor y largo plazo en diversos dominios. Los puntos de referencia actuales para interfaces gráficas de usuario (GUI) siguen centrándose predominantemente en software de propósito general, aplicaciones relativamente simples y tareas de corto plazo, lo que deja en gran parte desconocido si los agentes modernos pueden seguir instrucciones de usuarios para operar de forma autónoma software profesional específico de dominio y llevar a cabo trabajo económicamente valioso de extremo a extremo. Para abordar esta brecha, presentamos Workflow-GYM, un punto de referencia para tareas GUI de largo plazo centrado en dominios profesionales y entornos de software especializados. A través de extensos experimentos con modelos de vanguardia, encontramos que incluso los modelos más sólidos logran tasas de éxito ligeramente superiores al 30%, lo que resalta que los flujos de trabajo GUI profesionales de largo plazo siguen siendo muy desafiantes para los agentes GUI actuales. Análisis posteriores revelan que los agentes actuales tienen dificultades para mantener la consistencia en flujos de trabajo de largo plazo, exhibiendo con frecuencia omisión de etapas del flujo de trabajo, propagación de errores, deriva del objetivo y comprensión insuficiente de los entornos de software profesional. Nuestros hallazgos brindan información importante sobre las limitaciones de los sistemas de agentes actuales y sugieren direcciones clave para la próxima generación de investigación en agentes GUI.
La memoria externa fundamenta eficazmente los modelos de lenguaje grandes (LLMs) y los modelos de visión-lenguaje (VLMs) para la respuesta a preguntas (QA) basándose en evidencia multimodal relevante. Sin embargo, los paradigmas de memoria existentes representan cada elemento de memoria en formas de texto e imagen sin procesar, por lo que los sistemas basados en recuperación deben pasar los textos o imágenes recuperados a los LLMs/VLMs generativos, lo que resulta en un alto consumo de tokens y presión de almacenamiento, volviéndolos inasequibles para aplicaciones con recursos limitados. Proponemos Latent Memory, un paradigma de memoria en el espacio latente que reemplaza cada elemento de evidencia de texto o imagen sin procesar por un único token latente de alta dimensión producido por un pequeño LLM/VLM compresor. En lugar de recuperar evidencia sin procesar para la generación, Latent Memory opera en un espacio de representación latente unificado: la consulta se incrusta en este espacio para recuperar los tokens latentes relevantes, y los tokens latentes recuperados se introducen directamente como indicaciones a un LLM o VLM preentrenado para la generación de respuestas. Para que cada token latente sea simultáneamente informativo para la reconstrucción, recuperación y generación, entrenamos al compresor con objetivos de reconstrucción, contraste y destilación de manera unificada de extremo a extremo. Latent Memory se evalúa en siete conjuntos de prueba de QA solo de texto (p. ej., HotpotQA) y en conjuntos de prueba de QA multimodal, donde logra un rendimiento de QA competitivo en comparación con las líneas base avanzadas de RAG, mientras consume de 3 a 10 veces menos tokens del generador. También proporciona el rendimiento más sólido de QA fundamentado en imágenes en WebQA. El código está disponible en https://github.com/zz1358m/Latent-Memory-Master.
La supervisión fina con razonamiento encadenado (CoT-SFT) se adopta ampliamente para mejorar la capacidad de razonamiento, pero encontramos que degrada sistemáticamente la recuperación de contexto largo en modelos híbridos de atención lineal. En arquitecturas como HypeNet y Jet-Nemotron, el rendimiento de recuperación en la prueba Needle-In-A-Haystack (NIAH) se deteriora sustancialmente después de CoT-SFT, y la degradación se vuelve más severa bajo condiciones de recuperación más difíciles y ventanas de contexto más largas. Por ejemplo, HypeNet-9B en NIAH-S2@256K disminuye del 67,2% al 9,4%. Atribuimos esto a que CoT-SFT sesga los gradientes de atención hacia patrones de corto alcance, alterando las proyecciones consulta-clave (W_Q, W_K) responsables del enrutamiento de largo alcance. Motivados por esta observación, proponemos QK-Restore, un método sin entrenamiento que restaura únicamente W_Q y W_K del punto de control anterior a SFT, preservando todos los demás parámetros posteriores a SFT. Además, introducimos una variante Procrustes para equilibrar la preservación del enrutamiento y la adaptación al razonamiento. En distintas arquitecturas, QK-Restore restaura consistentemente la capacidad de contexto largo sin costo de entrenamiento, manteniendo el rendimiento de razonamiento; por ejemplo, en HypeNet-5B mejora S3@256K del 65,4% al 76,4% mientras mantiene un sólido rendimiento de razonamiento.
Los modelos de lenguaje se utilizan cada vez más como base de los sistemas de conversión de texto a voz (TTS), pero entendemos poco sobre las representaciones que construyen cuando el texto y los tokens de voz generada comparten un único flujo residual. Entrenamos autoencoders dispersos BatchTopK en el modelo de lenguaje base de CosyVoice3 e introducimos un pipeline de autointerpretación consciente de la modalidad que etiqueta cada característica según dónde se activa: contexto de prefijo de texto, fragmentos de voz de 1 segundo, o ambos. Las características recuperadas son interpretables y abarcan fonemas, risas, indicaciones de acento y género del hablante. La manipulación a través del espacio latente del SAE muestra que estas características son causales y no meramente descriptivas: intervenciones específicas aumentan la probabilidad de risa de 0,02 a 0,79, invierten el género percibido del hablante y controlan la velocidad del habla sin alterar el contenido verbal. Por lo tanto, las características del SAE sirven tanto como objetos de interpretabilidad como direcciones de control para la síntesis de TTS.
Las habilidades de los agentes ocupan una posición privilegiada en el flujo de trabajo de los agentes, ya que se espera que estos las sigan y ejecuten implícitamente, lo que convierte a las habilidades de terceros en una superficie de ataque vulnerable. Estudios existentes han revelado comportamientos inseguros de los agentes inducidos por ataques basados en habilidades, pero principalmente evalúan habilidades envenenadas dentro de una única ejecución de tarea y enumeran daños mediante listas de riesgo ad hoc. Para superar estas limitaciones, presentamos SkillHarm, un benchmark de ataques basados en habilidades a lo largo del ciclo de vida del uso de habilidades, acompañado de una taxonomía sistemática de riesgos relevantes para las habilidades. SkillHarm evalúa dos escenarios de ataque: Envenenamiento de Carga Fija (FPP), donde un paquete de habilidades envenenado fijo compromete directamente cualquier sesión de tarea que lo invoque, y Envenenamiento Automutante (SMP), donde una ejecución inicialmente benigna muta silenciosamente el contenido persistente de la habilidad, difiriendo el daño hasta una reutilización posterior. Además, define 12 tipos de riesgo basados en el componente del flujo de trabajo del agente al que se dirige el daño: tuberías de datos, entornos del sistema y autonomía del agente. Para instanciar estos ataques a escala, construimos AutoSkillHarm, un pipeline de construcción automatizado con agentes de codificación impulsados por arneses en lenguaje natural. El benchmark resultante contiene 879 muestras de ataque en 71 habilidades. Los experimentos muestran que los agentes actuales siguen siendo vulnerables, con tasas de éxito de ataque de hasta el 86.3% en FPP y el 69.3% en SMP. Nuestro análisis revela además un riesgo latente: muchos aparentes fallos de ataque se deben a que el agente no interactúa con el archivo envenenado, en lugar de una resistencia genuina, y las defensas actuales aún no logran mitigar la amenaza de manera confiable.
Los agentes lingüísticos recurren cada vez más a habilidades reutilizables para mejorar la automatización web en múltiples pasos en tareas relacionadas. Una línea de trabajo creciente estudia el aprendizaje en línea de habilidades, donde los agentes inducen continuamente habilidades a partir de trayectorias de tareas previas y las reutilizan en nuevas tareas sobre la marcha. Sin embargo, los métodos existentes reutilizan principalmente las habilidades a nivel de tarea: un conjunto fijo de habilidades se recupera según la instrucción inicial de la tarea y se mantiene fijo durante toda la ejecución. Esta estrategia estática no está alineada con la ejecución web, donde la acción adecuada siguiente depende no solo del objetivo de la tarea, sino también del estado actual de la página web, que a menudo transita hacia situaciones que las habilidades iniciales no logran cubrir. Para abordar esta brecha, proponemos Recuperación Dinámica Basada en el Estado (SGDR, por sus siglas en inglés), un método de aprendizaje en línea de habilidades que permite la reutilización gradual de habilidades para agentes web. SGDR consta de tres componentes: un proceso de extracción por ventana deslizante que convierte trayectorias completadas en subprocedimientos reutilizables invocables en estados intermedios de ejecución, una representación dual texto-código que conecta la recuperación de habilidades con la acción ejecutable, y un mecanismo de recuperación dinámica basada en el estado que empareja habilidades tanto con el objetivo de la tarea como con el estado actual de la página web. Los experimentos en WebArena en cinco dominios muestran que SGDR supera consistentemente a las líneas base fuertes, logrando tasas de éxito promedio del 37.5% con GPT-4.1 y del 24.3% con Qwen3-4B, lo que corresponde a ganancias relativas del 10.6% y el 10.0% sobre la línea base más fuerte, respectivamente. El código está disponible en https://github.com/plusnli/skill-dynamic-retrieval.
A medida que los modelos de aprendizaje profundo escalan, gestionar, inspeccionar y modificar puntos de control (checkpoints) extensos se ha vuelto cada vez más desafiante. Los investigadores frecuentemente necesitan alterar los pesos del modelo para reestructuración de capas, conversión de precisión, factorización de bajo rango y depuración arquitectónica; sin embargo, estos flujos de trabajo suelen depender de frágiles scripts ad-hoc en Python. Aquí presentamos BrainSurgery, una herramienta para una "cirugía de tensores" robusta y reproducible sobre puntos de control de redes neuronales, junto con una demostración del sistema que abarca cuatro ejemplos y tres casos de estudio, desde el reciclaje de modelos hasta la extracción de LoRA. Al abstraer los formatos de almacenamiento y la gestión de memoria, BrainSurgery ejecuta transformaciones complejas mediante planes declarativos en YAML. Admite modificaciones estructurales, transformaciones matemáticas y reformateo de tensores mediante expresiones regulares y direccionamiento estructural, mientras que aserciones integradas validan formas, tipos de datos y valores de los tensores para evitar errores silenciosos. Prevemos que BrainSurgery proporcionará una base sólida para futuras investigaciones gracias a sus operaciones reproducibles y validadas.
La asignación de crédito a nivel de tokens sigue siendo un obstáculo clave para el aprendizaje por refuerzo (RL) en modelos de lenguaje de gran escala (LLMs), donde las recetas de RL típicamente tratan todos los tokens por igual, sin distinguir entre pasos de razonamiento decisivos, formato rutinario o relleno fluido. Intentos recientes aprovechan señales internas del modelo para asignar crédito más granular, pero a menudo son heurísticas puntuales que ignoran la estructura global de la propagación de la información. Proponemos FlowTracer, un marco de RL que rastrea el flujo de razonamiento orientado a la respuesta en un grafo acíclico dirigido inducido por la atención, en el cual los nodos corresponden a tokens y las capacidades de los arcos provienen de pesos de atención agregados, y deriva el crédito de tokens a partir de esta estructura global. Las capacidades de los arcos se re-ponderan para retener solo la influencia que puede alcanzar la región de la respuesta, mientras se impone la conservación local del flujo para que los tokens intermedios no pierdan ni ganen masa efectiva debido a la longitud de la ruta o ramas irrelevantes. Sobre este grafo, FlowTracer extrae una columna vertebral del flujo de información que conecta la pregunta con la respuesta y puntúa los tokens según el rendimiento del flujo, revelando hubs de alto impacto y puntos de control de agregación que median dependencias de largo alcance. Estas importancias derivadas se utilizan para dar forma a las recompensas a nivel de token, permitiendo que las señales de aprendizaje se centren precisamente en los tokens que enrutan la información hacia (o alejándola de) las respuestas correctas, y proporcionando mejoras de rendimiento consistentes en una variedad de tareas de razonamiento.
Los agentes basados en modelos de lenguaje grande (LLM) se utilizan cada vez más en entornos textuales interactivos, desde la navegación web y la edición de código hasta el uso de herramientas y el diálogo de largo horizonte. Sin embargo, muchos siguen siendo en gran medida reactivos, mapeando observaciones a acciones sin un modelo explícito de cómo estos entornos están estructurados y evolucionan. Esto motiva los modelos de mundo textual (TWM): modelos de transición sobre estados textuales que, dado un estado y una acción candidata, predicen la página web resultante, la salida del terminal, la respuesta de la API o la réplica del usuario, apoyando así la planificación, el aprendizaje eficiente y la evaluación fundamentada. Revisamos sistemáticamente los modelos de mundo textual para agentes basados en LLM, organizados en torno a un marco formal y el ciclo de vida del agente: (1) Fundamentos, definiendo modelos de mundo textual y caracterizándolos por representación de estado y dominio de anclaje; (2) Construcción, taxonomizando los paradigmas de LLM como WM y código como WM y revisando métodos para construirlos; (3) Aplicación, examinando cómo los modelos de mundo apoyan a los agentes en tiempo de entrenamiento a través de síntesis de experiencia y en tiempo de inferencia mediante planificación, verificación y adaptación; y (4) Evaluación, cubriendo tanto la evaluación del propio modelo de mundo como su uso como entorno de evaluación para agentes. Nuestro objetivo es consolidar esta área en rápido desarrollo, clarificar su espacio de diseño y destacar desafíos abiertos para la investigación futura.
Los agentes de investigación profunda han despertado un creciente interés por su capacidad para recopilar información en línea a gran escala con el fin de adquirir conocimiento objetivo, y los esfuerzos recientes han pasado de la búsqueda de información puramente textual a entornos multimodales. Sin embargo, los flujos de trabajo agentivos existentes se alinean en gran medida con los modelos de acumulación de evidencia, que agregan evidencia de forma lineal y carecen de mecanismos fundamentados para manejar información contradictoria proveniente de modalidades heterogéneas. Para abordar esta limitación, proponemos Struct-Searcher, un flujo de trabajo agentivo estructural fundamentado en la teoría de revisión de creencias, que mantiene explícitamente un gráfico estructural multimodal en evolución a lo largo del proceso de razonamiento, permitiendo una búsqueda profunda de información multimodal eficaz y consciente de las contradicciones. Experimentos exhaustivos en múltiples conjuntos de datos de referencia y modelos base demuestran que Struct-Searcher es (1) conectable y funcional e independiente del modelo, logrando una mejora relativa de precisión promedio del 17.2 % en BrowseComp-VL en cinco modelos base diferentes; (2) de alto rendimiento, superando consistentemente a los modelos de visión y lenguaje (VLM) avanzados y a los agentes de investigación profunda, con mejoras relativas de precisión del 3.7 % en MM-BrowseComp, del 1.5 % en HLE-VL y del 0.7 % en BrowseComp-VL con respecto al segundo mejor enfoque competidor.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) enfrentan con frecuencia solicitudes que deberían ser rechazadas, lo que genera un equilibrio entre utilidad y prevención de daños. Sin embargo, los propios rechazos pueden resultar útiles. En interacciones de alto riesgo que involucran crisis, coerción o intenciones en escalada, un incumplimiento abrupto puede prevenir daños inmediatos, pero aun así no logra apoyar las necesidades de la persona detrás de la solicitud. Presentamos PsychoSafe, un marco de rechazo fundamentado psicológicamente que reformula el rechazo como una comunicación de apoyo estructurada, basada en estrategias de intervención respaldadas por evidencia. Para desarrollar PsychoSafe, construimos un corpus de 8019 pares de instrucción y respuesta que abarcan cinco dominios de riesgo psicológicamente relevantes, y aplicamos ajuste fino mediante indicaciones y ajuste fino eficiente en parámetros a Qwen 3.5 27B. En un conjunto de validación equilibrado de 500 indicaciones, evaluado con un evaluador LLM y validado mediante calificaciones humanas, el uso de indicaciones con PsychoSafe mejora la calidad general del rechazo en un 28.1% en comparación con una línea base genérica, con ganancias particularmente sólidas en la derivación a recursos externos (+46.8%) y la fundamentación psicológica (+34.8%), al tiempo que preserva el rendimiento posterior en tareas que no implican rechazo. El ajuste fino logra tasas casi perfectas de rechazo y derivación a recursos, pero reduce la relevancia de las respuestas. Evaluaciones adicionales en SORRY-Bench y XSTest muestran una sólida robustez dentro del dominio, pero una generalización limitada fuera del dominio, lo que sugiere que el trabajo futuro debería diversificar los datos de ajuste fino para ayudar a los modelos a aplicar las intervenciones de manera selectiva en lugar de esquemática.
Los modelos de aprendizaje profundo existentes para la eliminación de ruido en imágenes de Tomografía por Emisión de Positrones (PET) a menudo sufren una grave degradación de su rendimiento ante cambios en la distribución, lo que restringe fundamentalmente su despliegue clínico robusto. Esta falta de generalización se deriva del paradigma convencional de modelos de parámetros fijos, que no pueden adaptarse a variaciones en los datos de prueba (por ejemplo, niveles de dosis o tipos de escáner) después del entrenamiento. Para superar esta limitación y lograr una generalización robusta, presentamos U-TTT, un novedoso modelo en forma de U que integra capas de Entrenamiento en Tiempo de Prueba (TTT) para ajustar dinámicamente los parámetros del modelo durante la inferencia mediante auto-supervisión, adaptándose así a las características específicas de cada instancia de prueba. Además, para capturar de manera integral las degradaciones complejas de los datos PET 3D, U-TTT cuenta con un mecanismo de adaptación de dominio dual que comprende una capa de Entrenamiento en Tiempo de Prueba Espacial (S-TTT) y una capa de Entrenamiento en Tiempo de Prueba en Frecuencia (F-TTT). La capa S-TTT captura y corrige las degradaciones estructurales espaciales, mientras que la capa F-TTT suprime los espectros de ruido globales y restaura los delicados detalles de alta frecuencia. Experimentos exhaustivos demuestran que U-TTT logra un rendimiento de eliminación de ruido en PET de última generación y exhibe una generalización superior bajo cambios desafiantes en la distribución, incluyendo tanto niveles de dosis como escáneres no vistos. Nuestro código estará disponible en https://github.com/Yaziwel/U-TTT.
Trabajos previos han demostrado que el ajuste fino de modelos de lenguaje grandes con salidas maliciosas o incorrectas en dominios estrechos puede inducir un desalineamiento amplio y un comportamiento dañino, un fenómeno conocido como desalineamiento emergente. Sin embargo, los métodos eficientes para revertir dicho desalineamiento siguen siendo limitados. En este trabajo, realizamos dos contribuciones. Primero, identificamos el ajuste fino por adulación (sycophancy fine-tuning), es decir, entrenar modelos para que acepten pasivamente las opiniones incorrectas de los usuarios, como un impulsor previamente poco explorado del desalineamiento emergente, y mostramos que induce un comportamiento desalineado amplio y severo. Segundo, proponemos Alignment Gating, un método eficiente para revertir el desalineamiento emergente que inserta compuertas aprendibles y controlables en el modelo durante el ajuste fino. A través del ajuste fino, estas compuertas aprenden a identificar las representaciones internas responsables de las respuestas inseguras. Así, amplificar o suprimir estas representaciones exacerba o mitiga el desalineamiento emergente (EM), respectivamente. Además, encontramos que el módulo de compuertas de alineamiento (alignment gating) exhibe una fuerte generalización: los pesos de las compuertas obtenidos del ajuste fino en un dominio estrecho suprimen sustancialmente el comportamiento desalineado en dominios amplios, mientras preservan las capacidades generales del modelo.
La mayoría de los métodos existentes de eliminación de ruido en imágenes PET basados en aprendizaje profundo asumen un factor de reducción de dosis (FRD) fijo y conocido para imágenes PET de baja dosis. Sin embargo, estos métodos experimentan una degradación significativa en su rendimiento cuando el FRD varía más allá del supuesto en aplicaciones prácticas. Para abordar el desafío planteado por FRD variados, varios estudios preliminares se centran en la tarea de eliminación de ruido universal en imágenes PET, con el objetivo de entrenar un modelo universal sobre datos de baja dosis a través de diferentes FRD. No obstante, estos modelos universales simples a menudo tienen dificultades con los estilos desalineados presentes en datos con distintos FRD, lo que conduce al problema de eliminación de estilo con un efecto de suavizado excesivo significativo. Para hacer frente a este problema, introducimos innovadoramente la generalización de dominio en la eliminación de ruido de imágenes PET y proponemos una red universal de eliminación de ruido de imágenes PET (UniPET) para lograr una eliminación de ruido de alta calidad en imágenes PET a través de diversos FRD. UniPET comprende dos innovaciones principales: una red de alineación de estilos (SAN) y una estrategia de aprendizaje consciente de regiones (RALS). Específicamente, SAN utiliza técnicas de alineación de estilos derivadas de la generalización de dominio para alinear y recuperar estilos a través de diferentes FRD, asegurando la capacidad de generalización del modelo en varios FRD mientras preserva eficazmente los estilos. Además, para mejorar la recuperación de estilos, RALS distingue entre regiones planas y estilizadas, realizando aprendizaje adversarial exclusivamente en estas últimas, guiando así de manera más efectiva el enfoque del modelo hacia el aprendizaje de regiones estilizadas. Se demuestra que nuestro UniPET propuesto puede recuperar adaptativamente diferentes estilos de FRD y lograr una eliminación de ruido de imágenes PET de alta calidad a través de los FRD. Experimentos exhaustivos muestran que UniPET exhibe un rendimiento comparable al de modelos específicos de cada FRD para FRD particulares y logra un rendimiento de última generación en la eliminación de ruido universal de imágenes PET desde el punto de vista cuantitativo, perceptivo y clínico.
Los modelos generativos de video se han vuelto cada vez más poderosos, pero la consistencia a largo plazo sigue siendo difícil de alcanzar porque incluso unas pocas docenas de fotogramas requieren longitudes de secuencia del transformer que son impracticablemente largas. Demostramos que este problema puede mitigarse generando video mediante un despliegue de grueso a fino dentro de un espacio de tokens multiescala. Nuestro enfoque es simple: primero, preentrenamos un autoencoder que comprime cada fotograma en una jerarquía de tokens, con niveles que van desde la resolución latente típica hasta solo un puñado de tokens por fotograma. Los niveles más gruesos capturan la información más relevante, como la disposición de la escena y la semántica, mientras que los niveles más finos añaden apariencia y textura de alta frecuencia. Luego, entrenamos un modelo de difusión de video para generar estos tokens utilizando un despliegue de grueso a fino. Al controlar cuidadosamente el nivel de detalle con el que se generan los fotogramas y se utilizan como contexto durante cada paso del despliegue, podemos preservar la consistencia a largo plazo en la geometría y la permanencia de objetos, mientras dedicamos menos cómputo a la consistencia a largo plazo de detalles perceptuales menos relevantes. Validamos este enfoque utilizando un conjunto de datos personalizado de videos largos de Minecraft, donde produce despliegues sustancialmente más consistentes en comparación con las líneas base existentes.
Los sistemas multiagente (SMA) construidos sobre modelos de lenguaje grandes suelen organizarse en torno a roles, pipelines y programaciones de turnos, mientras que el contenido que los agentes se transmiten entre sí a menudo queda como lenguaje natural sin restricciones. Sin embargo, esta comunicación libre puede inflar rápidamente el uso de tokens, consumir la ventana de contexto compartida y, en última instancia, afectar tanto el rendimiento del sistema como el costo de inferencia. Analizamos cinco estrategias comunes de comunicación entre agentes en dos topologías de SMA y descubrimos que ninguna estrategia fija es universalmente óptima. En cambio, los mensajes inter-agente efectivos preservan de manera consistente la información centrada en la acción que necesitan los agentes posteriores. Partiendo de esto, proponemos PACT (Comunicación y Transmisión de Estado-Acción Protocolizada), que trata la comunicación entre agentes como un problema de actualización de estado público y proyecta cada salida bruta del agente en un registro compacto de estado-acción antes de que ingrese al historial compartido. En distintas topologías de SMA, PACT mejora consistentemente la compensación entre rendimiento y costo, logrando un rendimiento comparable o superior con sustancialmente menos tokens. Los beneficios se extienden a entornos de codificación productiva: PACT eleva la tasa de resolución de OpenHands con un -10% de tokens por resolución, y es neutral respecto a la tasa de resolución en SWE-agent, reduciendo a la mitad los tokens de entrada. Nuestro código está disponible públicamente en https://github.com/iNLP-Lab/PACT.
La generación de video autorregresivo ha surgido como un paradigma poderoso para los Modelos de Acción Mundial (WAMs). Sin embargo, los enfoques existentes sufren de una convergencia lenta durante el entrenamiento y una precisión limitada en la convergencia, particularmente en altas tasas de cuadros, ya que la supervisión del entrenamiento se limita al fragmento actual sin señales explícitas sobre la dinámica futura; también sufren de inferencia lenta debido al denoising iterativo del video. En este artículo, presentamos Next Forcing, un marco de predicción multifragmento (MCP) para el modelado causal del mundo que permite un entrenamiento más rápido, mayor precisión e inferencia acelerada. Inspirado en la predicción multitoken en modelos de lenguaje grandes, Next Forcing introduce un objetivo de entrenamiento MCP que amplía el modelo principal con módulos MCP auxiliares ligeros para denoising simultáneo de fragmentos de video en múltiples horizontes temporales futuros (próximo^1, próximo^2, próximo^3 fragmentos). Estos módulos MCP forman una cadena causal a través de profundidades de predicción, donde se aprovechan características intermedias fusionadas de múltiples capas del modelo principal para predecir la dinámica futura, permitiendo que las predicciones del futuro cercano informen las del futuro más lejano y proporcionando una supervisión temporal densa y multiescala de vuelta al modelo principal. Durante el entrenamiento, los módulos MCP aceleran significativamente la convergencia y mejoran la precisión en la convergencia, especialmente en altas tasas de cuadros: a 50 fps, Next Forcing logra una mejora relativa del 93,1% sobre LingBot-VA en 5000 pasos de entrenamiento y una convergencia 2,3 veces más rápida, y establece nuevos resultados de última generación en el punto de referencia RoboTwin (94,1/93,5% en Limpio/Aleatorio). En la inferencia, los módulos MCP pueden conservarse para predecir el próximo fragmento de video en paralelo con el actual, logrando una aceleración de inferencia de 2 veces. Next Forcing también demuestra mejoras significativas en PhyWorld, un punto de referencia que evalúa la adherencia a las leyes físicas en la generación de video, y una reducción de más del 50% en FVD en el preentrenamiento general de video.
La escalabilidad de los Modelos de Lenguaje de Gran Escala (LLMs) a contextos largos está fundamentalmente limitada por la complejidad cuadrática de la atención estándar, lo que motiva la adopción de mecanismos de atención lineal con costo subcuadrático. Para mejorar la capacidad de representación en contextos largos, enfoques recientes organizan la memoria de manera multiestado. Sin embargo, los métodos existentes de atención lineal multiestado dependen de políticas fijas de fusión de estados que no pueden adaptarse a la importancia de tokens que varía dinámicamente, ocultando irreversiblemente tokens críticos y causando una severa acumulación de errores en secuencias largas. Para abordar esta limitación, proponemos DLA, un marco de modelado de memoria dinámica para atención lineal multiestado. DLA introduce (i) Fusión Dinámica de Estados Sensible a la Información, que determina adaptativamente los límites de los estados basándose en la variación de información a nivel de token, preservando representaciones de alta resolución alrededor de transiciones semánticas mientras condensa de manera agresiva regiones estables, y (ii) Modelado de Memoria con Capacidad Limitada, que mantiene una caché de estados de tamaño fijo y ordenada cronológicamente fusionando selectivamente estados adyacentes con baja información para controlar el crecimiento de la memoria con una pérdida mínima de información. Preentrenamos DLA en dos modelos de atención lineal diferentes y evaluamos en 16 conjuntos de datos de tres categorías. Los resultados experimentales demuestran la superioridad de DLA frente al estado del arte.
Las políticas de control continuo expresivas, como los modelos de difusión y flujo, constituyen la base de los avances recientes en el escalado del aprendizaje por imitación para el control de robots simulados y reales. Si bien se sabe que escalan de manera estable en el entorno supervisado de aprendizaje por imitación, su integración en tuberías de aprendizaje por refuerzo (RL) para la mejora de políticas ha resultado más difícil. A menudo se requieren objetivos de entrenamiento especializados o la retropropagación a través de procesos de eliminación de ruido, lo que provoca problemas conocidos de estabilidad y afecta la escalabilidad. En este artículo estudiamos si esquemas simples de mejora de políticas únicamente en tiempo de prueba, manteniendo intacto el entrenamiento supervisado estable de políticas, pueden ser una alternativa competitiva que evite estos problemas. Con este fin, proponemos QGF (Flujo Guiado por Q), un algoritmo de RL que realiza la optimización de políticas completamente en tiempo de prueba. QGF funciona entrenando previamente tanto una política de flujo de referencia (mediante un objetivo estándar de clonación conductual) como un crítico de función de valor y, en tiempo de prueba, utiliza el gradiente del valor para guiar la política de referencia hacia la generación de acciones de mayor valor, sin necesidad de aprendizaje adicional de políticas. Empíricamente, QGF supera a métodos previos de RL en tiempo de prueba en benchmarks de RL fuera de línea con una sola tarea y condicionados por objetivos, con espacios de acción de alta dimensionalidad, y es competitivo con algoritmos de vanguardia en tiempo de entrenamiento, siendo mucho más económico de ejecutar. Además, muestra un escalado favorable con el tamaño del modelo al evitar la inestabilidad del entrenamiento actor-crítico, ofreciendo una alternativa práctica y efectiva de algoritmo de RL con políticas expresivas.
Los modelos de lenguaje grandes multimodales (MLLMs) heredan comúnmente la arquitectura Transformer simétrica y profunda diseñada para el modelado de texto unimodal, y aplican el mismo cómputo de manera uniforme a los tokens de imagen y lenguaje. Este diseño pasa por alto una asimetría clave de modalidad: los tokens de imagen y texto difieren sustancialmente en densidad de información, redundancia y profundidad de razonamiento requerida. Mediante un análisis por capas de LLaVA-1.5, observamos que los tokens visuales tienden a saturarse en las capas intermedias. Específicamente, la atención de texto a imagen disminuye de 0.68 en la capa 0 a 0.07 en la capa 4, y se estabiliza cerca de 0.04 después de la capa 18, mientras que los tokens de texto continúan beneficiándose de un procesamiento semántico profundo. Estos hallazgos sugieren un desajuste entre la simetría arquitectónica y la evolución asincrónica en profundidad de las modalidades, lo que resulta en cómputo visual redundante y una posible deriva en las representaciones perceptuales durante la adaptación profunda específica de la tarea. Motivados por esto, proponemos el Enrutamiento de Tokens Visuales de Doble Ruta (DPVR), un marco de enrutamiento asimétrico de modalidad para MLLMs eficientes. Su instanciación central, DPVR-LF (Fusión de Capa Tardía), enruta los tokens visuales en el punto de saturación hacia una rama lateral entrenable de una sola capa, ejecuta un paso hacia adelante solo de texto de trece capas que omite las posiciones de imagen en la pila profunda, y vuelve a fusionar los flujos visual y textual solo en la capa final. Con aproximadamente un 3% de parámetros entrenables, DPVR-LF preserva un rendimiento multimodal competitivo en puntos de referencia estándar, al tiempo que reduce el cómputo visual en la pila profunda del Transformer. Los resultados desafían la suposición convencional de que los tokens visuales deben atravesar todas las capas profundas del modelo de lenguaje, e indican que una sola capa de fusión tardía puede ser suficiente para mantener una competencia perceptual sólida en MLLMs de estilo LLaVA.
Un modo de fallo creciente en la evaluación y el entrenamiento de agentes es que los modelos pueden obtener puntuaciones altas en las evaluaciones explotando atajos en lugar de resolver la tarea prevista, produciendo un rendimiento engañoso. Esto hace que las puntuaciones de evaluación no sean fiables como medidas de la verdadera capacidad para resolver tareas. Proponemos CapCode, un marco para construir conjuntos de datos de codificación con pruebas aleatorizadas cuyo mejor rendimiento no fraudulento alcanzable está deliberadamente limitado por debajo de uno. Este diseño de rendimiento acotado otorga a las puntuaciones de evaluación una interpretación más clara: las puntuaciones sustancialmente por encima del límite son inverosímiles y, por lo tanto, proporcionan evidencia de trampa. Para prevenir la trampa, proponemos CapReward, un diseño de recompensa basado en el principio de CapCode para desalentar la optimización más allá del límite. Experimentos en múltiples conjuntos de datos muestran que CapCode detecta trampas mientras preserva el ranking de rendimiento de los modelos, y CapReward reduce el comportamiento fraudulento, produciendo modelos que siguen mejor la especificación prevista de la tarea.
Los Modelos de Lenguaje de Gran Escala (LLMs) fundacionales demuestran competencia en una amplia gama de tareas generales y logran resultados notables en diversas tareas especializadas a través de LLMs expertos en dominio. Con la lista cada vez mayor de LLMs disponibles, se están proponiendo enrutadores de inferencia para seleccionar el LLM más adecuado para cada consulta. Sin embargo, los métodos de enrutamiento existentes optimizan el costo entre LLMs generalistas débiles y fuertes, o requieren un entrenamiento sustancial para respaldar el enrutamiento por dominio experto. En este artículo, proponemos IR3DE, un enrutador basado en regresión de Ridge para expertos en dominio que proporciona decisiones de enrutamiento rápidas y económicas para cada consulta. Evaluamos IR3DE en dos configuraciones de Modelado de Lenguaje Causal (CLM), donde las tareas son predicción del siguiente token para todos los dominios, y una configuración de razonamiento donde cada dominio tiene su propia tarea de razonamiento distintiva. A pesar de ser un enrutador lineal, IR3DE logra un rendimiento comparable al de otras líneas base en ambas configuraciones CLM, y las supera en la configuración de razonamiento, con un rendimiento normalizado del 98.4%. Además, IR3DE permite agregar o eliminar nuevos expertos en dominio sin necesidad de reentrenar el enrutador desde cero, lo que permite servir un conjunto dinámico de LLMs con una interrupción mínima para el propio enrutador. Nuestro código está disponible en: github.com/gensyn-ai/IR3DE.
Condicionar un modelo de lenguaje con contexto adicional, como la retroalimentación sobre un intento previo, típicamente mejora su respuesta. La autodestilación entrena al modelo para retener esta mejora cuando el contexto no está presente. El método funciona igualando la distribución de salida del modelo bajo dos configuraciones: un estudiante que solo ve la pregunta, y un automaestro que también ve el contexto. Por lo tanto, lo que el modelo aprende depende de qué contexto recibe el automaestro, pero el diseño de este contexto permanece en gran medida inexplorado. Estudiamos el diseño del contexto para la autodestilación entrenando un solucionador con retroalimentación de un crítico congelado. Comparamos tres condiciones: (i) una recompensa binaria (GRPO), (ii) la solución de referencia, y (iii) una crítica alineada por pasos con la traza de razonamiento del solucionador. La crítica alineada por pasos produce las mayores ganancias, superando a GRPO por 16.11 puntos y a la autodestilación condicionada por solución de referencia por 5.27 puntos (Avg@12). El análisis de ventaja por token revela por qué: la retroalimentación alineada por pasos se dirige solo a los tokens donde falla el razonamiento, dejando intacto el comportamiento correcto. Condicionar con la solución de referencia, por el contrario, presiona al modelo a cambiar su comportamiento en cada token (incluso pasos correctos) porque una derivación alternativa inevitablemente difiere en redacción y enfoque. Esto sugiere que la alineación estructural entre la retroalimentación y el razonamiento del solucionador es un factor clave de la efectividad de la autodestilación.
La retroalimentación experta de investigadores experimentados es fundamental para que los académicos en etapas tempranas mejoren sus manuscritos; sin embargo, la retroalimentación de alta calidad suele ser escasa, ya que la revisión de artículos de investigación requiere mucho trabajo. Los asistentes de escritura basados en inteligencia artificial emergentes se centran principalmente en corregir la gramática o simular la revisión por pares con puntuaciones finales, pero no logran proporcionar sugerencias concretas y accionables que ayuden a los estudiantes a mejorar sus artículos durante el proceso de redacción. Presentamos PaperMentor, un sistema de asistencia a la escritura centrado en el ser humano que ofrece sugerencias accionables en forma de comentarios nativos en Overleaf, dejando la redacción real completamente a los autores humanos. PaperMentor integra una biblioteca de habilidades expertas cuidadosamente seleccionada a partir de consejos de escritura de investigadores consolidados, con 12 agentes especializados que cubren diferentes aspectos de la redacción de artículos, como el cumplimiento del formato, la precisión en la redacción y la coherencia terminológica. En un estudio de usuarios (n=14), el 90.6% de los comentarios generados fueron calificados como accionables y el 67.5% como válidos, superando significativamente a un modelo base GPT-5.2 sin la biblioteca de habilidades. Publicamos PaperMentor como código abierto para uso público. Nuestro código está disponible públicamente bajo la licencia AGPL-3.0 en https://github.com/jiarui-liu/overleaf.
Los fallos en los modelos de razonamiento multi-turno son mayoritariamente invisibles para la evaluación mediante puntuación terminal. Un modelo puede adoptar una postura insegura al inicio de un diálogo extenso, pero su tasa de rechazo en el turno final puede parecer indistinguible de la de una línea base robustamente alineada. Para exponer estas dinámicas temporales ocultas, proponemos un diagnóstico a nivel de traza: la matriz de seguridad CoT-Resultado 2x2. Este marco etiqueta cada turno según dos ejes independientes (razonamiento interno y resultado visible), generando cuatro celdas de fallo definidas operativamente: alineación robusta, simulación de alineación, desbloqueo manifiesto y un modo de fallo distinto al que denominamos fallo de inyección de contexto (donde el CoT mantiene un razonamiento seguro, pero el resultado visible produce daño, lo que pone de manifiesto una manifestación multi-turno de infidelidad del razonamiento). Evaluamos tres objetivos de razonamiento destilados frente a un atacante fijo en cinco condiciones de supervisión, recopilando 6750 observaciones a nivel de turno en el escenario de Peligro de Información. Nuestro análisis revela dos vulnerabilidades reproducibles: una paradoja de supervisión en la que las señales explícitas de monitoreo aumentan paradójicamente las tasas de simulación de alineación en lugar de suprimirlas, y un fallo de inyección de contexto en el que los modelos se fijan en resultados externos inseguros a pesar de estados internos seguros. Publicamos el conjunto completo de datos de diálogos multi-turno y trazas de CoT para respaldar investigaciones de diagnóstico de trazas posteriores.
Los sistemas multiagente (SMA) pueden escalar el razonamiento de modelos de lenguaje grandes en tiempo de prueba al descomponer problemas complejos en subtareas paralelas. Sin embargo, la mayoría de los SMA existentes dependen de una orquestación centralizada, donde un agente principal asigna trabajo, recopila resultados y fusiona las salidas. A medida que crece el número de subtareas, este controlador se convierte en un cuello de botella tanto en comunicación como en integración. Proponemos Modelos de Lenguaje Descentralizados (DeLM), un marco de SMA que descentraliza la coordinación mediante agentes paralelos, un contexto verificado compartido y una cola de tareas. Los agentes reclaman subtareas de forma asíncrona, leen el progreso acumulado, realizan razonamiento local y escriben actualizaciones verificadas compactas. El contexto compartido actúa como un sustrato de comunicación común, permitiendo que los agentes se basen en el progreso verificado de otros sin tener que enrutar cada actualización a través de un controlador central. Empíricamente, DeLM mejora tanto el escalamiento en tiempo de prueba en ingeniería de software como el razonamiento en contexto largo. En SWE-bench Verified, DeLM logra el mejor rendimiento en Avg.@1, Pass@2 y Pass@4, con ganancias de hasta 10.5 puntos porcentuales sobre el modelo base más fuerte, al tiempo que reduce el costo por tarea en aproximadamente un 50%. En LongBench-v2 Multi-Doc QA, DeLM alcanza la mayor precisión promedio entre cuatro familias de modelos de vanguardia, mejorando hasta 5.7 puntos porcentuales respecto al modelo base más fuerte. El código está disponible en nuestro sitio web del proyecto: https://yuzhenmao.github.io/DeLM/.
La seguridad de los Modelos de Lenguaje de Gran Escala (LLM) se ha evaluado habitualmente a nivel conductual, lo que proporciona evidencia limitada sobre la robustez interna, ya que estas evaluaciones se centran en los resultados en lugar de en la vulnerabilidad a nivel de representación bajo intervención. Formalizamos esta discrepancia como la **brecha de auditoría**: la diferencia entre la seguridad conductual y la robustez bajo intervención. Para estudiar esta brecha, construimos modelos disociados que preservan un comportamiento externo seguro mientras permanecen vulnerables en el espacio latente. Introducimos un marco de evaluación basado en intervenciones para evaluar la robustez del modelo mediante intervenciones suaves en los espacios de parámetros y latentes, incluyendo el ajuste fino nocivo y las perturbaciones latentes capa por capa. Para formalizar la evaluación, proponemos el **Puntaje de Vulnerabilidad Latente (LVS)** para medir la facilidad con la que se puede provocar un comportamiento nocivo mediante perturbaciones latentes acotadas. Utilizando este marco de evaluación, demostramos que las métricas de seguridad conductual son insuficientes para medir la robustez a nivel de representación en múltiples modelos de última generación alineados de manera segura e insegura. En particular, los modelos disociados muestran LVSs significativamente elevados a pesar de un comportamiento de rechazo comparable bajo intervención nociva, siendo las representaciones intermedias las más sensibles a la intervención. Nuestros resultados sugieren que la evaluación de la seguridad conductual por sí sola proporciona una imagen incompleta de la robustez del modelo, lo que motiva auditorías conscientes de la representación tanto de la vulnerabilidad latente como del comportamiento observable.
Los generadores de video autorregresivos sintetizan videos largos generando segmentos temporales sucesivos, pero su caché KV histórico crece con la duración del video. Los métodos existentes de caché acotada reducen este costo mediante ventanas locales, tokens sumidero o estados de memoria comprimida, aunque suelen asignar roles fijos a diferentes partes del historial. Proponemos FadeMem, un mecanismo de consolidación de memoria KV sensible a la distancia que organiza los bloques KV históricos en una jerarquía temporal bajo un presupuesto fijo de caché. Este diseño está motivado por un decaimiento temporal dependiente de la frecuencia: los detalles finos se descorrelacionan rápidamente, mientras que la estructura gruesa de la escena y la identidad siguen siendo útiles en horizontes más largos. Durante la generación, el nuevo historial se inserta como entradas de grano fino, mientras que las entradas adyacentes más antiguas se fusionan progresivamente bajo un esquema de asignación temporal de ley de potencias, produciendo una memoria densa-cerca, dispersa-lejos dentro de una sola caché. Sin cambios arquitectónicos, FadeMem preserva el contexto reciente para dinámicas de corto plazo y anclajes compactos de largo alcance para la identidad y la coherencia de la escena. Los experimentos muestran una mejora en la consistencia del sujeto, la estabilidad del fondo y la coherencia temporal en comparación con las estrategias existentes de caché acotada.
El Aprendizaje Múltiple de Instancias (MIL) aborda problemas donde la supervisión está disponible a nivel de bolsas de instancias y se ha aplicado con éxito en campos que van desde la patología computacional hasta la imagen satelital. Sin embargo, los algoritmos existentes tienen dificultades en el régimen de baja anotación que caracteriza a muchas aplicaciones del mundo real. Los modelos flexibles se sobreajustan y los rígidos no logran adaptarse a la tarea en cuestión. Demostramos que el preentrenamiento de un aprendiz en contexto con una arquitectura de tipo Perceiver sobre datos sintéticos produce un modelo que puede resolver nuevas tareas a partir de un puñado de bolsas etiquetadas. En el momento de la inferencia, la clasificación ocurre en un solo paso hacia adelante y no requiere actualizaciones de gradiente. Proponemos e investigamos diferentes generadores de datos sintéticos para datos estructurados en bolsas y encontramos que capturan sesgos inductivos complementarios. Un modelo preentrenado sobre una mezcla de estos generadores hereda las fortalezas específicas de cada tarea y logra el mejor rendimiento promedio en doce puntos de referencia de MIL, superando a las líneas base supervisadas que requieren entrenamiento específico de la tarea.
Los modelos de lenguaje grandes (LLMs) participan cada vez más en conversaciones sociales emocionalmente sensibles, donde las respuestas pueden pasar de un apoyo equilibrado hacia una validación excesiva o una alineación escalatoria. La investigación existente sobre adulación se centra principalmente en el acuerdo factual y entornos de seguimiento de instrucciones, dejando poco explorada la adulación conversacional fundamentada culturalmente. Presentamos BenSyc, el primer punto de referencia para estudiar la adulación conversacional en contextos sociales bengalíes. A partir de 11,840 publicaciones de Reddit y 170 mil comentarios recopilados de comunidades en Bangladesh y Bengala Occidental, construimos un punto de referencia validado por humanos con etiquetas binarias y una taxonomía detallada de cinco niveles que abarca Invalidación, Neutral, Apoyo, Validación y Escalada. Evaluamos más de 15 LLMs abiertos y propietarios en tareas de clasificación de alineación conversacional y generación de respuestas. Los resultados muestran que distinguir entre apoyo empático y validación orientada al refuerzo sigue siendo un desafío incluso para modelos de frontera ajustados por instrucciones: el mejor sistema alcanza solo un 61.8 de Macro-F1 en detección binaria y un 61.7 de Macro-F1 en clasificación de cinco clases. En entornos de generación, varios modelos producen con frecuencia respuestas fuertemente validadoras o escalatorias en situaciones emocionalmente cargadas. Nuestros hallazgos destacan una variación sustancial entre familias de modelos y comportamientos conversacionales, subrayando la importancia de puntos de referencia multilingües culturalmente fundamentados para evaluar sistemas de IA conversacional socialmente alineados.