Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos de auto-evolución mejoran la generación de código mediante ciclos iterativos de "generar-verificar-refinar", sin embargo, los enfoques existentes adolecen de baja eficiencia exploratoria, lo que les impide descubrir soluciones con complejidad superior dentro de presupuestos limitados. Esta ineficiencia surge del sesgo de inicialización que atrapa la evolución en regiones de soluciones pobres, de operaciones estocásticas no controladas que carecen de guía por retroalimentación, y de una utilización insuficiente de la experiencia entre tareas. Para abordar estos cuellos de botella, proponemos la Auto-Evolución Controlada (CSE), que consta de tres componentes clave. La Inicialización por Planificación Diversificada genera estrategias algorítmicas estructuralmente distintas para una cobertura amplia del espacio de soluciones. La Evolución Genética reemplaza las operaciones estocásticas con mecanismos guiados por retroalimentación, permitiendo mutación dirigida y cruza composicional. La Memoria de Evolución Jerárquica captura experiencias tanto exitosas como fallidas a nivel inter-tarea e intra-tarea. Los experimentos en EffiBench-X demuestran que CSE supera consistentemente a todos los métodos base con varios modelos de lenguaje grandes subyacentes. Además, CSE logra una mayor eficiencia desde las primeras generaciones y mantiene una mejora continua a lo largo de la evolución. Nuestro código está disponible públicamente en https://github.com/QuantaAlpha/EvoControl.
Los sistemas de investigación profunda se utilizan ampliamente para la investigación web multi-etapa, el análisis y la síntesis de fuentes cruzadas, sin embargo, su evaluación sigue siendo un desafío. Los puntos de referencia existentes a menudo requieren una construcción de tareas intensiva en anotaciones, dependen de dimensiones de evaluación estáticas o no logran verificar hechos de manera confiable cuando faltan citas. Para cerrar estas brechas, presentamos DeepResearchEval, un marco automatizado para la construcción de tareas de investigación profunda y la evaluación agéntica. Para la construcción de tareas, proponemos un pipeline basado en personajes que genera tareas de investigación realistas y complejas ancladas en diversos perfiles de usuario, aplicando un filtro de dos etapas, Calificación de la Tarea y Necesidad de Búsqueda, para retener solo las tareas que requieren integración de evidencia multi-fuente y recuperación externa. Para la evaluación, proponemos un pipeline agéntico con dos componentes: una Evaluación de Calidad Punto a Punto Adaptativa que deriva dinámicamente dimensiones, criterios y pesos de evaluación específicos para cada tarea, condicionados a cada tarea generada; y una Verificación Activa de Hechos que extrae y verifica de forma autónoma las afirmaciones del informe mediante búsqueda web, incluso cuando faltan citas.
Los Agentes de Modelos de Lenguaje Grandes (LLM) exhiben capacidades de razonamiento inherentes mediante la colaboración de múltiples herramientas. Sin embargo, durante la inferencia del agente, los métodos existentes a menudo adolecen de (i) generación localmente miope, debido a la ausencia de anticipación, y (ii) inestabilidad de la trayectoria, donde pequeños errores iniciales pueden escalar en caminos de razonamiento divergentes. Estos problemas dificultan el equilibrio entre la efectividad global y la eficiencia computacional. Para abordar estas dos cuestiones, proponemos la exploración meta-adaptativa con agentes LLM (MAXS), un marco de razonamiento meta-adaptativo basado en Agentes LLM que integra flexiblemente la ejecución de herramientas y la planificación del razonamiento. MAXS emplea una estrategia de anticipación para extender los caminos de razonamiento varios pasos hacia adelante, estimando el valor de ventaja del uso de herramientas, y combina la varianza de consistencia paso a paso y las pendientes de tendencia entre pasos para seleccionar conjuntamente pasos de razonamiento estables, consistentes y de alto valor. Adicionalmente, introducimos un mecanismo de convergencia de trayectorias que controla el coste computacional deteniendo nuevas iteraciones una vez que se logra la consistencia de la ruta, permitiendo un equilibrio entre la eficiencia de recursos y la efectividad global en el razonamiento con múltiples herramientas. Realizamos estudios empíricos exhaustivos en tres modelos base (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) y cinco conjuntos de datos, demostrando que MAXS supera consistentemente a los métodos existentes tanto en rendimiento como en eficiencia de inferencia. Un análisis adicional confirma la efectividad de nuestra estrategia de anticipación y el uso de herramientas.
El razonamiento científico no solo se basa en la inferencia lógica, sino también en la activación de conocimientos previos y estructuras experienciales. La memoria puede reutilizar conocimiento de manera eficiente y mejorar la coherencia y estabilidad del razonamiento. Sin embargo, los benchmarks existentes evalúan principalmente respuestas finales o la coherencia paso a paso, pasando por alto los mecanismos impulsados por la memoria que subyacen al razonamiento humano, el cual implica activar anclajes y atractores para luego integrarlos en una inferencia de múltiples pasos. Para abordar esta brecha, proponemos A^3-Bench~ https://a3-bench.github.io, un benchmark diseñado para evaluar el razonamiento científico mediante la activación dual impulsada por la memoria, basado en la Activación de Anclajes y Atractores. En primer lugar, anotamos 2.198 problemas de razonamiento científico en diversos dominios utilizando el proceso SAPM (sujeto, anclaje y atractor, problema y desarrollo de memoria). En segundo lugar, introducimos un marco de evaluación de memoria a escala dual que utiliza anclajes y atractores, junto con la métrica AAUI (Índice de Utilización de Anclaje-Atractor) para medir las tasas de activación de la memoria. Finalmente, mediante experimentos con varios modelos base y paradigmas, validamos A^3-Bench y analizamos cómo la activación de la memoria impacta el rendimiento del razonamiento, aportando perspectivas sobre el razonamiento científico impulsado por la memoria.
En este informe, presentamos DASD-4B-Thinking, un modelo de razonamiento ligero pero altamente competente y completamente de código abierto. Logra un rendimiento de vanguardia (SOTA) entre los modelos de código abierto de escala comparable en benchmarks desafiantes de matemáticas, razonamiento científico y generación de código, superando incluso a varios modelos más grandes. Comenzamos reexaminando críticamente un paradigma de destilación ampliamente adoptado en la comunidad: el Fine-Tuning Supervisado (SFT) en respuestas generadas por el profesor, también conocido como destilación a nivel de secuencia. Aunque una serie de trabajos recientes que siguen este esquema han demostrado una eficiencia notable y un fuerte rendimiento empírico, se basan principalmente en la perspectiva del SFT. En consecuencia, estos enfoques se centran predominantemente en diseñar reglas heurísticas para el filtrado de datos de SFT, mientras que pasan por alto en gran medida el principio central de la destilación en sí: permitir que el modelo estudiante aprenda la distribución completa de salida del profesor para heredar su capacidad de generalización. Específicamente, identificamos tres limitaciones críticas en la práctica actual: i) Representación inadecuada de la distribución a nivel de secuencia del profesor; ii) Desalineación entre la distribución de salida del profesor y la capacidad de aprendizaje del estudiante; y iii) Sesgo de exposición que surge del entrenamiento con forzamiento del profesor frente a la inferencia autoregresiva. En resumen, estas deficiencias reflejan una ausencia sistémica de interacción explícita entre profesor y estudiante a lo largo del proceso de destilación, dejando la esencia de la destilación subexplotada. Para abordar estos problemas, proponemos varias innovaciones metodológicas que, en conjunto, forman una canalización de entrenamiento de destilación a nivel de secuencia mejorada. Notablemente, DASD-4B-Thinking obtiene resultados competitivos utilizando solo 448K muestras de entrenamiento, un orden de magnitud menos que las empleadas por la mayoría de los esfuerzos de código abierto existentes. Para apoyar la investigación comunitaria, publicamos abiertamente nuestros modelos y el conjunto de datos de entrenamiento.
Las tareas Visión-Lenguaje-Acción (VLA) requieren razonar sobre escenas visuales complejas y ejecutar acciones adaptativas en entornos dinámicos. Si bien estudios recientes sobre VLA de razonamiento muestran que la cadena de pensamiento (CoT) explícita puede mejorar la generalización, estos adolecen de una alta latencia de inferencia debido a trazas de razonamiento extensas. Proponemos Fast-ThinkAct, un marco de razonamiento eficiente que logra una planificación compacta y de alto rendimiento mediante un razonamiento latente verbalizable. Fast-ThinkAct aprende a razonar eficientemente con CoT latentes mediante destilación de un modelo docente, impulsado por un objetivo guiado por preferencias para alinear trayectorias de manipulación que transfieren capacidades de planificación tanto lingüísticas como visuales para el control embodido. Esto permite un aprendizaje de políticas potenciado por el razonamiento que conecta efectivamente el razonamiento compacto con la ejecución de acciones. Experimentos exhaustivos en diversos puntos de referencia de manipulación embodida y razonamiento demuestran que Fast-ThinkAct logra un rendimiento sólido con hasta un 89.3% de reducción en la latencia de inferencia respecto a los VLA de razonamiento de vanguardia, manteniendo al mismo tiempo una planificación efectiva de horizonte largo, adaptación few-shot y recuperación de fallos.
Los Modelos Grandes de Visión y Lenguaje (LVLM) de propósito general, a pesar de su escala masiva, a menudo fallan en dermatología debido a la "atención difusa": la incapacidad de distinguir lesiones patológicas sutiles del ruido de fondo. En este artículo, cuestionamos la suposición de que el escalado de parámetros es el único camino hacia la precisión médica. Presentamos SkinFlow, un marco que trata el diagnóstico como una optimización de la eficiencia en la transmisión de información visual. Nuestro enfoque utiliza un Codificador Visual Dinámico de Ancho Virtual (DVE) para "desplegar" variedades patológicas complejas sin expansión física de parámetros, junto con una estrategia de Aprendizaje por Refuerzo en dos etapas. Esta estrategia alinea secuencialmente descripciones médicas explícitas (Etapa I) y reconstruye texturas diagnósticas implícitas (Etapa II) dentro de un espacio semántico restringido. Además, proponemos un protocolo de evaluación con base clínica que prioriza la seguridad diagnóstica y la relevancia jerárquica sobre la coincidencia rígida de etiquetas. Los resultados empíricos son convincentes: nuestro modelo de 7B establece un nuevo estado del arte en el benchmark Fitzpatrick17k, logrando una ganancia del +12.06% en precisión Top-1 y un aumento del +28.57% en precisión Top-6 sobre los modelos de propósito general masivos (por ejemplo, Qwen3VL-235B y GPT-5.2). Estos hallazgos demuestran que optimizar la capacidad geométrica y el flujo de información produce un razonamiento diagnóstico superior en comparación con el escalado crudo de parámetros.
Proponemos OpenVoxel, un algoritmo libre de entrenamiento para agrupar y describir vóxeles dispersos en tareas de comprensión de escenas 3D de vocabulario abierto. Dado el modelo de rasterización de vóxeles dispersos (SVR, por sus siglas en inglés) obtenido a partir de imágenes multi-vista de una escena 3D, nuestro OpenVoxel es capaz de producir grupos significativos que describen los diferentes objetos en la escena. Además, aprovechando los potentes Modelos de Lenguaje-Visión (VLMs) y los Modelos de Lenguaje Grande Multimodales (MLLMs), nuestro OpenVoxel construye exitosamente un mapa de escena informativo al generar descripciones para cada grupo, permitiendo tareas adicionales de comprensión de escenas 3D, como la segmentación de vocabulario abierto (OVS) o la segmentación por expresiones de referencia (RES). A diferencia de métodos anteriores, nuestra técnica es libre de entrenamiento y no introduce *embeddings* de un codificador de texto CLIP/BERT. En su lugar, procedemos directamente con una búsqueda de texto a texto utilizando MLLMs. A través de experimentos exhaustivos, nuestro método demuestra un rendimiento superior en comparación con estudios recientes, particularmente en complejas tareas de segmentación por expresiones de referencia (RES). El código será abierto.
El desarrollo de grandes modelos de lenguaje (LLM) ha logrado un rendimiento superior en una serie de tareas posteriores, incluida la generación aumentada por recuperación (RAG) basada en LLM. La calidad del contenido generado depende en gran medida de la utilidad de la información recuperada y de la capacidad del mecanismo interno de procesamiento de información de los LLM para incorporarla en la generación de respuestas. Generalmente se asume que la información recuperada es relevante para la pregunta. Sin embargo, la información recuperada puede tener un grado variable de relevancia y utilidad, dependiendo de la pregunta y de la colección de documentos. Es importante tener en cuenta la relevancia de la información recuperada en la generación de respuestas. En este artículo, proponemos OpenDecoder, un nuevo enfoque que aprovecha la evaluación explícita de la información recuperada como características indicadoras de calidad para la generación. Nuestro objetivo es construir un modelo RAG que sea más robusto ante distintos niveles de contexto ruidoso. Se consideran tres tipos de información de evaluación explícita: puntuación de relevancia, puntuación de clasificación y puntuación QPP (predicción del rendimiento de la consulta). Los resultados experimentales en cinco conjuntos de datos de referencia demuestran la eficacia y una mejor robustez de OpenDecoder al superar a varios métodos de referencia. Es importante destacar que este paradigma es flexible para integrarse con el post-entrenamiento de LLM para cualquier propósito e incorporarse con cualquier tipo de indicadores externos.
La intervención experiencial en agentes web surge como un paradigma técnico prometedor, mejorando las capacidades de interacción de los agentes mediante la provisión de conocimientos valiosos derivados de experiencias acumuladas. Sin embargo, los métodos existentes inyectan predominantemente la experiencia de forma pasiva como contexto global antes de la ejecución de la tarea, luchando por adaptarse a las observaciones contextuales dinámicamente cambiantes durante la interacción agente-entorno. Proponemos ExpSeek, que desplaza la experiencia hacia una búsqueda proactiva a nivel de paso: (1) estimando umbrales de entropía a nivel de paso para determinar el momento de intervención utilizando las señales intrínsecas del modelo; (2) diseñando contenido experiencial específicamente adaptado a nivel de paso. Los experimentos en los modelos Qwen3-8B y 32B a través de cuatro benchmarks desafiantes para agentes web demuestran que ExpSeek logra mejoras absolutas del 9.3% y 7.5%, respectivamente. Nuestros experimentos validan la viabilidad y ventajas de la entropía como señal de auto-activación, y revelan que incluso un modelo de experiencia a pequeña escala de 4B puede potenciar significativamente el rendimiento de modelos de agentes más grandes.
Los Modelos de Visión y Lenguaje (VLMs) han demostrado un rendimiento notable en tareas de localización en Interfaces de Usuario (UI), impulsados por su capacidad para procesar capturas de pantalla de resolución cada vez más alta. Sin embargo, las capturas de pantalla se tokenizan en miles de tokens visuales (por ejemplo, unos 4700 para resolución 2K), lo que conlleva una sobrecarga computacional significativa y diluye la atención. Por el contrario, los humanos suelen centrarse en regiones de interés al interactuar con una UI. En este trabajo, somos pioneros en la tarea de localización eficiente en UI. Guiados por un análisis práctico de las características y desafíos de la tarea, proponemos FocusUI, un marco de localización en UI eficiente que selecciona los parches más relevantes para la instrucción preservando al mismo tiempo la continuidad posicional para una localización precisa. FocusUI aborda dos desafíos clave: (1) Eliminar tokens redundantes en la codificación visual. Construimos una supervisión a nivel de parche fusionando una puntuación condicionada por la instrucción con una puntuación basada en reglas de un grafo de UI que reduce el peso de las grandes regiones homogéneas para seleccionar tokens visuales distintos y relevantes para la instrucción. (2) Preservar la continuidad posicional durante la selección de tokens visuales. Descubrimos que los métodos generales de poda de tokens visuales sufren una grave degradación de la precisión en tareas de localización en UI debido a la ruptura de la información posicional. Introducimos una novedosa estrategia llamada PosPad, que comprime cada secuencia contigua de tokens visuales descartados en un único marcador especial colocado en el último índice de la secuencia para preservar la continuidad posicional. Experimentos exhaustivos en cuatro benchmarks de localización demuestran que FocusUI supera a las líneas base específicas para GUI. En el benchmark ScreenSpot-Pro, FocusUI-7B logra una mejora de rendimiento del 3.7% sobre GUI-Actor-7B. Incluso con solo un 30% de retención de tokens visuales, FocusUI-7B solo disminuye un 3.2% mientras logra una inferencia hasta 1.44 veces más rápida y un 17% menos de memoria GPU máxima.
El entrenamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés) a menudo optimiza la alineación con preferencias, premiando las salidas que se perciben como útiles y aptas para la interacción. Sin embargo, este objetivo orientado a las preferencias puede ser explotado: indicaciones manipuladoras pueden dirigir las respuestas hacia una complacencia que apacigüe al usuario y alejarlas de una corrección orientada a la verdad. En este trabajo, investigamos si los modelos alineados son vulnerables a los Ataques de Socavamiento de Preferencias (PUA), una clase de estrategias de indicación manipuladoras diseñadas para explotar el deseo del modelo de complacer las preferencias del usuario a expensas de la veracidad. Proponemos una metodología de diagnóstico que proporciona un análisis más detallado y directivo que las puntuaciones agregadas de evaluación comparativa, utilizando un marco de evaluación factorial para descomponer los cambios inducidos por la indicación en efectos interpretables de los objetivos del sistema (orientados a la verdad vs. orientados a la preferencia) y factores de diálogo de estilo PUA (control directivo, denigración personal, aprobación condicional, negación de la realidad) dentro de un diseño controlado 2 veces 2^4. Sorprendentemente, los modelos más avanzados son a veces más susceptibles a las indicaciones manipuladoras. Más allá del factor dominante de negación de la realidad, observamos inversiones de signo específicas del modelo e interacciones con factores de estilo PUA, lo que sugiere defensas personalizadas en lugar de una solidez uniforme. Estos hallazgos ofrecen una metodología de evaluación factorial novedosa y reproducible que proporciona diagnósticos más detallados para procesos posteriores al entrenamiento, como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), permitiendo mejores compensaciones en la iteración de productos de LLM al ofrecer una comprensión más matizada de los riesgos de la alineación de preferencias y el impacto de las indicaciones manipuladoras.
Si bien los agentes basados en LLM han mostrado potencial para la investigación profunda, la mayoría de los enfoques existentes dependen de flujos de trabajo fijos que tienen dificultades para adaptarse a consultas abiertas del mundo real. Por ello, trabajos recientes exploran la auto-evolución permitiendo a los agentes reescribir su propio código o *prompts* para mejorar su capacidad de resolución de problemas; sin embargo, la optimización sin restricciones a menudo desencadena inestabilidad, alucinaciones y deriva de instrucciones. Proponemos EvoFSM, un marco de auto-evolución estructurado que logra tanto adaptabilidad como control mediante la evolución de una Máquina de Estados Finitos (FSM) explícita, en lugar de depender de reescrituras de forma libre. EvoFSM desacopla el espacio de optimización en *Flujo* macroscópico (lógica de transición de estados) y *Habilidad* microscópica (comportamientos específicos de estado), permitiendo mejoras dirigidas dentro de límites conductuales claros. Guiado por un mecanismo crítico, EvoFSM refina la FSM a través de un pequeño conjunto de operaciones restringidas, e incorpora además una memoria auto-evolutiva que destila trayectorias exitosas como *priors* reutilizables y patrones de fallo como restricciones para consultas futuras. Evaluaciones exhaustivas en cinco benchmarks de preguntas y respuestas de múltiples saltos demuestran la efectividad de EvoFSM. En particular, EvoFSM alcanza un 58.0% de precisión en el benchmark DeepSearch. Resultados adicionales en tareas de toma de decisiones interactivas validan aún más su generalización.
Presentamos TranslateGemma, una suite de modelos abiertos de traducción automática basados en los modelos fundacionales Gemma 3. Para potenciar las capacidades multilingües inherentes de Gemma 3 en la tarea de traducción, empleamos un proceso de ajuste fino en dos etapas. Primero, se realiza un ajuste fino supervisado utilizando una mezcla rica de datos paralelos sintéticos de alta calidad y gran escala, generados mediante modelos de última generación, junto con datos paralelos traducidos por humanos. A esto le sigue una fase de aprendizaje por refuerzo, donde optimizamos la calidad de la traducción utilizando un conjunto de modelos de recompensa, incluyendo MetricX-QE y AutoMQM, orientados a la calidad de la traducción. Demostramos la eficacia de TranslateGemma mediante evaluación humana en el conjunto de pruebas WMT25 a través de 10 pares de idiomas y con evaluación automática en el benchmark WMT24++ a través de 55 pares de idiomas. Las métricas automáticas muestran mejoras consistentes y sustanciales con respecto a los modelos base Gemma 3 en todos los tamaños. Cabe destacar que los modelos TranslateGemma más pequeños a menudo logran un rendimiento comparable al de los modelos base más grandes, ofreciendo una eficiencia mejorada. También mostramos que los modelos TranslateGemma conservan sólidas capacidades multimodales, con un rendimiento mejorado en el benchmark de traducción de imágenes Vistra. La publicación de los modelos abiertos TranslateGemma tiene como objetivo proporcionar a la comunidad investigadora herramientas potentes y adaptables para la traducción automática.
Los recientes avances en modelos del mundo han mostrado potencial para modelar la dinámica futura de estados ambientales, permitiendo que los agentes razonen y actúen sin acceder a entornos reales. Los métodos actuales realizan principalmente simulaciones de un solo paso o con horizontes fijos, dejando sin explotar su potencial para la planificación de tareas complejas. Proponemos Imagine-then-Plan (ITP), un marco unificado para el aprendizaje de agentes mediante la imaginación prospectiva, donde el modelo de política de un agente interactúa con el modelo del mundo aprendido, generando trayectorias "imaginadas" multi-paso. Dado que el horizonte de imaginación puede variar según las tareas y etapas, introducimos un novedoso mecanismo adaptativo de prospectiva mediante la compensación entre el objetivo final y el progreso de la tarea. Las trayectorias imaginadas resultantes proporcionan señales ricas sobre consecuencias futuras, como el progreso logrado y los conflictos potenciales, que se fusionan con las observaciones actuales, formulando un proceso de decisión de Markov parcialmente observable e imaginable para guiar el aprendizaje de políticas. Instanciamos ITP con variantes libres de entrenamiento y entrenadas por refuerzo. Experimentos exhaustivos en benchmarks representativos de agentes demuestran que ITP supera significativamente a los baselines competitivos. Análisis adicionales validan que nuestra prospectiva adaptativa mejora sustancialmente la capacidad de razonamiento de los agentes, proporcionando insights valiosos para abordar tareas complejas más amplias.
Los modelos generativos de video modernos basados en modelos de difusión pueden producir clips muy realistas, pero son computacionalmente ineficientes, a menudo requiriendo minutos de tiempo de GPU para solo unos segundos de video. Esta ineficiencia representa una barrera crítica para implementar video generativo en aplicaciones que requieren interacciones en tiempo real, como IA incorporada y realidad virtual/aumentada. Este artículo explora una nueva estrategia para la generación de video condicionada por cámara en escenas estáticas: utilizar modelos generativos basados en difusión para generar un conjunto disperso de fotogramas clave, y luego sintetizar el video completo mediante reconstrucción 3D y renderizado. Al elevar los fotogramas clave a una representación 3D y renderizar vistas intermedias, nuestro enfoque distribuye el costo de generación a lo largo de cientos de fotogramas mientras impone consistencia geométrica. Además, introducimos un modelo que predice el número óptimo de fotogramas clave para una trayectoria de cámara dada, permitiendo que el sistema asigne computación de manera adaptativa. Nuestro método final, SRENDER, utiliza fotogramas clave muy dispersos para trayectorias simples y más densos para movimientos de cámara complejos. Esto resulta en una generación de video que es más de 40 veces más rápida que la línea base basada en difusión al generar 20 segundos de video, manteniendo alta fidelidad visual y estabilidad temporal, ofreciendo un camino práctico hacia la síntesis de video eficiente y controlable.
La memoria desempeña un papel fundamental en la mejora del razonamiento, la adaptabilidad y la fidelidad contextual de los modelos de lenguaje grandes (LLM) y los LLM multimodales (MLLM) modernos. A medida que estos modelos transitan de predictores estáticos a sistemas interactivos capaces de aprendizaje continuo e inferencia personalizada, la incorporación de mecanismos de memoria ha surgido como un tema central en su evolución arquitectónica y funcional. Esta revisión presenta una síntesis integral y estructurada de la memoria en los LLM y MLLM, organizando la literatura en una taxonomía coherente que comprende paradigmas de memoria implícita, explícita y agentiva. Específicamente, la revisión delinea tres marcos de memoria principales. La memoria implícita se refiere al conocimiento incrustado en los parámetros internos de los transformadores preentrenados, abarcando su capacidad de memorización, recuperación asociativa y razonamiento contextual. Trabajos recientes han explorado métodos para interpretar, manipular y reconfigurar esta memoria latente. La memoria explícita implica componentes externos de almacenamiento y recuperación diseñados para aumentar las salidas del modelo con representaciones de conocimiento dinámicas y consultables, como corpus textuales, vectores densos y estructuras basadas en grafos, permitiendo así una interacción escalable y actualizable con las fuentes de información. La memoria agentiva introduce estructuras de memoria persistentes y temporalmente extendidas dentro de agentes autónomos, facilitando la planificación a largo plazo, la auto-consistencia y el comportamiento colaborativo en sistemas multiagente, con relevancia para la IA incorporada e interactiva. Extendiéndose más allá del texto, la revisión examina la integración de la memoria en entornos multimodales, donde la coherencia a través de los modalidades de visión, lenguaje, audio y acción es esencial. Se discuten avances arquitectónicos clave, tareas de evaluación comparativa y desafíos abiertos, incluyendo problemas relacionados con la capacidad de memoria, la alineación, la consistencia factual y la interoperabilidad entre sistemas.
El análisis de representaciones aprendidas tiene un punto ciego: se centra en la similitud, midiendo cuán estrechamente se alinean los *embeddings* con referencias externas, pero la similitud solo revela lo que está representado, no si esa estructura es robusta. Introducimos la estabilidad geométrica, una dimensión distinta que cuantifica la fiabilidad con la que la geometría representacional se mantiene bajo perturbación, y presentamos Shesha, un marco para medirla. A través de 2.463 configuraciones en siete dominios, demostramos que la estabilidad y la similitud están empíricamente no correlacionadas (ρ ≈ 0,01) y son mecanicistamente distintas: las métricas de similitud colapsan tras eliminar los componentes principales principales, mientras que la estabilidad conserva la sensibilidad a la estructura detallada del manifold. Esta distinción produce perspectivas accionables: para la monitorización de seguridad, la estabilidad actúa como un canario geométrico funcional, detectando la deriva estructural casi 2 veces más sensiblemente que CKA mientras filtra el ruido no funcional que desencadena falsas alarmas en métricas de distancia rígidas; para la controlabilidad, la estabilidad supervisada predice la dirigibilidad lineal (ρ = 0,89-0,96); para la selección de modelos, la estabilidad se disocia de la transferibilidad, revelando un impuesto geométrico que la optimización de transferencia incurre. Más allá del aprendizaje automático, la estabilidad predice la coherencia de la perturbación CRISPR y el acoplamiento neuro-conductual. Al cuantificar la fiabilidad con la que los sistemas mantienen la estructura, la estabilidad geométrica proporciona un complemento necesario a la similitud para auditar representaciones en sistemas biológicos y computacionales.
Los sistemas corporizados experimentan el mundo como "una sinfonía de flujos": una combinación de múltiples corrientes continuas de entrada sensorial acopladas al auto-movimiento, entrelazadas con la dinámica de objetos externos. Estas corrientes obedecen simetrías suaves parametrizadas en el tiempo, que se combinan mediante un álgebra de estructura precisa; sin embargo, la mayoría de los modelos del mundo basados en redes neuronales ignoran esta estructura y, en cambio, reaprenden repetidamente las mismas transformaciones a partir de datos. En este trabajo, presentamos "Modelos del Mundo Equivariantes al Flujo", un marco en el que tanto el auto-movimiento como el movimiento de objetos externos se unifican como 'flujos' de grupos de Lie de un parámetro. Aprovechamos esta unificación para implementar la equivariancia de grupo con respecto a estas transformaciones, proporcionando así una representación latente estable del mundo a lo largo de cientos de pasos temporales. Tanto en benchmarks de modelado del mundo en video 2D como 3D con observación parcial, demostramos que los Modelos del Mundo Equivariantes al Flujo superan significativamente a arquitecturas de modelado del mundo comparables, basadas en difusión y aumentadas con memoria, del estado del arte — particularmente cuando existen dinámicas mundiales predecibles fuera del campo de visión actual del agente. Mostramos que la equivariancia al flujo es especialmente beneficiosa para rollouts largos, generalizando mucho más allá del horizonte de entrenamiento. Al estructurar las representaciones del modelo del mundo con respecto al movimiento interno y externo, la equivariancia al flujo traza una ruta escalable hacia una inteligencia corporizada, guiada por simetrías y eficiente en datos. Enlace al proyecto: https://flowequivariantworldmodels.github.io.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) están logrando avances significativos en el razonamiento multimodal. Los enfoques iniciales se centraban en el razonamiento basado únicamente en texto. Estudios más recientes han incorporado información multimodal en los pasos de razonamiento; sin embargo, a menudo siguen un patrón de razonamiento único y específico para cada tarea, lo que limita su generalización en diversas tareas multimodales. De hecho, existen numerosas tareas multimodales que requieren habilidades de razonamiento diversas, como hacer zoom en una región específica o marcar un objeto dentro de una imagen. Para abordar esto, proponemos el razonamiento multimodal generativo unificado, que unifica diversas habilidades de razonamiento multimodal mediante la generación de imágenes intermedias durante el proceso de razonamiento. Instanciamos este paradigma con Omni-R1, un marco de trabajo SFT+RL de dos etapas que incluye una pérdida de alineación perceptual y una recompensa perceptual, permitiendo así la generación funcional de imágenes. Adicionalmente, presentamos Omni-R1-Zero, que elimina la necesidad de anotaciones multimodales mediante el *bootstrapping* de visualizaciones paso a paso a partir de datos de razonamiento basados solo en texto. Los resultados empíricos muestran que Omni-R1 logra un razonamiento generativo unificado en una amplia gama de tareas multimodales, y Omni-R1-Zero puede igualar o incluso superar a Omni-R1 en promedio, lo que sugiere una dirección prometedora para el razonamiento multimodal generativo.
La mejora de modelos de lenguaje grande (LLM) basada en aprendizaje por refuerzo (RL) a menudo conduce a una reducción en la diversidad de las salidas, lo que socava su utilidad en tareas de final abierto como la escritura creativa. Los métodos actuales carecen de mecanismos explícitos para guiar una exploración diversa y, en su lugar, priorizan la eficiencia de optimización y el rendimiento sobre la diversidad. Este artículo propone un marco de RL estructurado en torno a una Cadena de Pensamiento (CoT) larga y semiestructurada, en la que el proceso de generación se descompone en pasos intermedios explícitamente planificados. Introducimos un método de Ramificación de Planificación Diversa que introduce estratégicamente divergencia en la fase de planificación basándose en la variación de la diversidad, junto con una recompensa de diversidad consciente del grupo para fomentar trayectorias distintas. Los resultados experimentales en benchmarks de escritura creativa demuestran que nuestro enfoque mejora significativamente la diversidad de las salidas sin comprometer la calidad de la generación, superando consistentemente a los baselines existentes.
La tarea de generación de Imagen-a-Video (I2V) tiene como objetivo sintetizar un vídeo a partir de una imagen de referencia y un texto descriptivo. Esto requiere que los modelos de difusión reconcilien restricciones visuales de alta frecuencia y guías textuales de baja frecuencia durante el proceso de eliminación de ruido. Sin embargo, aunque los modelos I2V existentes priorizan la coherencia visual, cómo acoplar efectivamente esta doble guía para garantizar una fuerte adherencia al texto descriptivo sigue siendo un área poco explorada. En este trabajo, observamos que en los modelos I2V basados en Transformadores de Difusión (DiT), ciertas capas intermedias exhiben respuestas semánticas débiles (denominadas Capas Semántico-Débiles), como lo indica una caída medible en la similitud texto-visual. Atribuimos esto a un fenómeno llamado Aislamiento de Condición, donde la atención a las características visuales se desacopla parcialmente de la guía textual y depende excesivamente de los priores visuales aprendidos. Para abordar esto, proponemos Guía Focal (FG), que mejora la controlabilidad de las Capas Semántico-Débiles. FG comprende dos mecanismos: (1) La Guía Semántica de Grano Fino (FSG) aprovecha CLIP para identificar regiones clave en el fotograma de referencia y las utiliza como anclas para guiar a las Capas Semántico-Débiles. (2) La Caché de Atención transfiere mapas de atención desde capas semánticamente responsivas a las Capas Semántico-Débiles, inyectando señales semánticas explícitas y aliviando su excesiva dependencia de los priores visuales aprendidos por el modelo, mejorando así la adherencia a las instrucciones textuales. Para validar aún más nuestro enfoque y abordar la falta de evaluación en esta dirección, introducimos un benchmark para evaluar el seguimiento de instrucciones en modelos I2V. En este benchmark, la Guía Focal demuestra su efectividad y generalización, elevando la puntuación total en Wan2.1-I2V a 0.7250 (+3.97\%) e impulsando al HunyuanVideo-I2V basado en MMDiT a 0.5571 (+7.44\%).
El aprendizaje por refuerzo (RL) ofrece un método fundamentado para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes; sin embargo, su eficacia depende de señales de entrenamiento que sigan siendo informativas a medida que los modelos evolucionan. En la práctica, el progreso del RL a menudo se ralentiza cuando la dificultad de la tarea se desalinea con la capacidad del modelo, o cuando el entrenamiento está dominado por un conjunto reducido de patrones de problemas recurrentes. Para abordar conjuntamente estos problemas, proponemos SCALER (Entorno de Aprendizaje Adaptativo Sintético y Escalable para el Razonamiento), un marco que mantiene señales de aprendizaje efectivas mediante el diseño adaptativo del entorno. SCALER introduce un pipeline de síntesis escalable que convierte problemas de programación del mundo real en entornos de razonamiento verificables con dificultad controlable y generación ilimitada de instancias, permitiendo el entrenamiento con RL más allá de conjuntos de datos finitos mientras preserva sólidas garantías de corrección. Sobre esta base, SCALER emplea además una estrategia de RL multi-entorno adaptativa que ajusta dinámicamente la dificultad de las instancias y selecciona el conjunto activo de entornos para rastrear la frontera de capacidad del modelo y mantener la diversidad distribucional. Esta co-adaptación previene la dispersión de la recompensa, mitiga el sobreajuste a patrones de tareas estrechos y favorece una mejora sostenida durante todo el entrenamiento. Experimentos exhaustivos demuestran que SCALER supera consistentemente a los métodos baseline de RL basados en conjuntos de datos en diversos benchmarks de razonamiento y exhibe una dinámica de entrenamiento más estable y de largo plazo.
El aprendizaje por refuerzo (RL) guiado por crítica ha surgido como un paradigma poderoso para entrenar agentes de LLM al aumentar las recompensas de resultado escasas con retroalimentación en lenguaje natural. Sin embargo, los métodos actuales a menudo dependen de modelos críticos estáticos o fuera de línea, que no logran adaptarse a medida que la política evoluciona. En el RL *on-policy*, los patrones de error del agente cambian con el tiempo, lo que hace que los críticos estacionarios se vuelvan obsoletos y proporcionen una retroalimentación de utilidad decreciente. Para abordar esto, presentamos ECHO (*Evolving Critic for Hindsight-Guided Optimization*), un marco que optimiza conjuntamente la política y el crítico a través de un bucle coevolutivo sincronizado. ECHO utiliza un mecanismo de despliegue en cascada donde el crítico genera múltiples diagnósticos para una trayectoria inicial, seguido de un refinamiento de la política para permitir una estimación de ventaja de estructura grupal. Abordamos el desafío de los estancamientos en el aprendizaje mediante un objetivo de modelado de ganancia consciente de la saturación, que recompensa al crítico por inducir mejoras incrementales en trayectorias de alto rendimiento. Al emplear actualizaciones GRPO de doble vía, ECHO garantiza que la retroalimentación del crítico se mantenga sincronizada con la política en evolución. Los resultados experimentales muestran que ECHO produce un entrenamiento más estable y un mayor éxito en tareas de horizonte largo en diversos entornos de mundo abierto.
La asignación de cargas de trabajo en clústeres a menudo requiere configuraciones complejas, lo que genera una brecha de usabilidad. Este artículo presenta un paradigma de planificación semántica y basada en intenciones para sistemas de clústeres utilizando Procesamiento de Lenguaje Natural. El sistema emplea un Modelo de Lenguaje Grande (LLM) integrado mediante un extensor del planificador de Kubernetes para interpretar anotaciones de sugerencias de asignación en lenguaje natural que expresan preferencias de afinidad flexible. Se desarrolló un prototipo que incluye una caché del estado del clúster y un analizador de intenciones (utilizando AWS Bedrock). La evaluación empírica demostró una alta precisión de análisis por parte del LLM (>95% de Precisión de Subconjunto en un conjunto de datos de evaluación de referencia) para modelos de primer nivel como Amazon Nova Pro/Premier y Mistral Pixtral Large, superando significativamente a un motor de referencia. Las pruebas de calidad de planificación en seis escenarios mostraron que el prototipo logró una ubicación superior o equivalente en comparación con las configuraciones estándar de Kubernetes, destacándose especialmente en escenarios complejos y cuantitativos, y manejando preferencias flexibles conflictivas. Los resultados validan el uso de LLMs para una planificación más accesible, pero destacan limitaciones como la latencia síncrona del LLM, sugiriendo el procesamiento asíncrono para su preparación en entornos productivos. Este trabajo confirma la viabilidad de la afinidad flexible semántica para simplificar la orquestación de cargas de trabajo.
Los modelos de lenguaje grandes generan con frecuencia resúmenes verosímiles pero infieles que los usuarios no pueden verificar con el texto fuente, una limitación crítica en dominios sensibles al cumplimiento normativo, como el análisis gubernamental y legal. Presentamos sui-1, un modelo de 24B parámetros que produce resúmenes abstractivos con citas en línea, permitiendo a los usuarios rastrear cada afirmación hasta su oración fuente. Nuestro pipeline de datos sintéticos combina el prompting de cadena de pensamiento con verificación multietapa, generando más de 22,000 ejemplos de entrenamiento de alta calidad en cinco idiomas a partir de diversas fuentes, incluyendo documentos parlamentarios, texto web y Wikipedia. La evaluación muestra que sui-1 supera significativamente a todas las líneas base de peso abierto probadas, incluyendo modelos con 3 veces más parámetros. Estos resultados demuestran que el entrenamiento específico para la tarea supera sustancialmente al mero escalamiento para la generación de resúmenes con citas fundamentadas. Los pesos del modelo y una demostración interactiva están disponibles públicamente.
La calidad de la tokenización por subpalabras es crucial para los Modelos de Lenguaje a Gran Escala, sin embargo, la evaluación de tokenizadores para las lenguas urálicas, morfológicamente ricas, se ve dificultada por la falta de léxicos de morfemas limpios. Presentamos SampoNLP, un kit de herramientas independiente de corpus para la creación de léxicos morfológicos que utiliza una Puntuación de Atomicidad Autorreferencial inspirada en el Principio de Longitud Mínima de Descripción (MDL), la cual filtra formas compuestas mediante pistas estructurales internas, siendo adecuada para entornos de recursos limitados. Utilizando los léxicos de alta pureza generados por SampoNLP para el finés, el húngaro y el estonio, realizamos una evaluación sistemática de tokenizadores BPE en un rango de tamaños de vocabulario (8k-256k). Proponemos una métrica unificada, la Puntuación de Rendimiento Integrado (IPS), para navegar la compensación entre la cobertura de morfemas y la segmentación excesiva. Al analizar las curvas de IPS, identificamos los "puntos de codo" de rendimientos decrecientes y proporcionamos las primeras recomendaciones empíricamente fundamentadas para los tamaños de vocabulario óptimos (k) en estas lenguas. Nuestro estudio no solo ofrece una guía práctica, sino que también demuestra cuantitativamente las limitaciones del BPE estándar para lenguas altamente aglutinantes. La biblioteca SampoNLP y todos los recursos generados están disponibles públicamente: https://github.com/AragonerUA/SampoNLP