Artículos de investigación en IA seleccionados diariamente con traducciones
Los sistemas Multi-LLM aprovechan las fortalezas complementarias de diversos Modelos de Lenguaje de Gran Escala (LLM), logrando mejoras en rendimiento y eficiencia inalcanzables por un solo modelo. En los diseños existentes, los LLM se comunican a través de texto, lo que obliga a transformar las representaciones internas en secuencias de tokens de salida. Este proceso no solo pierde información semántica rica, sino que también incurre en latencia generada token por token. Motivados por estas limitaciones, nos preguntamos: ¿Pueden los LLM comunicarse más allá del texto? Experimentos oráculo muestran que enriquecer la semántica del KV-Cache puede mejorar la calidad de la respuesta sin aumentar el tamaño de la caché, respaldando al KV-Cache como un medio efectivo para la comunicación entre modelos. Por lo tanto, proponemos Cache-to-Cache (C2C), un nuevo paradigma para la comunicación semántica directa entre LLM. C2C utiliza una red neuronal para proyectar y fusionar el KV-cache del modelo fuente con el del modelo objetivo, permitiendo una transferencia semántica directa. Un mecanismo de compuerta aprendible selecciona las capas objetivo que se benefician de la comunicación de caché. En comparación con la comunicación textual, C2C utiliza la semántica profunda y especializada de ambos modelos, evitando la generación explícita de texto intermedio. Los experimentos muestran que C2C logra un 8.5-10.5% más de precisión promedio que los modelos individuales. Además, supera el paradigma de comunicación textual en aproximadamente un 3.0-5.0%, mientras que ofrece una aceleración promedio de 2.0x en la latencia. Nuestro código está disponible en https://github.com/thu-nics/C2C.
La tokenización visual sigue siendo un desafío fundamental para unificar la comprensión y generación visual dentro del paradigma autoregresivo. Los métodos existentes suelen emplear tokenizadores en espacios latentes discretos para alinearse con los tokens de los modelos de lenguaje grandes, donde los errores de cuantificación pueden limitar la expresividad semántica y degradar la capacidad de comprensión visión-lenguaje. Para abordar esto, presentamos MingTok, una nueva familia de tokenizadores visuales con un espacio latente continuo, diseñada para la generación y comprensión unificadas en un marco autoregresivo. Mientras que las tareas de comprensión favorecen características discriminativas de alta dimensionalidad, las tareas de generación prefieren códigos compactos de bajo nivel. Por lo tanto, para reconciliar estas demandas contrapuestas, MingTok adopta una arquitectura secuencial de tres etapas que incluye codificación de bajo nivel, expansión semántica y reconstrucción visual. Basado en esto, Ming-UniVision elimina la necesidad de representaciones visuales específicas para cada tarea y unifica diversas tareas visión-lenguaje bajo un único paradigma de predicción autoregresiva. Al formular tanto la comprensión como la generación como predicción del siguiente token en un espacio continuo compartido, permite de manera fluida tareas multironda en contexto, como comprensión iterativa, generación y edición. Empíricamente, encontramos que el uso de una representación visual continua unificada reconcilia las demandas contrapuestas de los tokenizadores por parte de las tareas de comprensión y generación, lo que conduce a un rendimiento de vanguardia en ambos dominios. Esperamos que nuestros hallazgos faciliten la tokenización visual unificada en el dominio continuo. El código de inferencia y los pesos del modelo se han liberado para beneficio de la comunidad.
Presentamos Lumina-DiMOO, un modelo fundacional de código abierto para la generación y comprensión multimodal sin fisuras. Lumina-DiMOO se distingue de los modelos unificados anteriores al utilizar un enfoque de modelado de difusión completamente discreto para manejar entradas y salidas en diversas modalidades. Este enfoque innovador permite que Lumina-DiMOO alcance una mayor eficiencia en el muestreo en comparación con los paradigmas autoregresivos (AR) o híbridos AR-Difusión anteriores, y apoye de manera competente un amplio espectro de tareas multimodales, incluyendo la generación de texto a imagen, la generación de imagen a imagen (por ejemplo, edición de imágenes, generación basada en sujetos y restauración de imágenes, entre otros), así como la comprensión de imágenes. Lumina-DiMOO logra un rendimiento de vanguardia en múltiples benchmarks, superando a los modelos unificados multimodales de código abierto existentes. Para fomentar avances adicionales en la investigación de modelos de difusión discreta y multimodal, liberamos nuestro código y puntos de control a la comunidad. Página del proyecto: https://synbol.github.io/Lumina-DiMOO.
Los modelos de lenguaje actuales (LLMs) y los modelos de lenguaje hablado (SLMs) comienzan a pensar y actuar solo después de que el usuario ha terminado su turno. Esto impide que el modelo interactúe durante el turno del usuario y puede generar una alta latencia en las respuestas mientras espera para pensar. En consecuencia, pensar después de recibir la entrada completa no es adecuado para la interacción de voz a voz, donde el intercambio en tiempo real y de baja latencia es crucial. Abordamos este problema observando que los humanos naturalmente "piensan mientras escuchan". En este artículo, proponemos SHANKS, un marco de inferencia general que permite a los SLMs generar razonamientos no hablados en cadena mientras escuchan la entrada del usuario. SHANKS transmite el discurso de entrada en fragmentos de duración fija y, tan pronto como se recibe un fragmento, genera razonamientos no hablados basados en todo el discurso y razonamiento previo, mientras el usuario continúa hablando. SHANKS utiliza este razonamiento no hablado para decidir si interrumpir al usuario y realizar llamadas a herramientas para completar la tarea. Demostramos que SHANKS mejora la interacción en tiempo real entre el usuario y el SLM en dos escenarios: (1) cuando el usuario presenta una solución paso a paso a un problema matemático, SHANKS puede escuchar, razonar e interrumpir cuando el usuario comete un error, logrando un 37.1% más de precisión en las interrupciones que un modelo base que interrumpe sin pensar; y (2) en un diálogo aumentado con herramientas, SHANKS puede completar el 56.9% de las llamadas a herramientas antes de que el usuario termine su turno. En general, SHANKS avanza hacia modelos que continúan pensando durante toda la conversación, no solo después de que termina un turno. Las ilustraciones animadas de SHANKS se pueden encontrar en https://d223302.github.io/SHANKS/.
Los Video DiTs han avanzado en la generación de videos, pero aún tienen dificultades para modelar interacciones multi-instancia o sujeto-objeto. Esto plantea una pregunta clave: ¿Cómo representan internamente estas interacciones los modelos? Para responder a esto, hemos creado MATRIX-11K, un conjunto de datos de videos con descripciones conscientes de las interacciones y seguimientos de máscaras multi-instancia. Utilizando este conjunto de datos, realizamos un análisis sistemático que formaliza dos perspectivas de los Video DiTs: la fundamentación semántica, a través de la atención video-a-texto, que evalúa si los tokens de sustantivos y verbos capturan las instancias y sus relaciones; y la propagación semántica, a través de la atención video-a-video, que evalúa si los enlaces de instancias persisten a lo largo de los fotogramas. Descubrimos que ambos efectos se concentran en un pequeño subconjunto de capas dominadas por interacciones. Motivados por esto, introducimos MATRIX, una regularización simple y efectiva que alinea la atención en capas específicas de los Video DiTs con los seguimientos de máscaras multi-instancia del conjunto de datos MATRIX-11K, mejorando tanto la fundamentación como la propagación. Además, proponemos InterGenEval, un protocolo de evaluación para la generación de videos consciente de las interacciones. En los experimentos, MATRIX mejora tanto la fidelidad de las interacciones como la alineación semántica, mientras reduce la deriva y las alucinaciones. Ablaciones extensas validan nuestras decisiones de diseño. Los códigos y pesos serán publicados.
Los avances recientes en los modelos fundamentales de visión y lenguaje han impulsado significativamente la comprensión, el razonamiento y la generación multimodal, inspirando un creciente interés en extender estas capacidades a entornos corporizados a través de modelos de visión-lenguaje-acción (VLA). Sin embargo, la mayoría de los modelos VLA aún se entrenan con ajuste fino supervisado (SFT), que tiene dificultades para generalizar bajo cambios de distribución debido a la acumulación de errores. El aprendizaje por refuerzo (RL) ofrece una alternativa prometedora al optimizar directamente el rendimiento de la tarea mediante la interacción, pero los intentos existentes siguen siendo fragmentados y carecen de una plataforma unificada para una comparación justa y sistemática entre arquitecturas de modelos y diseños algorítmicos. Para abordar esta brecha, presentamos RLinf-VLA, un marco unificado y eficiente para el entrenamiento escalable de modelos VLA mediante RL. El sistema adopta un diseño de asignación de recursos altamente flexible que aborda el desafío de integrar la renderización, el entrenamiento y la inferencia en el entrenamiento RL+VLA. En particular, para simuladores paralelizados en GPU, RLinf-VLA implementa un novedoso modo de asignación de canalización híbrida de grano fino, logrando una aceleración de 1.61x-1.88x en el entrenamiento. A través de una interfaz unificada, RLinf-VLA admite de manera fluida diversas arquitecturas VLA (por ejemplo, OpenVLA, OpenVLA-OFT), múltiples algoritmos de RL (por ejemplo, PPO, GRPO) y varios simuladores (por ejemplo, ManiSkill, LIBERO). En simulación, un modelo unificado alcanza un 98.11% en 130 tareas de LIBERO y un 97.66% en 25 tareas de ManiSkill. Más allá del rendimiento empírico, nuestro estudio destila un conjunto de mejores prácticas para aplicar RL al entrenamiento VLA y arroja luz sobre patrones emergentes en esta integración. Además, presentamos un despliegue preliminar en un robot Franka del mundo real, donde las políticas entrenadas con RL muestran una mayor generalización que aquellas entrenadas con SFT. Visualizamos RLinf-VLA como una base para acelerar y estandarizar la investigación en inteligencia corporizada.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han impulsado la codificación basada en sensaciones (vibe coding), donde los usuarios aprovechan los LLMs para generar y refinar iterativamente código a través de interacciones en lenguaje natural hasta que este supera su "prueba de sensación" (vibe check). La prueba de sensación está vinculada a las preferencias humanas del mundo real y va más allá de la funcionalidad: la solución debe sentirse correcta, leerse de manera limpia, preservar la intención y mantenerse precisa. Sin embargo, la evaluación actual del código sigue anclada en métricas como pass@k y captura únicamente la corrección funcional, pasando por alto las instrucciones no funcionales que los usuarios aplican de manera rutinaria. En este artículo, planteamos la hipótesis de que el seguimiento de instrucciones es el elemento faltante subyacente a la prueba de sensación, representando las preferencias humanas en la codificación además de la corrección funcional. Para cuantificar las capacidades de los modelos para seguir instrucciones de código con señales medibles, presentamos VeriCode, una taxonomía de 30 instrucciones de código verificables junto con verificadores deterministas correspondientes. Utilizamos esta taxonomía para ampliar conjuntos de evaluación establecidos, dando como resultado Vibe Checker, un banco de pruebas para evaluar tanto el seguimiento de instrucciones de código como la corrección funcional. Al evaluar 31 LLMs líderes, demostramos que incluso los modelos más potentes tienen dificultades para cumplir con múltiples instrucciones y muestran una clara regresión funcional. Más importante aún, una puntuación compuesta de corrección funcional y seguimiento de instrucciones se correlaciona mejor con las preferencias humanas, siendo este último el principal diferenciador en tareas de programación del mundo real. Nuestro trabajo identifica los factores centrales de la prueba de sensación, proporcionando un camino concreto para la evaluación y el desarrollo de modelos que se alineen mejor con las preferencias de los usuarios en la codificación.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) dependen cada vez más de la planificación integrada con herramientas de múltiples turnos para tareas intensivas en conocimiento y de razonamiento complejo. Las implementaciones existentes suelen basarse en un solo agente, pero se ven limitadas por la longitud del contexto y las respuestas ruidosas de las herramientas. Una solución natural es adoptar un marco de múltiples agentes con agentes planificadores y trabajadores para gestionar el contexto. Sin embargo, no existen métodos actuales que respalden un entrenamiento posterior efectivo mediante aprendizaje por refuerzo para marcos de múltiples agentes integrados con herramientas. Para abordar esta brecha, proponemos la Optimización de Políticas Integradas con Herramientas de Múltiples Agentes (MATPO, por sus siglas en inglés), que permite entrenar roles distintos (planificador y trabajador) dentro de una única instancia de LLM utilizando indicaciones específicas de roles mediante aprendizaje por refuerzo. MATPO se deriva de un mecanismo de asignación de crédito fundamentado en las ejecuciones del planificador y el trabajador. Este diseño elimina la necesidad de implementar múltiples LLMs, lo que sería intensivo en memoria, mientras preserva los beneficios de la especialización. Los experimentos en GAIA-text, WebWalkerQA y FRAMES muestran que MATPO supera consistentemente los enfoques de un solo agente con una mejora relativa promedio del 18.38% en el rendimiento y exhibe una mayor robustez frente a salidas ruidosas de las herramientas. Nuestros hallazgos destacan la efectividad de unificar múltiples roles de agentes dentro de un solo LLM y proporcionan insights prácticos para un entrenamiento estable y eficiente de aprendizaje por refuerzo en múltiples agentes.
El modelado de secuencias largas enfrenta una compensación fundamental entre la eficiencia de la memoria compresiva de tamaño fijo en modelos similares a RNN y la fidelidad de la memoria creciente sin pérdida en Transformers basados en atención. Inspirados por el Modelo de Almacenamiento Múltiple en la ciencia cognitiva, introducimos un marco de memoria para redes neuronales artificiales. Nuestro método mantiene una ventana deslizante de la caché KV del Transformer como memoria a corto plazo sin pérdida, mientras que un módulo aprendible denominado Red de Hipocampo Artificial (AHN, por sus siglas en inglés) comprime recurrentemente la información fuera de la ventana en una memoria a largo plazo compacta de tamaño fijo. Para validar este marco, instanciamos AHNs utilizando arquitecturas modernas similares a RNN, incluyendo Mamba2, DeltaNet y Gated DeltaNet. Experimentos extensos en los puntos de referencia de contexto largo LV-Eval e InfiniteBench demuestran que los modelos aumentados con AHN superan consistentemente las líneas base de ventana deslizante y logran un rendimiento comparable o incluso superior a los modelos de atención completa, mientras reducen sustancialmente los requisitos computacionales y de memoria. Por ejemplo, aumentar el Qwen2.5-3B-Instruct con AHNs reduce los FLOPs de inferencia en un 40.5% y la caché de memoria en un 74.0%, mientras mejora su puntuación promedio en LV-Eval (longitud de secuencia de 128k) de 4.41 a 5.88. El código está disponible en: https://github.com/ByteDance-Seed/AHN.
Los modelos de vanguardia recientes emplean razonamientos de cadena de pensamiento largos para explorar espacios de solución en contexto y lograr un rendimiento más sólido. Si bien muchos trabajos estudian la destilación para construir modelos más pequeños pero capaces, la mayoría se centra en el inglés y se sabe poco sobre el razonamiento específico del idioma. Para cerrar esta brecha, primero introducimos **Language-Mixed CoT**, un esquema de razonamiento que alterna entre el inglés y un idioma objetivo, utilizando el inglés como ancla para sobresalir en el razonamiento mientras se minimizan los artefactos de traducción. Como estudio de caso en coreano, creamos **Yi-Sang**: 5.79M prompts en coreano nativo de preguntas y respuestas web, exámenes, STEM y código; 3.7M trazas de razonamiento largo generadas a partir de Qwen3-32B; y un subconjunto específico de 260k de alto rendimiento. Entrenamos nueve modelos (4B-35B) en seis familias (Qwen2.5, Llama-3.1, Gemma-3, etc.). Nuestro mejor modelo, **KO-REAson-35B**, logra un rendimiento de vanguardia, con la puntuación promedio general más alta (64.0 \pm 25), ocupando el primer lugar en 5/9 benchmarks y el segundo en el resto. Los modelos más pequeños y medianos también se benefician sustancialmente, con una mejora promedio de +18.6 puntos en los nueve benchmarks evaluados. Las ablaciones muestran que **Language-Mixed CoT** es más efectivo que CoT monolingüe, también resultando en ganancias de rendimiento cruzado y multimodal. Publicamos nuestra pipeline de curación de datos, sistema de evaluación, conjuntos de datos y modelos para avanzar en la investigación sobre el razonamiento específico del idioma. Colección de datos y modelos: https://huggingface.co/KOREAson.
A pesar de representar casi un tercio de los idiomas del mundo, las lenguas africanas siguen estando gravemente desatendidas por las tecnologías modernas de Procesamiento del Lenguaje Natural (PLN), con un 88\% clasificadas como severamente subrepresentadas o completamente ignoradas en la lingüística computacional. Presentamos el Laboratorio de Lenguas Africanas (All Lab), una iniciativa de investigación integral que aborda esta brecha tecnológica mediante la recopilación sistemática de datos, el desarrollo de modelos y la creación de capacidades. Nuestras contribuciones incluyen: (1) una canalización de recopilación de datos controlada en calidad, que produce el mayor conjunto de datos multimodales validados de habla y texto en lenguas africanas, abarcando 40 idiomas con 19 mil millones de tokens de texto monolingüe y 12,628 horas de datos de habla alineados; (2) una extensa validación experimental que demuestra que nuestro conjunto de datos, combinado con ajuste fino, logra mejoras sustanciales sobre los modelos de referencia, con un promedio de +23.69 ChrF++, +0.33 COMET y +15.34 puntos BLEU en 31 idiomas evaluados; y (3) un programa de investigación estructurado que ha mentorado exitosamente a quince investigadores en etapas iniciales de su carrera, estableciendo una capacidad local sostenible. Nuestra evaluación comparativa frente a Google Translate revela un rendimiento competitivo en varios idiomas, al mismo tiempo que identifica áreas que requieren un desarrollo continuo.
La búsqueda de eficiencia computacional ha impulsado la adopción de formatos de baja precisión para entrenar modelos transformadores. Sin embargo, este progreso a menudo se ve obstaculizado por notorias inestabilidades durante el entrenamiento. Este artículo proporciona la primera explicación mecanicista de un caso de fallo persistente y no resuelto, en el que el entrenamiento con atención flash en configuraciones de baja precisión conduce a explosiones catastróficas de la pérdida. Nuestro análisis en profundidad revela que el fallo no es un artefacto aleatorio, sino que está causado por dos fenómenos interrelacionados: la aparición de representaciones de bajo rango similares dentro del mecanismo de atención y el efecto acumulativo de errores de redondeo sesgados inherentes a la aritmética de baja precisión. Demostramos cómo estos factores crean un ciclo vicioso de acumulación de errores que corrompe las actualizaciones de los pesos, desviando finalmente la dinámica del entrenamiento. Para validar nuestros hallazgos, introducimos una modificación mínima a la atención flash que mitiga el sesgo en los errores de redondeo. Este simple cambio estabiliza el proceso de entrenamiento, confirmando nuestro análisis y ofreciendo una solución práctica a este problema persistente.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades sólidas en razonamiento complejo de múltiples pasos, abriendo nuevas oportunidades para la automatización del modelado de optimización. Sin embargo, los métodos existentes de adaptación de dominio, diseñados originalmente para modelos ajustados por instrucciones anteriores, a menudo no logran explotar los patrones avanzados de razonamiento de los LRMs modernos. En particular, mostramos que el ajuste fino directo en conjuntos de datos tradicionales no reflexivos conduce a ganancias limitadas. Para aprovechar plenamente las habilidades de razonamiento inherentes de los LRMs, proponemos CALM (Adaptación Correctiva con Modificación Ligera), un marco que refina progresivamente los LRMs dentro de sus modos de razonamiento nativos para tareas de modelado de optimización. En CALM, un interventor experto identifica fallos de razonamiento y proporciona pistas correctivas concisas, que el LRM incorpora para producir trayectorias de razonamiento mejoradas. Estas intervenciones modifican menos del 2.6\% de los tokens generados, pero generan datos de alta calidad para una adaptación suave mediante ajuste fino supervisado. El modelo adaptado se mejora aún más mediante aprendizaje por refuerzo. Basándonos en CALM, desarrollamos STORM (Modelo de Razonamiento de Optimización de Pensamiento Inteligente), un LRM de 4B parámetros que alcanza una nueva precisión promedio de vanguardia del 68.9\% en cinco puntos de referencia populares de modelado de optimización, igualando el rendimiento de un LRM de 671B. Estos resultados demuestran que la síntesis dinámica de datos basada en pistas preserva y amplifica los patrones de razonamiento nativos de los LRMs modernos, ofreciendo un camino más efectivo y escalable hacia un rendimiento de nivel experto en tareas desafiantes de modelado de optimización.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido recientemente en una estrategia sólida para entrenar modelos de lenguaje de razonamiento (LLMs) que producen cadenas largas de pensamiento (LongCoT). Sin embargo, el entorno estándar de "pensamiento" en RL, donde el estado es el prompt más todos los tokens de razonamiento previos, hace que el estado sea ilimitado y obliga a las políticas basadas en atención a incurrir en un coste computacional cuadrático a medida que los pensamientos se alargan. Revisamos el entorno en sí. Proponemos Pensamiento Markoviano, un paradigma en el que la política avanza el razonamiento condicionando un estado de tamaño constante, desacoplando la longitud del pensamiento del tamaño del contexto. Como consecuencia inmediata, esto produce un coste computacional lineal con memoria constante. Implementamos esta idea con Delethink, un entorno de RL que estructura el razonamiento en fragmentos de tamaño fijo. Dentro de cada fragmento, el modelo piensa como de costumbre; en el límite, el entorno reinicia el contexto y reinicializa el prompt con un breve resumen. A través de RL, la política aprende a escribir un estado textual cerca del final de cada fragmento suficiente para continuar el razonamiento sin interrupciones después del reinicio. Entrenado en este entorno, un modelo R1-Distill de 1.5B razona en fragmentos de 8K tokens pero piensa hasta 24K tokens, igualando o superando a LongCoT-RL entrenado con un presupuesto de 24K. Con escalado en tiempo de prueba, Delethink continúa mejorando donde LongCoT se estanca. El efecto del coste computacional lineal es sustancial: estimamos empíricamente que, con una longitud media de pensamiento de 96K, LongCoT-RL cuesta 27 meses-H100 frente a 7 para Delethink. Un análisis en la inicialización de RL muestra que los modelos de razonamiento estándar (1.5B-120B) a menudo muestrean trazas markovianas de manera inmediata en diversos benchmarks, proporcionando muestras positivas que hacen que RL sea efectivo a gran escala. Nuestros resultados demuestran que rediseñar el entorno de pensamiento es una palanca poderosa: permite razonamientos muy largos sin sobrecarga cuadrática y abre un camino hacia LLMs de razonamiento eficientes y escalables.
Los modelos de contexto largo (LCMs, por sus siglas en inglés) han demostrado un gran potencial en el procesamiento de secuencias largas, facilitando muchas aplicaciones del mundo real. El éxito de los LCMs puede atribuirse a su capacidad para localizar información crítica implícita dentro del contexto para realizar predicciones posteriores. Sin embargo, investigaciones recientes revelan que los LCMs suelen ser susceptibles al ruido contextual, es decir, a tokens irrelevantes que pueden desviar la atención del modelo. En este artículo, realizamos un análisis detallado del ruido contextual y proponemos una métrica efectiva, la puntuación de Gradiente Integrado (IG, por sus siglas en inglés), para detectar y cuantificar la información de ruido dentro del contexto. Nuestros hallazgos revelan que incluso una mitigación simple del ruido contextual detectado puede aumentar sustancialmente la atención del modelo en los tokens críticos y beneficiar las predicciones posteriores. Basándonos en esta idea, proponemos el Entrenamiento de Desruido de Contexto (CDT, por sus siglas en inglés), una estrategia de entrenamiento sencilla pero efectiva que mejora la atención en los tokens críticos mientras refuerza su influencia en las predicciones del modelo. Experimentos exhaustivos en cuatro tareas, bajo configuraciones de escalado de ventana de contexto y alineación de contexto largo, demuestran la superioridad del CDT. Notablemente, cuando se entrena con CDT, un modelo de código abierto de 8B puede alcanzar un rendimiento (50.92) comparable al de GPT-4o (51.00).
Los Transformers sobresalen en el modelado de secuencias, pero enfrentan una complejidad cuadrática, mientras que la atención lineal ofrece una mayor eficiencia, aunque a menudo compromete la precisión de recuperación en contextos largos. En este trabajo, presentamos Native Hybrid Attention (NHA), una arquitectura híbrida novedosa que combina atención lineal y atención completa, integrando tanto la hibridación intra como inter-capa en un diseño de capa unificado. NHA mantiene el contexto a largo plazo en ranuras clave-valor actualizadas por un RNN lineal, y las complementa con tokens a corto plazo provenientes de una ventana deslizante. Luego, se aplica una única operación de atención softmax sobre todas las claves y valores, permitiendo una ponderación dependiente del contexto por token y por cabeza sin requerir parámetros de fusión adicionales. El comportamiento inter-capa se controla mediante un único hiperparámetro, el tamaño de la ventana deslizante, lo que permite un ajuste suave entre atención puramente lineal y completa, manteniendo todas las capas estructuralmente uniformes. Los resultados experimentales muestran que NHA supera a los Transformers y otros modelos híbridos de referencia en tareas intensivas de recuperación y razonamiento de sentido común. Además, los LLM preentrenados pueden hibridarse estructuralmente con NHA, logrando una precisión competitiva mientras ofrecen ganancias significativas en eficiencia. El código está disponible en https://github.com/JusenD/NHA.
Los modelos de difusión de texto a imagen a gran escala, aunque potentes, sufren de un costo computacional prohibitivo. Los métodos existentes de poda de redes en una sola pasada difícilmente pueden aplicarse directamente a ellos debido a la naturaleza iterativa de eliminación de ruido de los modelos de difusión. Para cerrar esta brecha, este artículo presenta OBS-Diff, un novedoso marco de poda en una sola pasada que permite la compresión precisa y sin entrenamiento de modelos de difusión de texto a imagen a gran escala. Específicamente, (i) OBS-Diff revitaliza el clásico Optimal Brain Surgeon (OBS), adaptándolo a las arquitecturas complejas de los modelos de difusión modernos y apoyando diversos niveles de granularidad en la poda, incluyendo la esparcidad no estructurada, semi-estructurada N:M y estructurada (cabezas de MHA y neuronas de FFN); (ii) Para alinear los criterios de poda con la dinámica iterativa del proceso de difusión, al examinar el problema desde una perspectiva de acumulación de errores, proponemos una construcción novedosa de Hessian consciente del paso de tiempo que incorpora un esquema de ponderación de disminución logarítmica, asignando mayor importancia a los pasos de tiempo iniciales para mitigar la posible acumulación de errores; (iii) Además, se propone una estrategia de poda secuencial por grupos computacionalmente eficiente para amortizar el costoso proceso de calibración. Experimentos extensivos muestran que OBS-Diff logra la poda en una sola pasada más avanzada para modelos de difusión, ofreciendo aceleración en la inferencia con una degradación mínima en la calidad visual.
La rápida evolución de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y del mundo real ha superado la naturaleza estática de los puntos de referencia de evaluación ampliamente utilizados, lo que ha generado preocupaciones sobre su fiabilidad para evaluar la factualidad de los LLMs. Aunque una cantidad considerable de trabajos sigue dependiendo de los puntos de referencia populares pero antiguos, su desalineación temporal con los hechos del mundo real y los LLMs modernos, así como sus efectos en la evaluación de la factualidad de los LLMs, siguen siendo poco explorados. Por lo tanto, en este trabajo, presentamos una investigación sistemática de este problema mediante el examen de cinco puntos de referencia de factualidad populares y ocho LLMs lanzados en diferentes años. Se ha diseñado una canalización actualizada para la recuperación de hechos y tres métricas para cuantificar el envejecimiento de los puntos de referencia y su impacto en la evaluación de la factualidad de los LLMs. Los resultados experimentales y el análisis ilustran que una porción considerable de las muestras en los puntos de referencia de factualidad ampliamente utilizados están desactualizadas, lo que conduce a evaluaciones poco fiables de la factualidad de los LLMs. Esperamos que nuestro trabajo pueda proporcionar un banco de pruebas para evaluar la fiabilidad de un punto de referencia en la evaluación de la factualidad de los LLMs e inspire más investigaciones sobre el problema del envejecimiento de los puntos de referencia. Los códigos están disponibles en https://github.com/JiangXunyi/BenchAge.
Los métodos existentes para extraer señales de recompensa en Aprendizaje por Refuerzo suelen depender de datos etiquetados y divisiones de entrenamiento dedicadas, un enfoque que contrasta con cómo los humanos aprenden directamente de su entorno. En este trabajo, proponemos TTRV para mejorar la comprensión de lenguaje visual adaptando el modelo sobre la marcha durante la inferencia, sin necesidad de datos etiquetados. Concretamente, mejoramos el marco de Optimización de Política Relativa de Grupo (GRPO) diseñando recompensas basadas en la frecuencia de la salida del modelo base, mientras inferimos múltiples veces sobre cada muestra de prueba. Además, también proponemos controlar la diversidad de la salida del modelo recompensando simultáneamente al modelo por obtener una entropía baja en la distribución empírica de la salida. Nuestro enfoque ofrece mejoras consistentes tanto en reconocimiento de objetos como en respuesta a preguntas visuales (VQA), con incrementos de hasta el 52.4% y 29.8%, respectivamente, y mejoras promedio de 24.6% y 10.0% en 16 conjuntos de datos. Notablemente, en reconocimiento de imágenes, TTRV aplicado a InternVL 8B supera a GPT-4o en un promedio del 2.3% en 8 benchmarks, mientras que se mantiene altamente competitivo en VQA, demostrando que el aprendizaje por refuerzo en tiempo de prueba puede igualar o superar a los modelos propietarios más fuertes. Finalmente, descubrimos muchas propiedades interesantes del aprendizaje por refuerzo en tiempo de prueba para modelos de lenguaje visual (VLMs): por ejemplo, incluso en escenarios extremadamente limitados en datos, donde la adaptación se realiza en un único ejemplo de prueba no etiquetado elegido al azar, TTRV aún produce mejoras no triviales de hasta el 5.5% en tareas de reconocimiento.
Un desafío fundamental en la inteligencia encarnada es desarrollar representaciones de estado expresivas y compactas para un modelado eficiente del mundo y la toma de decisiones. Sin embargo, los métodos existentes a menudo no logran este equilibrio, produciendo representaciones que son excesivamente redundantes o carecen de información crítica para la tarea. Proponemos un enfoque no supervisado que aprende una representación de estado altamente comprimida de dos tokens utilizando un codificador ligero y un decodificador preentrenado de Transformador de Difusión (DiT), aprovechando su fuerte prior generativo. Nuestra representación es eficiente, interpretable y se integra perfectamente en los modelos basados en VLA existentes, mejorando el rendimiento en un 14.3% en LIBERO y en un 30% en el éxito de tareas del mundo real con un mínimo sobrecarga de inferencia. Más importante aún, encontramos que la diferencia entre estos tokens, obtenida mediante interpolación latente, sirve naturalmente como una acción latente altamente efectiva, que puede decodificarse en acciones ejecutables por el robot. Esta capacidad emergente revela que nuestra representación captura dinámicas estructuradas sin supervisión explícita. Denominamos a nuestro método StaMo por su capacidad para aprender Movimiento robótico generalizable a partir de una representación de Estado compacta, que se codifica a partir de imágenes estáticas, desafiando la dependencia predominante de aprender acciones latentes en arquitecturas complejas y datos de video. Las acciones latentes resultantes también mejoran el entrenamiento conjunto de políticas, superando a los métodos anteriores en un 10.4% con una interpretabilidad mejorada. Además, nuestro enfoque escala eficazmente en diversas fuentes de datos, incluyendo datos de robots del mundo real, simulaciones y video egocéntrico humano.
Los esfuerzos recientes para acelerar la inferencia en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se han centrado principalmente en la compresión de tokens visuales. La efectividad de estos métodos se evalúa típicamente midiendo la caída en la precisión en benchmarks establecidos, comparando el rendimiento del modelo antes y después de la compresión. Sin embargo, estos benchmarks están originalmente diseñados para evaluar las capacidades de percepción y razonamiento de los MLLMs, en lugar de evaluar técnicas de compresión. Como resultado, aplicarlos directamente a la compresión de tokens visuales introduce una discrepancia en la tarea. Sorprendentemente, nuestra investigación revela que el simple submuestreo de imágenes supera consistentemente a muchos métodos avanzados de compresión en múltiples benchmarks ampliamente utilizados. A través de extensos experimentos, realizamos las siguientes observaciones: (i) Los benchmarks actuales son ruidosos para la tarea de compresión de tokens visuales. (ii) El submuestreo puede servir como un filtro de datos para evaluar la dificultad de las muestras en la tarea de compresión de tokens visuales. Motivados por estos hallazgos, presentamos VTC-Bench, un marco de evaluación que incorpora un mecanismo de filtrado de datos para eliminar el ruido de los benchmarks existentes, permitiendo así una evaluación más justa y precisa de los métodos de compresión de tokens visuales. Todos los datos y el código están disponibles en https://github.com/Chenfei-Liao/VTC-Bench.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado rápidamente en los últimos años. Sin embargo, los enfoques existentes para tareas de visión a menudo dependen de representaciones indirectas, como generar coordenadas en forma de texto para la detección, lo que limita el rendimiento e impide tareas de predicción densa como la segmentación. Para superar estos desafíos, presentamos Patch-as-Decodable Token (PaDT), un paradigma unificado que permite a los MLLMs generar directamente tanto salidas textuales como diversas salidas visuales. El núcleo de PaDT son los Tokens de Referencia Visual (VRTs, por sus siglas en inglés), derivados de los embeddings de parches visuales de las imágenes de consulta y entrelazados sin problemas con los tokens textuales de salida del LLM. Un decodificador ligero transforma luego las salidas del LLM en predicciones de detección, segmentación y localización. A diferencia de métodos anteriores, PaDT procesa los VRTs de manera independiente en cada paso hacia adelante y expande dinámicamente la tabla de embeddings, mejorando así la localización y diferenciación entre objetos similares. Además, adaptamos una estrategia de entrenamiento para PaDT seleccionando aleatoriamente VRTs para el ajuste fino supervisado e introduciendo una robusta pérdida de entropía cruzada por token. Nuestros estudios empíricos en cuatro tareas de percepción y comprensión visual sugieren que PaDT logra consistentemente un rendimiento de vanguardia, incluso en comparación con modelos MLLM significativamente más grandes. El código está disponible en https://github.com/Gorilla-Lab-SCUT/PaDT.
El desarrollo de modelos de lenguaje avanzados de última generación se entiende comúnmente como un proceso de dos etapas que involucra preentrenamiento y posentrenamiento. Señalamos la necesidad de una etapa intermedia adicional llamada entrenamiento intermedio de refuerzo, con potencial para obtener importantes mejoras en el rendimiento. En este artículo, definimos formalmente el problema e identificamos tres desafíos clave: (1) entrenamiento ineficiente debido a pasos de razonamiento excesivos, (2) desconsideración de la distribución desequilibrada de entropía de tokens, y (3) subutilización de la información de los tokens. Para abordar estos desafíos, proponemos RMT, un marco para un entrenamiento intermedio de refuerzo eficiente, adaptativo y unificado, con varios componentes innovadores. En particular, primero introducimos un mecanismo de presupuesto dinámico de tokens que limita pasos de razonamiento innecesarios y mitiga el sobrepensamiento del modelo. Luego, diseñamos un método de muestreo adaptativo basado en currículo que fomenta una trayectoria de aprendizaje progresiva, desde tokens fáciles hasta difíciles. Finalmente, presentamos una estrategia de entrenamiento dual que combina el aprendizaje por refuerzo con la predicción del siguiente token, asegurando un aprendizaje dirigido en tokens clave y la explotación completa de toda la información de los tokens. Experimentos extensos demuestran la superioridad de RMT sobre los métodos más avanzados, logrando una mejora de rendimiento de hasta +64,91% con solo el 21% de la longitud de razonamiento en modelado de lenguaje. También mostramos que los puntos de control obtenidos después del entrenamiento intermedio de refuerzo pueden beneficiar el posentrenamiento posterior, obteniendo una mejora de hasta +18,76% en el dominio matemático.
Las observaciones desde la perspectiva de la muñeca son cruciales para los modelos VLA, ya que capturan interacciones mano-objeto de gran detalle que mejoran directamente el rendimiento en tareas de manipulación. Sin embargo, los conjuntos de datos a gran escala rara vez incluyen este tipo de grabaciones, lo que genera una brecha significativa entre las abundantes vistas de anclaje y las escasas vistas de muñeca. Los modelos de mundo existentes no pueden cerrar esta brecha, ya que requieren un fotograma inicial desde la vista de muñeca y, por lo tanto, no pueden generar videos desde esta perspectiva utilizando únicamente las vistas de anclaje. En este contexto, modelos recientes de geometría visual como VGGT han surgido con conocimientos geométricos y prioridades entre vistas que permiten abordar cambios extremos de perspectiva. Inspirados por estos avances, proponemos WristWorld, el primer modelo de mundo 4D que genera videos desde la vista de la muñeca utilizando únicamente las vistas de anclaje. WristWorld opera en dos etapas: (i) Reconstrucción, que extiende VGGT e incorpora nuestra Pérdida de Consistencia de Proyección Espacial (SPC) para estimar poses geométricamente consistentes desde la vista de la muñeca y nubes de puntos 4D; (ii) Generación, que emplea nuestro modelo de generación de videos para sintetizar videos temporalmente coherentes desde la perspectiva reconstruida. Los experimentos en Droid, Calvin y Franka Panda demuestran una generación de videos de vanguardia con una consistencia espacial superior, además de mejorar el rendimiento de los modelos VLA, aumentando la longitud promedio de finalización de tareas en Calvin en un 3.81% y cerrando el 42.4% de la brecha entre las vistas de anclaje y muñeca.
Si bien los modelos de lenguaje (LMs) han logrado avances significativos en la automatización de la ingeniería de aprendizaje automático (MLE), la adquisición de datos de entrenamiento de MLE de alta calidad está significativamente limitada. Los benchmarks actuales de MLE sufren de baja escalabilidad y aplicabilidad limitada debido a que dependen de tareas estáticas y curadas manualmente, lo que requiere un tiempo y esfuerzo manual extensos para su producción. Presentamos MLE-Smith, una canalización multiagente completamente automatizada, para transformar conjuntos de datos sin procesar en desafíos de MLE al estilo de competencias mediante un paradigma eficiente de generación-verificación-ejecución, que permite escalar tareas de MLE con calidad verificable, usabilidad en el mundo real y diversidad rica. La canalización multiagente propuesta en MLE-Smith impulsa el diseño estructurado de tareas y la refactorización estandarizada, junto con un mecanismo de verificación híbrido que aplica reglas estructurales estrictas y solidez semántica de alto nivel. Además, valida la resolubilidad empírica y la fidelidad en el mundo real mediante la ejecución interactiva. Aplicamos MLE-Smith a 224 conjuntos de datos del mundo real y generamos 606 tareas que abarcan múltiples categorías, objetivos y modalidades, demostrando que MLE-Smith puede funcionar de manera efectiva en una amplia gama de conjuntos de datos del mundo real. La evaluación de las tareas generadas muestra que el rendimiento de ocho LMs principales y de vanguardia en las tareas de MLE-Smith está fuertemente correlacionado con su rendimiento en tareas diseñadas cuidadosamente por humanos, destacando la efectividad de MLE-Smith para escalar tareas de MLE mientras se mantiene la calidad de las tareas.
La integración del aprendizaje por refuerzo en línea (RL) en modelos de difusión y flujo ha surgido recientemente como un enfoque prometedor para alinear modelos generativos con las preferencias humanas. Durante el proceso de eliminación de ruido, se emplea el muestreo estocástico mediante Ecuaciones Diferenciales Estocásticas (SDE) para generar direcciones diversas de eliminación de ruido que faciliten la exploración en RL. Aunque los métodos existentes exploran eficazmente muestras de alto valor potencial, presentan una alineación subóptima de preferencias debido a señales de recompensa escasas y limitadas. Para abordar estos desafíos, proponemos un nuevo marco denominado Granular-GRPO (G^2RPO) que logra evaluaciones de recompensa precisas y exhaustivas de las direcciones de muestreo en el aprendizaje por refuerzo de modelos de flujo. Específicamente, se introduce una estrategia de Muestreo Estocástico Singular para respaldar la exploración estocástica paso a paso mientras se refuerza una alta correlación entre la recompensa y el ruido inyectado, facilitando así una recompensa fiel para cada perturbación SDE. Paralelamente, para eliminar el sesgo inherente a la eliminación de ruido con granularidad fija, introducimos un módulo de Integración de Ventajas Multi-Granularidad que agrega ventajas calculadas en múltiples escalas de difusión, produciendo una evaluación más completa y robusta de las direcciones de muestreo. Los experimentos realizados en diversos modelos de recompensa, incluyendo evaluaciones dentro y fuera del dominio, demuestran que nuestro G^2RPO supera significativamente a los baselines GRPO basados en flujo, destacando su efectividad y robustez.
La hipótesis de la Densidad Uniforme de Información (UID, por sus siglas en inglés) sugiere que la comunicación efectiva mantiene un flujo estable de información. En este trabajo, revisitamos este principio en el contexto de las trazas de razonamiento de modelos de lenguaje de gran escala (LLM), preguntándonos si la uniformidad a nivel de pasos refleja la calidad del razonamiento. Para ello, proponemos una métrica de densidad de información paso a paso basada en la entropía e introducimos dos medidas complementarias de uniformidad: puntuaciones de uniformidad local y global. A través de experimentos en seis benchmarks de razonamiento diferentes, encontramos que la uniformidad a nivel de pasos no solo proporciona una lente teórica sólida, sino que también ofrece beneficios prácticos en el rendimiento; por ejemplo, seleccionar trazas de razonamiento con una densidad de información más uniforme a nivel de pasos mejora la precisión con ganancias relativas del 10-32\% respecto a las líneas base en AIME2025. Nuestro análisis revela además que las trazas de razonamiento correctas tienden a evitar picos abruptos en la densidad de información, mientras que las incorrectas muestran ráfagas irregulares de información. Estos resultados demuestran que las medidas de densidad de información inspiradas en UID superan a señales internas alternativas como predictores de la calidad del razonamiento. Los resultados destacan la uniformidad de la densidad de información como un criterio robusto de diagnóstico y selección para construir sistemas de razonamiento más confiables y precisos.
Durante la última década, U-Net ha sido la arquitectura dominante en la segmentación de imágenes médicas, lo que ha llevado al desarrollo de miles de variantes en forma de U. A pesar de su amplia adopción, aún no existe un punto de referencia integral para evaluar sistemáticamente su rendimiento y utilidad, en gran parte debido a una validación estadística insuficiente y a una consideración limitada de la eficiencia y la generalización en diversos conjuntos de datos. Para cerrar esta brecha, presentamos U-Bench, el primer punto de referencia a gran escala y estadísticamente riguroso que evalúa 100 variantes de U-Net en 28 conjuntos de datos y 10 modalidades de imágenes. Nuestras contribuciones son tres: (1) Evaluación Integral: U-Bench evalúa los modelos en tres dimensiones clave: robustez estadística, generalización zero-shot y eficiencia computacional. Introducimos una nueva métrica, U-Score, que captura conjuntamente la relación entre rendimiento y eficiencia, ofreciendo una perspectiva orientada a la implementación sobre el progreso de los modelos. (2) Análisis Sistemático y Guía de Selección de Modelos: Resumimos los hallazgos clave de la evaluación a gran escala y analizamos sistemáticamente el impacto de las características de los conjuntos de datos y los paradigmas arquitectónicos en el rendimiento de los modelos. Basándonos en estas ideas, proponemos un agente asesor de modelos para guiar a los investigadores en la selección de los modelos más adecuados para conjuntos de datos y tareas específicos. (3) Disponibilidad Pública: Proporcionamos todo el código, modelos, protocolos y pesos, permitiendo que la comunidad reproduzca nuestros resultados y amplíe el punto de referencia con métodos futuros. En resumen, U-Bench no solo expone las brechas en evaluaciones anteriores, sino que también establece una base para un punto de referencia justo, reproducible y prácticamente relevante en la próxima década de modelos de segmentación basados en U-Net. El proyecto puede accederse en: https://fenghetan9.github.io/ubench. El código está disponible en: https://github.com/FengheTan9/U-Bench.
La Detección de Límites de Eventos Genéricos (GEBD, por sus siglas en inglés) tiene como objetivo interpretar videos de larga duración desde la perspectiva de la percepción humana. Sin embargo, los métodos actuales de GEBD requieren procesar todos los fotogramas del video para realizar predicciones, a diferencia de los humanos, que procesan los datos en línea y en tiempo real. Para cerrar esta brecha, presentamos una nueva tarea, la Detección de Límites de Eventos Genéricos en Línea (On-GEBD), que busca detectar los límites de eventos genéricos de inmediato en videos en streaming. Esta tarea enfrenta desafíos únicos, como identificar cambios sutiles y libres de taxonomía en eventos en tiempo real, sin acceso a fotogramas futuros. Para abordar estos desafíos, proponemos un nuevo marco de On-GEBD, llamado Estimator, inspirado en la Teoría de Segmentación de Eventos (EST, por sus siglas en inglés), que explica cómo los humanos segmentan actividades en curso en eventos aprovechando las discrepancias entre la información predicha y la real. Nuestro marco consta de dos componentes clave: el Anticipador de Eventos Consistente (CEA, por sus siglas en inglés) y el Discriminador de Límites en Línea (OBD, por sus siglas en inglés). Específicamente, el CEA genera una predicción del fotograma futuro que refleja la dinámica del evento actual basándose únicamente en fotogramas previos. Luego, el OBD mide el error de predicción y ajusta adaptativamente el umbral utilizando pruebas estadísticas sobre errores pasados para capturar transiciones de eventos diversas y sutiles. Los resultados experimentales demuestran que Estimator supera a todos los modelos de referencia adaptados de modelos recientes de comprensión de video en línea y alcanza un rendimiento comparable a los métodos previos de GEBD fuera de línea en los conjuntos de datos Kinetics-GEBD y TAPOS.
Presentamos Heptapod, un modelo autoregresivo de imágenes que se adhiere a los principios fundamentales del modelado del lenguaje. Heptapod emplea atención causal, elimina la dependencia de CFG y evita la tendencia de los tokenizadores semánticos. Nuestra innovación clave es la predicción de la distribución 2D siguiente: un Transformer causal con un tokenizador visual centrado en la reconstrucción, aprende a predecir la distribución sobre toda la cuadrícula espacial 2D de las imágenes en cada paso de tiempo. Este objetivo de aprendizaje unifica el modelado secuencial del marco autoregresivo con el aprendizaje autosupervisado holístico del autoenmascaramiento, permitiendo que el modelo capture la semántica integral de las imágenes mediante entrenamiento generativo. En el benchmark de generación de ImageNet, Heptapod alcanza un FID de 2.70, superando significativamente enfoques autoregresivos causales anteriores. Esperamos que nuestro trabajo inspire una reconsideración fundamentada del modelado del lenguaje en señales visuales y más allá.
Los marcos de agentes de uso informático (CUA, por sus siglas en inglés), impulsados por modelos de lenguaje de gran escala (LLMs) o modelos de lenguaje multimodal (MLLMs), están madurando rápidamente como asistentes capaces de percibir contextos, razonar y actuar directamente dentro de entornos de software. Entre sus aplicaciones más críticas se encuentra el control de sistemas operativos (SO). A medida que los CUAs en el dominio de los SO se integran cada vez más en las operaciones diarias, es imperativo examinar sus implicaciones de seguridad en el mundo real, específicamente si los CUAs pueden ser mal utilizados para realizar ataques realistas y relevantes para la seguridad. Los trabajos existentes presentan cuatro limitaciones principales: la falta de un modelo de conocimiento del atacante sobre tácticas, técnicas y procedimientos (TTP), la cobertura incompleta de cadenas de ataque de extremo a extremo, un entorno poco realista sin múltiples hosts y credenciales de usuario cifradas, y un juicio poco confiable que depende de LLM-como-Juez. Para abordar estas brechas, proponemos AdvCUA, el primer punto de referencia alineado con los TTPs del mundo real en la Matriz Empresarial MITRE ATT&CK, que comprende 140 tareas, incluyendo 40 tareas maliciosas directas, 74 tareas maliciosas basadas en TTP y 26 cadenas de ataque de extremo a extremo, evaluando sistemáticamente los CUAs bajo una amenaza de seguridad realista en un entorno empresarial de SO con múltiples hosts en un sandbox mediante evaluación codificada. Evaluamos los cinco CUAs principales existentes, incluyendo ReAct, AutoGPT, Gemini CLI, Cursor CLI y Cursor IDE, basados en 8 LLMs fundamentales. Los resultados demuestran que los CUAs de vanguardia actuales no cubren adecuadamente las amenazas centradas en la seguridad de los SO. Estas capacidades de los CUAs reducen la dependencia de malware personalizado y de un profundo conocimiento del dominio, permitiendo incluso a atacantes sin experiencia montar intrusiones empresariales complejas, lo que genera preocupación social sobre la responsabilidad y seguridad de los CUAs.
La elección del optimizador impacta significativamente la eficiencia del entrenamiento y los costos computacionales de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Recientemente, el optimizador Muon ha demostrado resultados prometedores al ortogonalizar las actualizaciones de parámetros, mejorando la geometría de optimización mediante un mejor condicionamiento. A pesar de que Muon ha surgido como un candidato sucesor de Adam, el potencial para aprovechar conjuntamente sus fortalezas no ha sido explorado sistemáticamente. En este trabajo, cerramos esta brecha proponiendo NorMuon (Muon Normalizado por Neurona), un optimizador que combina sinérgicamente la ortogonalización con tasas de aprendizaje adaptativas a nivel de neurona. Nuestro análisis revela que, aunque Muon reduce efectivamente los números de condición, las actualizaciones resultantes exhiben normas de neurona altamente no uniformes, lo que hace que ciertas neuronas dominen el proceso de optimización. NorMuon aborda este desequilibrio manteniendo estadísticas de momento de segundo orden para cada neurona y aplicando normalización por filas después de la ortogonalización, asegurando un uso equilibrado de los parámetros mientras preserva los beneficios de condicionamiento de Muon. Para permitir una implementación práctica a gran escala, desarrollamos una implementación distribuida eficiente bajo el marco FSDP2 que distribuye estratégicamente los cálculos de ortogonalización entre dispositivos. Los experimentos en múltiples escalas de modelos demuestran que NorMuon supera consistentemente tanto a Adam como a Muon, logrando un 21.74% mejor eficiencia de entrenamiento que Adam y un 11.31% de mejora sobre Muon en un escenario de preentrenamiento de 1.1 B, manteniendo una huella de memoria comparable a la de Muon. Nuestros hallazgos sugieren que la ortogonalización y las tasas de aprendizaje adaptativas son enfoques complementarios en lugar de competidores, abriendo nuevas vías para el diseño de optimizadores en el aprendizaje profundo a gran escala.
La tecnología de generación de texto a video (T2V) tiene el potencial de transformar múltiples dominios, como la educación, el marketing, el entretenimiento y las tecnologías de asistencia para personas con dificultades visuales o de comprensión lectora, al crear contenido visual coherente a partir de indicaciones en lenguaje natural. Desde sus inicios, el campo ha evolucionado desde modelos adversarios hasta modelos basados en difusión, produciendo resultados de mayor fidelidad y consistencia temporal. Sin embargo, persisten desafíos, como la alineación, la coherencia a largo plazo y la eficiencia computacional. Para abordar este panorama en constante evolución, presentamos una revisión exhaustiva de los modelos generativos de texto a video, rastreando su desarrollo desde los primeros GANs y VAEs hasta las arquitecturas híbridas de Difusión-Transformador (DiT), detallando cómo funcionan estos modelos, qué limitaciones abordaron en sus predecesores y por qué fueron necesarios los cambios hacia nuevos paradigmas arquitectónicos para superar los desafíos en calidad, coherencia y control. Ofrecemos un relato sistemático de los conjuntos de datos en los que se entrenaron y evaluaron los modelos de texto a video revisados y, para apoyar la reproducibilidad y evaluar la accesibilidad del entrenamiento de dichos modelos, detallamos sus configuraciones de entrenamiento, incluyendo sus especificaciones de hardware, número de GPUs, tamaños de lote, tasas de aprendizaje, optimizadores, épocas y otros hiperparámetros clave. Además, delineamos las métricas de evaluación comúnmente utilizadas para evaluar estos modelos y presentamos su rendimiento en puntos de referencia estándar, mientras discutimos las limitaciones de estas métricas y el cambio emergente hacia estrategias de evaluación más holísticas y alineadas con la percepción. Finalmente, basándonos en nuestro análisis, delineamos los desafíos abiertos actuales y proponemos algunas direcciones futuras prometedoras, estableciendo una perspectiva para que los investigadores futuros exploren y construyan sobre ella, avanzando en la investigación y aplicaciones de T2V.
Presentamos AlphaApollo, un sistema de razonamiento agente auto-evolutivo que busca abordar dos cuellos de botella en el razonamiento de los modelos base (FM): la capacidad intrínseca limitada del modelo y la iteración poco confiable en tiempo de prueba. AlphaApollo orquesta múltiples modelos con herramientas profesionales para permitir un razonamiento deliberado y verificable. Combina (i) una herramienta de cálculo (Python con bibliotecas numéricas y simbólicas) y (ii) una herramienta de recuperación (información externa relevante para la tarea) para ejecutar cálculos exactos y fundamentar decisiones. El sistema además soporta la evolución de soluciones en múltiples rondas y con múltiples modelos mediante un mapa de estado compartido que registra candidatos, verificaciones ejecutables y retroalimentación para el refinamiento iterativo. En evaluaciones sobre AIME 2024/2025 con múltiples modelos, AlphaApollo ofrece mejoras consistentes: +5.15% Average@32 y +23.34% Pass@32 para Qwen2.5-14B-Instruct, y +8.91% Average@32 con +26.67% Pass@32 para Llama-3.3-70B-Instruct. El análisis del uso de herramientas muestra que más del 80% de las llamadas a herramientas se ejecutan con éxito, superando consistentemente a las líneas base sin herramientas, elevando así el límite de capacidad de los FM. Más resultados empíricos y detalles de implementación se actualizarán en https://github.com/tmlr-group/AlphaApollo.
Las evaluaciones comunes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) dependen de ejemplos de demostración para guiar las respuestas de los modelos hacia el estilo deseado. Si bien el número de ejemplos utilizados ha sido estudiado y estandarizado, la elección de cómo formatear los ejemplos ha sido menos investigada. En los protocolos de evaluación y en el uso del mundo real, los usuarios se enfrentan a la decisión de cómo separar los ejemplos en contexto: ¿usar una coma? ¿un salto de línea? ¿un punto y coma? ¿un hashtag? ¿etc.? Sorprendentemente, encontramos que esta elección aparentemente menor puede alterar drásticamente la calidad de la respuesta del modelo. En familias de modelos líderes (Llama, Qwen, Gemma), el rendimiento en MMLU, por ejemplo, puede variar en ±23% dependiendo de la elección del delimitador. De hecho, es posible manipular las clasificaciones de los modelos para colocar a cualquier modelo en la cima simplemente modificando el carácter único que separa los ejemplos. Encontramos que la fragilidad de los LLM persiste en diferentes temas, familias de modelos y no mejora con la escala. Al analizar las puntuaciones de las cabezas de atención, descubrimos que los delimitadores que funcionan bien dirigen la atención hacia los tokens clave en la entrada. Finalmente, exploramos métodos para mejorar la robustez de los LLM ante la elección del delimitador. Encontramos que especificar el delimitador seleccionado en el mensaje aumenta la robustez y ofrecemos recomendaciones prácticas sobre los delimitadores de mejor rendimiento para seleccionar.
El cambio de código (CSW, por sus siglas en inglés), la alternancia de idiomas y escrituras dentro de una misma expresión, sigue siendo un desafío fundamental para el procesamiento del lenguaje natural (PLN) multilingüe, incluso ante los rápidos avances de los modelos de lenguaje de gran escala (LLMs). La mayoría de los LLMs aún tienen dificultades con entradas en idiomas mixtos, conjuntos de datos limitados para CSW y sesgos en la evaluación, lo que obstaculiza su implementación en sociedades multilingües. Este estudio ofrece el primer análisis exhaustivo de la investigación en LLMs conscientes del CSW, revisando estudios únicos que abarcan cinco áreas de investigación, 12 tareas de PLN, más de 30 conjuntos de datos y más de 80 idiomas. Clasificamos los avances recientes según la arquitectura, la estrategia de entrenamiento y la metodología de evaluación, destacando cómo los LLMs han transformado el modelado del CSW y qué desafíos persisten. El artículo concluye con una hoja de ruta que enfatiza la necesidad de conjuntos de datos inclusivos, evaluaciones justas y modelos fundamentados lingüísticamente para alcanzar una inteligencia verdaderamente multilingüe. Una colección curada de todos los recursos se mantiene en https://github.com/lingo-iitgn/awesome-code-mixing/.
Con el creciente uso de la Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), los modelos de recuperación robustos se han vuelto más importantes que nunca. En el ámbito de la salud, los modelos de recuperación multimodal que combinan información tanto de texto como de imágenes ofrecen ventajas significativas para muchas tareas posteriores, como la respuesta a preguntas, la recuperación cruzada de modalidades y la resumen multimodal, ya que los datos médicos suelen incluir ambos formatos. Sin embargo, actualmente no existe un punto de referencia estándar para evaluar el rendimiento de estos modelos en entornos médicos. Para abordar esta brecha, presentamos M3Retrieve, un Punto de Referencia de Recuperación Médica Multimodal. M3Retrieve abarca 5 dominios, 16 campos médicos y 4 tareas distintas, con más de 1.2 millones de documentos de texto y 164 mil consultas multimodales, todos recopilados bajo licencias aprobadas. Evaluamos modelos líderes de recuperación multimodal en este punto de referencia para explorar los desafíos específicos de diferentes especialidades médicas y comprender su impacto en el rendimiento de la recuperación. Al publicar M3Retrieve, nuestro objetivo es permitir una evaluación sistemática, fomentar la innovación en modelos y acelerar la investigación hacia la construcción de sistemas de recuperación multimodal más capaces y confiables para aplicaciones médicas. El conjunto de datos y el código de referencia están disponibles en esta página de GitHub: https://github.com/AkashGhosh/M3Retrieve.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) frecuentemente alucinan al responder preguntas extensas, produciendo respuestas plausibles pero factualmente incorrectas. Una estrategia común de mitigación es proporcionar atribución a las salidas de los LLMs. Sin embargo, los puntos de referencia existentes se centran principalmente en atribuciones simples que recuperan evidencia textual de apoyo como referencias. Argumentamos que, en escenarios del mundo real, como aplicaciones financieras, la atribución va más allá de la recuperación de referencias. Introducimos FinLFQA, un punto de referencia diseñado para evaluar la capacidad de los LLMs para generar respuestas extensas a preguntas financieras complejas con atribuciones confiables y matizadas. FinLFQA evalúa tres aspectos críticos de la atribución mediante anotaciones humanas: (1) evidencia de apoyo extraída de informes financieros, (2) pasos intermedios de razonamiento numérico y (3) conocimiento financiero específico del dominio que informa el proceso de razonamiento. Además, proporcionamos un marco de evaluación automática que cubre tanto la calidad de las respuestas como la calidad de la atribución. A través de experimentos exhaustivos en ocho LLMs utilizando múltiples paradigmas de generación de atribuciones, encontramos que las métricas detalladas son importantes para distinguir las capacidades de los modelos, que la generación de extremo a extremo alcanza un rendimiento comparable a los enfoques post-hoc, y que el refinamiento iterativo solo ayuda cuando está guiado por retroalimentación externa.
El agente de planificación de viajes (TP, por sus siglas en inglés) ha surgido recientemente como un componente fundamental para interactuar con herramientas y recursos externos en la generación de itinerarios de viaje, garantizando una experiencia de usuario agradable. A pesar de sus ventajas, los estudios existentes dependen de indicaciones manuales y flujos de trabajo fijos del agente, lo que limita la flexibilidad y autonomía del agente TP. Este artículo propone DeepTravel, un marco de aprendizaje por refuerzo agente de extremo a extremo para construir un agente de planificación de viajes autónomo, capaz de planificar de manera autónoma, ejecutar herramientas y reflexionar sobre las respuestas de las herramientas para explorar, verificar y refinar acciones intermedias en razonamientos de múltiples pasos. Para lograrlo, primero construimos un entorno de pruebas robusto almacenando en caché datos de transporte, alojamiento y puntos de interés (POI), facilitando el entrenamiento del agente TP sin estar limitado por las restricciones de las API del mundo real (por ejemplo, salidas inconsistentes). Además, desarrollamos un sistema de modelado de recompensas jerárquico, donde un verificador a nivel de trayectoria primero verifica la viabilidad espacio-temporal y filtra los itinerarios de viaje insatisfactorios, y luego un verificador a nivel de turno valida adicionalmente la consistencia de los detalles del itinerario con las respuestas de las herramientas, permitiendo un servicio de recompensa eficiente y preciso. Finalmente, proponemos el método de aprendizaje por refuerzo aumentado con repetición, que permite al agente TP reproducir periódicamente desde un búfer de experiencias de fallos, emergiendo una notable capacidad agente. Desplegamos el agente TP entrenado en la aplicación DiDi Enterprise Solutions y realizamos evaluaciones exhaustivas en línea y fuera de línea, demostrando que DeepTravel permite que modelos de lenguaje pequeños (por ejemplo, Qwen3 32B) superen significativamente a los modelos de lenguaje de vanguardia existentes, como OpenAI o1, o3 y DeepSeek R1, en tareas de planificación de viajes.
A pesar de su impresionante fidelidad visual, los modelos generativos de video modernos frecuentemente producen secuencias que violan leyes físicas intuitivas, como objetos que flotan, se teletransportan o se transforman de maneras que desafían la causalidad. Si bien los humanos pueden detectar fácilmente estas implausibilidades, aún no existe un método robusto para evaluar cuantitativamente el realismo físico en videos. En este trabajo, exploramos si los Modelos de Video-Lenguaje (VLMs, por sus siglas en inglés) pueden entrenarse para servir como jueces confiables de la plausibilidad física. Descubrimos que los VLMs existentes tienen dificultades para identificar violaciones de la física, lo que expone limitaciones fundamentales en su razonamiento temporal y causal. Para abordar esto, presentamos TRAVL, una receta de ajuste fino que combina un conjunto de datos de entrenamiento equilibrado con un módulo de atención consciente de trayectorias para mejorar la codificación y discriminación del movimiento en los VLMs. Para evaluar el razonamiento físico de manera más rigurosa, proponemos ImplausiBench, un punto de referencia de 300 videos (150 reales, 150 generados) que elimina sesgos lingüísticos y aísla la comprensión visual-temporal. El rendimiento se reporta tanto con juicios humanos de referencia como con métricas más estrictas de LLM-como-juez. Juntos, TRAVL e ImplausiBench ofrecen un marco unificado para explorar y mejorar la plausibilidad física en modelos multimodales, arrojando luz sobre un aspecto desafiante y poco explorado de la comprensión visual-temporal.
Este trabajo investiga las capacidades de razonamiento y planificación de los modelos base y su escalabilidad en entornos complejos y dinámicos. Presentamos PuzzlePlex, un punto de referencia diseñado para evaluar estas capacidades a través de un conjunto diverso de rompecabezas. PuzzlePlex consta de 15 tipos de rompecabezas, que incluyen juegos deterministas y estocásticos de diversa dificultad, así como escenarios para un solo jugador y para dos jugadores. El marco de PuzzlePlex proporciona un entorno completo para cada juego y permite su extensión para generar instancias más desafiantes a medida que evolucionan los modelos base. Además, implementamos estrategias personalizadas de juego para comparación. Basándonos en este punto de referencia, desarrollamos métricas detalladas para medir el rendimiento y realizamos un análisis en profundidad de los modelos base de vanguardia en dos configuraciones: basada en instrucciones y basada en código. Asimismo, investigamos sistemáticamente sus límites de escalabilidad. Nuestros hallazgos muestran que los modelos de razonamiento superan a otros en entornos basados en instrucciones, mientras que la ejecución basada en código presenta mayores desafíos pero ofrece una alternativa escalable y eficiente. PuzzlePlex permite una evaluación dirigida y guía futuras mejoras en el razonamiento, la planificación y la generalización de los modelos base.
El surgimiento de los modelos autorregresivos (AR) visuales ha revolucionado la generación de imágenes, al mismo tiempo que presenta nuevos desafíos para la detección de imágenes sintéticas. A diferencia de los métodos anteriores basados en GAN o difusión, los modelos AR generan imágenes mediante la predicción de tokens discretos, mostrando tanto mejoras significativas en la calidad de síntesis de imágenes como características únicas en sus representaciones vectoriales cuantizadas. En este artículo, proponemos aprovechar el Error de Cuantización Consciente de la Discrepancia de Distribución Discreta (D^3QE) para la detección de imágenes generadas autorregresivamente, explotando los patrones distintivos y el sesgo en la distribución de frecuencia del codebook presente en imágenes reales y falsas. Introducimos un transformador consciente de la discrepancia de distribución discreta que integra estadísticas dinámicas de frecuencia del codebook en su mecanismo de atención, fusionando características semánticas y el error de cuantización latente. Para evaluar nuestro método, construimos un conjunto de datos exhaustivo denominado ARForensics que abarca 7 modelos AR visuales principales. Los experimentos demuestran una precisión superior en la detección y una fuerte generalización de D^3QE en diferentes modelos AR, con robustez frente a perturbaciones del mundo real. El código está disponible en https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
La Imputación de Series Temporales (TSI, por sus siglas en inglés), que tiene como objetivo recuperar valores faltantes en datos temporales, sigue siendo un desafío fundamental debido a la complejidad y a menudo a las altas tasas de valores faltantes en escenarios del mundo real. Los modelos existentes suelen optimizar la pérdida de reconstrucción punto por punto, centrándose en recuperar valores numéricos (información local). Sin embargo, observamos que, bajo tasas altas de valores faltantes, estos modelos aún funcionan bien en la fase de entrenamiento, pero producen imputaciones deficientes y distribuciones distorsionadas de representaciones latentes (información global) en la fase de inferencia. Esto revela un dilema crítico de optimización: los objetivos actuales carecen de orientación global, lo que lleva a los modelos a sobreajustarse al ruido local y a no capturar la información global de los datos. Para abordar este problema, proponemos un nuevo paradigma de entrenamiento, el Cuello de Botella de Información Glocal (Glocal-IB, por sus siglas en inglés). Glocal-IB es independiente del modelo y extiende el marco estándar de IB mediante la introducción de una pérdida de Alineación Global, derivada de una aproximación manejable de la información mutua. Esta pérdida alinea las representaciones latentes de las entradas enmascaradas con las de sus contrapartes originalmente observadas. Ayuda al modelo a retener la estructura global y los detalles locales mientras suprime el ruido causado por los valores faltantes, lo que da lugar a una mejor generalización bajo altas tasas de valores faltantes. Experimentos exhaustivos en nueve conjuntos de datos confirman que Glocal-IB conduce a un rendimiento consistentemente mejorado y a representaciones latentes alineadas en presencia de valores faltantes. Nuestra implementación de código está disponible en https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB.