Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de los rápidos avances en científicos de IA autónomos impulsados por modelos de lenguaje, la generación de ilustraciones listas para publicación sigue siendo un cuello de botella que requiere mucho trabajo en el flujo de investigación. Para aliviar esta carga, presentamos PaperBanana, un marco agéntico para la generación automatizada de ilustraciones académicas listas para publicación. Impulsado por modelos de lenguaje visual y generación de imágenes de vanguardia, PaperBanana orquesta agentes especializados para recuperar referencias, planificar contenido y estilo, renderizar imágenes y refinar iterativamente mediante autocrítica. Para evaluar rigurosamente nuestro marco, presentamos PaperBananaBench, que comprende 292 casos de prueba para diagramas de metodología seleccionados de publicaciones de NeurIPS 2025, abarcando diversos dominios de investigación y estilos de ilustración. Experimentos exhaustivos demuestran que PaperBanana supera consistentemente a los principales baselines en fidelidad, concisión, legibilidad y estética. Además, mostramos que nuestro método se extiende efectivamente a la generación de gráficos estadísticos de alta calidad. En conjunto, PaperBanana allana el camino para la generación automatizada de ilustraciones listas para publicación.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) se ha convertido en un pilar fundamental para desbloquear el razonamiento complejo en los Modelos de Lenguaje Grandes (LLMs). Sin embargo, la escalabilidad del RL se ve limitada por la escasez de datos verificables existentes, donde las mejoras se saturan progresivamente tras entrenamientos prolongados. Para superar esto, proponemos Golden Goose, un método sencillo para sintetizar tareas ilimitadas de RLVR a partir de texto de internet no verificable, construyendo una versión de preguntas de opción múltiple de la tarea de completar-el-medio. Dado un texto fuente, instamos a un LLM a identificar y enmascarar pasos clave de razonamiento, para luego generar un conjunto de distractores diversos y plausibles. Esto nos permite aprovechar corpus no verificables ricos en razonamiento, típicamente excluidos de construcciones previas de datos RLVR (por ejemplo, libros de texto de ciencias), para sintetizar GooseReason-0.7M, un conjunto de datos RLVR a gran escala con más de 0.7 millones de tareas que abarcan matemáticas, programación y dominios científicos generales. Empíricamente, GooseReason reactiva eficazmente modelos saturados con datos RLVR existentes, generando ganancias robustas y sostenidas bajo RL continuo y logrando nuevos resultados de vanguardia para modelos de 1.5B y 4B-Instruct en 15 benchmarks diversos. Finalmente, implementamos Golden Goose en un entorno del mundo real, sintetizando tareas RLVR a partir de fragmentos crudos de FineWeb para el dominio de la ciberseguridad, donde no existían datos RLVR previos. Entrenar Qwen3-4B-Instruct con los datos resultantes, GooseReason-Cyber, establece un nuevo estado del arte en ciberseguridad, superando a un modelo especializado de 7B con un extenso pre-entrenamiento y post-entrenamiento específico del dominio. Esto subraya el potencial de escalar automáticamente los datos RLVR explotando el abundante texto de internet, rico en razonamiento pero no verificable.
Los modelos de lenguaje de gran tamaño (LLM) se utilizan cada vez más como agentes aumentados con herramientas para la toma de decisiones multi-etapa, sin embargo, entrenar agentes robustos que utilicen herramientas sigue siendo un desafío. Los métodos existentes aún requieren intervención manual, dependen de entornos simulados no verificables, se basan exclusivamente en el ajuste fino supervisado (SFT) o en el aprendizaje por refuerzo (RL), y tienen dificultades con un aprendizaje estable a largo plazo y multi-turno. Para abordar estos desafíos, presentamos ASTRA, un marco automatizado integral de extremo a extremo para entrenar agentes de modelos de lenguaje aumentados con herramientas mediante síntesis de datos escalable y aprendizaje por refuerzo verificable. ASTRA integra dos componentes complementarios. Primero, una canalización que aprovecha la topología estática de los grafos de llamadas a herramientas sintetiza trayectorias diversas y estructuralmente fundamentadas, inculcando una competencia amplia y transferible en el uso de herramientas. Segundo, un marco de síntesis de entornos que captura la topología rica y compositiva del razonamiento semántico humano convierte trazas de preguntas y respuestas descompuestas en entornos independientes, ejecutables mediante código y verificables mediante reglas, permitiendo un RL multi-turno determinista. Basándonos en este método, desarrollamos una metodología de entrenamiento unificada que integra SFT con RL en línea utilizando recompensas a nivel de trayectoria para equilibrar la finalización de la tarea y la eficiencia de la interacción. Los experimentos en múltiples benchmarks de uso de herramientas agentivas demuestran que los modelos entrenados con ASTRA logran un rendimiento de vanguardia a escalas comparables, aproximándose a sistemas de código cerrado mientras preservan la capacidad de razonamiento central. Publicamos las canalizaciones completas, los entornos y los modelos entrenados en https://github.com/LianjiaTech/astra.
El formato de baja precisión NVFP4, soportado en hardware por las GPU NVIDIA Blackwell, promete permitir por primera vez el pre-entrenamiento completamente cuantizado de extremo a extremo de modelos masivos como los LLM. Sin embargo, los métodos de entrenamiento cuantizados existentes aún sacrifican parte de la capacidad de representación de este formato en favor de una estimación de gradiente cuantizado más precisa y sin sesgo mediante el redondeo estocástico (SR), perdiendo una precisión notable en comparación con el entrenamiento estándar en FP16 y FP8. En este artículo, mejoramos el estado del arte para el entrenamiento cuantizado en NVFP4 mediante una novedosa rutina de cuantización sin sesgo para formatos de micro-escala, denominada MS-EDEN, que tiene un error de cuantización más de 2 veces menor que el SR. La integramos en un novedoso esquema de cuantización completamente en NVFP4 para capas lineales, llamado Quartet II. Demostramos analíticamente que Quartet II logra una estimación de gradiente consistentemente mejor en todas las multiplicaciones de matrices principales, tanto en las pasadas hacia adelante como en las hacia atrás. Además, nuestra propuesta sinergiza bien con las mejoras recientes en el entrenamiento dirigidas específicamente a NVFP4. Validamos además Quartet II en el entrenamiento de LLM de extremo a extremo con hasta 1.900 millones de parámetros en 38.000 millones de tokens. Proporcionamos *kernels* para su ejecución en GPU NVIDIA Blackwell con una aceleración de hasta 4,2x sobre BF16. Nuestro código está disponible en https://github.com/IST-DASLab/Quartet-II.
Los grandes modelos de razonamiento (LRM) logran un rendimiento notable al aprovechar el aprendizaje por refuerzo (RL) en tareas de razonamiento para generar largas cadenas de pensamiento (CoT). Sin embargo, esta sobreoptimización a menudo prioriza la complacencia, haciendo que los modelos sean vulnerables a instrucciones dañinas. Para mitigar esta degradación de seguridad, los enfoques recientes dependen de la destilación mediante un profesor externo, lo que introduce una discrepancia distribucional que degrada el razonamiento nativo. Proponemos ThinkSafe, un marco de alineación auto-generada que restaura la alineación de seguridad sin profesores externos. Nuestra idea clave es que, si bien la complacencia suprime los mecanismos de seguridad, los modelos a menudo conservan conocimiento latente para identificar daños. ThinkSafe libera esto mediante una guía de rechazo ligera, dirigiendo al modelo para generar trazas de razonamiento de seguridad dentro de la distribución. El ajuste fino sobre estas respuestas auto-generadas realinea eficazmente el modelo mientras minimiza el cambio distribucional. Experimentos en DeepSeek-R1-Distill y Qwen3 muestran que ThinkSafe mejora significativamente la seguridad mientras preserva la competencia en razonamiento. Notablemente, logra una seguridad superior y un razonamiento comparable a GRPO, con un coste computacional significativamente reducido. El código, modelos y conjuntos de datos están disponibles en https://github.com/seanie12/ThinkSafe.git.
Si bien el encadenamiento de pensamientos (CoT) mejora significativamente el rendimiento de los modelos de lenguaje grandes (LLMs), las cadenas de razonamiento explícitas introducen una redundancia computacional sustancial. Los métodos recientes de razonamiento latente intentan mitigar esto comprimiendo los procesos de razonamiento en un espacio latente, pero a menudo sufren una degradación severa del rendimiento debido a la falta de una guía de compresión adecuada. En este estudio, proponemos Razonamiento Latente Variacional Guiado por CoT Renderizado (ReGuLaR), un paradigma de aprendizaje latente novedoso y simple que resuelve este problema. Fundamentalmente, formulamos el razonamiento latente dentro del marco de Autoencoders Variacionales (VAE), muestreando el estado latente de razonamiento actual a partir de la distribución posterior condicionada a los estados anteriores. Específicamente, al aprender este modelo de razonamiento latente variacional, renderizamos las cadenas de razonamiento explícitas como imágenes, de las cuales extraemos representaciones visuales-semánticas densas para regularizar la distribución posterior, logrando así una compresión eficiente con una pérdida mínima de información. Experimentos exhaustivos demuestran que ReGuLaR supera significativamente a los métodos de razonamiento latente existentes tanto en eficiencia computacional como en efectividad de razonamiento, e incluso supera a CoT mediante el razonamiento multimodal, ofreciendo una solución nueva y perspicaz al razonamiento latente. Código: https://github.com/FanmengWang/ReGuLaR.
El Entrenamiento en Tiempo de Prueba (Test-Time Training) ofrece una forma prometedora de mejorar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM) adaptando el modelo utilizando únicamente las preguntas de prueba. Sin embargo, los métodos existentes tienen dificultades con problemas de razonamiento complejos por dos razones: las preguntas de prueba en bruto a menudo son demasiado difíciles para producir pseudoetiquetas de alta calidad, y el tamaño limitado de los conjuntos de prueba hace que las actualizaciones continuas en línea sean propensas a la inestabilidad. Para abordar estas limitaciones, proponemos TTCS, un marco de entrenamiento en tiempo de prueba de co-evolución. Específicamente, TTCS inicializa dos políticas a partir del mismo modelo preentrenado: un sintetizador de preguntas y un resolvedor de razonamiento. Estas políticas evolucionan mediante una optimización iterativa: el sintetizador genera variantes de preguntas progresivamente más desafiantes condicionadas por las preguntas de prueba, creando un currículo estructurado adaptado a la capacidad actual del resolvedor, mientras que el resolvedor se actualiza a sí mismo utilizando recompensas de auto-consistencia calculadas a partir de múltiples respuestas muestreadas tanto en las preguntas de prueba originales como en las preguntas sintéticas. Crucialmente, la retroalimentación del resolvedor guía al sintetizador para generar preguntas alineadas con la capacidad actual del modelo, y las variantes de preguntas generadas a su vez estabilizan el entrenamiento en tiempo de prueba del resolvedor. Los experimentos muestran que TTCS fortalece consistentemente la capacidad de razonamiento en puntos de referencia matemáticos desafiantes y se transfiere a tareas de dominio general a través de diferentes arquitecturas de LLM, destacando un camino escalable hacia la construcción dinámica de currículos en tiempo de prueba para la auto-evolución. Nuestro código y detalles de implementación están disponibles en https://github.com/XMUDeepLIT/TTCS.
Este trabajo demuestra que el modelado de mundos en video, junto con el preentrenamiento visión-lenguaje, establece una base nueva e independiente para el aprendizaje robótico. Intuitivamente, los modelos de mundo en video permiten imaginar el futuro cercano al comprender la causalidad entre las acciones y la dinámica visual. Inspirados por esto, presentamos LingBot-VA, un marco de difusión autorregresivo que aprende simultáneamente la predicción de frames y la ejecución de políticas. Nuestro modelo incorpora tres diseños cuidadosamente elaborados: (1) un espacio latente compartido que integra tokens de visión y acción, impulsado por una arquitectura Mixture-of-Transformers (MoT), (2) un mecanismo de despliegue en bucle cerrado que permite la adquisición continua de retroalimentación ambiental con observaciones de terreno verdadero, y (3) una canalización de inferencia asíncrona que paraleliza la predicción de acciones y la ejecución motora para permitir un control eficiente. Evaluamos nuestro modelo tanto en benchmarks de simulación como en escenarios del mundo real, donde muestra un potencial significativo en manipulación de horizonte largo, eficiencia de datos post-entrenamiento y una fuerte capacidad de generalización a configuraciones novedosas. El código y el modelo están disponibles públicamente para facilitar el trabajo de la comunidad.
El razonamiento agente de horizonte largo requiere comprimir eficazmente historiales de interacción crecientes en una ventana de contexto limitada. La mayoría de los sistemas de memoria existentes serializan el historial como texto, donde el costo a nivel de token es uniforme y escala linealmente con la longitud, gastando a menudo un presupuesto escaso en detalles de bajo valor. Para ello, presentamos MemOCR, un agente de memoria multimodal que mejora el razonamiento de horizonte largo bajo presupuestos de contexto ajustados, mediante la asignación de espacio de memoria con densidad de información adaptativa a través de diseño visual. Concretamente, MemOCR mantiene una memoria estructurada de texto enriquecido (por ejemplo, encabezados, resaltados) y la renderiza en una imagen que el agente consulta para el acceso a la memoria, priorizando visualmente la evidencia crucial mientras comprime agresivamente los detalles auxiliares. Para garantizar robustez frente a diversos presupuestos de memoria, entrenamos MemOCR con aprendizaje por refuerzo bajo objetivos conscientes del presupuesto que exponen al agente a distintos niveles de compresión. En benchmarks de respuesta a preguntas de múltiples saltos y de un solo salto con contexto largo, MemOCR supera a sólidas líneas base basadas en texto y logra una utilización del contexto más efectiva bajo presupuestos extremos.
Los modelos de incrustación (embedding) de última generación se derivan cada vez más de arquitecturas de modelos de lenguaje grandes (LLM) de solo decodificador, adaptadas mediante aprendizaje contrastivo. Dada la aparición de modelos de razonamiento entrenados mediante Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), surge una pregunta natural: ¿se traducen las capacidades de razonamiento mejoradas en representaciones semánticas superiores cuando estos modelos se utilizan como inicializaciones para incrustaciones? Contrario a lo esperado, nuestra evaluación en MTEB y BRIGHT revela un **efecto nulo**: los modelos de incrustación inicializados a partir de arquitecturas ajustadas con RLVR no muestran una ventaja de rendimiento consistente sobre sus contrapartes base cuando se someten a recetas de entrenamiento idénticas. Para desentrañar esta paradoja, introducimos el **A**nálisis de **S**imilitud de **R**epresentación **J**erárquica (HRSA), un marco que descompone la similitud en los niveles de representación, geometría y función. El HRSA revela que, si bien RLVR induce una reorganización irreversible de la geometría local del múltiple latente y una deriva reversible de la base de coordenadas, preserva la geometría global del múltiple y su lectura lineal. En consecuencia, el aprendizaje contrastivo posterior impulsa una fuerte alineación entre los modelos inicializados desde la base y aquellos inicializados para el razonamiento, un fenómeno que denominamos **Realineamiento del Múltiple**. Empíricamente, nuestros hallazgos sugieren que, a diferencia del Ajuste Fino Supervisado (SFT), RLVR optimiza trayectorias dentro de un panorama semántico existente en lugar de reestructurar fundamentalmente el panorama mismo.
Los modelos de lenguaje grandes (LLM) suelen evaluarse en términos de seguridad mediante *prompts* adversarios de un solo intento o de bajo presupuesto, lo que subestima el riesgo en escenarios reales. En la práctica, los atacantes pueden explotar el muestreo paralelo a gran escala para sondear repetidamente un modelo hasta obtener una respuesta dañina. Aunque trabajos recientes demuestran que el éxito del ataque aumenta con el muestreo repetido, los métodos fundamentados para predecir el riesgo adversario a gran escala siguen siendo limitados. Proponemos una estimación del riesgo consciente de la escalabilidad, denominada SABER, para modelar la vulnerabilidad de *jailbreak* bajo un muestreo de tipo Mejor-de-N. Modelamos las probabilidades de éxito a nivel de muestra utilizando una distribución Beta, el prior conjugado de la distribución Bernoulli, y derivamos una ley de escalado analítica que permite extrapolar de forma fiable las tasas de éxito de ataques a N grande a partir de mediciones con presupuesto pequeño. Utilizando solo n=100 muestras, nuestro estimador anclado predice ASR@1000 con un error absoluto medio de 1,66, frente a 12,04 de la línea base, lo que supone una reducción del 86,2% en el error de estimación. Nuestros resultados revelan perfiles de escalado de riesgo heterogéneos y muestran que modelos que parecen robustos bajo evaluaciones estándar pueden experimentar una rápida amplificación no lineal del riesgo bajo presión adversaria paralela. Este trabajo proporciona una metodología escalable y de bajo coste para una evaluación realista de la seguridad de los LLM. Liberaremos nuestro código y scripts de evaluación tras la publicación para futuras investigaciones.
A pesar del potencial no autoregresivo de los modelos de lenguaje de difusión (dLLMs), las estrategias de decodificación existentes presentan un sesgo posicional, sin lograr desbloquear completamente el potencial de generación arbitraria. En este trabajo, profundizamos en las características espectrales inherentes de los dLLMs y presentamos el primer análisis en el dominio de la frecuencia que demuestra que los componentes de baja frecuencia en los estados ocultos codifican principalmente información estructural global y dependencias de largo alcance, mientras que los componentes de alta frecuencia se encargan de caracterizar los detalles locales. Basándonos en esta observación, proponemos FourierSampler, que aprovecha un mecanismo de ventana deslizante en el dominio de la frecuencia para guiar dinámicamente al modelo hacia una generación "de la estructura al detalle". FourierSampler supera a otras estrategias de mejora de la inferencia en LLADA y SDAR, logrando mejoras relativas del 20.4% en LLaDA1.5-8B y del 16.0% en LLaDA-8B-Instruct. Destaca notablemente por superar a modelos autoregresivos de tamaño similar como Llama3.1-8B-Instruct.
Presentamos PaddleOCR-VL-1.5, un modelo mejorado que alcanza una nueva precisión state-of-the-art (SOTA) del 94.5% en OmniDocBench v1.5. Para evaluar rigurosamente la robustez frente a distorsiones físicas del mundo real, como el escaneo, la inclinación, la deformación, la fotografía de pantalla y la iluminación, proponemos el benchmark Real5-OmniDocBench. Los resultados experimentales demuestran que este modelo mejorado logra un rendimiento SOTA en el nuevo benchmark creado. Además, ampliamos las capacidades del modelo incorporando tareas de reconocimiento de sellos y detección de texto, manteniéndose como un VLM ultracompacto de 0.900 millones de parámetros con alta eficiencia. Código: https://github.com/PaddlePaddle/PaddleOCR
Los enfoques recientes basados en GRPO, construidos sobre modelos de flow matching, han mostrado mejoras notables en la alineación con las preferencias humanas para la generación de texto a imagen. Sin embargo, aún adolecen del problema de la recompensa dispersa: la recompensa terminal de toda la trayectoria de eliminación de ruido se aplica a todos los pasos intermedios, lo que genera una desalineación entre las señales de retroalimentación global y las contribuciones exactas de grano fino en los pasos intermedios del proceso. Para abordar este problema, presentamos DenseGRPO, un marco novedoso que alinea la preferencia humana con recompensas densas, evaluando la contribución de grano fino de cada paso de eliminación de ruido. Específicamente, nuestro enfoque incluye dos componentes clave: (1) proponemos predecir la ganancia de recompensa por paso como recompensa densa de cada paso de desruido, aplicando un modelo de recompensa a las imágenes limpias intermedias mediante un enfoque basado en EDOs. Este método garantiza una alineación entre las señales de retroalimentación y las contribuciones de los pasos individuales, facilitando un entrenamiento efectivo; y (2) basándonos en las recompensas densas estimadas, se revela una desventaja por desalineación entre la configuración de exploración uniforme y la intensidad de ruido variable en el tiempo de los métodos existentes basados en GRPO, lo que conduce a un espacio de exploración inapropiado. Por lo tanto, proponemos un esquema consciente de la recompensa para calibrar el espacio de exploración ajustando adaptativamente una inyección de estocasticidad específica para cada paso de tiempo en el muestreador de EDEs, asegurando un espacio de exploración adecuado en todos los pasos de tiempo. Experimentos exhaustivos en múltiples benchmarks estándar demuestran la efectividad del DenseGRPO propuesto y destacan el papel crítico de las recompensas densas válidas en la alineación de modelos de flow matching.
Estudios recientes han explorado el uso de Modelos de Fundación de Visión (VFMs) preentrenados, como DINO, para autoencoders generativos, mostrando un rendimiento generativo sólido. Lamentablemente, los enfoques existentes a menudo adolecen de una fidelidad de reconstrucción limitada debido a la pérdida de detalles de alta frecuencia. En este trabajo, presentamos el Autoencoder Esférico DINO (DINO-SAE), un marco que conecta la representación semántica y la reconstrucción a nivel de píxeles. Nuestra idea clave es que la información semántica en las representaciones contrastivas se codifica principalmente en la dirección de los vectores de características, mientras que forzar una coincidencia estricta de magnitud puede impedir que el encoder preserve detalles finos. Para abordar esto, introducimos un módulo de Incrustación de Parches Convolucionales Jerárquicos que mejora la preservación de la estructura y textura local, y un objetivo de Alineación por Similitud Coseno que impone consistencia semántica mientras permite magnitudes de características flexibles para la retención de detalles. Además, aprovechando la observación de que las representaciones de los modelos de fundación basados en Aprendizaje Autosupervisado (SSL) se encuentran intrínsecamente en una hiperesfera, empleamos Riemannian Flow Matching para entrenar un Transformer de Difusión (DiT) directamente en este manifold latente esférico. Los experimentos en ImageNet-1K demuestran que nuestro enfoque logra una calidad de reconstrucción state-of-the-art, alcanzando 0.37 rFID y 26.2 dB PSNR, manteniendo al mismo tiempo una fuerte alineación semántica con el VFM preentrenado. Cabe destacar que nuestro DiT basado en Riemannian Flow Matching exhibe una convergencia eficiente, logrando un gFID de 3.47 a las 80 épocas.
La animación de imágenes de personajes busca sintetizar vídeos de alta fidelidad transfiriendo el movimiento de una secuencia motriz a una imagen de referencia estática. A pesar de los avances recientes, los métodos existentes adolecen de dos desafíos fundamentales: (1) estrategias subóptimas de inyección de movimiento que conducen a una disyuntiva entre la preservación de la identidad y la coherencia del movimiento, manifestándose como un "subibaja", y (2) una excesiva dependencia de priores de pose explícitos (por ejemplo, esqueletos), que capturan de manera inadecuada las dinámicas intrincadas y dificultan la generalización a personajes arbitrarios no humanoides. Para abordar estos desafíos, presentamos DreamActor-M2, un marco de animación universal que replantea el condicionamiento del movimiento como un problema de aprendizaje en contexto. Nuestro enfoque sigue un paradigma de dos etapas. Primero, cerramos la brecha de modalidad de entrada fusionando la apariencia de referencia y las señales de movimiento en un espacio latente unificado, permitiendo que el modelo razone conjuntamente sobre la identidad espacial y la dinámica temporal aprovechando el prior generativo de los modelos fundacionales. En segundo lugar, introducimos un pipeline de síntesis de datos auto-inicializado que cura pares de entrenamiento pseudo cruzados de identidad, facilitando una transición fluida desde el control dependiente de la pose hacia una animación RGB directa de extremo a extremo. Esta estrategia mejora significativamente la generalización a través de diversos personajes y escenarios de movimiento. Para facilitar una evaluación integral, presentamos además AW Bench, un benchmark versátil que abarca un amplio espectro de tipos de personajes y escenarios de movimiento. Experimentos exhaustivos demuestran que DreamActor-M2 alcanza un rendimiento state-of-the-art, ofreciendo una fidelidad visual superior y una robusta generalización cross-domain. Página del proyecto: https://grisoon.github.io/DreamActor-M2/
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es una técnica fundamental para alinear los modelos de lenguaje grandes (LLMs) con las preferencias humanas, aunque es susceptible a la sobreoptimización de la recompensa, fenómeno en el cual los modelos de política se sobreajustan al modelo de recompensa y explotan patrones espurios en lugar de capturar fielmente la intención humana. Las mitigaciones previas se basan principalmente en información semántica superficial y no logran abordar eficientemente la desalineación entre el modelo de recompensa (RM) y el modelo de política causada por los cambios continuos en la distribución de la política. Esto conduce inevitablemente a una discrepancia de recompensa creciente, exacerbando la sobreoptimización. Para abordar estas limitaciones, presentamos R2M (Modelo de Recompensa Alineado en Tiempo Real), un novedoso marco de trabajo RLHF ligero. R2M va más allá de los modelos de recompensa básicos que dependen únicamente de las representaciones semánticas de un LLM preentrenado. En su lugar, aprovecha los estados ocultos en evolución de la política (denominados retroalimentación de la política) para alinearse con el cambio de distribución en tiempo real de la política durante el proceso de RL. Este trabajo señala una nueva dirección prometedora para mejorar el rendimiento de los modelos de recompensa mediante la utilización en tiempo real de la retroalimentación de los modelos de política.
El aprendizaje por refuerzo con recompensas verificables ha surgido como un paradigma poderoso para entrenar agentes inteligentes. Sin embargo, los métodos existentes suelen emplear recompensas binarias que no logran capturar las diferencias de calidad entre trayectorias que alcanzan resultados idénticos, pasando así por alto la diversidad potencial dentro del espacio de soluciones. Inspirados por el concepto del "punto dulce" en el tenis —la región central de la raqueta que produce efectos de golpe óptimos—, presentamos Sweet Spot Learning (SSL), un marco novedoso que proporciona una guía diferenciada para la optimización de agentes. SSL sigue un principio simple pero efectivo: recompensas escalonadas y progresivamente amplificadas guían las políticas hacia la región del punto dulce del espacio de soluciones. Este principio se adapta naturalmente a diversas tareas: las tareas de percepción visual aprovechan el modelado por niveles de distancia para recompensar la proximidad, mientras que las tareas de razonamiento complejo recompensan el progreso incremental hacia soluciones prometedoras. Demostramos teóricamente que SSL preserva el orden óptimo de las soluciones y mejora la relación señal-ruido del gradiente, fomentando así una optimización más dirigida. Experimentos exhaustivos en tareas de percepción GUI, planificación a corto/largo plazo y razonamiento complejo muestran mejoras consistentes respecto a líneas de base sólidas en 12 benchmarks, logrando ganancias de eficiencia muestral de hasta 2.5X y una transferibilidad efectiva entre tareas. Nuestro trabajo establece a SSL como un principio general para entrenar agentes capaces y robustos.
Los modelos de lenguaje de audio grandes (LALM) autorregresivos (AR), como Qwen-2.5-Omni, han logrado un rendimiento sólido en comprensión e interacción de audio, pero escalarlos sigue siendo costoso en datos y computación, y el decodificado estrictamente secuencial limita la eficiencia de la inferencia. Recientemente se ha demostrado que los modelos de lenguaje grandes de difusión (dLLM) hacen un uso eficiente de datos de entrenamiento limitados, y trabajos previos sobre DIFFA indican que reemplazar un núcleo AR con una contraparte de difusión puede mejorar sustancialmente la comprensión de audio en condiciones equivalentes, aunque a una escala de prueba de concepto sin ajuste instruccional a gran escala, alineación de preferencias o esquemas de decodificación prácticos. Presentamos DIFFA-2, un LALM práctico basado en difusión para la comprensión general de audio. DIFFA-2 mejora el codificador de voz, emplea adaptadores duales semánticos y acústicos, y se entrena con un currículum de cuatro etapas que combina alineación semántica y acústica, ajuste fino supervisado a gran escala y optimización de preferencias con varianza reducida, utilizando únicamente corpus totalmente de código abierto. Los experimentos en MMSU, MMAU y MMAR muestran que DIFFA-2 mejora consistentemente a DIFFA y es competitivo frente a LALM AR sólidos bajo presupuestos de entrenamiento prácticos, respaldando que el modelado basado en difusión es un núcleo viable para la comprensión de audio a gran escala. Nuestro código está disponible en https://github.com/NKU-HLT/DIFFA.git.
Los Modelos de Lenguaje a Gran Escala (LLM) muestran capacidades notables, pero su predicción estocástica del siguiente token genera inconsistencias lógicas y hackeo de recompensas que los sistemas simbólicos formales evitan. Para cerrar esta brecha, presentamos un marco guiado por verificación lógica formal que intercala dinámicamente la verificación simbólica formal con el proceso de generación de lenguaje natural, proporcionando retroalimentación en tiempo real para detectar y rectificar errores conforme ocurren. A diferencia de métodos neuro-simbólicos previos limitados por validación pasiva a posteriori, nuestro enfoque penaliza activamente las falacias intermedias durante la cadena de razonamiento. Operacionalizamos este marco mediante una novedosa canalización de entrenamiento en dos etapas que sinergiza el ajuste fino supervisado guiado por verificación lógica formal y la optimización de políticas. La evaluación exhaustiva en seis benchmarks que abarcan razonamiento matemático, lógico y general demuestra que nuestros modelos de 7B y 14B superan a los mejores baselines actuales por márgenes promedio de 10.4% y 14.2%, respectivamente. Estos resultados validan que la verificación formal puede servir como mecanismo escalable para ampliar significativamente los límites de rendimiento del razonamiento avanzado en LLM.
La generación de imágenes basada en VQ (Vector Quantization) generalmente sigue un pipeline de dos etapas: un tokenizador codifica las imágenes en tokens discretos, y un modelo generativo aprende sus dependencias para la reconstrucción. Sin embargo, una tokenización mejorada en la primera etapa no necesariamente mejora la generación en la segunda etapa, ya que los métodos existentes no logran restringir las dependencias entre tokens. Este desajuste obliga al modelo generativo a aprender a partir de distribuciones no ordenadas, lo que genera sesgos y baja coherencia. Para abordar este problema, proponemos la tokenización visual nativa, que impone dependencias causales durante la tokenización. Basándonos en esta idea, presentamos NativeTok, un marco que logra una reconstrucción eficiente mientras incorpora restricciones relacionales dentro de las secuencias de tokens. NativeTok consta de: (1) un Meta Transformer de Imágenes (MIT) para el modelado latente de imágenes, y (2) una Mezcla de Transformer de Expertos Causales (MoCET), donde cada bloque experto ligero genera un único token condicionado por tokens previos y características latentes. Además, diseñamos una estrategia de Entrenamiento Nativo Jerárquico que actualiza únicamente los nuevos bloques expertos, garantizando la eficiencia del entrenamiento. Experimentos exhaustivos demuestran la efectividad de NativeTok.
Los grandes modelos de lenguaje (LLM) pueden invocar herramientas de manera efectiva, pero siguen siendo frágiles en la ejecución multiturno: tras un error en la llamada a una herramienta, los modelos más pequeños a menudo degeneran en reinvocaciones inválidas y repetitivas, sin lograr interpretar la retroalimentación del error ni autocorregirse. Esta fragilidad dificulta el despliegue confiable en entornos reales, donde los errores de ejecución son inherentemente inevitables durante los procedimientos de interacción con herramientas. Identificamos una limitación clave de los enfoques actuales: el aprendizaje por refuerzo (RL) estándar trata los errores como recompensas negativas dispersas, sin proporcionar orientación sobre cómo recuperarse, mientras que los conjuntos de datos sintéticos de corrección de errores recolectados previamente sufren de un desajuste distribucional con los modos de error on-policy del modelo. Para cerrar esta brecha, proponemos Fission-GRPO, un marco que convierte los errores de ejecución en supervisión correctiva dentro del bucle de entrenamiento de RL. Nuestro mecanismo central divide (fissiona) cada trayectoria fallida en una nueva instancia de entrenamiento, aumentándola con retroalimentación diagnóstica de un Simulador de Errores ajustado mediante fine-tuning, y luego remuestrea trayectorias de recuperación on-policy. Esto permite al modelo aprender de los errores precisos que comete durante la exploración, en lugar de hacerlo de casos de error estáticos previamente recolectados. En el benchmark BFCL v4 Multi-Turn, Fission-GRPO mejora la tasa de recuperación de errores de Qwen3-8B en un 5.7% absoluto y, crucialmente, produce una ganancia de precisión general del 4% (42.75% a 46.75%) sobre GRPO, superando a agentes especializados en el uso de herramientas.
Si bien los Modelos de Lenguaje a Gran Escala (LLMs) han mostrado potencial en ingeniería de software, su aplicación a las pruebas unitarias sigue estando mayormente confinada a la generación aislada de pruebas o a la predicción de oráculos, descuidando el desafío más amplio del mantenimiento de suites de prueba. Presentamos TAM-Eval (Evaluación de Mantenimiento Automatizado de Pruebas), un marco de trabajo y benchmark diseñado para evaluar el rendimiento de los modelos en tres escenarios centrales de mantenimiento de pruebas: creación, reparación y actualización de suites de prueba. A diferencia de trabajos previos limitados a tareas a nivel de función, TAM-Eval opera a nivel de archivo de prueba, manteniendo simultáneamente acceso al contexto completo del repositorio durante la evaluación aislada, lo que refleja mejor los flujos de trabajo de mantenimiento del mundo real. Nuestro benchmark comprende 1.539 escenarios extraídos y validados automáticamente de proyectos en Python, Java y Go. TAM-Eval permite la evaluación independiente del sistema tanto de LLMs básicos como de flujos de trabajo agentivos, utilizando un protocolo libre de referencias basado en la tasa de aprobación de la suite de pruebas, la cobertura de código y las pruebas de mutación. Los resultados empíricos indican que los LLMs más avanzados tienen capacidades limitadas en procesos realistas de mantenimiento de pruebas y producen solo mejoras marginales en la efectividad de las mismas. Publicamos TAM-Eval como un marco de trabajo de código abierto para apoyar la investigación futura en pruebas de software automatizadas. Nuestros datos y código están disponibles públicamente en https://github.com/trndcenter/TAM-Eval.
Presentamos RM-RF, un modelo de recompensa ligero para la evaluación sin ejecución de pruebas unitarias generadas automáticamente. En lugar de compilar y ejecutar repetidamente pruebas candidatas, RM-RF predice —únicamente a partir del código fuente y de prueba— tres señales derivadas de la ejecución: (1) si la suite de pruebas aumentada se compila y ejecuta correctamente, (2) si los casos de prueba generados aumentan la cobertura de código, y (3) si los casos de prueba generados mejoran la tasa de eliminación de mutantes. Para entrenar y evaluar RM-RF, reunimos un conjunto de datos multilingüe (Java, Python, Go) de archivos focales, archivos de prueba y adiciones de prueba candidatas etiquetadas mediante un pipeline basado en ejecución, y publicamos un conjunto de datos y una metodología asociados para la evaluación comparativa. Probamos múltiples familias de modelos y regímenes de ajuste (zero-shot, fine-tuning completo y PEFT mediante LoRA), logrando un F1 promedio de 0.69 en los tres objetivos. En comparación con los instrumentos convencionales de compilación y ejecución, RM-RF ofrece una latencia y un coste de infraestructura sustancialmente menores, al tiempo que proporciona una fidelidad predictiva competitiva, permitiendo una retroalimentación rápida y escalable para la generación de pruebas a gran escala y la optimización de código basada en aprendizaje por refuerzo.
Si bien los sistemas multiagente han mostrado potencial para abordar tareas complejas mediante la especialización, el ajuste fino simultáneo de múltiples agentes enfrenta dos desafíos clave: (1) la asignación de crédito entre agentes, y (2) la eficiencia muestral de las costosas ejecuciones multiagente. En este trabajo, proponemos el ajuste fino de sistemas multiagente con recompensas de proceso por acción a partir de retroalimentación de IA (MAPPA) para abordar ambos. Al asignar crédito a acciones individuales de los agentes en lugar de solo al finalizar la tarea, MAPPA permite una supervisión de grano fino sin etiquetas de verdad fundamental, extrayendo al mismo tiempo la máxima señal de entrenamiento de cada ejecución. Demostramos nuestro enfoque en problemas de matemáticas competitivas y tareas de análisis de datos aumentadas con herramientas. En problemas matemáticos no vistos, MAPPA logra mejoras de +5.0-17.5 pp en AIME y +7.8-17.2 pp en AMC. Para tareas de análisis de datos, nuestro método mejora la tasa de éxito en +12.5 pp, mientras que las métricas de calidad mejoran hasta en un 30%, validando que la supervisión por acción puede generar mejoras en diferentes sistemas multiagente en diversos dominios. Al abordar estos desafíos, nuestro trabajo da un primer paso hacia la escalabilidad de sistemas multiagente para tareas complejas y de largo horizonte con supervisión humana mínima.
Los agentes de búsqueda profunda impulsados por grandes modelos de lenguaje han demostrado sólidas capacidades en recuperación multi-etapa, razonamiento y ejecución de tareas de largo alcance. Sin embargo, sus fallos prácticos suelen originarse en la falta de mecanismos para monitorizar y regular los estados de razonamiento y recuperación a medida que las tareas evolucionan bajo incertidumbre. Perspectivas de la neurociencia cognitiva sugieren que la metacognición humana está organizada jerárquicamente, integrando la detección rápida de anomalías con una reflexión impulsada por la experiencia y activada selectivamente. En este trabajo, proponemos Búsqueda Profunda con Monitorización Meta-Cognitiva (DS-MCM), un marco de búsqueda profunda aumentado con un mecanismo explícito de monitorización metacognitiva jerárquica. DS-MCM integra un Monitor de Consistencia Rápida, que realiza comprobaciones ligeras sobre la alineación entre la evidencia externa y la confianza interna del razonamiento, y un Monitor Lento Impulsado por la Experiencia, que se activa selectivamente para guiar intervenciones correctivas basadas en la memoria experiencial de trayectorias históricas del agente. Al integrar la monitorización directamente en el bucle de razonamiento-recuperación, DS-MCM determina tanto cuándo está justificada una intervención como cómo las acciones correctivas deben informarse a partir de experiencias previas. Experimentos en múltiples benchmarks de búsqueda profunda y modelos base demuestran que DS-MCM mejora consistentemente el rendimiento y la robustez.
Los estudios de sondeo (probing) determinan qué información está codificada en las representaciones de capas congeladas de un LLM mediante el entrenamiento de un predictor ligero sobre ellas. Más allá del análisis, los sondas se utilizan a menudo operativamente en pipelines de "sondear y luego dirigir" (probe-then-steer): un vector de concepto aprendido se extrae de una sonda y se inyecta mediante la dirección aditiva de activaciones, sumándolo a una representación de capa durante la pasada hacia adelante. La eficacia de este pipeline depende de estimar vectores de concepto que sean precisos, direccionalmente estables bajo ablación y económicos de obtener. Motivados por estos requisitos, proponemos RAPTOR (Sonda Logística con Cresta Adaptativa), una sonda logística simple regularizada con L2 cuya fuerza de cresta ajustada por validación produce vectores de concepto a partir de pesos normalizados. A lo largo de extensos experimentos en LLMs ajustados por instrucción y conjuntos de datos de conceptos escritos por humanos, RAPTOR iguala o supera a líneas base sólidas en precisión, logrando al mismo tiempo una estabilidad direccional competitiva y un costo de entrenamiento sustancialmente menor; estos resultados cuantitativos están respaldados por demostraciones cualitativas de dirección (steering) aguas abajo. Finalmente, utilizando el Teorema del Mínimo-Máximo Gaussiano Convexo (CGMT), proporcionamos una caracterización mecanicista de la regresión logística con cresta en un modelo gaussiano idealizado de profesor-estudiante en el régimen de alta dimensionalidad y pocos ejemplos, explicando cómo la fuerza de la penalización media la precisión de la sonda y la estabilidad del vector de concepto, y produciendo predicciones estructurales que se alinean cualitativamente con las tendencias observadas en incrustaciones (embeddings) de LLMs reales.
El razonamiento en cadena (CoT) permite a los Modelos de Lenguaje a Gran Escala (LLMs) abordar problemas complejos, pero sigue limitado por el costo computacional y el colapso de las rutas de razonamiento cuando se basa en espacios discretos de tokens. Los enfoques recientes de razonamiento latente intentan optimizar la eficiencia realizando el razonamiento dentro de estados ocultos continuos. Sin embargo, estos métodos suelen operar como mapeos opacos de extremo a extremo, desde pasos de razonamiento explícitos a estados latentes, y a menudo requieren un número predefinido de pasos latentes durante la inferencia. En este trabajo, presentamos PLaT (Planificación con Pensamientos Latentes), un marco que reformula el razonamiento latente como planificación al desacoplar fundamentalmente el razonamiento de la verbalización. Modelamos el razonamiento como una trayectoria determinista de estados de planificación latentes, mientras que un Decodificador separado fundamenta estos pensamientos en texto cuando es necesario. Este desacoplamiento permite al modelo determinar dinámicamente cuándo finalizar el razonamiento, en lugar de depender de hiperparámetros fijos. Los resultados empíricos en benchmarks matemáticos revelan una compensación distintiva: aunque PLaT logra una precisión greedy menor que los métodos de referencia, demuestra una escalabilidad superior en términos de diversidad de razonamiento. Esto indica que PLaT aprende un espacio de soluciones más robusto y amplio, ofreciendo una base transparente y escalable para la búsqueda durante la inferencia.
Dado que los entornos digitales (distribución de datos) están en constante cambio, con nuevos datos de interfaz gráfica de usuario (GUI) que llegan con el tiempo —introduciendo nuevos dominios o resoluciones—, los agentes entrenados en entornos estáticos experimentan un deterioro en su rendimiento. En este trabajo, presentamos Agentes GUI Continuos, una nueva tarea que requiere que los agentes GUI realicen aprendizaje continuo bajo dominios y resoluciones cambiantes. Encontramos que los métodos existentes fallan en mantener una anclaje estable a medida que las distribuciones de GUI cambian con el tiempo, debido a la diversidad de puntos y regiones de interacción de la interfaz de usuario en escenarios fluctuantes. Para abordar esto, introducimos Anclaje GUI en Flujo (GUI-AiF), un nuevo marco de ajuste fino por refuerzo que estabiliza el aprendizaje continuo mediante dos recompensas novedosas: Recompensa de Punto de Anclaje en Flujo (APR-iF) y Recompensa de Región de Anclaje en Flujo (ARR-iF). Estas recompensas guían a los agentes para alinearse con puntos y regiones de interacción cambiantes, mitigando la tendencia de las estrategias de recompensa existentes a sobreadaptarse a claves de anclaje estáticas (por ejemplo, coordenadas fijas o escalas de elementos). Experimentos exhaustivos muestran que GUI-AiF supera a los métodos de referencia más avanzados. Nuestro trabajo establece el primer marco de aprendizaje continuo para agentes GUI, revelando el potencial no explotado del ajuste fino por refuerzo para Agentes GUI Continuos.
Los recientes avances en modelos de difusión y emparejamiento de flujos han destacado un cambio en el objetivo de predicción preferido —pasando de la predicción de ruido (ε) y velocidad (v) a la predicción directa de datos (x)—, particularmente en entornos de alta dimensionalidad. Sin embargo, una explicación formal de por qué el objetivo óptimo depende de las propiedades específicas de los datos sigue siendo esquiva. En este trabajo, proporcionamos un marco teórico basado en una formulación de predicción generalizada que admite objetivos de salida arbitrarios, de los cuales la predicción-ε, -v y -x son casos especiales. Derivamos la relación analítica entre la geometría de los datos y el objetivo de predicción óptimo, ofreciendo una justificación rigurosa de por qué la predicción-x se vuelve superior cuando la dimensión ambiental excede significativamente la dimensión intrínseca de los datos. Además, si bien nuestra teoría identifica la dimensionalidad como el factor rector para el objetivo de predicción óptimo, la dimensión intrínseca de los datos confinados en variedades suele ser intratable de estimar en la práctica. Para salvar esta brecha, proponemos k-Diff, un marco que emplea un enfoque basado en datos para aprender el parámetro de predicción óptimo k directamente de los datos, evitando la necesidad de una estimación explícita de la dimensión. Experimentos exhaustivos en generación de imágenes tanto en espacio latente como en espacio de píxeles demuestran que k-Diff supera consistentemente los baselines de objetivo fijo en diversas arquitecturas y escalas de datos, proporcionando un enfoque automatizado y fundamentado para mejorar el rendimiento generativo.
El aprendizaje de representaciones es fundamental para muchas tareas posteriores como búsqueda, agrupación, clasificación y reordenamiento. Los codificadores de secuencia de última generación suelen colapsar una secuencia de tokens de longitud variable en un único vector mediante un operador de *pooling*, más comúnmente un token especial [CLS] o el promedio de los *embeddings* de tokens. En este artículo, identificamos debilidades sistemáticas de estas estrategias de *pooling*: [CLS] tiende a concentrar la información hacia las posiciones iniciales de la secuencia y puede subrepresentar la evidencia distribuida, mientras que el promedio de *embeddings* puede diluir señales locales salientes, lo que a veces conduce a un peor rendimiento en contextos cortos. Para abordar estos problemas, presentamos Landmark (LMK) *pooling*, que divide una secuencia en fragmentos, inserta tokens de referencia (*landmark*) entre ellos y forma la representación final promediando los *embeddings* de estos tokens de referencia. Este mecanismo sencillo mejora la extrapolación a contextos largos sin sacrificar las características salientes locales, a costa de introducir un pequeño número de tokens especiales. Demostramos empíricamente que LMK *pooling* iguala a los métodos existentes en tareas de recuperación de contexto corto y produce mejoras sustanciales en tareas de contexto largo, lo que lo convierte en una alternativa práctica y escalable a los métodos de *pooling* existentes.
La Distilación de Conocimiento (KD, por sus siglas en inglés) se está adoptando cada vez más para transferir capacidades de modelos lingüísticos grandes a otros más pequeños, ofreciendo mejoras significativas en eficiencia y utilidad, a menudo superando al ajuste fino estándar. Más allá del rendimiento, la KD también se explora como un mecanismo de preservación de la privacidad para mitigar el riesgo de filtración de datos de entrenamiento. Si bien la memorización de datos de entrenamiento se ha estudiado ampliamente en los entornos estándar de pre-entrenamiento y ajuste fino, su dinámica en una configuración de distilación de conocimiento sigue siendo poco comprendida. En este trabajo, estudiamos la memorización a lo largo del pipeline de KD utilizando tres familias de modelos lingüísticos grandes (Pythia, OLMo-2, Qwen-3) y tres conjuntos de datos (FineWeb, Wikitext, Nemotron-CC-v2). Encontramos: (1) los modelos destilados memorizan significativamente menos datos de entrenamiento que el ajuste fino estándar (reduciendo la memorización en más del 50%); (2) algunos ejemplos son inherentemente más fáciles de memorizar y representan una gran fracción de la memorización durante la destilación (más del ~95%); (3) la memorización del estudiante es predecible antes de la destilación utilizando características basadas en la entropía zlib, la divergencia KL y la perplejidad; y (4) aunque la destilación suave y la dura tienen tasas generales de memorización similares, la destilación dura presenta un riesgo mayor: hereda 2.7 veces más ejemplos específicos del profesor que la destilación suave. En general, demostramos que la destilación puede proporcionar tanto una generalización mejorada como riesgos reducidos de memorización en comparación con el ajuste fino estándar.
La localización de vocabulario abierto requiere una alineación precisa entre visión y lenguaje bajo supervisión débil, pero los métodos existentes dependen de embeddings de oraciones globales que carecen de expresividad detallada o introducen alineación a nivel de token con supervisión explícita o diseños de atención cruzada complejos. Proponemos ExpAlign, un marco de alineación visión-lenguaje teóricamente fundamentado basado en una formulación de aprendizaje múltiple de instancias. ExpAlign introduce una Cabezal de Alineación por Expectativa que realiza un agrupamiento MIL suave basado en atención sobre similitudes token-región, permitiendo una selección implícita de tokens e instancias sin anotaciones adicionales. Para estabilizar aún más el aprendizaje de alineación, desarrollamos un esquema de regularización por consistencia multiescala basado en energía, incluyendo un objetivo contrastivo multi-positivo Top-K y un Objetivo de Consistencia con Conciencia Geométrica derivado de una minimización de energía libre con restricciones lagrangianas. Experimentos exhaustivos muestran que ExpAlign mejora consistentemente la detección de vocabulario abierto y la segmentación de instancias de cero disparos, particularmente en categorías de cola larga. Más notablemente, alcanza 36.2 AP_r en la división minival de LVIS, superando a otros métodos state-of-the-art con escala de modelo comparable, manteniéndose ligero y eficiente en inferencia.
La conducción autónoma de extremo a extremo aprovecha cada vez más el preentrenamiento de vídeo autosupervisado para aprender representaciones de planificación transferibles. Sin embargo, hasta ahora, el preentrenamiento de modelos mundiales de vídeo para la comprensión de escenas ha aportado mejoras limitadas. Esta limitación se ve agravada por la ambigüedad inherente de la conducción: cada escena generalmente proporciona solo una trayectoria humana, lo que dificulta el aprendizaje de comportamientos multimodales. En este trabajo, proponemos Drive-JEPA, un marco que integra la Arquitectura Predictiva de Incrustación Conjunta de Vídeo (V-JEPA) con la destilación multimodal de trayectorias para la conducción de extremo a extremo. Primero, adaptamos V-JEPA para la conducción de extremo a extremo, preentrenando un codificador ViT en vídeos de conducción a gran escala para producir representaciones predictivas alineadas con la planificación de trayectorias. En segundo lugar, introducimos un planificador centrado en propuestas que destila diversas trayectorias generadas por simulador junto con trayectorias humanas, con un mecanismo de selección consciente del momentum para promover un comportamiento estable y seguro. Al evaluar en NAVSIM, la representación V-JEPA combinada con un decodificador simple basado en transformadores supera a métodos anteriores por 3 PDMS en el entorno libre de percepción. El marco completo Drive-JEPA alcanza 93.3 PDMS en v1 y 87.8 EPDMS en v2, estableciendo un nuevo estado del arte.
En la poda de redes neuronales, la Hipótesis del Boleto de Lotería postula que las redes grandes contienen subredes dispersas, o "boletos ganadores", que pueden entrenarse de forma aislada para igualar el rendimiento de sus contrapartes densas. Sin embargo, la mayoría de los enfoques existentes asumen un único boleto ganador universal compartido por todas las entradas, ignorando la heterogeneidad inherente de los datos del mundo real. En este trabajo, proponemos "Enrutando la Lotería" (RTL), un marco de poda adaptativa que descubre múltiples subredes especializadas, denominadas *boletos adaptativos*, cada una adaptada a una clase, cluster semántico o condición ambiental. En diversos conjuntos de datos y tareas, RTL supera consistentemente a los métodos de referencia de modelo único y múltiples modelos en precisión equilibrada y exhaustividad, mientras utiliza hasta 10 veces menos parámetros que los modelos independientes y exhibe una alineación semántica. Además, identificamos el *colapso de la subred*, una caída en el rendimiento bajo una poda agresiva, e introducimos una puntuación de similitud entre subredes que permite un diagnóstico sin etiquetas de la sobre-esparsificación. En general, nuestros resultados replantean la poda como un mecanismo para alinear la estructura del modelo con la heterogeneidad de los datos, allanando el camino hacia un aprendizaje profundo más modular y consciente del contexto.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) son un foco principal de la investigación reciente en IA. Sin embargo, la mayor parte del trabajo previo se centra en la comprensión de imágenes estáticas, mientras que su capacidad para procesar datos secuenciales de audio y vídeo sigue estando poco explorada. Esta brecha subraya la necesidad de un benchmark de alta calidad para evaluar sistemáticamente el rendimiento de los MLLMs en un entorno del mundo real. Presentamos SONIC-O1, un benchmark integral y completamente verificado por humanos que abarca 13 dominios conversacionales del mundo real con 4.958 anotaciones y metadatos demográficos. SONIC-O1 evalúa los MLLMs en tareas clave, que incluyen la generación de resúmenes de respuesta abierta, la respuesta a preguntas de opción múltiple (MCQ) y la localización temporal con justificaciones de apoyo (razonamiento). Los experimentos con modelos de código cerrado y abierto revelan limitaciones. Si bien la brecha de rendimiento en la precisión de MCQ entre dos familias de modelos es relativamente pequeña, observamos una diferencia sustancial del 22.6% en el rendimiento de la localización temporal entre el mejor modelo de código cerrado y el mejor modelo de código abierto. El rendimiento se degrada aún más entre los grupos demográficos, lo que indica disparidades persistentes en el comportamiento de los modelos. En general, SONIC-O1 proporciona un conjunto de evaluación abierto para la comprensión multimodal con base temporal y socialmente robusta. Publicamos SONIC-O1 para garantizar la reproducibilidad y fomentar la investigación: Página del proyecto: https://vectorinstitute.github.io/sonic-o1/ Conjunto de datos: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Clasificación de modelos: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
Presentamos KAPSO, un marco modular para la síntesis y optimización autónoma de programas. Dado un objetivo en lenguaje natural y un método de evaluación, KAPSO realiza iterativamente ideación, síntesis y edición de código, ejecución, evaluación y aprendizaje para mejorar un artefacto ejecutable hacia objetivos medibles. En lugar de tratar la síntesis como un punto final, KAPSO utiliza la síntesis como un operador dentro de un bucle de optimización de horizonte largo, donde el progreso se define por los resultados del evaluador. KAPSO aborda los fallos de horizonte largo comunes en los agentes de programación, como la pérdida del estado experimental, la depuración frágil y la reutilización débil de la experiencia de dominio, mediante la integración de tres componentes estrechamente acoplados. En primer lugar, un motor de experimentación nativo de git aísla cada intento como una rama, produciendo artefactos reproducibles y preservando la procedencia a lo largo de las iteraciones. En segundo lugar, un sistema de conocimiento ingiere fuentes heterogéneas, incluyendo repositorios, manuales internos y recursos externos seleccionados como documentación, artículos científicos y resultados de búsqueda web, y los organiza en una representación estructurada que soporta la recuperación de flujos de trabajo, implementaciones y restricciones del entorno. En tercer lugar, una capa de memoria cognitiva coordina la recuperación y mantiene un almacén episódico de lecciones reutilizables destiladas de los rastros de experimentos (registros de ejecución, diferencias y retroalimentación del evaluador), reduciendo modos de error repetitivos y acelerando la convergencia. Evaluamos KAPSO en MLE-Bench (competencias de ML estilo Kaggle) y ALE-Bench (optimización heurística AtCoder), y reportamos el rendimiento de extremo a extremo. Código disponible en: https://github.com/Leeroo-AI/kapso
Los patrones de atención desempeñan un papel crucial tanto en el entrenamiento como en la inferencia de los grandes modelos de lenguaje (LLM). Trabajos previos han identificado patrones individuales como cabezas de recuperación, cabezas sumidero y trazas diagonales, pero estas observaciones siguen fragmentadas y carecen de una explicación unificadora. Para cerrar esta brecha, presentamos el Análisis de Predictibilidad de Patrones de Atención Temporal (TAPPA), un marco unificador que explica diversos patrones de atención analizando sus formulaciones matemáticas subyacentes desde una perspectiva temporalmente continua. TAPPA no solo profundiza la comprensión del comportamiento de la atención, sino que también guía enfoques de aceleración de la inferencia. Específicamente, TAPPA caracteriza los patrones de atención como patrones predecibles con regularidades claras y patrones impredecibles que aparecen efectivamente aleatorios. Nuestro análisis revela además que esta distinción puede explicarse por el grado de autosimilitud de las consultas a lo largo de la dimensión temporal. Centrándonos en los patrones predecibles, proporcionamos un análisis matemático detallado de tres casos representativos a través del efecto conjunto de las consultas, las claves y los Embeddings Posicionales Rotativos (RoPE). Validamos TAPPA aplicando sus insights a tareas de compresión de la caché KV y poda de LLM. En estas tareas, una métrica simple motivada por TAPPA mejora consistentemente el rendimiento respecto a los métodos base. El código está disponible en https://github.com/MIRALab-USTC/LLM-TAPPA.
Presentamos la Prueba de Turing de Personalización Visual (VPTT), un nuevo paradigma para evaluar la personalización visual contextual basado en la indistinguibilidad perceptual, en lugar de la replicación de identidad. Un modelo supera la VPTT si su resultado (imagen, video, activo 3D, etc.) es indistinguible para un juez humano o un modelo de lenguaje visual (VLM) calibrado, en comparación con contenido que una persona dada podría crear o compartir de manera plausible. Para operacionalizar la VPTT, presentamos el Marco VPTT, que integra un benchmark de 10k personajes (VPTT-Bench), un generador aumentado por recuperación visual (VPRAG) y la Puntuación VPTT, una métrica basada únicamente en texto calibrada frente a juicios humanos y de VLM. Mostramos una alta correlación entre las evaluaciones humanas, de VLM y de VPTT, validando la Puntuación VPTT como un proxy perceptual confiable. Los experimentos demuestran que VPRAG logra el mejor equilibrio entre alineación y originalidad, ofreciendo una base escalable y segura para la privacidad en la IA generativa personalizada.
En la era post-Dennard, la optimización de sistemas embebidos requiere navegar complejas compensaciones entre eficiencia energética y latencia. La sintonización heurística tradicional suele ser ineficaz en estos espacios de búsqueda de alta dimensionalidad y no suaves. En este trabajo, proponemos un marco de Optimización Bayesiana que utiliza Procesos Gaussianos para automatizar la búsqueda de configuraciones óptimas de planificación en arquitecturas heterogéneas multi-núcleo. Abordamos explícitamente la naturaleza multi-objetivo del problema aproximando la Frontera de Pareto entre energía y tiempo. Además, al incorporar Análisis de Sensibilidad (fANOVA) y comparar diferentes núcleos de covarianza (por ejemplo, Matérn frente a RBF), proporcionamos interpretabilidad física al modelo de caja negra, revelando los parámetros de hardware dominantes que impulsan el rendimiento del sistema.
¿Puede una pequeña cantidad de información verificada sobre objetivos dirigir el costoso preentrenamiento autosupervisado de modelos fundacionales? El preentrenamiento estándar optimiza un objetivo proxy fijo (por ejemplo, la predicción del siguiente token), lo que puede malasignar recursos de cómputo lejos de las capacidades descendentes de interés. Introducimos V-Pretraining: un método basado en valores y agnóstico a la modalidad para un preentrenamiento continuo controlado, en el cual un diseñador de tareas ligero remodela la tarea de preentrenamiento para maximizar el valor de cada paso de gradiente. Por ejemplo, considere el aprendizaje autosupervisado (SSL) con aumento de muestras. El diseñador de tareas de V-Pretraining selecciona tareas de preentrenamiento (por ejemplo, aumentos) para las cuales el gradiente de la pérdida de preentrenamiento está alineado con un gradiente calculado sobre una tarea descendente (por ejemplo, segmentación de imágenes). Esto ayuda a dirigir el preentrenamiento hacia capacidades descendentes relevantes. Cabe destacar que el modelo preentrenado nunca se actualiza con las etiquetas de la tarea descendente; estas se utilizan únicamente para moldear la tarea de preentrenamiento. Con presupuestos de actualización del aprendiz equivalentes, V-Pretraining aplicado a modelos de lenguaje de 0.5B a 7B mejora el razonamiento (GSM8K test Pass@1) hasta en un 18% relativo respecto a la predicción estándar del siguiente token, utilizando solo el 12% de los ejemplos de entrenamiento de GSM8K como retroalimentación. En SSL de visión, mejoramos los resultados state-of-the-art en ADE20K hasta en 1.07 mIoU y reducimos el RMSE de NYUv2 mientras mejoramos la precisión lineal en ImageNet, y aportamos evidencia preliminar de una mejor eficiencia de tokens en el preentrenamiento continuo.