Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos 4KAgent, un sistema generalista unificado de super-resolución agentico diseñado para escalar universalmente cualquier imagen a resolución 4K (e incluso más alta, si se aplica de manera iterativa). Nuestro sistema puede transformar imágenes desde resoluciones extremadamente bajas con degradaciones severas, por ejemplo, entradas altamente distorsionadas a 256x256, en salidas 4K nítidas y fotorrealistas. 4KAgent consta de tres componentes principales: (1) Perfilado, un módulo que personaliza la pipeline de 4KAgent según casos de uso específicos; (2) Un Agente de Percepción, que aprovecha modelos de visión-lenguaje junto con expertos en evaluación de calidad de imagen para analizar la imagen de entrada y elaborar un plan de restauración personalizado; y (3) Un Agente de Restauración, que ejecuta el plan, siguiendo un paradigma de ejecución-reflexión recursiva, guiado por una política de mezcla de expertos impulsada por la calidad para seleccionar la salida óptima en cada paso. Además, 4KAgent incorpora una pipeline especializada de restauración facial, mejorando significativamente los detalles faciales en fotos de retrato y selfies. Evaluamos rigurosamente nuestro 4KAgent en 11 categorías de tareas distintas que abarcan un total de 26 benchmarks diversos, estableciendo nuevos estándares de vanguardia en un amplio espectro de dominios de imágenes. Nuestras evaluaciones cubren imágenes naturales, fotos de retrato, contenido generado por IA, imágenes satelitales, microscopía de fluorescencia e imágenes médicas como fundoscopía, ultrasonido y rayos X, demostrando un rendimiento superior tanto en términos de métricas perceptuales (por ejemplo, NIQE, MUSIQ) como de fidelidad (por ejemplo, PSNR). Al establecer un nuevo paradigma agentico para tareas de visión de bajo nivel, nuestro objetivo es catalizar un mayor interés e innovación en agentes autónomos centrados en la visión en diversas comunidades de investigación. Publicaremos todo el código, modelos y resultados en: https://4kagent.github.io.
Presentamos Skywork-R1V3, un modelo avanzado de visión-lenguaje (VLM) de código abierto que introduce un nuevo enfoque para el razonamiento visual. Su innovación clave radica en la transferencia efectiva de habilidades de razonamiento desde modelos de lenguaje de gran escala (LLMs) basados únicamente en texto hacia tareas visuales. El alto rendimiento de Skywork-R1V3 se debe principalmente a nuestro elaborado marco de entrenamiento de refuerzo (RL) posterior, que activa y mejora eficazmente la capacidad de razonamiento del modelo, sin necesidad de un preentrenamiento adicional. A través de este marco, descubrimos el papel fundamental del módulo conector para lograr una alineación multimodal robusta en modelos de razonamiento multimodal. Además, introducimos un indicador único de capacidad de razonamiento: la entropía de los tokens críticos de razonamiento, que ha demostrado ser altamente efectivo para la selección de puntos de control durante el entrenamiento RL. Skywork-R1V3 alcanza resultados de vanguardia en MMMU, mejorando significativamente del 64.3% al 76.0%, un rendimiento que iguala las capacidades humanas de nivel básico. Notablemente, nuestro enfoque de entrenamiento posterior impulsado por RL permite que incluso el modelo de 38B parámetros compita con los mejores VLMs de código cerrado. La implementación transfiere con éxito el razonamiento matemático a otras tareas de razonamiento relacionadas con materias específicas. También incluimos un análisis de estrategias de aprendizaje curricular y ajuste fino por refuerzo, junto con una discusión más amplia sobre el razonamiento multimodal. Skywork-R1V3 representa un avance significativo en el razonamiento multimodal, demostrando que el RL es una herramienta poderosa para impulsar las capacidades de los VLMs de código abierto.
Aunque las capacidades de memoria de los agentes de IA están recibiendo una atención creciente, las soluciones existentes siguen siendo fundamentalmente limitadas. La mayoría depende de componentes de memoria planos y de alcance reducido, lo que restringe su capacidad para personalizar, abstraer y recordar de manera confiable información específica del usuario a lo largo del tiempo. Con este fin, presentamos MIRIX, un sistema de memoria modular y multiagente que redefine el futuro de la memoria en IA al abordar el desafío más crítico del campo: permitir que los modelos de lenguaje recuerden verdaderamente. A diferencia de enfoques anteriores, MIRIX trasciende el texto para abarcar experiencias visuales y multimodales enriquecidas, haciendo que la memoria sea genuinamente útil en escenarios del mundo real. MIRIX consta de seis tipos de memoria distintos y cuidadosamente estructurados: Memoria Central, Episódica, Semántica, Procedimental, de Recursos y Bóveda de Conocimiento, junto con un marco multiagente que controla y coordina dinámicamente las actualizaciones y recuperaciones. Este diseño permite a los agentes persistir, razonar y recuperar con precisión datos diversos y a largo plazo del usuario a gran escala. Validamos MIRIX en dos entornos exigentes. Primero, en ScreenshotVQA, un benchmark multimodal desafiante que comprende casi 20,000 capturas de pantalla de alta resolución por secuencia, que requiere una comprensión contextual profunda y donde ningún sistema de memoria existente puede aplicarse, MIRIX logra un 35% más de precisión que la línea base RAG mientras reduce los requisitos de almacenamiento en un 99.9%. Segundo, en LOCOMO, un benchmark de conversación de larga duración con entrada textual unimodal, MIRIX alcanza un rendimiento de vanguardia del 85.4%, superando ampliamente las líneas base existentes. Estos resultados muestran que MIRIX establece un nuevo estándar de rendimiento para los agentes de LLM aumentados con memoria. Para permitir que los usuarios experimenten nuestro sistema de memoria, proporcionamos una aplicación empaquetada impulsada por MIRIX. Monitorea la pantalla en tiempo real, construye una base de memoria personalizada y ofrece visualización intuitiva y almacenamiento local seguro para garantizar la privacidad.
La generación de secuencias de movimiento humano diversas y naturales basadas en descripciones textuales constituye un área de investigación fundamental y desafiante dentro de los dominios de la visión por computadora, gráficos y robótica. A pesar de los avances significativos en este campo, las metodologías actuales a menudo enfrentan desafíos en cuanto a las capacidades de generalización en modo cero-shot, atribuibles en gran medida al tamaño limitado de los conjuntos de datos de entrenamiento. Además, la falta de un marco de evaluación integral dificulta el avance de esta tarea al no identificar direcciones para la mejora. En este trabajo, nuestro objetivo es llevar la generación de texto a movimiento a una nueva era, es decir, lograr la capacidad de generalización en modo cero-shot. Para ello, en primer lugar, desarrollamos una canalización de anotación eficiente e introducimos MotionMillion, el conjunto de datos de movimiento humano más grande hasta la fecha, que cuenta con más de 2,000 horas y 2 millones de secuencias de movimiento de alta calidad. Adicionalmente, proponemos MotionMillion-Eval, el punto de referencia más completo para evaluar la generación de movimiento en modo cero-shot. Aprovechando una arquitectura escalable, escalamos nuestro modelo a 7 mil millones de parámetros y validamos su rendimiento en MotionMillion-Eval. Nuestros resultados demuestran una fuerte generalización a movimientos fuera del dominio y de composición compleja, marcando un paso significativo hacia la generación de movimiento humano en modo cero-shot. El código está disponible en https://github.com/VankouF/MotionMillion-Codes.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado ser una estrategia altamente efectiva para dotar a los Modelos de Lenguaje a Gran Escala (LLMs) de capacidades robustas de razonamiento multi-paso. Sin embargo, su diseño y optimizaciones siguen estando adaptados a dominios puramente textuales, lo que resulta en un rendimiento subóptimo cuando se aplica a tareas de razonamiento multimodal. En particular, observamos que una fuente importante de error en el razonamiento multimodal actual radica en la percepción de entradas visuales. Para abordar este cuello de botella, proponemos la Optimización de Políticas con Conciencia Perceptiva (PAPO), una extensión simple pero efectiva de GRPO que fomenta que el modelo aprenda a percibir mientras aprende a razonar, completamente a partir de señales de supervisión internas. Notablemente, PAPO no depende de la curación adicional de datos, modelos de recompensa externos o modelos propietarios. Específicamente, introducimos la Pérdida de Percepción Implícita en forma de un término de divergencia KL en el objetivo de GRPO, que, a pesar de su simplicidad, produce mejoras generales significativas (4.4%) en diversos puntos de referencia multimodales. Las mejoras son más pronunciadas, acercándose al 8.0%, en tareas con alta dependencia visual. También observamos una reducción sustancial (30.5%) en los errores de percepción, lo que indica capacidades perceptivas mejoradas con PAPO. Realizamos un análisis exhaustivo de PAPO e identificamos un problema único de manipulación de pérdidas, que analizamos rigurosamente y mitigamos mediante una Pérdida de Doble Entropía. En general, nuestro trabajo introduce una integración más profunda de la supervisión con conciencia perceptiva en los objetivos de aprendizaje de RLVR y sienta las bases para un nuevo marco de RL que fomenta el razonamiento visualmente fundamentado. Página del proyecto: https://mikewangwzhl.github.io/PAPO.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado recientemente un éxito notable en benchmarks de generación de código como HumanEval y LiveCodeBench. Sin embargo, un examen detallado revela que estas suites de evaluación a menudo comprenden solo un número limitado de casos de prueba homogéneos, lo que resulta en fallos sutiles que pasan desapercibidos. Esto no solo infla artificialmente el rendimiento medido, sino que también compromete la estimación precisa de recompensas en marcos de aprendizaje por refuerzo que utilizan recompensas verificables (RLVR). Para abordar estas deficiencias críticas, investigamos sistemáticamente la tarea de generación de casos de prueba (TCG, por sus siglas en inglés) proponiendo métricas multidimensionales diseñadas para cuantificar rigurosamente la exhaustividad de las suites de prueba. Además, introducimos un método colaborativo humano-LLM (SAGA), que aprovecha la experiencia en programación humana junto con la capacidad de razonamiento de los LLMs, con el objetivo de mejorar significativamente tanto la cobertura como la calidad de los casos de prueba generados. Asimismo, desarrollamos un TCGBench para facilitar el estudio de la tarea TCG. Los experimentos muestran que SAGA alcanza una tasa de detección del 90,62% y una precisión del verificador del 32,58% en TCGBench. La precisión del verificador (Verifier Acc) del benchmark de evaluación de generación de código sintetizado por SAGA es un 10,78% superior a la de LiveCodeBench-v6. Estos resultados demuestran la efectividad de nuestro método propuesto. Esperamos que este trabajo contribuya a construir una base escalable para la evaluación confiable de código generado por LLMs, avanzando aún más el RLVR en la generación de código, y allanando el camino para la síntesis automatizada de pruebas adversarias y la integración adaptativa de benchmarks.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) mejora las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs), pero enfrenta dificultades con la exploración inestable. Proponemos FR3E (Primer Retorno, Exploración que Induce Entropía), un marco de exploración estructurada que identifica puntos de decisión de alta incertidumbre en las trayectorias de razonamiento y realiza despliegues dirigidos para construir retroalimentación intermedia semánticamente fundamentada. Nuestro método proporciona orientación específica sin depender de supervisión densa. Los resultados empíricos en benchmarks de razonamiento matemático (AIME24) muestran que FR3E promueve un entrenamiento más estable, produce respuestas más largas y coherentes, y aumenta la proporción de trayectorias completamente correctas. Estos resultados destacan la efectividad del marco para mejorar el razonamiento de los LLMs mediante una exploración más robusta y estructurada.
Los Transformers enfrentan problemas de complejidad cuadrática y memoria con secuencias largas, lo que ha impulsado la adopción de mecanismos de atención lineal utilizando estados ocultos de tamaño fijo. Sin embargo, los modelos lineales suelen tener un rendimiento limitado en tareas de recuperación, lo que ha llevado al desarrollo de arquitecturas híbridas que combinan capas de atención lineal y completa. A pesar de la extensa investigación en arquitecturas híbridas, la elección del componente de atención lineal no ha sido explorada en profundidad. Evaluamos sistemáticamente varios modelos de atención lineal a lo largo de generaciones, desde recurrencias vectoriales hasta mecanismos avanzados de compuertas, tanto de forma independiente como en configuraciones híbridas. Para facilitar este análisis exhaustivo, entrenamos y publicamos 72 modelos: 36 con 340M de parámetros (20B tokens) y 36 con 1.3B de parámetros (100B tokens), cubriendo seis variantes de atención lineal en cinco proporciones de hibridación. Las pruebas en tareas estándar de modelado de lenguaje y recuperación revelan que los modelos lineales superiores de forma independiente no necesariamente destacan en configuraciones híbridas. Mientras que el modelado de lenguaje se mantiene estable en diferentes proporciones de atención lineal a completa, la recuperación mejora significativamente con más capas de atención completa, especialmente por debajo de una proporción de 3:1. Nuestro estudio destaca la importancia de la compuerta selectiva, la recurrencia jerárquica y el olvido controlado para modelos híbridos efectivos. Recomendamos arquitecturas como HGRN-2 o GatedDeltaNet con una proporción lineal a completa entre 3:1 y 6:1 para alcanzar un nivel de recuperación comparable a los Transformers de manera eficiente. Nuestros modelos están disponibles en https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
El desarrollo de núcleos (kernels) en el aprendizaje profundo requiere optimizar unidades computacionales en diferentes hardware, equilibrando la gestión de memoria, el paralelismo y optimizaciones específicas del hardware mediante un ajuste empírico extensivo. Aunque lenguajes específicos de dominio como Triton simplifican la programación en GPU al abstraer detalles de bajo nivel, los desarrolladores aún deben ajustar manualmente parámetros críticos, como los tamaños de los bloques (tile sizes) y los patrones de acceso a memoria, a través de experimentación iterativa, lo que crea barreras significativas para alcanzar un rendimiento óptimo y una adopción más amplia. En este trabajo, presentamos AutoTriton, el primer modelo dedicado a la programación en Triton impulsado por aprendizaje por refuerzo (RL). AutoTriton realiza un ajuste fino supervisado (SFT) para adquirir conocimientos esenciales de programación en Triton utilizando una canalización de recopilación de datos de alta calidad, y lleva a cabo RL con el algoritmo de Optimización de Política Relativa Grupal (GRPO), combinando una recompensa basada en reglas y una recompensa basada en la ejecución para mejorar secuencialmente la capacidad de programación en Triton. Los experimentos en cinco canales de evaluación de TritonBench y KernelBench muestran que nuestro modelo de 8B, AutoTriton, alcanza un rendimiento comparable a modelos grandes predominantes, como Claude-4-Sonnet y DeepSeek-R1-0528. Un análisis experimental adicional demuestra el papel crucial de cada módulo dentro de AutoTriton, incluyendo la etapa de SFT, la etapa de RL y la estrategia de diseño de recompensas. Estos hallazgos resaltan el potencial del RL para generar automáticamente núcleos de alto rendimiento, y dado que estos núcleos son componentes centrales de los sistemas de IA, este avance establece una base importante para construir sistemas de IA más eficientes. El modelo y el código estarán disponibles en https://github.com/AI9Stars/AutoTriton.
La Demostración Automática de Teoremas (ATP, por sus siglas en inglés) en lenguajes formales representa un desafío fundamental para la IA. Aunque los Modelos de Lenguaje a Gran Escala (LLMs) han impulsado avances notables, persiste una brecha significativa entre sus potentes capacidades de razonamiento informal y su débil desempeño en demostraciones formales. Estudios recientes muestran que la precisión informal supera el 80%, mientras que el éxito formal se mantiene por debajo del 8% en benchmarks como PutnamBench. Sostenemos que esta brecha persiste porque los demostradores actuales de última generación, al acoplar estrechamente el razonamiento y la demostración, se entrenan con paradigmas que, sin querer, penalizan el razonamiento profundo en favor de estrategias superficiales basadas en tácticas. Para cerrar esta brecha fundamental, proponemos un marco novedoso que desacopla el razonamiento de alto nivel de la generación de pruebas de bajo nivel. Nuestro enfoque utiliza dos modelos especializados y distintos: un Razonador potente y de propósito general para generar lemas de subobjetivos diversos y estratégicos, y un Demostrador eficiente para verificarlos rigurosamente. Este diseño modular libera todo el potencial de razonamiento del modelo y evita los inconvenientes del entrenamiento de extremo a extremo. Evaluamos nuestro método en un conjunto desafiante de problemas de la Olimpiada Internacional de Matemáticas (IMO) posteriores al año 2000, un conjunto de problemas en el que ningún demostrador de código abierto previo ha reportado éxito. Nuestro marco desacoplado resuelve con éxito 5 de estos problemas, demostrando un avance significativo hacia el razonamiento automatizado en desafíos matemáticos excepcionalmente difíciles. Para fomentar investigaciones futuras, publicamos nuestro conjunto completo de datos de lemas generados y verificados para una amplia gama de problemas de la IMO, disponible en https://tencent-imo.github.io/.
El rápido progreso de los modelos de lenguaje multimodal de gran escala (MLLM) ha allanado el camino para los paradigmas de Visión-Lenguaje-Acción (VLA), que integran la percepción visual, la comprensión del lenguaje natural y el control dentro de una única política. Los investigadores en conducción autónoma están adaptando activamente estos métodos al dominio vehicular. Dichos modelos prometen vehículos autónomos capaces de interpretar instrucciones de alto nivel, razonar sobre escenarios de tráfico complejos y tomar sus propias decisiones. Sin embargo, la literatura sigue siendo fragmentada y se está expandiendo rápidamente. Este estudio ofrece la primera visión general exhaustiva de VLA para Conducción Autónoma (VLA4AD). Nosotros (i) formalizamos los bloques arquitectónicos compartidos en trabajos recientes, (ii) trazamos la evolución desde los primeros modelos explicativos hasta los modelos VLA centrados en el razonamiento, y (iii) comparamos más de 20 modelos representativos según el progreso de VLA en el dominio de la conducción autónoma. También consolidamos los conjuntos de datos y benchmarks existentes, destacando protocolos que miden conjuntamente la seguridad en la conducción, la precisión y la calidad de las explicaciones. Finalmente, detallamos los desafíos abiertos —robustez, eficiencia en tiempo real y verificación formal— y esbozamos las direcciones futuras de VLA4AD. Este estudio proporciona una referencia concisa pero completa para avanzar hacia vehículos autónomos interpretables y socialmente alineados. El repositorio de Github está disponible en https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}.
La elucidación de estructuras moleculares a partir de espectros es un problema fundamental en química, con implicaciones profundas para la identificación de compuestos, síntesis y desarrollo de fármacos. Los métodos tradicionales dependen en gran medida de la interpretación experta y carecen de escalabilidad. Los métodos pioneros de aprendizaje automático han introducido estrategias basadas en recuperación, pero su dependencia de bibliotecas finitas limita la generalización a moléculas novedosas. Los modelos generativos ofrecen una alternativa prometedora, aunque la mayoría adopta arquitecturas autoregresivas basadas en SMILES que pasan por alto la geometría 3D y tienen dificultades para integrar modalidades espectrales diversas. En este trabajo, presentamos DiffSpectra, un marco generativo que infiere directamente estructuras moleculares tanto 2D como 3D a partir de datos espectrales multimodales utilizando modelos de difusión. DiffSpectra formula la elucidación de estructuras como un proceso de generación condicional. Su red de eliminación de ruido está parametrizada por Diffusion Molecule Transformer, una arquitectura SE(3)-equivariante que integra información topológica y geométrica. La condición es proporcionada por SpecFormer, un codificador espectral basado en transformadores que captura dependencias intra e inter-espectrales de espectros multimodales. Experimentos extensos demuestran que DiffSpectra logra una alta precisión en la elucidación de estructuras, recuperando estructuras exactas con un 16.01% de precisión top-1 y un 96.86% de precisión top-20 mediante muestreo. El modelo se beneficia significativamente del modelado geométrico 3D, el pre-entrenamiento de SpecFormer y el condicionamiento multimodal. Estos resultados resaltan la efectividad del modelado de difusión condicionado por espectros para abordar el desafío de la elucidación de estructuras moleculares. Hasta donde sabemos, DiffSpectra es el primer marco que unifica el razonamiento espectral multimodal y el modelado generativo conjunto 2D/3D para la elucidación de novo de estructuras moleculares.
Los avances recientes en el modelado del lenguaje han demostrado la eficacia de los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) para el modelado eficiente de secuencias. Si bien arquitecturas híbridas como Samba y la arquitectura decodificador-decodificador, YOCO, han mostrado mejoras prometedoras en el rendimiento en comparación con los Transformers, trabajos previos no han investigado el potencial de eficiencia del intercambio de representaciones entre capas de SSM. En este artículo, presentamos la Unidad de Memoria con Compuerta (GMU, por sus siglas en inglés), un mecanismo simple pero efectivo para el intercambio eficiente de memoria entre capas. Lo aplicamos para crear SambaY, una arquitectura híbrida decodificador-decodificador que incorpora GMUs en el decodificador cruzado para compartir estados de lectura de memoria desde un autodecodificador basado en Samba. SambaY mejora significativamente la eficiencia de decodificación, preserva la complejidad temporal lineal de prellenado y aumenta el rendimiento en contextos largos, todo ello sin necesidad de codificación posicional explícita. A través de extensos experimentos de escalabilidad, demostramos que nuestro modelo exhibe una pérdida irreducible significativamente menor en comparación con una línea de base sólida de YOCO, lo que indica una escalabilidad de rendimiento superior en regímenes de computación a gran escala. Nuestro modelo más grande, mejorado con Atención Diferencial, Phi4-mini-Flash-Reasoning, logra un rendimiento significativamente mejor que Phi4-mini-Reasoning en tareas de razonamiento como Math500, AIME24/25 y GPQA Diamond sin ningún aprendizaje por refuerzo, mientras ofrece un rendimiento de decodificación hasta 10 veces mayor en indicaciones de longitud 2K con una longitud de generación de 32K bajo el marco de inferencia vLLM. Publicamos nuestra base de código de entrenamiento en datos de código abierto en https://github.com/microsoft/ArchScale.
Presentamos FlexOlmo, una nueva clase de modelos de lenguaje (LM) que permite (1) entrenamiento distribuido sin compartir datos, donde diferentes parámetros del modelo se entrenan de forma independiente en conjuntos de datos cerrados, y (2) inferencia flexible con respecto a los datos, donde estos parámetros junto con sus datos asociados pueden incluirse o excluirse de manera flexible en las inferencias del modelo sin necesidad de entrenamiento adicional. FlexOlmo utiliza una arquitectura de mezcla de expertos (MoE) en la que cada experto se entrena de forma independiente en conjuntos de datos cerrados y luego se integra mediante un nuevo enrutamiento informado por el dominio, sin ningún entrenamiento conjunto. FlexOlmo se entrena en FlexMix, un corpus que hemos creado compuesto por conjuntos de datos disponibles públicamente junto con siete conjuntos específicos de dominio, que representan aproximaciones realistas de conjuntos cerrados. Evaluamos modelos con hasta 37 mil millones de parámetros (20 mil millones activos) en 31 tareas diversas. Demostramos que un experto general entrenado con datos públicos puede combinarse eficazmente con expertos entrenados de forma independiente por otros propietarios de datos, lo que resulta en una mejora relativa promedio del 41%, al mismo tiempo que permite a los usuarios optar por excluir ciertos datos según los requisitos de licencias o permisos. Nuestro enfoque también supera los métodos anteriores de fusión de modelos en un 10.1% en promedio y supera al MoE estándar entrenado sin restricciones de datos utilizando el mismo número de FLOPs de entrenamiento. En conjunto, esta investigación presenta una solución tanto para los propietarios de datos como para los investigadores en industrias reguladas con datos sensibles o protegidos. FlexOlmo permite beneficiarse de datos cerrados mientras se respetan las preferencias de los propietarios de datos al mantener sus datos locales y apoyar un control detallado del acceso a los datos durante la inferencia.
A pesar de los avances en el razonamiento de video basado en aprendizaje por refuerzo (RL) con modelos de lenguaje grandes (LLMs), la recopilación de datos y el ajuste fino siguen siendo desafíos significativos. Estos métodos a menudo dependen de un ajuste fino supervisado (SFT) a gran escala con datos extensos de video y anotaciones largas de Cadena de Pensamiento (CoT), lo que los hace costosos y difíciles de escalar. Para abordar esto, presentamos Video-RTS, un nuevo enfoque para mejorar la capacidad de razonamiento de video con una eficiencia de datos drásticamente mejorada al combinar RL eficiente en datos con una estrategia de escalado en tiempo de prueba (TTS) adaptativa al video. Basándonos en observaciones sobre el escalado de datos de muestras de RL, omitimos el paso intensivo en recursos de SFT y empleamos un entrenamiento de RL puro eficiente con recompensas basadas en la salida, sin necesidad de anotaciones adicionales o ajuste fino extenso. Además, para utilizar los recursos computacionales de manera más eficiente, introducimos una estrategia de TTS de video de disperso a denso que mejora la inferencia al agregar iterativamente fotogramas basados en la consistencia de la salida. Validamos nuestro enfoque en múltiples benchmarks de razonamiento de video, mostrando que Video-RTS supera a los modelos existentes de razonamiento de video en un promedio de 2.4% en precisión utilizando solo el 3.6% de las muestras de entrenamiento. Por ejemplo, Video-RTS logra una mejora del 4.2% en Video-Holmes, un benchmark reciente y desafiante de razonamiento de video, y una mejora del 2.6% en MMVU. Notablemente, nuestro entrenamiento de RL puro y el TTS de video adaptativo ofrecen fortalezas complementarias, permitiendo el fuerte rendimiento de razonamiento de Video-RTS.
El razonamiento en contextos largos requiere identificar con precisión la información relevante en entradas extensas y ruidosas. Investigaciones previas demuestran que el uso del aprendizaje en tiempo de prueba para codificar el contexto directamente en los parámetros del modelo puede permitir efectivamente el razonamiento sobre información ruidosa. Sin embargo, los métodos de meta-aprendizaje para habilitar el aprendizaje en tiempo de prueba son excesivamente intensivos en memoria, lo que impide su aplicación en entornos de contextos largos. En este trabajo, proponemos PERK (Parameter Efficient Reasoning over Knowledge), un enfoque escalable para aprender a codificar contextos largos utilizando actualizaciones de gradiente en un adaptador ligero del modelo durante el tiempo de prueba. Específicamente, PERK emplea dos bucles de optimización anidados en una fase de meta-entrenamiento. El bucle interno codifica rápidamente los contextos en un adaptador de bajo rango (LoRA) que sirve como un módulo de memoria eficiente en parámetros para el modelo base. Simultáneamente, el bucle externo aprende a utilizar el adaptador actualizado para recordar y razonar con precisión sobre la información relevante del contexto largo codificado. Nuestras evaluaciones en varias tareas de razonamiento en contextos largos muestran que PERK supera significativamente la línea base estándar basada en prompts para contextos largos, logrando mejoras absolutas promedio de hasta el 90% para modelos más pequeños (GPT-2) y hasta el 27% para nuestro modelo más grande evaluado, Qwen-2.5-0.5B. En general, PERK es más robusto frente a la complejidad del razonamiento, la extrapolación de longitud y la ubicación de la información relevante en los contextos. Finalmente, demostramos que, aunque PERK es intensivo en memoria durante el entrenamiento, escala de manera más eficiente en el tiempo de inferencia que la inferencia basada en prompts para contextos largos.
La detección automática de lenguaje tóxico es fundamental para crear espacios en línea seguros e inclusivos. Sin embargo, se trata de una tarea altamente subjetiva, donde las percepciones del lenguaje tóxico están moldeadas por las normas comunitarias y las experiencias personales. Los modelos existentes de detección de toxicidad suelen entrenarse con anotaciones que condensan diversas perspectivas de los anotadores en una única verdad absoluta, eliminando nociones importantes de toxicidad específicas del contexto, como el lenguaje reclamado. Para abordar esto, presentamos MODELCITIZENS, un conjunto de datos que incluye 6.8K publicaciones en redes sociales y 40K anotaciones de toxicidad en diversos grupos de identidad. Para capturar el papel del contexto conversacional en la toxicidad, típico de las publicaciones en redes sociales, enriquecemos las publicaciones de MODELCITIZENS con escenarios conversacionales generados por modelos de lenguaje grandes (LLM). Las herramientas de detección de toxicidad más avanzadas (por ejemplo, OpenAI Moderation API, GPT-o4-mini) tienen un rendimiento inferior en MODELCITIZENS, con una degradación adicional en las publicaciones enriquecidas con contexto. Finalmente, lanzamos LLAMACITIZEN-8B y GEMMACITIZEN-12B, modelos basados en LLaMA y Gemma ajustados en MODELCITIZENS, que superan a GPT-o4-mini en un 5.5% en evaluaciones dentro de la distribución. Nuestros hallazgos destacan la importancia de la anotación y el modelado informados por la comunidad para una moderación de contenido inclusiva. Los datos, modelos y código están disponibles en https://github.com/asuvarna31/modelcitizens.
Nova Premier es el modelo base multimodal más avanzado de Amazon y un maestro para la destilación de modelos. Procesa texto, imágenes y vídeo con una ventana de contexto de un millón de tokens, lo que permite analizar grandes bases de código, documentos de 400 páginas y vídeos de 90 minutos en una sola instrucción. Presentamos la primera evaluación integral del perfil de riesgo crítico de Nova Premier bajo el Marco de Seguridad de Modelos de Frontera. Las evaluaciones se centran en tres dominios de alto riesgo: Químico, Biológico, Radiológico y Nuclear (QBRN), Operaciones Cibernéticas Ofensivas e I+D Automatizada de IA, y combinan benchmarks automatizados, ejercicios de red-teaming con expertos y estudios de mejora para determinar si el modelo supera los umbrales de lanzamiento. Resumimos nuestra metodología y reportamos los hallazgos principales. Con base en esta evaluación, concluimos que Nova Premier es seguro para su lanzamiento público, de acuerdo con los compromisos asumidos en la Cumbre de Seguridad de IA de París 2025. Continuaremos mejorando nuestros procesos de evaluación de seguridad y mitigación a medida que se identifiquen nuevos riesgos y capacidades asociados con los modelos de frontera.
La investigación sobre cirugía autónoma se ha centrado principalmente en la automatización de tareas simples en entornos controlados. Sin embargo, las aplicaciones quirúrgicas en el mundo real requieren manipulación diestra durante períodos prolongados y generalización ante la variabilidad inherente de los tejidos humanos. Estos desafíos siguen siendo difíciles de abordar utilizando enfoques basados en lógica convencional o aprendizaje de extremo a extremo. Para abordar esta brecha, proponemos un marco jerárquico para realizar pasos quirúrgicos diestros y de largo alcance. Nuestro enfoque utiliza una política de alto nivel para la planificación de tareas y una política de bajo nivel para generar trayectorias del robot. El planificador de alto nivel opera en el espacio del lenguaje, generando instrucciones a nivel de tarea o correctivas que guían al robot a través de los pasos de largo alcance y corrigen los errores de la política de bajo nivel. Validamos nuestro marco mediante experimentos ex vivo en colecistectomía, un procedimiento mínimamente invasivo comúnmente practicado, y realizamos estudios de ablación para evaluar componentes clave del sistema. Nuestro método logra una tasa de éxito del 100% en ocho vesículas biliares ex vivo no vistas, operando de manera completamente autónoma sin intervención humana. Este trabajo demuestra autonomía a nivel de pasos en un procedimiento quirúrgico, marcando un hito hacia el despliegue clínico de sistemas quirúrgicos autónomos.
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han permitido capacidades de respuesta a preguntas basadas en imágenes. Sin embargo, una limitación clave es el uso de CLIP como codificador visual; aunque puede capturar información global general, a menudo puede omitir detalles específicos que son relevantes para la consulta de entrada. Para abordar estas deficiencias, este trabajo estudia si los modelos de difusión preentrenados de texto a imagen pueden servir como codificadores visuales conscientes de instrucciones. A través de un análisis de sus representaciones internas, encontramos que las características de difusión son ricas en semántica y pueden codificar una fuerte alineación entre imagen y texto. Además, descubrimos que podemos aprovechar el condicionamiento de texto para enfocar el modelo en regiones relevantes a la pregunta de entrada. Luego, investigamos cómo alinear estas características con modelos de lenguaje de gran escala y descubrimos un fenómeno de filtración, donde el LLM puede recuperar inadvertidamente información del prompt original de difusión. Analizamos las causas de esta filtración y proponemos una estrategia de mitigación. Basándonos en estas ideas, exploramos una estrategia de fusión simple que utiliza tanto características de CLIP como de difusión condicional. Evaluamos nuestro enfoque en benchmarks generales de VQA y especializados de MLLM, demostrando el potencial de los modelos de difusión para la comprensión visual, particularmente en tareas centradas en la visión que requieren razonamiento espacial y composicional. Nuestra página del proyecto se puede encontrar en https://vatsalag99.github.io/mustafar/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y sus clasificadores de seguridad suelen tener un rendimiento deficiente en lenguajes de bajos recursos debido a la limitada cantidad de datos de entrenamiento y benchmarks de evaluación. Este artículo presenta RabakBench, un nuevo benchmark de seguridad multilingüe localizado en el contexto lingüístico único de Singapur, que abarca el singlish, chino, malayo y tamil. RabakBench se construye mediante una pipeline escalable de tres etapas: (i) Generación - creación de ejemplos adversarios mediante la ampliación de contenido web real en singlish con técnicas de red teaming impulsadas por LLMs; (ii) Etiquetado - anotación semiautomatizada de seguridad con múltiples etiquetas utilizando clasificadores basados en LLMs con votación mayoritaria alineados con juicios humanos; y (iii) Traducción - traducción de alta fidelidad que preserva los matices lingüísticos y la toxicidad entre idiomas. El conjunto de datos final incluye más de 5,000 ejemplos etiquetados en seguridad en cuatro idiomas y seis categorías de seguridad detalladas con niveles de gravedad. Las evaluaciones de 11 clasificadores de seguridad populares, tanto de código abierto como cerrado, revelan una degradación significativa en el rendimiento. RabakBench no solo permite una evaluación robusta de la seguridad en entornos multilingües del sudeste asiático, sino que también ofrece un marco reproducible para la creación de conjuntos de datos de seguridad localizados en entornos de bajos recursos. El benchmark, incluidas las traducciones verificadas por humanos, y el código de evaluación están disponibles públicamente.
La proliferación de memes multimodales en la era de las redes sociales exige que los Modelos de Lenguaje Multimodales de Gran Escala (mLLMs, por sus siglas en inglés) comprendan efectivamente la nocividad de los memes. Los puntos de referencia existentes para evaluar a los mLLMs en la comprensión de memes nocivos se basan en evaluaciones estáticas, independientes del modelo y centradas en la precisión, utilizando conjuntos de datos estáticos. Estos puntos de referencia son limitados en su capacidad para proporcionar evaluaciones actualizadas y exhaustivas, ya que los memes en línea evolucionan de manera dinámica. Para abordar esto, proponemos AdamMeme, un marco de evaluación flexible basado en agentes que sondea de manera adaptativa las capacidades de razonamiento de los mLLMs para descifrar la nocividad de los memes. A través de la colaboración multiagente, AdamMeme proporciona evaluaciones integrales al actualizar iterativamente los datos de memes con muestras desafiantes, exponiendo así limitaciones específicas en cómo los mLLMs interpretan la nocividad. Experimentos extensos demuestran que nuestro marco revela sistemáticamente el rendimiento variable de diferentes mLLMs objetivo, ofreciendo análisis detallados y granulares de las debilidades específicas de cada modelo. Nuestro código está disponible en https://github.com/Lbotirx/AdamMeme.