Artículos de investigación en IA seleccionados diariamente con traducciones
El surgimiento del aprendizaje por refuerzo agentivo (Agentic RL) marca un cambio de paradigma respecto al aprendizaje por refuerzo convencional aplicado a modelos de lenguaje grandes (LLM RL), redefiniendo a los LLMs como agentes autónomos y tomadores de decisiones integrados en mundos complejos y dinámicos, en lugar de generadores pasivos de secuencias. Este estudio formaliza este cambio conceptual contrastando los procesos de decisión de Markov (MDPs) degenerados de un solo paso en LLM-RL con los procesos de decisión de Markov parcialmente observables (POMDPs) temporalmente extendidos que definen el Agentic RL. Sobre esta base, proponemos una taxonomía integral de dos partes: una organizada en torno a capacidades agentivas clave, como planificación, uso de herramientas, memoria, razonamiento, automejora y percepción, y otra centrada en sus aplicaciones en diversos dominios de tareas. Central a nuestra tesis es que el aprendizaje por refuerzo sirve como el mecanismo crítico para transformar estas capacidades de módulos estáticos y heurísticos en comportamientos agentivos adaptativos y robustos. Para apoyar y acelerar la investigación futura, consolidamos el panorama de entornos de código abierto, puntos de referencia y marcos de trabajo en un compendio práctico. Al sintetizar más de quinientos trabajos recientes, este estudio traza los contornos de este campo en rápida evolución y destaca las oportunidades y desafíos que moldearán el desarrollo de agentes de IA escalables y de propósito general.
El desarrollo de agentes autónomos para interfaces gráficas de usuario (GUI) presenta desafíos significativos en inteligencia artificial. Si bien los avances recientes en modelos de agentes nativos han mostrado promesa al unificar percepción, razonamiento, acción y memoria mediante aprendizaje de extremo a extremo, persisten problemas abiertos en la escalabilidad de datos, el aprendizaje por refuerzo (RL) de múltiples turnos, las limitaciones de operación exclusiva en GUI y la estabilidad del entorno. En este informe técnico, presentamos UI-TARS-2, un modelo de agente nativo centrado en GUI que aborda estos desafíos mediante una metodología de entrenamiento sistemática: un volante de datos para la generación escalable de datos, un marco de RL de múltiples turnos estabilizado, un entorno híbrido de GUI que integra sistemas de archivos y terminales, y una plataforma unificada de sandbox para despliegues a gran escala. La evaluación empírica demuestra que UI-TARS-2 logra mejoras significativas sobre su predecesor UI-TARS-1.5. En benchmarks de GUI, alcanza 88.2 en Online-Mind2Web, 47.5 en OSWorld, 50.6 en WindowsAgentArena y 73.3 en AndroidWorld, superando a líneas base sólidas como Claude y los agentes de OpenAI. En entornos de juegos, obtiene una puntuación normalizada media de 59.8 en una suite de 15 juegos, aproximadamente el 60% del rendimiento humano, y se mantiene competitivo con modelos propietarios de vanguardia (por ejemplo, OpenAI o3) en LMGame-Bench. Además, el modelo puede generalizarse a tareas de búsqueda de información de largo horizonte y benchmarks de ingeniería de software, destacando su robustez en diversas tareas de agentes. Los análisis detallados de la dinámica de entrenamiento proporcionan además insights sobre cómo lograr estabilidad y eficiencia en RL de agentes a gran escala. Estos resultados subrayan el potencial de UI-TARS-2 para avanzar el estado de los agentes de GUI y exhibir una fuerte generalización a escenarios interactivos del mundo real.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden mejorar significativamente sus capacidades de razonamiento al interactuar con herramientas externas, un paradigma conocido como Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés). Sin embargo, extender el TIR a escenarios de múltiples turnos utilizando Aprendizaje por Refuerzo (RL, por sus siglas en inglés) a menudo se ve obstaculizado por la inestabilidad en el entrenamiento y el colapso del rendimiento. Identificamos que dicha inestabilidad es causada principalmente por un desvío distribucional debido a la retroalimentación de las herramientas externas, lo que lleva a la generación de tokens de baja probabilidad. Este problema se agrava en turnos sucesivos, causando explosiones catastróficas en la norma del gradiente que desvían el proceso de entrenamiento. Para abordar este desafío, presentamos SimpleTIR, un algoritmo plug-and-play que estabiliza el entrenamiento de TIR en múltiples turnos. Su estrategia central es identificar y filtrar trayectorias que contienen turnos vacíos, es decir, turnos que no producen ni un bloque de código ni una respuesta final. Al eliminar estas trayectorias problemáticas de la actualización de la política, SimpleTIR bloquea efectivamente los gradientes dañinos de alta magnitud, estabilizando así la dinámica de aprendizaje. Experimentos extensos muestran que SimpleTIR alcanza un rendimiento de vanguardia en desafiantes benchmarks de razonamiento matemático, elevando notablemente la puntuación AIME24 desde una línea base de solo texto de 22.1 a 50.5 cuando se parte del modelo base Qwen2.5-7B. Además, al evitar las limitaciones del ajuste fino supervisado, SimpleTIR fomenta que el modelo descubra patrones de razonamiento diversos y sofisticados, como la autocorrección y la validación cruzada.
En el modelado visión-lenguaje, los modelos críticos suelen entrenarse para evaluar salidas —asignando puntuaciones escalares o preferencias por pares— en lugar de generar respuestas. Esta separación de los modelos de política, que producen las respuestas, está tan arraigada que rara vez se considera a los críticos para su uso directo en políticas. En este trabajo, desafiamos esta convención. Proponemos reorganizar conjuntos de datos críticos etiquetados con preferencias en señales de entrenamiento verificables y realizar aprendizaje por refuerzo directamente sobre un modelo generativo base, produciendo LLaVA-Critic-R1, un crítico multimodal entrenado para optimizar juicios de preferencia mientras conserva su capacidad de generación completa. Sorprendentemente, LLaVA-Critic-R1 no solo emerge como un crítico de alto rendimiento, sino también como un modelo de política competitivo —igualando o superando a modelos de razonamiento visión-lenguaje (VLM) especializados entrenados con datos de dominio específico en 26 benchmarks de razonamiento y comprensión visual, con una ganancia promedio de +5.7% sobre su modelo base (Qwen-2.5-VL-7B). Extendiendo este enfoque a VLMs de razonamiento fuertes existentes, obtenemos LLaVA-Critic-R1+, que avanza aún más el rendimiento de política sin sacrificar la calidad del crítico, logrando un rendimiento SoTA de 71.9 en MMMU a escala 7B. Finalmente, mostramos que la capacidad mejorada del crítico beneficia la inferencia: aplicar autocrítica durante el tiempo de prueba produce una mejora promedio de +13.8% en cinco tareas representativas de razonamiento sin entrenamiento adicional. Nuestros resultados revelan que el entrenamiento por refuerzo en datos críticos puede producir un modelo unificado que sobresale tanto en evaluación como en generación, ofreciendo un camino simple hacia sistemas multimodales escalables y auto-mejorables.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado éxito en la mejora de las capacidades de razonamiento de los LLM, pero sigue limitado a interacciones de un solo turno sin integración de herramientas. Si bien han surgido enfoques recientes de Aprendizaje por Refuerzo Agéntico con Uso de Herramientas (ARLT) para abordar interacciones multi-turno con herramientas, los trabajos existentes desarrollan bases de código específicas para tareas que sufren de fragmentación, cuellos de botella en la ejecución sincrónica y una extensibilidad limitada entre dominios. Estas ineficiencias dificultan la adopción más amplia por parte de la comunidad y la innovación algorítmica. Presentamos VerlTool, un marco unificado y modular que aborda estas limitaciones a través de principios de diseño sistemáticos. VerlTool ofrece cuatro contribuciones clave: (1) alineación ascendente con VeRL, asegurando compatibilidad y mantenimiento simplificado, (2) gestión unificada de herramientas mediante APIs estandarizadas que admiten diversas modalidades, incluyendo ejecución de código, búsqueda, bases de datos SQL y procesamiento visual, (3) ejecución asincrónica de despliegue que logra una aceleración de casi 2 veces al eliminar los cuellos de botella de sincronización, y (4) evaluación integral que demuestra un rendimiento competitivo en 6 dominios de ARLT. Nuestro marco formaliza ARLT como trayectorias multi-turno con tokens de observación multi-modal (texto/imagen/video), extendiéndose más allá de los paradigmas de RLVR de un solo turno. Entrenamos y evaluamos modelos en tareas de razonamiento matemático, preguntas y respuestas de conocimiento, generación de SQL, razonamiento visual, búsqueda web e ingeniería de software, logrando resultados comparables a sistemas especializados mientras proporcionamos una infraestructura de entrenamiento unificada. La arquitectura modular de plugins permite una rápida integración de herramientas que solo requiere definiciones ligeras en Python, reduciendo significativamente la sobrecarga de desarrollo y proporcionando una base escalable para la investigación de RL aumentado con herramientas. Nuestro código es de código abierto en https://github.com/TIGER-AI-Lab/verl-tool.
Los modelos de lenguaje multimodal de video (Video-MLLMs) han logrado avances notables en la comprensión de videos. Sin embargo, siguen siendo vulnerables a la generación de contenido alucinatorio que es inconsistente o no relacionado con las entradas de video. Los benchmarks anteriores sobre alucinaciones en video se centran principalmente en videos cortos. Atribuyen las alucinaciones a factores como fuertes prioridades del lenguaje, fotogramas faltantes o sesgos visión-lenguaje introducidos por el codificador visual. Si bien estas causas explican la mayoría de las alucinaciones en videos cortos, aún simplifican en exceso el origen de las alucinaciones. En ocasiones, los modelos generan salidas incorrectas pero con semántica correcta a nivel de fotograma. Nos referimos a este tipo de alucinación como Alucinación por Agregación Semántica (SAH, por sus siglas en inglés), que surge durante el proceso de agregar semántica a nivel de fotograma en grupos semánticos a nivel de evento. Dado que la SAH se vuelve particularmente crítica en videos largos debido a la mayor complejidad semántica en múltiples eventos, es esencial separar e investigar exhaustivamente las causas de este tipo de alucinación. Para abordar estos problemas, presentamos ELV-Halluc, el primer benchmark dedicado a la alucinación en videos largos, que permite una investigación sistemática de la SAH. Nuestros experimentos confirman la existencia de la SAH y muestran que aumenta con la complejidad semántica. Además, encontramos que los modelos son más propensos a la SAH en semánticas que cambian rápidamente. Asimismo, discutimos enfoques potenciales para mitigar la SAH. Demostramos que la estrategia de codificación posicional contribuye a aliviar la SAH y adoptamos además la estrategia DPO para mejorar la capacidad del modelo para distinguir semánticas dentro y entre eventos. Para respaldar esto, hemos creado un conjunto de datos de 8K pares de datos adversarios y logramos mejoras tanto en ELV-Halluc como en Video-MME, incluyendo una reducción sustancial del 27.7% en la tasa de SAH.
Los datos etiquetados de alta calidad son esenciales para entrenar modelos precisos de conversión de documentos, especialmente en dominios con formatos complejos como tablas, fórmulas y texto multicolumna. Sin embargo, la anotación manual es costosa y consume mucho tiempo, mientras que el etiquetado automático utilizando modelos existentes a menudo carece de precisión al manejar estos escenarios desafiantes. En consecuencia, entrenar modelos estudiantiles mediante la destilación de salidas de modelos maestros puede limitar significativamente su rendimiento en aplicaciones del mundo real. En este artículo, proponemos un marco completamente automatizado y libre de destilación que consta de dos etapas para construir conjuntos de datos y modelos de extracción de documentos de alta calidad capaces de manejar diversos formatos y diseños de documentos. En la primera etapa, introducimos un método para generar datos sintéticos diversos a gran escala, lo que permite que un modelo extraiga elementos clave en un formato unificado con un fuerte rendimiento inicial. En la segunda etapa, presentamos un enfoque de auto-mejora que adapta aún más el modelo, inicialmente entrenado con datos sintéticos, a documentos del mundo real. Específicamente, primero utilizamos el modelo ajustado para anotar documentos reales, luego aplicamos un conjunto de estrategias de filtrado para verificar la calidad de las anotaciones y finalmente reentrenamos el modelo con el conjunto de datos verificado. Al repetir este proceso de manera iterativa, mejoramos progresivamente tanto las capacidades de conversión del modelo como la calidad de los datos generados. Entrenamos un modelo público POINTS-1.5 para obtener POINTS-Reader, que supera a muchos modelos públicos y propietarios existentes de tamaño comparable o mayor. Nuestro modelo está disponible en https://github.com/Tencent/POINTS-Reader.
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) avanzan en capacidades conversacionales y de razonamiento, su aplicación práctica en el ámbito de la salud se ha convertido en un enfoque crítico de investigación. Sin embargo, existe una brecha notable entre el rendimiento de los LLMs médicos en evaluaciones estáticas como el USMLE y su utilidad en la toma de decisiones clínicas en el mundo real. Esta discrepancia surge porque los exámenes tradicionales no logran capturar la naturaleza dinámica e interactiva de las consultas médicas. Para abordar este desafío, introducimos un novedoso marco de verificación dinámica que va más allá de los verificadores de respuestas estáticos, estableciendo un sistema de aprendizaje por refuerzo interactivo a gran escala y de alta fidelidad. Nuestro marco consta de dos componentes clave: un Simulador de Pacientes que crea entornos clínicos realistas utilizando registros médicos desidentificados, y un Generador de Rúbricas Clínicas que produce dinámicamente métricas de evaluación multidimensionales. Sobre esta base, desarrollamos Baichuan-M2, un modelo de razonamiento aumentado médico con 32 mil millones de parámetros, entrenado mediante una estrategia de aprendizaje por refuerzo en múltiples etapas con un algoritmo mejorado de Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés). Evaluado en HealthBench, Baichuan-M2 supera a todos los demás modelos de código abierto y a la mayoría de los modelos avanzados de código cerrado, alcanzando una puntuación superior a 32 en el desafiante benchmark HealthBench Hard, previamente superado solo por GPT-5. Nuestro trabajo demuestra que un sistema robusto de verificación dinámica es esencial para alinear las capacidades de los LLMs con aplicaciones clínicas prácticas, estableciendo un nuevo frente de Pareto en la relación entre rendimiento y parámetros para el despliegue de la IA médica.
La arquitectura Transformer, sustentada por el mecanismo de autoatención, se ha convertido en el estándar de facto para tareas de modelado de secuencias. Sin embargo, su primitiva computacional central escala cuadráticamente con la longitud de la secuencia (O(N^2)), lo que crea un cuello de botella significativo para procesar contextos largos. En este artículo, proponemos la red de Memoria Asociativa con Compuertas (GAM, por sus siglas en inglés), una arquitectura novedosa y completamente paralela para el modelado de secuencias que exhibe una complejidad lineal (O(N)) con respecto a la longitud de la secuencia. El bloque GAM reemplaza la capa de autoatención con dos rutas paralelas: una convolución causal para capturar eficientemente el contexto local dependiente de la posición, y un mecanismo de recuperación de memoria asociativa paralela para modelar patrones globales basados en contenido. Estas rutas se fusionan dinámicamente mediante un mecanismo de compuertas, permitiendo que el modelo combine de manera flexible información local y global para cada token. Implementamos GAM desde cero y realizamos un análisis comparativo riguroso contra un modelo Transformer estándar y una línea de base moderna de tiempo lineal (Mamba) en el benchmark WikiText-2, así como contra el Transformer en el conjunto de datos TinyStories. Nuestros experimentos demuestran que GAM es consistentemente más rápido, superando a ambas líneas de base en velocidad de entrenamiento, y logra una perplejidad de validación final superior o competitiva en todos los conjuntos de datos, estableciéndola como una alternativa prometedora y eficiente para el modelado de secuencias.
En los últimos años, el desarrollo de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha avanzado significativamente, extendiendo sus capacidades a tareas multimodales a través de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs). Sin embargo, la comprensión de videos sigue siendo un área desafiante debido a la naturaleza dinámica y densa en información de los videos. Los modelos existentes enfrentan dificultades para equilibrar la resolución espacial y la cobertura temporal al procesar contenido de video. Presentamos Keye-VL-1.5, que aborda desafíos fundamentales en la comprensión de videos mediante tres innovaciones clave. Primero, introducimos una novedosa estrategia de codificación de video Lento-Rápido que asigna dinámicamente recursos computacionales basados en la similitud entre fotogramas, procesando fotogramas clave con cambios visuales significativos a mayor resolución (vía Lenta) mientras maneja fotogramas relativamente estáticos con mayor cobertura temporal a menor resolución (vía Rápida). Segundo, implementamos una metodología de preentrenamiento progresivo en cuatro etapas que extiende sistemáticamente la longitud de contexto del modelo de 8K a 128K tokens, permitiendo el procesamiento de videos más largos y contenido visual más complejo. Tercero, desarrollamos una canalización integral de postentrenamiento centrada en la mejora del razonamiento y la alineación con preferencias humanas, incorporando un proceso de construcción de datos de cadena de pensamiento en 5 pasos, aprendizaje por refuerzo iterativo basado en GSPO con indicaciones progresivas para casos difíciles y entrenamiento de alineación. A través de una evaluación exhaustiva en benchmarks públicos y una rigurosa evaluación humana interna, Keye-VL-1.5 demuestra mejoras significativas sobre los modelos existentes, destacándose especialmente en tareas de comprensión de videos mientras mantiene un rendimiento competitivo en benchmarks multimodales generales.
Los grandes modelos de lenguaje a menudo requieren optimizaciones costosas, como el aprendizaje por refuerzo, para dominar tareas de razonamiento complejas. Este trabajo demuestra que la capacidad de razonamiento, una vez aprendida, puede extraerse y transferirse entre modelos como un vector de tarea compacto. Utilizamos dos modelos Qwen2.5 disponibles públicamente e inicializados de manera idéntica, uno ajustado mediante fine-tuning supervisado (SFT) y el otro con optimización de políticas relativas por grupos (GRPO) sobre el mismo conjunto de datos. A partir de estos, extraemos un vector de razonamiento: v_{razonamiento} = theta_{GRPO} - theta_{SFT}. Hipótesis que este vector captura la capacidad de razonamiento inculcada por el aprendizaje por refuerzo mientras elimina el conocimiento compartido del proceso SFT. Cuando se añade a modelos compatibles ajustados por instrucciones mediante aritmética simple, este vector mejora consistentemente el rendimiento en diversos benchmarks de razonamiento: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%) y BigBenchHard (+12.3% para el modelo de 1.5B). Las mejoras de rendimiento persisten bajo condiciones adversas. Por el contrario, restar el vector causa una degradación significativa del rendimiento (-11.8% en GSM8K), demostrando la fuerte contribución del vector a las habilidades de razonamiento del modelo. Este trabajo muestra cómo las capacidades de razonamiento, típicamente desarrolladas mediante entrenamientos costosos, pueden extraerse de modelos de código abierto existentes y reutilizarse mediante aritmética tensorial simple, ofreciendo una forma práctica de mejorar los modelos reciclando inversiones computacionales previas.
Este artículo presenta una simplificación de la arquitectura y el diseño de pérdidas de OpenVision para mejorar su eficiencia en el entrenamiento. Siguiendo los trabajos previos de preentrenamiento visión-lenguaje CapPa y AIMv2, así como diseños multimodales modernos como LLaVA, nuestros cambios son directos: eliminamos el codificador de texto (y, por lo tanto, la pérdida contrastiva), manteniendo únicamente la pérdida de generación de subtítulos como señal de entrenamiento puramente generativa. Denominamos a esta nueva versión OpenVision 2. Los resultados iniciales son prometedores: a pesar de esta simplificación, OpenVision 2 iguala competitivamente el rendimiento del modelo original en un amplio conjunto de benchmarks multimodales, mientras reduce sustancialmente tanto el tiempo de entrenamiento como el consumo de memoria. Por ejemplo, con ViT-L/14, reduce el tiempo de entrenamiento en aproximadamente 1.5x (de 83h a 57h) y el uso de memoria en aproximadamente 1.8x (de 24.5GB a 13.8GB, lo que permite que el tamaño máximo del lote aumente de 2k a 8k). Esta eficiencia superior en el entrenamiento también nos permite escalar más allá del codificador visual más grande utilizado en OpenVision, alcanzando más de mil millones de parámetros. Creemos firmemente que este paradigma ligero y exclusivamente generativo es convincente para el desarrollo futuro de codificadores visuales en modelos fundacionales multimodales.
El entrenamiento posterior de modelos de lenguaje de gran escala (LM, por sus siglas en inglés) a menudo prioriza la precisión y la utilidad a expensas de la diversidad. Esto genera una tensión: aunque el entrenamiento posterior mejora la calidad de las respuestas, también afila las distribuciones de salida y reduce el rango de ideas, limitando la utilidad de los LM en tareas creativas y exploratorias como la lluvia de ideas, la narración de historias o la resolución de problemas. Abordamos este desafío con el Aprendizaje por Refuerzo Consciente de la Diversidad (DARLING, por sus siglas en inglés), un marco que optimiza conjuntamente la calidad de las respuestas y la diversidad semántica. En su núcleo, DARLING introduce una función de partición aprendida para medir la diversidad más allá de las variaciones léxicas superficiales. Esta señal de diversidad se combina luego con una recompensa de calidad durante el aprendizaje por refuerzo en línea, incentivando a los modelos a generar salidas que sean tanto de alta calidad como distintas. Los experimentos realizados en múltiples familias y tamaños de modelos muestran que DARLING se generaliza a dos regímenes: tareas no verificables (seguimiento de instrucciones y escritura creativa) y tareas verificables (matemáticas competitivas). En cinco puntos de referencia del primer escenario, DARLING supera consistentemente los baselines de aprendizaje por refuerzo centrados únicamente en la calidad, produciendo salidas que son simultáneamente de mayor calidad y novedad. En el segundo escenario, DARLING logra un mayor pass@1 (calidad de la solución) y pass@k (variedad de soluciones). Lo más notable es que la optimización explícita de la diversidad cataliza la exploración en el aprendizaje por refuerzo en línea, lo que se manifiesta en respuestas de mayor calidad.
Los recientes avances en Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) han permitido a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) abordar tareas de razonamiento complejas, como las matemáticas y la programación. RLVR aprovecha las recompensas de resultados verificables para guiar la optimización de políticas, lo que permite a los LLMs mejorar progresivamente la calidad de sus salidas de manera fundamentada y confiable. A pesar de su potencial, el paradigma RLVR presenta desafíos significativos, ya que los métodos existentes a menudo sufren de señales de recompensa dispersas y actualizaciones inestables de gradientes de políticas, particularmente en enfoques basados en RL. Para abordar estos desafíos, proponemos PACS, un marco novedoso de RLVR que logra un acoplamiento implícito entre Actor y Crítico mediante un marco de aprendizaje supervisado. Al tratar la recompensa del resultado como una etiqueta predecible, reformulamos el problema de RLVR en una tarea de aprendizaje supervisado sobre una función de puntuación parametrizada por el modelo de política y optimizada mediante la pérdida de entropía cruzada. Un análisis detallado del gradiente muestra que esta formulación supervisada recupera inherentemente la actualización clásica del gradiente de política mientras acopla implícitamente los roles de actor y crítico, lo que resulta en un entrenamiento más estable y eficiente. Al evaluar en tareas desafiantes de razonamiento matemático, PACS supera a los baselines sólidos de RLVR, como PPO y GRPO, logrando un rendimiento superior en razonamiento. Por ejemplo, PACS alcanza un 59.78% en pass@256 en AIME 2025, lo que representa mejoras de 13.32 y 14.36 puntos sobre PPO y GRPO. Este marco simple pero poderoso ofrece una vía prometedora para el post-entrenamiento de LLMs con recompensas verificables. Nuestro código y datos están disponibles como código abierto en https://github.com/ritzz-ai/PACS.
La composición de video combina secuencias de acción en vivo para crear producciones de video, sirviendo como una técnica crucial en la creación de videos y la producción cinematográfica. Los flujos de trabajo tradicionales requieren esfuerzos laborales intensivos y colaboración de expertos, lo que resulta en ciclos de producción prolongados y altos costos de mano de obra. Para abordar este problema, automatizamos este proceso con modelos generativos, denominados composición de video generativa. Esta nueva tarea busca inyectar de manera adaptativa la información de identidad y movimiento de un video de primer plano en el video objetivo de forma interactiva, permitiendo a los usuarios personalizar el tamaño, la trayectoria del movimiento y otros atributos de los elementos dinámicos añadidos en el video final. Específicamente, diseñamos una novedosa arquitectura basada en Transformadores de Difusión (DiT) aprovechando sus propiedades intrínsecas. Para mantener la consistencia del video objetivo antes y después de la edición, implementamos una rama ligera de preservación de fondo basada en DiT con inyección de tokens enmascarados. Para heredar elementos dinámicos de otras fuentes, se propone un bloque de fusión DiT utilizando autoatención completa, junto con una ampliación de primer plano simple pero efectiva para el entrenamiento. Además, para fusionar videos de fondo y primer plano con diferentes diseños basados en el control del usuario, desarrollamos una novedosa incrustación de posición, denominada Incrustación de Posición Rotatoria Extendida (ERoPE). Finalmente, compilamos un conjunto de datos que incluye 61K pares de videos para nuestra nueva tarea, llamado VideoComp. Este conjunto de datos incluye elementos dinámicos completos y videos objetivo de alta calidad. Los experimentos demuestran que nuestro método realiza efectivamente la composición de video generativa, superando a las soluciones existentes en términos de fidelidad y consistencia.
El reciente desarrollo de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha estado acompañado por una efervescencia de ideas y métodos novedosos para optimizar mejor la pérdida de los modelos de aprendizaje profundo. Las afirmaciones de estos métodos son numerosas: desde una convergencia más rápida hasta la eliminación de la dependencia de ciertos hiperparámetros. Sin embargo, los diversos protocolos experimentales utilizados para validar estas afirmaciones dificultan la comparación directa entre métodos. Este estudio presenta una evaluación exhaustiva de técnicas recientes de optimización en escenarios estandarizados de preentrenamiento de LLMs, variando sistemáticamente el tamaño del modelo, el tamaño del lote y la duración del entrenamiento. A través de un ajuste cuidadoso de cada método, ofrecemos orientación a los profesionales sobre qué optimizador es más adecuado para cada escenario. Para los investigadores, nuestro trabajo destaca direcciones prometedoras para futuras investigaciones en optimización. Finalmente, al publicar nuestro código y hacer que todos los experimentos sean completamente reproducibles, esperamos que nuestros esfuerzos puedan contribuir al desarrollo y la evaluación rigurosa de métodos futuros.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un marco prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala. Sin embargo, enfoques existentes como GRPO a menudo sufren de gradientes nulos. Este problema surge principalmente debido a los límites fijos de recorte para las proporciones de probabilidad a nivel de token y la estandarización de recompensas idénticas, lo que puede llevar a actualizaciones de gradiente ineficaces y a una subutilización de las respuestas generadas. En este trabajo, proponemos la Optimización de Política de Recorte Dinámico (DCPO, por sus siglas en inglés), que introduce una estrategia de recorte dinámico que ajusta adaptativamente los límites de recorte basándose en probabilidades previas específicas de cada token para mejorar la exploración a nivel de token, y una técnica de estandarización suave de ventajas que estandariza las recompensas a lo largo de los pasos acumulativos de entrenamiento para mejorar la utilización efectiva de las respuestas generadas a nivel de respuesta. DCPO logró un rendimiento de vanguardia en cuatro benchmarks basados en cuatro modelos diferentes. En particular, DCPO alcanzó un Avg@1 de 46.7 bajo decodificación codiciosa y un Avg@32 de 38.8 bajo muestreo de 32 veces en el benchmark AIME24, superando tanto a DAPO (36.7/31.6) como a GRPO (36.7/32.1) en el modelo Qwen2.5-Math-7B. En el benchmark AIME25 basado en Qwen2.5-14B, DCPO logró un rendimiento de (23.3/19.0), superando a GRPO (13.3/10.5) y DAPO (20.0/15.3). Además, DCPO logró una mejora promedio del 28% en la ventaja no nula sobre GRPO en cuatro modelos, duplicó la eficiencia de entrenamiento en comparación con DAPO y redujo significativamente la proporción de recorte de tokens en un orden de magnitud en comparación con GRPO y DAPO, al mismo tiempo que alcanzó un rendimiento superior. Estos resultados destacan la efectividad de DCPO para aprovechar los datos generados de manera más eficiente en el aprendizaje por refuerzo en modelos de lenguaje de gran escala.
Los agentes GUI impulsados por LLM muestran potencial para interactuar con diversos entornos digitales. Entre estos, los videojuegos ofrecen un campo de pruebas valioso debido a sus interfaces variadas, siendo los juegos de aventura un desafío adicional por sus interacciones complejas y basadas en narrativas. Sin embargo, los puntos de referencia existentes para juegos carecen de diversidad y rara vez evalúan a los agentes en la finalización de historias completas. Para abordar esto, presentamos FlashAdventure, un punto de referencia compuesto por 34 juegos de aventura basados en Flash, diseñado para evaluar la finalización de arcos narrativos completos y abordar la brecha observación-comportamiento: el desafío de recordar y actuar sobre información previa del juego. También proponemos CUA-as-a-Judge, un evaluador automatizado de jugabilidad, y COAST, un marco agéntico que aprovecha la memoria a largo plazo de pistas para planificar y resolver mejor tareas secuenciales. Los experimentos muestran que los agentes GUI actuales tienen dificultades con arcos narrativos completos, mientras que COAST mejora la finalización de hitos al cerrar la brecha observación-comportamiento. No obstante, una marcada discrepancia entre humanos y los agentes de mejor rendimiento justifica esfuerzos continuos de investigación para reducir esta brecha.
Los modelos guardianes se utilizan para supervisar y moderar las salidas de chatbots orientados al usuario, aplicando restricciones y detectando comportamientos inadecuados. Los modelos guardianes estándar, como LlamaGuard, detectan categorías predefinidas y estáticas de daños. Proponemos modelos guardianes dinámicos que evalúan el texto basándose en políticas definidas por el usuario, lo que los hace útiles para diferentes dominios de aplicación que no son abordados por los modelos guardianes estándar. Nuestros modelos guardianes dinámicos pueden utilizarse para la detección rápida de violaciones de políticas o con un razonamiento en cadena que articula y justifica las salidas del modelo. Nuestros modelos guardianes dinámicos igualan a los modelos estáticos en precisión de detección para categorías de daños estáticos, mientras identifican violaciones de políticas de forma libre con una precisión comparable a los modelos de razonamiento de vanguardia en una fracción del tiempo.
Los embeddings vectoriales han sido asignados a un conjunto cada vez mayor de tareas de recuperación a lo largo de los años, con un incipiente aumento en su uso para razonamiento, seguimiento de instrucciones, codificación y más. Estos nuevos puntos de referencia exigen que los embeddings funcionen para cualquier consulta y cualquier noción de relevancia que pueda ser proporcionada. Si bien trabajos previos han señalado limitaciones teóricas de los embeddings vectoriales, existe una suposición común de que estas dificultades se deben exclusivamente a consultas poco realistas, y que aquellas que no lo son pueden superarse con mejores datos de entrenamiento y modelos más grandes. En este trabajo, demostramos que podemos encontrar estas limitaciones teóricas en entornos realistas con consultas extremadamente simples. Conectamos resultados conocidos en teoría del aprendizaje, mostrando que el número de subconjuntos top-k de documentos que pueden ser devueltos como resultado de alguna consulta está limitado por la dimensión del embedding. Demostramos empíricamente que esto se mantiene incluso si nos restringimos a k=2, y optimizamos directamente en el conjunto de prueba con embeddings parametrizados libres. Luego, creamos un conjunto de datos realista llamado LIMIT que somete a prueba los modelos basados en estos resultados teóricos, y observamos que incluso los modelos de última generación fallan en este conjunto de datos a pesar de la naturaleza simple de la tarea. Nuestro trabajo muestra los límites de los modelos de embeddings bajo el paradigma existente de un solo vector y llama a futuras investigaciones para desarrollar métodos que puedan resolver esta limitación fundamental.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) destacan en la generación de datos sintéticos, pero garantizar su calidad y diversidad sigue siendo un desafío. Proponemos Genetic Prompt, un marco novedoso que combina algoritmos genéticos con LLMs para potenciar la generación de datos sintéticos. Nuestro enfoque trata los atributos semánticos del texto como secuencias génicas y aprovecha el LLM para simular operaciones de cruce y mutación. Este proceso genético mejora la calidad y diversidad de los datos al crear combinaciones novedosas de atributos, produciendo distribuciones sintéticas más cercanas a los datos del mundo real. Para optimizar la selección de padres, también integramos un esquema de aprendizaje activo que amplía el espacio de búsqueda de descendientes. Nuestros experimentos en múltiples tareas de Procesamiento del Lenguaje Natural (NLP) revelan varios hallazgos clave: Genetic Prompt no solo supera significativamente a los métodos de referencia más avanzados, sino que también muestra un rendimiento robusto en diversos tamaños y escalas de modelos generadores. Además, demostramos que la fusión de nuestros datos sintéticos con el conjunto de entrenamiento original mejora significativamente el rendimiento del modelo en tareas posteriores, especialmente en escenarios con desequilibrio de clases. Nuestros hallazgos validan que Genetic Prompt es un método efectivo para producir datos sintéticos de alta calidad para una amplia gama de aplicaciones de NLP.
La recuperación de imágenes médicas es esencial para la toma de decisiones clínicas y la investigación traslacional, dependiendo de representaciones visuales discriminativas. Sin embargo, los métodos actuales siguen siendo fragmentados, basándose en arquitecturas y estrategias de entrenamiento separadas para datos médicos en 2D, 3D y basados en video. Este diseño específico por modalidad dificulta la escalabilidad e impide el desarrollo de representaciones unificadas. Para permitir un aprendizaje unificado, hemos creado un conjunto de datos a gran escala de modalidad híbrida que comprende 867,653 muestras de imágenes médicas, incluyendo radiografías 2D y ultrasonidos, videos de endoscopia RGB y tomografías computarizadas 3D. Utilizando este conjunto de datos, entrenamos M3Ret, un codificador visual unificado sin ninguna personalización específica por modalidad. Este logra aprender representaciones transferibles utilizando tanto paradigmas de aprendizaje autosupervisado (SSL) generativo (MAE) como contrastivo (SimDINO). Nuestro enfoque establece un nuevo estado del arte en la recuperación de imágenes a imágenes en modo cero-shot en todas las modalidades individuales, superando a fuertes líneas base como DINOv3 y el BMC-CLIP supervisado por texto. Más notablemente, surge una fuerte alineación multimodal sin datos emparejados, y el modelo se generaliza a tareas de resonancia magnética (MRI) no vistas, a pesar de no haber observado MRI durante el preentrenamiento, demostrando la generalizabilidad del aprendizaje autosupervisado puramente visual a modalidades no vistas. Análisis exhaustivos validan además la escalabilidad de nuestro marco de trabajo en términos de tamaño de modelo y datos. Estos hallazgos ofrecen una señal prometedora a la comunidad de imágenes médicas, posicionando a M3Ret como un paso hacia modelos fundacionales para el aprendizaje autosupervisado visual en la comprensión multimodal de imágenes médicas.
AdamW ha sido durante mucho tiempo el optimizador dominante en el preentrenamiento de modelos de lenguaje, a pesar de las numerosas afirmaciones de que optimizadores alternativos ofrecen una aceleración de 1.4 a 2 veces. Proponemos que dos deficiencias metodológicas han oscurecido comparaciones justas y han obstaculizado la adopción práctica: (i) ajuste desigual de hiperparámetros y (ii) configuraciones de evaluación limitadas o engañosas. Para abordar estos dos problemas, realizamos un estudio sistemático de diez optimizadores de aprendizaje profundo en cuatro escalas de modelos (0.1B-1.2B parámetros) y proporciones de datos a modelos (1-8 veces el óptimo de Chinchilla). Encontramos que las comparaciones justas e informativas requieren un ajuste riguroso de hiperparámetros y evaluaciones en un rango de escalas de modelos y proporciones de datos a modelos, realizadas al final del entrenamiento. Primero, los hiperparámetros óptimos para un optimizador pueden ser subóptimos para otro, lo que hace que la transferencia ciega de hiperparámetros sea injusta. Segundo, la aceleración real de muchos optimizadores propuestos sobre líneas base bien ajustadas es menor de lo que se afirma y disminuye con el tamaño del modelo a solo 1.1 veces para modelos de 1.2B parámetros. Tercero, comparar puntos de control intermedios antes de alcanzar los presupuestos de entrenamiento objetivo puede ser engañoso, ya que las clasificaciones entre dos optimizadores pueden invertirse durante el entrenamiento debido a la disminución de la tasa de aprendizaje. A través de nuestra investigación exhaustiva, encontramos que todos los optimizadores más rápidos, como Muon y Soap, utilizan matrices como precondicionadores, multiplicando los gradientes con matrices en lugar de escalares elemento por elemento. Sin embargo, la aceleración de los optimizadores basados en matrices es inversamente proporcional a la escala del modelo, disminuyendo de 1.4 veces sobre AdamW para modelos de 0.1B parámetros a apenas 1.1 veces para modelos de 1.2B parámetros.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) logran un rendimiento de medalla de oro en muchos puntos de referencia, pero sigue sin estar claro si dicho éxito refleja un razonamiento genuino o simplemente la coincidencia de patrones. Desde una perspectiva de la ciencia cognitiva, una prueba informativa es si los modelos pueden dominar un lenguaje desconocido a través del aprendizaje deductivo metalingüístico explícito, un paradigma en el que los aprendices humanos pueden internalizar de manera confiable sistemas gramaticales mediante el razonamiento metalingüístico. Abordamos esta pregunta con Camlang, un lenguaje construido novedoso que exhibe combinaciones de características naturalistas pero no atestiguadas. Camlang consta de dos recursos explícitos, un libro de gramática y un diccionario bilingüe, que reflejan el aprendizaje de un segundo idioma en adultos a través de reglas gramaticales explícitas y búsquedas léxicas, y nos permiten desentrañar errores en morfosintaxis, semántica léxica y razonamiento a nivel de oración. Los experimentos con humanos muestran que estos recursos son suficientes para que los participantes adquieran Camlang y resuelvan con éxito tareas en este lenguaje. Para operacionalizar la evaluación, adaptamos CommonsenseQA a Camlang, creando Camlang-CSQA-v0, la primera tarea en un conjunto más amplio donde resolver preguntas requiere aplicar reglas gramaticales y mapeos léxicos. Los resultados experimentales muestran que GPT-5 alcanza un 98\% de precisión EM en inglés, pero solo un 47\% en Camlang, muy por debajo del rendimiento humano del 87\%, mientras que otros LLMs de razonamiento de última generación tienen un desempeño aún peor. La verificación humana revela además que la mayoría de los éxitos del modelo se deben a una alineación léxica superficial, mientras que GPT-5 muestra un incipiente conocimiento metalingüístico en cierta medida, pero no un dominio gramatical sistemático como los humanos. Camlang establece un paradigma de evaluación cognitivamente fundamentado que expone brechas fundamentales entre los modelos actuales y la competencia metalingüística humana.
Las herramientas de investigación profunda se encuentran entre los sistemas agentivos más impactantes y comúnmente encontrados en la actualidad. Sin embargo, observamos que cada agente de investigación profunda introducido hasta ahora está programado de manera rígida para ejecutar una estrategia de investigación particular utilizando una selección fija de herramientas. Presentamos Universal Deep Research (UDR), un sistema agentivo generalista que se integra con cualquier modelo de lenguaje y permite al usuario crear, editar y refinar sus propias estrategias de investigación profunda completamente personalizadas, sin necesidad de entrenamiento adicional o ajuste fino. Para demostrar la generalidad de nuestro sistema, equipamos a UDR con ejemplos de estrategias de investigación mínima, expansiva e intensiva, y proporcionamos una interfaz de usuario para facilitar la experimentación con el sistema.
Presentamos ViSTA-SLAM como un sistema de SLAM visual monocular en tiempo real que opera sin requerir parámetros intrínsecos de la cámara, lo que lo hace ampliamente aplicable en diversas configuraciones de cámaras. En su núcleo, el sistema emplea un modelo ligero de asociación simétrica de dos vistas (STA) como frontend, que estima simultáneamente las poses relativas de la cámara y regresa mapas de puntos locales a partir de solo dos imágenes RGB. Este diseño reduce significativamente la complejidad del modelo, ya que el tamaño de nuestro frontend es solo el 35% del de métodos comparables de vanguardia, mientras mejora la calidad de las restricciones de dos vistas utilizadas en la pipeline. En el backend, construimos un grafo de poses Sim(3) especialmente diseñado que incorpora cierres de bucle para abordar el desvío acumulado. Experimentos exhaustivos demuestran que nuestro enfoque logra un rendimiento superior tanto en el seguimiento de la cámara como en la calidad de la reconstrucción 3D densa en comparación con los métodos actuales. Repositorio de Github: https://github.com/zhangganlin/vista-slam.
Con el rápido avance de los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés), los agentes móviles basados en interfaces gráficas de usuario (GUI) han surgido como una dirección clave en el desarrollo de sistemas móviles inteligentes. Sin embargo, los modelos de agentes existentes continúan enfrentando desafíos significativos en la ejecución de tareas del mundo real, particularmente en términos de precisión y eficiencia. Para abordar estas limitaciones, proponemos MobiAgent, un sistema integral de agentes móviles que consta de tres componentes principales: los modelos de agentes de la serie MobiMind, el marco de aceleración AgentRR y el conjunto de evaluación comparativa MobiFlow. Además, reconociendo que las capacidades de los agentes móviles actuales aún están limitadas por la disponibilidad de datos de alta calidad, hemos desarrollado una canalización ágil de recopilación de datos asistida por inteligencia artificial que reduce significativamente el costo de la anotación manual. En comparación con los modelos de lenguaje de propósito general (LLMs) y los modelos especializados de agentes GUI, MobiAgent logra un rendimiento de vanguardia en escenarios móviles del mundo real.
Los modelos visuales autorregresivos (VAR, por sus siglas en inglés) han surgido recientemente como una clase prometedora de modelos generativos, alcanzando un rendimiento comparable al de los modelos de difusión en tareas de generación de imágenes a partir de texto. Si bien la generación condicional ha sido ampliamente explorada, la capacidad de realizar ediciones de imágenes guiadas por instrucciones sin necesidad de entrenamiento adicional es igualmente crucial, ya que respalda numerosas aplicaciones prácticas en el mundo real. Este artículo investiga las capacidades de edición de imágenes a partir de texto de los modelos VAR mediante la introducción de Visual AutoRegressive Inverse Noise (VARIN), la primera técnica de edición basada en inversión de ruido diseñada explícitamente para modelos VAR. VARIN aprovecha una novedosa función pseudo-inversa para el muestreo argmax, denominada Location-aware Argmax Inversion (LAI), para generar ruidos de Gumbel inversos. Estos ruidos inversos permiten la reconstrucción precisa de la imagen fuente y facilitan ediciones específicas y controlables alineadas con las instrucciones textuales. Experimentos exhaustivos demuestran que VARIN modifica eficazmente las imágenes fuente según las instrucciones especificadas, preservando significativamente el fondo original y los detalles estructurales, validando así su eficacia como un enfoque práctico de edición.
La conversión de consultas en lenguaje natural a consultas SQL es un desafío crucial tanto en la industria como en la academia, con el objetivo de aumentar el acceso a bases de datos y aplicaciones a gran escala. Este trabajo examina cómo el aprendizaje en contexto y la cadena de pensamiento pueden ser utilizados para desarrollar una solución robusta para sistemas de texto a SQL. Proponemos SQL-of-Thought: un marco de trabajo multiagente que descompone la tarea de Text2SQL en vinculación de esquemas, identificación de subproblemas, generación de planes de consulta, generación de SQL y un ciclo de corrección guiada. A diferencia de sistemas previos que dependen únicamente de corrección estática basada en ejecución, introducimos una modificación dinámica de errores guiada por taxonomías e informada por aprendizaje en contexto. SQL-of-Thought logra resultados de vanguardia en el conjunto de datos Spider y sus variantes, combinando una taxonomía de errores guiada con planificación de consultas basada en razonamiento.
Este trabajo identifica las distribuciones de parámetros anisotrópicas como una barrera fundamental para entrenar modelos de lenguaje de gran escala (LLMs) con cuantización de bajo bit: unos pocos valores singulares dominantes crean rangos numéricos amplios que entran en conflicto con el sesgo inherente de la cuantización por bloques. Este sesgo preserva de manera desproporcionada valores de magnitud alta mientras descarta los más pequeños, causando inestabilidad en el entrenamiento y un bajo rendimiento del modelo. Este trabajo introduce Metis, un marco de entrenamiento que combina (i) descomposición espectral con incrustación aleatoria para separar eficientemente los componentes dominantes de los de cola larga, comprimiendo distribuciones amplias en rangos estrechos compatibles con la cuantización; (ii) tasas de aprendizaje adaptativas en el dominio espectral para amplificar direcciones subrepresentadas y capturar mejor características diversas críticas para el rendimiento; y (iii) un regularizador de doble rango que restringe conjuntamente la precisión numérica y la distribución del rango de parámetros, asegurando un entrenamiento de bajo bit estable y sin sesgos. Con Metis, el entrenamiento en FP8 supera las líneas base de FP32, y el entrenamiento en FP4 alcanza una precisión comparable a FP32, allanando el camino para un entrenamiento robusto y escalable de LLMs bajo cuantización avanzada de bajo bit. La implementación del código para Metis está disponible en: https://github.com/typename-yyf/Metis-quantization.
Presentamos los Flavors of Moonshine, un conjunto de modelos pequeños de reconocimiento automático del habla (ASR, por sus siglas en inglés) especializados para una variedad de lenguas subrepresentadas. La sabiduría predominante sugiere que los modelos multilingües de ASR superan a sus contrapartes monolingües al aprovechar las similitudes fonéticas entre lenguas. Desafiamos esta suposición, demostrando que, para modelos suficientemente pequeños (27 millones de parámetros), el entrenamiento de sistemas monolingües con una mezcla cuidadosamente equilibrada de datos etiquetados por humanos de alta calidad, pseudoetiquetados y sintéticos produce un rendimiento sustancialmente superior. En promedio, nuestros modelos logran tasas de error un 48 % más bajas que el modelo Whisper Tiny de tamaño comparable, superan al modelo Whisper Small, que es 9 veces más grande, y, en la mayoría de los casos, igualan o superan al modelo Whisper Medium, que es 28 veces más grande. Estos resultados avanzan el estado del arte para modelos de este tamaño, permitiendo un ASR preciso en dispositivos para lenguas que anteriormente tenían un soporte limitado. Publicamos los modelos Moonshine para árabe, chino, japonés, coreano, ucraniano y vietnamita bajo una licencia de código abierto permisiva.
La segmentación precisa de órganos y tumores en tomografías computarizadas (CT) y resonancias magnéticas (MRI) es fundamental para el diagnóstico, la planificación del tratamiento y el monitoreo de enfermedades. Si bien el aprendizaje profundo ha avanzado en la segmentación automatizada, la mayoría de los modelos siguen siendo específicos para tareas, careciendo de generalización entre modalidades e instituciones. Los modelos fundacionales de visión (FMs), preentrenados en miles de millones de imágenes naturales, ofrecen representaciones potentes y transferibles. Sin embargo, su adaptación a imágenes médicas enfrenta dos desafíos clave: (1) la arquitectura ViT de la mayoría de los modelos fundacionales aún tiene un rendimiento inferior al de las CNN especializadas en segmentación de imágenes médicas, y (2) la gran brecha de dominio entre imágenes naturales y médicas limita la transferibilidad. Presentamos MedDINOv3, un marco simple y efectivo para adaptar DINOv3 a la segmentación médica. Primero, revisamos las ViT básicas y diseñamos una arquitectura simple y efectiva con agregación de tokens multiescala. Luego, realizamos un preentrenamiento adaptativo al dominio en CT-3M, una colección curada de 3.87 millones de cortes axiales de CT, utilizando una receta multietapa de DINOv3 para aprender características densas robustas. MedDINOv3 iguala o supera el rendimiento de vanguardia en cuatro benchmarks de segmentación, demostrando el potencial de los modelos fundacionales de visión como arquitecturas unificadas para la segmentación de imágenes médicas. El código está disponible en https://github.com/ricklisz/MedDINOv3.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden reflejar inadvertidamente los sesgos sociales presentes en sus datos de entrenamiento, lo que conduce a resultados perjudiciales o prejuiciosos. En el contexto indio, nuestras evaluaciones empíricas en un conjunto de modelos revelan que los sesgos relacionados con la casta y la religión son particularmente destacados. Sin embargo, la mayoría de las estrategias de mitigación existentes están centradas en Occidente y no abordan estos matices locales. Proponemos AMBEDKAR, un marco inspirado en la visión igualitaria del Dr. B. R. Ambedkar, arquitecto de la Constitución de la India, para guiar los resultados de los LLMs hacia la equidad, neutralidad e inclusión en línea con los Artículos 14 al 17. Nuestro enfoque introduce una Capa de Decodificación Consciente de la Constitución, guiada por la Constitución de la IA de la India y aplicada únicamente en tiempo de inferencia, sin actualizaciones de parámetros en el modelo base. Incorporamos un algoritmo de decodificación especulativa que reduce proactivamente los sesgos de casta y comunales durante la generación. Esta capa de mitigación opera directamente dentro del proceso de decodificación, evitando cambios en los internos del modelo y reduciendo los costos computacionales e infraestructurales asociados con el reentrenamiento. Reinterpretamos la decodificación especulativa no solo como una herramienta de eficiencia, sino como un mecanismo para la equidad. En este marco, un Modelo de Lenguaje Pequeño (SLM) actúa como un generador potencialmente sesgado, mientras que un Modelo de Lenguaje de Gran Escala (LLM) guiado constitucionalmente sirve como verificador. En lugar de acelerar la generación, el LLM impone trayectorias robustas contra sesgos en los resultados del SLM. Esta inversión de roles da lugar a un paradigma de equidad por especulación. Nuestro enfoque logra una reducción absoluta de sesgos de hasta un 26.41 por ciento en comparación con la línea base. Nuestro código fuente, conjuntos de datos y resultados están disponibles en https://anonymous.4open.science/r/AMBEDKAR-983B/.
La sensibilidad al prompt, que se refiere al fenómeno en el que la paráfrasis (es decir, repetir algo escrito o hablado usando palabras diferentes) conduce a cambios significativos en el rendimiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), ha sido ampliamente aceptada como una limitación fundamental de los LLM. En este trabajo, revisitamos este problema y nos preguntamos: ¿Es la alta sensibilidad al prompt, ampliamente reportada, realmente una debilidad inherente de los LLM, o es en gran medida un artefacto de los procesos de evaluación? Para responder a esta pregunta, evaluamos sistemáticamente 7 LLM (por ejemplo, las familias GPT y Gemini) en 6 benchmarks, incluyendo tareas de opción múltiple y de respuesta abierta, utilizando 12 plantillas de prompt diversas. Descubrimos que gran parte de la sensibilidad al prompt proviene de métodos de evaluación heurísticos, como la puntuación de verosimilitud logarítmica y la coincidencia rígida de respuestas, que a menudo pasan por alto respuestas semánticamente correctas expresadas mediante frases alternativas, como sinónimos o paráfrasis. Cuando adoptamos evaluaciones basadas en LLM-como-Juez, observamos una reducción sustancial en la variación del rendimiento y una correlación consistentemente más alta en las clasificaciones de los modelos entre diferentes prompts. Nuestros hallazgos sugieren que los LLM modernos son más robustos a las plantillas de prompt de lo que se creía anteriormente, y que la sensibilidad al prompt puede ser más un artefacto de la evaluación que un defecto en los modelos.
Los métodos tradicionales de alineación para Modelos Grandes de Visión y Lenguaje (LVLMs, por sus siglas en inglés) dependen principalmente de datos de preferencia curados por humanos. Los datos de preferencia generados por humanos son costosos; los datos de preferencia generados por máquinas tienen limitaciones en su calidad; y los datos de preferencia autosupervisados a menudo introducen alucinaciones. Para superar estas limitaciones, proponemos un novedoso marco de aprendizaje llamado Panel-of-Peers, inspirado en el aprendizaje colaborativo entre humanos. Este enfoque aprovecha un panel de LVLMs, donde cada uno evalúa y aprende de sus salidas colectivas a través de un proceso iterativo de automejora. Al simular un sistema de revisión por pares, nuestros modelos generan, evalúan y refinan salidas en respuesta a un conjunto de indicaciones curadas, imitando un entorno de aprendizaje en el aula. Demostramos que esta metodología mejora el rendimiento del modelo sin requerir conjuntos de datos extensamente etiquetados por humanos. Nuestros experimentos muestran mejoras significativas en múltiples benchmarks, evidenciando el potencial de las evaluaciones entre pares como una alternativa escalable a la alineación autosupervisada. En particular, mostramos que Panel-of-Peers aumenta la puntuación promedio en quince benchmarks del 48% al 57%.
La equidad en los sistemas de recomendación (RSs) se clasifica comúnmente en equidad de grupo y equidad individual. Sin embargo, no existe un entendimiento científico establecido sobre la relación entre estos dos tipos de equidad, ya que trabajos previos sobre ambos tipos han utilizado medidas de evaluación u objetivos de evaluación diferentes para cada tipo de equidad, lo que no permite una comparación adecuada entre ambos. Como resultado, actualmente se desconoce cómo el aumento de un tipo de equidad puede afectar al otro. Para llenar este vacío, estudiamos la relación entre la equidad de grupo y la equidad individual mediante una comparación exhaustiva de medidas de evaluación que pueden aplicarse a ambos tipos de equidad. Nuestros experimentos, con 8 ejecuciones en 3 conjuntos de datos, muestran que las recomendaciones que son altamente equitativas para los grupos pueden ser muy injustas para los individuos. Este hallazgo es novedoso y útil para los profesionales de RS que buscan mejorar la equidad de sus sistemas. Nuestro código está disponible en: https://github.com/theresiavr/stairway-to-fairness.
A pesar de su gran potencial, la tecnología de prueba virtual se ve limitada en su aplicación en el mundo real por dos desafíos principales: la incapacidad de los métodos actuales para soportar composiciones de atuendos multireferencia (que incluyen prendas y accesorios) y su notable ineficiencia causada por la recomputación redundante de características de referencia en cada paso de eliminación de ruido. Para abordar estos desafíos, proponemos FastFit, un marco de prueba virtual multireferencia de alta velocidad basado en una novedosa arquitectura de difusión con capacidad de almacenamiento en caché. Al emplear un mecanismo de Semi-Atención y sustituir las incrustaciones tradicionales de pasos de tiempo por incrustaciones de clase para los elementos de referencia, nuestro modelo desacopla completamente la codificación de características de referencia del proceso de eliminación de ruido con un sobrecarga de parámetros insignificante. Esto permite que las características de referencia se calculen una sola vez y se reutilicen sin pérdidas en todos los pasos, rompiendo fundamentalmente el cuello de botella de eficiencia y logrando una aceleración promedio de 3.5x en comparación con métodos similares. Además, para facilitar la investigación sobre la prueba virtual multireferencia compleja, presentamos DressCode-MR, un nuevo conjunto de datos a gran escala. Este comprende 28,179 conjuntos de imágenes de alta calidad y emparejadas que cubren cinco categorías clave (partes superiores, inferiores, vestidos, zapatos y bolsos), construidas mediante una canalización de modelos expertos y refinamiento con retroalimentación humana. Experimentos exhaustivos en los conjuntos de datos VITON-HD, DressCode y nuestro DressCode-MR muestran que FastFit supera a los métodos más avanzados en métricas clave de fidelidad, al tiempo que ofrece su ventaja significativa en eficiencia de inferencia.
El aprendizaje de nubes de puntos, especialmente de manera autosupervisada sin etiquetas manuales, ha ganado creciente atención tanto en las comunidades de visión como de aprendizaje debido a su potencial utilidad en una amplia gama de aplicaciones. La mayoría de los enfoques generativos existentes para el aprendizaje autosupervisado de nubes de puntos se centran en recuperar puntos enmascarados a partir de los visibles dentro de una única vista. Reconociendo que un paradigma de preentrenamiento de dos vistas introduce inherentemente una mayor diversidad y variabilidad, esto podría permitir un preentrenamiento más desafiante e informativo. Inspirados por esto, exploramos el potencial del aprendizaje de dos vistas en este dominio. En este artículo, proponemos Point-PQAE, un paradigma generativo de reconstrucción cruzada que primero genera dos nubes de puntos/vistas desacopladas y luego reconstruye una a partir de la otra. Para lograr este objetivo, desarrollamos un mecanismo de recorte para la generación de vistas de nubes de puntos por primera vez y además proponemos una nueva codificación posicional para representar la posición relativa en 3D entre las dos vistas desacopladas. La reconstrucción cruzada aumenta significativamente la dificultad del preentrenamiento en comparación con la autoreconstrucción, lo que permite que nuestro método supere a los métodos anteriores de autoreconstrucción unimodal en el aprendizaje autosupervisado 3D. Específicamente, supera a la línea base de autoreconstrucción (Point-MAE) en un 6.5%, 7.0% y 6.7% en tres variantes de ScanObjectNN con el protocolo de evaluación Mlp-Linear. El código está disponible en https://github.com/aHapBean/Point-PQAE.
La detección de objetos de grano fino en dominios visuales desafiantes, como la evaluación de daños en vehículos, presenta un reto formidable incluso para expertos humanos, quienes a menudo tienen dificultades para resolverla de manera confiable. Si bien DiffusionDet ha avanzado el estado del arte mediante la difusión condicional de eliminación de ruido, su rendimiento sigue limitado por el condicionamiento de características locales en escenarios dependientes del contexto. Abordamos esta limitación fundamental introduciendo la Fusión Consciente del Contexto (CAF, por sus siglas en inglés), que aprovecha mecanismos de atención cruzada para integrar directamente el contexto global de la escena con las características locales de las propuestas. El contexto global se genera utilizando un codificador dedicado separado que captura información ambiental integral, permitiendo que cada propuesta de objeto atienda a una comprensión a nivel de escena. Nuestro marco mejora significativamente el paradigma de detección generativa al permitir que cada propuesta de objeto atienda a información ambiental completa. Los resultados experimentales demuestran una mejora sobre los modelos más avanzados en el benchmark CarDD, estableciendo nuevos estándares de rendimiento para la detección de objetos consciente del contexto en dominios de grano fino.