Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje por refuerzo a gran escala con recompensas verificables (RLVR, por sus siglas en inglés) ha demostrado su eficacia para aprovechar el potencial de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento de un solo turno. En escenarios de razonamiento realistas, los LLMs suelen utilizar herramientas externas para asistir en los procesos de resolución de tareas. Sin embargo, los algoritmos de RL actuales no equilibran adecuadamente las capacidades intrínsecas de razonamiento a largo plazo de los modelos y su competencia en interacciones multiturno con herramientas. Para cerrar esta brecha, proponemos la Optimización de Política Reforzada Agéntica (ARPO, por sus siglas en inglés), un novedoso algoritmo de RL agéntico diseñado para entrenar agentes basados en LLMs multiturno. A través de experimentos preliminares, observamos que los LLMs tienden a exhibir un comportamiento altamente incierto, caracterizado por un aumento en la distribución de entropía de los tokens generados, inmediatamente después de interactuar con herramientas externas. Motivados por esta observación, ARPO incorpora un mecanismo de despliegue adaptativo basado en entropía, equilibrando dinámicamente el muestreo de trayectorias globales y el muestreo a nivel de paso, fomentando así la exploración en pasos con alta incertidumbre tras el uso de herramientas. Al integrar una estimación de atribución de ventaja, ARPO permite que los LLMs internalicen las diferencias de ventaja en interacciones paso a paso con herramientas. Nuestros experimentos en 13 desafiantes puntos de referencia en los dominios de razonamiento computacional, razonamiento basado en conocimiento y búsqueda profunda demuestran la superioridad de ARPO sobre los algoritmos de RL a nivel de trayectoria. Notablemente, ARPO logra un mejor rendimiento utilizando solo la mitad del presupuesto de uso de herramientas requerido por los métodos existentes, ofreciendo una solución escalable para alinear agentes basados en LLMs con entornos dinámicos en tiempo real. Nuestro código y conjuntos de datos están disponibles en https://github.com/dongguanting/ARPO.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades sólidas, pero siguen siendo fundamentalmente estáticos, incapaces de adaptar sus parámetros internos a tareas novedosas, dominios de conocimiento en evolución o contextos de interacción dinámicos. A medida que los LLMs se despliegan cada vez más en entornos interactivos y abiertos, esta naturaleza estática se ha convertido en un cuello de botella crítico, lo que exige agentes que puedan razonar, actuar y evolucionar de manera adaptativa en tiempo real. Este cambio de paradigma —desde el escalamiento de modelos estáticos hacia el desarrollo de agentes auto-evolutivos— ha generado un creciente interés en arquitecturas y métodos que permitan el aprendizaje continuo y la adaptación a partir de datos, interacciones y experiencias. Esta revisión ofrece el primer análisis sistemático y exhaustivo de los agentes auto-evolutivos, organizado en torno a tres dimensiones fundamentales: qué evolucionar, cuándo evolucionar y cómo evolucionar. Examinamos los mecanismos evolutivos en los componentes del agente (por ejemplo, modelos, memoria, herramientas, arquitectura), categorizamos los métodos de adaptación por etapas (por ejemplo, intra-tiempo de prueba, inter-tiempo de prueba) y analizamos los diseños algorítmicos y arquitectónicos que guían la adaptación evolutiva (por ejemplo, recompensas escalares, retroalimentación textual, sistemas de agente único y multiagente). Además, analizamos métricas de evaluación y puntos de referencia específicos para agentes auto-evolutivos, destacamos aplicaciones en dominios como la programación, la educación y la atención médica, e identificamos desafíos críticos y direcciones de investigación en seguridad, escalabilidad y dinámicas co-evolutivas. Al proporcionar un marco estructurado para comprender y diseñar agentes auto-evolutivos, esta revisión establece una hoja de ruta para avanzar en sistemas agentes adaptativos tanto en investigación como en despliegues del mundo real, iluminando finalmente el camino hacia la realización de la Inteligencia Super Artificial (ASI, por sus siglas en inglés), donde los agentes evolucionan de manera autónoma, desempeñándose a niveles iguales o superiores a la inteligencia humana en una amplia gama de tareas.
Los videos cortos generados por usuarios en el mundo real, especialmente aquellos distribuidos en plataformas como WeChat Channel y TikTok, dominan el internet móvil. Sin embargo, los modelos multimodales grandes actuales carecen de capacidades esenciales de comprensión de video estructurada temporalmente, detallada y en profundidad, que son la base para una búsqueda y recomendación de videos efectiva, así como para aplicaciones emergentes de video. Comprender los videos cortos del mundo real es en realidad un desafío debido a sus elementos visuales complejos, la alta densidad de información tanto en lo visual como en lo auditivo, y el ritmo acelerado que se centra en la expresión emocional y la entrega de puntos de vista. Esto requiere un razonamiento avanzado para integrar de manera efectiva información multimodal, incluyendo lo visual, lo auditivo y el texto. En este trabajo, presentamos ARC-Hunyuan-Video, un modelo multimodal que procesa señales visuales, auditivas y textuales de entradas de video en bruto de extremo a extremo para una comprensión estructurada. El modelo es capaz de generar subtítulos y resúmenes de video con marcas de tiempo de múltiples granularidades, responder preguntas abiertas sobre videos, realizar anclaje temporal de video y razonamiento sobre videos. Aprovechando datos de alta calidad de una canalización de anotación automatizada, nuestro modelo compacto de 7B parámetros se entrena mediante un régimen integral: preentrenamiento, ajuste fino por instrucciones, inicio en frío, aprendizaje por refuerzo (RL) posterior al entrenamiento y ajuste final por instrucciones. Las evaluaciones cuantitativas en nuestro nuevo benchmark ShortVid-Bench y las comparaciones cualitativas demuestran su fuerte desempeño en la comprensión de videos del mundo real, y admite aplicaciones descendentes diversas con pocas muestras en modo zero-shot o con ajuste fino. El despliegue en producción de nuestro modelo ha generado mejoras tangibles y medibles en la participación y satisfacción del usuario, un éxito respaldado por su notable eficiencia, con pruebas de estrés que indican un tiempo de inferencia de solo 10 segundos para un video de un minuto en GPU H20.
Mientras que los modelos de lenguaje de gran escala (LLMs) de vanguardia continúan ampliando los límites de sus capacidades, su implementación sigue confinada a infraestructuras en la nube impulsadas por GPU. Desafiamos este paradigma con SmallThinker, una familia de LLMs diseñados nativamente —no adaptados— para las limitaciones únicas de los dispositivos locales: baja potencia computacional, memoria limitada y almacenamiento lento. A diferencia de los enfoques tradicionales que principalmente comprimen modelos existentes construidos para la nube, diseñamos SmallThinker desde cero para prosperar dentro de estas limitaciones. Nuestra innovación radica en una arquitectura consciente de la implementación que transforma las restricciones en principios de diseño. Primero, introducimos una estructura dispersa de dos niveles que combina una Mixture-of-Experts (MoE) de grano fino con redes de alimentación dispersas, reduciendo drásticamente las demandas computacionales sin sacrificar la capacidad del modelo. Segundo, para superar el cuello de botella de E/S del almacenamiento lento, diseñamos un enrutador de pre-atención que permite a nuestro motor de inferencia co-diseñado pre-cargar parámetros de expertos desde el almacenamiento mientras se calcula la atención, ocultando efectivamente la latencia del almacenamiento que de otro modo paralizaría la inferencia en el dispositivo. Tercero, para la eficiencia de memoria, utilizamos un mecanismo de atención dispersa híbrido NoPE-RoPE que reduce drásticamente los requisitos de la caché KV. Lanzamos SmallThinker-4B-A0.6B y SmallThinker-21B-A3B, que logran puntuaciones de rendimiento de vanguardia e incluso superan a LLMs más grandes. Notablemente, nuestro sistema co-diseñado elimina en gran medida la necesidad de hardware GPU costoso: con cuantización Q4_0, ambos modelos superan los 20 tokens/s en CPUs de consumo ordinario, mientras consumen solo 1GB y 8GB de memoria, respectivamente. SmallThinker está disponible públicamente en hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct y hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
A pesar de las promesas del Aprendizaje Multitarea (Multi-Task Learning, MTL) en el aprovechamiento de conocimientos complementarios entre tareas, las técnicas existentes de optimización multitarea (Multi-Task Optimization, MTO) siguen centradas en resolver conflictos mediante estrategias de escalado de pérdidas y manipulación de gradientes centradas en el optimizador, sin lograr ganancias consistentes. En este artículo, argumentamos que el espacio de representación compartida, donde ocurren naturalmente las interacciones entre tareas, ofrece información rica y potencial para operaciones complementarias a los optimizadores existentes, especialmente para facilitar la complementariedad entre tareas, un aspecto raramente explorado en MTO. Esta intuición lleva a Rep-MTL, que explora la prominencia de tareas a nivel de representación para cuantificar las interacciones entre la optimización específica de tareas y el aprendizaje de representaciones compartidas. Al guiar estas prominencias mediante penalización basada en entropía y alineación entre tareas a nivel de muestras, Rep-MTL busca mitigar la transferencia negativa al mantener el entrenamiento efectivo de tareas individuales en lugar de enfocarse únicamente en la resolución de conflictos, mientras promueve explícitamente el intercambio de información complementaria. Se realizan experimentos en cuatro benchmarks desafiantes de MTL que cubren escenarios de cambio de tareas y cambio de dominio. Los resultados muestran que Rep-MTL, incluso combinado con la política básica de ponderación igualitaria, logra ganancias competitivas en rendimiento con una eficiencia favorable. Más allá de las métricas de rendimiento estándar, el análisis del exponente de la Ley de Potencia demuestra la eficacia de Rep-MTL en equilibrar el aprendizaje específico de tareas y el intercambio entre tareas. La página del proyecto está disponible AQUÍ.
La reconstrucción de la inteligencia espacial 4D a partir de observaciones visuales ha sido durante mucho tiempo una tarea central pero desafiante en el campo de la visión por computadora, con amplias aplicaciones en el mundo real. Estas van desde dominios de entretenimiento como el cine, donde el enfoque suele estar en la reconstrucción de elementos visuales fundamentales, hasta la inteligencia artificial encarnada, que enfatiza el modelado de interacciones y el realismo físico. Impulsado por los rápidos avances en representaciones 3D y arquitecturas de aprendizaje profundo, el campo ha evolucionado rápidamente, superando el alcance de estudios previos. Además, los estudios existentes rara vez ofrecen un análisis exhaustivo de la estructura jerárquica de la reconstrucción de escenas 4D. Para abordar esta brecha, presentamos una nueva perspectiva que organiza los métodos existentes en cinco niveles progresivos de inteligencia espacial 4D: (1) Nivel 1 — reconstrucción de atributos 3D de bajo nivel (por ejemplo, profundidad, pose y mapas de puntos); (2) Nivel 2 — reconstrucción de componentes de escenas 3D (por ejemplo, objetos, humanos, estructuras); (3) Nivel 3 — reconstrucción de escenas dinámicas 4D; (4) Nivel 4 — modelado de interacciones entre componentes de la escena; y (5) Nivel 5 — incorporación de leyes y restricciones físicas. Concluimos el estudio discutiendo los principales desafíos en cada nivel y destacando direcciones prometedoras para avanzar hacia niveles aún más ricos de inteligencia espacial 4D. Para seguir los desarrollos en curso, mantenemos una página de proyecto actualizada: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
Los avances recientes, como la Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés), han mejorado las capacidades de razonamiento de los modelos de lenguaje de gran escala al optimizar la media aritmética de las recompensas a nivel de token. Sin embargo, GRPO presenta inestabilidad en las actualizaciones de políticas al procesar tokens con recompensas ponderadas por importancia atípicas, lo que se manifiesta como ratios de muestreo de importancia extremos durante el entrenamiento, es decir, la relación entre las probabilidades de muestreo asignadas a un token por las políticas actual y anterior. En este trabajo, proponemos la Optimización de Políticas de Media Geométrica (GMPO), una variante estabilizada de GRPO. En lugar de optimizar la media aritmética, GMPO maximiza la media geométrica de las recompensas a nivel de token, que es intrínsecamente menos sensible a valores atípicos y mantiene un rango más estable del ratio de muestreo de importancia. Además, proporcionamos un análisis teórico y experimental exhaustivo para justificar el diseño y los beneficios de estabilidad de GMPO. Más allá de la mejora en la estabilidad, GMPO-7B supera a GRPO en un promedio del 4.1% en múltiples benchmarks matemáticos y del 1.4% en el benchmark de razonamiento multimodal, incluyendo AIME24, AMC, MATH500, OlympiadBench, Minerva y Geometry3K. El código está disponible en https://github.com/callsys/GMPO.
Los modelos de razonamiento a gran escala (LRM, por sus siglas en inglés) con capacidades de cadena de pensamiento (CoT) extensa han demostrado un rendimiento sólido en tareas objetivas, como el razonamiento matemático y la codificación. Sin embargo, su efectividad en preguntas subjetivas que pueden tener respuestas diferentes desde distintas perspectivas sigue siendo limitada debido a una tendencia hacia un razonamiento homogéneo, introducido por la dependencia de una única verdad fundamental en el ajuste fino supervisado y de recompensas verificables en el aprendizaje por refuerzo. Motivados por el hallazgo de que aumentar las perspectivas de roles mejora consistentemente el rendimiento, proponemos MultiRole-R1, un marco mejorado con diversidad que incorpora múltiples perspectivas de roles, para mejorar la precisión y diversidad en tareas de razonamiento subjetivo. MultiRole-R1 incluye una canalización de construcción de datos no supervisada que genera cadenas de razonamiento que incorporan diversas perspectivas de roles. Además, empleamos aprendizaje por refuerzo mediante la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) con moldeado de recompensas, tomando la diversidad como una señal de recompensa adicional a la recompensa verificable. Con funciones de recompensa especialmente diseñadas, logramos promover la diversidad de perspectivas y la diversidad léxica, descubriendo una relación positiva entre la diversidad de razonamiento y la precisión. Nuestro experimento en seis puntos de referencia demuestra la efectividad y generalizabilidad de MultiRole-R1 para mejorar tanto el razonamiento subjetivo como el objetivo, mostrando el potencial del entrenamiento mejorado con diversidad en los LRM.
Los recientes avances en modelos multimodales de gran escala como GPT-4o han establecido un nuevo estándar para la edición de imágenes guiada por instrucciones de alta fidelidad. Sin embargo, la naturaleza propietaria de estos modelos y sus datos de entrenamiento representa una barrera significativa para la investigación de código abierto. Para cerrar esta brecha, presentamos GPT-IMAGE-EDIT-1.5M, un corpus de edición de imágenes de gran escala y disponible públicamente que contiene más de 1.5 millones de tripletas de alta calidad (instrucción, imagen fuente, imagen editada). Construimos este conjunto de datos de manera sistemática aprovechando las capacidades versátiles de GPT-4o para unificar y refinar tres conjuntos de datos populares de edición de imágenes: OmniEdit, HQ-Edit y UltraEdit. Específicamente, nuestra metodología implica 1) regenerar imágenes de salida para mejorar la calidad visual y la alineación con las instrucciones, y 2) reescribir selectivamente los prompts para mejorar la claridad semántica. Para validar la eficacia de nuestro conjunto de datos, ajustamos modelos avanzados de código abierto en GPT-IMAGE-EDIT-1.5M. Los resultados empíricos son prometedores; por ejemplo, el modelo FluxKontext ajustado logra un rendimiento altamente competitivo en una suite exhaustiva de benchmarks, incluyendo 7.24 en GEdit-EN, 3.80 en ImgEdit-Full y 8.78 en Complex-Edit, demostrando un mejor seguimiento de instrucciones y una mayor calidad perceptual mientras mantiene la identidad. Estas puntuaciones superan notablemente todos los métodos de código abierto publicados previamente y reducen sustancialmente la brecha con los modelos propietarios líderes. Esperamos que la publicación completa de GPT-IMAGE-EDIT-1.5M pueda catalizar una mayor investigación abierta en la edición de imágenes guiada por instrucciones.
El aprendizaje de representaciones visuales es fundamental para una amplia gama de tareas posteriores. Aunque los modelos recientes de contraste visión-lenguaje, como CLIP y SigLIP, han logrado un rendimiento impresionante en tareas de cero-shot mediante la alineación a gran escala entre visión y lenguaje, su dependencia de representaciones globales limita su eficacia en tareas de predicción densa, como la localización, OCR y segmentación. Para abordar esta brecha, presentamos Region-Aware Cluster Discrimination (RICE), un método novedoso que mejora las capacidades visuales y de OCR a nivel regional. Primero construimos un conjunto de datos de regiones candidatas a escala de mil millones y proponemos una capa de Region Transformer para extraer semántica regional rica. Además, diseñamos una función de pérdida unificada de discriminación de clústeres regionales que apoya conjuntamente el aprendizaje de objetos y OCR dentro de un único marco de clasificación, permitiendo un entrenamiento distribuido eficiente y escalable en datos a gran escala. Experimentos exhaustivos muestran que RICE supera consistentemente a métodos anteriores en tareas como segmentación, detección densa y percepción visual para Modelos de Lenguaje Multimodal a Gran Escala (MLLMs). Los modelos preentrenados han sido publicados en https://github.com/deepglint/MVT.
La rectificación de imágenes de documentos tiene como objetivo eliminar las deformaciones geométricas en documentos fotografiados para facilitar el reconocimiento de texto. Sin embargo, los métodos existentes a menudo pasan por alto la importancia de los elementos en primer plano, los cuales proporcionan referencias geométricas esenciales e información de diseño para la corrección de imágenes de documentos. En este artículo, presentamos la Red Centrada en el Primer Plano (ForCenNet) para eliminar las distorsiones geométricas en imágenes de documentos. Específicamente, proponemos inicialmente un método de generación de etiquetas centrado en el primer plano, el cual extrae elementos detallados del primer plano de una imagen sin distorsión. Luego, introducimos un mecanismo de máscara centrado en el primer plano para mejorar la distinción entre las regiones legibles y el fondo. Además, diseñamos una función de pérdida de consistencia de curvatura para aprovechar las etiquetas detalladas del primer plano y ayudar al modelo a comprender la distribución geométrica distorsionada. Experimentos extensos demuestran que ForCenNet alcanza un nuevo estado del arte en cuatro puntos de referencia del mundo real, como DocUNet, DIR300, WarpDoc y DocReal. El análisis cuantitativo muestra que el método propuesto efectivamente corrige elementos de diseño, como líneas de texto y bordes de tablas. Los recursos para comparaciones adicionales se proporcionan en https://github.com/caipeng328/ForCenNet.
La generación perpetua de escenas 3D tiene como objetivo producir secuencias de vistas 3D de largo alcance y coherentes, lo cual es aplicable para la síntesis de videos a largo plazo y la reconstrucción de escenas 3D. Los métodos existentes siguen un enfoque de "navegar e imaginar" y dependen de la extrapolación para la expansión sucesiva de vistas. Sin embargo, las secuencias de vistas generadas sufren de un problema de deriva semántica derivado de la desviación acumulada del módulo de extrapolación. Para abordar este desafío, proponemos ScenePainter, un nuevo marco para la generación de escenas 3D semánticamente consistentes, que alinea el conocimiento previo específico de la escena del extrapolador con la comprensión de la escena actual. Específicamente, introducimos una estructura jerárquica de grafos denominada SceneConceptGraph para construir relaciones entre conceptos de escena de múltiples niveles, lo cual guía al extrapolador para generar vistas novedosas consistentes y puede refinarse dinámicamente para mejorar la diversidad. Experimentos extensivos demuestran que nuestro marco supera el problema de deriva semántica y genera secuencias de vistas 3D más consistentes e inmersivas. Página del proyecto: https://xiac20.github.io/ScenePainter/.
El aumento en la frecuencia de eventos climáticos extremos debido al cambio climático global exige una predicción meteorológica precisa. Recientemente, se han logrado avances significativos mediante métodos de extremo a extremo, gracias a las técnicas de aprendizaje profundo, pero estos enfrentan limitaciones en la inconsistencia de representación en la integración multivariable y tienen dificultades para capturar eficazmente la dependencia entre variables, la cual es necesaria en sistemas climáticos complejos. Tratar diferentes variables como modalidades distintas y aplicar un enfoque de entrenamiento en dos etapas basado en modelos multimodales puede aliviar parcialmente este problema, pero debido a la falta de conformidad en las tareas de entrenamiento entre las dos etapas, los resultados suelen ser subóptimos. Para abordar estos desafíos, proponemos un método de entrenamiento implícito en dos etapas, configurando codificadores y decodificadores separados para cada variable. En detalle, en la primera etapa, el Traductor se congela mientras que los Codificadores y Decodificadores aprenden un espacio latente compartido; en la segunda etapa, los Codificadores y Decodificadores se congelan, y el Traductor captura las interacciones entre variables para la predicción. Además, al introducir un mecanismo de autoatención para la fusión multivariable en el espacio latente, se logran mejoras adicionales en el rendimiento. Empíricamente, experimentos extensos demuestran el rendimiento de vanguardia de nuestro método. Específicamente, reduce el error cuadrático medio (MSE) en las predicciones de temperatura del aire cerca de la superficie y humedad relativa en un 28.82% y 23.39%, respectivamente. El código fuente está disponible en https://github.com/ShremG/Met2Net.
Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han destacado el potencial del aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) para mejorar las capacidades de razonamiento a través de secuencias de salida extendidas. Sin embargo, los marcos tradicionales de RL enfrentan ineficiencias al manejar salidas ultra largas debido a distribuciones de secuencias de cola larga y al colapso de la entropía durante el entrenamiento. Para abordar estos desafíos, proponemos un enfoque de Aprendizaje por Refuerzo con Salida Ultra Larga (UloRL, por sus siglas en inglés) para avanzar en las capacidades de razonamiento de los modelos de lenguaje de gran escala. Específicamente, dividimos la decodificación de salidas ultra largas en segmentos cortos, permitiendo un entrenamiento eficiente al mitigar los retrasos causados por muestras de cola larga. Además, introducimos el enmascaramiento dinámico de Tokens Positivos Dominados (MPTs, por sus siglas en inglés) para prevenir el colapso de la entropía. Los resultados experimentales demuestran la efectividad de nuestro enfoque. En el modelo Qwen3-30B-A3B, el RL con despliegue de segmentos logró un aumento de 2.06x en la velocidad de entrenamiento, mientras que el entrenamiento de RL con salidas de 128k tokens mejora el rendimiento del modelo en AIME2025 del 70.9% al 85.1% y en BeyondAIME del 50.7% al 61.9%, superando incluso a Qwen3-235B-A22B con ganancias notables. Estos hallazgos subrayan el potencial de nuestros métodos para avanzar en las capacidades de razonamiento de los LLMs con la generación de secuencias ultra largas. Liberaremos nuestro código y modelo para su uso adicional por parte de la comunidad.
Los modelos de difusión y emparejamiento de flujo han revolucionado la generación automática de texto a audio en los últimos tiempos. Estos modelos son cada vez más capaces de generar salidas de audio de alta calidad y fidelidad que capturan el habla y eventos acústicos. Sin embargo, aún hay mucho margen de mejora en la generación creativa de audio que involucra principalmente música y canciones. Modelos recientes de letra a canción de código abierto, como DiffRhythm, ACE-Step y LeVo, han establecido un estándar aceptable en la generación automática de canciones para uso recreativo. No obstante, estos modelos carecen de la capacidad de control fino a nivel de palabra que los músicos suelen desear en sus flujos de trabajo. Hasta donde sabemos, nuestro modelo JAM basado en emparejamiento de flujo es el primer esfuerzo hacia la incorporación de control de tiempo y duración a nivel de palabra en la generación de canciones, permitiendo un control vocal de gran precisión. Para mejorar la calidad de las canciones generadas y alinearlas mejor con las preferencias humanas, implementamos la alineación estética mediante la Optimización Directa de Preferencias, que refina iterativamente el modelo utilizando un conjunto de datos sintéticos, eliminando la necesidad de anotaciones manuales de datos. Además, nuestro objetivo es estandarizar la evaluación de estos modelos de letra a canción a través de nuestro conjunto de datos de evaluación pública JAME. Demostramos que JAM supera a los modelos existentes en términos de atributos específicos de la música.
Presentamos Music Arena, una plataforma abierta para la evaluación escalable de preferencias humanas en modelos de texto a música (TTM, por sus siglas en inglés). La solicitud de preferencias humanas mediante estudios de escucha es el estándar de oro para la evaluación en TTM, pero estos estudios son costosos de realizar y difíciles de comparar, ya que los protocolos de estudio pueden variar entre sistemas. Además, las preferencias humanas podrían ayudar a los investigadores a alinear sus sistemas TTM o mejorar las métricas de evaluación automática, pero actualmente no existe una fuente abierta y renovable de preferencias. Nuestro objetivo es llenar estos vacíos ofreciendo una evaluación *en vivo* para TTM. En Music Arena, usuarios del mundo real introducen indicaciones de texto de su elección y comparan las salidas de dos sistemas TTM, y sus preferencias se utilizan para compilar una tabla de clasificación. Si bien Music Arena sigue las tendencias recientes de evaluación en otros dominios de IA, también lo diseñamos con características clave adaptadas a la música: un sistema de enrutamiento basado en modelos de lenguaje grandes (LLM) para navegar las firmas de tipo heterogéneas de los sistemas TTM, y la recopilación de preferencias *detalladas*, incluyendo datos de escucha y comentarios en lenguaje natural. También proponemos una política de lanzamiento continuo de datos con garantías de privacidad del usuario, proporcionando una fuente renovable de datos de preferencias y aumentando la transparencia de la plataforma. A través de su protocolo de evaluación estandarizado, políticas de acceso transparente a los datos y características específicas para la música, Music Arena no solo aborda desafíos clave en el ecosistema TTM, sino que también demuestra cómo la evaluación en vivo puede adaptarse cuidadosamente a las características únicas de dominios específicos de IA. Music Arena está disponible en: https://music-arena.org
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables en la mejora del razonamiento paso a paso mediante el aprendizaje por refuerzo. Sin embargo, el algoritmo de Optimización de Políticas Relativas por Grupos (GRPO, por sus siglas en inglés), que se basa en reglas de recompensas dispersas, a menudo enfrenta el problema de recompensas idénticas dentro de los grupos, lo que conduce al colapso de la ventaja. Los trabajos existentes suelen abordar este desafío desde dos perspectivas: forzar la reflexión del modelo para mejorar la diversidad de respuestas e introducir retroalimentación interna para aumentar la señal de entrenamiento (ventaja). En este trabajo, comenzamos analizando las limitaciones de la reflexión del modelo e investigando la entropía de la política de respuestas a nivel de muestra detallado. Basándonos en nuestros hallazgos experimentales, proponemos el algoritmo EDGE-GRPO, que adopta una Ventaja Impulsada por la Entropía y Corrección de Errores Guiada para mitigar eficazmente el problema del colapso de la ventaja. Experimentos exhaustivos en varios benchmarks principales de razonamiento demuestran la efectividad y superioridad de nuestro enfoque. Está disponible en https://github.com/ZhangXJ199/EDGE-GRPO.
Cuando los modelos de lenguaje (LM, por sus siglas en inglés) se entrenan mediante aprendizaje por refuerzo (RL, por sus siglas en inglés) para generar "cadenas de razonamiento" en lenguaje natural, su rendimiento mejora en una variedad de tareas complejas de respuesta a preguntas. Hoy en día, casi todas las aplicaciones exitosas de RL para el razonamiento utilizan funciones de recompensa binarias que evalúan la corrección de las salidas de los LM. Dado que estas funciones de recompensa no penalizan las conjeturas o las salidas con baja confianza, a menudo tienen el efecto secundario no deseado de degradar la calibración y aumentar la frecuencia con la que los LM generan respuestas incorrectas (o "alucinan") en otros dominios de problemas. Este artículo describe RLCR (Reinforcement Learning with Calibration Rewards), un enfoque para entrenar modelos de razonamiento que mejora conjuntamente la precisión y la estimación de confianza calibrada. Durante RLCR, los LM generan tanto predicciones como estimaciones numéricas de confianza después del razonamiento. Se entrenan para optimizar una función de recompensa que combina una puntuación binaria de corrección con una puntuación de Brier, una regla de puntuación para estimaciones de confianza que incentiva la predicción calibrada. Primero demostramos que esta función de recompensa (o cualquier función de recompensa análoga que utilice una regla de puntuación propia y acotada) produce modelos cuyas predicciones son tanto precisas como bien calibradas. A continuación, mostramos que, en diversos conjuntos de datos, RLCR mejora sustancialmente la calibración sin pérdida de precisión, tanto en evaluaciones dentro del dominio como fuera del dominio, superando tanto al entrenamiento RL ordinario como a los clasificadores entrenados para asignar puntuaciones de confianza a posteriori. Mientras que el RL ordinario perjudica la calibración, RLCR la mejora. Finalmente, demostramos que la confianza verbalizada puede aprovecharse en el momento de la prueba para mejorar la precisión y la calibración mediante métodos de escalado ponderado por confianza. Nuestros resultados muestran que optimizar explícitamente para la calibración puede producir modelos de razonamiento más confiables en general.
La demanda de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) capaces de realizar razonamientos matemáticos sofisticados está creciendo en diversos sectores. Sin embargo, el desarrollo de LLMs matemáticos de alto rendimiento se ve gravemente limitado por la escasez de datos de entrenamiento difíciles y novedosos. Presentamos SAND-Math (Problemas y Soluciones Matemáticas Sintéticas, Aumentadas, Novedosas y Difíciles), una pipeline que aborda este problema generando primero problemas de alta calidad desde cero y luego elevando sistemáticamente su complejidad mediante un nuevo paso denominado Difficulty Hiking (Aumento de Dificultad). Demostramos la efectividad de nuestro enfoque a través de dos hallazgos clave. En primer lugar, al aumentar un modelo base sólido con datos de SAND-Math, se mejora significativamente el rendimiento, superando al mejor conjunto de datos sintéticos en hasta 17.85 puntos absolutos en el benchmark AIME25. En segundo lugar, en un estudio de ablación dedicado, mostramos que nuestro proceso de Difficulty Hiking es altamente efectivo: al aumentar la dificultad promedio de los problemas de 5.02 a 5.98, este paso eleva el rendimiento en AIME25 del 46.38% al 49.23%. La pipeline completa de generación, el conjunto de datos final y un modelo ajustado forman un kit de herramientas práctico y escalable para construir LLMs de razonamiento matemático más capaces y eficientes. El conjunto de datos SAND-Math está disponible aquí: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}.
Los simuladores de usuarios son esenciales para la IA conversacional, permitiendo el desarrollo y evaluación escalable de agentes a través de interacciones simuladas. Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) actuales han avanzado en capacidades de simulación de usuarios, revelamos que tienen dificultades para demostrar consistentemente un comportamiento orientado a objetivos en conversaciones de múltiples turnos, una limitación crítica que compromete su confiabilidad en aplicaciones posteriores. Introducimos el Seguimiento del Estado del Objetivo del Usuario (UGST, por sus siglas en inglés), un marco novedoso que rastrea el progreso del objetivo del usuario a lo largo de las conversaciones. Aprovechando UGST, presentamos una metodología de tres etapas para desarrollar simuladores de usuarios que puedan rastrear de manera autónoma el progreso del objetivo y razonar para generar respuestas alineadas con el objetivo. Además, establecemos métricas de evaluación integrales para medir la alineación con el objetivo en los simuladores de usuarios, y demostramos que nuestro enfoque produce mejoras sustanciales en dos puntos de referencia (MultiWOZ 2.4 y {\tau}-Bench). Nuestras contribuciones abordan una brecha crítica en la IA conversacional y establecen UGST como un marco esencial para desarrollar simuladores de usuarios alineados con objetivos.
El análisis de expresión génica es clave para muchos descubrimientos biomédicos, sin embargo, extraer conocimientos de los datos transcriptómicos crudos sigue siendo un desafío formidable debido a la complejidad de múltiples archivos grandes y semiestructurados, y a la necesidad de un amplio conocimiento del dominio. Los enfoques actuales de automatización suelen estar limitados por flujos de trabajo inflexibles que fallan en casos extremos o por agentes completamente autónomos que carecen de la precisión necesaria para una investigación científica rigurosa. GenoMAS traza un camino diferente al presentar un equipo de científicos basados en LLM que integra la confiabilidad de los flujos de trabajo estructurados con la adaptabilidad de los agentes autónomos. GenoMAS orquesta seis agentes LLM especializados a través de protocolos de paso de mensajes tipados, cada uno contribuyendo con fortalezas complementarias a un lienzo analítico compartido. En el núcleo de GenoMAS se encuentra un marco de planificación guiada: los agentes de programación desglosan las directrices de tareas de alto nivel en Unidades de Acción y, en cada punto, eligen avanzar, revisar, omitir o retroceder, manteniendo así la coherencia lógica mientras se adaptan con flexibilidad a las idiosincrasias de los datos genómicos. En el benchmark GenoTEX, GenoMAS alcanza una Correlación de Similitud Compuesta del 89.13% para el preprocesamiento de datos y un F_1 del 60.48% para la identificación de genes, superando el mejor arte previo en un 10.61% y un 16.85% respectivamente. Más allá de las métricas, GenoMAS descubre asociaciones gen-fenotipo biológicamente plausibles corroboradas por la literatura, todo ello ajustando los factores de confusión latentes. El código está disponible en https://github.com/Liu-Hy/GenoMAS.
A medida que los modelos de lenguaje de gran escala (LLMs) integran cada vez más intérpretes de código nativo, habilitan capacidades de ejecución en tiempo real potentes, ampliando sustancialmente su utilidad. Sin embargo, estas integraciones introducen posibles amenazas de ciberseguridad a nivel de sistema, fundamentalmente diferentes de las vulnerabilidades basadas en prompts. Para evaluar sistemáticamente estos riesgos específicos del intérprete, proponemos CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), un benchmark simple que comprende 1,260 prompts dirigidos al agotamiento de recursos de CPU, memoria y disco. Cada categoría de riesgo incluye variantes de prompts explícitamente maliciosas ("directas") y aparentemente benignas ("indirectas"). Nuestro marco de evaluación automatizado no solo verifica si los LLMs rechazan o generan código riesgoso, sino que también ejecuta el código generado dentro del entorno del intérprete para evaluar la corrección del código, las simplificaciones realizadas por el LLM para hacerlo seguro o los tiempos de espera de ejecución. Al evaluar 7 modelos disponibles comercialmente de OpenAI y Google, descubrimos vulnerabilidades significativas e inconsistentes. Por ejemplo, las evaluaciones muestran disparidades sustanciales incluso dentro de los mismos proveedores: el o4-mini de OpenAI rechaza correctamente solicitudes riesgosas en un 7.1%, una tasa notablemente más alta en comparación con el GPT-4.1, que lo hace en un 0.5%. Los resultados destacan especialmente que los prompts indirectos, diseñados socialmente, debilitan sustancialmente las defensas del modelo. Esto subraya la necesidad urgente de benchmarks de ciberseguridad específicos para intérpretes, herramientas de mitigación dedicadas (por ejemplo, barreras de protección) y estándares claros de la industria para guiar el despliegue seguro y responsable de las integraciones de intérpretes en LLMs. El conjunto de datos del benchmark y el código de evaluación se han publicado públicamente para fomentar más investigación.