Artículos de investigación en IA seleccionados diariamente con traducciones
En este artículo, revisamos los avances recientes en Aprendizaje por Refuerzo (RL, por sus siglas en inglés) aplicado al razonamiento con Modelos de Lenguaje a Gran Escala (LLMs). El RL ha logrado un éxito notable al impulsar las capacidades de los LLMs, especialmente en la resolución de tareas lógicas complejas como las matemáticas y la programación. Como resultado, el RL se ha consolidado como una metodología fundamental para transformar los LLMs en Modelos de Razonamiento a Gran Escala (LRMs). Con el rápido progreso del campo, la escalabilidad del RL para los LRMs enfrenta ahora desafíos fundamentales, no solo en términos de recursos computacionales, sino también en el diseño de algoritmos, los datos de entrenamiento y la infraestructura. Por ello, es oportuno revisar el desarrollo de este dominio, reevaluar su trayectoria y explorar estrategias para mejorar la escalabilidad del RL hacia la SuperInteligencia Artificial (ASI). En particular, examinamos investigaciones que aplican el RL a LLMs y LRMs para mejorar las habilidades de razonamiento, especialmente desde el lanzamiento de DeepSeek-R1, incluyendo componentes fundamentales, problemas centrales, recursos de entrenamiento y aplicaciones posteriores, con el fin de identificar oportunidades y direcciones futuras para esta área en rápida evolución. Esperamos que esta revisión promueva futuras investigaciones sobre el RL para modelos de razonamiento más amplios. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
Los Modelos de Recompensa (RMs) son fundamentales para mejorar los modelos de generación mediante Aprendizaje por Refuerzo (RL), sin embargo, el paradigma de escalado de RMs en generación visual sigue siendo en gran parte inexplorado. Esto se debe principalmente a limitaciones fundamentales en los enfoques existentes: los RMs basados en CLIP sufren restricciones arquitectónicas y de modalidad de entrada, mientras que las funciones de pérdida Bradley-Terry prevalentes están fundamentalmente desalineadas con el mecanismo de predicción del siguiente token de los Modelos de Visión-Lenguaje (VLMs), lo que dificulta un escalado efectivo. Más críticamente, el proceso de optimización de RLHF se ve afectado por el problema de "Reward Hacking", donde los modelos explotan fallas en la señal de recompensa sin mejorar la calidad real. Para abordar estos desafíos, presentamos RewardDance, un marco escalable de modelado de recompensas que supera estas barreras mediante un nuevo paradigma de recompensa generativa. Al reformular la puntuación de recompensa como la probabilidad del modelo de predecir un token "sí", indicando que la imagen generada supera a una imagen de referencia según criterios específicos, RewardDance alinea intrínsecamente los objetivos de recompensa con las arquitecturas de VLM. Esta alineación permite el escalado en dos dimensiones: (1) Escalado de Modelos: Escalado sistemático de RMs hasta 26 mil millones de parámetros; (2) Escalado de Contexto: Integración de instrucciones específicas de tarea, ejemplos de referencia y razonamiento en cadena (CoT). Experimentos extensos demuestran que RewardDance supera significativamente a los métodos más avanzados en generación de texto a imagen, texto a video e imagen a video. Crucialmente, resolvemos el desafío persistente del "reward hacking": Nuestros RMs a gran escala exhiben y mantienen una alta varianza de recompensa durante el ajuste fino de RL, demostrando su resistencia al hacking y su capacidad para producir salidas diversas y de alta calidad. Esto alivia en gran medida el problema de colapso de modos que afecta a los modelos más pequeños.
La modelización del mundo se ha convertido en un pilar fundamental en la investigación de IA, permitiendo a los agentes comprender, representar y predecir los entornos dinámicos en los que operan. Si bien trabajos previos han enfatizado principalmente métodos generativos para datos de imágenes y videos en 2D, han pasado por alto el creciente cuerpo de investigación que aprovecha representaciones nativas en 3D y 4D, como imágenes RGB-D, mallas de ocupación y nubes de puntos LiDAR, para la modelización de escenas a gran escala. Al mismo tiempo, la ausencia de una definición y taxonomía estandarizadas para los "modelos del mundo" ha llevado a afirmaciones fragmentadas y, en ocasiones, inconsistentes en la literatura. Esta revisión aborda estas brechas al presentar la primera revisión exhaustiva dedicada explícitamente a la modelización y generación de mundos en 3D y 4D. Establecemos definiciones precisas, introducimos una taxonomía estructurada que abarca enfoques basados en video (VideoGen), en ocupación (OccGen) y en LiDAR (LiDARGen), y resumimos sistemáticamente conjuntos de datos y métricas de evaluación adaptados a entornos 3D/4D. Además, discutimos aplicaciones prácticas, identificamos desafíos abiertos y destacamos direcciones de investigación prometedoras, con el objetivo de proporcionar una referencia coherente y fundamental para avanzar en este campo. Un resumen sistemático de la literatura existente está disponible en https://github.com/worldbench/survey.
El desarrollo de agentes autónomos basados en LLM (Modelos de Lenguaje de Gran Escala) capaces de tomar una serie de decisiones inteligentes para resolver tareas complejas del mundo real es una frontera en rápida evolución. Al igual que el desarrollo cognitivo humano, se espera que estos agentes adquieran conocimientos y habilidades a través de la exploración y la interacción con el entorno. A pesar de los avances, la comunidad aún carece de un marco unificado de aprendizaje por refuerzo (RL) interactivo que pueda entrenar eficazmente a estos agentes desde cero —sin depender del ajuste fino supervisado (SFT)— en entornos diversos y realistas. Para cerrar esta brecha, presentamos AgentGym-RL, un nuevo marco para entrenar agentes LLM en la toma de decisiones interactivas de múltiples turnos mediante RL. Este marco cuenta con una arquitectura modular y desacoplada, lo que garantiza una alta flexibilidad y extensibilidad. Abarca una amplia variedad de escenarios del mundo real y es compatible con los principales algoritmos de RL. Además, proponemos ScalingInter-RL, un enfoque de entrenamiento diseñado para equilibrar la exploración-explotación y optimizar de manera estable el RL. En las etapas iniciales, enfatiza la explotación al limitar el número de interacciones, y gradualmente se inclina hacia la exploración con horizontes más amplios para fomentar estrategias diversas de resolución de problemas. De esta manera, el agente desarrolla comportamientos más variados y es menos propenso a colapsar en horizontes largos. Realizamos extensos experimentos para validar la estabilidad y efectividad tanto del marco AgentGym-RL como del enfoque ScalingInter-RL. Nuestros agentes igualan o superan a modelos comerciales en 27 tareas en diversos entornos. Ofrecemos ideas clave y liberaremos el marco completo de AgentGym-RL —incluyendo código y conjuntos de datos— para empoderar a la comunidad de investigación en el desarrollo de la próxima generación de agentes inteligentes.
Segmentar activos 3D en sus partes constituyentes es crucial para mejorar la comprensión 3D, facilitar la reutilización de modelos y respaldar diversas aplicaciones, como la generación de partes. Sin embargo, los métodos actuales enfrentan limitaciones, como una baja robustez al tratar con objetos complejos y la incapacidad de automatizar completamente el proceso. En este artículo, proponemos un modelo nativo de segmentación de partes mediante puntos 3D, denominado P3-SAM, diseñado para automatizar completamente la segmentación de cualquier objeto 3D en sus componentes. Inspirado en SAM, P3-SAM consta de un extractor de características, múltiples cabezales de segmentación y un predictor de IoU, lo que permite la segmentación interactiva para los usuarios. También proponemos un algoritmo para seleccionar y fusionar automáticamente las máscaras predichas por nuestro modelo para la segmentación de instancias de partes. Nuestro modelo se entrena en un nuevo conjunto de datos que contiene casi 3.7 millones de modelos con etiquetas de segmentación razonables. Las comparaciones muestran que nuestro método logra resultados de segmentación precisos y una fuerte robustez en cualquier objeto complejo, alcanzando un rendimiento de vanguardia. Nuestro código se lanzará pronto.
En este informe, presentamos Hunyuan-MT-7B, nuestro primer modelo de traducción multilingüe de código abierto, que soporta traducción bidireccional entre 33 idiomas principales y hace especial énfasis en la traducción entre el mandarín y varias lenguas minoritarias, así como dialectos. Además, para abordar diversos escenarios de traducción y mejorar el rendimiento del modelo durante las pruebas, introducimos Hunyuan-MT-Chimera-7B, un modelo de traducción inspirado en el modo de pensamiento lento. Este modelo integra múltiples salidas generadas por el modelo Hunyuan-MT-7B bajo diferentes configuraciones de parámetros, logrando así un rendimiento superior al de los modelos convencionales de pensamiento lento basados en Chain-of-Thought (CoT). El desarrollo de nuestros modelos sigue un proceso de entrenamiento holístico específicamente diseñado para la traducción multilingüe, que comienza con un preentrenamiento general y orientado a la traducción automática para construir capacidades fundamentales, continúa con un Ajuste Supervisado (SFT) para la adaptación a tareas específicas, y culmina con una alineación avanzada mediante Aprendizaje por Refuerzo (RL) y RL de débil a fuerte. A través de experimentación exhaustiva, demostramos que tanto Hunyuan-MT-7B como Hunyuan-MT-Chimera-7B superan significativamente a todos los modelos específicos de traducción de tamaño de parámetros comparable y a la mayoría de los modelos grandes SOTA, particularmente en la tarea de traducción entre el mandarín y lenguas minoritarias, así como dialectos. En la tarea compartida de WMT2025 (Traducción Automática General), nuestros modelos demuestran un rendimiento de vanguardia, ocupando el primer lugar en 30 de los 31 pares de idiomas. Este resultado resalta la robustez de nuestros modelos en un espectro lingüístico diverso, que abarca idiomas de alto recurso como el chino, inglés y japonés, así como idiomas de bajo recurso, incluyendo checo, maratí, estonio e islandés.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) modernos son excelentes para generar datos sintéticos. Sin embargo, su desempeño en dominios sensibles, como la desintoxicación de texto, no ha recibido la atención adecuada por parte de la comunidad científica. Este artículo explora la posibilidad de utilizar datos tóxicos sintéticos generados por LLMs como una alternativa a los datos generados por humanos para entrenar modelos de desintoxicación. Utilizando modelos de Llama 3 y Qwen con parches de activación, generamos contrapartes tóxicas sintéticas para textos neutrales de los conjuntos de datos ParaDetox y SST-2. Nuestros experimentos muestran que los modelos ajustados con datos sintéticos tienen un desempeño consistentemente inferior al de aquellos entrenados con datos humanos, con una caída en el rendimiento de hasta un 30% en métricas conjuntas. La causa principal se identifica como una brecha crítica en la diversidad léxica: los LLMs generan contenido tóxico utilizando un vocabulario pequeño y repetitivo de insultos que no logra capturar los matices y la variedad de la toxicidad humana. Estos hallazgos resaltan las limitaciones de los LLMs actuales en este dominio y enfatizan la importancia continua de los datos diversos y anotados por humanos para construir sistemas de desintoxicación robustos.
La Inteligencia Artificial Generativa está emergiendo como una tecnología importante, prometiendo ser transformadora en muchas áreas. Al mismo tiempo, las técnicas de IA generativa se basan en el muestreo de modelos probabilísticos y, por defecto, no ofrecen garantías sobre su corrección, seguridad, equidad u otras propiedades. Los métodos estadísticos ofrecen un enfoque prometedor para mejorar la confiabilidad de las técnicas de IA generativa. Además, los métodos estadísticos también son prometedores para mejorar la calidad y eficiencia de la evaluación de la IA, así como para diseñar intervenciones y experimentos en IA. En este artículo, revisamos parte del trabajo existente sobre estos temas, explicando tanto las técnicas estadísticas generales utilizadas como sus aplicaciones a la IA generativa. También discutimos limitaciones y posibles direcciones futuras.
El escalado del cómputo en tiempo de prueba, mediante la generación de múltiples soluciones independientes y la selección o agregación entre ellas, se ha convertido en un paradigma central para mejorar los modelos de lenguaje de gran escala (LLMs) en tareas de razonamiento desafiantes. Si bien la mayoría de los trabajos previos se basan en votaciones mayoritarias simples o en la clasificación mediante modelos de recompensa para agregar soluciones, estos enfoques pueden ofrecer beneficios limitados. En este trabajo, proponemos aprender la agregación como una habilidad de razonamiento explícita: dado un conjunto de soluciones candidatas, entrenamos un modelo agregador para revisar, reconciliar y sintetizar una respuesta final correcta utilizando aprendizaje por refuerzo a partir de recompensas verificables. Un ingrediente clave es el equilibrio cuidadoso entre ejemplos de entrenamiento fáciles y difíciles, lo que permite al modelo aprender tanto a recuperar respuestas minoritarias pero correctas como respuestas mayoritarias fáciles. Empíricamente, encontramos que nuestro método, AggLM, supera tanto a baselines basados en reglas como a modelos de recompensa, en múltiples benchmarks. Además, generaliza efectivamente a soluciones provenientes de modelos diferentes, incluyendo aquellos más fuertes que los contenidos en los datos de entrenamiento, todo ello requiriendo sustancialmente menos tokens que la votación mayoritaria con un mayor número de soluciones.
La amplia disponibilidad de repositorios de código abierto ha dado lugar a una vasta colección de componentes de software reutilizables, aunque su utilización sigue siendo manual, propensa a errores y desconectada. Los desarrolladores deben navegar por la documentación, comprender las APIs y escribir código de integración, lo que crea barreras significativas para la reutilización eficiente del software. Para abordar esto, presentamos EnvX, un marco que aprovecha la IA Agéntica para convertir los repositorios de GitHub en agentes inteligentes y autónomos capaces de interactuar mediante lenguaje natural y colaborar entre sí. A diferencia de los enfoques existentes que tratan los repositorios como recursos de código estáticos, EnvX los reinterpreta como agentes activos a través de un proceso de tres fases: (1) inicialización del entorno guiada por TODO, que configura las dependencias, datos y conjuntos de validación necesarios; (2) automatización agéntica alineada con humanos, permitiendo que los agentes específicos de cada repositorio realicen tareas del mundo real de manera autónoma; y (3) protocolo Agente-a-Agente (A2A), que permite la colaboración entre múltiples agentes. Al combinar las capacidades de los modelos de lenguaje de gran escala con la integración estructurada de herramientas, EnvX automatiza no solo la generación de código, sino todo el proceso de comprensión, inicialización y puesta en funcionamiento de la funcionalidad de los repositorios. Evaluamos EnvX en el benchmark GitTaskBench, utilizando 18 repositorios en dominios como procesamiento de imágenes, reconocimiento de voz, análisis de documentos y manipulación de video. Nuestros resultados muestran que EnvX alcanza una tasa de finalización de ejecución del 74.07% y una tasa de aprobación de tareas del 51.85%, superando a los marcos existentes. Estudios de caso demuestran además la capacidad de EnvX para habilitar la colaboración entre múltiples repositorios mediante el protocolo A2A. Este trabajo marca un cambio en la concepción de los repositorios, pasando de ser recursos de código pasivos a agentes inteligentes e interactivos, fomentando una mayor accesibilidad y colaboración dentro del ecosistema de código abierto.
A medida que los humanos delegan más tareas y decisiones a la inteligencia artificial (IA), corremos el riesgo de perder el control de nuestros futuros individuales y colectivos. Sistemas algorítmicos relativamente simples ya dirigen la toma de decisiones humanas, como los algoritmos de feeds de redes sociales que llevan a las personas a desplazarse de manera involuntaria y distraída a través de contenido optimizado para el engagement. En este artículo, desarrollamos la idea de la agencia humana integrando teorías filosóficas y científicas de la agencia con métodos de evaluación asistidos por IA: utilizando modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para simular y validar consultas de usuarios y evaluar las respuestas de la IA. Desarrollamos HumanAgencyBench (HAB), un punto de referencia escalable y adaptable con seis dimensiones de la agencia humana basadas en casos de uso típicos de la IA. HAB mide la tendencia de un asistente o agente de IA a Hacer Preguntas de Clarificación, Evitar la Manipulación de Valores, Corregir Información Errónea, Deferir Decisiones Importantes, Fomentar el Aprendizaje y Mantener Límites Sociales. Encontramos un apoyo bajo a moderado para la agencia en los asistentes contemporáneos basados en LLMs y una variación sustancial entre los desarrolladores de sistemas y las dimensiones. Por ejemplo, aunque los LLMs de Anthropic son los que más apoyan la agencia humana en general, son los menos favorables en términos de Evitar la Manipulación de Valores. El apoyo a la agencia no parece resultar consistentemente del aumento de las capacidades de los LLMs o del comportamiento de seguimiento de instrucciones (por ejemplo, RLHF), y fomentamos un cambio hacia objetivos de seguridad y alineación más robustos.