Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

RobustFT: Ajuste Fino Supervisado Robusto para Modelos de Lenguaje Grandes ante Respuestas Ruidosas
RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Dec 19

ByJunyu Luo, Xiao Luo, Kaize Ding, Jingyang Yuan, Zhiping Xiao, Ming Zhang

El ajuste fino supervisado (SFT) desempeña un papel crucial en la adaptación de modelos de lenguaje grandes (LLMs) a dominios o tareas específicas. Sin embargo, como lo demuestran experimentos empíricos, los datos recopilados contienen inevitablemente ruido en aplicaciones prácticas, lo que plantea desafíos significativos para el rendimiento del modelo en tareas posteriores. Por lo tanto, existe una necesidad urgente de un marco de trabajo de SFT robusto al ruido para mejorar las capacidades del modelo en tareas posteriores. Para abordar este desafío, presentamos un marco de trabajo de SFT robusto (RobustFT) que realiza detección y etiquetado de ruido en los datos de tareas posteriores. Para la identificación de ruido, nuestro enfoque emplea un sistema colaborativo de múltiples expertos con modelos mejorados por inferencia para lograr una detección de ruido superior. En la fase de eliminación de ruido, utilizamos una estrategia mejorada por contexto, que incorpora el conocimiento más relevante y confiable seguido de una evaluación cuidadosa para generar anotaciones confiables. Además, introducimos un mecanismo efectivo de selección de datos basado en la entropía de respuesta, asegurando que solo se retengan muestras de alta calidad para el ajuste fino. Experimentos extensos realizados en múltiples LLMs en cinco conjuntos de datos demuestran el rendimiento excepcional de RobustFT en escenarios ruidosos.

B-STaR: Monitoreo y Equilibrio de la Exploración y Explotación en Razonadores Autodidactas
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Dec 23

ByWeihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He

En ausencia de datos extensos anotados por humanos para tareas de razonamiento complejo, la auto-mejora, donde los modelos se entrenan con sus propias salidas, ha surgido como un método principal para mejorar el rendimiento. Sin embargo, los factores críticos subyacentes al mecanismo de estos métodos iterativos de auto-mejora siguen siendo poco comprendidos, como en qué condiciones la auto-mejora es efectiva y cuáles son los cuellos de botella en las iteraciones actuales. En este trabajo, identificamos y proponemos métodos para monitorear dos factores fundamentales en este proceso iterativo: (1) la capacidad del modelo para generar respuestas lo suficientemente diversas (exploración); y (2) la efectividad de las recompensas externas para distinguir candidatos de alta calidad de aquellos de menor calidad (explotación). Utilizando el razonamiento matemático como estudio de caso, comenzamos con un análisis cuantitativo para rastrear la dinámica de la exploración y explotación, descubriendo que las capacidades exploratorias de un modelo se deterioran rápidamente a lo largo de las iteraciones, y la efectividad de explotar recompensas externas también disminuye. Motivados por estos hallazgos, presentamos B-STaR, un marco de Razonamiento Autoenseñado que ajusta automáticamente las configuraciones a lo largo de las iteraciones para equilibrar la exploración y explotación, optimizando así la efectividad de la auto-mejora basada en el modelo de política actual y las recompensas disponibles. Nuestros experimentos en razonamiento matemático, codificación y razonamiento de sentido común demuestran que B-STaR no solo mejora las capacidades exploratorias del modelo durante todo el entrenamiento, sino que también logra un equilibrio más efectivo entre exploración y explotación, lo que conduce a un rendimiento superior.

Adentrándose en el Entrenamiento Autoevolutivo para el Razonamiento Multimodal
Diving into Self-Evolving Training for Multimodal Reasoning

Dec 23

ByWei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He

La capacidad de razonamiento es esencial para los Modelos Multimodales Grandes (LMMs). Ante la ausencia de datos anotados de cadena de pensamiento multimodal, ha surgido el entrenamiento autoevolutivo, donde el modelo aprende de sus propias salidas, como un enfoque efectivo y escalable para mejorar las habilidades de razonamiento. A pesar de su creciente uso, la comprensión integral del entrenamiento autoevolutivo, especialmente en el contexto del razonamiento multimodal, sigue siendo limitada. En este documento, profundizamos en las complejidades del entrenamiento autoevolutivo para el razonamiento multimodal, señalando tres factores clave: Método de Entrenamiento, Modelo de Recompensa y Variación de Estímulo. Examinamos sistemáticamente cada factor y exploramos cómo diversas configuraciones afectan la efectividad del entrenamiento. Nuestro análisis conduce a un conjunto de mejores prácticas para cada factor, con el objetivo de optimizar el razonamiento multimodal. Además, exploramos la Dinámica de Autoevolución durante el entrenamiento y el impacto de los mecanismos automáticos de equilibrio en el aumento del rendimiento. Después de todas las investigaciones, presentamos una receta final para el entrenamiento autoevolutivo en el razonamiento multimodal, encapsulando estas elecciones de diseño en un marco que llamamos MSTaR (Entrenamiento Multimodal Autoevolutivo para el Razonamiento), que es universalmente efectivo para modelos de diferentes tamaños en varios benchmarks, superando significativamente al modelo pre-evolucionado en 5 benchmarks de razonamiento multimodal sin utilizar anotaciones humanas adicionales, como se demostró en MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Creemos que este estudio llena una brecha significativa en la comprensión del entrenamiento autoevolutivo para el razonamiento multimodal y ofrece un marco sólido para futuras investigaciones. Nuestros modelos de política y recompensa, así como los datos recopilados, se han publicado para facilitar investigaciones adicionales en el razonamiento multimodal.

Decodificación Destilada 1: Muestreo de un Paso de Modelos Auto-regresivos de Imagen con Coincidencia de Flujos
Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching

Dec 22

ByEnshu Liu, Xuefei Ning, Yu Wang, Zinan Lin

Los modelos autorregresivos (AR) han logrado un rendimiento de vanguardia en la generación de texto e imágenes, pero sufren de una generación lenta debido al proceso token por token. Planteamos una pregunta ambiciosa: ¿se puede adaptar un modelo AR pre-entrenado para generar salidas en solo uno o dos pasos? En caso de éxito, esto avanzaría significativamente en el desarrollo y despliegue de modelos AR. Observamos que los trabajos existentes que intentan acelerar la generación AR al generar múltiples tokens a la vez no pueden capturar fundamentalmente la distribución de salida debido a las dependencias condicionales entre tokens, lo que limita su efectividad para la generación de pocos pasos. Para abordar esto, proponemos Decodificación Destilada (DD), que utiliza el emparejamiento de flujo para crear un mapeo determinista de una distribución gaussiana a la distribución de salida del modelo AR pre-entrenado. Luego entrenamos una red para destilar este mapeo, permitiendo la generación de pocos pasos. DD no necesita los datos de entrenamiento del modelo AR original, lo que lo hace más práctico. Evaluamos DD en modelos AR de imagen de vanguardia y presentamos resultados prometedores en ImageNet-256. Para VAR, que requiere una generación de 10 pasos, DD permite la generación en un paso (aumento de velocidad de 6.3 veces), con un aumento aceptable en FID de 4.19 a 9.96. Para LlamaGen, DD reduce la generación de 256 pasos a 1, logrando un aumento de velocidad de 217.8 veces con un aumento FID comparable de 4.11 a 11.35. En ambos casos, los métodos de referencia fallan por completo con FID>100. DD también destaca en la generación de texto a imagen, reduciendo la generación de 256 pasos a 2 para LlamaGen con un aumento mínimo de FID de 25.70 a 28.95. Como el primer trabajo que demuestra la posibilidad de generación en un paso para modelos AR de imagen, DD desafía la noción predominante de que los modelos AR son inherentemente lentos y abre nuevas oportunidades para una generación AR eficiente. El sitio web del proyecto se encuentra en https://imagination-research.github.io/distilled-decoding.

Sistema de OpenAI o1
OpenAI o1 System Card

Dec 21

ByOpenAI, Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, Alex Iftimie, Alex Karpenko, Alex Tachard Passos, Alexander Neitz, Alexander Prokofiev, Alexander Wei, Allison Tam, Ally Bennett, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Duberstein, Andrew Kondrich, Andrey Mishchenko, Andy Applebaum, Angela Jiang, Ashvin Nair, Barret Zoph, Behrooz Ghorbani, Ben Rossen, Benjamin Sokolowsky, Boaz Barak, Bob McGrew, Borys Minaiev, Botao Hao, Bowen Baker, Brandon Houghton, Brandon McKinzie, Brydon Eastman, Camillo Lugaresi, Cary Bassin, Cary Hudson, Chak Ming Li, Charles de Bourcy, Chelsea Voss, Chen Shen, Chong Zhang, Chris Koch, Chris Orsinger, Christopher Hesse, Claudia Fischer, Clive Chan, Dan Roberts, Daniel Kappler, Daniel Levy, Daniel Selsam, David Dohan, David Farhi, David Mely, David Robinson, Dimitris Tsipras, Doug Li, Dragos Oprica, Eben Freeman, Eddie Zhang, Edmund Wong, Elizabeth Proehl, Enoch Cheung, Eric Mitchell, Eric Wallace, Erik Ritter, Evan Mays, Fan Wang, Felipe Petroski Such, Filippo Raso, Florencia Leoni, Foivos Tsimpourlas, Francis Song, Fred von Lohmann, Freddie Sulit, Geoff Salmon, Giambattista Parascandolo, Gildas Chabot, Grace Zhao, Greg Brockman, Guillaume Leclerc, Hadi Salman, Haiming Bao, Hao Sheng, Hart Andrin, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian Osband, Ignasi Clavera Gilaberte, Ilge Akkaya, Ilya Kostrikov, Ilya Sutskever, Irina Kofman, Jakub Pachocki, James Lennon, Jason Wei, Jean Harb, Jerry Twore, Jiacheng Feng, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joaquin Quiñonero Candela, Joe Palermo, Joel Parish, Johannes Heidecke, John Hallman, John Rizzo, Jonathan Gordon, Jonathan Uesato, Jonathan Uesato, Jonathan Ward, Joost Huizinga, Julie Wang, Kai Chen, Kai Xiao, Karan Singhal, Karina Nguyen, Karl Cobbe, Katy Shi, Kayla Wood, Kendra Rimbach, Keren Gu-Lemberg, Keren GuLemberg, Kevin Liu, Kevin Lu, Kevin Stone, Kevin Yu, Lama Ahmad, Lauren Yang, Leo Liu, Leon Maksin, Leyton Ho, Liam Fedus, Lilian Weng, Linden Li, Lindsay McCallum, Lindsey Held, Lorenz Kuhn, Lukas Kondraciuk, Lukasz Kaiser, Luke Metz, Madelaine Boyd, Maja Trebacz, Manas Joglekar, Mark Chen, Marko Tintor, Mason Meyer, Matt Jones, Matt Kaufer, Max Schwarzer, Meghan Shah, Mehmet Yatbaz, Melody Guan, Mengyuan Xu, Mengyuan Yan, Mia Glaese, Mianna Chen, Mianna Chen, Michael Lampe, Michael Malek, Michele Wang, Michelle Fradin, Mike McClay, Mikhail Pavlov, Miles Wang, Mingxuan Wang, Mira Murati, Mo Bavarian, Mostafa Rohaninejad, Nat McAleese, Neil Chowdhury, Neil Chowdhury, Nick Ryder, Nikolas Tezak, Noam Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, Patrick Chao, Paul Ashbourne, Pavel Izmailov, Peter Zhokhov, Rachel Dias, Rahul Arora, Randall Lin, Rapha Gontijo Lopes, Raz Gaon, Reah Miyara, Reimar Leike, Renny Hwang, Rhythm Garg, Robin Brown, Roshan James, Rui Shu, Ryan Cheu, Ryan Greene, Saachi Jain, Sam Altman, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Santiago Hernandez, Sasha Baker, Scott McKinney, Scottie Yan, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shraman Ray Chaudhuri, Shuyuan Zhang, Siyuan Fu, Spencer Papay, Steph Lin, Suchir Balaji, Suvansh Sanjeev, Szymon Sidor, Tal Broda, Aidan Clark, Tao Wang, Taylor Gordon, Ted Sanders, Tejal Patwardhan, Thibault Sottiaux, Thomas Degry, Thomas Dimson, Tianhao Zheng, Timur Garipov, Tom Stasi, Trapit Bansal, Trevor Creech, Troy Peterson, Tyna Eloundou, Valerie Qi, Vineet Kosaraju, Vinnie Monaco, Vitchyr Pong, Vlad Fomenko, Weiyi Zheng, Wenda Zhou, Wes McCabe, Wojciech Zaremba, Yann Dubois, Yinghai Lu, Yining Chen, Young Cha, Yu Bai, Yuchen He, Yuchen Zhang, Yunyun Wang, Zheng Shao, Zhuohan Li

La serie de modelos o1 se entrena con aprendizaje por refuerzo a gran escala para razonar utilizando cadenas de pensamiento. Estas capacidades avanzadas de razonamiento ofrecen nuevas vías para mejorar la seguridad y robustez de nuestros modelos. En particular, nuestros modelos pueden razonar sobre nuestras políticas de seguridad en contexto al responder a estímulos potencialmente inseguros, a través de alineaciones deliberativas. Esto conduce a un rendimiento de vanguardia en ciertos benchmarks de riesgos como la generación de consejos ilícitos, la elección de respuestas estereotipadas y la exposición a jailbreaks conocidos. Entrenar modelos para incorporar una cadena de pensamiento antes de responder tiene el potencial de desbloquear beneficios sustanciales, al tiempo que aumenta los posibles riesgos derivados de una inteligencia más elevada. Nuestros resultados subrayan la necesidad de desarrollar métodos de alineación robustos, poner a prueba exhaustivamente su eficacia y mantener protocolos meticulosos de gestión de riesgos. Este informe describe el trabajo de seguridad realizado para los modelos OpenAI o1 y OpenAI o1-mini, incluyendo evaluaciones de seguridad, pruebas de red teaming externas y evaluaciones del Marco de Preparación.

Revisitando el Aprendizaje en Contexto con Modelos de Lenguaje de Largo Contexto
Revisiting In-Context Learning with Long Context Language Models

Dec 22

ByJinheon Baek, Sun Jae Lee, Prakhar Gupta, Geunseob, Oh, Siddharth Dalmia, Prateek Kolhar

El Aprendizaje en Contexto (ICL, por sus siglas en inglés) es una técnica mediante la cual los modelos de lenguaje realizan predicciones basadas en ejemplos proporcionados en su contexto de entrada. Anteriormente, el tamaño de la ventana de contexto imponía un límite en la cantidad de ejemplos que podían mostrarse, lo que hacía que las técnicas de selección de ejemplos fueran cruciales para identificar el conjunto de ejemplos más efectivo. Sin embargo, el reciente surgimiento de Modelos de Lenguaje de Contexto Largo (LCLMs) ha aumentado significativamente la cantidad de ejemplos que pueden incluirse en el contexto, planteando la importante cuestión de si el rendimiento del ICL en un régimen de muchas muestras sigue siendo sensible al método de selección de muestras. Para responder a esto, revisitamos estos enfoques en el contexto de LCLMs a través de experimentos extensos en 18 conjuntos de datos que abarcan 4 tareas. Sorprendentemente, observamos que las técnicas sofisticadas de selección de ejemplos no producen mejoras significativas sobre un método simple de selección de muestras al azar. En cambio, encontramos que el surgimiento de LCLMs ha cambiado fundamentalmente el desafío del ICL, pasando de seleccionar los ejemplos más efectivos a recopilar suficientes ejemplos para llenar la ventana de contexto. Específicamente, en ciertos conjuntos de datos, incluir todos los ejemplos disponibles no aprovecha completamente la ventana de contexto; sin embargo, al aumentar los ejemplos en contexto con un enfoque simple de aumento de datos, mejoramos sustancialmente el rendimiento del ICL en un 5%.

Deliberación en Espacio Latente a través de la Ampliación Diferenciable de la Caché
Deliberation in Latent Space via Differentiable Cache Augmentation

Dec 23

ByLuyang Liu, Jonas Pfeiffer, Jiaxing Wu, Jun Xie, Arthur Szlam

Las técnicas que permiten a los modelos de lenguaje grandes (LLMs) "pensar más" mediante la generación y atención a pasos de razonamiento intermedios han mostrado promesa en la resolución de problemas complejos. Sin embargo, los enfoques estándar generan secuencias de tokens discretos inmediatamente antes de responder, lo que puede acarrear costos significativos de latencia y resultar desafiante de optimizar. En este trabajo, demostramos que un LLM congelado puede ser ampliado con un coprocesador sin conexión que opera en la caché clave-valor (kv) del modelo. Este coprocesador aumenta la caché con un conjunto de incrustaciones latentes diseñadas para mejorar la fidelidad de la decodificación subsiguiente. Entrenamos este coprocesador utilizando la pérdida de modelado de lenguaje del decodificador en datos estándar de preentrenamiento, manteniendo el decodificador en sí congelado. Este enfoque permite que el modelo aprenda, de manera diferenciable de extremo a extremo, cómo destilar cálculos adicionales en su kv-cache. Debido a que el decodificador permanece sin cambios, el coprocesador puede operar sin conexión y de forma asíncrona, y el modelo de lenguaje puede funcionar normalmente si el coprocesador no está disponible o si se considera que una caché determinada no requiere cálculos adicionales. Mostramos experimentalmente que cuando se amplía una caché, el decodificador logra una menor perplejidad en numerosos tokens subsiguientes. Además, incluso sin ningún entrenamiento específico de tarea, nuestros experimentos demuestran que la ampliación de la caché reduce consistentemente la perplejidad y mejora el rendimiento en una variedad de tareas intensivas en razonamiento.

Codificación automática de video de gran movimiento con VAE de video multimodal
Large Motion Video Autoencoding with Cross-modal Video VAE

Dec 23

ByYazhou Xing, Yang Fei, Yingqing He, Jingye Chen, Jiaxin Xie, Xiaowei Chi, Qifeng Chen

Aprender a desarrollar un Variational Autoencoder (VAE) de video robusto es esencial para reducir la redundancia en los videos y facilitar una generación eficiente de videos. Aplicar directamente VAEs de imagen a fotogramas individuales de forma aislada puede resultar en inconsistencias temporales y tasas de compresión subóptimas debido a la falta de compresión temporal. Los VAEs de video existentes han comenzado a abordar la compresión temporal; sin embargo, a menudo sufren de un rendimiento de reconstrucción inadecuado. En este artículo, presentamos un autoencoder de video novedoso y potente capaz de codificar videos de alta fidelidad. En primer lugar, observamos que entrelazar la compresión espacial y temporal simplemente extendiendo el VAE de imagen a un VAE 3D puede introducir artefactos de desenfoque de movimiento y distorsión de detalles. Por lo tanto, proponemos una compresión espacial consciente de lo temporal para codificar y decodificar mejor la información espacial. Además, integramos un modelo de compresión de movimiento ligero para una mayor compresión temporal. En segundo lugar, proponemos aprovechar la información textual inherente en conjuntos de datos de texto a video e incorporar la guía de texto en nuestro modelo. Esto mejora significativamente la calidad de reconstrucción, especialmente en términos de preservación de detalles y estabilidad temporal. En tercer lugar, mejoramos aún más la versatilidad de nuestro modelo a través del entrenamiento conjunto en imágenes y videos, lo que no solo mejora la calidad de reconstrucción, sino que también permite que el modelo realice tanto autoencoding de imágenes como de videos. Evaluaciones extensas frente a baselines recientes sólidos demuestran el rendimiento superior de nuestro método. El sitio web del proyecto se puede encontrar en https://yzxing87.github.io/vae/.

LearnLM: Mejorando Gemini para el Aprendizaje
LearnLM: Improving Gemini for Learning

Dec 21

ByLearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Brett Wiltshire, Brian Veprek, Daniel Gillick, Daniel Kasenberg, Derek Ahmed, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin McKee, Lisa Wang, Markus Kunesch, Mike Schaekermann, Miruna Pîslar, Nikhil Joshi, Parsa Mahmoudieh, Paul Jhun, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Amy Wang, Ankit Anand, Avishkar Bhoopchand, Dan Wild, Divya Pandya, Filip Bar, Garth Graham, Holger Winnemoeller, Mahvish Nagda, Prateek Kolhar, Renee Schneider, Shaojian Zhu, Stephanie Chan, Steve Yadlowsky, Viknesh Sounderajah, Yannis Assael

Los sistemas generativos de IA actuales están ajustados para presentar información por defecto en lugar de involucrar a los usuarios en el aprendizaje como lo haría un tutor humano. Para abordar la amplia gama de posibles casos de uso educativo para estos sistemas, reformulamos el desafío de inyectar comportamiento pedagógico como uno de seguimiento de instrucción pedagógica, donde los ejemplos de entrenamiento y evaluación incluyen instrucciones a nivel de sistema que describen los atributos pedagógicos específicos presentes o deseados en los siguientes turnos del modelo. Este enfoque evita comprometer a nuestros modelos con una definición particular de pedagogía, y en cambio permite a los profesores o desarrolladores especificar el comportamiento del modelo deseado. También allana el camino para mejorar los modelos Gemini para el aprendizaje, al permitir la adición de nuestros datos pedagógicos a las mezclas posteriores al entrenamiento, junto con su conjunto de capacidades en rápida expansión. Ambos representan cambios importantes respecto a nuestro informe técnico inicial. Mostramos cómo el entrenamiento con seguimiento de instrucción pedagógica produce un modelo LearnLM (disponible en Google AI Studio) que es sustancialmente preferido por evaluadores expertos en un conjunto diverso de escenarios de aprendizaje, con fortalezas de preferencia promedio del 31\% sobre GPT-4o, 11\% sobre Claude 3.5 y 13\% sobre el modelo Gemini 1.5 Pro en el que se basó LearnLM.

DRT-o1: Traducción Optimizada Profunda mediante una Larga Cadena de Pensamiento
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

Dec 23

ByJiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou

Recientemente, han surgido modelos similares a O1 como ejemplos representativos, ilustrando la efectividad de largas cadenas de pensamiento (CoT) en tareas de razonamiento como matemáticas y de codificación. En este artículo, presentamos DRT-o1, un intento de llevar el éxito de CoT largo a la traducción automática neuronal (MT). Específicamente, teniendo en cuenta los libros de literatura que podrían incluir símiles y metáforas, traducir estos textos a un idioma destino es muy difícil en la práctica debido a las diferencias culturales. En tales casos, la traducción literal a menudo no logra transmitir el significado deseado de manera efectiva. Incluso para traductores humanos profesionales, se debe prestar considerable atención a preservar la semántica a lo largo del proceso de traducción. Para simular la capacidad de pensamiento largo de LLMs en MT, primero extraemos oraciones que contienen símiles o metáforas de libros de literatura existentes, y luego desarrollamos un marco multiagente para traducir estas oraciones a través de un pensamiento largo. En el marco multiagente, se utiliza un traductor para traducir de manera iterativa la oración fuente bajo las sugerencias proporcionadas por un asesor. Para garantizar la efectividad de los pensamientos largos, también se emplea un evaluador para juzgar si la traducción en la ronda actual es mejor que la anterior o no. De esta manera, recopilamos decenas de miles de datos de MT de pensamiento largo, que se utilizan para entrenar nuestro DRT-o1. Los resultados experimentales en la traducción de literatura demuestran la efectividad del DRT-o1. Utilizando Qwen2.5-7B y Qwen2.5-14B como estructuras base, la mejora aportada por DRT-o1 alcanza un BLEU de 7.33 a 8.26 y un CometScore de 1.66 a 3.36. Además, DRT-o1-7B puede superar a QwQ-32B-Preview en 7.82 BLEU y 1.46 CometScore, mostrando su efectividad. El proyecto está disponible en https://github.com/krystalan/DRT-o1.

Supervisión del Proceso de Refinamiento del Resultado para la Generación de Código
Outcome-Refining Process Supervision for Code Generation

Dec 19

ByZhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang

Los Modelos de Lenguaje Grandes han demostrado capacidades notables en la generación de código, sin embargo, a menudo tienen dificultades con tareas de programación complejas que requieren un razonamiento algorítmico profundo. Mientras que la supervisión del proceso a través de modelos de recompensa aprendidos muestra promesa en guiar los pasos de razonamiento, requiere datos de entrenamiento costosos y sufre de evaluaciones poco fiables. Proponemos la Supervisión del Proceso de Refinamiento del Resultado, un paradigma novedoso que trata al refinamiento del resultado en sí como el proceso a ser supervisado. Nuestro marco aprovecha señales de ejecución concretas para fundamentar la supervisión de los pasos de razonamiento, mientras utiliza exploración estructurada en forma de árbol para mantener múltiples trayectorias de solución simultáneamente. Los experimentos demuestran que nuestro enfoque permite que incluso modelos más pequeños logren una alta precisión de éxito y métricas de rendimiento en tareas de programación competitivas, creando una verificación más confiable que los modelos de recompensa tradicionales sin necesidad de entrenar PRMs. Nuestro enfoque logra mejoras significativas en 5 modelos y 3 conjuntos de datos: un promedio de aumento del 26.9% en corrección y del 42.2% en eficiencia. Los resultados sugieren que proporcionar un espacio de razonamiento estructurado con señales de verificación concretas es crucial para resolver tareas de programación complejas. Ponemos a disposición todo nuestro código y datos de forma abierta en: https://github.com/zhuohaoyu/ORPS

Agente de PC: Mientras Duermes, la IA Trabaja -- Un Viaje Cognitivo al Mundo Digital
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

Dec 23

ByYanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu

Imagina un mundo donde la IA pueda manejar tu trabajo mientras duermes, organizando tus materiales de investigación, redactando un informe o creando una presentación que necesitas para mañana. Sin embargo, si bien los agentes digitales actuales pueden realizar tareas simples, están lejos de ser capaces de manejar el trabajo complejo del mundo real que los humanos realizan rutinariamente. Presentamos PC Agent, un sistema de IA que muestra un paso crucial hacia esta visión a través de la transferencia de cognición humana. Nuestra idea clave es que el camino desde la ejecución de "tareas" simples hasta el manejo de "trabajo" complejo radica en capturar de manera eficiente y aprender de los procesos cognitivos humanos durante el uso de la computadora. Para validar esta hipótesis, introducimos tres innovaciones clave: (1) PC Tracker, una infraestructura liviana que recopila de manera eficiente trayectorias de interacción humano-computadora de alta calidad con un contexto cognitivo completo; (2) un proceso de completación de cognición de dos etapas que transforma datos de interacción crudos en trayectorias cognitivas ricas al completar la semántica de acciones y los procesos de pensamiento; y (3) un sistema multiagente que combina un agente de planificación para la toma de decisiones con un agente de fundamentación para una fundamentación visual sólida. Nuestros experimentos preliminares en la creación de presentaciones de PowerPoint revelan que se pueden lograr capacidades de trabajo digital complejas con una pequeña cantidad de datos cognitivos de alta calidad: PC Agent, entrenado con solo 133 trayectorias cognitivas, puede manejar escenarios de trabajo sofisticados que implican hasta 50 pasos en múltiples aplicaciones. Esto demuestra la eficiencia de datos de nuestro enfoque, resaltando que la clave para entrenar agentes digitales capaces radica en la recopilación de datos cognitivos humanos. Al compartir de forma abierta nuestro marco completo, incluida la infraestructura de recopilación de datos y los métodos de completación de cognición, nuestro objetivo es reducir las barreras para que la comunidad de investigación desarrolle agentes digitales verdaderamente capaces.

ResearchTown: Simulador de la Comunidad de Investigación Humana
ResearchTown: Simulator of Human Research Community

Dec 23

ByHaofei Yu, Zhaochen Hong, Zirui Cheng, Kunlun Zhu, Keyang Xuan, Jinwei Yao, Tao Feng, Jiaxuan You

Los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado un potencial notable en dominios científicos, sin embargo, una pregunta fundamental sigue sin respuesta: ¿Podemos simular comunidades de investigación humanas con LLMs? Abordar esta pregunta puede profundizar nuestra comprensión de los procesos detrás de la lluvia de ideas y inspirar el descubrimiento automático de ideas científicas novedosas. En este trabajo, proponemos ResearchTown, un marco multiagente para la simulación de comunidades de investigación. Dentro de este marco, la comunidad de investigación humana se simplifica y modela como un grafo de agentes-datos, donde los investigadores y los artículos se representan como nodos de tipo agente y tipo de datos, respectivamente, y se conectan en función de sus relaciones de colaboración. También presentamos TextGNN, un marco de inferencia basado en texto que modela diversas actividades de investigación (por ejemplo, lectura de artículos, escritura de artículos y escritura de reseñas) como formas especiales de un proceso unificado de paso de mensajes en el grafo de agentes-datos. Para evaluar la calidad de la simulación de investigación, presentamos ResearchBench, un banco de pruebas que utiliza una tarea de predicción de enmascaramiento de nodos para una evaluación escalable y objetiva basada en la similitud. Nuestros experimentos revelan tres hallazgos clave: (1) ResearchTown puede proporcionar una simulación realista de actividades de investigación colaborativa, incluida la escritura de artículos y reseñas; (2) ResearchTown puede mantener una simulación robusta con múltiples investigadores y diversos artículos; (3) ResearchTown puede generar ideas de investigación interdisciplinarias que potencialmente inspiran nuevas direcciones de investigación.

Agente-SafetyBench: Evaluando la Seguridad de Agentes LLM
Agent-SafetyBench: Evaluating the Safety of LLM Agents

Dec 19

ByZhexin Zhang, Shiyao Cui, Yida Lu, Jingzhuo Zhou, Junxiao Yang, Hongning Wang, Minlie Huang

A medida que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se despliegan cada vez más como agentes, su integración en entornos interactivos y su uso de herramientas introducen nuevos desafíos de seguridad más allá de los asociados con los propios modelos. Sin embargo, la falta de benchmarks completos para evaluar la seguridad de los agentes representa una barrera significativa para una evaluación efectiva y una mejora adicional. En este artículo, presentamos Agent-SafetyBench, un benchmark integral diseñado para evaluar la seguridad de los agentes LLM. Agent-SafetyBench abarca 349 entornos de interacción y 2,000 casos de prueba, evaluando 8 categorías de riesgos de seguridad y cubriendo 10 modos de falla comunes que se encuentran con frecuencia en interacciones inseguras. Nuestra evaluación de 16 agentes LLM populares revela un resultado preocupante: ninguno de los agentes logra una puntuación de seguridad superior al 60%. Esto resalta desafíos significativos de seguridad en los agentes LLM y subraya la considerable necesidad de mejora. A través de un análisis cuantitativo, identificamos modos críticos de falla y resumimos dos detectores fundamentales de seguridad en los agentes LLM actuales: la falta de robustez y la falta de conciencia del riesgo. Además, nuestros hallazgos sugieren que depender únicamente de indicaciones defensivas es insuficiente para abordar estos problemas de seguridad, enfatizando la necesidad de estrategias más avanzadas y robustas. Publicamos Agent-SafetyBench en https://github.com/thu-coai/Agent-SafetyBench para facilitar una mayor investigación e innovación en la evaluación y mejora de la seguridad de los agentes.

Friends-MMC: Un conjunto de datos para la comprensión de conversaciones multi-modales y multi-participantes.
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

Dec 23

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao

La conversación multi-modal multi-participante (MMC) es un tema de investigación menos estudiado pero importante debido a que se adapta bien a escenarios del mundo real y, por lo tanto, potencialmente tiene aplicaciones más ampliamente utilizadas. En comparación con las conversaciones multi-modales tradicionales, la MMC requiere habilidades de comprensión centradas en los personajes más sólidas, ya que hay muchos interlocutores que aparecen tanto en el contexto visual como en el textual. Para facilitar el estudio de este problema, presentamos en este artículo Friends-MMC, un conjunto de datos de MMC que contiene 24,000+ enunciados únicos emparejados con contexto de video. Para explorar la comprensión centrada en los personajes del diálogo, también anotamos el hablante de cada enunciado, los nombres y las bounding boxes de los rostros que aparecen en el video. Basándonos en este conjunto de datos Friends-MMC, estudiamos además dos tareas fundamentales de MMC: la identificación del hablante en la conversación y la predicción de la respuesta en la conversación, ambas con naturaleza multi-participante con el video o imagen como contexto visual. Para la identificación del hablante en la conversación, demostramos las ineficiencias de los métodos existentes como los modelos pre-entrenados, y proponemos un método base simple pero efectivo que aprovecha un optimizador para utilizar el contexto de las dos modalidades y lograr un mejor rendimiento. Para la predicción de la respuesta en la conversación, ajustamos modelos generativos de diálogo en Friend-MMC, y analizamos los beneficios de la información del hablante. El código y el conjunto de datos están disponibles públicamente en https://github.com/yellow-binary-tree/Friends-MMC y, por lo tanto, solicitamos más atención en la modelización de la información del hablante al comprender conversaciones.

OpenRFT: Adaptación del Modelo de Fundamentos de Razonamiento para Tareas Específicas del Dominio con Ajuste Fino por Reforzamiento
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

Dec 22

ByYuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang

La reciente introducción de OpenAI de Ajuste Fino por Reforzamiento (RFT) muestra el potencial del modelo de fundamentos de razonamiento y ofrece un nuevo paradigma para el ajuste fino más allá de la simple imitación de patrones. Este informe técnico presenta OpenRFT, nuestro intento de ajustar modelos de razonamiento generalistas para tareas específicas de dominio bajo la misma configuración que RFT. OpenRFT aborda dos desafíos clave de la falta de datos de pasos de razonamiento y la cantidad limitada de muestras de entrenamiento, aprovechando las muestras específicas del dominio de tres maneras: aumentando preguntas, sintetizando datos de procesos de razonamiento y ICL de pocas muestras. La evaluación se lleva a cabo en SciKnowEval, donde OpenRFT logra mejoras de rendimiento notables con solo 100 muestras específicas del dominio para cada tarea. Se actualizarán más resultados experimentales continuamente en versiones posteriores. Los códigos fuente, conjuntos de datos y modelos se divulgan en: https://github.com/ADaM-BJTU/OpenRFT

NILE: Alineación de Consistencia Interna en Modelos de Lenguaje Grandes
NILE: Internal Consistency Alignment in Large Language Models

Dec 21

ByMinda Hu, Qiyuan Zhang, Yufei Wang, Bowei He, Hongru Wang, Jingyan Zhou, Liangyou Li, Yasheng Wang, Chen Ma, Irwin King

Como un paso crucial para mejorar la alineación de los LLMs con las intenciones humanas, el Ajuste Fino de Instrucciones (AFI) tiene una alta demanda en cuanto a la calidad del conjunto de datos. Sin embargo, los conjuntos de datos de AFI existentes a menudo contienen conocimientos que son inconsistentes con el conocimiento interno de los LLMs aprendido de la fase de pre-entrenamiento, lo cual puede afectar enormemente la eficacia del AFI. Para abordar este problema, presentamos el marco NILE (alineación interna de consistencia), diseñado para optimizar los conjuntos de datos de AFI para desbloquear aún más la capacidad de los LLMs. NILE opera al obtener el conocimiento interno del LLM pre-entrenado objetivo correspondiente a los datos de instrucción. Este conocimiento interno se utiliza para revisar la respuesta en los conjuntos de datos de AFI. Además, proponemos un novedoso método de Filtrado de Consistencia Interna (FCI) para filtrar las muestras de entrenamiento, asegurando su alta consistencia con el conocimiento interno del LLM. Nuestros experimentos demuestran que los conjuntos de datos de AFI alineados con NILE mejoran notablemente el rendimiento de los LLM en múltiples conjuntos de datos de evaluación de habilidades de LLM, logrando hasta un aumento del 66.6% en Arena-Hard y del 68.5% en Alpaca-Eval V2. Un análisis adicional confirma que cada componente del marco NILE contribuye a estas sustanciales mejoras de rendimiento, y proporciona evidencia convincente de que la consistencia del conjunto de datos con el conocimiento interno pre-entrenado es fundamental para maximizar el potencial de los LLM.