Artículos de investigación en IA seleccionados diariamente con traducciones
El ajuste fino supervisado (SFT) desempeña un papel crucial en la adaptación de modelos de lenguaje grandes (LLMs) a dominios o tareas específicas. Sin embargo, como lo demuestran experimentos empíricos, los datos recopilados contienen inevitablemente ruido en aplicaciones prácticas, lo que plantea desafíos significativos para el rendimiento del modelo en tareas posteriores. Por lo tanto, existe una necesidad urgente de un marco de trabajo de SFT robusto al ruido para mejorar las capacidades del modelo en tareas posteriores. Para abordar este desafío, presentamos un marco de trabajo de SFT robusto (RobustFT) que realiza detección y etiquetado de ruido en los datos de tareas posteriores. Para la identificación de ruido, nuestro enfoque emplea un sistema colaborativo de múltiples expertos con modelos mejorados por inferencia para lograr una detección de ruido superior. En la fase de eliminación de ruido, utilizamos una estrategia mejorada por contexto, que incorpora el conocimiento más relevante y confiable seguido de una evaluación cuidadosa para generar anotaciones confiables. Además, introducimos un mecanismo efectivo de selección de datos basado en la entropía de respuesta, asegurando que solo se retengan muestras de alta calidad para el ajuste fino. Experimentos extensos realizados en múltiples LLMs en cinco conjuntos de datos demuestran el rendimiento excepcional de RobustFT en escenarios ruidosos.
En ausencia de datos extensos anotados por humanos para tareas de razonamiento complejo, la auto-mejora, donde los modelos se entrenan con sus propias salidas, ha surgido como un método principal para mejorar el rendimiento. Sin embargo, los factores críticos subyacentes al mecanismo de estos métodos iterativos de auto-mejora siguen siendo poco comprendidos, como en qué condiciones la auto-mejora es efectiva y cuáles son los cuellos de botella en las iteraciones actuales. En este trabajo, identificamos y proponemos métodos para monitorear dos factores fundamentales en este proceso iterativo: (1) la capacidad del modelo para generar respuestas lo suficientemente diversas (exploración); y (2) la efectividad de las recompensas externas para distinguir candidatos de alta calidad de aquellos de menor calidad (explotación). Utilizando el razonamiento matemático como estudio de caso, comenzamos con un análisis cuantitativo para rastrear la dinámica de la exploración y explotación, descubriendo que las capacidades exploratorias de un modelo se deterioran rápidamente a lo largo de las iteraciones, y la efectividad de explotar recompensas externas también disminuye. Motivados por estos hallazgos, presentamos B-STaR, un marco de Razonamiento Autoenseñado que ajusta automáticamente las configuraciones a lo largo de las iteraciones para equilibrar la exploración y explotación, optimizando así la efectividad de la auto-mejora basada en el modelo de política actual y las recompensas disponibles. Nuestros experimentos en razonamiento matemático, codificación y razonamiento de sentido común demuestran que B-STaR no solo mejora las capacidades exploratorias del modelo durante todo el entrenamiento, sino que también logra un equilibrio más efectivo entre exploración y explotación, lo que conduce a un rendimiento superior.
La capacidad de razonamiento es esencial para los Modelos Multimodales Grandes (LMMs). Ante la ausencia de datos anotados de cadena de pensamiento multimodal, ha surgido el entrenamiento autoevolutivo, donde el modelo aprende de sus propias salidas, como un enfoque efectivo y escalable para mejorar las habilidades de razonamiento. A pesar de su creciente uso, la comprensión integral del entrenamiento autoevolutivo, especialmente en el contexto del razonamiento multimodal, sigue siendo limitada. En este documento, profundizamos en las complejidades del entrenamiento autoevolutivo para el razonamiento multimodal, señalando tres factores clave: Método de Entrenamiento, Modelo de Recompensa y Variación de Estímulo. Examinamos sistemáticamente cada factor y exploramos cómo diversas configuraciones afectan la efectividad del entrenamiento. Nuestro análisis conduce a un conjunto de mejores prácticas para cada factor, con el objetivo de optimizar el razonamiento multimodal. Además, exploramos la Dinámica de Autoevolución durante el entrenamiento y el impacto de los mecanismos automáticos de equilibrio en el aumento del rendimiento. Después de todas las investigaciones, presentamos una receta final para el entrenamiento autoevolutivo en el razonamiento multimodal, encapsulando estas elecciones de diseño en un marco que llamamos MSTaR (Entrenamiento Multimodal Autoevolutivo para el Razonamiento), que es universalmente efectivo para modelos de diferentes tamaños en varios benchmarks, superando significativamente al modelo pre-evolucionado en 5 benchmarks de razonamiento multimodal sin utilizar anotaciones humanas adicionales, como se demostró en MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Creemos que este estudio llena una brecha significativa en la comprensión del entrenamiento autoevolutivo para el razonamiento multimodal y ofrece un marco sólido para futuras investigaciones. Nuestros modelos de política y recompensa, así como los datos recopilados, se han publicado para facilitar investigaciones adicionales en el razonamiento multimodal.
Los modelos autorregresivos (AR) han logrado un rendimiento de vanguardia en la generación de texto e imágenes, pero sufren de una generación lenta debido al proceso token por token. Planteamos una pregunta ambiciosa: ¿se puede adaptar un modelo AR pre-entrenado para generar salidas en solo uno o dos pasos? En caso de éxito, esto avanzaría significativamente en el desarrollo y despliegue de modelos AR. Observamos que los trabajos existentes que intentan acelerar la generación AR al generar múltiples tokens a la vez no pueden capturar fundamentalmente la distribución de salida debido a las dependencias condicionales entre tokens, lo que limita su efectividad para la generación de pocos pasos. Para abordar esto, proponemos Decodificación Destilada (DD), que utiliza el emparejamiento de flujo para crear un mapeo determinista de una distribución gaussiana a la distribución de salida del modelo AR pre-entrenado. Luego entrenamos una red para destilar este mapeo, permitiendo la generación de pocos pasos. DD no necesita los datos de entrenamiento del modelo AR original, lo que lo hace más práctico. Evaluamos DD en modelos AR de imagen de vanguardia y presentamos resultados prometedores en ImageNet-256. Para VAR, que requiere una generación de 10 pasos, DD permite la generación en un paso (aumento de velocidad de 6.3 veces), con un aumento aceptable en FID de 4.19 a 9.96. Para LlamaGen, DD reduce la generación de 256 pasos a 1, logrando un aumento de velocidad de 217.8 veces con un aumento FID comparable de 4.11 a 11.35. En ambos casos, los métodos de referencia fallan por completo con FID>100. DD también destaca en la generación de texto a imagen, reduciendo la generación de 256 pasos a 2 para LlamaGen con un aumento mínimo de FID de 25.70 a 28.95. Como el primer trabajo que demuestra la posibilidad de generación en un paso para modelos AR de imagen, DD desafía la noción predominante de que los modelos AR son inherentemente lentos y abre nuevas oportunidades para una generación AR eficiente. El sitio web del proyecto se encuentra en https://imagination-research.github.io/distilled-decoding.
La serie de modelos o1 se entrena con aprendizaje por refuerzo a gran escala para razonar utilizando cadenas de pensamiento. Estas capacidades avanzadas de razonamiento ofrecen nuevas vías para mejorar la seguridad y robustez de nuestros modelos. En particular, nuestros modelos pueden razonar sobre nuestras políticas de seguridad en contexto al responder a estímulos potencialmente inseguros, a través de alineaciones deliberativas. Esto conduce a un rendimiento de vanguardia en ciertos benchmarks de riesgos como la generación de consejos ilícitos, la elección de respuestas estereotipadas y la exposición a jailbreaks conocidos. Entrenar modelos para incorporar una cadena de pensamiento antes de responder tiene el potencial de desbloquear beneficios sustanciales, al tiempo que aumenta los posibles riesgos derivados de una inteligencia más elevada. Nuestros resultados subrayan la necesidad de desarrollar métodos de alineación robustos, poner a prueba exhaustivamente su eficacia y mantener protocolos meticulosos de gestión de riesgos. Este informe describe el trabajo de seguridad realizado para los modelos OpenAI o1 y OpenAI o1-mini, incluyendo evaluaciones de seguridad, pruebas de red teaming externas y evaluaciones del Marco de Preparación.
Las técnicas que permiten a los modelos de lenguaje grandes (LLMs) "pensar más" mediante la generación y atención a pasos de razonamiento intermedios han mostrado promesa en la resolución de problemas complejos. Sin embargo, los enfoques estándar generan secuencias de tokens discretos inmediatamente antes de responder, lo que puede acarrear costos significativos de latencia y resultar desafiante de optimizar. En este trabajo, demostramos que un LLM congelado puede ser ampliado con un coprocesador sin conexión que opera en la caché clave-valor (kv) del modelo. Este coprocesador aumenta la caché con un conjunto de incrustaciones latentes diseñadas para mejorar la fidelidad de la decodificación subsiguiente. Entrenamos este coprocesador utilizando la pérdida de modelado de lenguaje del decodificador en datos estándar de preentrenamiento, manteniendo el decodificador en sí congelado. Este enfoque permite que el modelo aprenda, de manera diferenciable de extremo a extremo, cómo destilar cálculos adicionales en su kv-cache. Debido a que el decodificador permanece sin cambios, el coprocesador puede operar sin conexión y de forma asíncrona, y el modelo de lenguaje puede funcionar normalmente si el coprocesador no está disponible o si se considera que una caché determinada no requiere cálculos adicionales. Mostramos experimentalmente que cuando se amplía una caché, el decodificador logra una menor perplejidad en numerosos tokens subsiguientes. Además, incluso sin ningún entrenamiento específico de tarea, nuestros experimentos demuestran que la ampliación de la caché reduce consistentemente la perplejidad y mejora el rendimiento en una variedad de tareas intensivas en razonamiento.
El Aprendizaje en Contexto (ICL, por sus siglas en inglés) es una técnica mediante la cual los modelos de lenguaje realizan predicciones basadas en ejemplos proporcionados en su contexto de entrada. Anteriormente, el tamaño de la ventana de contexto imponía un límite en la cantidad de ejemplos que podían mostrarse, lo que hacía que las técnicas de selección de ejemplos fueran cruciales para identificar el conjunto de ejemplos más efectivo. Sin embargo, el reciente surgimiento de Modelos de Lenguaje de Contexto Largo (LCLMs) ha aumentado significativamente la cantidad de ejemplos que pueden incluirse en el contexto, planteando la importante cuestión de si el rendimiento del ICL en un régimen de muchas muestras sigue siendo sensible al método de selección de muestras. Para responder a esto, revisitamos estos enfoques en el contexto de LCLMs a través de experimentos extensos en 18 conjuntos de datos que abarcan 4 tareas. Sorprendentemente, observamos que las técnicas sofisticadas de selección de ejemplos no producen mejoras significativas sobre un método simple de selección de muestras al azar. En cambio, encontramos que el surgimiento de LCLMs ha cambiado fundamentalmente el desafío del ICL, pasando de seleccionar los ejemplos más efectivos a recopilar suficientes ejemplos para llenar la ventana de contexto. Específicamente, en ciertos conjuntos de datos, incluir todos los ejemplos disponibles no aprovecha completamente la ventana de contexto; sin embargo, al aumentar los ejemplos en contexto con un enfoque simple de aumento de datos, mejoramos sustancialmente el rendimiento del ICL en un 5%.
Aprender a desarrollar un Variational Autoencoder (VAE) de video robusto es esencial para reducir la redundancia en los videos y facilitar una generación eficiente de videos. Aplicar directamente VAEs de imagen a fotogramas individuales de forma aislada puede resultar en inconsistencias temporales y tasas de compresión subóptimas debido a la falta de compresión temporal. Los VAEs de video existentes han comenzado a abordar la compresión temporal; sin embargo, a menudo sufren de un rendimiento de reconstrucción inadecuado. En este artículo, presentamos un autoencoder de video novedoso y potente capaz de codificar videos de alta fidelidad. En primer lugar, observamos que entrelazar la compresión espacial y temporal simplemente extendiendo el VAE de imagen a un VAE 3D puede introducir artefactos de desenfoque de movimiento y distorsión de detalles. Por lo tanto, proponemos una compresión espacial consciente de lo temporal para codificar y decodificar mejor la información espacial. Además, integramos un modelo de compresión de movimiento ligero para una mayor compresión temporal. En segundo lugar, proponemos aprovechar la información textual inherente en conjuntos de datos de texto a video e incorporar la guía de texto en nuestro modelo. Esto mejora significativamente la calidad de reconstrucción, especialmente en términos de preservación de detalles y estabilidad temporal. En tercer lugar, mejoramos aún más la versatilidad de nuestro modelo a través del entrenamiento conjunto en imágenes y videos, lo que no solo mejora la calidad de reconstrucción, sino que también permite que el modelo realice tanto autoencoding de imágenes como de videos. Evaluaciones extensas frente a baselines recientes sólidos demuestran el rendimiento superior de nuestro método. El sitio web del proyecto se puede encontrar en https://yzxing87.github.io/vae/.
Recientemente, han surgido modelos similares a O1 como ejemplos representativos, ilustrando la efectividad de largas cadenas de pensamiento (CoT) en tareas de razonamiento como matemáticas y de codificación. En este artículo, presentamos DRT-o1, un intento de llevar el éxito de CoT largo a la traducción automática neuronal (MT). Específicamente, teniendo en cuenta los libros de literatura que podrían incluir símiles y metáforas, traducir estos textos a un idioma destino es muy difícil en la práctica debido a las diferencias culturales. En tales casos, la traducción literal a menudo no logra transmitir el significado deseado de manera efectiva. Incluso para traductores humanos profesionales, se debe prestar considerable atención a preservar la semántica a lo largo del proceso de traducción. Para simular la capacidad de pensamiento largo de LLMs en MT, primero extraemos oraciones que contienen símiles o metáforas de libros de literatura existentes, y luego desarrollamos un marco multiagente para traducir estas oraciones a través de un pensamiento largo. En el marco multiagente, se utiliza un traductor para traducir de manera iterativa la oración fuente bajo las sugerencias proporcionadas por un asesor. Para garantizar la efectividad de los pensamientos largos, también se emplea un evaluador para juzgar si la traducción en la ronda actual es mejor que la anterior o no. De esta manera, recopilamos decenas de miles de datos de MT de pensamiento largo, que se utilizan para entrenar nuestro DRT-o1. Los resultados experimentales en la traducción de literatura demuestran la efectividad del DRT-o1. Utilizando Qwen2.5-7B y Qwen2.5-14B como estructuras base, la mejora aportada por DRT-o1 alcanza un BLEU de 7.33 a 8.26 y un CometScore de 1.66 a 3.36. Además, DRT-o1-7B puede superar a QwQ-32B-Preview en 7.82 BLEU y 1.46 CometScore, mostrando su efectividad. El proyecto está disponible en https://github.com/krystalan/DRT-o1.
Los sistemas generativos de IA actuales están ajustados para presentar información por defecto en lugar de involucrar a los usuarios en el aprendizaje como lo haría un tutor humano. Para abordar la amplia gama de posibles casos de uso educativo para estos sistemas, reformulamos el desafío de inyectar comportamiento pedagógico como uno de seguimiento de instrucción pedagógica, donde los ejemplos de entrenamiento y evaluación incluyen instrucciones a nivel de sistema que describen los atributos pedagógicos específicos presentes o deseados en los siguientes turnos del modelo. Este enfoque evita comprometer a nuestros modelos con una definición particular de pedagogía, y en cambio permite a los profesores o desarrolladores especificar el comportamiento del modelo deseado. También allana el camino para mejorar los modelos Gemini para el aprendizaje, al permitir la adición de nuestros datos pedagógicos a las mezclas posteriores al entrenamiento, junto con su conjunto de capacidades en rápida expansión. Ambos representan cambios importantes respecto a nuestro informe técnico inicial. Mostramos cómo el entrenamiento con seguimiento de instrucción pedagógica produce un modelo LearnLM (disponible en Google AI Studio) que es sustancialmente preferido por evaluadores expertos en un conjunto diverso de escenarios de aprendizaje, con fortalezas de preferencia promedio del 31\% sobre GPT-4o, 11\% sobre Claude 3.5 y 13\% sobre el modelo Gemini 1.5 Pro en el que se basó LearnLM.
Los Modelos de Lenguaje Grandes han demostrado capacidades notables en la generación de código, sin embargo, a menudo tienen dificultades con tareas de programación complejas que requieren un razonamiento algorítmico profundo. Mientras que la supervisión del proceso a través de modelos de recompensa aprendidos muestra promesa en guiar los pasos de razonamiento, requiere datos de entrenamiento costosos y sufre de evaluaciones poco fiables. Proponemos la Supervisión del Proceso de Refinamiento del Resultado, un paradigma novedoso que trata al refinamiento del resultado en sí como el proceso a ser supervisado. Nuestro marco aprovecha señales de ejecución concretas para fundamentar la supervisión de los pasos de razonamiento, mientras utiliza exploración estructurada en forma de árbol para mantener múltiples trayectorias de solución simultáneamente. Los experimentos demuestran que nuestro enfoque permite que incluso modelos más pequeños logren una alta precisión de éxito y métricas de rendimiento en tareas de programación competitivas, creando una verificación más confiable que los modelos de recompensa tradicionales sin necesidad de entrenar PRMs. Nuestro enfoque logra mejoras significativas en 5 modelos y 3 conjuntos de datos: un promedio de aumento del 26.9% en corrección y del 42.2% en eficiencia. Los resultados sugieren que proporcionar un espacio de razonamiento estructurado con señales de verificación concretas es crucial para resolver tareas de programación complejas. Ponemos a disposición todo nuestro código y datos de forma abierta en: https://github.com/zhuohaoyu/ORPS
Los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado un potencial notable en dominios científicos, sin embargo, una pregunta fundamental sigue sin respuesta: ¿Podemos simular comunidades de investigación humanas con LLMs? Abordar esta pregunta puede profundizar nuestra comprensión de los procesos detrás de la lluvia de ideas y inspirar el descubrimiento automático de ideas científicas novedosas. En este trabajo, proponemos ResearchTown, un marco multiagente para la simulación de comunidades de investigación. Dentro de este marco, la comunidad de investigación humana se simplifica y modela como un grafo de agentes-datos, donde los investigadores y los artículos se representan como nodos de tipo agente y tipo de datos, respectivamente, y se conectan en función de sus relaciones de colaboración. También presentamos TextGNN, un marco de inferencia basado en texto que modela diversas actividades de investigación (por ejemplo, lectura de artículos, escritura de artículos y escritura de reseñas) como formas especiales de un proceso unificado de paso de mensajes en el grafo de agentes-datos. Para evaluar la calidad de la simulación de investigación, presentamos ResearchBench, un banco de pruebas que utiliza una tarea de predicción de enmascaramiento de nodos para una evaluación escalable y objetiva basada en la similitud. Nuestros experimentos revelan tres hallazgos clave: (1) ResearchTown puede proporcionar una simulación realista de actividades de investigación colaborativa, incluida la escritura de artículos y reseñas; (2) ResearchTown puede mantener una simulación robusta con múltiples investigadores y diversos artículos; (3) ResearchTown puede generar ideas de investigación interdisciplinarias que potencialmente inspiran nuevas direcciones de investigación.
Imagina un mundo donde la IA pueda manejar tu trabajo mientras duermes, organizando tus materiales de investigación, redactando un informe o creando una presentación que necesitas para mañana. Sin embargo, si bien los agentes digitales actuales pueden realizar tareas simples, están lejos de ser capaces de manejar el trabajo complejo del mundo real que los humanos realizan rutinariamente. Presentamos PC Agent, un sistema de IA que muestra un paso crucial hacia esta visión a través de la transferencia de cognición humana. Nuestra idea clave es que el camino desde la ejecución de "tareas" simples hasta el manejo de "trabajo" complejo radica en capturar de manera eficiente y aprender de los procesos cognitivos humanos durante el uso de la computadora. Para validar esta hipótesis, introducimos tres innovaciones clave: (1) PC Tracker, una infraestructura liviana que recopila de manera eficiente trayectorias de interacción humano-computadora de alta calidad con un contexto cognitivo completo; (2) un proceso de completación de cognición de dos etapas que transforma datos de interacción crudos en trayectorias cognitivas ricas al completar la semántica de acciones y los procesos de pensamiento; y (3) un sistema multiagente que combina un agente de planificación para la toma de decisiones con un agente de fundamentación para una fundamentación visual sólida. Nuestros experimentos preliminares en la creación de presentaciones de PowerPoint revelan que se pueden lograr capacidades de trabajo digital complejas con una pequeña cantidad de datos cognitivos de alta calidad: PC Agent, entrenado con solo 133 trayectorias cognitivas, puede manejar escenarios de trabajo sofisticados que implican hasta 50 pasos en múltiples aplicaciones. Esto demuestra la eficiencia de datos de nuestro enfoque, resaltando que la clave para entrenar agentes digitales capaces radica en la recopilación de datos cognitivos humanos. Al compartir de forma abierta nuestro marco completo, incluida la infraestructura de recopilación de datos y los métodos de completación de cognición, nuestro objetivo es reducir las barreras para que la comunidad de investigación desarrolle agentes digitales verdaderamente capaces.
A medida que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se despliegan cada vez más como agentes, su integración en entornos interactivos y su uso de herramientas introducen nuevos desafíos de seguridad más allá de los asociados con los propios modelos. Sin embargo, la falta de benchmarks completos para evaluar la seguridad de los agentes representa una barrera significativa para una evaluación efectiva y una mejora adicional. En este artículo, presentamos Agent-SafetyBench, un benchmark integral diseñado para evaluar la seguridad de los agentes LLM. Agent-SafetyBench abarca 349 entornos de interacción y 2,000 casos de prueba, evaluando 8 categorías de riesgos de seguridad y cubriendo 10 modos de falla comunes que se encuentran con frecuencia en interacciones inseguras. Nuestra evaluación de 16 agentes LLM populares revela un resultado preocupante: ninguno de los agentes logra una puntuación de seguridad superior al 60%. Esto resalta desafíos significativos de seguridad en los agentes LLM y subraya la considerable necesidad de mejora. A través de un análisis cuantitativo, identificamos modos críticos de falla y resumimos dos detectores fundamentales de seguridad en los agentes LLM actuales: la falta de robustez y la falta de conciencia del riesgo. Además, nuestros hallazgos sugieren que depender únicamente de indicaciones defensivas es insuficiente para abordar estos problemas de seguridad, enfatizando la necesidad de estrategias más avanzadas y robustas. Publicamos Agent-SafetyBench en https://github.com/thu-coai/Agent-SafetyBench para facilitar una mayor investigación e innovación en la evaluación y mejora de la seguridad de los agentes.
La conversación multi-modal multi-participante (MMC) es un tema de investigación menos estudiado pero importante debido a que se adapta bien a escenarios del mundo real y, por lo tanto, potencialmente tiene aplicaciones más ampliamente utilizadas. En comparación con las conversaciones multi-modales tradicionales, la MMC requiere habilidades de comprensión centradas en los personajes más sólidas, ya que hay muchos interlocutores que aparecen tanto en el contexto visual como en el textual. Para facilitar el estudio de este problema, presentamos en este artículo Friends-MMC, un conjunto de datos de MMC que contiene 24,000+ enunciados únicos emparejados con contexto de video. Para explorar la comprensión centrada en los personajes del diálogo, también anotamos el hablante de cada enunciado, los nombres y las bounding boxes de los rostros que aparecen en el video. Basándonos en este conjunto de datos Friends-MMC, estudiamos además dos tareas fundamentales de MMC: la identificación del hablante en la conversación y la predicción de la respuesta en la conversación, ambas con naturaleza multi-participante con el video o imagen como contexto visual. Para la identificación del hablante en la conversación, demostramos las ineficiencias de los métodos existentes como los modelos pre-entrenados, y proponemos un método base simple pero efectivo que aprovecha un optimizador para utilizar el contexto de las dos modalidades y lograr un mejor rendimiento. Para la predicción de la respuesta en la conversación, ajustamos modelos generativos de diálogo en Friend-MMC, y analizamos los beneficios de la información del hablante. El código y el conjunto de datos están disponibles públicamente en https://github.com/yellow-binary-tree/Friends-MMC y, por lo tanto, solicitamos más atención en la modelización de la información del hablante al comprender conversaciones.
La reciente introducción de OpenAI de Ajuste Fino por Reforzamiento (RFT) muestra el potencial del modelo de fundamentos de razonamiento y ofrece un nuevo paradigma para el ajuste fino más allá de la simple imitación de patrones. Este informe técnico presenta OpenRFT, nuestro intento de ajustar modelos de razonamiento generalistas para tareas específicas de dominio bajo la misma configuración que RFT. OpenRFT aborda dos desafíos clave de la falta de datos de pasos de razonamiento y la cantidad limitada de muestras de entrenamiento, aprovechando las muestras específicas del dominio de tres maneras: aumentando preguntas, sintetizando datos de procesos de razonamiento y ICL de pocas muestras. La evaluación se lleva a cabo en SciKnowEval, donde OpenRFT logra mejoras de rendimiento notables con solo 100 muestras específicas del dominio para cada tarea. Se actualizarán más resultados experimentales continuamente en versiones posteriores. Los códigos fuente, conjuntos de datos y modelos se divulgan en: https://github.com/ADaM-BJTU/OpenRFT
Como un paso crucial para mejorar la alineación de los LLMs con las intenciones humanas, el Ajuste Fino de Instrucciones (AFI) tiene una alta demanda en cuanto a la calidad del conjunto de datos. Sin embargo, los conjuntos de datos de AFI existentes a menudo contienen conocimientos que son inconsistentes con el conocimiento interno de los LLMs aprendido de la fase de pre-entrenamiento, lo cual puede afectar enormemente la eficacia del AFI. Para abordar este problema, presentamos el marco NILE (alineación interna de consistencia), diseñado para optimizar los conjuntos de datos de AFI para desbloquear aún más la capacidad de los LLMs. NILE opera al obtener el conocimiento interno del LLM pre-entrenado objetivo correspondiente a los datos de instrucción. Este conocimiento interno se utiliza para revisar la respuesta en los conjuntos de datos de AFI. Además, proponemos un novedoso método de Filtrado de Consistencia Interna (FCI) para filtrar las muestras de entrenamiento, asegurando su alta consistencia con el conocimiento interno del LLM. Nuestros experimentos demuestran que los conjuntos de datos de AFI alineados con NILE mejoran notablemente el rendimiento de los LLM en múltiples conjuntos de datos de evaluación de habilidades de LLM, logrando hasta un aumento del 66.6% en Arena-Hard y del 68.5% en Alpaca-Eval V2. Un análisis adicional confirma que cada componente del marco NILE contribuye a estas sustanciales mejoras de rendimiento, y proporciona evidencia convincente de que la consistencia del conjunto de datos con el conocimiento interno pre-entrenado es fundamental para maximizar el potencial de los LLM.