Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo presenta Forzado de Difusión, un nuevo paradigma de entrenamiento donde un modelo de difusión se entrena para desenruido un conjunto de tokens con niveles de ruido independientes por token. Aplicamos Forzado de Difusión a la modelización generativa de secuencias mediante el entrenamiento de un modelo causal de predicción del siguiente token para generar uno o varios tokens futuros sin difundir completamente los pasados. Se demuestra que nuestro enfoque combina las fortalezas de los modelos de predicción del siguiente token, como la generación de longitud variable, con las fortalezas de los modelos de difusión de secuencia completa, como la capacidad de guiar el muestreo hacia trayectorias deseables. Nuestro método ofrece una variedad de capacidades adicionales, como (1) desplegar secuencias de tokens continuos, como video, con longitudes más allá del horizonte de entrenamiento, donde los puntos de referencia divergen y (2) nuevos esquemas de muestreo y guía que se benefician de manera única de la arquitectura causal y de horizonte variable de Forzado de Difusión, lo que resulta en mejoras significativas en tareas de toma de decisiones y planificación. Además de su éxito empírico, se demuestra que nuestro método optimiza un límite inferior variacional en las probabilidades de todas las subsecuencias de tokens extraídos de la verdadera distribución conjunta. Sitio web del proyecto: https://boyuan.space/diffusion-forcing/
El ajuste fino eficiente de parámetros (PEFT) es crucial para personalizar Modelos de Lenguaje Grandes (LLMs) con recursos limitados. Aunque ha habido varios métodos de PEFT para LLMs de arquitectura densa, el PEFT para LLMs de arquitectura dispersa aún está poco explorado. En este trabajo, estudiamos el método PEFT para LLMs con la arquitectura de Mezcla de Expertos (MoE) y los contenidos de este trabajo son principalmente tres: (1) Investigamos el grado de dispersión de los expertos activados en tareas personalizadas, y encontramos que la distribución de enrutamiento para una tarea específica tiende a ser altamente concentrada, mientras que la distribución de expertos activados varía significativamente entre diferentes tareas. (2) Proponemos el Ajuste Fino Especializado de Expertos, o ESFT, que ajusta los expertos más relevantes para las tareas posteriores mientras congela los otros expertos y módulos; los resultados experimentales demuestran que nuestro método no solo mejora la eficiencia de ajuste, sino que también iguala o incluso supera el rendimiento del ajuste fino de parámetros completo. (3) Analizamos además el impacto de la arquitectura MoE en el ajuste fino especializado de expertos. Descubrimos que los modelos MoE con expertos más detallados son más ventajosos para seleccionar la combinación de expertos más relevantes para las tareas posteriores, mejorando así tanto la eficiencia como la efectividad del entrenamiento.
Muchos trabajos recientes han explorado el uso de modelos de lenguaje para problemas de planificación. Una línea de investigación se centra en traducir descripciones en lenguaje natural de tareas de planificación a lenguajes estructurados de planificación, como el lenguaje de definición de dominio de planificación (PDDL). Si bien este enfoque es prometedor, medir con precisión la calidad del código PDDL generado sigue planteando desafíos significativos. En primer lugar, el código PDDL generado se evalúa típicamente utilizando validadores de planificación que verifican si el problema se puede resolver con un planificador. Este método es insuficiente porque un modelo de lenguaje podría generar código PDDL válido que no se alinea con la descripción en lenguaje natural de la tarea. En segundo lugar, los conjuntos de evaluación existentes a menudo tienen descripciones en lenguaje natural de la tarea de planificación que se asemejan estrechamente al PDDL de referencia, lo que reduce el desafío de la tarea. Para cerrar esta brecha, presentamos \benchmarkName, un banco de pruebas diseñado para evaluar la capacidad de los modelos de lenguaje para generar código PDDL a partir de descripciones en lenguaje natural de tareas de planificación. Comenzamos creando un algoritmo de equivalencia PDDL que evalúa rigurosamente la corrección del código PDDL generado por los modelos de lenguaje al compararlo de manera flexible con un PDDL de referencia. Luego, presentamos un conjunto de datos de 132,037 pares de texto a PDDL en 13 tareas diferentes, con diversos niveles de dificultad. Finalmente, evaluamos varios modelos de lenguaje con acceso a API y de peso abierto que revelan la complejidad de esta tarea. Por ejemplo, el 87.6% de las descripciones de problemas PDDL generadas por GPT-4o son sintácticamente analizables, el 82.2% son problemas válidos y resolubles, pero solo el 35.1% son semánticamente correctos, resaltando la necesidad de un banco de pruebas más riguroso para este problema.