Articles de recherche en IA sélectionnés quotidiennement avec traductions
Cet article présente Diffusion Forcing, un nouveau paradigme d'entraînement dans lequel un modèle de diffusion est formé pour débruiter un ensemble de tokens avec des niveaux de bruit indépendants par token. Nous appliquons Diffusion Forcing à la modélisation générative de séquences en entraînant un modèle causal de prédiction du token suivant à générer un ou plusieurs tokens futurs sans diffuser complètement les tokens passés. Notre approche combine les forces des modèles de prédiction du token suivant, tels que la génération de longueur variable, avec les forces des modèles de diffusion de séquence complète, comme la capacité à guider l'échantillonnage vers des trajectoires souhaitables. Notre méthode offre une gamme de capacités supplémentaires, telles que (1) le déploiement de séquences de tokens continus, comme la vidéo, avec des longueurs dépassant l'horizon d'entraînement, où les modèles de référence divergent, et (2) de nouveaux schémas d'échantillonnage et de guidage qui profitent uniquement de l'architecture à horizon variable et causale de Diffusion Forcing, et qui conduisent à des gains de performance marqués dans les tâches de prise de décision et de planification. En plus de son succès empirique, notre méthode est prouvée pour optimiser une borne inférieure variationnelle sur les vraisemblances de toutes les sous-séquences de tokens tirées de la distribution conjointe réelle. Site web du projet : https://boyuan.space/diffusion-forcing/
Le réglage efficace des paramètres (PEFT) est crucial pour personnaliser les modèles de langage de grande taille (LLMs) avec des ressources limitées. Bien qu'il existe diverses méthodes PEFT pour les LLMs à architecture dense, le PEFT pour les LLMs à architecture clairsemée reste encore peu exploré. Dans ce travail, nous étudions la méthode PEFT pour les LLMs avec l'architecture Mixture-of-Experts (MoE), et les contributions de ce travail sont principalement triples : (1) Nous examinons le degré de dispersion des experts activés dans des tâches personnalisées, et nous avons constaté que la distribution de routage pour une tâche spécifique tend à être très concentrée, tandis que la distribution des experts activés varie considérablement selon les différentes tâches. (2) Nous proposons le réglage spécialisé des experts, ou ESFT, qui ajuste les experts les plus pertinents pour les tâches en aval tout en gelant les autres experts et modules ; les résultats expérimentaux démontrent que notre méthode améliore non seulement l'efficacité du réglage, mais correspond ou dépasse même les performances du réglage complet des paramètres. (3) Nous analysons en outre l'impact de l'architecture MoE sur le réglage spécialisé des experts. Nous constatons que les modèles MoE avec des experts plus granulaires sont plus avantageux pour sélectionner la combinaison d'experts la plus pertinente pour les tâches en aval, améliorant ainsi à la fois l'efficacité et l'efficience de l'entraînement.
De nombreux travaux récents ont exploré l'utilisation de modèles de langage pour les problèmes de planification. Une ligne de recherche se concentre sur la traduction de descriptions en langage naturel de tâches de planification en langages de planification structurés, tels que le langage de définition de domaine de planification (PDDL). Bien que cette approche soit prometteuse, l'évaluation précise de la qualité du code PDDL généré continue de poser des défis importants. Premièrement, le code PDDL généré est généralement évalué à l'aide de validateurs de planification qui vérifient si le problème peut être résolu avec un planificateur. Cette méthode est insuffisante car un modèle de langage pourrait générer un code PDDL valide qui ne correspond pas à la description en langage naturel de la tâche. Deuxièmement, les ensembles d'évaluation existants ont souvent des descriptions en langage naturel de la tâche de planification qui ressemblent de près à la vérité terrain PDDL, réduisant ainsi la difficulté de la tâche. Pour combler cette lacune, nous introduisons \benchmarkName, un benchmark conçu pour évaluer la capacité des modèles de langage à générer du code PDDL à partir de descriptions en langage naturel de tâches de planification. Nous commençons par créer un algorithme d'équivalence PDDL qui évalue rigoureusement la correction du code PDDL généré par les modèles de langage en le comparant de manière flexible à une vérité terrain PDDL. Ensuite, nous présentons un ensemble de données de 132 037 paires texte-PDDL couvrant 13 tâches différentes, avec des niveaux de difficulté variés. Enfin, nous évaluons plusieurs modèles de langage accessibles via API et à poids ouvert, révélant la complexité de cette tâche. Par exemple, 87,6 % des descriptions de problèmes PDDL générées par GPT-4o sont syntaxiquement analysables, 82,2 % sont des problèmes valides et résolubles, mais seulement 35,1 % sont sémantiquement corrects, soulignant la nécessité d'un benchmark plus rigoureux pour ce problème.