Articles de recherche en IA sélectionnés quotidiennement avec traductions
Récemment, l'utilisation d'un modèle de langage de grande envergure (LLM) propriétaire puissant (par exemple, GPT-4) comme évaluateur pour des réponses longues est devenue la norme de facto. Cependant, pour les praticiens confrontés à des tâches d'évaluation à grande échelle et à des critères personnalisés (par exemple, la lisibilité pour les enfants), l'utilisation de LLM propriétaires comme évaluateurs est peu fiable en raison de leur nature fermée, de leur versioning non contrôlé et de leurs coûts prohibitifs. Dans ce travail, nous proposons Prometheus, un LLM entièrement open-source qui rivalise avec les capacités d'évaluation de GPT-4 lorsque les documents de référence appropriés (réponse de référence, grille de notation) sont fournis. Nous construisons d'abord la Collection de Feedback, un nouvel ensemble de données composé de 1 000 grilles de notation détaillées, 20 000 instructions et 100 000 réponses et commentaires linguistiques générés par GPT-4. En utilisant la Collection de Feedback, nous entraînons Prometheus, un LLM évaluateur de 13 milliards de paramètres capable d'évaluer tout texte long en fonction d'une grille de notation personnalisée fournie par l'utilisateur. Les résultats expérimentaux montrent que Prometheus obtient un coefficient de corrélation de Pearson de 0,897 avec des évaluateurs humains lors de l'évaluation avec 45 grilles de notation personnalisées, ce qui est comparable à GPT-4 (0,882) et surpasse largement ChatGPT (0,392). De plus, la mesure de la corrélation avec GPT-4 avec 1 222 grilles de notation personnalisées sur quatre benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) montre des tendances similaires, renforçant les capacités de Prometheus en tant que LLM évaluateur. Enfin, Prometheus atteint la plus haute précision sur deux benchmarks de préférence humaine (HHH Alignment & MT Bench Human Judgment) par rapport aux modèles de récompense open-source explicitement entraînés sur des ensembles de données de préférence humaine, soulignant son potentiel en tant que modèle de récompense universel. Nous mettons à disposition notre code, notre ensemble de données et notre modèle sur https://github.com/kaistAI/Prometheus.
Plan-and-Write est une approche hiérarchique couramment utilisée dans la génération de textes narratifs longs, qui consiste d'abord à créer un plan pour guider l'écriture narrative. Suivant cette approche, plusieurs études se contentent de solliciter des modèles de langage de grande taille pour la planification, ce qui donne souvent des résultats sous-optimaux. Dans cet article, nous proposons un nouveau cadre appelé Extraction Itérative de Plans Guidée par l'Évaluation pour la génération de textes narratifs longs (EIPE-text), qui extrait des plans à partir d'un corpus de récits et utilise ces plans pour construire un meilleur planificateur. EIPE-text comporte trois étapes : extraction de plans, apprentissage et inférence. Dans l'étape d'extraction de plans, il extrait et améliore itérativement les plans à partir du corpus narratif et construit un corpus de plans. Nous proposons un mécanisme d'évaluation basé sur des questions-réponses (QA) pour évaluer automatiquement les plans et générer des instructions détaillées de raffinement de plans afin de guider l'amélioration itérative. Dans l'étape d'apprentissage, nous construisons un meilleur planificateur en effectuant un fine-tuning avec le corpus de plans ou en utilisant l'apprentissage en contexte avec des exemples du corpus de plans. Enfin, nous exploitons une approche hiérarchique pour générer des récits longs. Nous évaluons l'efficacité d'EIPE-text dans les domaines des romans et de la narration. Les évaluations basées sur GPT-4 et les évaluations humaines démontrent que notre méthode peut générer des récits longs plus cohérents et pertinents. Notre code sera publié ultérieurement.
Nous explorons l'utilisation du langage comme représentation perceptuelle pour la navigation visuelle et langagière. Notre approche utilise des systèmes de vision prêts à l'emploi (pour la génération de légendes d'images et la détection d'objets) afin de convertir la vue panoramique égocentrique d'un agent à chaque étape temporelle en descriptions en langage naturel. Nous affinons ensuite un modèle de langage préentraîné pour sélectionner une action, basée sur la vue actuelle et l'historique de la trajectoire, qui permettrait de mieux respecter les instructions de navigation. Contrairement à la configuration standard qui adapte un modèle de langage préentraîné pour fonctionner directement avec des caractéristiques visuelles continues issues de modèles de vision préentraînés, notre approche utilise plutôt le langage (discret) comme représentation perceptuelle. Nous explorons deux cas d'utilisation de notre approche de navigation basée sur le langage (LangNav) sur le benchmark de navigation visuelle et langagière R2R : la génération de trajectoires synthétiques à partir d'un grand modèle de langage sollicité (GPT-4) pour affiner un modèle de langage plus petit ; et le transfert sim-to-real où nous transférons une politique apprise dans un environnement simulé (ALFRED) à un environnement réel (R2R). Notre approche s'avère améliorer les performances par rapport à des bases de référence solides qui reposent sur des caractéristiques visuelles dans des contextes où seulement quelques trajectoires de référence (10-100) sont disponibles, démontrant ainsi le potentiel de l'utilisation du langage comme représentation perceptuelle pour les tâches de navigation.