papers.description
Les grands modèles de langage (LLMs) gagnent en popularité aussi bien dans le milieu académique que dans l'industrie, en raison de leurs performances sans précédent dans diverses applications. Alors que les LLMs continuent de jouer un rôle crucial à la fois dans la recherche et dans l'usage quotidien, leur évaluation devient de plus en plus critique, non seulement au niveau des tâches, mais aussi au niveau sociétal pour mieux comprendre leurs risques potentiels. Au cours des dernières années, des efforts significatifs ont été déployés pour examiner les LLMs sous divers angles. Cet article présente une revue complète de ces méthodes d'évaluation pour les LLMs, en se concentrant sur trois dimensions clés : quoi évaluer, où évaluer et comment évaluer. Tout d'abord, nous fournissons un aperçu du point de vue des tâches d'évaluation, englobant les tâches générales de traitement du langage naturel, le raisonnement, l'usage médical, l'éthique, l'éducation, les sciences naturelles et sociales, les applications d'agents, et d'autres domaines. Ensuite, nous répondons aux questions du 'où' et du 'comment' en plongeant dans les méthodes d'évaluation et les benchmarks, qui constituent des éléments cruciaux pour évaluer les performances des LLMs. Puis, nous résumons les cas de succès et d'échec des LLMs dans différentes tâches. Enfin, nous mettons en lumière plusieurs défis futurs qui se posent dans l'évaluation des LLMs. Notre objectif est d'offrir des insights inestimables aux chercheurs dans le domaine de l'évaluation des LLMs, contribuant ainsi au développement de LLMs plus performants. Notre point clé est que l'évaluation devrait être traitée comme une discipline essentielle pour mieux accompagner le développement des LLMs. Nous maintenons constamment les ressources open-source associées à l'adresse suivante : https://github.com/MLGroupJLU/LLM-eval-survey.
Bien que les modèles de langage récents aient la capacité de traiter des contextes longs en entrée, on sait relativement peu de choses sur la manière dont ces modèles exploitent efficacement des contextes étendus. Nous analysons la performance des modèles de langage sur deux tâches nécessitant l'identification d'informations pertinentes dans leurs contextes d'entrée : la réponse à des questions sur plusieurs documents et la récupération de paires clé-valeur. Nous constatons que la performance est souvent maximale lorsque les informations pertinentes se trouvent au début ou à la fin du contexte d'entrée, et se dégrade significativement lorsque les modèles doivent accéder à des informations situées au milieu de contextes longs. De plus, la performance diminue considérablement à mesure que le contexte d'entrée s'allonge, même pour les modèles explicitement conçus pour des contextes longs. Notre analyse permet une meilleure compréhension de la manière dont les modèles de langage utilisent leur contexte d'entrée et propose de nouveaux protocoles d'évaluation pour les futurs modèles de contexte long.
De nombreuses approches cognitives du bien-être, comme la reconnaissance et la reformulation des pensées inutiles, ont reçu un soutien empirique considérable au cours des dernières décennies, mais elles manquent encore d'une adoption véritablement généralisée dans un format d'auto-assistance. Un obstacle à cette adoption est le manque de matériel de pratique spécifique et diversifié dédié. Ce travail examine si les modèles de langage actuels peuvent être exploités pour produire une quantité virtuellement illimitée de matériel de pratique illustrant des schémas de pensée inutiles standard correspondant à des contextes spécifiques donnés, et pour générer des propositions de reformulation positive adaptées. Nous proposons PATTERNREFRAME, un nouvel ensemble de données d'environ 10 000 exemples de pensées contenant des schémas de pensée inutiles conditionnés à une persona donnée, accompagnés d'environ 27 000 reformulations positives. En utilisant cet ensemble de données pour entraîner et/ou évaluer les modèles actuels, nous montrons que les modèles existants peuvent déjà être des outils puissants pour aider à générer une abondance de matériel de pratique et d'hypothèses sur mesure, sans ou avec un minimum de formation supplémentaire du modèle requise.
Les grands modèles de langage possèdent une capacité exceptionnelle à intégrer de nouvelles informations de manière contextuelle. Cependant, le plein potentiel d'une telle approche est souvent limité par une contrainte liée à la longueur effective du contexte. Une solution à ce problème consiste à doter une couche d'attention d'un accès à une mémoire externe, composée de paires (clé, valeur). Pourtant, à mesure que le nombre de documents augmente, la proportion de clés pertinentes par rapport aux clés non pertinentes diminue, amenant le modèle à se concentrer davantage sur les clés non pertinentes. Nous identifions un défi majeur, appelé le problème de distraction, où des clés associées à différentes valeurs sémantiques peuvent se chevaucher, les rendant difficiles à distinguer. Pour résoudre ce problème, nous introduisons le Focused Transformer (FoT), une technique qui utilise un processus d'entraînement inspiré de l'apprentissage contrastif. Cette approche novatrice améliore la structure de l'espace (clé, valeur), permettant d'étendre la longueur du contexte. Notre méthode permet d'affiner des modèles préexistants à grande échelle pour allonger leur contexte effectif. Cela est démontré par notre affinage des points de contrôle OpenLLaMA de 3B et 7B. Les modèles résultants, que nous nommons LongLLaMA, montrent des avancées dans les tâches nécessitant un contexte long. Nous illustrons en outre que nos modèles LongLLaMA gèrent habilement une longueur de contexte de 256 k pour la récupération de clés secrètes.
Les grands modèles de langage (LLM) autoregressifs ont réalisé des progrès remarquables dans diverses tâches de génération de langage naturel. Cependant, ils entraînent des coûts de calcul élevés et une latence importante en raison de la génération token par token de manière autoregressive. Pour résoudre ce problème, plusieurs approches ont été proposées afin de réduire les coûts de calcul en utilisant des stratégies de sortie précoce. Ces stratégies permettent une génération de texte plus rapide en utilisant un calcul réduit, sans appliquer le graphe de calcul complet à chaque token. Bien que les méthodes existantes de sortie précoce au niveau des tokens montrent des résultats prometteurs pour l'inférence en ligne, elles ne peuvent pas être facilement appliquées à l'inférence par lots et à la mise en cache Key-Value (KV). En effet, elles doivent attendre que le dernier token d'un lot sorte avant de pouvoir arrêter le calcul. Cela limite considérablement l'application pratique de ces techniques. Dans cet article, nous proposons une méthode simple et efficace de sortie précoce au niveau des tokens, appelée SkipDecode, conçue pour fonctionner de manière transparente avec l'inférence par lots et la mise en cache KV. Elle surmonte les contraintes précédentes en établissant un point de sortie unique pour chaque token d'un lot à chaque position de séquence. Elle garantit également une diminution monotone des points de sortie, éliminant ainsi la nécessité de recalculer les caches KV pour les tokens précédents. Plutôt que d'interrompre prématurément le calcul comme dans les travaux précédents, notre approche contourne les couches inférieures à intermédiaires, consacrant la majeure partie des ressources de calcul aux couches supérieures, permettant ainsi aux tokens ultérieurs de bénéficier des dépenses de calcul des tokens précédents. Nos résultats expérimentaux montrent que SkipDecode peut obtenir des accélérations d'inférence de 2x à 5x avec une régression négligeable sur une variété de tâches. Cela est réalisé en utilisant des modèles OPT de 1,3 milliard et 6,7 milliards de paramètres, tout en étant directement compatible avec les techniques d'optimisation de batching et de mise en cache KV.
Dans cet article, nous nous concentrons sur Whisper, un modèle récent de reconnaissance automatique de la parole entraîné sur un corpus massif de 680 000 heures de parole annotée enregistrée dans des conditions variées. Nous montrons d'abord un résultat intéressant : bien que Whisper soit très robuste aux bruits de fond du monde réel (par exemple, la musique), sa représentation audio n'est en réalité pas invariante au bruit, mais est fortement corrélée aux sons non vocaux, ce qui indique que Whisper reconnaît la parole en fonction du type de bruit. Sur la base de cette découverte, nous construisons un modèle unifié de classification audio et de reconnaissance de la parole, Whisper-AT, en gelant l'architecture principale de Whisper et en entraînant un modèle léger de classification audio par-dessus. Avec un coût de calcul supplémentaire de moins de 1 %, Whisper-AT peut reconnaître des événements audio, en plus du texte parlé, en une seule passe avant.
Nous évaluons les capacités de compréhension vidéo des modèles de fondation existants en utilisant un protocole expérimental soigneusement conçu comprenant trois tâches fondamentales (reconnaissance d'actions, localisation temporelle et localisation spatiotemporelle), huit ensembles de données largement reconnus par la communauté, et quatre méthodes d'adaptation permettant d'ajuster un modèle de fondation (FM) à une tâche en aval. De plus, nous proposons un score scalaire VideoGLUE (VGS) pour mesurer l'efficacité et l'efficience d'un FM lors de son adaptation à des tâches générales de compréhension vidéo. Nos principales conclusions sont les suivantes. Premièrement, les modèles spécialisés dans une tâche surpassent significativement les six FM étudiés dans ce travail, ce qui contraste fortement avec les performances des FM dans la compréhension du langage naturel et des images. Deuxièmement, les FM natifs vidéo, dont les données de pré-entraînement incluent la modalité vidéo, sont généralement meilleurs que les FM natifs image pour classer des vidéos riches en mouvement, localiser des actions dans le temps et comprendre une vidéo contenant plus d'une action. Troisièmement, les FM natifs vidéo peuvent bien performer sur des tâches vidéo avec des adaptations légères aux tâches en aval (par exemple, en gelant les backbones des FM), tandis que les FM natifs image l'emportent lors d'un réglage fin end-to-end complet. Les deux premières observations révèlent le besoin et les opportunités considérables de mener des recherches sur des FM axés sur la vidéo, et la dernière confirme que les tâches et les méthodes d'adaptation sont cruciales lors de l'évaluation des FM.