Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage, tels que GPT-3.5 et ChatGPT, démontrent des capacités remarquables à suivre des instructions humaines variées et à accomplir un large éventail de tâches. Cependant, lorsqu'on explore ces modèles de langage à l'aide d'une série de tâches élémentaires de compréhension de tableaux, on observe que les modèles actuels restent sous-optimaux pour de nombreuses tâches liées aux tableaux, probablement parce qu'ils sont pré-entraînés principalement sur des textes en langage naturel unidimensionnels, alors que les tableaux relationnels sont des objets bidimensionnels. Dans ce travail, nous proposons un nouveau paradigme d'"ajustement sur tableaux" (table-tuning), où nous continuons à entraîner/affiner des modèles de langage comme GPT-3.5 et ChatGPT, en utilisant des tâches variées synthétisées à partir de tableaux réels comme données d'entraînement, dans le but d'améliorer la capacité des modèles de langage à comprendre les tableaux et à effectuer des tâches liées aux tableaux. Nous montrons que nos modèles Table-GPT résultants démontrent (1) de meilleures capacités de compréhension des tableaux, en surpassant systématiquement les versions standard de GPT-3.5 et ChatGPT sur un large éventail de tâches de tableaux, y compris des tâches inédites non vues lors de l'entraînement, et (2) une forte généralisation, dans leur capacité à répondre à des instructions humaines variées pour effectuer de nouvelles tâches de tableaux, d'une manière similaire à GPT-3.5 et ChatGPT.
Cet article présente PaLI-3, un modèle de langage visuel (VLM) plus petit, plus rapide et plus performant, qui rivalise favorablement avec des modèles similaires 10 fois plus grands. Pour parvenir à cette performance élevée, nous comparons des modèles Vision Transformer (ViT) pré-entraînés à l'aide d'objectifs de classification à ceux pré-entraînés de manière contrastive (SigLIP). Nous constatons que, bien que légèrement moins performant sur les benchmarks standards de classification d'images, PaLI basé sur SigLIP montre une performance supérieure sur divers benchmarks multimodaux, en particulier sur la localisation et la compréhension de texte visuellement situé. Nous augmentons l'encodeur d'images SigLIP jusqu'à 2 milliards de paramètres, atteignant un nouvel état de l'art en matière de recherche multilingue intermodale. Nous espérons que PaLI-3, avec seulement 5 milliards de paramètres, ravivera la recherche sur les éléments fondamentaux des VLM complexes et pourrait alimenter une nouvelle génération de modèles à grande échelle.
La quantification est une technique indispensable pour le déploiement des modèles de langage de grande taille (LLMs) et a récemment été intégrée dans le réglage fin par LoRA. Dans ce travail, nous nous concentrons sur le scénario où la quantification et le réglage fin par LoRA sont appliqués conjointement à un modèle pré-entraîné. Dans de tels cas, il est fréquent d'observer un écart constant dans les performances sur les tâches en aval entre l'approche de réglage fin complet et celle combinant quantification et réglage fin par LoRA. En réponse, nous proposons LoftQ (Quantification Consciente du Réglage Fin par LoRA), un nouveau cadre de quantification qui quantifie simultanément un LLM et trouve une initialisation à faible rang appropriée pour le réglage fin par LoRA. Une telle initialisation atténue la divergence entre le modèle quantifié et celui en pleine précision, améliorant significativement la généralisation dans les tâches en aval. Nous évaluons notre méthode sur des tâches de compréhension du langage naturel, de réponse à des questions, de résumé et de génération de langage naturel. Les expériences montrent que notre méthode est très efficace et surpasse les méthodes de quantification existantes, en particulier dans les régimes de précision mixte 2 bits et 2/4 bits, qui sont particulièrement difficiles. Nous publierons notre code.
Les grands modèles de langage (LLMs) ont démontré une capacité croissante à planifier et exécuter un objectif de haut niveau dans un environnement informatique en temps réel (par exemple, MiniWoB++). Pour accomplir une tâche, les travaux récents exigent souvent qu'un modèle apprenne à partir d'exemples de traces de la tâche via un apprentissage supervisé ou un prompting en few/many-shot. Sans ces traces d'exemples, il reste un défi de savoir comment un agent peut apprendre de manière autonome et améliorer son contrôle sur un ordinateur, ce qui limite sa capacité à accomplir une nouvelle tâche. Nous abordons ce problème avec un agent zero-shot qui ne nécessite aucune trace experte fournie. Notre agent planifie des actions exécutables dans un environnement partiellement observable et progresse de manière itérative dans une tâche en identifiant et en apprenant de ses erreurs via une auto-réflexion et une gestion structurée de la pensée. Sur les tâches simples de MiniWoB++, nous montrons que notre agent zero-shot surpasse souvent les derniers modèles de pointe (SoTAs), avec un raisonnement plus efficace. Pour les tâches plus complexes, notre agent réflexif performe au même niveau que les meilleurs modèles précédents, bien que ces derniers aient eu l'avantage d'accéder à des traces expertes ou à des informations supplémentaires sur l'écran.
Lorsqu'ils sont appliqués à des tâches de réponse à des questions et d'autres tâches de génération de texte, les modèles de langage (LMs) peuvent être interrogés de manière générative (en échantillonnant des réponses à partir de leur distribution de sortie) ou discriminative (en les utilisant pour évaluer ou classer un ensemble de candidats de sortie). Ces procédures produisent parfois des prédictions très différentes. Comment concilier des procédures de notation mutuellement incompatibles pour obtenir des prédictions cohérentes des LMs ? Nous introduisons une nouvelle procédure, sans apprentissage, basée sur la théorie des jeux pour le décodage des modèles de langage. Notre approche modélise le décodage des modèles de langage comme un jeu séquentiel de signalisation à information imparfaite et régularisé - que nous appelons le JEU DU CONSENSUS - dans lequel un GÉNÉRATEUR cherche à communiquer un paramètre abstrait de correction en utilisant des phrases en langage naturel à un DISCRIMINATEUR. Nous développons des procédures computationnelles pour trouver des équilibres approximatifs de ce jeu, aboutissant à un algorithme de décodage que nous appelons CLASSEMENT PAR ÉQUILIBRE. Appliqué à un grand nombre de tâches (y compris la compréhension de lecture, le raisonnement de bon sens, la résolution de problèmes mathématiques et le dialogue), le CLASSEMENT PAR ÉQUILIBRE améliore de manière constante, et parfois substantielle, les performances par rapport aux procédures de décodage existantes des LMs - sur plusieurs benchmarks, nous observons que l'application du CLASSEMENT PAR ÉQUILIBRE à LLaMA-7B surpasse les modèles beaucoup plus grands LLaMA-65B et PaLM-540B. Ces résultats mettent en lumière la promesse des outils de théorie des jeux pour relever les défis fondamentaux de véracité et de cohérence dans les LMs.
Les modèles de langage de grande taille (LLMs) ont démontré des performances remarquables sur un large éventail de tâches de traitement du langage naturel (NLP), égalant souvent, voire surpassant, les modèles spécifiques à une tâche de pointe. Cette étude vise à évaluer les capacités de raisonnement financier des LLMs. Nous utilisons des questions d'examen simulées du programme de Chartered Financial Analyst (CFA) pour mener une évaluation approfondie de ChatGPT et GPT-4 en analyse financière, en considérant les scénarios Zero-Shot (ZS), Chain-of-Thought (CoT) et Few-Shot (FS). Nous présentons une analyse détaillée des performances et des limites des modèles, et estimons s'ils auraient une chance de réussir les examens du CFA. Enfin, nous esquissons des perspectives sur les stratégies et améliorations potentielles pour renforcer l'applicabilité des LLMs en finance. Dans cette optique, nous espérons que ce travail ouvre la voie à des études futures pour continuer à améliorer les LLMs en matière de raisonnement financier grâce à une évaluation rigoureuse.
Les modèles de langage de grande taille (LLMs) sont déjà devenus très compétents pour résoudre des tâches de programmation simples, comme celles des benchmarks HumanEval ou MBPP. Cependant, la résolution de tâches de programmation plus complexes et compétitives reste un défi pour ces modèles, probablement en raison de leur tendance à générer des solutions sous forme de blocs de code monolithiques plutôt que de les décomposer en sous-tâches et sous-modules logiques. D'un autre côté, les programmeurs expérimentés écrivent instinctivement du code modulaire avec des abstractions pour résoudre des tâches complexes, en réutilisant souvent des modules développés précédemment. Pour combler cet écart, nous proposons CodeChain, un nouveau cadre d'inférence qui suscite la génération de code modulaire à travers une chaîne d'auto-révisions, chacune étant guidée par des sous-modules représentatifs générés lors des itérations précédentes. Concrètement, CodeChain commence par instruire le LLM pour générer du code modulaire via une incitation en chaîne de pensée. Ensuite, il applique une chaîne d'auto-révisions en itérant les deux étapes suivantes : 1) extraire et regrouper les sous-modules générés, puis sélectionner les représentants des clusters comme des implémentations plus génériques et réutilisables, et 2) augmenter l'incitation originale en chaîne de pensée avec ces implémentations de modules sélectionnées et instruire le LLM pour regénérer de nouvelles solutions modulaires. Nous constatons qu'en encourageant naturellement le LLM à réutiliser les sous-modules précédemment développés et vérifiés, CodeChain peut considérablement améliorer à la fois la modularité et la justesse des solutions générées, obtenant des améliorations relatives de 35 % sur APPS et de 76 % sur CodeContests en termes de pass@1. Il s'avère efficace aussi bien sur les LLMs d'OpenAI que sur les LLMs open-source comme WizardCoder. Nous menons également des études d'ablation approfondies avec différentes méthodes d'incitation, nombre de clusters, tailles de modèles, qualités de programmes, etc., pour fournir des insights utiles qui sous-tendent le succès de CodeChain.
La parole et le texte sont deux formes majeures du langage humain. La communauté de recherche s'est concentrée pendant de nombreuses années sur la conversion de la parole en texte ou inversement. Cependant, dans le domaine de la modélisation du langage, très peu d'efforts ont été consacrés à les modéliser conjointement. Dans cette optique, nous explorons la modélisation conjointe du langage pour les unités de parole et le texte. Plus précisément, nous comparons différents tokenizers de parole pour transformer les signaux vocaux continus en unités discrètes et utilisons diverses méthodes pour construire des données mixtes parole-texte. Nous introduisons des métriques automatiques pour évaluer dans quelle mesure le modèle de langage conjoint mélange efficacement la parole et le texte. Nous affinons également le modèle sur des tâches de compréhension du langage parlé (SLU) en aval avec différentes modalités (parole ou texte) et testons ses performances pour évaluer l'apprentissage de représentations partagées par le modèle. Nos résultats montrent qu'en mélangeant les unités de parole et le texte avec nos techniques de mélange proposées, le modèle de langage conjoint surpasse un modèle de référence basé uniquement sur la parole dans les tâches SLU et démontre une transférabilité intermodale en zero-shot.