Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le nombre de grands modèles de langage (LLM) accessibles aux utilisateurs contre rémunération connaît une croissance rapide. Nous examinons les coûts associés à l'interrogation des API de LLM populaires, tels que GPT-4, ChatGPT et J1-Jumbo, et constatons que ces modèles présentent des structures tarifaires hétérogènes, avec des frais pouvant varier de deux ordres de grandeur. En particulier, l'utilisation de LLM sur de vastes collections de requêtes et de textes peut s'avérer coûteuse. Motivés par cette observation, nous décrivons et discutons trois types de stratégies que les utilisateurs peuvent exploiter pour réduire les coûts d'inférence liés à l'utilisation des LLM : 1) l'adaptation des prompts, 2) l'approximation des LLM, et 3) la cascade de LLM. À titre d'exemple, nous proposons FrugalGPT, une instanciation simple mais flexible de la cascade de LLM, qui apprend à déterminer quelles combinaisons de LLM utiliser pour différentes requêtes afin de réduire les coûts et d'améliorer la précision. Nos expériences montrent que FrugalGPT peut égaler les performances du meilleur LLM individuel (par exemple, GPT-4) avec une réduction des coûts allant jusqu'à 98 %, ou améliorer la précision par rapport à GPT-4 de 4 % pour un coût équivalent. Les idées et les résultats présentés ici jettent les bases d'une utilisation durable et efficace des LLM.
Bien que les grands modèles de langage génératifs (LLMs) « ajustés par instruction » aient démontré une capacité impressionnante à généraliser à de nouvelles tâches, les phases d'entraînement dépendent fortement de grandes quantités de données d'instruction diversifiées et de haute qualité (comme ChatGPT et GPT-4). Malheureusement, l'acquisition de données de haute qualité, en particulier lorsqu'il s'agit de données rédigées par des humains, peut poser des défis importants en termes de coût et d'accessibilité. De plus, les préoccupations liées à la confidentialité peuvent encore limiter l'accès à ces données, rendant le processus d'obtention complexe et nuancé. Par conséquent, cela entrave la généralité des modèles ajustés et peut restreindre leur efficacité dans certains contextes. Pour résoudre ce problème, notre étude introduit une nouvelle approche appelée Ajustement d'Instruction Fédéré (FedIT), qui exploite l'apprentissage fédéré (FL) comme cadre d'apprentissage pour l'ajustement par instruction des LLMs. Cela marque la première exploration de l'ajustement par instruction basé sur FL pour les LLMs. Ceci est particulièrement important puisque les données textuelles sont principalement générées par les utilisateurs finaux. Il est donc impératif de concevoir et d'adapter des approches FL pour exploiter efficacement ces instructions diverses stockées sur les appareils locaux, tout en préservant la confidentialité et en assurant la sécurité des données. Dans cet article, en utilisant l'auto-évaluation largement répandue de GPT-4, nous démontrons qu'en exploitant les ensembles d'instructions hétérogènes et diversifiés du côté client avec le cadre proposé FedIT, nous avons amélioré les performances des LLMs par rapport à un entraînement centralisé avec seulement un nombre limité d'instructions locales. En outre, dans cet article, nous avons développé un dépôt Github nommé Shepherd. Ce dépôt offre un cadre fondamental pour explorer le réglage fin fédéré des LLMs en utilisant des instructions hétérogènes à travers diverses catégories.
Nous présentons un cadre visuel interactif nommé InternChat, ou iChat en abrégé. Ce cadre intègre des chatbots dotés de capacités de planification et de raisonnement, tels que ChatGPT, avec des instructions non verbales comme les mouvements de pointage qui permettent aux utilisateurs de manipuler directement des images ou des vidéos à l'écran. Les mouvements de pointage (y compris les gestes, les curseurs, etc.) offrent une plus grande flexibilité et précision dans l'exécution de tâches centrées sur la vision nécessitant un contrôle, une édition et une génération de contenu visuel à granularité fine. Le nom InternChat représente interaction, non verbal et chatbots. Contrairement aux systèmes interactifs existants qui reposent uniquement sur le langage, en incorporant des instructions de pointage, le iChat proposé améliore significativement l'efficacité de la communication entre les utilisateurs et les chatbots, ainsi que la précision des chatbots dans les tâches centrées sur la vision, en particulier dans des scénarios visuels complexes où le nombre d'objets est supérieur à 2. De plus, dans iChat, un mécanisme de contrôle auxiliaire est utilisé pour améliorer la capacité de contrôle des LLM, et un grand modèle vision-langage nommé Husky est affiné pour des dialogues multi-modaux de haute qualité (impressionnant ChatGPT-3.5-turbo avec 93,89 % de qualité GPT-4). Nous espérons que ce travail pourra inspirer de nouvelles idées et directions pour les futurs systèmes visuels interactifs. Bienvenue pour consulter le code sur https://github.com/OpenGVLab/InternChat.
Les grands modèles de langage (LLMs) ont récemment démontré des performances impressionnantes dans diverses tâches de traitement du langage naturel (NLP). Pour aborder les tâches de raisonnement en plusieurs étapes, l'incitation par chaîne de pensée (CoT) en few-shot inclut quelques démonstrations manuelles de raisonnement étape par étape, permettant aux LLMs de générer explicitement des étapes de raisonnement et d'améliorer leur précision dans les tâches de raisonnement. Pour éliminer l'effort manuel, Zero-shot-CoT concatène l'énoncé du problème cible avec "Réfléchissons étape par étape" comme invite d'entrée pour les LLMs. Malgré le succès de Zero-shot-CoT, il souffre encore de trois écueils : les erreurs de calcul, les erreurs d'étapes manquantes et les erreurs de mauvaise interprétation sémantique. Pour résoudre les erreurs d'étapes manquantes, nous proposons l'incitation Plan-and-Solve (PS). Elle se compose de deux éléments : d'abord, élaborer un plan pour diviser la tâche entière en sous-tâches plus petites, puis exécuter les sous-tâches selon le plan. Pour résoudre les erreurs de calcul et améliorer la qualité des étapes de raisonnement générées, nous étendons l'incitation PS avec des instructions plus détaillées et dérivons l'incitation PS+. Nous évaluons notre stratégie d'incitation proposée sur dix jeux de données couvrant trois problèmes de raisonnement. Les résultats expérimentaux sur GPT-3 montrent que notre incitation zero-shot proposée surpasse systématiquement Zero-shot-CoT sur tous les jeux de données par une large marge, est comparable ou dépasse l'incitation Zero-shot-Program-of-Thought, et a une performance comparable à l'incitation CoT en 8-shot sur le problème de raisonnement mathématique. Le code est disponible à l'adresse suivante : https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
Les modèles de diffusion, devenus populaires pour la génération d'images à partir de texte, sont capables de produire des images de haute qualité et riches en contenu guidées par des instructions textuelles. Cependant, les modèles existants présentent des limites en matière de compréhension sémantique et de raisonnement de bon sens lorsque les instructions d'entrée sont des récits concis, ce qui entraîne une génération d'images de faible qualité. Pour améliorer les capacités de ces modèles face à des instructions narratives, nous proposons une approche de fine-tuning efficace en termes de paramètres, appelée Semantic Understanding and Reasoning adapter (SUR-adapter), adaptée aux modèles de diffusion pré-entraînés. Pour atteindre cet objectif, nous collectons et annotons d'abord un nouveau jeu de données, SURD, composé de plus de 57 000 échantillons multimodaux sémantiquement corrigés. Chaque échantillon contient une instruction narrative simple, une instruction complexe basée sur des mots-clés et une image de haute qualité. Ensuite, nous alignons la représentation sémantique des instructions narratives sur celle des instructions complexes et transférons les connaissances des grands modèles de langage (LLMs) à notre SUR-adapter via une distillation de connaissances, lui permettant ainsi d'acquérir des capacités puissantes de compréhension et de raisonnement sémantique pour construire une représentation sémantique textuelle de haute qualité pour la génération d'images à partir de texte. Nous menons des expériences en intégrant plusieurs LLMs et des modèles de diffusion pré-entraînés populaires pour démontrer l'efficacité de notre approche à permettre aux modèles de diffusion de comprendre et de raisonner sur le langage naturel concis sans dégradation de la qualité de l'image. Notre approche rend les modèles de diffusion pour la génération d'images à partir de texte plus faciles à utiliser avec une meilleure expérience utilisateur, ce qui montre que notre méthode a le potentiel de faire progresser le développement de modèles de génération d'images à partir de texte conviviaux en comblant l'écart sémantique entre les instructions narratives simples et les instructions complexes basées sur des mots-clés.
Le réglage par prompt (Prompt Tuning) est l'une des approches efficaces pour l'ajustement paramétrique économe des modèles de langage pré-entraînés. Bien qu'il soit sans doute la méthode la plus économe en paramètres (les prompts souples ajustés représentent moins de 0,1 % du total des paramètres), il performe généralement moins bien que d'autres méthodes de réglage efficaces et est assez sensible aux hyperparamètres. Dans ce travail, nous introduisons le Réglage par Prompt Résiduel (Residual Prompt Tuning) - une méthode simple et efficace qui améliore significativement les performances et la stabilité du réglage par prompt. Nous proposons de reparamétrer les embeddings de prompts souples à l'aide d'un réseau peu profond avec une connexion résiduelle. Nos expériences montrent que le Réglage par Prompt Résiduel surpasse significativement le réglage par prompt sur le benchmark SuperGLUE. Notamment, notre méthode atteint une amélioration de +7 points par rapport au réglage par prompt avec T5-Base et permet de réduire la longueur du prompt par 10 sans nuire aux performances. De plus, nous montrons que notre approche est robuste au choix du taux d'apprentissage et de l'initialisation du prompt, et est efficace dans des contextes de few-shot.
Nous présentons un modèle vision et langage nommé MultiModal-GPT, conçu pour mener des dialogues multi-tours avec les humains. MultiModal-GPT est capable de suivre diverses instructions humaines, telles que générer une description détaillée, compter le nombre d'objets d'intérêt, et répondre à des questions générales des utilisateurs. MultiModal-GPT est affiné de manière paramétriquement efficace à partir d'OpenFlamingo, avec l'ajout d'adaptateurs de bas rang (LoRA) à la fois dans la partie d'attention croisée et dans la partie d'auto-attention du modèle de langage. Nous construisons d'abord des modèles d'instructions avec des données visuelles et linguistiques pour l'ajustement d'instructions multi-modales, afin que le modèle comprenne et suive les instructions humaines. Nous constatons que la qualité des données d'entraînement est cruciale pour les performances du dialogue, où peu de données contenant des réponses courtes peuvent amener le modèle à répondre brièvement à toute instruction. Pour améliorer davantage la capacité de MultiModal-GPT à dialoguer avec les humains, nous utilisons des données d'instructions uniquement linguistiques pour entraîner conjointement MultiModal-GPT. L'entraînement conjoint d'instructions uniquement linguistiques et d'instructions visuelles-linguistiques avec le même modèle d'instruction améliore efficacement les performances du dialogue. Diverses démonstrations montrent la capacité de MultiModal-GPT à dialoguer de manière continue avec les humains. Le code et la démo sont disponibles à l'adresse https://github.com/open-mmlab/Multimodal-GPT.
Nous présentons AvatarReX, une nouvelle méthode pour apprendre des avatars complets basés sur NeRF à partir de données vidéo. L'avatar appris permet non seulement un contrôle expressif du corps, des mains et du visage ensemble, mais prend également en charge l'animation et le rendu en temps réel. Pour ce faire, nous proposons une représentation d'avatar compositionnelle, où le corps, les mains et le visage sont modélisés séparément de manière à exploiter correctement les connaissances structurelles issues de modèles de maillage paramétriques, sans compromettre la flexibilité de la représentation. De plus, nous dissocions la géométrie et l'apparence pour chaque partie. Grâce à ces choix techniques, nous proposons un pipeline de rendu différé dédié, qui peut être exécuté à une fréquence d'images en temps réel pour synthétiser des images de haute qualité en vue libre. La dissociation de la géométrie et de l'apparence nous permet également de concevoir une stratégie d'apprentissage en deux passes qui combine le rendu volumétrique et le rendu de surface pour l'entraînement du réseau. De cette manière, une supervision au niveau des patchs peut être appliquée pour forcer le réseau à apprendre des détails d'apparence nets sur la base de l'estimation de la géométrie. Globalement, notre méthode permet la construction automatique d'avatars complets expressifs avec une capacité de rendu en temps réel, et peut générer des images photo-réalistes avec des détails dynamiques pour de nouveaux mouvements corporels et expressions faciales.
Les modèles de langage à grande échelle (LLM) peuvent atteindre des performances élevées sur de nombreuses tâches en produisant un raisonnement étape par étape avant de fournir une sortie finale, souvent appelé raisonnement en chaîne de pensée (CoT). Il est tentant d'interpréter ces explications CoT comme le processus utilisé par le LLM pour résoudre une tâche. Cependant, nous constatons que les explications CoT peuvent systématiquement déformer la véritable raison derrière la prédiction d'un modèle. Nous démontrons que les explications CoT peuvent être fortement influencées par l'ajout de caractéristiques biaisées aux entrées du modèle — par exemple, en réorganisant les options à choix multiples dans une incitation few-shot pour que la réponse soit toujours "(A)" — ce que les modèles omettent systématiquement dans leurs explications. Lorsque nous biaisons les modèles vers des réponses incorrectes, ils génèrent fréquemment des explications CoT soutenant ces réponses. Cela entraîne une baisse de précision allant jusqu'à 36 % sur un ensemble de 13 tâches issues de BIG-Bench Hard, lors de tests avec GPT-3.5 d'OpenAI et Claude 1.0 d'Anthropic. Sur une tâche de biais social, les explications des modèles justifient des réponses conformes aux stéréotypes sans mentionner l'influence de ces biais sociaux. Nos résultats indiquent que les explications CoT peuvent être plausibles mais trompeuses, ce qui risque d'accroître notre confiance envers les LLM sans garantir leur sécurité. Le CoT est prometteur pour l'explicabilité, mais nos résultats soulignent la nécessité d'efforts ciblés pour évaluer et améliorer la fidélité des explications.
Les méthodes existantes de Neural Radiance Fields (NeRF) rencontrent des difficultés face à la présence d'objets réfléchissants, ce qui entraîne souvent des rendus flous ou déformés. Plutôt que de calculer un seul champ de radiance, nous proposons un champ de radiance neuronal multi-espaces (MS-NeRF) qui représente la scène à l'aide d'un groupe de champs de caractéristiques dans des sous-espaces parallèles, permettant ainsi une meilleure compréhension par le réseau neuronal de la présence d'objets réfléchissants et réfractifs. Notre schéma multi-espaces fonctionne comme une amélioration des méthodes NeRF existantes, nécessitant seulement une faible surcharge computationnelle pour l'entraînement et l'inférence des sorties supplémentaires. Nous démontrons la supériorité et la compatibilité de notre approche en utilisant trois modèles représentatifs basés sur NeRF, à savoir NeRF, Mip-NeRF et Mip-NeRF 360. Les comparaisons sont effectuées sur un nouvel ensemble de données composé de 25 scènes synthétiques et 7 scènes réelles capturées avec des réflexions et réfractions complexes, toutes ayant des points de vue à 360 degrés. Des expériences approfondies montrent que notre approche surpasse significativement les méthodes NeRF mono-espace existantes pour le rendu de scènes de haute qualité impliquant des chemins lumineux complexes à travers des objets de type miroir. Notre code et notre ensemble de données seront disponibles publiquement à l'adresse https://zx-yin.github.io/msnerf.
Les modèles Transformer sont fondamentaux pour le traitement du langage naturel (NLP) et la vision par ordinateur. Malgré divers travaux récents visant à réduire le coût quadratique de ces modèles (en fonction de la longueur de séquence n), la gestion efficace de séquences ultra-longues (par exemple, avec plus de 16 000 tokens) reste un défi. Des applications telles que répondre à des questions basées sur un livre entier ou résumer un article scientifique sont inefficaces ou irréalisables. Dans cet article, nous proposons de réduire significativement la dépendance de la complexité d'un modèle Transformer à n, en compressant l'entrée en une représentation dont la taille r est indépendante de n à chaque couche. Plus précisément, en exploitant le fait que dans de nombreuses tâches, seul un petit sous-ensemble de tokens spéciaux (que nous appelons VIP-tokens) est le plus pertinent pour la prédiction finale, nous proposons un schéma de compression centré sur les VIP-tokens (Vcc) qui compresse sélectivement la séquence d'entrée en fonction de leur impact sur l'approximation de la représentation de ces VIP-tokens. Par rapport aux bases de référence concurrentes, l'algorithme proposé est non seulement efficace (obtenant une amélioration de plus de 3 fois en termes d'efficacité par rapport aux bases de référence pour des longueurs de 4K et 16K), mais il atteint également des performances compétitives ou supérieures sur un grand nombre de tâches. De plus, nous montrons que notre algorithme peut être mis à l'échelle pour 128K tokens (ou plus) tout en offrant une amélioration constante de la précision.
ELECTRA, le cadre de pré-entraînement générateur-discriminateur, a démontré une capacité impressionnante de construction sémantique dans diverses tâches en aval. Malgré ses performances convaincantes, ELECTRA reste confronté aux défis d'un entraînement monotone et d'une interaction insuffisante. Un générateur basé uniquement sur la modélisation de langage masqué (MLM) entraîne un apprentissage biaisé et un déséquilibre des étiquettes pour le discriminateur, réduisant ainsi l'efficacité de l'apprentissage ; l'absence de boucle de rétroaction explicite du discriminateur vers le générateur crée un fossé entre ces deux composants, sous-exploitant l'apprentissage progressif. Dans cette étude, une méthode d'apprentissage progressif multi-perspective (MCL) est proposée pour offrir de multiples degrés et angles visuels afin d'optimiser l'échantillonnage lors du pré-entraînement, et pour exploiter pleinement la relation entre le générateur et le discriminateur. Concrètement, trois cours d'auto-supervision sont conçus pour atténuer les défauts inhérents au MLM et équilibrer les étiquettes de manière multi-perspective. En outre, deux cours d'auto-correction sont proposés pour combler le fossé entre les deux encodeurs en créant un "carnet de correction" pour une supervision secondaire. Par ailleurs, un essai de "soupe de cours" est mené pour résoudre le problème dynamique de "tir à la corde" du MCL, permettant d'évoluer vers un modèle pré-entraîné plus robuste. Les résultats expérimentaux montrent que notre méthode améliore significativement les performances moyennes d'ELECTRA de 2,8 % et 3,2 points absolus respectivement sur les benchmarks GLUE et SQuAD 2.0, et surpasse les modèles récents de style ELECTRA dans les mêmes conditions. Le modèle MCL pré-entraîné est disponible à l'adresse https://huggingface.co/McmanusChen/MCL-base.