Articles de recherche en IA sélectionnés quotidiennement avec traductions
Des travaux récents démontrent qu'après un ajustement fin sur un ensemble de données d'instructions de haute qualité, le modèle résultant peut acquérir des capacités impressionnantes pour traiter une large gamme de tâches. Cependant, les méthodes existantes pour la génération de données d'instructions produisent souvent des données dupliquées et ne sont pas suffisamment contrôlables en termes de qualité des données. Dans cet article, nous étendons la généralisation de l'ajustement par instructions en classant les données d'instructions selon 4 tâches liées au code et proposons un cadre de traitement des données basé sur un générateur-discriminateur utilisant un modèle de langage (LLM) pour générer des données d'instructions diversifiées et de haute qualité à partir de code open source. Ainsi, nous introduisons CodeOcean, un ensemble de données comprenant 20 000 instances d'instructions couvrant 4 tâches universelles liées au code, visant à augmenter l'efficacité de l'ajustement par instructions et à améliorer la capacité de généralisation du modèle ajusté. Par la suite, nous présentons WaveCoder, un modèle de langage de code (Code LLM) ajusté avec un ajustement par instructions amélioré, étendu et polyvalent. Ce modèle est spécifiquement conçu pour améliorer l'ajustement par instructions des modèles de langage de code (LLMs). Nos expériences montrent que les modèles WaveCoder surpassent d'autres modèles open source en termes de capacité de généralisation sur différentes tâches liées au code, à un niveau d'ajustement fin équivalent. De plus, WaveCoder démontre une grande efficacité dans les tâches précédentes de génération de code. Cet article apporte ainsi une contribution significative au domaine de la génération de données d'instructions et de l'ajustement fin des modèles, offrant de nouvelles perspectives et outils pour améliorer les performances dans les tâches liées au code.
La croissance exponentielle des grands modèles de langage (LLMs) a ouvert de nombreuses possibilités pour les systèmes d'AGI multi-modaux. Cependant, les progrès dans les modèles de base pour la vision et la vision-langage, qui sont également des éléments cruciaux de l'AGI multi-modale, n'ont pas suivi le rythme des LLMs. Dans ce travail, nous concevons un modèle de base vision-langage à grande échelle (InternVL), qui augmente le modèle de base pour la vision à 6 milliards de paramètres et l'aligne progressivement avec le grand modèle de langage, en utilisant des données image-texte à l'échelle du web provenant de diverses sources. Ce modèle peut être largement appliqué et atteindre des performances de pointe sur des tâches de perception visuelle telles que la reconnaissance au niveau de l'image ou du pixel, des tâches vision-langage comme la classification d'images/vidéos en zero-shot, la recherche image/vidéo-texte en zero-shot, et la liaison avec les LLMs pour créer des systèmes de dialogue multi-modaux. Nous espérons que notre recherche pourra contribuer au développement de grands modèles multi-modaux. Le code et les modèles sont disponibles à l'adresse https://github.com/OpenGVLab/InternVL.
En tant qu'êtres humains, nous interagissons constamment avec nos pairs et recevons des retours sous forme de langage naturel. Ces retours langagiers nous permettent de réfléchir à nos actions, de maintenir un comportement approprié et de corriger nos erreurs. La question se pose naturellement : pouvons-nous utiliser ces retours langagiers pour aligner les grands modèles de langage (LLMs) ? Contrairement aux recherches précédentes qui alignent les LLMs avec des données de récompense ou de préférence, nous présentons la première exploration systématique de l'alignement à travers le prisme des retours langagiers (c'est-à-dire, les jugements). Nous commençons par une investigation approfondie des méthodes potentielles pouvant être adaptées pour aligner les LLMs avec des jugements, révélant que ces méthodes ne parviennent pas à exploiter pleinement les jugements. Pour faciliter une utilisation plus efficace des jugements, nous proposons un nouveau cadre, l'Entraînement par Contraste d'Improbabilité (Contrastive Unlikelihood Training, CUT), qui permet une détection et une correction fine des contenus inappropriés basées sur les jugements. Nos résultats d'alignement hors ligne montrent qu'avec seulement 1317 données de jugement prêtes à l'emploi, CUT (LLaMA2-13b) peut surpasser le modèle DaVinci003 de 175B et dépasser le meilleur modèle de référence de 52,34 points sur AlpacaEval. Les résultats d'alignement en ligne démontrent que CUT peut aligner les LLMs (LLaMA2-chat-13b) de manière itérative en utilisant des données de jugement spécifiques au modèle, avec une amélioration constante des performances de 81,09 à 91,36 points sur AlpacaEval. Notre analyse suggère en outre que les jugements présentent un potentiel plus grand que les récompenses pour l'alignement des LLMs et méritent des recherches futures.
Les humains possèdent une compétence remarquable : la perception visuelle, cette capacité à voir et à comprendre ce qui est vu, leur permettant de donner un sens au monde visuel et, par conséquent, de raisonner. Les modèles de langage multimodaux de grande envergure (MLLM) ont récemment atteint des performances impressionnantes dans des tâches combinant vision et langage, allant de la réponse à des questions visuelles et de la génération de légendes d'images au raisonnement visuel et à la génération d'images. Cependant, lorsqu'ils sont sollicités pour identifier ou compter (percevoir) les entités dans une image donnée, les systèmes MLLM existants échouent. Dans l'optique de développer un système MLLM précis pour la perception et le raisonnement, nous proposons d'utiliser des encodeurs visuels polyvalents (VCoder) comme "yeux de perception" pour les MLLM multimodaux. Nous alimentons le VCoder avec des modalités de perception telles que des cartes de segmentation ou de profondeur, améliorant ainsi les capacités de perception du MLLM. Deuxièmement, nous exploitons les images de COCO et les sorties de modèles de perception visuelle prêts à l'emploi pour créer notre ensemble de données COCO Segmentation Text (COST), destiné à l'entraînement et à l'évaluation des MLLM sur la tâche de perception d'objets. Troisièmement, nous introduisons des métriques pour évaluer les capacités de perception d'objets des MLLM sur notre ensemble de données COST. Enfin, nous fournissons des preuves expérimentales approfondies démontrant que le VCoder améliore les compétences de perception au niveau des objets par rapport aux MLLM multimodaux existants, y compris GPT-4V. Nous mettons à disposition notre ensemble de données, notre code et nos modèles en open source pour favoriser la recherche. Notre code est accessible à l'adresse suivante : https://github.com/SHI-Labs/VCoder.
Une méthode clé pour créer des agents d'Intelligence Artificielle (IA) est l'apprentissage par renforcement (Reinforcement Learning, RL). Cependant, la construction d'une politique RL autonome qui mappe directement la perception à l'action rencontre des problèmes majeurs, notamment son manque de généralité à travers plusieurs tâches et le besoin d'une grande quantité de données d'entraînement. La principale raison est qu'elle ne parvient pas à intégrer efficacement des informations préalables dans le cycle perception-action lors de l'élaboration de la politique. Les grands modèles de langage (Large Language Models, LLMs) sont apparus comme une manière fondamentale d'intégrer des connaissances interdomaines dans les agents IA, mais ils manquent de capacités cruciales d'apprentissage et d'adaptation pour des problèmes de décision spécifiques. Ce papier présente un modèle de cadre général pour intégrer et apprendre un raisonnement structuré dans les politiques des agents IA. Notre méthodologie s'inspire de la modularité observée dans le cerveau humain. Le cadre utilise la construction de fonctions intrinsèques et extrinsèques pour ajouter des compréhensions préalables des structures de raisonnement. Il offre également la capacité adaptative d'apprendre des modèles au sein de chaque module ou fonction, en cohérence avec la structure modulaire des processus cognitifs. Nous décrivons en détail ce cadre et le comparons à d'autres pipelines IA et cadres existants. Le papier explore des applications pratiques, couvrant des expériences qui démontrent l'efficacité de notre méthode. Nos résultats indiquent que les agents IA performent et s'adaptent bien mieux lorsque le raisonnement organisé et les connaissances préalables sont intégrés. Cela ouvre la voie à des systèmes d'agents IA plus résilients et généralistes.
En tant qu'avancées les plus récentes en traitement du langage naturel, les grands modèles de langage (LLMs) ont atteint des capacités de compréhension et de génération du langage comparables à celles des humains dans de nombreuses tâches du monde réel, et sont même considérés comme une voie potentielle vers l'intelligence artificielle générale. Pour mieux faciliter la recherche sur les LLMs, de nombreux modèles open-source, tels que Llama 2 et Falcon, ont récemment été proposés et ont obtenu des performances comparables à celles des modèles propriétaires. Cependant, ces modèles sont principalement conçus pour des scénarios en anglais et présentent de faibles performances dans des contextes chinois. Dans ce rapport technique, nous proposons YAYI 2, incluant à la fois des modèles de base et des modèles de conversation, avec 30 milliards de paramètres. YAYI 2 est pré-entraîné à partir de zéro sur un corpus multilingue contenant 2,65 trillions de tokens filtrés par notre pipeline de traitement des données de pré-entraînement. Le modèle de base est aligné avec les valeurs humaines grâce à un ajustement fin supervisé avec des millions d'instructions et un apprentissage par renforcement à partir de retours humains. Des expériences approfondies sur plusieurs benchmarks, tels que MMLU et CMMLU, démontrent systématiquement que le modèle YAYI 2 proposé surpasse les autres modèles open-source de taille similaire.
Les attaques sur les modèles de langage supposent généralement l'un des deux modèles de menace extrêmes : un accès complet en boîte blanche aux poids du modèle, ou un accès en boîte noire limité à une API de génération de texte. Cependant, les API du monde réel sont souvent plus flexibles que la simple génération de texte : ces API exposent un accès en « boîte grise » ouvrant la voie à de nouveaux vecteurs de menace. Pour explorer cela, nous avons testé en mode red team trois nouvelles fonctionnalités exposées dans les API de GPT-4 : le fine-tuning, l'appel de fonctions et la récupération de connaissances. Nous constatons que le fine-tuning d'un modèle sur aussi peu que 15 exemples nuisibles ou 100 exemples bénins peut supprimer les protections essentielles de GPT-4, permettant une gamme de sorties nuisibles. De plus, nous observons que les Assistants GPT-4 divulguent facilement le schéma d'appel de fonctions et peuvent être amenés à exécuter des appels de fonctions arbitraires. Enfin, nous constatons que la récupération de connaissances peut être détournée en injectant des instructions dans les documents de récupération. Ces vulnérabilités soulignent que toute extension de la fonctionnalité exposée par une API peut créer de nouvelles failles.
La reconstruction 3D à partir d'une vue unique est un défi en raison de l'ambiguïté des indices monoculaires et du manque d'informations sur les régions occluses. Les champs de radiance neuronaux (NeRF), bien que populaires pour la synthèse de vues et la reconstruction 3D, reposent généralement sur des images multi-vues. Les méthodes existantes pour la reconstruction 3D à vue unique avec NeRF s'appuient soit sur des a priori de données pour deviner les vues des régions occluses, ce qui peut ne pas être physiquement précis, soit sur les ombres observées par des caméras RGB, qui sont difficiles à détecter dans des conditions d'éclairage ambiant et des fonds à faible albédo. Nous proposons d'utiliser des données de temps de vol capturées par une diode à avalanche à photon unique pour surmonter ces limitations. Notre méthode modélise les trajets optiques à deux rebonds avec NeRF, en utilisant les données transitoires du lidar pour la supervision. En tirant parti des avantages à la fois de NeRF et de la lumière à deux rebonds mesurée par le lidar, nous démontrons que nous pouvons reconstruire la géométrie visible et occluse sans a priori de données ni dépendance à un éclairage ambiant contrôlé ou à l'albédo de la scène. De plus, nous montrons une amélioration de la généralisation sous des contraintes pratiques de résolution spatiale et temporelle des capteurs. Nous pensons que notre méthode est une direction prometteuse à mesure que les lidars à photon unique deviennent omniprésents sur les appareils grand public, tels que les téléphones, tablettes et casques.
Bien que CLIP soit le modèle de base dans de nombreuses applications vision-langage, il souffre d'un biais important de détection de texte. Ce biais amène les modèles CLIP à `parroter' le texte visuel intégré dans les images tout en ignorant la sémantique visuelle authentique. Nous découvrons que dans le jeu de données image-texte le plus populaire, LAION-2B, les légendes parrottent également de manière dense (épellent) le texte intégré dans les images. Notre analyse montre qu'environ 50 % des images contiennent du texte visuel, et que 90 % de leurs légendes parrottent plus ou moins ce texte visuel. Sur la base de cette observation, nous examinons minutieusement les différentes versions des modèles CLIP et vérifions que le texte visuel est le facteur dominant dans la mesure de la similarité image-texte de style LAION pour ces modèles. Pour examiner si ces légendes parrottes façonnent le biais de détection de texte, nous entraînons une série de modèles CLIP avec des sous-ensembles de LAION sélectionnés selon différents critères orientés vers les légendes parrottes. Nous montrons que l'entraînement avec des légendes parrottes façonne facilement ce biais mais nuit à l'apprentissage attendu des représentations vision-langage dans les modèles CLIP. Cela suggère qu'il est urgent de revoir soit la conception des modèles de type CLIP, soit le pipeline de curation des jeux de données image-texte existants basé sur le filtrage par score CLIP.
La popularisation des modèles de diffusion Texte-à-Image (T2I) permet la génération d'images de haute qualité à partir de descriptions textuelles. Cependant, générer des images personnalisées et diversifiées avec des attributs visuels de référence reste un défi. Ce travail se concentre sur la personnalisation des modèles de diffusion T2I à un niveau plus abstrait, celui des concepts ou catégories, en adaptant les points communs d'un ensemble d'images de référence tout en créant de nouvelles instances avec des variations suffisantes. Nous proposons une solution permettant à un modèle de diffusion T2I pré-entraîné d'apprendre un ensemble de prompts souples, ce qui facilite la génération de nouvelles images en échantillonnant des prompts à partir de la distribution apprise. Ces prompts offrent des capacités d'édition guidée par le texte et une flexibilité supplémentaire pour contrôler les variations et les mélanges entre plusieurs distributions. Nous montrons également l'adaptabilité de la distribution de prompts apprise à d'autres tâches, comme la génération Texte-à-3D. Enfin, nous démontrons l'efficacité de notre approche à travers une analyse quantitative incluant une évaluation automatique et une évaluation humaine. Site du projet : https://briannlongzhao.github.io/DreamDistribution
Nous étudions le problème de la reconstruction 3D à partir d'une seule image en mode zéro-shot. Les travaux récents abordent la reconstruction de formes en zéro-shot par la modélisation générative d'actifs 3D, mais ces modèles sont coûteux en calculs lors de l'entraînement et de l'inférence. En revanche, l'approche traditionnelle de ce problème repose sur la régression, où des modèles déterministes sont entraînés à prédire directement la forme de l'objet. Ces méthodes de régression offrent une efficacité computationnelle bien supérieure à celle des méthodes génératives. Cela soulève une question naturelle : la modélisation générative est-elle nécessaire pour obtenir des performances élevées, ou, à l'inverse, les approches basées sur la régression restent-elles compétitives ? Pour y répondre, nous concevons un modèle robuste basé sur la régression, appelé ZeroShape, en nous appuyant sur les conclusions convergentes dans ce domaine et une nouvelle intuition. Nous constituons également un vaste benchmark d'évaluation en conditions réelles, comprenant des objets issus de trois ensembles de données 3D différents. Ce benchmark est plus diversifié et d'un ordre de grandeur plus grand que ceux utilisés dans les travaux précédents pour évaluer quantitativement les modèles, visant à réduire la variance d'évaluation dans notre domaine. Nous montrons que ZeroShape non seulement surpasse les méthodes de pointe en termes de performances, mais démontre également une efficacité computationnelle et en données significativement plus élevée.
L'expansion d'abréviations est une stratégie utilisée pour accélérer la communication en limitant la quantité de saisie et en exploitant un modèle de langage pour suggérer des expansions. Ici, nous examinons la personnalisation des suggestions d'un modèle de langage de grande taille (LLM) en fonction des conversations précédentes afin d'améliorer la pertinence des prédictions, en particulier lorsque les données utilisateur sont limitées (~1000 échantillons). Plus précisément, nous comparons le fine-tuning, le prompt-tuning et la génération augmentée par récupération pour les suggestions de texte expansé à partir d'entrées abrégées. Notre étude de cas avec un LLM de 8 milliards de paramètres déployé auprès d'un utilisateur réel vivant avec la SLA, ainsi que des expériences de personnalisation de personnages de films, indiquent que (1) la personnalisation peut être nécessaire dans certains scénarios et que le prompt-tuning s'y adapte bien, (2) le fine-tuning sur des données du domaine (avec aussi peu que 600 échantillons) montre encore des gains, mais (3) la sélection few-shot augmentée par récupération surpasse également le fine-tuning. (4) Le réglage efficace des paramètres permet une personnalisation efficiente et évolutive. Pour le prompt-tuning, nous constatons également que l'initialisation des "soft-prompts" appris à des tokens de concepts pertinents pour l'utilisateur conduit à une précision plus élevée qu'une initialisation aléatoire.
Alors que le développement des modèles d'IA générative à grande échelle évolue au-delà de la génération de texte (1D) pour inclure la génération d'images (2D) et de vidéos (3D), le traitement des informations spatiales et temporelles présente des défis uniques en termes de qualité, de performance et d'efficacité. Nous présentons le premier travail visant à comprendre ce nouvel espace de conception de systèmes pour les modèles de génération multimodale texte-à-image (TTI) et texte-à-vidéo (TTV). Les architectures de modèles actuelles se divisent en deux catégories : les modèles basés sur la diffusion et ceux basés sur les Transformers. Notre caractérisation systématique des performances sur une suite de huit modèles TTI/TTV représentatifs montre qu'après l'application de techniques d'optimisation de pointe telles que Flash Attention, les convolutions représentent jusqu'à 44 % du temps d'exécution pour les modèles TTI basés sur la diffusion, tandis que les couches linéaires consomment jusqu'à 49 % du temps d'exécution pour les modèles basés sur les Transformers. Nous observons également que les modèles TTI basés sur la diffusion ressemblent à l'étape de préremplissage de l'inférence des LLM et bénéficient d'une accélération de 1,1 à 2,5 fois supérieure grâce à Flash Attention par rapport aux modèles TTI basés sur les Transformers qui ressemblent à la phase de décodage. Étant donné que les optimisations conçues pour les LLM ne s'appliquent pas directement aux modèles TTI/TTV, nous devons effectuer une caractérisation approfondie de ces charges de travail pour identifier de nouvelles opportunités d'optimisation. Ce faisant, nous définissons la longueur de séquence dans le contexte des modèles TTI/TTV et observons que la longueur de séquence peut varier jusqu'à 4 fois dans l'inférence des modèles de diffusion. Nous observons également que les aspects temporels des charges de travail TTV posent des goulots d'étranglement uniques, avec l'attention temporelle représentant plus de 60 % du temps total d'attention. Globalement, notre caractérisation approfondie des performances des systèmes constitue une première étape cruciale vers la conception de systèmes efficaces et déployables pour les charges de travail TTI/TTV émergentes.
Les propriétés physiques d'un objet, telles que la masse, influencent de manière significative la façon dont nous le manipulons avec nos mains. Étonnamment, cet aspect a jusqu'à présent été négligé dans les travaux antérieurs sur la synthèse de mouvements 3D. Pour améliorer le réalisme des mouvements synthétisés de la main et de l'objet en 3D, ce travail propose MACS, la première approche de Synthèse de Mouvements 3D de la Main et de l'Objet Conditionnée par la Masse (MAss Conditioned 3D hand and object motion Synthesis). Notre approche repose sur des modèles de diffusion en cascade et génère des interactions qui s'ajustent de manière plausible en fonction de la masse de l'objet et du type d'interaction. MACS accepte également une trajectoire 3D d'objet dessinée manuellement en entrée et synthétise les mouvements naturels de la main en 3D conditionnés par la masse de l'objet. Cette flexibilité permet à MACS d'être utilisé pour diverses applications en aval, telles que la génération de données d'entraînement synthétiques pour des tâches d'apprentissage automatique, l'animation rapide de mains pour les workflows graphiques, et la génération d'interactions de personnages pour les jeux vidéo. Nous montrons expérimentalement qu'un jeu de données de petite taille suffit à MACS pour généraliser de manière raisonnable à des masses d'objets interpolées et extrapolées non vues pendant l'entraînement. De plus, MACS montre une généralisation modérée à des objets non vus, grâce aux étiquettes de contact conditionnées par la masse générées par notre modèle de synthèse de contact de surface ConNet. Notre étude utilisateur approfondie confirme que les interactions synthétisées entre la main et l'objet en 3D sont très plausibles et réalistes.
Cet article présente "Shai", un modèle de langage de grande échelle de 10 milliards de paramètres spécifiquement conçu pour l'industrie de la gestion d'actifs, construit sur un modèle de base open source. Grâce à un pré-entraînement continu et à un ajustement fin utilisant un corpus ciblé, Shai démontre des performances améliorées dans les tâches pertinentes à son domaine, surpassant les modèles de référence. Notre recherche inclut le développement d'un cadre d'évaluation innovant, qui intègre des examens de qualification professionnelle, des tâches sur mesure, des réponses à des questions ouvertes et des évaluations de sécurité, pour évaluer de manière exhaustive les capacités de Shai. De plus, nous discutons des défis et des implications de l'utilisation de modèles de langage de grande échelle comme GPT-4 pour l'évaluation des performances dans la gestion d'actifs, suggérant une combinaison d'évaluation automatisée et de jugement humain. Le développement de Shai, illustrant le potentiel et la polyvalence des modèles de langage de grande échelle de 10 milliards de paramètres dans le secteur financier avec des performances significatives et des exigences computationnelles modestes, espère fournir des insights pratiques et des méthodologies pour aider les pairs de l'industrie dans leurs efforts similaires.
Récemment, les chercheurs ont tenté d'explorer la capacité des LLM (modèles de langage de grande taille) à traiter des vidéos et ont proposé plusieurs modèles de LLM vidéo. Cependant, la capacité des LLM à gérer le grounding vidéo (VG), une tâche temporelle importante qui nécessite que le modèle localise avec précision les timestamps de début et de fin des moments temporels dans les vidéos correspondant aux requêtes textuelles données, reste encore floue et inexplorée dans la littérature. Pour combler cette lacune, nous proposons dans cet article le benchmark LLM4VG, qui évalue systématiquement les performances de différents LLM sur les tâches de grounding vidéo. Sur la base de notre proposition LLM4VG, nous concevons des expériences approfondies pour examiner deux groupes de modèles LLM vidéo sur le grounding vidéo : (i) les LLM vidéo entraînés sur des paires texte-vidéo (notés VidLLM), et (ii) les LLM combinés avec des modèles de description visuelle pré-entraînés, tels que les modèles de légendage vidéo/image. Nous proposons des méthodes de prompt pour intégrer l'instruction de VG et la description provenant de différents types de générateurs, y compris les générateurs basés sur le légendage pour la description visuelle directe et les générateurs basés sur les QVA (Question-Answering visuel) pour l'amélioration de l'information. Nous fournissons également des comparaisons complètes de divers VidLLM et explorons l'influence des différents choix de modèles visuels, LLM, conceptions de prompts, etc. Nos évaluations expérimentales conduisent à deux conclusions : (i) les VidLLM existants sont encore loin d'atteindre des performances satisfaisantes en matière de grounding vidéo, et davantage de tâches vidéo temporelles devraient être incluses pour affiner ces modèles, et (ii) la combinaison des LLM et des modèles visuels montre des capacités préliminaires pour le grounding vidéo avec un potentiel considérable d'amélioration en recourant à des modèles plus fiables et à une meilleure guidance des instructions de prompts.