Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce travail présente Depth Anything V2. Sans recourir à des techniques sophistiquées, nous visons à révéler des découvertes cruciales pour ouvrir la voie à la construction d'un modèle puissant d'estimation de profondeur monoculaire. Notamment, par rapport à la version V1, cette version produit des prédictions de profondeur beaucoup plus fines et robustes grâce à trois pratiques clés : 1) remplacer toutes les images réelles étiquetées par des images synthétiques, 2) augmenter la capacité de notre modèle enseignant, et 3) enseigner aux modèles étudiants via le pont d'images réelles pseudo-étiquetées à grande échelle. Comparés aux derniers modèles basés sur Stable Diffusion, nos modèles sont nettement plus efficaces (plus de 10 fois plus rapides) et plus précis. Nous proposons des modèles de différentes échelles (allant de 25M à 1,3B de paramètres) pour soutenir des scénarios variés. Grâce à leur forte capacité de généralisation, nous les affinons avec des étiquettes de profondeur métrique pour obtenir nos modèles de profondeur métrique. En plus de nos modèles, considérant la diversité limitée et le bruit fréquent dans les ensembles de test actuels, nous construisons un benchmark d'évaluation polyvalent avec des annotations précises et des scènes variées pour faciliter les recherches futures.
Ce travail n'introduit pas une nouvelle méthode. Nous présentons plutôt une découverte intéressante qui remet en question la nécessité du biais inductif — la localité — dans les architectures modernes de vision par ordinateur. Concrètement, nous constatons que les Transformers classiques peuvent fonctionner en traitant directement chaque pixel individuel comme un token et obtenir des résultats très performants. Cela diffère considérablement de la conception populaire dans les Vision Transformers, qui conservent le biais inductif des réseaux convolutifs envers les voisinages locaux (par exemple, en traitant chaque patch de 16x16 comme un token). Nous démontrons principalement l'efficacité de l'approche "pixels-comme-tokens" à travers trois tâches bien étudiées en vision par ordinateur : l'apprentissage supervisé pour la classification d'objets, l'apprentissage auto-supervisé via l'auto-encodage masqué, et la génération d'images avec des modèles de diffusion. Bien que l'opération directe sur des pixels individuels soit moins pratique sur le plan computationnel, nous pensons que la communauté doit être consciente de cette connaissance surprenante lors de la conception de la prochaine génération d'architectures neuronales pour la vision par ordinateur.
Les Transformers ont révolutionné l'apprentissage automatique grâce à leur architecture simple mais efficace. Le pré-entraînement des Transformers sur d'immenses ensembles de données textuelles provenant d'Internet a permis une généralisation inégalée pour les tâches de compréhension du langage naturel (NLU). Cependant, ces modèles de langage restent fragiles lorsqu'ils sont confrontés à des formes de raisonnement algorithmique, où les calculs doivent être précis et robustes. Pour pallier cette limitation, nous proposons une nouvelle approche qui combine la compréhension du langage du Transformer avec la robustesse des raisonneurs algorithmiques neuronaux (NAR) basés sur des réseaux de neurones graphiques (GNN). Ces NAR se sont avérés efficaces en tant que solveurs génériques pour les tâches algorithmiques, lorsqu'elles sont spécifiées sous forme de graphe. Pour rendre leurs embeddings accessibles à un Transformer, nous proposons une architecture hybride avec une procédure d'entraînement en deux phases, permettant aux tokens du modèle de langage de réaliser une attention croisée sur les embeddings de nœuds provenant du NAR. Nous évaluons notre modèle TransNAR résultant sur CLRS-Text, la version textuelle du benchmark CLRS-30, et démontrons des gains significatifs par rapport aux modèles basés uniquement sur les Transformers pour le raisonnement algorithmique, à la fois en distribution et hors distribution.
Les politiques de grande envergure pré-entraînées sur une combinaison de données vision-langage à l'échelle d'Internet et de démonstrations robotiques diversifiées ont le potentiel de transformer la manière dont nous enseignons de nouvelles compétences aux robots : plutôt que d'entraîner de nouveaux comportements à partir de zéro, nous pouvons affiner ces modèles vision-langage-action (VLA) pour obtenir des politiques robustes et généralisables pour le contrôle visuomoteur. Cependant, l'adoption généralisée des VLA en robotique s'est avérée difficile car 1) les VLA existants sont largement fermés et inaccessibles au public, et 2) les travaux antérieurs n'explorent pas les méthodes pour affiner efficacement les VLA pour de nouvelles tâches, un élément clé pour leur adoption. Pour relever ces défis, nous présentons OpenVLA, un VLA open-source de 7 milliards de paramètres entraîné sur une collection diversifiée de 970 000 démonstrations robotiques du monde réel. OpenVLA s'appuie sur un modèle de langage Llama 2 combiné à un encodeur visuel qui fusionne les caractéristiques pré-entraînées de DINOv2 et SigLIP. Grâce à la diversité accrue des données et aux nouveaux composants du modèle, OpenVLA démontre des résultats solides pour la manipulation généraliste, surpassant des modèles fermés comme RT-2-X (55B) de 16,5 % en taux de réussite absolue sur 29 tâches et plusieurs incarnations robotiques, avec 7 fois moins de paramètres. Nous montrons en outre que nous pouvons affiner efficacement OpenVLA pour de nouveaux contextes, avec des résultats de généralisation particulièrement forts dans des environnements multi-tâches impliquant plusieurs objets et de solides capacités d'ancrage linguistique, et surpassons les méthodes d'apprentissage par imitation à partir de zéro comme Diffusion Policy de 20,4 %. Nous explorons également l'efficacité computationnelle ; en tant que contribution distincte, nous montrons qu'OpenVLA peut être affiné sur des GPU grand public via des méthodes modernes d'adaptation à faible rang et servi efficacement via la quantification sans impact sur le taux de réussite en aval. Enfin, nous publions les points de contrôle du modèle, les notebooks d'affinage et notre codebase PyTorch avec un support intégré pour l'entraînement de VLA à grande échelle sur les ensembles de données Open X-Embodiment.
La modélisation efficace de séquences avec une longueur de contexte infinie constitue un problème de longue date. Les travaux précédents souffrent soit d'une complexité de calcul quadratique, soit d'une capacité limitée d'extrapolation en termes de généralisation à des longueurs plus importantes. Dans ce travail, nous présentons Samba, une architecture hybride simple qui combine de manière hiérarchique Mamba, un modèle d'espace d'état sélectif (SSM), avec l'attention par fenêtre glissante (SWA). Samba compresse sélectivement une séquence donnée en états cachés récurrents tout en conservant la capacité de rappeler précisément les mémoires grâce au mécanisme d'attention. Nous avons mis à l'échelle Samba jusqu'à 3,8 milliards de paramètres avec 3,2 billions de tokens d'entraînement, et montrons que Samba surpasse largement les modèles de pointe basés sur l'attention pure ou les SSM sur un large éventail de benchmarks. Lorsqu'il est entraîné sur des séquences de longueur 4K, Samba peut être extrapolé efficacement à une longueur de contexte de 256K avec un rappel de mémoire parfait et montre des prédictions de tokens améliorées jusqu'à une longueur de contexte de 1 million. En tant que modèle de séquence à temps linéaire, Samba offre un débit 3,73 fois supérieur par rapport aux Transformers avec une attention par requêtes groupées lors du traitement de prompts utilisateurs de longueur 128K, et une accélération de 3,64 fois lors de la génération de 64K tokens en streaming illimité. Une implémentation de démonstration de Samba est disponible publiquement sur https://github.com/microsoft/Samba.
Cet article présente des améliorations innovantes des modèles de diffusion en intégrant un réseau multi-résolution novateur et une normalisation de couche dépendante du temps. Les modèles de diffusion ont gagné en notoriété pour leur efficacité dans la génération d'images haute fidélité. Alors que les approches conventionnelles reposent sur des architectures U-Net convolutionnelles, les conceptions récentes basées sur les Transformers ont démontré des performances et une scalabilité supérieures. Cependant, les architectures Transformer, qui tokenisent les données d'entrée (via la "patchification"), sont confrontées à un compromis entre la fidélité visuelle et la complexité computationnelle en raison de la nature quadratique des opérations d'auto-attention par rapport à la longueur des tokens. Bien que des tailles de patch plus grandes permettent une efficacité de calcul de l'attention, elles peinent à capturer des détails visuels fins, entraînant des distorsions d'image. Pour relever ce défi, nous proposons d'augmenter le modèle de diffusion avec le réseau Multi-Résolution (DiMR), un cadre qui affine les caractéristiques à travers plusieurs résolutions, améliorant progressivement les détails de la basse à la haute résolution. De plus, nous introduisons la Normalisation de Couche Dépendante du Temps (TD-LN), une approche paramétriquement efficace qui intègre des paramètres dépendants du temps dans la normalisation de couche pour injecter des informations temporelles et obtenir des performances supérieures. L'efficacité de notre méthode est démontrée sur le benchmark de génération conditionnelle par classe d'ImageNet, où les variantes DiMR-XL surpassent les modèles de diffusion précédents, établissant de nouveaux scores FID de pointe de 1,70 sur ImageNet 256 x 256 et 2,89 sur ImageNet 512 x 512. Page du projet : https://qihao067.github.io/projects/DiMR
Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables, mais ils restent sujets à des erreurs, en particulier dans les tâches de raisonnement temporel impliquant une logique temporelle complexe. Les recherches existantes ont exploré les performances des LLM en matière de raisonnement temporel en utilisant divers ensembles de données et benchmarks. Cependant, ces études s'appuient souvent sur des données du monde réel que les LLM ont pu rencontrer lors de leur pré-entraînement ou emploient des techniques d'anonymisation qui peuvent introduire involontairement des incohérences factuelles. Dans ce travail, nous abordons ces limites en introduisant de nouveaux ensembles de données synthétiques spécialement conçus pour évaluer les capacités de raisonnement temporel des LLM dans divers scénarios. La diversité des types de questions dans ces ensembles de données permet une investigation systématique de l'impact de la structure du problème, de la taille, du type de question, de l'ordre des faits et d'autres facteurs sur les performances des LLM. Nos résultats fournissent des insights précieux sur les forces et les faiblesses des LLM actuels dans les tâches de raisonnement temporel. Pour favoriser des recherches supplémentaires dans ce domaine, nous rendons publics les ensembles de données et le cadre d'évaluation utilisés dans nos expériences : https://huggingface.co/datasets/baharef/ToT.
Les Transformers de Diffusion (DiT) excellent dans la génération d'images et de vidéos, mais rencontrent des défis computationnels en raison de la complexité quadratique de l'auto-attention. Nous proposons DiTFastAttn, une nouvelle méthode de compression post-entraînement pour atténuer le goulot d'étranglement computationnel des DiT. Nous identifions trois redondances clés dans le calcul de l'attention lors de l'inférence des DiT : 1. la redondance spatiale, où de nombreuses têtes d'attention se concentrent sur des informations locales ; 2. la redondance temporelle, avec une forte similarité entre les sorties d'attention des étapes voisines ; 3. la redondance conditionnelle, où les inférences conditionnelles et non conditionnelles présentent une similarité significative. Pour résoudre ces redondances, nous proposons trois techniques : 1. l'Attention par Fenêtrage avec Mise en Cache Résiduelle pour réduire la redondance spatiale ; 2. la Réduction de Similarité Temporelle pour exploiter la similarité entre les étapes ; 3. l'Élimination de la Redondance Conditionnelle pour sauter les calculs redondants lors de la génération conditionnelle. Pour démontrer l'efficacité de DiTFastAttn, nous l'appliquons à DiT, PixArt-Sigma pour les tâches de génération d'images, et à OpenSora pour les tâches de génération de vidéos. Les résultats d'évaluation montrent que pour la génération d'images, notre méthode réduit jusqu'à 88 % des FLOPs et permet une accélération jusqu'à 1,6x pour la génération en haute résolution.
Les humains dessinent pour faciliter le raisonnement : nous traçons des lignes auxiliaires pour résoudre des problèmes de géométrie ; nous annotons et encadrons lorsque nous raisonnons sur des cartes ; nous utilisons des croquis pour amplifier nos idées et soulager notre mémoire de travail à capacité limitée. Cependant, de telles actions sont absentes des modèles de langage multimodaux (LMs) actuels. Les paradigmes actuels de chaîne de pensée et d'utilisation d'outils n'utilisent que le texte comme étapes intermédiaires de raisonnement. Dans ce travail, nous présentons Sketchpad, un cadre qui donne aux LMs multimodaux un tableau de croquis visuel et des outils pour dessiner sur ce tableau. Le LM effectue la planification et le raisonnement en fonction des artefacts visuels qu'il a dessinés. Contrairement aux travaux antérieurs, qui utilisent des modèles texte-à-image pour permettre aux LMs de dessiner, Sketchpad permet aux LMs de dessiner avec des lignes, des boîtes, des annotations, etc., ce qui est plus proche du croquis humain et facilite mieux le raisonnement. Sketchpad peut également utiliser des modèles de vision spécialisés pendant le processus de dessin (par exemple, dessiner des boîtes englobantes avec des modèles de détection d'objets, dessiner des masques avec des modèles de segmentation), pour améliorer encore la perception visuelle et le raisonnement. Nous expérimentons sur une large gamme de tâches mathématiques (y compris la géométrie, les fonctions, les graphiques et les échecs) et de tâches complexes de raisonnement visuel. Sketchpad améliore considérablement les performances sur toutes les tâches par rapport à des modèles de base solides sans croquis, avec un gain moyen de 12,7 % sur les tâches mathématiques et de 8,6 % sur les tâches visuelles. GPT-4o avec Sketchpad établit un nouvel état de l'art sur toutes les tâches, y compris V*Bench (80,3 %), le raisonnement spatial BLINK (83,9 %) et la correspondance visuelle (80,8 %). Tous les codes et données sont disponibles sur https://visualsketchpad.github.io/.
Nous explorons l'espace des poids engendré par une vaste collection de modèles de diffusion personnalisés. Nous peuplons cet espace en créant un ensemble de données de plus de 60 000 modèles, chacun étant un modèle de base affiné pour intégrer l'identité visuelle d'une personne différente. Nous modélisons la variété sous-jacente de ces poids comme un sous-espace, que nous nommons weights2weights. Nous démontrons trois applications immédiates de cet espace : l'échantillonnage, l'édition et l'inversion. Premièrement, chaque point de l'espace correspondant à une identité, l'échantillonnage d'un ensemble de poids à partir de celui-ci produit un modèle encodant une identité nouvelle. Ensuite, nous identifions des directions linéaires dans cet espace correspondant à des modifications sémantiques de l'identité (par exemple, ajouter une barbe). Ces modifications persistent dans l'apparence des échantillons générés. Enfin, nous montrons qu'inverser une seule image dans cet espace reconstruit une identité réaliste, même si l'image d'entrée est hors distribution (par exemple, une peinture). Nos résultats indiquent que l'espace des poids des modèles de diffusion affinés se comporte comme un espace latent interprétable des identités.
Nous présentons MuirBench, un benchmark complet axé sur les capacités robustes de compréhension multi-images des modèles de langage multimodaux (LLMs). MuirBench se compose de 12 tâches variées impliquant plusieurs images (par exemple, compréhension de scènes, ordonnancement) qui couvrent 10 catégories de relations multi-images (par exemple, relations multivues, temporelles). Avec 11 264 images et 2 600 questions à choix multiples, MuirBench est conçu de manière appariée, où chaque instance standard est jumelée à une variante insoluble présentant des différences sémantiques minimales, afin d'assurer une évaluation fiable. Évalué sur 20 LLMs multimodaux récents, nos résultats révèlent que même les modèles les plus performants comme GPT-4o et Gemini Pro rencontrent des difficultés à résoudre MuirBench, atteignant respectivement 68,0 % et 49,3 % de précision. Les LLMs multimodaux open-source entraînés sur des images uniques peinent à généraliser aux questions multi-images, restant en dessous de 33,3 % de précision. Ces résultats soulignent l'importance de MuirBench pour encourager la communauté à développer des LLMs multimodaux capables de dépasser la compréhension d'une seule image, suggérant des pistes potentielles pour des améliorations futures.
Les ensembles de données de préférences de haute qualité sont essentiels pour entraîner des modèles de récompense capables de guider efficacement les grands modèles de langage (LLM) dans la génération de réponses de haute qualité alignées sur les préférences humaines. À mesure que les LLM deviennent plus puissants et mieux alignés, les ensembles de données de préférences sous licence permissive, tels que Open Assistant, HH-RLHF et HelpSteer, doivent être mis à jour pour rester efficaces dans la modélisation des récompenses. Les méthodes qui distillent des données de préférences à partir de LLM propriétaires comme GPT-4 sont soumises à des restrictions d'utilisation commerciale imposées par les fournisseurs de modèles. Pour améliorer à la fois la qualité des réponses générées et l'étiquetage des attributs, nous publions HelpSteer2, un ensemble de données de préférences sous licence permissive (CC-BY-4.0). En utilisant un modèle de base interne puissant entraîné sur HelpSteer2, nous avons atteint le score SOTA (92,0 %) sur le jeu de données principal de Reward-Bench, surpassant les modèles ouverts et propriétaires actuellement répertoriés, au 12 juin 2024. Notamment, HelpSteer2 ne contient que dix mille paires de réponses, soit un ordre de grandeur de moins que les ensembles de données de préférences existants (par exemple, HH-RLHF), ce qui le rend très efficace pour l'entraînement des modèles de récompense. Nos expériences approfondies démontrent que les modèles de récompense entraînés avec HelpSteer2 sont efficaces pour aligner les LLM. En particulier, nous proposons SteerLM 2.0, une approche d'alignement de modèles qui peut exploiter efficacement le score multi-attribut riche prédit par nos modèles de récompense. HelpSteer2 est disponible à l'adresse https://huggingface.co/datasets/nvidia/HelpSteer2 et le code est disponible à l'adresse https://github.com/NVIDIA/NeMo-Aligner.
Les modèles de langage multimodaux de grande échelle (mLLMs) sont entraînés sur une grande quantité de données texte-image. Bien que la plupart des mLLMs soient entraînés uniquement sur des données de type légende, Alayrac et al. [2022] ont montré qu'un entraînement supplémentaire sur des séquences entrelacées de texte et d'images peut conduire à l'émergence de capacités d'apprentissage en contexte. Cependant, le jeu de données qu'ils ont utilisé, M3W, n'est pas public et est uniquement en anglais. Des tentatives ont été faites pour reproduire leurs résultats, mais les jeux de données publiés sont exclusivement en anglais. En revanche, les jeux de données multilingues et multimodaux actuels sont soit composés uniquement de données de type légende, soit de taille moyenne, soit entièrement privés. Cela limite la recherche sur les mLLMs pour les 7 000 autres langues parlées dans le monde. Nous introduisons donc mOSCAR, à notre connaissance le premier corpus de documents multilingues et multimodaux de grande échelle extrait du web. Il couvre 163 langues, 315 millions de documents, 214 milliards de tokens et 1,2 milliard d'images. Nous effectuons soigneusement une série d'étapes de filtrage et d'évaluation pour nous assurer que mOSCAR est suffisamment sûr, diversifié et de bonne qualité. Nous entraînons en outre deux types de modèles multilingues pour prouver les avantages de mOSCAR : (1) un modèle entraîné sur un sous-ensemble de mOSCAR et des données de légende, et (2) un modèle entraîné uniquement sur des données de légende. Le modèle supplémentairement entraîné sur mOSCAR montre une forte amélioration des performances en apprentissage few-shot sur diverses tâches et benchmarks multilingues texte-image, confirmant ainsi les résultats précédents pour les mLLMs exclusivement en anglais.
L'informatique (CS) témoigne des complexités de l'intelligence humaine, propulsant de manière significative le développement de l'intelligence artificielle et de la société moderne. Cependant, la communauté actuelle des grands modèles de langage (LLMs) se concentre excessivement sur des benchmarks pour analyser des compétences fondamentales spécifiques (par exemple, les mathématiques et la génération de code), négligeant une évaluation globale du domaine de l'informatique. Pour combler cette lacune, nous introduisons CS-Bench, le premier benchmark bilingue (chinois-anglais) dédié à l'évaluation des performances des LLMs en informatique. CS-Bench comprend environ 5 000 échantillons de test soigneusement sélectionnés, couvrant 26 sous-domaines répartis dans 4 domaines clés de l'informatique, englobant diverses formes de tâches et divisions de connaissances et de raisonnement. En utilisant CS-Bench, nous menons une évaluation complète de plus de 30 LLMs grand public, révélant la relation entre les performances en CS et les échelles des modèles. Nous analysons également de manière quantitative les raisons des échecs des LLMs existants et mettons en lumière des axes d'amélioration, notamment la supplémentation des connaissances et le raisonnement spécifique à l'informatique. Des expériences transversales supplémentaires montrent une forte corrélation entre les capacités des LLMs en informatique et leurs aptitudes en mathématiques et en codage. De plus, les LLMs experts en mathématiques et en codage démontrent également de solides performances dans plusieurs sous-domaines de l'informatique. À l'avenir, nous envisageons que CS-Bench serve de pierre angulaire pour les applications des LLMs dans le domaine de l'informatique et ouvre de nouvelles voies dans l'évaluation des diverses capacités de raisonnement des LLMs. Les données de CS-Bench et le code d'évaluation sont disponibles à l'adresse https://github.com/csbench/csbench.
Les modèles de base multimodaux et multitâches actuels comme 4M ou UnifiedIO montrent des résultats prometteurs, mais en pratique, leurs capacités prêtes à l'emploi pour accepter des entrées diverses et exécuter des tâches variées sont limitées par le nombre (généralement assez réduit) de modalités et de tâches sur lesquelles ils sont entraînés. Dans cet article, nous étendons leurs capacités en entraînant un seul modèle sur des dizaines de modalités hautement diversifiées et en effectuant un co-entraînement sur des ensembles de données multimodales à grande échelle et des corpus textuels. Cela inclut l'entraînement sur plusieurs modalités sémantiques et géométriques, des cartes de caractéristiques issues de modèles récents de pointe comme DINOv2 et ImageBind, des pseudo-labels de modèles spécialisés comme SAM et 4DHumans, ainsi qu'une gamme de nouvelles modalités qui permettent des interactions novatrices avec le modèle et un pilotage de la génération, par exemple les métadonnées d'images ou les palettes de couleurs. Une étape cruciale dans ce processus consiste à effectuer une tokenisation discrète sur diverses modalités, qu'elles soient de type image, des cartes de caractéristiques de réseaux neuronaux, des vecteurs, des données structurées comme la segmentation d'instances ou les poses humaines, ou des données pouvant être représentées sous forme de texte. Ainsi, nous étendons les capacités prêtes à l'emploi des modèles multimodaux et montrons spécifiquement la possibilité d'entraîner un seul modèle pour résoudre au moins 3 fois plus de tâches/modalités que les modèles existants, et ce sans perte de performance. Cela permet des capacités de génération multimodale plus fines et contrôlables, et nous permet d'étudier la distillation de modèles entraînés sur des données et des objectifs divers dans un modèle unifié. Nous réussissons à mettre à l'échelle l'entraînement pour un modèle de trois milliards de paramètres utilisant des dizaines de modalités et différents ensembles de données. Les modèles résultants et le code d'entraînement sont open source sur 4m.epfl.ch.
Les récentes avancées en génération d'images ont permis la création d'images de haute qualité à partir de conditions textuelles. Cependant, face à des conditions multi-modales, telles que du texte combiné à des apparences de référence, les méthodes existantes peinent à équilibrer efficacement plusieurs conditions, montrant généralement une préférence pour une modalité au détriment des autres. Pour relever ce défi, nous présentons EMMA, un nouveau modèle de génération d'images acceptant des prompts multi-modaux, construit sur le modèle de diffusion texte-à-image (T2I) de pointe, ELLA. EMMA intègre de manière fluide des modalités supplémentaires aux côtés du texte pour guider la génération d'images grâce à une conception innovante de Connecteur de Caractéristiques Multi-modales, qui intègre efficacement les informations textuelles et modales supplémentaires en utilisant un mécanisme d'attention spécial. En gelant tous les paramètres du modèle de diffusion T2I original et en ajustant uniquement quelques couches supplémentaires, nous révélons une découverte intéressante : le modèle de diffusion T2I pré-entraîné peut secrètement accepter des prompts multi-modaux. Cette propriété intéressante facilite l'adaptation à différents frameworks existants, faisant d'EMMA un outil flexible et efficace pour produire des images et même des vidéos personnalisées et conscientes du contexte. De plus, nous introduisons une stratégie pour assembler des modules EMMA appris afin de produire des images conditionnées par plusieurs modalités simultanément, éliminant ainsi le besoin d'un entraînement supplémentaire avec des prompts multi-modaux mixtes. Des expériences approfondies démontrent l'efficacité d'EMMA à maintenir une haute fidélité et des détails dans les images générées, mettant en évidence son potentiel en tant que solution robuste pour des tâches avancées de génération d'images conditionnées multi-modales.
Nous proposons de développer une intelligence omni-modale, capable de comprendre toute modalité et d'apprendre des représentations universelles. Plus précisément, nous proposons un paradigme d'apprentissage préalable évolutif, nommé Contexte Multimodal (MiCo), qui permet d'augmenter le nombre de modalités, la quantité de données, ainsi que les paramètres du modèle, lors du processus de pré-entraînement. Avec MiCo, les modèles pré-entraînés démontrent des capacités émergentes significatives en apprentissage multimodal, évaluées sur les tâches suivantes : i) des benchmarks de perception unimodale pour 10 modalités différentes, ii) 25 tâches de compréhension intermodale incluant la recherche d'information, le question-réponse et la génération de légendes, et iii) 18 benchmarks pour les grands modèles de langage multimodaux. Nos modèles établissent 37 nouveaux records en termes de performances de pointe. Nous espérons que nos recherches contribueront au développement de l'intelligence omni-modale. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/invictus717/MiCo.
L'une des méthodes prédominantes pour entraîner des modèles du monde est la prédiction autorégressive dans l'espace de sortie de l'élément suivant d'une séquence. En traitement du langage naturel (NLP), cela se traduit par des modèles de langage de grande taille (LLMs) prédisant le prochain token ; en vision par ordinateur (CV), cela prend la forme de modèles autorégressifs prédisant la prochaine image/token/pixel. Cependant, cette approche diffère de la cognition humaine à plusieurs égards. Premièrement, les prédictions humaines sur l'avenir influencent activement les processus cognitifs internes. Deuxièmement, les humains évaluent naturellement la plausibilité des prédictions concernant les états futurs. Sur la base de cette capacité, et troisièmement, en évaluant quand les prédictions sont suffisantes, les humains allouent une quantité de temps dynamique pour faire une prédiction. Ce processus adaptatif est analogue à la pensée de type Système 2 en psychologie. Toutes ces capacités sont fondamentales pour le succès des humains dans le raisonnement et la planification de haut niveau. Par conséquent, pour répondre aux limitations des modèles autorégressifs traditionnels qui manquent de ces capacités humaines, nous introduisons les Modèles du Monde Basés sur l'Énergie (EBWM). EBWM consiste à entraîner un Modèle Basé sur l'Énergie (EBM) pour prédire la compatibilité d'un contexte donné et d'un état futur prédit. Ce faisant, EBWM permet aux modèles d'atteindre les trois aspects de la cognition humaine décrits. De plus, nous avons développé une variante du transformateur autorégressif traditionnel adapté aux modèles basés sur l'énergie, appelé le Transformateur Basé sur l'Énergie (EBT). Nos résultats démontrent que EBWM s'adapte mieux aux données et aux heures GPU que les transformateurs autorégressifs traditionnels en CV, et que EBWM offre un début prometteur de mise à l'échelle en NLP. Par conséquent, cette approche offre une voie passionnante pour entraîner des modèles futurs capables de pensée de type Système 2 et de recherche intelligente à travers les espaces d'états.
Malgré les avancées des modèles de langage à grande échelle (LLMs), illustrées par des modèles comme GPT-4 et Claude, les LLMs de plus petite taille tels que Llama et Mistral peinent souvent à générer des dialogues approfondis et cohérents. Cet article présente un nouveau modèle en deux étapes, appelé Coarse-to-Fine Actor, pour pallier les limitations inhérentes aux capacités conversationnelles et analytiques des LLMs de petite taille. Notre approche commence avec le Coarse Actor basé sur des politiques, utilisant une technique que nous appelons "Maximisation Continue". Le Coarse Actor établit un pool enrichi en connaissances, capable de s'aligner sur les styles préférés par les humains en matière d'analyse et de raisonnement. Grâce au processus RLHF, il emploie la Maximisation Continue, une stratégie qui étend dynamiquement et de manière adaptative la limite de longueur de sortie, permettant la génération de contenus plus détaillés et analytiques. Par la suite, le Fine Actor affine ce contenu analytique, en traitant la génération d'informations excessivement redondantes provenant du Coarse Actor. Nous introduisons une approche de "Fusion des Résidus de Connaissance", qui affine le contenu du Coarse Actor et le fusionne avec un modèle d'instruction existant pour améliorer la qualité, la justesse et réduire les redondances. Nous avons appliqué notre méthodologie au modèle populaire Mistral, créant ainsi Mistral-C2F, qui a démontré des performances exceptionnelles sur 11 tâches linguistiques générales et la tâche de dialogue MT-Bench, surpassant des modèles de taille similaire et même des modèles plus grands avec 13B et 30B paramètres. Notre modèle a significativement amélioré les capacités de raisonnement conversationnel et analytique.
Nous présentons une nouvelle tâche et un nouveau benchmark pour évaluer la capacité des modèles de génération texte-image (T2I) à produire des images conformes au bon sens dans la vie réelle, que nous appelons Commonsense-T2I. Étant donnés deux prompts textuels adversariaux contenant un ensemble identique de mots d'action avec des différences mineures, tels que "une ampoule sans électricité" contre "une ampoule avec électricité", nous évaluons si les modèles T2I peuvent effectuer un raisonnement visuel de bon sens, par exemple produire des images qui correspondent à "l'ampoule est éteinte" contre "l'ampoule est allumée" respectivement. Commonsense-T2I présente un défi adversarial, fournissant des paires de prompts textuels ainsi que les sorties attendues. Le jeu de données est soigneusement sélectionné et annoté par des experts avec des étiquettes fines, telles que le type de bon sens et la probabilité des sorties attendues, pour aider à analyser le comportement des modèles. Nous évaluons une variété de modèles T2I de pointe et constatons, de manière surprenante, qu'il existe encore un écart important entre la synthèse d'images et les photos de la vie réelle—même le modèle DALL-E 3 n'a pu atteindre que 48,92 % sur Commonsense-T2I, et le modèle Stable Diffusion XL n'atteint que 24,92 % de précision. Nos expériences montrent que les prompts enrichis par GPT ne peuvent pas résoudre ce défi, et nous incluons une analyse détaillée des raisons possibles de cette déficience. Nous visons à ce que Commonsense-T2I serve de benchmark d'évaluation de haute qualité pour la vérification du bon sens dans les modèles T2I, favorisant les avancées dans la génération d'images réalistes.
La génération de vidéos présente de nombreux défis uniques au-delà de ceux de la génération d'images. La dimension temporelle introduit des variations potentielles étendues entre les images, ce qui peut entraîner des incohérences et des ruptures de continuité. Dans cette étude, nous allons au-delà de l'évaluation d'actions simples et soutenons que les vidéos générées devraient intégrer l'émergence de nouveaux concepts ainsi que les transitions de leurs relations, comme dans les vidéos du monde réel au fil du temps. Pour évaluer la Compositionnalité Temporelle des modèles de génération de vidéos, nous proposons TC-Bench, un benchmark composé de prompts textuels soigneusement conçus, de vidéos de référence correspondantes et de métriques d'évaluation robustes. Les prompts articulent les états initial et final des scènes, réduisant ainsi les ambiguïtés pour le développement des images et simplifiant l'évaluation de la complétion des transitions. De plus, en collectant des vidéos du monde réel alignées avec les prompts, nous étendons l'applicabilité de TC-Bench des modèles conditionnés par le texte à ceux conditionnés par l'image, capables d'effectuer une interpolation générative d'images. Nous développons également de nouvelles métriques pour mesurer l'exhaustivité des transitions des composants dans les vidéos générées, qui démontrent des corrélations significativement plus élevées avec les jugements humains que les métriques existantes. Nos résultats expérimentaux complets révèlent que la plupart des générateurs de vidéos atteignent moins de 20 % des changements compositionnels, soulignant un énorme potentiel d'amélioration future. Notre analyse indique que les modèles actuels de génération de vidéos peinent à interpréter les descriptions de changements compositionnels et à synthétiser divers composants à travers différentes étapes temporelles.
La stratégie par défaut pour entraîner les modèles de reconstruction à grande échelle (LRM) à vue unique suit généralement une approche supervisée utilisant des jeux de données à grande échelle d'actifs 3D synthétiques ou de captures multi-vues. Bien que ces ressources simplifient le processus d'entraînement, elles sont difficiles à étendre au-delà des jeux de données existants et ne sont pas nécessairement représentatives de la distribution réelle des formes d'objets. Pour surmonter ces limitations, nous présentons dans cet article Real3D, le premier système LRM pouvant être entraîné à l'aide d'images réelles à vue unique. Real3D introduit un cadre d'auto-apprentissage innovant qui tire parti à la fois des données synthétiques existantes et d'images réelles à vue unique diversifiées. Nous proposons deux fonctions de coût non supervisées permettant de superviser les LRMs au niveau des pixels et de la sémantique, même pour des exemples d'entraînement sans vérité terrain 3D ou vues supplémentaires. Pour améliorer encore les performances et étendre les données d'images, nous développons une méthode de curation automatique des données afin de collecter des exemples de haute qualité à partir d'images en conditions réelles. Nos expériences montrent que Real3D surpasse systématiquement les travaux antérieurs dans quatre contextes d'évaluation diversifiés, incluant des données réelles et synthétiques, ainsi que des formes dans et hors du domaine d'apprentissage. Le code et le modèle sont disponibles ici : https://hwjiang1510.github.io/Real3D/
Ce travail porte sur l'estimation du taux d'hallucination dans l'apprentissage en contexte (ICL) avec l'IA générative. Dans l'ICL, un modèle génératif conditionnel (CGM) est sollicité avec un ensemble de données et invité à faire une prédiction basée sur cet ensemble. L'interprétation bayésienne de l'ICL suppose que le CGM calcule une distribution prédictive a posteriori sur un modèle bayésien inconnu d'un paramètre latent et des données. Dans cette perspective, nous définissons une hallucination comme une prédiction générée qui a une faible probabilité sous le vrai paramètre latent. Nous développons une nouvelle méthode qui prend un problème d'ICL — c'est-à-dire un CGM, un ensemble de données et une question de prédiction — et estime la probabilité qu'un CGM génère une hallucination. Notre méthode nécessite uniquement de générer des requêtes et des réponses à partir du modèle et d'évaluer la probabilité logarithmique de ses réponses. Nous évaluons empiriquement notre méthode sur des tâches d'ICL de régression synthétique et de traitement du langage naturel en utilisant des modèles de langage de grande taille.
L'inférence auto-régressive des transformateurs bénéficie grandement de la mise en cache des paires Clé-Valeur (KV), mais peut entraîner d'importants goulots d'étranglement en mémoire à mesure que la taille du modèle, la taille du lot et la longueur des séquences augmentent à grande échelle. Nous introduisons le partage Multi-Couches Clé-Valeur (MLKV), une approche novatrice étendant le partage KV à travers les couches du transformateur pour réduire l'utilisation de la mémoire au-delà de ce qui était possible avec l'attention Multi-Requête (MQA) et l'attention par Groupes de Requêtes (GQA). Les évaluations sur divers benchmarks de traitement du langage naturel et métriques d'inférence utilisant des variantes de Pythia-160M réentraînées démontrent que MLKV réduit significativement l'utilisation de la mémoire avec une perte de performance minimale, réduisant la taille du cache KV jusqu'à un facteur de 6x par rapport à MQA. Ces résultats mettent en évidence le potentiel de MLKV pour un déploiement efficace des modèles de transformateurs à grande échelle. Nous fournissons le code à l'adresse suivante : https://github.com/zaydzuhri/pythia-mlkv.
L'avancée rapide des modèles de langage à grande échelle (LLMs) nécessite des benchmarks robustes et exigeants. Les classements tels que Chatbot Arena évaluent les LLMs en fonction de l'alignement de leurs réponses avec les préférences humaines. Cependant, de nombreuses tâches, comme celles liées à l'intelligence émotionnelle, à l'écriture créative ou à la persuasion, sont hautement subjectives et manquent souvent d'un consensus majoritaire parmi les humains. Les évaluateurs peuvent avoir des désaccords irréconciliables sur ce qui constitue une meilleure réponse. Pour relever le défi du classement des LLMs sur des tâches très subjectives, nous proposons un nouveau cadre de benchmarking, le Conseil des Modèles de Langage (Language Model Council, LMC). Le LMC fonctionne à travers un processus démocratique pour : 1) formuler un ensemble de tests par participation égale, 2) administrer le test parmi les membres du conseil, et 3) évaluer les réponses en tant que jury collectif. Nous déployons un conseil de 20 LLMs les plus récents sur une tâche ouverte d'intelligence émotionnelle : répondre à des dilemmes interpersonnels. Nos résultats montrent que le LMC produit des classements plus distincts, robustes et moins biaisés que ceux de tout juge LLM individuel, et est plus cohérent avec un classement établi par des humains par rapport à d'autres benchmarks.
La Réponse à des Questions Visuelles (Visual Question Answering, VQA) est une tâche importante dans l'IA multimodale, souvent utilisée pour évaluer la capacité des modèles vision-langage à comprendre et à raisonner sur les connaissances présentes dans les données visuelles et textuelles. Cependant, la plupart des modèles VQA actuels utilisent des ensembles de données principalement centrés sur l'anglais et quelques langues mondiales majeures, avec des images généralement occidentalo-centrées. Bien que des efforts récents aient tenté d'augmenter le nombre de langues couvertes dans les ensembles de données VQA, ils manquent encore de diversité pour les langues à ressources limitées. Plus important encore, bien que ces ensembles de données étendent souvent leur portée linguistique via la traduction ou d'autres approches, ils conservent généralement les mêmes images, ce qui entraîne une représentation culturelle étroite. Pour remédier à ces limites, nous construisons CVQA, un nouveau benchmark multilingue et culturellement diversifié pour la Réponse à des Questions Visuelles, conçu pour couvrir un large éventail de langues et de cultures, en impliquant des locuteurs natifs et des experts culturels dans le processus de collecte de données. En conséquence, CVQA inclut des images et des questions culturellement pertinentes provenant de 28 pays sur quatre continents, couvrant 26 langues avec 11 systèmes d'écriture, pour un total de 9 000 questions. Nous évaluons ensuite plusieurs Modèles de Langage Multimodaux de Grande Taille (MLLMs) sur CVQA, et montrons que cet ensemble de données est difficile pour les modèles actuels les plus avancés. Ce benchmark peut servir de suite d'évaluation pour tester les capacités culturelles et les biais des modèles multimodaux, et nous espérons qu'il encouragera davantage d'efforts de recherche pour accroître la sensibilisation culturelle et la diversité linguistique dans ce domaine.
Nous présentons LRM-Zero, un modèle de reconstruction à grande échelle (Large Reconstruction Model, LRM) entièrement entraîné sur des données 3D synthétisées, atteignant une reconstruction 3D de haute qualité à partir de vues éparses. Le cœur de LRM-Zero repose sur notre ensemble de données 3D procédural, Zeroverse, qui est automatiquement généré à partir de formes primitives simples avec des textures aléatoires et des augmentations (par exemple, champs de hauteur, différences booléennes et fil de fer). Contrairement aux précédents ensembles de données 3D (par exemple, Objaverse) souvent capturés ou conçus par des humains pour approximer des données 3D réelles, Zeroverse ignore complètement la sémantique globale réaliste mais est riche en détails géométriques et texturaux complexes, localement similaires ou même plus élaborés que ceux des objets réels. Nous démontrons que notre LRM-Zero, entraîné avec notre Zeroverse entièrement synthétisé, peut atteindre une qualité visuelle élevée dans la reconstruction d'objets du monde réel, rivalisant avec les modèles entraînés sur Objaverse. Nous analysons également plusieurs choix de conception critiques de Zeroverse qui contribuent à la capacité et à la stabilité de l'entraînement de LRM-Zero. Notre travail montre que la reconstruction 3D, l'une des tâches fondamentales en vision 3D, peut potentiellement être abordée sans la sémantique des objets du monde réel. Le code de synthèse procédurale de Zeroverse et sa visualisation interactive sont disponibles à l'adresse suivante : https://desaixie.github.io/lrm-zero/.
Dans le langage courant, les modèles de génération d'images basés sur des processus de diffusion sont souvent décrits comme produisant des "hallucinations", c'est-à-dire des échantillons qui ne pourraient jamais apparaître dans les données d'entraînement. Mais d'où viennent ces hallucinations ? Dans cet article, nous étudions un mode de défaillance particulier des modèles de diffusion, que nous appelons interpolation de modes. Plus précisément, nous constatons que les modèles de diffusion "interpolent" de manière fluide entre les modes de données proches dans l'ensemble d'entraînement, générant ainsi des échantillons qui se situent complètement en dehors du support de la distribution d'entraînement originale ; ce phénomène conduit les modèles de diffusion à produire des artefacts qui n'ont jamais existé dans les données réelles (c'est-à-dire des hallucinations). Nous étudions systématiquement les raisons et les manifestations de ce phénomène. À travers des expériences sur des Gaussiennes 1D et 2D, nous montrons comment un paysage de perte discontinu dans le décodeur du modèle de diffusion crée une région où toute approximation lisse provoquera de telles hallucinations. Grâce à des expériences sur des ensembles de données artificiels de formes variées, nous montrons comment l'hallucination conduit à la génération de combinaisons de formes qui n'ont jamais existé. Enfin, nous montrons que les modèles de diffusion savent en fait quand ils sortent du support et hallucinent. Cela se traduit par une variance élevée dans la trajectoire de l'échantillon généré lors des dernières étapes du processus d'échantillonnage inverse. En utilisant une métrique simple pour capturer cette variance, nous pouvons éliminer plus de 95 % des hallucinations au moment de la génération tout en conservant 96 % des échantillons dans le support. Nous concluons notre exploration en montrant les implications de telles hallucinations (et de leur suppression) sur l'effondrement (et la stabilisation) de l'entraînement récursif sur des données synthétiques, avec des expériences sur les ensembles de données MNIST et Gaussiennes 2D. Nous mettons notre code à disposition à l'adresse suivante : https://github.com/locuslab/diffusion-model-hallucination.
La compression d'images à très faible débit est un sujet complexe et exigeant. Avec le développement des modèles multimodaux de grande taille (LMMs), un paradigme de compression intermodale (CMC) de type Image-Texte-Image a émergé. Comparé aux codecs traditionnels, cette compression au niveau sémantique peut réduire la taille des données d'image à 0,1 % ou même moins, ce qui présente un fort potentiel d'applications. Cependant, la CMC présente certains défauts en termes de fidélité à l'image originale et de qualité perceptuelle. Pour résoudre ce problème, nous introduisons CMC-Bench, un benchmark évaluant la performance coopérative des modèles Image-vers-Texte (I2T) et Texte-vers-Image (T2I) pour la compression d'images. Ce benchmark couvre respectivement 18 000 et 40 000 images pour tester 6 modèles I2T et 12 modèles T2I dominants, incluant 160 000 scores de préférence subjective annotés par des experts humains. À des débits ultra-faibles, cet article démontre que la combinaison de certains modèles I2T et T2I surpasse les codecs de signal visuel les plus avancés ; parallèlement, il met en lumière les aspects où les LMMs peuvent être optimisés pour la tâche de compression. Nous encourageons les développeurs de LMMs à participer à ce test afin de promouvoir l'évolution des protocoles de codecs de signal visuel.
Dans le domaine de la génération d'images à partir de texte centrée sur des sujets spécifiques, les travaux récents ont atteint des performances supérieures en entraînant les modèles sur des ensembles de données synthétiques contenant de nombreuses paires d'images. Formés sur ces ensembles de données, les modèles génératifs peuvent produire des images alignées avec le texte pour un sujet spécifique à partir d'une image de test arbitraire, de manière zero-shot. Ils surpassent même les méthodes qui nécessitent un ajustement supplémentaire sur les images de test. Cependant, le coût de création de tels ensembles de données est prohibitif pour la plupart des chercheurs. Pour générer une seule paire d'entraînement, les méthodes actuelles ajustent un modèle pré-entraîné de génération d'images à partir de texte sur l'image du sujet pour capturer des détails fins, puis utilisent le modèle ajusté pour créer des images du même sujet à partir de prompts textuels créatifs. Par conséquent, la construction d'un ensemble de données à grande échelle avec des millions de sujets peut nécessiter des centaines de milliers d'heures de GPU. Pour résoudre ce problème, nous proposons Toffee, une méthode efficace pour construire des ensembles de données destinés à l'édition et à la génération centrées sur des sujets. Plus précisément, notre construction d'ensemble de données ne nécessite aucun ajustement au niveau du sujet. Après avoir pré-entraîné deux modèles génératifs, nous sommes capables de générer un nombre infini d'échantillons de haute qualité. Nous construisons le premier ensemble de données à grande échelle pour l'édition et la génération d'images centrées sur des sujets, qui contient 5 millions de paires d'images, de prompts textuels et de masques. Notre ensemble de données est 5 fois plus grand que le précédent plus grand ensemble de données, tout en nécessitant des dizaines de milliers d'heures de GPU en moins. Pour tester l'ensemble de données proposé, nous proposons également un modèle capable à la fois d'édition et de génération d'images centrées sur des sujets. En entraînant simplement le modèle sur notre ensemble de données proposé, il obtient des résultats compétitifs, illustrant l'efficacité du cadre de construction d'ensemble de données proposé.