Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce travail, nous discutons de la construction de modèles de langage multimodaux à grande échelle (MLLMs) performants. Plus précisément, nous étudions l'importance de divers composants architecturaux et choix de données. Grâce à des ablations minutieuses et exhaustives de l'encodeur d'images, du connecteur vision-langage et de divers choix de données de pré-entraînement, nous avons identifié plusieurs leçons de conception cruciales. Par exemple, nous démontrons que pour un pré-entraînement multimodal à grande échelle, l'utilisation d'un mélange judicieux de données d'images-légendes, de textes entrelacés d'images et de textes uniquement est essentielle pour obtenir des résultats de pointe (SOTA) en few-shot sur plusieurs benchmarks, par rapport à d'autres résultats de pré-entraînement publiés. De plus, nous montrons que l'encodeur d'images, ainsi que la résolution des images et le nombre de tokens d'images, ont un impact substantiel, tandis que la conception du connecteur vision-langage est d'une importance relativement négligeable. En mettant à l'échelle la recette présentée, nous construisons MM1, une famille de modèles multimodaux allant jusqu'à 30 milliards de paramètres, comprenant à la fois des modèles denses et des variantes de mélange d'experts (MoE), qui sont SOTA en termes de métriques de pré-entraînement et obtiennent des performances compétitives après un fine-tuning supervisé sur une gamme de benchmarks multimodaux établis. Grâce à un pré-entraînement à grande échelle, MM1 bénéficie de propriétés attrayantes telles qu'un apprentissage en contexte amélioré et un raisonnement multi-images, permettant un prompting en chaîne de pensée en few-shot.
Lorsqu'ils écrivent ou parlent, les gens font parfois des pauses pour réfléchir. Bien que les travaux axés sur le raisonnement aient souvent présenté celui-ci comme une méthode pour répondre à des questions ou accomplir des tâches autonomes, le raisonnement est implicite dans presque tous les textes écrits. Par exemple, cela s'applique aux étapes non énoncées entre les lignes d'une preuve ou à la théorie de l'esprit sous-jacente à une conversation. Dans le Self-Taught Reasoner (STaR, Zelikman et al. 2022), une réflexion utile est apprise en inférant des justifications à partir d'exemples en few-shot dans des tâches de question-réponse, et en apprenant de celles qui conduisent à une réponse correcte. Il s'agit d'un cadre très contraint — idéalement, un modèle de langage pourrait plutôt apprendre à inférer des justifications non énoncées dans des textes arbitraires. Nous présentons Quiet-STaR, une généralisation de STaR dans laquelle les modèles de langage (LM) apprennent à générer des justifications à chaque token pour expliquer le texte futur, améliorant ainsi leurs prédictions. Nous abordons des défis clés, notamment 1) le coût computationnel de la génération de continuations, 2) le fait que le LM ne sait initialement pas comment générer ou utiliser des pensées internes, et 3) la nécessité de prédire au-delà des tokens individuels suivants. Pour résoudre ces problèmes, nous proposons un algorithme d'échantillonnage parallèle token par token, utilisant des tokens apprenables indiquant le début et la fin d'une pensée, ainsi qu'une technique étendue de teacher-forcing. De manière encourageante, les justifications générées aident de manière disproportionnée à modéliser les tokens difficiles à prédire et améliorent la capacité du LM à répondre directement à des questions difficiles. En particulier, après un pré-entraînement continu d'un LM sur un corpus de texte internet avec Quiet-STaR, nous observons des améliorations en zero-shot sur GSM8K (5,9% → 10,9%) et CommonsenseQA (36,3% → 47,2%), ainsi qu'une amélioration de la perplexité des tokens difficiles dans le texte naturel. Crucialement, ces améliorations ne nécessitent aucun fine-tuning sur ces tâches. Quiet-STaR représente une étape vers des LM capables d'apprendre à raisonner de manière plus générale et scalable.
L'utilisation de modèles vision-langage (VLMs) dans le développement web représente une stratégie prometteuse pour accroître l'efficacité et débloquer des solutions sans code : en fournissant une capture d'écran ou un croquis d'une interface utilisateur, un VLM pourrait générer le code nécessaire pour la reproduire, par exemple dans un langage comme HTML. Malgré les avancées des VLMs pour diverses tâches, le défi spécifique de convertir une capture d'écran en un code HTML correspondant a été peu exploré. Nous postulons que cela est principalement dû à l'absence d'un jeu de données approprié et de haute qualité. Ce travail introduit WebSight, un jeu de données synthétique composé de 2 millions de paires de codes HTML et de leurs captures d'écran correspondantes. Nous affinons un VLM de base sur notre jeu de données et démontrons sa capacité à convertir des captures d'écran de pages web en code HTML fonctionnel. Pour accélérer la recherche dans ce domaine, nous rendons WebSight open-source.
Cet article propose un cadre simple mais efficace, appelé GiT, simultanément applicable à diverses tâches visuelles en utilisant uniquement un ViT standard. Motivés par l'universalité de l'architecture Transformer multicouche (par exemple, GPT) largement utilisée dans les grands modèles de langage (LLMs), nous cherchons à élargir son champ d'application pour servir de modèle de base visuel puissant (VFM). Cependant, contrairement à la modélisation du langage, les tâches visuelles nécessitent généralement des modules spécifiques, tels que des têtes de boîtes englobantes pour la détection et des décodeurs de pixels pour la segmentation, ce qui entrave grandement l'application des transformateurs multicouches puissants dans le domaine visuel. Pour résoudre ce problème, nous concevons une interface linguistique universelle qui permet un décodage auto-régressif réussi pour unifier habilement diverses tâches visuelles, allant de la compréhension au niveau de l'image (par exemple, la légendation), à la perception parcimonieuse (par exemple, la détection), jusqu'à la prédiction dense (par exemple, la segmentation). Sur la base de ces conceptions, l'ensemble du modèle est composé uniquement d'un ViT, sans ajouts spécifiques, offrant une simplification architecturale remarquable. GiT est un modèle visuel multitâche, entraîné conjointement sur cinq benchmarks représentatifs sans ajustement spécifique à la tâche. Fait intéressant, notre GiT établit un nouveau benchmark en termes de performance généraliste et favorise une amélioration mutuelle entre les tâches, conduisant à des améliorations significatives par rapport à un entraînement isolé. Cela reflète un impact similaire observé dans les LLMs. En enrichissant davantage l'entraînement avec 27 ensembles de données, GiT obtient des résultats solides en zéro-shot sur diverses tâches. Grâce à sa conception simple, ce paradigme promet de réduire l'écart architectural entre la vision et le langage. Le code et les modèles seront disponibles à l'adresse https://github.com/Haiyang-W/GiT.
Le succès considérable des modèles de diffusion dans la synthèse d'images à partir de texte en fait des candidats prometteurs pour la prochaine génération d'applications destinées aux utilisateurs finaux dans le domaine de la génération et de l'édition d'images. Les travaux précédents se sont concentrés sur l'amélioration de l'utilisabilité des modèles de diffusion en réduisant le temps d'inférence ou en augmentant l'interactivité grâce à de nouveaux contrôles fins, tels que des invites textuelles basées sur des régions. Cependant, nous constatons empiriquement que l'intégration de ces deux branches de travaux est non triviale, limitant ainsi le potentiel des modèles de diffusion. Pour résoudre cette incompatibilité, nous présentons StreamMultiDiffusion, le premier cadre de génération d'images à partir de texte basé sur des régions en temps réel. En stabilisant les techniques d'inférence rapide et en restructurant le modèle dans une architecture de traitement par lots multi-prompts nouvellement proposée, nous obtenons une génération de panoramas 10 fois plus rapide que les solutions existantes, ainsi qu'une vitesse de génération de 1,57 FPS pour la synthèse d'images à partir de texte basée sur des régions, le tout sur une seule carte graphique RTX 2080 Ti. Notre solution ouvre un nouveau paradigme pour la génération interactive d'images, appelé palette sémantique, où des images de haute qualité sont générées en temps réel à partir de plusieurs régions dessinées à la main, encodant des significations sémantiques prescrites (par exemple, aigle, fille). Notre code et notre application de démonstration sont disponibles à l'adresse suivante : https://github.com/ironjr/StreamMultiDiffusion.
Nous présentons Emu Video Edit (EVE), un modèle qui établit un nouvel état de l'art en matière d'édition vidéo sans recourir à aucune donnée supervisée d'édition vidéo. Pour développer EVE, nous entraînons séparément un adaptateur d'édition d'images et un adaptateur de génération vidéo, puis les connectons tous deux au même modèle de génération d'images à partir de texte. Ensuite, pour aligner ces adaptateurs vers l'édition vidéo, nous introduisons une nouvelle procédure de distillation non supervisée, la Factorized Diffusion Distillation. Cette procédure distille les connaissances d'un ou plusieurs modèles enseignants simultanément, sans aucune donnée supervisée. Nous utilisons cette procédure pour enseigner à EVE à éditer des vidéos en distillant conjointement les connaissances pour (i) éditer précisément chaque image individuelle à partir de l'adaptateur d'édition d'images, et (ii) assurer la cohérence temporelle entre les images éditées en utilisant l'adaptateur de génération vidéo. Enfin, pour démontrer le potentiel de notre approche à débloquer d'autres capacités, nous alignons des combinaisons supplémentaires d'adaptateurs.
Les modules d'attention efficaces ont joué un rôle crucial dans le succès des grands modèles de langage (LLMs) basés sur les Transformers, mais les complexités quadratiques en temps et en mémoire de ces modules d'attention posent également un défi lors du traitement de longues séquences. Une solution potentielle au problème des longues séquences consiste à utiliser des clusters distribués pour paralléliser le calcul des modules d'attention sur plusieurs appareils (par exemple, des GPU). Cependant, l'adoption d'une approche distribuée introduit inévitablement des surcharges de mémoire supplémentaires pour stocker les résultats d'attention locaux et entraîne des coûts de communication supplémentaires pour agréger les résultats locaux en résultats globaux. Dans cet article, nous proposons un cadre d'attention distribué nommé « BurstAttention » pour optimiser l'accès à la mémoire et les opérations de communication à la fois au niveau du cluster global et des appareils locaux. Dans nos expériences, nous comparons BurstAttention à d'autres solutions d'attention distribuées compétitives pour le traitement de longues séquences. Les résultats expérimentaux sous différents paramètres de longueur démontrent que BurstAttention offre des avantages significatifs pour le traitement de longues séquences par rapport à ces bases de référence compétitives, réduisant de 40 % les surcharges de communication et obtenant un accélération de 2 X lors de l'entraînement de séquences de 32K sur 8 X A100.
Le rendu visuel de texte représente un défi fondamental pour les modèles contemporains de génération d'images à partir de texte, le problème central résidant dans les lacunes des encodeurs de texte. Pour parvenir à un rendu textuel précis, nous identifions deux exigences cruciales pour les encodeurs de texte : la conscience des caractères et l'alignement avec les glyphes. Notre solution consiste à concevoir une série d'encodeurs de texte personnalisés, Glyph-ByT5, en affinant l'encodeur ByT5 conscient des caractères à l'aide d'un ensemble de données soigneusement sélectionné associant glyphes et texte. Nous présentons une méthode efficace pour intégrer Glyph-ByT5 avec SDXL, aboutissant à la création du modèle Glyph-SDXL pour la génération d'images de conception. Cela améliore considérablement la précision du rendu textuel, la faisant passer de moins de 20 % à près de 90 % sur notre benchmark d'images de conception. Il est à noter que Glyph-SDXL acquiert une nouvelle capacité de rendu de paragraphes de texte, atteignant une grande précision orthographique pour des dizaines à des centaines de caractères avec des mises en page multi-lignes automatisées. Enfin, en affinant Glyph-SDXL avec un petit ensemble d'images photoréalistes de haute qualité comportant du texte visuel, nous démontrons une amélioration substantielle des capacités de rendu de texte scénique dans des images réelles de domaine ouvert. Ces résultats convaincants visent à encourager une exploration plus approfondie dans la conception d'encodeurs de texte personnalisés pour des tâches diverses et complexes.
Les grands modèles de vision et de langage ont atteint une perception fine des objets, mais la limitation de la résolution des images reste un obstacle majeur pour surpasser les performances des experts spécifiques à une tâche dans des scénarios complexes et denses. Cette limitation restreint davantage le potentiel du modèle à réaliser des références visuelles et linguistiques nuancées dans des domaines tels que les agents d'interface graphique, le comptage, etc. Pour résoudre ce problème, nous introduisons un modèle généraliste unifié à haute résolution, Griffon v2, permettant une référence flexible des objets avec des invites visuelles et textuelles. Pour augmenter efficacement la résolution des images, nous concevons un projecteur de sous-échantillonnage simple et léger pour surmonter la contrainte des tokens d'entrée dans les grands modèles de langage. Cette conception préserve intrinsèquement les contextes complets et les détails fins, et améliore significativement la capacité de perception multimodale, en particulier pour les petits objets. Sur cette base, nous équipons en outre le modèle de capacités de co-référence visuelle et linguistique grâce à un tokenizer visuel plug-and-play. Il permet une interaction conviviale avec des images cibles flexibles, des textes libres et même des coordonnées. Les expériences démontrent que Griffon v2 peut localiser tout objet d'intérêt avec des références visuelles et textuelles, atteindre des performances de pointe sur les tâches de REC, de phrase grounding et de REG, et surpasser les modèles experts en détection d'objets et en comptage d'objets. Les données, codes et modèles seront publiés sur https://github.com/jefferyZhan/Griffon.
La compréhension des vidéos est l'une des directions fondamentales de la recherche en vision par ordinateur, avec des efforts considérables consacrés à l'exploration de diverses architectures telles que les RNN, les CNN 3D et les Transformers. La nouvelle architecture de modèle d'espace d'états, par exemple Mamba, montre des traits prometteurs pour étendre son succès dans la modélisation de longues séquences à la modélisation vidéo. Pour évaluer si Mamba peut constituer une alternative viable aux Transformers dans le domaine de la compréhension vidéo, nous menons dans ce travail un ensemble complet d'études, explorant les différents rôles que Mamba peut jouer dans la modélisation des vidéos, tout en investiguant diverses tâches où Mamba pourrait démontrer une supériorité. Nous catégorisons Mamba en quatre rôles pour la modélisation vidéo, dérivant une Suite Video Mamba composée de 14 modèles/modules, et les évaluons sur 12 tâches de compréhension vidéo. Nos expériences approfondies révèlent le fort potentiel de Mamba sur les tâches vidéo uniquement ainsi que sur les tâches vidéo-langage, tout en montrant des compromis prometteurs entre efficacité et performance. Nous espérons que ce travail pourra fournir des points de données précieux et des insights pour les futures recherches sur la compréhension vidéo. Le code est public : https://github.com/OpenGVLab/video-mamba-suite.
Les modèles récents de vision-langage-action (VLA) s'appuient sur des entrées 2D, manquant d'intégration avec le domaine plus vaste du monde physique en 3D. De plus, ils prédisent les actions en apprenant un mappage direct de la perception à l'action, négligeant la dynamique complexe du monde et les relations entre les actions et cette dynamique. En revanche, les êtres humains sont dotés de modèles du monde qui décrivent des scénarios futurs imaginés pour planifier les actions en conséquence. Dans cette optique, nous proposons 3D-VLA en introduisant une nouvelle famille de modèles de base incarnés qui relient de manière fluide la perception 3D, le raisonnement et l'action à travers un modèle génératif du monde. Plus précisément, 3D-VLA est construit sur un modèle de langage massif (LLM) basé sur la 3D, et un ensemble de tokens d'interaction est introduit pour interagir avec l'environnement incarné. Par ailleurs, pour doter le modèle de capacités de génération, nous entraînons une série de modèles de diffusion incarnés et les alignons avec le LLM pour prédire les images et nuages de points cibles. Pour entraîner notre 3D-VLA, nous constituons un vaste ensemble de données d'instructions incarnées en 3D en extrayant une quantité importante d'informations liées à la 3D à partir de jeux de données robotiques existants. Nos expériences sur des ensembles de données réservés démontrent que 3D-VLA améliore significativement les capacités de raisonnement, de génération multimodale et de planification dans des environnements incarnés, mettant en évidence son potentiel pour des applications réelles.
L'évolution des composants visuels générés à partir de texte facilite la vie quotidienne des personnes, par exemple en générant des images ou des vidéos à partir de texte et en identifiant les éléments souhaités dans les images. Les modèles de vision par ordinateur impliquant des capacités multimodales dans le passé se concentraient principalement sur la détection d'images et la classification basée sur des objets bien définis. Les grands modèles de langage (LLMs) introduisent la transformation du langage naturel en objets visuels, offrant ainsi une mise en page visuelle pour les contextes textuels. OpenAI GPT-4 s'est imposé comme le modèle phare parmi les LLMs, tandis que le domaine de la vision par ordinateur (CV) regorge de modèles et d'algorithmes de pointe pour convertir des images 2D en leurs représentations 3D. Cependant, une inadéquation entre les algorithmes et le problème peut conduire à des résultats indésirables. Pour répondre à ce défi, nous proposons un framework unifié, VisionGPT-3D, afin de consolider les modèles de vision de pointe, facilitant ainsi le développement de l'IA orientée vision. VisionGPT-3D offre un framework multimodal polyvalent, s'appuyant sur les forces des modèles de fondation multimodaux. Il intègre de manière transparente divers modèles de vision de pointe et automatise la sélection de ces modèles, identifie les algorithmes de création de maillages 3D adaptés à l'analyse des cartes de profondeur 2D, et génère des résultats optimaux basés sur des entrées multimodales variées, telles que des invites textuelles. Mots-clés : VisionGPT-3D, compréhension de la vision 3D, agent multimodal
Récemment, les chercheurs en intelligence artificielle se sont fortement intéressés à la convergence entre le langage et la vision, ce qui a conduit au développement de modèles multimodaux visant à intégrer de manière fluide les informations textuelles et visuelles. Les modèles multimodaux, une extension des modèles de langage de grande taille (LLMs), ont démontré des capacités remarquables pour résoudre une diversité de tâches, allant de la génération de légendes d'images et de la réponse à des questions visuelles (VQA) à l'ancrage visuel. Bien que ces modèles aient montré des avancées significatives, des défis persistent dans l'interprétation précise des images et la réponse aux questions, une situation courante dans des scénarios réels. Cet article présente une nouvelle approche pour améliorer les capacités multimodales des modèles existants. En réponse aux limitations observées dans les modèles actuels de langage visuel (VLMs) et les modèles de langage multimodaux de grande taille (MLLMs), notre modèle proposé, Veagle, intègre un mécanisme unique inspiré des succès et des enseignements des travaux précédents. Veagle exploite un mécanisme dynamique pour projeter directement les informations visuelles encodées dans le modèle de langage. Cette approche dynamique permet une compréhension plus nuancée des détails complexes présents dans les contextes visuels. Pour valider l'efficacité de Veagle, nous avons mené des expériences approfondies sur des ensembles de données de référence, en mettant l'accent sur des tâches telles que la réponse à des questions visuelles et la compréhension d'images. Nos résultats indiquent une amélioration de 5 à 6 % des performances, avec Veagle surpassant les modèles existants de manière notable. Les résultats soulignent la polyvalence et l'applicabilité du modèle au-delà des benchmarks traditionnels.
Les récents progrès dans les modèles d'espace d'états, notamment Mamba, ont démontré des avancées significatives dans la modélisation de longues séquences pour des tâches telles que la compréhension du langage. Cependant, leur application dans les tâches de vision n'a pas dépassé de manière notable les performances des réseaux de neurones convolutifs (CNN) traditionnels et des Vision Transformers (ViTs). Cet article postule que la clé pour améliorer Vision Mamba (ViM) réside dans l'optimisation des directions de balayage pour la modélisation de séquences. Les approches traditionnelles de ViM, qui aplatissent les tokens spatiaux, négligent la préservation des dépendances locales 2D, allongeant ainsi la distance entre les tokens adjacents. Nous introduisons une nouvelle stratégie de balayage local qui divise les images en fenêtres distinctes, capturant efficacement les dépendances locales tout en maintenant une perspective globale. De plus, en reconnaissant les préférences variables pour les motifs de balayage à travers les différentes couches du réseau, nous proposons une méthode dynamique pour rechercher indépendamment les choix de balayage optimaux pour chaque couche, améliorant ainsi considérablement les performances. Des expériences approfondies sur des modèles à la fois simples et hiérarchiques soulignent la supériorité de notre approche dans la capture efficace des représentations d'images. Par exemple, notre modèle surpasse significativement Vim-Ti de 3,1 % sur ImageNet avec les mêmes 1,5G FLOPs. Le code est disponible à l'adresse : https://github.com/hunto/LocalMamba.