Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que les Transformers ont été l'architecture principale derrière le succès de l'apprentissage profond en modélisation du langage, les modèles à espace d'états (SSMs) tels que Mamba ont récemment démontré des performances équivalentes ou supérieures aux Transformers à petite et moyenne échelle. Nous montrons que ces familles de modèles sont en réalité étroitement liées, et développons un cadre théorique riche de connexions entre les SSMs et des variantes de l'attention, reliées à travers diverses décompositions d'une classe bien étudiée de matrices semi-séparables structurées. Notre cadre de dualité d'espace d'états (SSD) nous permet de concevoir une nouvelle architecture (Mamba-2) dont la couche centrale est un raffinement du SSM sélectif de Mamba, 2 à 8 fois plus rapide, tout en restant compétitive avec les Transformers en modélisation du langage.
Dans la quête de l'intelligence artificielle générale, les modèles de langage multi-modaux de grande taille (MLLMs) sont devenus un point central des avancées récentes. Cependant, l'accent reste principalement mis sur le développement de leurs capacités dans la compréhension d'images statiques. Le potentiel des MLLMs dans le traitement de données visuelles séquentielles est encore insuffisamment exploré, ce qui souligne l'absence d'une évaluation complète et de haute qualité de leurs performances. Dans cet article, nous présentons Video-MME, le premier benchmark d'évaluation multi-modale à spectre complet des MLLMs dans l'analyse vidéo. Notre travail se distingue des benchmarks existants par quatre caractéristiques clés : 1) La diversité des types de vidéos, couvrant 6 domaines visuels principaux avec 30 sous-domaines pour assurer une généralisation à des scénarios variés ; 2) La durée dans la dimension temporelle, englobant des vidéos courtes, moyennes et longues, allant de 11 secondes à 1 heure, pour une dynamique contextuelle robuste ; 3) L'étendue des modalités de données, intégrant des entrées multi-modales en plus des images vidéo, y compris des sous-titres et des audios, pour révéler les capacités polyvalentes des MLLMs ; 4) La qualité des annotations, utilisant un étiquetage manuel rigoureux par des annotateurs experts pour faciliter une évaluation précise et fiable des modèles. 900 vidéos totalisant 256 heures ont été sélectionnées et annotées manuellement en visionnant plusieurs fois l'intégralité du contenu vidéo, aboutissant à 2 700 paires question-réponse. Avec Video-MME, nous évaluons de manière approfondie divers MLLMs de pointe, y compris les séries GPT-4 et Gemini 1.5 Pro, ainsi que des modèles open-source d'images comme InternVL-Chat-V1.5 et de vidéos comme LLaVA-NeXT-Video. Nos expériences révèlent que Gemini 1.5 Pro est le modèle commercial le plus performant, surpassant significativement les modèles open-source. Notre ensemble de données ainsi que ces résultats soulignent la nécessité d'améliorations supplémentaires dans la gestion de séquences plus longues et de données multi-modales. Page du projet : https://video-mme.github.io
Dans ce travail, nous étudions si les petits modèles de langage peuvent déterminer des sous-ensembles de haute qualité dans des jeux de données textuelles à grande échelle, améliorant ainsi les performances de modèles de langage plus grands. Bien que des travaux existants aient montré que l'élagage basé sur la perplexité d'un modèle plus grand peut produire des données de haute qualité, nous examinons si des modèles plus petits peuvent être utilisés pour l'élagage basé sur la perplexité et comment l'élagage est influencé par la composition du domaine des données élaguées. Nous démontrons que, pour plusieurs compositions de jeux de données, l'élagage des données de pré-entraînement basé sur la perplexité peut significativement améliorer les performances sur les tâches en aval : l'élagage basé sur les perplexités calculées avec un modèle de 125 millions de paramètres améliore la performance moyenne sur les tâches en aval d'un modèle de 3 milliards de paramètres jusqu'à 2,04 et permet une réduction jusqu'à 1,45 fois du nombre d'étapes de pré-entraînement nécessaires pour atteindre des performances de base équivalentes. De plus, nous montrons qu'un tel élagage de données basé sur la perplexité produit également des gains de performance en aval dans les régimes de surentraînement et de contrainte de données.
Les modèles de diffusion se sont imposés comme un outil puissant pour générer des images de haute qualité à partir de descriptions textuelles. Malgré leurs succès, ces modèles présentent souvent une diversité limitée dans les images échantillonnées, en particulier lors de l'utilisation d'un poids de guidage sans classificateur élevé. Pour résoudre ce problème, nous présentons Kaleido, une approche novatrice qui améliore la diversité des échantillons en intégrant des a priori latents autorégressifs. Kaleido intègre un modèle de langage autorégressif qui encode la description originale et génère des variables latentes, servant de représentations abstraites et intermédiaires pour guider et faciliter le processus de génération d'images. Dans cet article, nous explorons une variété de représentations latentes discrètes, incluant des descriptions textuelles, des boîtes englobantes de détection, des blobs d'objets et des tokens visuels. Ces représentations diversifient et enrichissent les conditions d'entrée des modèles de diffusion, permettant des sorties plus variées. Nos résultats expérimentaux démontrent que Kaleido élargit efficacement la diversité des échantillons d'images générés à partir d'une description textuelle donnée tout en maintenant une qualité d'image élevée. De plus, nous montrons que Kaleido adhère étroitement au guidage fourni par les variables latentes générées, démontrant sa capacité à contrôler et diriger efficacement le processus de génération d'images.
Les méthodes actuelles de génération 4D ont atteint une efficacité remarquable grâce à l'utilisation de modèles génératifs avancés basés sur la diffusion. Cependant, ces méthodes manquent de modélisation spatio-temporelle multi-vues et rencontrent des difficultés à intégrer des connaissances a priori diverses provenant de multiples modèles de diffusion, ce qui entraîne des incohérences temporelles dans l'apparence et des scintillements. Dans cet article, nous proposons une nouvelle pipeline de génération 4D, nommée 4Diffusion, visant à générer du contenu 4D spatio-temporellement cohérent à partir d'une vidéo monoculaire. Nous concevons d'abord un modèle de diffusion unifié adapté à la génération de vidéos multi-vues en intégrant un module de mouvement apprenable dans un modèle de diffusion 3D figé, afin de capturer les corrélations spatio-temporelles multi-vues. Après entraînement sur un ensemble de données soigneusement sélectionné, notre modèle de diffusion acquiert une cohérence temporelle raisonnable et préserve intrinsèquement la généralisabilité et la cohérence spatiale du modèle de diffusion 3D. Par la suite, nous proposons une fonction de perte de distillation de score 4D-aware, basée sur notre modèle de diffusion de vidéos multi-vues, pour optimiser une représentation 4D paramétrée par un NeRF dynamique. Cela vise à éliminer les divergences issues de multiples modèles de diffusion, permettant ainsi de générer du contenu 4D spatio-temporellement cohérent. De plus, nous concevons une perte d'ancrage pour améliorer les détails d'apparence et faciliter l'apprentissage du NeRF dynamique. Des expériences qualitatives et quantitatives approfondies démontrent que notre méthode surpasse les performances des méthodes précédentes.
Les optimiseurs de second ordre, qui maintiennent une matrice appelée préconditionneur, surpassent les optimiseurs de premier ordre à la fois en théorie et en pratique. Les états formant le préconditionneur et sa racine inverse limitent la taille maximale des modèles entraînés par les optimiseurs de second ordre. Pour remédier à cela, la compression des états de l'optimiseur de 32 bits à des largeurs de bits inférieures a montré des résultats prometteurs pour réduire l'utilisation de la mémoire. Cependant, les approches actuelles ne concernent que les optimiseurs de premier ordre. Dans cet article, nous proposons les premiers optimiseurs de second ordre en 4 bits, illustrés par le Shampoo 4 bits, qui maintiennent des performances similaires à celles des versions 32 bits. Nous montrons que la quantification de la matrice des vecteurs propres du préconditionneur dans le Shampoo 4 bits est nettement meilleure que la quantification du préconditionneur lui-même, tant sur le plan théorique qu'expérimental. En rectifiant l'orthogonalité de la matrice des vecteurs propres quantifiée, nous améliorons l'approximation de la matrice des vecteurs propres du préconditionneur, ce qui bénéficie également au calcul de sa racine inverse 4-ième. Par ailleurs, nous constatons que la quantification linéaire carrée surpasse légèrement la quantification dynamique en arbre lors de la quantification des états des optimiseurs de second ordre. L'évaluation sur divers réseaux pour la classification d'images démontre que notre Shampoo 4 bits atteint une précision de test comparable à celle de sa version 32 bits tout en étant plus économe en mémoire. Le code source sera rendu disponible.