papers.title

papers.description

Les Transformers sont des SSM : Modèles Généralisés et Algorithmes Efficaces via la Dualité des Espaces d'État Structurés
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

May 31

ByTri Dao, Albert Gu

Alors que les Transformers ont été l'architecture principale derrière le succès de l'apprentissage profond en modélisation du langage, les modèles à espace d'états (SSMs) tels que Mamba ont récemment démontré des performances équivalentes ou supérieures aux Transformers à petite et moyenne échelle. Nous montrons que ces familles de modèles sont en réalité étroitement liées, et développons un cadre théorique riche de connexions entre les SSMs et des variantes de l'attention, reliées à travers diverses décompositions d'une classe bien étudiée de matrices semi-séparables structurées. Notre cadre de dualité d'espace d'états (SSD) nous permet de concevoir une nouvelle architecture (Mamba-2) dont la couche centrale est un raffinement du SSM sélectif de Mamba, 2 à 8 fois plus rapide, tout en restant compétitive avec les Transformers en modélisation du langage.

Video-MME : Le premier benchmark d'évaluation complet des modèles de langage multi-modaux pour l'analyse vidéo
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

May 31

ByChaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun

Dans la quête de l'intelligence artificielle générale, les modèles de langage multi-modaux de grande taille (MLLMs) sont devenus un point central des avancées récentes. Cependant, l'accent reste principalement mis sur le développement de leurs capacités dans la compréhension d'images statiques. Le potentiel des MLLMs dans le traitement de données visuelles séquentielles est encore insuffisamment exploré, ce qui souligne l'absence d'une évaluation complète et de haute qualité de leurs performances. Dans cet article, nous présentons Video-MME, le premier benchmark d'évaluation multi-modale à spectre complet des MLLMs dans l'analyse vidéo. Notre travail se distingue des benchmarks existants par quatre caractéristiques clés : 1) La diversité des types de vidéos, couvrant 6 domaines visuels principaux avec 30 sous-domaines pour assurer une généralisation à des scénarios variés ; 2) La durée dans la dimension temporelle, englobant des vidéos courtes, moyennes et longues, allant de 11 secondes à 1 heure, pour une dynamique contextuelle robuste ; 3) L'étendue des modalités de données, intégrant des entrées multi-modales en plus des images vidéo, y compris des sous-titres et des audios, pour révéler les capacités polyvalentes des MLLMs ; 4) La qualité des annotations, utilisant un étiquetage manuel rigoureux par des annotateurs experts pour faciliter une évaluation précise et fiable des modèles. 900 vidéos totalisant 256 heures ont été sélectionnées et annotées manuellement en visionnant plusieurs fois l'intégralité du contenu vidéo, aboutissant à 2 700 paires question-réponse. Avec Video-MME, nous évaluons de manière approfondie divers MLLMs de pointe, y compris les séries GPT-4 et Gemini 1.5 Pro, ainsi que des modèles open-source d'images comme InternVL-Chat-V1.5 et de vidéos comme LLaVA-NeXT-Video. Nos expériences révèlent que Gemini 1.5 Pro est le modèle commercial le plus performant, surpassant significativement les modèles open-source. Notre ensemble de données ainsi que ces résultats soulignent la nécessité d'améliorations supplémentaires dans la gestion de séquences plus longues et de données multi-modales. Page du projet : https://video-mme.github.io

Perplexité par la Perplexité : Élagage de Données Basé sur la Perplexité avec de Petits Modèles de Référence
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

May 30

ByZachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul

Dans ce travail, nous étudions si les petits modèles de langage peuvent déterminer des sous-ensembles de haute qualité dans des jeux de données textuelles à grande échelle, améliorant ainsi les performances de modèles de langage plus grands. Bien que des travaux existants aient montré que l'élagage basé sur la perplexité d'un modèle plus grand peut produire des données de haute qualité, nous examinons si des modèles plus petits peuvent être utilisés pour l'élagage basé sur la perplexité et comment l'élagage est influencé par la composition du domaine des données élaguées. Nous démontrons que, pour plusieurs compositions de jeux de données, l'élagage des données de pré-entraînement basé sur la perplexité peut significativement améliorer les performances sur les tâches en aval : l'élagage basé sur les perplexités calculées avec un modèle de 125 millions de paramètres améliore la performance moyenne sur les tâches en aval d'un modèle de 3 milliards de paramètres jusqu'à 2,04 et permet une réduction jusqu'à 1,45 fois du nombre d'étapes de pré-entraînement nécessaires pour atteindre des performances de base équivalentes. De plus, nous montrons qu'un tel élagage de données basé sur la perplexité produit également des gains de performance en aval dans les régimes de surentraînement et de contrainte de données.

Kaleido Diffusion : Amélioration des modèles de diffusion conditionnelle par modélisation latente autorégressive
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

May 31

ByJiatao Gu, Ying Shen, Shuangfei Zhai, Yizhe Zhang, Navdeep Jaitly, Joshua M. Susskind

Les modèles de diffusion se sont imposés comme un outil puissant pour générer des images de haute qualité à partir de descriptions textuelles. Malgré leurs succès, ces modèles présentent souvent une diversité limitée dans les images échantillonnées, en particulier lors de l'utilisation d'un poids de guidage sans classificateur élevé. Pour résoudre ce problème, nous présentons Kaleido, une approche novatrice qui améliore la diversité des échantillons en intégrant des a priori latents autorégressifs. Kaleido intègre un modèle de langage autorégressif qui encode la description originale et génère des variables latentes, servant de représentations abstraites et intermédiaires pour guider et faciliter le processus de génération d'images. Dans cet article, nous explorons une variété de représentations latentes discrètes, incluant des descriptions textuelles, des boîtes englobantes de détection, des blobs d'objets et des tokens visuels. Ces représentations diversifient et enrichissent les conditions d'entrée des modèles de diffusion, permettant des sorties plus variées. Nos résultats expérimentaux démontrent que Kaleido élargit efficacement la diversité des échantillons d'images générés à partir d'une description textuelle donnée tout en maintenant une qualité d'image élevée. De plus, nous montrons que Kaleido adhère étroitement au guidage fourni par les variables latentes générées, démontrant sa capacité à contrôler et diriger efficacement le processus de génération d'images.

4Diffusion : Modèle de diffusion vidéo multi-vues pour la génération 4D
4Diffusion: Multi-view Video Diffusion Model for 4D Generation

May 31

ByHaiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao

Les méthodes actuelles de génération 4D ont atteint une efficacité remarquable grâce à l'utilisation de modèles génératifs avancés basés sur la diffusion. Cependant, ces méthodes manquent de modélisation spatio-temporelle multi-vues et rencontrent des difficultés à intégrer des connaissances a priori diverses provenant de multiples modèles de diffusion, ce qui entraîne des incohérences temporelles dans l'apparence et des scintillements. Dans cet article, nous proposons une nouvelle pipeline de génération 4D, nommée 4Diffusion, visant à générer du contenu 4D spatio-temporellement cohérent à partir d'une vidéo monoculaire. Nous concevons d'abord un modèle de diffusion unifié adapté à la génération de vidéos multi-vues en intégrant un module de mouvement apprenable dans un modèle de diffusion 3D figé, afin de capturer les corrélations spatio-temporelles multi-vues. Après entraînement sur un ensemble de données soigneusement sélectionné, notre modèle de diffusion acquiert une cohérence temporelle raisonnable et préserve intrinsèquement la généralisabilité et la cohérence spatiale du modèle de diffusion 3D. Par la suite, nous proposons une fonction de perte de distillation de score 4D-aware, basée sur notre modèle de diffusion de vidéos multi-vues, pour optimiser une représentation 4D paramétrée par un NeRF dynamique. Cela vise à éliminer les divergences issues de multiples modèles de diffusion, permettant ainsi de générer du contenu 4D spatio-temporellement cohérent. De plus, nous concevons une perte d'ancrage pour améliorer les détails d'apparence et faciliter l'apprentissage du NeRF dynamique. Des expériences qualitatives et quantitatives approfondies démontrent que notre méthode surpasse les performances des méthodes précédentes.

Shampoo 4 bits pour un entraînement de réseau économe en mémoire
4-bit Shampoo for Memory-Efficient Network Training

May 28

BySike Wang, Jia Li, Pan Zhou, Hua Huang

Les optimiseurs de second ordre, qui maintiennent une matrice appelée préconditionneur, surpassent les optimiseurs de premier ordre à la fois en théorie et en pratique. Les états formant le préconditionneur et sa racine inverse limitent la taille maximale des modèles entraînés par les optimiseurs de second ordre. Pour remédier à cela, la compression des états de l'optimiseur de 32 bits à des largeurs de bits inférieures a montré des résultats prometteurs pour réduire l'utilisation de la mémoire. Cependant, les approches actuelles ne concernent que les optimiseurs de premier ordre. Dans cet article, nous proposons les premiers optimiseurs de second ordre en 4 bits, illustrés par le Shampoo 4 bits, qui maintiennent des performances similaires à celles des versions 32 bits. Nous montrons que la quantification de la matrice des vecteurs propres du préconditionneur dans le Shampoo 4 bits est nettement meilleure que la quantification du préconditionneur lui-même, tant sur le plan théorique qu'expérimental. En rectifiant l'orthogonalité de la matrice des vecteurs propres quantifiée, nous améliorons l'approximation de la matrice des vecteurs propres du préconditionneur, ce qui bénéficie également au calcul de sa racine inverse 4-ième. Par ailleurs, nous constatons que la quantification linéaire carrée surpasse légèrement la quantification dynamique en arbre lors de la quantification des états des optimiseurs de second ordre. L'évaluation sur divers réseaux pour la classification d'images démontre que notre Shampoo 4 bits atteint une précision de test comparable à celle de sa version 32 bits tout en étant plus économe en mémoire. Le code source sera rendu disponible.