papers.title

papers.description

Une introduction à la modélisation vision-langage
An Introduction to Vision-Language Modeling

May 27

ByFlorian Bordes, Richard Yuanzhe Pang, Anurag Ajay, Alexander C. Li, Adrien Bardes, Suzanne Petryk, Oscar Mañas, Zhiqiu Lin, Anas Mahmoud, Bargav Jayaraman, Mark Ibrahim, Melissa Hall, Yunyang Xiong, Jonathan Lebensold, Candace Ross, Srihari Jayakumar, Chuan Guo, Diane Bouchacourt, Haider Al-Tahan, Karthik Padthe, Vasu Sharma, Hu Xu, Xiaoqing Ellen Tan, Megan Richards, Samuel Lavoie, Pietro Astolfi, Reyhane Askari Hemmat, Jun Chen, Kushal Tirumala, Rim Assouel, Mazda Moayeri, Arjang Talattof, Kamalika Chaudhuri, Zechun Liu, Xilun Chen, Quentin Garrido, Karen Ullrich, Aishwarya Agrawal, Kate Saenko, Asli Celikyilmaz, Vikas Chandra

Suite à la popularité récente des modèles de langage à grande échelle (LLMs), plusieurs tentatives ont été faites pour les étendre au domaine visuel. Qu'il s'agisse d'un assistant visuel capable de nous guider dans des environnements inconnus ou de modèles génératifs produisant des images à partir d'une simple description textuelle de haut niveau, les applications des modèles vision-langage (VLM) auront un impact significatif sur notre relation avec la technologie. Cependant, de nombreux défis doivent être relevés pour améliorer la fiabilité de ces modèles. Alors que le langage est discret, la vision évolue dans un espace de bien plus haute dimension où les concepts ne peuvent pas toujours être facilement discrétisés. Pour mieux comprendre les mécanismes sous-jacents à la cartographie de la vision vers le langage, nous présentons cette introduction aux VLMs, que nous espérons utile à toute personne souhaitant s'engager dans ce domaine. Tout d'abord, nous introduisons ce que sont les VLMs, leur fonctionnement et leur entraînement. Ensuite, nous présentons et discutons des approches pour évaluer les VLMs. Bien que ce travail se concentre principalement sur la cartographie d'images vers le langage, nous abordons également l'extension des VLMs aux vidéos.

Les Transformers peuvent effectuer des opérations arithmétiques avec les bonnes représentations vectorielles.
Transformers Can Do Arithmetic with the Right Embeddings

May 27

BySean McLeish, Arpit Bansal, Alex Stein, Neel Jain, John Kirchenbauer, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Jonas Geiping, Avi Schwarzschild, Tom Goldstein

La faible performance des transformers sur les tâches arithmétiques semble provenir en grande partie de leur incapacité à suivre avec précision la position exacte de chaque chiffre au sein d'une longue séquence de chiffres. Nous corrigeons ce problème en ajoutant à chaque chiffre un embedding qui encode sa position relative par rapport au début du nombre. En plus de l'amélioration apportée par ces embeddings eux-mêmes, nous montrons que cette correction permet à des modifications architecturales telles que l'injection d'entrée et les couches récurrentes d'améliorer encore davantage les performances. Une fois les positions résolues, nous pouvons étudier la capacité d'extrapolation logique des transformers. Peuvent-ils résoudre des problèmes arithmétiques plus grands et plus complexes que ceux présents dans leurs données d'entraînement ? Nous constatons qu'en nous entraînant uniquement sur des nombres de 20 chiffres avec un seul GPU pendant une journée, nous pouvons atteindre des performances de pointe, obtenant jusqu'à 99 % de précision sur des problèmes d'addition de 100 chiffres. Enfin, nous montrons que ces gains en numératie débloquent également des améliorations sur d'autres tâches de raisonnement multi-étapes, y compris le tri et la multiplication.

Modèles Multimodaux Matriochka
Matryoshka Multimodal Models

May 27

ByMu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee

Les grands modèles multimodaux (LMMs) tels que LLaVA ont démontré des performances solides dans le raisonnement visio-linguistique. Ces modèles intègrent d'abord les images dans un nombre fixe et élevé de tokens visuels, puis les alimentent dans un grand modèle de langage (LLM). Cependant, cette conception entraîne un nombre excessif de tokens pour des scénarios visuels denses, tels que les images et vidéos haute résolution, ce qui engendre une grande inefficacité. Bien que des méthodes d'élagage/fusion de tokens existent, elles produisent une sortie de longueur unique pour chaque image et n'offrent pas de flexibilité dans l'arbitrage entre densité d'information et efficacité. Inspirés par le concept des poupées russes, nous proposons M3 : Matryoshka Multimodal Models, qui apprend à représenter le contenu visuel sous forme d'ensembles imbriqués de tokens visuels capturant l'information à plusieurs niveaux de granularité, du plus grossier au plus fin. Notre approche offre plusieurs avantages uniques pour les LMMs : (1) On peut contrôler explicitement la granularité visuelle par instance de test lors de l'inférence, par exemple en ajustant le nombre de tokens utilisés pour représenter une image en fonction de la complexité ou simplicité anticipée du contenu ; (2) M3 fournit un cadre pour analyser la granularité nécessaire pour les jeux de données existants, où nous constatons que les benchmarks de type COCO n'ont besoin que d'environ ~9 tokens visuels pour obtenir une précision similaire à celle obtenue avec les 576 tokens ; (3) Notre approche offre une base pour explorer le meilleur compromis entre performance et longueur des tokens visuels au niveau de l'échantillon, où notre investigation révèle qu'un grand écart existe entre la borne supérieure oracle et les représentations à échelle fixe actuelles.

Zamba : Un modèle hybride SSM compact de 7 milliards de paramètres
Zamba: A Compact 7B SSM Hybrid Model

May 26

ByPaolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge

Dans ce rapport technique, nous présentons Zamba, un nouveau modèle hybride SSM-transformer de 7 milliards de paramètres qui atteint des performances compétitives par rapport aux modèles open-weight leaders à une échelle comparable. Zamba est entraîné sur 1 000 milliards de tokens provenant de jeux de données ouvertement disponibles et constitue le meilleur modèle non-transformer à cette échelle. Zamba innove avec une architecture unique combinant une structure principale de type Mamba avec un module d'attention partagé unique, permettant ainsi de bénéficier des avantages de l'attention à un coût en paramètres minimal. Grâce à son architecture, Zamba est significativement plus rapide en inférence que les modèles transformer comparables et nécessite beaucoup moins de mémoire pour la génération de longues séquences. Zamba est pré-entraîné en deux phases : la première phase repose sur des jeux de données web existants, tandis que la seconde consiste à affiner le modèle sur des jeux de données d'instructions de haute qualité et des données synthétiques, caractérisée par une décroissance rapide du taux d'apprentissage. Nous rendons open-source les poids et tous les points de contrôle de Zamba, couvrant à la fois la phase 1 et les phases d'affinage.

NV-Embed : Techniques améliorées pour entraîner des LLM en tant que modèles d'embedding généralistes
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

May 27

ByChankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

Les modèles d'embedding basés sur des grands modèles de langage (LLM) de type decoder-only commencent à surpasser les modèles d'embedding basés sur BERT ou T5 dans les tâches générales d'embedding de texte, y compris la recherche basée sur des vecteurs denses. Dans ce travail, nous présentons le modèle NV-Embed, qui intègre diverses conceptions architecturales et procédures d'entraînement pour améliorer significativement les performances des LLM en tant que modèles d'embedding polyvalents, tout en conservant leur simplicité et reproductibilité. Pour l'architecture du modèle, nous proposons une couche d'attention latente pour obtenir des embeddings regroupés, ce qui améliore systématiquement la précision de la recherche et des tâches en aval par rapport au regroupement moyen ou à l'utilisation de l'embedding du dernier token <EOS> des LLM. Pour améliorer l'apprentissage des représentations, nous supprimons le masque d'attention causal des LLM pendant l'entraînement contrastif. Pour l'entraînement du modèle, nous introduisons une méthode d'ajustement par instruction contrastive en deux étapes. La première étape applique un entraînement contrastif avec des instructions sur des ensembles de données de recherche, en utilisant des négatifs intra-lot et des exemples négatifs difficiles sélectionnés. À la deuxième étape, elle intègre divers ensembles de données non liés à la recherche dans l'ajustement par instruction, ce qui améliore non seulement la précision des tâches non liées à la recherche, mais aussi les performances de recherche. En combinant ces techniques, notre modèle NV-Embed, utilisant uniquement des données publiquement disponibles, a atteint un score record de 69,32, se classant premier au Massive Text Embedding Benchmark (MTEB) (au 24 mai 2024), avec 56 tâches couvrant la recherche, le reranking, la classification, le clustering et les tâches de similarité textuelle sémantique. Notamment, notre modèle obtient également le score le plus élevé de 59,36 sur 15 tâches de recherche dans le benchmark MTEB (également connu sous le nom de BEIR). Nous rendrons le modèle open-source à l'adresse suivante : https://huggingface.co/nvidia/NV-Embed-v1.

I2VEdit : Édition vidéo guidée par la première image via des modèles de diffusion image-à-vidéo
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models

May 26

ByWenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan

Les capacités génératives remarquables des modèles de diffusion ont motivé des recherches approfondies dans les domaines de l'édition d'images et de vidéos. Par rapport à l'édition de vidéos, qui fait face à des défis supplémentaires liés à la dimension temporelle, l'édition d'images a vu le développement d'approches plus diversifiées et de haute qualité, ainsi que de logiciels plus performants comme Photoshop. Face à cet écart, nous introduisons une solution novatrice et générique qui étend l'applicabilité des outils d'édition d'images aux vidéos en propageant les modifications d'une seule image à l'ensemble de la vidéo à l'aide d'un modèle pré-entraîné image-à-vidéo. Notre méthode, baptisée I2VEdit, préserve de manière adaptative l'intégrité visuelle et motrice de la vidéo source en fonction de l'étendue des modifications, gérant efficacement les modifications globales, locales et les changements de forme modérés, ce que les méthodes existantes ne parviennent pas à réaliser pleinement. Au cœur de notre méthode se trouvent deux processus principaux : l'Extraction Grossière du Mouvement pour aligner les motifs de mouvement de base avec la vidéo originale, et le Raffinement de l'Apparence pour des ajustements précis grâce à une correspondance d'attention fine. Nous intégrons également une stratégie d'intervalle sautée pour atténuer la dégradation de la qualité due à la génération auto-régressive sur plusieurs clips vidéo. Les résultats expérimentaux démontrent la performance supérieure de notre cadre dans l'édition fine de vidéos, prouvant sa capacité à produire des résultats de haute qualité et temporellement cohérents.

Human4DiT : Génération de vidéos humaines en vue libre avec un transformateur de diffusion 4D
Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

May 27

ByRuizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu

Nous présentons une nouvelle approche pour générer des vidéos humaines de haute qualité, cohérentes spatio-temporellement, à partir d'une seule image sous des angles de vue arbitraires. Notre framework combine les avantages des U-Nets pour l'injection précise de conditions et des transformers de diffusion pour capturer les corrélations globales à travers les angles de vue et le temps. Le cœur de cette architecture est un transformer 4D en cascade qui factorise l'attention à travers les vues, le temps et les dimensions spatiales, permettant une modélisation efficace de l'espace 4D. Un conditionnement précis est réalisé en injectant l'identité humaine, les paramètres de la caméra et les signaux temporels dans les transformers respectifs. Pour entraîner ce modèle, nous avons constitué un ensemble de données multidimensionnel couvrant des images, des vidéos, des données multi-vues et des scans 3D/4D, ainsi qu'une stratégie d'entraînement multidimensionnelle. Notre approche surmonte les limitations des méthodes précédentes basées sur les GAN ou les modèles de diffusion à base d'UNet, qui peinent à gérer les mouvements complexes et les changements de point de vue. À travers des expériences approfondies, nous démontrons la capacité de notre méthode à synthétiser des vidéos humaines réalistes, cohérentes et en vue libre, ouvrant la voie à des applications multimédias avancées dans des domaines tels que la réalité virtuelle et l'animation. Notre site web de projet est https://human4dit.github.io.

Trans-LoRA : vers un réglage fin efficace et transférable des paramètres sans données
Trans-LoRA: towards data-free Transferable Parameter Efficient Finetuning

May 27

ByRunqian Wang, Soumya Ghosh, David Cox, Diego Antognini, Aude Oliva, Rogerio Feris, Leonid Karlinsky

Les adaptateurs à faible rang (LoRA) et leurs variantes sont des techniques populaires de fine-tuning efficace en paramètres (PEFT) qui atteignent des performances proches du fine-tuning complet du modèle tout en nécessitant seulement un petit nombre de paramètres supplémentaires. Ces paramètres LoRA supplémentaires sont spécifiques au modèle de base adapté. Lorsque le modèle de base doit être abandonné et remplacé par un nouveau, tous les modules LoRA associés doivent être ré-entraînés. Ce ré-entraînement nécessite l'accès aux données utilisées pour entraîner le LoRA du modèle de base d'origine. Cela pose particulièrement problème pour les applications cloud commerciales où les modules LoRA et les modèles de base sont hébergés par des fournisseurs de services qui ne sont pas autorisés à héberger les données propriétaires des clients. Pour relever ce défi, nous proposons Trans-LoRA -- une méthode novatrice pour le transfert sans perte et quasi sans données des LoRA entre modèles de base. Notre approche repose sur des données synthétiques pour transférer les modules LoRA. En utilisant des modèles de langage de grande taille, nous concevons un générateur de données synthétiques pour approximer le processus de génération de données du sous-ensemble de données de la tâche observée. L'entraînement sur l'ensemble de données synthétiques résultant transfère les modules LoRA vers de nouveaux modèles. Nous démontrons l'efficacité de notre approche en utilisant les familles de modèles LLama et Gemma. Notre méthode permet un transfert de LoRA sans perte (et souvent amélioré) entre modèles au sein d'une même famille de modèles de base, entre différentes familles de modèles de base, et même entre différentes méthodes PEFT, sur une grande variété de tâches.

Regard en arrière : Traduction vidéo-à-vidéo en flux continu avec banques de caractéristiques
Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24

ByFeng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu

Cet article présente StreamV2V, un modèle de diffusion qui réalise une traduction vidéo-à-vidéo (V2V) en temps réel avec des invites utilisateur. Contrairement aux méthodes V2V antérieures qui utilisent des lots pour traiter un nombre limité d'images, nous choisissons de traiter les images en flux continu, afin de supporter un nombre illimité d'images. Au cœur de StreamV2V se trouve un principe rétrospectif qui relie le présent au passé. Cela est réalisé en maintenant une banque de caractéristiques, qui archive les informations des images passées. Pour les images entrantes, StreamV2V étend l'auto-attention pour inclure les clés et valeurs archivées et fusionne directement les caractéristiques passées similaires dans la sortie. La banque de caractéristiques est continuellement mise à jour en fusionnant les caractéristiques stockées et nouvelles, la rendant compacte mais informative. StreamV2V se distingue par son adaptabilité et son efficacité, s'intégrant de manière transparente avec les modèles de diffusion d'images sans nécessiter de réglage fin. Il peut fonctionner à 20 FPS sur une seule GPU A100, étant respectivement 15x, 46x, 108x et 158x plus rapide que FlowVid, CoDeF, Rerender et TokenFlow. Les métriques quantitatives et les études utilisateurs confirment la capacité exceptionnelle de StreamV2V à maintenir la cohérence temporelle.

Vidu4D : Reconstruction 4D haute fidélité à partir d'une vidéo unique générée avec des Surfels Gaussiennes dynamiques
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels

May 27

ByYikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu

Les modèles génératifs vidéo suscitent un intérêt particulier en raison de leur capacité à produire des images réalistes et imaginatives. De plus, ces modèles montrent également une forte cohérence 3D, ce qui renforce considérablement leur potentiel en tant que simulateurs de mondes. Dans ce travail, nous présentons Vidu4D, un nouveau modèle de reconstruction qui excelle dans la reconstruction précise de représentations 4D (c'est-à-dire des séquences 3D) à partir de vidéos générées uniques, en abordant les défis liés à la non-rigidité et à la distorsion des images. Cette capacité est essentielle pour créer des contenus virtuels de haute fidélité qui maintiennent à la fois la cohérence spatiale et temporelle. Au cœur de Vidu4D se trouve notre technique proposée, les Dynamic Gaussian Surfels (DGS). Les DGS optimisent des fonctions de déformation variant dans le temps pour transformer les surfels gaussiens (éléments de surface) d'un état statique à un état dynamiquement déformé. Cette transformation permet une représentation précise du mouvement et de la déformation au fil du temps. Pour préserver l'intégrité structurelle des surfels gaussiens alignés sur la surface, nous concevons une régularisation géométrique de l'état déformé basée sur des champs de déformation continus pour estimer les normales. De plus, nous apprenons des ajustements sur les paramètres de rotation et d'échelle des surfels gaussiens, ce qui atténue grandement le scintillement des textures pendant le processus de déformation et améliore la capture des détails d'apparence fins. Vidu4D intègre également un nouvel état d'initialisation qui fournit un point de départ approprié pour les champs de déformation dans les DGS. En équipant Vidu4D d'un modèle génératif vidéo existant, le cadre global démontre une génération texte-à-4D de haute fidélité, tant en apparence qu'en géométrie.

Diffusion collaborative pour vidéos : Génération cohérente de multividéos avec contrôle de caméra
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

May 27

ByZhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein

La recherche sur la génération vidéo a récemment accompli des progrès considérables, permettant de produire des vidéos de haute qualité à partir de prompts textuels ou d'images. L'ajout de contrôle au processus de génération vidéo constitue un objectif important pour l'avenir, et les approches récentes qui conditionnent les modèles de génération vidéo sur des trajectoires de caméra marquent des avancées significatives dans cette direction. Cependant, il reste difficile de générer une vidéo de la même scène à partir de multiples trajectoires de caméra différentes. Des solutions à ce problème de génération multi-vidéo pourraient permettre la génération à grande échelle de scènes 3D avec des trajectoires de caméra modifiables, entre autres applications. Nous introduisons la diffusion vidéo collaborative (Collaborative Video Diffusion, CVD) comme une étape importante vers cette vision. Le cadre CVD inclut un module innovant de synchronisation inter-vidéo qui favorise la cohérence entre les images correspondantes d'une même vidéo rendues à partir de différentes poses de caméra, en utilisant un mécanisme d'attention épipolaire. Entraîné sur un module de contrôle de caméra de pointe pour la génération vidéo, CVD génère plusieurs vidéos rendues à partir de différentes trajectoires de caméra avec une cohérence nettement supérieure aux méthodes de référence, comme le démontrent des expériences approfondies. Page du projet : https://collaborativevideodiffusion.github.io/.

Part123 : Reconstruction 3D consciente des parties à partir d'une image monoculaire
Part123: Part-aware 3D Reconstruction from a Single-view Image

May 27

ByAnran Liu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Zhiyang Dou, Hao-Xiang Guo, Ping Luo, Wenping Wang

Récemment, l'émergence des modèles de diffusion a ouvert de nouvelles perspectives pour la reconstruction à partir d'une seule vue. Cependant, toutes les méthodes existantes représentent l'objet cible sous forme d'un maillage fermé dépourvu de toute information structurelle, négligeant ainsi la structure basée sur les parties, pourtant cruciale pour de nombreuses applications en aval de la forme reconstruite. De plus, les maillages générés souffrent généralement de bruits importants, de surfaces irrégulières et de textures floues, rendant difficile l'obtention de segments de parties satisfaisants à l'aide de techniques de segmentation 3D. Dans cet article, nous présentons Part123, un nouveau cadre pour la reconstruction 3D consciente des parties à partir d'une image à vue unique. Nous utilisons d'abord des modèles de diffusion pour générer des images cohérentes en multivues à partir d'une image donnée, puis nous exploitons le Segment Anything Model (SAM), qui démontre une puissante capacité de généralisation sur des objets arbitraires, pour générer des masques de segmentation en multivues. Pour intégrer efficacement les informations basées sur les parties 2D dans la reconstruction 3D et gérer les incohérences, nous introduisons l'apprentissage contrastif dans un cadre de rendu neuronal pour apprendre un espace de caractéristiques conscient des parties basé sur les masques de segmentation en multivues. Un algorithme basé sur le clustering est également développé pour dériver automatiquement les résultats de segmentation 3D des parties à partir des modèles reconstruits. Les expériences montrent que notre méthode peut générer des modèles 3D avec des parties segmentées de haute qualité sur divers objets. Par rapport aux méthodes de reconstruction non structurées existantes, les modèles 3D conscients des parties de notre méthode profitent à certaines applications importantes, notamment la reconstruction préservant les caractéristiques, l'ajustement de primitives et l'édition de formes 3D.

Distillation EM pour les modèles de diffusion en une étape
EM Distillation for One-step Diffusion Models

May 27

BySirui Xie, Zhisheng Xiao, Diederik P Kingma, Tingbo Hou, Ying Nian Wu, Kevin Patrick Murphy, Tim Salimans, Ben Poole, Ruiqi Gao

Bien que les modèles de diffusion puissent apprendre des distributions complexes, l'échantillonnage nécessite un processus itératif coûteux en calcul. Les méthodes de distillation existantes permettent un échantillonnage efficace, mais présentent des limitations notables, telles qu'une dégradation des performances avec très peu d'étapes d'échantillonnage, une dépendance à l'accès aux données d'entraînement, ou une optimisation axée sur les modes qui peut échouer à capturer la distribution complète. Nous proposons EM Distillation (EMD), une approche basée sur le maximum de vraisemblance qui distille un modèle de diffusion en un modèle générateur en une seule étape avec une perte minimale de qualité perceptuelle. Notre approche est dérivée à travers le prisme de l'algorithme Expectation-Maximization (EM), où les paramètres du générateur sont mis à jour en utilisant des échantillons issus de la distribution conjointe du modèle de diffusion enseignant et des latents inférés du générateur. Nous développons un schéma d'échantillonnage reparamétré et une technique d'annulation du bruit qui stabilisent ensemble le processus de distillation. Nous révélons également une connexion intéressante de notre méthode avec les méthodes existantes qui minimisent le KL axé sur les modes. EMD surpasse les méthodes génératives en une étape existantes en termes de scores FID sur ImageNet-64 et ImageNet-128, et se compare favorablement aux travaux antérieurs sur la distillation de modèles de diffusion texte-image.

LoGAH : Prédiction de Transformers à 774 millions de paramètres à l'aide d'HyperRéseaux de Graphes avec 1/100 des paramètres
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters

May 25

ByXinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu

Une bonne initialisation des modèles d'apprentissage profond est essentielle, car elle peut les aider à converger plus efficacement et plus rapidement. Cependant, le pré-entraînement de grands modèles est inaccessible pour de nombreux chercheurs, ce qui rend une prédiction souhaitable des paramètres initiaux plus nécessaire de nos jours. Les Graph HyperNetworks (GHNs), une approche pour prédire les paramètres des modèles, ont récemment démontré de solides performances dans l'initialisation de grands modèles de vision. Malheureusement, la prédiction des paramètres de réseaux très larges repose sur la copie répétée de petits blocs de paramètres et nécessite un nombre extrêmement élevé de paramètres pour supporter une prédiction complète, ce qui entrave grandement son adoption en pratique. Pour résoudre cette limitation, nous proposons LoGAH (Low-rank GrAph Hypernetworks), un GHN avec un décodeur de paramètres de faible rang qui s'étend à des réseaux significativement plus larges sans nécessiter une augmentation aussi excessive des paramètres que dans les tentatives précédentes. LoGAH nous permet de prédire les paramètres de réseaux neuronaux de 774 millions de paramètres de manière économe en mémoire. Nous montrons que les modèles de vision et de langage (c'est-à-dire ViT et GPT-2) initialisés avec LoGAH obtiennent de meilleures performances que ceux initialisés aléatoirement ou en utilisant des hypernetworks existants. De plus, nous montrons des résultats prometteurs en apprentissage par transfert en entraînant LoGAH sur de petits ensembles de données et en utilisant les paramètres prédits pour initialiser des tâches plus grandes. Nous fournissons les codes sur https://github.com/Blackzxy/LoGAH.

La croissance gourmande permet des modèles de diffusion basés sur les pixels à haute résolution.
Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

May 27

ByCristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang

Nous abordons le problème de longue date de l'apprentissage de modèles de diffusion d'images basés sur les pixels à grande échelle, en introduisant une méthode de croissance gloutonne remarquablement simple pour l'entraînement stable de modèles à grande échelle et haute résolution, sans nécessiter de composants en cascade de super-résolution. L'idée clé découle d'un pré-entraînement minutieux des composants essentiels, à savoir ceux responsables de l'alignement texte-image {\it vs.} le rendu haute résolution. Nous démontrons d'abord les avantages de la mise à l'échelle d'un {\it Shallow UNet}, sans encodeur (décodeur) de sous( sur)-échantillonnage. La mise à l'échelle de ses couches profondes améliore l'alignement, la structure des objets et la composition. En nous appuyant sur ce modèle de base, nous proposons un algorithme glouton qui développe l'architecture en modèles end-to-end haute résolution, tout en préservant l'intégrité de la représentation pré-entraînée, stabilisant l'entraînement et réduisant le besoin de grands ensembles de données haute résolution. Cela permet un modèle à une seule étape capable de générer des images haute résolution sans nécessiter de cascade de super-résolution. Nos principaux résultats s'appuient sur des ensembles de données publics et montrent que nous sommes capables d'entraîner des modèles non en cascade jusqu'à 8 milliards de paramètres sans schémas de régularisation supplémentaires. Vermeer, notre modèle de pipeline complet entraîné avec des ensembles de données internes pour produire des images 1024x1024, sans cascades, est préféré par 44,0% contre 21,4% des évaluateurs humains par rapport à SDXL.

papers.title

papers.description

Une introduction à la modélisation vision-langage
An Introduction to Vision-Language Modeling

May 27

Les Transformers peuvent effectuer des opérations arithmétiques avec les bonnes représentations vectorielles.
Transformers Can Do Arithmetic with the Right Embeddings

May 27

BySean McLeish, Arpit Bansal, Alex Stein, Neel Jain, John Kirchenbauer, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Jonas Geiping, Avi Schwarzschild, Tom Goldstein

Modèles Multimodaux Matriochka
Matryoshka Multimodal Models

May 27

ByMu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee

Zamba : Un modèle hybride SSM compact de 7 milliards de paramètres
Zamba: A Compact 7B SSM Hybrid Model

May 26

ByPaolo Glorioso, Quentin Anthony, Yury Tokpanov, James Whittington, Jonathan Pilault, Adam Ibrahim, Beren Millidge

NV-Embed : Techniques améliorées pour entraîner des LLM en tant que modèles d'embedding généralistes
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

May 27

ByChankyu Lee, Rajarshi Roy, Mengyao Xu, Jonathan Raiman, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

I2VEdit : Édition vidéo guidée par la première image via des modèles de diffusion image-à-vidéo
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models

May 26

ByWenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, Xingang Pan

Human4DiT : Génération de vidéos humaines en vue libre avec un transformateur de diffusion 4D
Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

May 27

ByRuizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu

Trans-LoRA : vers un réglage fin efficace et transférable des paramètres sans données
Trans-LoRA: towards data-free Transferable Parameter Efficient Finetuning

May 27

ByRunqian Wang, Soumya Ghosh, David Cox, Diego Antognini, Aude Oliva, Rogerio Feris, Leonid Karlinsky

Regard en arrière : Traduction vidéo-à-vidéo en flux continu avec banques de caractéristiques
Looking Backward: Streaming Video-to-Video Translation with Feature Banks

May 24

ByFeng Liang, Akio Kodaira, Chenfeng Xu, Masayoshi Tomizuka, Kurt Keutzer, Diana Marculescu

Vidu4D : Reconstruction 4D haute fidélité à partir d'une vidéo unique générée avec des Surfels Gaussiennes dynamiques
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels

May 27

ByYikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu

Diffusion collaborative pour vidéos : Génération cohérente de multividéos avec contrôle de caméra
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

May 27

ByZhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein

Part123 : Reconstruction 3D consciente des parties à partir d'une image monoculaire
Part123: Part-aware 3D Reconstruction from a Single-view Image

May 27

ByAnran Liu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Zhiyang Dou, Hao-Xiang Guo, Ping Luo, Wenping Wang

Distillation EM pour les modèles de diffusion en une étape
EM Distillation for One-step Diffusion Models

May 27

BySirui Xie, Zhisheng Xiao, Diederik P Kingma, Tingbo Hou, Ying Nian Wu, Kevin Patrick Murphy, Tim Salimans, Ben Poole, Ruiqi Gao

LoGAH : Prédiction de Transformers à 774 millions de paramètres à l'aide d'HyperRéseaux de Graphes avec 1/100 des paramètres
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters

May 25

ByXinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu

La croissance gourmande permet des modèles de diffusion basés sur les pixels à haute résolution.
Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

May 27