Papers Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Sélectionner une date

Une image vaut mille mots : Le recaptioning basé sur des principes améliore la génération d'images
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

Oct 25, 2023

Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan

461

Les modèles de diffusion texte-image ont réalisé un bond remarquable en capacités au cours des dernières années, permettant une synthèse d'images de haute qualité et diversifiée à partir d'une invite textuelle. Cependant, même les modèles les plus avancés peinent souvent à suivre précisément toutes les instructions de leurs invites. La grande majorité de ces modèles sont entraînés sur des ensembles de données constitués de paires (image, légende) où les images proviennent souvent du web, et les légendes sont leurs textes alternatifs HTML. Un exemple notable est le jeu de données LAION, utilisé par Stable Diffusion et d'autres modèles. Dans ce travail, nous observons que ces légendes sont souvent de faible qualité, et nous soutenons que cela affecte significativement la capacité du modèle à comprendre les nuances sémantiques des invites textuelles. Nous montrons qu'en réétiquetant le corpus avec un modèle de légendage automatique spécialisé et en entraînant un modèle texte-image sur le jeu de données relégendé, le modèle en bénéficie substantiellement à tous les niveaux. Premièrement, en termes de qualité globale de l'image : par exemple, un FID de 14,84 contre une base de référence de 17,87, et une amélioration de 64,3 % dans la génération fidèle d'images selon l'évaluation humaine. Deuxièmement, en termes d'alignement sémantique, par exemple, une précision des objets sémantiques de 84,34 contre 78,90, des erreurs d'alignement de comptage de 1,32 contre 1,44 et un alignement positionnel de 62,42 contre 57,60. Nous analysons diverses méthodes pour réétiqueter le corpus et fournissons des preuves que cette technique, que nous appelons RECAP, réduit à la fois l'écart entre l'entraînement et l'inférence et fournit au modèle plus d'informations par exemple, augmentant l'efficacité de l'échantillon et permettant au modèle de mieux comprendre les relations entre les légendes et les images.

CommonCanvas : Un modèle de diffusion ouvert entraîné avec des images sous licence Creative Commons
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

Oct 25, 2023

Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov

361

Nous constituons un ensemble de données d'images sous licence Creative Commons (CC), que nous utilisons pour entraîner une série de modèles de diffusion ouverts qui sont qualitativement compétitifs avec Stable Diffusion 2 (SD2). Cette tâche présente deux défis majeurs : (1) les images CC haute résolution ne disposent pas des légendes nécessaires pour entraîner des modèles génératifs texte-à-image ; (2) les images CC sont relativement rares. Pour relever ces défis, nous utilisons une technique intuitive de transfert d'apprentissage pour produire un ensemble de légendes synthétiques de haute qualité associées à des images CC soigneusement sélectionnées. Nous développons ensuite une méthode d'entraînement efficace en termes de données et de calcul, nécessitant seulement 3 % des données LAION-2B utilisées pour entraîner les modèles SD2 existants, tout en obtenant une qualité comparable. Ces résultats indiquent que nous disposons d'un nombre suffisant d'images CC (~70 millions) pour entraîner des modèles de haute qualité. Notre méthode d'entraînement intègre également diverses optimisations permettant d'atteindre une accélération de l'entraînement d'environ 3X, facilitant ainsi une itération rapide des modèles. Nous exploitons cette méthode pour entraîner plusieurs modèles texte-à-image de haute qualité, que nous nommons la famille CommonCanvas. Notre plus grand modèle atteint des performances comparables à SD2 lors d'une évaluation humaine, bien qu'il ait été entraîné sur notre ensemble de données CC, qui est nettement plus petit que LAION, et en utilisant des légendes synthétiques pour l'entraînement. Nous mettons à disposition nos modèles, données et code à l'adresse suivante : https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md

DreamCraft3D : Génération hiérarchique 3D avec prior de diffusion bootstrapé
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Oct 25, 2023

Jingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu

320

Nous présentons DreamCraft3D, une méthode hiérarchique de génération de contenu 3D qui produit des objets 3D de haute fidélité et cohérents. Nous abordons ce problème en exploitant une image de référence 2D pour guider les étapes de sculpture de la géométrie et d'amélioration de la texture. Un point central de ce travail est de résoudre le problème de cohérence rencontré par les méthodes existantes. Pour sculpter des géométries qui se rendent de manière cohérente, nous effectuons un échantillonnage par distillation de score via un modèle de diffusion dépendant de la vue. Ce préalable 3D, accompagné de plusieurs stratégies d'entraînement, priorise la cohérence géométrique mais compromet la fidélité de la texture. Nous proposons en outre une Distillation de Score par Amorçage pour spécifiquement améliorer la texture. Nous entraînons un modèle de diffusion personnalisé, Dreambooth, sur les rendus augmentés de la scène, lui conférant une connaissance 3D de la scène en cours d'optimisation. La distillation de score à partir de ce préalable de diffusion conscient de la 3D fournit un guidage cohérent en vue pour la scène. Notamment, grâce à une optimisation alternée du préalable de diffusion et de la représentation 3D de la scène, nous obtenons des améliorations mutuellement renforcées : la scène 3D optimisée aide à entraîner le modèle de diffusion spécifique à la scène, qui offre un guidage de plus en plus cohérent en vue pour l'optimisation 3D. L'optimisation est ainsi amorcée et conduit à une amélioration substantielle de la texture. Avec des préalables 3D adaptés tout au long de la génération hiérarchique, DreamCraft3D génère des objets 3D cohérents avec des rendus photoréalistes, faisant progresser l'état de l'art dans la génération de contenu 3D. Le code est disponible à l'adresse https://github.com/deepseek-ai/DreamCraft3D.

QMoE : Compression pratique en dessous de 1 bit pour des modèles à mille milliards de paramètres
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

Oct 25, 2023

Elias Frantar, Dan Alistarh

273

Les architectures Mixture-of-Experts (MoE) offrent une solution générale aux coûts d'inférence élevés des grands modèles de langage (LLMs) grâce à un routage parcimonieux, permettant d'obtenir des modèles plus rapides et plus précis, au prix d'un nombre massif de paramètres. Par exemple, le modèle SwitchTransformer-c2048 possède 1,6 trillion de paramètres, nécessitant 3,2 To de mémoire d'accélérateur pour fonctionner efficacement, ce qui rend le déploiement pratique difficile et coûteux. Dans cet article, nous présentons une solution à ce problème de mémoire, sous la forme d'un nouveau cadre de compression et d'exécution appelé QMoE. Plus précisément, QMoE comprend un algorithme scalable qui compresse avec précision les MoE à trillion de paramètres à moins de 1 bit par paramètre, dans un format personnalisé co-conçu avec des noyaux de décodage GPU sur mesure pour faciliter une inférence compressée efficace de bout en bout, avec des surcharges d'exécution mineures par rapport à une exécution non compressée. Concrètement, QMoE peut compresser le modèle SwitchTransformer-c2048 à 1,6 trillion de paramètres à moins de 160 Go (compression de 20x, 0,8 bit par paramètre) avec une perte de précision minime, en moins d'une journée sur un seul GPU. Cela permet, pour la première fois, l'exécution d'un modèle à trillion de paramètres sur du matériel abordable, comme un seul serveur équipé de 4x NVIDIA A6000 ou 8x NVIDIA 3090 GPUs, avec une surcharge d'exécution inférieure à 5 % par rapport à une inférence non compressée idéale. Le code source et les modèles compressés sont disponibles sur github.com/IST-DASLab/qmoe.

Une évaluation préliminaire de GPT-4V(ision)
An Early Evaluation of GPT-4V(ision)

Oct 25, 2023

Yang Wu, Shilong Wang, Hao Yang, Tian Zheng, Hongbo Zhang, Yanyan Zhao, Bing Qin

221

Dans cet article, nous évaluons différentes capacités de GPT-4V, notamment la compréhension visuelle, la compréhension linguistique, la résolution de puzzles visuels, et la compréhension d'autres modalités telles que la profondeur, l'infrarouge, la vidéo et l'audio. Pour estimer les performances de GPT-4V, nous avons manuellement construit 656 instances de test et soigneusement évalué les résultats de GPT-4V. Les points forts de nos découvertes sont les suivants : (1) GPT-4V montre des performances impressionnantes sur des benchmarks visuels centrés sur l'anglais, mais échoue à reconnaître des textes chinois simples dans les images ; (2) GPT-4V présente un comportement de refus incohérent lorsqu'il répond à des questions liées à des traits sensibles tels que le genre, la race et l'âge ; (3) GPT-4V obtient de moins bons résultats que GPT-4 (API) sur des tâches de compréhension linguistique, y compris des benchmarks généraux de compréhension linguistique et des benchmarks d'évaluation des connaissances de bon sens visuel ; (4) L'incitation en few-shot peut améliorer les performances de GPT-4V à la fois en compréhension visuelle et en compréhension linguistique ; (5) GPT-4V a du mal à trouver les nuances entre deux images similaires et à résoudre des puzzles mathématiques visuels simples ; (6) GPT-4V montre des performances non négligeables sur des tâches de modalités similaires à l'image, comme la vidéo et l'infrarouge. Nos résultats expérimentaux révèlent les capacités et les limites de GPT-4V, et nous espérons que notre article pourra fournir des insights pour l'application et la recherche sur GPT-4V.

Wonder3D : Génération 3D à partir d'une seule image grâce à la diffusion inter-domaines
Wonder3D: Single Image to 3D using Cross-Domain Diffusion

Oct 23, 2023

Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, Wenping Wang

224

Dans ce travail, nous présentons Wonder3D, une méthode novatrice pour générer efficacement des maillages texturés de haute fidélité à partir d'images monoscopiques. Les méthodes récentes basées sur le Score Distillation Sampling (SDS) ont montré leur potentiel pour reconstruire la géométrie 3D à partir de modèles de diffusion 2D, mais elles souffrent généralement d'une optimisation longue par forme et d'une géométrie incohérente. En revanche, certaines approches produisent directement des informations 3D via des inférences réseau rapides, mais leurs résultats sont souvent de faible qualité et manquent de détails géométriques. Pour améliorer de manière holistique la qualité, la cohérence et l'efficacité des tâches de conversion d'image en 3D, nous proposons un modèle de diffusion inter-domaines qui génère des cartes de normales multi-vues et les images couleur correspondantes. Pour garantir la cohérence, nous utilisons un mécanisme d'attention inter-domaines multi-vues qui facilite l'échange d'informations entre les vues et les modalités. Enfin, nous introduisons un algorithme de fusion de normales prenant en compte la géométrie, qui extrait des surfaces de haute qualité à partir des représentations 2D multi-vues. Nos évaluations approfondies démontrent que notre méthode atteint des résultats de reconstruction de haute qualité, une généralisation robuste et une efficacité raisonnablement bonne par rapport aux travaux antérieurs.

Les réseaux convolutifs rivalisent avec les transformeurs visuels à grande échelle
ConvNets Match Vision Transformers at Scale

Oct 25, 2023

Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De

211

De nombreux chercheurs pensent que les réseaux convolutifs (ConvNets) obtiennent de bons résultats sur des ensembles de données de petite ou moyenne taille, mais ne sont pas compétitifs par rapport aux Vision Transformers lorsqu'ils ont accès à des ensembles de données à l'échelle du web. Nous remettons en question cette croyance en évaluant une architecture ConvNet performante pré-entraînée sur JFT-4B, un vaste ensemble de données d'images étiquetées souvent utilisé pour l'entraînement de modèles de base. Nous considérons des budgets de calcul pour le pré-entraînement allant de 0,4k à 110k heures de calcul sur des cœurs TPU-v4, et entraînons une série de réseaux de profondeur et de largeur croissantes issus de la famille de modèles NFNet. Nous observons une loi d'échelle log-log entre la perte sur l'ensemble de validation et le budget de calcul. Après un ajustement fin sur ImageNet, les NFNets égalent les performances rapportées des Vision Transformers avec des budgets de calcul comparables. Notre modèle le plus performant après ajustement fin atteint une précision Top-1 de 90,4 %.

LLM-FP4 : Transformers quantifiés en virgule flottante 4 bits
LLM-FP4: 4-Bit Floating-Point Quantized Transformers

Oct 25, 2023

Shih-yang Liu, Zechun Liu, Xijie Huang, Pingcheng Dong, Kwang-Ting Cheng

140

Nous proposons LLM-FP4 pour la quantification des poids et des activations dans les grands modèles de langage (LLM) jusqu'à des valeurs flottantes sur 4 bits, de manière post-entraînement. Les solutions existantes de quantification post-entraînement (PTQ) sont principalement basées sur des entiers et peinent à atteindre des largeurs de bits inférieures à 8 bits. Par rapport à la quantification entière, la quantification en virgule flottante (FP) est plus flexible et peut mieux gérer les distributions à longue traîne ou en forme de cloche, devenant ainsi un choix par défaut sur de nombreuses plateformes matérielles. Une caractéristique de la quantification FP est que ses performances dépendent largement du choix des bits d'exposant et de la plage de découpage. À cet égard, nous construisons une base solide pour FP-PTQ en recherchant les paramètres de quantification optimaux. De plus, nous observons un motif de variance inter-canal élevée et de variance intra-canal faible dans les distributions d'activation, ce qui augmente la difficulté de quantification des activations. Nous constatons que ce motif est cohérent à travers un spectre de modèles de transformateurs conçus pour diverses tâches, tels que les LLM, BERT et les modèles Vision Transformer. Pour résoudre ce problème, nous proposons une quantification des activations par canal et montrons que ces facteurs d'échelle supplémentaires peuvent être reparamétrés comme des biais exponentiels des poids, engendrant un coût négligeable. Notre méthode, pour la première fois, peut quantifier à la fois les poids et les activations du LLaMA-13B à seulement 4 bits et atteint un score moyen de 63,1 sur les tâches de raisonnement zero-shot de bon sens, ce qui est seulement 5,8 points inférieur au modèle en pleine précision, surpassant significativement l'état de l'art précédent de 12,7 points. Le code est disponible à l'adresse : https://github.com/nbasyl/LLM-FP4.

Détection des données de prétraitement dans les grands modèles de langage
Detecting Pretraining Data from Large Language Models

Oct 25, 2023

Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer

110

Bien que les grands modèles de langage (LLM) soient largement déployés, les données utilisées pour les entraîner sont rarement divulguées. Étant donné l'échelle incroyable de ces données, pouvant atteindre des milliers de milliards de tokens, il est presque certain qu'elles incluent des textes potentiellement problématiques tels que des matériaux protégés par le droit d'auteur, des informations personnelles identifiables et des données de test pour des benchmarks de référence largement rapportés. Cependant, nous n'avons actuellement aucun moyen de savoir quelles données de ces types sont incluses ou dans quelles proportions. Dans cet article, nous étudions le problème de la détection des données de pré-entraînement : étant donné un texte et un accès en boîte noire à un LLM sans connaître les données de pré-entraînement, pouvons-nous déterminer si le modèle a été entraîné sur le texte fourni ? Pour faciliter cette étude, nous introduisons un benchmark dynamique, WIKIMIA, qui utilise des données créées avant et après l'entraînement du modèle pour soutenir une détection de vérité de référence. Nous introduisons également une nouvelle méthode de détection, Min-K% Prob, basée sur une hypothèse simple : un exemple non vu est susceptible de contenir quelques mots aberrants avec des probabilités faibles sous le LLM, tandis qu'un exemple vu est moins susceptible d'avoir des mots avec de si faibles probabilités. Min-K% Prob peut être appliquée sans aucune connaissance du corpus de pré-entraînement ou d'un entraînement supplémentaire, se démarquant des méthodes de détection précédentes qui nécessitent l'entraînement d'un modèle de référence sur des données similaires aux données de pré-entraînement. De plus, nos expériences démontrent que Min-K% Prob obtient une amélioration de 7,4 % sur WIKIMIA par rapport à ces méthodes précédentes. Nous appliquons Min-K% Prob à deux scénarios réels, la détection de livres protégés par le droit d'auteur et la détection d'exemples contaminés en aval, et constatons qu'il s'agit d'une solution constamment efficace.

CLEX : Extrapolation Continue de Longueur pour les Modèles de Langage à Grande Échelle
CLEX: Continuous Length Extrapolation for Large Language Models

Oct 25, 2023

Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing

101

Les modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer représentent des avancées pionnières dans de nombreuses tâches de traitement du langage naturel. Cependant, leurs capacités exceptionnelles sont limitées par la fenêtre de contexte prédéfinie du Transformer. Les méthodes de mise à l'échelle des Position Embeddings (PE), bien qu'efficaces pour étendre la fenêtre de contexte à une longueur spécifique, présentent soit des limitations notables dans leurs capacités d'extrapolation, soit un sacrifice partiel des performances au sein de la fenêtre de contexte. Les méthodes d'extrapolation de longueur, bien que théoriquement capables d'étendre la fenêtre de contexte au-delà de la longueur des séquences d'entraînement, sous-performent souvent dans les applications pratiques à contexte long. Pour relever ces défis, nous proposons l'Extrapolation Continue de Longueur (CLEX) pour les LLMs. Nous généralisons les approches de mise à l'échelle des PE pour modéliser la dynamique continue à l'aide d'équations différentielles ordinaires sur le facteur de mise à l'échelle de longueur, surmontant ainsi les contraintes des méthodes actuelles de mise à l'échelle des PE conçues pour des longueurs spécifiques. De plus, en étendant la dynamique à des longueurs de contexte souhaitées au-delà de la longueur des séquences d'entraînement, CLEX facilite l'extrapolation de longueur avec des performances impressionnantes dans les tâches pratiques. Nous démontrons que CLEX peut être intégré de manière transparente dans les LLMs équipés de Rotary Position Embedding, tels que LLaMA et GPT-NeoX, avec un impact négligeable sur la latence d'entraînement et d'inférence. Les résultats expérimentaux révèlent que CLEX peut étendre efficacement la fenêtre de contexte à plus de 4 fois ou presque 8 fois la longueur d'entraînement, sans détérioration des performances. En outre, lorsqu'il est évalué sur le benchmark pratique LongBench, notre modèle entraîné sur une longueur de 4k présente des performances compétitives par rapport aux modèles open-source de pointe entraînés sur des longueurs de contexte allant jusqu'à 32k.

TiC-CLIP : Entraînement continu des modèles CLIP
TiC-CLIP: Continual Training of CLIP Models

Oct 24, 2023

Saurabh Garg, Mehrdad Farajtabar, Hadi Pouransari, Raviteja Vemulapalli, Sachin Mehta, Oncel Tuzel, Vaishaal Shankar, Fartash Faghri

Maintenir les grands modèles de fond à jour avec les dernières données est intrinsèquement coûteux. Pour éviter les coûts prohibitifs d'un réentraînement constant, il est impératif de former continuellement ces modèles. Ce problème est exacerbé par l'absence de benchmarks ou de références à grande échelle pour l'apprentissage continu. Nous introduisons le premier ensemble de benchmarks web-scale Time-Continual (TiC) pour l'entraînement de modèles vision-langage : TiC-DataCompt, TiC-YFCC et TiC-RedCaps, comprenant plus de 12,7 milliards de paires image-texte datées couvrant 9 ans (2014-2022). Nous utilisons d'abord nos benchmarks pour concevoir diverses évaluations dynamiques afin de mesurer la robustesse temporelle des modèles existants. Nous montrons que CLIP d'OpenAI (entraîné sur des données jusqu'en 2020) perd environ 8 % de précision en zero-shot sur notre tâche de récupération conçue pour 2021-2022 par rapport aux modèles plus récemment entraînés dans le référentiel OpenCLIP. Nous étudions ensuite comment entraîner efficacement les modèles sur des données temporellement continues. Nous démontrons qu'une approche simple basée sur la répétition, qui poursuit l'entraînement à partir du dernier point de contrôle et rejoue les anciennes données, réduit le calcul par un facteur de 2,5 par rapport à la pratique standard de réentraînement à partir de zéro.

TD-MPC2 : Modèles du monde scalables et robustes pour le contrôle continu
TD-MPC2: Scalable, Robust World Models for Continuous Control

Oct 25, 2023

Nicklas Hansen, Hao Su, Xiaolong Wang

TD-MPC est un algorithme d'apprentissage par renforcement (RL) basé sur un modèle qui effectue une optimisation locale de trajectoire dans l'espace latent d'un modèle du monde implicite (sans décodeur) appris. Dans ce travail, nous présentons TD-MPC2 : une série d'améliorations apportées à l'algorithme TD-MPC. Nous démontrons que TD-MPC2 surpasse significativement les méthodes de référence sur 104 tâches de RL en ligne couvrant 4 domaines de tâches variés, obtenant des résultats constamment solides avec un seul ensemble d'hyperparamètres. Nous montrons en outre que les capacités de l'agent augmentent avec la taille du modèle et des données, et parvenons à entraîner un seul agent de 317 millions de paramètres pour exécuter 80 tâches à travers plusieurs domaines, incarnations et espaces d'action. Nous concluons par un compte rendu des leçons, opportunités et risques associés aux agents TD-MPC2 de grande taille. Explorez des vidéos, modèles, données, code et plus sur https://nicklashansen.github.io/td-mpc2.

LightSpeed : Champs de lumière neuronaux légers et rapides sur appareils mobiles
LightSpeed: Light and Fast Neural Light Fields on Mobile Devices

Oct 25, 2023

Aarush Gupta, Junli Cao, Chaoyang Wang, Ju Hu, Sergey Tulyakov, Jian Ren, László A Jeni

La synthèse d'images en temps réel à partir de nouvelles vues sur des appareils mobiles est difficile en raison de la puissance de calcul et du stockage limités. L'utilisation de méthodes de rendu volumétrique, telles que NeRF et ses dérivés, sur des appareils mobiles n'est pas adaptée en raison du coût de calcul élevé du rendu volumétrique. D'autre part, les avancées récentes dans les représentations de champs lumineux neuronaux ont montré des résultats prometteurs pour la synthèse de vues en temps réel sur des appareils mobiles. Les méthodes de champs lumineux neuronaux apprennent une correspondance directe entre une représentation de rayon et la couleur du pixel. Le choix actuel de représentation de rayon est soit l'échantillonnage stratifié de rayons, soit les coordonnées de Plücker, négligeant la représentation classique de la dalle lumineuse (deux plans), qui est la représentation préférée pour interpoler entre les vues d'un champ lumineux. Dans ce travail, nous montrons que l'utilisation de la représentation de la dalle lumineuse est une représentation efficace pour l'apprentissage d'un champ lumineux neuronal. Plus important encore, il s'agit d'une représentation de rayon de dimension inférieure, nous permettant d'apprendre l'espace de rayons 4D à l'aide de grilles de caractéristiques qui sont considérablement plus rapides à entraîner et à rendre. Bien que principalement conçue pour des vues frontales, nous montrons que la représentation de la dalle lumineuse peut être étendue à des scènes non frontales en utilisant une stratégie de division pour mieux régner. Notre méthode offre une qualité de rendu supérieure par rapport aux méthodes précédentes de champs lumineux et atteint un compromis significativement amélioré entre la qualité de rendu et la vitesse.

CLEX : Extrapolation Continue de Longueur pour les Modèles de Langage à Grande Échelle
CLEX: Continuous Length Extrapolation for Large Language Models

Oct 25, 2023

Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, Lidong Bing

101

Papers Quotidiens

Une image vaut mille mots : Le recaptioning basé sur des principes améliore la génération d'images
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

CommonCanvas : Un modèle de diffusion ouvert entraîné avec des images sous licence Creative Commons
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

DreamCraft3D : Génération hiérarchique 3D avec prior de diffusion bootstrapé
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

QMoE : Compression pratique en dessous de 1 bit pour des modèles à mille milliards de paramètres
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

Une évaluation préliminaire de GPT-4V(ision)
An Early Evaluation of GPT-4V(ision)

Wonder3D : Génération 3D à partir d'une seule image grâce à la diffusion inter-domaines
Wonder3D: Single Image to 3D using Cross-Domain Diffusion

Les réseaux convolutifs rivalisent avec les transformeurs visuels à grande échelle
ConvNets Match Vision Transformers at Scale

LLM-FP4 : Transformers quantifiés en virgule flottante 4 bits
LLM-FP4: 4-Bit Floating-Point Quantized Transformers

Détection des données de prétraitement dans les grands modèles de langage
Detecting Pretraining Data from Large Language Models

CLEX : Extrapolation Continue de Longueur pour les Modèles de Langage à Grande Échelle
CLEX: Continuous Length Extrapolation for Large Language Models

TiC-CLIP : Entraînement continu des modèles CLIP
TiC-CLIP: Continual Training of CLIP Models

TD-MPC2 : Modèles du monde scalables et robustes pour le contrôle continu
TD-MPC2: Scalable, Robust World Models for Continuous Control

LightSpeed : Champs de lumière neuronaux légers et rapides sur appareils mobiles
LightSpeed: Light and Fast Neural Light Fields on Mobile Devices

Support

Support

Papers Quotidiens

Une image vaut mille mots : Le recaptioning basé sur des principes améliore la génération d'images
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

CommonCanvas : Un modèle de diffusion ouvert entraîné avec des images sous licence Creative Commons
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

DreamCraft3D : Génération hiérarchique 3D avec prior de diffusion bootstrapé
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

QMoE : Compression pratique en dessous de 1 bit pour des modèles à mille milliards de paramètres
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

Une évaluation préliminaire de GPT-4V(ision)
An Early Evaluation of GPT-4V(ision)

Wonder3D : Génération 3D à partir d'une seule image grâce à la diffusion inter-domaines
Wonder3D: Single Image to 3D using Cross-Domain Diffusion

Les réseaux convolutifs rivalisent avec les transformeurs visuels à grande échelle
ConvNets Match Vision Transformers at Scale

LLM-FP4 : Transformers quantifiés en virgule flottante 4 bits
LLM-FP4: 4-Bit Floating-Point Quantized Transformers

Détection des données de prétraitement dans les grands modèles de langage
Detecting Pretraining Data from Large Language Models

CLEX : Extrapolation Continue de Longueur pour les Modèles de Langage à Grande Échelle
CLEX: Continuous Length Extrapolation for Large Language Models

TiC-CLIP : Entraînement continu des modèles CLIP
TiC-CLIP: Continual Training of CLIP Models

TD-MPC2 : Modèles du monde scalables et robustes pour le contrôle continu
TD-MPC2: Scalable, Robust World Models for Continuous Control

LightSpeed : Champs de lumière neuronaux légers et rapides sur appareils mobiles
LightSpeed: Light and Fast Neural Light Fields on Mobile Devices