Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons LlamaGen, une nouvelle famille de modèles de génération d'images qui applique le paradigme original de « prédiction du token suivant » des grands modèles de langage au domaine de la génération visuelle. Il s'agit d'une réponse affirmative à la question de savoir si des modèles autorégressifs classiques, comme Llama, sans biais inductifs sur les signaux visuels, peuvent atteindre des performances de pointe en génération d'images s'ils sont correctement mis à l'échelle. Nous réexaminons les espaces de conception des tokenizers d'images, les propriétés de scalabilité des modèles de génération d'images, ainsi que la qualité de leurs données d'entraînement. Les résultats de cette exploration incluent : (1) Un tokenizer d'images avec un ratio de sous-échantillonnage de 16, une qualité de reconstruction de 0,94 rFID et une utilisation du codebook de 97 % sur le benchmark ImageNet. (2) Une série de modèles de génération d'images conditionnés par classe, allant de 111M à 3,1B de paramètres, atteignant un FID de 2,18 sur les benchmarks ImageNet 256x256, surpassant les modèles de diffusion populaires tels que LDM et DiT. (3) Un modèle de génération d'images conditionné par texte avec 775M de paramètres, issu d'un entraînement en deux étapes sur LAION-COCO et des images de haute qualité esthétique, démontrant des performances compétitives en termes de qualité visuelle et d'alignement textuel. (4) Nous vérifions l'efficacité des frameworks de service LLM pour optimiser la vitesse d'inférence des modèles de génération d'images et obtenons une accélération de 326 % à 414 %. Nous publions tous les modèles et codes pour faciliter la communauté open-source de la génération visuelle et des modèles fondation multimodaux.
Les agents linguistiques accomplissent des tâches complexes en utilisant des outils pour exécuter chaque étape avec précision. Cependant, la plupart des agents existants sont basés sur des modèles propriétaires ou conçus pour cibler des tâches spécifiques, telles que les mathématiques ou le question-réponse multi-étapes. Nous présentons Husky, un agent linguistique holistique et open-source qui apprend à raisonner sur un espace d'actions unifié pour traiter un ensemble diversifié de tâches complexes impliquant un raisonnement numérique, tabulaire et basé sur des connaissances. Husky alterne entre deux étapes : 1) générer la prochaine action à entreprendre pour résoudre une tâche donnée et 2) exécuter l'action en utilisant des modèles experts et mettre à jour l'état actuel de la solution. Nous identifions une ontologie approfondie des actions pour aborder des tâches complexes et constituons des données de haute qualité pour entraîner des modèles experts chargés d'exécuter ces actions. Nos expériences montrent que Husky surpasse les agents linguistiques précédents sur 14 ensembles de données d'évaluation. De plus, nous introduisons HuskyQA, un nouvel ensemble d'évaluation qui teste rigoureusement les agents linguistiques pour un raisonnement mixte utilisant plusieurs outils, en mettant l'accent sur la récupération de connaissances manquantes et l'exécution d'un raisonnement numérique. Malgré l'utilisation de modèles de 7B, Husky égale ou dépasse même des modèles de pointe comme GPT-4 sur ces tâches, démontrant l'efficacité de notre approche holistique pour résoudre des problèmes de raisonnement complexes. Notre code et nos modèles sont disponibles à l'adresse https://github.com/agent-husky/Husky-v1.
Les avancées dans l'apprentissage multimodal, en particulier dans la compréhension et la génération de vidéos, nécessitent des ensembles de données vidéo-texte de haute qualité pour améliorer les performances des modèles. Vript répond à ce besoin avec un corpus méticuleusement annoté de 12 000 vidéos haute résolution, offrant des légendes détaillées, denses et proches de scénarios pour plus de 420 000 clips. Chaque clip est accompagné d'une légende d'environ 145 mots, soit plus de 10 fois la longueur de la plupart des ensembles de données vidéo-texte existants. Contrairement aux légendes qui ne documentent que le contenu statique dans les ensembles de données précédents, nous enrichissons la description vidéo en la transformant en scénarisation vidéo, en documentant non seulement le contenu, mais aussi les opérations de caméra, qui incluent les types de plans (plan moyen, gros plan, etc.) et les mouvements de caméra (panoramique, inclinaison, etc.). En utilisant Vript, nous explorons trois paradigmes d'entraînement visant à aligner davantage de texte avec la modalité vidéo plutôt que des paires clip-légende. Cela donne naissance à Vriptor, un modèle de description vidéo parmi les meilleurs parmi les modèles open-source, comparable à GPT-4V en termes de performance. Vriptor est également un modèle puissant capable de générer de manière end-to-end des légendes denses et détaillées pour des vidéos longues. De plus, nous introduisons Vript-Hard, un benchmark composé de trois tâches de compréhension vidéo plus complexes que les benchmarks existants : Vript-HAL est le premier benchmark évaluant les hallucinations d'actions et d'objets dans les modèles de langage vidéo (LLMs), Vript-RR combine le raisonnement avec la résolution d'ambiguïté dans les questions-réponses sur des vidéos longues, et Vript-ERO est une nouvelle tâche pour évaluer la compréhension temporelle des événements dans des vidéos longues plutôt que des actions dans des vidéos courtes comme dans les travaux précédents. Tous les codes, modèles et ensembles de données sont disponibles sur https://github.com/mutonix/Vript.
Dans le domaine de la santé, la plupart des recherches sur les grands modèles de langage (LLM) se sont concentrées sur les tâches cliniques. Cependant, les appareils mobiles et portables, rarement intégrés dans ces tâches, fournissent des données riches et longitudinales pour le suivi de la santé personnelle. Nous présentons ici le Personal Health Large Language Model (PH-LLM), affiné à partir de Gemini pour comprendre et raisonner sur des données numériques de séries temporelles relatives à la santé personnelle. Nous avons créé et organisé trois ensembles de données pour tester 1) la production d’insights et de recommandations personnalisées à partir des habitudes de sommeil, de l’activité physique et des réponses physiologiques, 2) les connaissances expertes du domaine, et 3) la prédiction des résultats auto-déclarés sur le sommeil. Pour la première tâche, nous avons conçu 857 études de cas en collaboration avec des experts du domaine afin d’évaluer des scénarios réels liés au sommeil et à la forme physique. À travers une évaluation approfondie de grilles spécifiques au domaine, nous avons observé que Gemini Ultra 1.0 et PH-LLM ne se distinguent pas statistiquement des performances expertes en matière de fitness, et bien que les experts restent supérieurs pour le sommeil, l’affinage de PH-LLM a permis des améliorations significatives dans l’utilisation des connaissances pertinentes du domaine et la personnalisation des informations pour les insights sur le sommeil. Nous avons évalué les connaissances de PH-LLM à l’aide d’examens à choix multiples en médecine du sommeil et en fitness. PH-LLM a obtenu 79 % en sommeil et 88 % en fitness, dépassant les scores moyens d’un échantillon d’experts humains. Enfin, nous avons entraîné PH-LLM à prédire les résultats auto-déclarés sur la qualité du sommeil à partir de représentations textuelles et multimodales des données portables, et démontrons que l’encodage multimodal est nécessaire pour égaler les performances des modèles discriminatifs spécialisés. Bien qu’un développement et une évaluation supplémentaires soient nécessaires dans le domaine critique de la santé personnelle, ces résultats démontrent à la fois l’étendue des connaissances et des capacités des modèles Gemini, ainsi que l’avantage de contextualiser les données physiologiques pour les applications de santé personnelle, comme réalisé avec PH-LLM.
Volumetric rendering based methods, like NeRF, excel in HDR view synthesis from RAWimages, especially for nighttime scenes. While, they suffer from long training times and cannot perform real-time rendering due to dense sampling requirements. The advent of 3D Gaussian Splatting (3DGS) enables real-time rendering and faster training. However, implementing RAW image-based view synthesis directly using 3DGS is challenging due to its inherent drawbacks: 1) in nighttime scenes, extremely low SNR leads to poor structure-from-motion (SfM) estimation in distant views; 2) the limited representation capacity of spherical harmonics (SH) function is unsuitable for RAW linear color space; and 3) inaccurate scene structure hampers downstream tasks such as refocusing. To address these issues, we propose LE3D (Lighting Every darkness with 3DGS). Our method proposes Cone Scatter Initialization to enrich the estimation of SfM, and replaces SH with a Color MLP to represent the RAW linear color space. Additionally, we introduce depth distortion and near-far regularizations to improve the accuracy of scene structure for downstream tasks. These designs enable LE3D to perform real-time novel view synthesis, HDR rendering, refocusing, and tone-mapping changes. Compared to previous volumetric rendering based methods, LE3D reduces training time to 1% and improves rendering speed by up to 4,000 times for 2K resolution images in terms of FPS. Code and viewer can be found in https://github.com/Srameo/LE3D .
Le développement de thérapeutiques est un processus long et coûteux qui nécessite la satisfaction de nombreux critères différents, et les modèles d'IA capables d'accélérer ce processus seraient d'une valeur inestimable. Cependant, la majorité des approches actuelles en IA ne traitent qu'un ensemble de tâches étroitement défini, souvent limité à un domaine particulier. Pour combler cette lacune, nous présentons Tx-LLM, un modèle de langage généraliste de grande taille (LLM) affiné à partir de PaLM-2, qui encode des connaissances sur diverses modalités thérapeutiques. Tx-LLM est entraîné à l'aide d'une collection de 709 ensembles de données ciblant 66 tâches couvrant les différentes étapes du pipeline de découverte de médicaments. Utilisant un seul ensemble de poids, Tx-LLM traite simultanément une grande variété d'entités chimiques ou biologiques (petites molécules, protéines, acides nucléiques, lignées cellulaires, maladies) entrelacées avec du texte libre, lui permettant de prédire un large éventail de propriétés associées, atteignant des performances compétitives avec l'état de l'art (SOTA) sur 43 des 66 tâches et dépassant SOTA sur 22. Parmi celles-ci, Tx-LLM est particulièrement puissant et dépasse en moyenne les performances de pointe pour les tâches combinant des représentations moléculaires SMILES avec du texte tel que des noms de lignées cellulaires ou de maladies, probablement en raison du contexte appris lors du pré-entraînement. Nous observons des preuves de transfert positif entre des tâches impliquant différents types de médicaments (par exemple, des tâches impliquant des petites molécules et des tâches impliquant des protéines), et nous étudions l'impact de la taille du modèle, de l'affinage de domaine et des stratégies d'invite sur les performances. Nous croyons que Tx-LLM représente une étape importante vers les LLM encodant des connaissances biochimiques et pourrait jouer un rôle futur en tant qu'outil de bout en bout dans le pipeline de développement de la découverte de médicaments.
Cet article présente VALL-E 2, la dernière avancée dans les modèles de langage à codec neuronal, marquant une étape majeure dans la synthèse vocale à partir de texte en mode zero-shot (TTS), atteignant pour la première fois un niveau équivalent à celui de l'humain. Basé sur son prédécesseur, VALL-E, cette nouvelle itération introduit deux améliorations significatives : l'échantillonnage conscient des répétitions (Repetition Aware Sampling) affine le processus d'échantillonnage nucléaire original en tenant compte des répétitions de tokens dans l'historique de décodage. Cela stabilise non seulement le décodage, mais évite également le problème des boucles infinies. La modélisation groupée des codes (Grouped Code Modeling) organise les codes de codec en groupes pour réduire efficacement la longueur des séquences, ce qui accélère l'inférence et résout les défis liés à la modélisation de longues séquences. Nos expériences sur les ensembles de données LibriSpeech et VCTK montrent que VALL-E 2 surpasse les systèmes précédents en termes de robustesse de la parole, de naturel et de similarité du locuteur. Il est le premier à atteindre un niveau équivalent à celui de l'humain sur ces benchmarks. De plus, VALL-E 2 synthétise systématiquement une parole de haute qualité, même pour des phrases traditionnellement difficiles en raison de leur complexité ou de leurs répétitions. Les avantages de ce travail pourraient contribuer à des initiatives précieuses, telles que la génération de parole pour les personnes atteintes d'aphasie ou de sclérose latérale amyotrophique. Des démonstrations de VALL-E 2 seront disponibles sur https://aka.ms/valle2.
Les techniques modernes d'alignement basées sur les préférences humaines, telles que RLHF et DPO, utilisent généralement une régularisation par divergence par rapport au modèle de référence pour assurer la stabilité de l'entraînement. Cependant, cela limite souvent la flexibilité des modèles pendant l'alignement, en particulier lorsqu'il existe un écart distributionnel clair entre les données de préférence et le modèle de référence. Dans cet article, nous nous concentrons sur l'alignement des récents modèles de diffusion texte-image, tels que Stable Diffusion XL (SDXL), et constatons que ce "décalage de référence" constitue effectivement un problème majeur dans l'alignement de ces modèles en raison de la nature non structurée des modalités visuelles : par exemple, une préférence pour un aspect stylistique particulier peut facilement induire un tel écart. Motivés par cette observation, nous proposons une nouvelle méthode d'alignement des préférences pour les modèles de diffusion, indépendante de tout modèle de référence et économisant la mémoire, baptisée optimisation des préférences sensible aux marges (MaPO). MaPO maximise conjointement la marge de vraisemblance entre les ensembles d'images préférées et non préférées ainsi que la vraisemblance des ensembles préférés, apprenant simultanément les caractéristiques stylistiques générales et les préférences. Pour l'évaluation, nous introduisons deux nouveaux ensembles de données de préférences par paires, comprenant des paires d'images auto-générées à partir de SDXL, Pick-Style et Pick-Safety, simulant divers scénarios de décalage de référence. Nos expériences valident que MaPO peut considérablement améliorer l'alignement sur Pick-Style et Pick-Safety ainsi que l'alignement général des préférences lorsqu'il est utilisé avec Pick-a-Pic v2, surpassant le SDXL de base et d'autres méthodes existantes. Notre code, modèles et ensembles de données sont disponibles publiquement via https://mapo-t2i.github.io.
Les grands modèles de langage (LLMs) ont démontré des performances impressionnantes sur les tâches linguistiques, mais rencontrent des difficultés lorsqu'ils sont déployés sur des dispositifs à ressources limitées en raison de leur nombre élevé de paramètres et de leur dépendance aux multiplications denses, entraînant des demandes de mémoire élevées et des goulots d'étranglement en latence. La reparamétrisation par décalage et addition offre une solution prometteuse en remplaçant les multiplications coûteuses par des primitives adaptées au matériel, à la fois dans les couches d'attention et les couches de perceptron multicouche (MLP) d'un LLM. Cependant, les techniques actuelles de reparamétrisation nécessitent un entraînement à partir de zéro ou un ajustement complet des paramètres pour restaurer la précision, ce qui est coûteux en ressources pour les LLMs. Pour résoudre ce problème, nous proposons d'accélérer les LLMs pré-entraînés grâce à une reparamétrisation par décalage et addition après entraînement, créant ainsi des modèles efficaces sans multiplication, appelés ShiftAddLLM. Plus précisément, nous quantifions chaque matrice de poids en matrices binaires associées à des facteurs d'échelle par groupe. Les multiplications associées sont reparamétrisées en (1) décalages entre les activations et les facteurs d'échelle et (2) requêtes et additions selon les matrices binaires. Pour réduire la perte de précision, nous présentons une méthode d'optimisation multi-objectif visant à minimiser les erreurs de reparamétrisation des poids et des activations de sortie. De plus, en nous basant sur la sensibilité variable des couches à la reparamétrisation, nous développons une stratégie automatisée d'allocation de bits pour réduire davantage l'utilisation de la mémoire et la latence. Les expériences sur cinq familles de LLMs et huit tâches valident systématiquement l'efficacité de ShiftAddLLM, obtenant des améliorations moyennes de perplexité de 5,6 et 22,7 points à une latence comparable ou inférieure par rapport aux LLMs quantifiés les plus compétitifs à 3 et 2 bits respectivement, ainsi que des réductions de plus de 80 % de la mémoire et de l'énergie par rapport aux LLMs originaux. Les codes et modèles sont disponibles à l'adresse https://github.com/GATECH-EIC/ShiftAddLLM.
La manière dont les humains peuvent acquérir des images de façon efficace et efficiente a toujours été une question récurrente. Une solution typique consiste à effectuer une recherche d'images à partir d'une base de données existante en fonction d'une requête textuelle ; cependant, la base de données limitée manque généralement de créativité. En revanche, les récentes avancées dans la génération d'images à partir de texte ont permis de produire un contenu visuel varié et sophistiqué, mais elles rencontrent des difficultés pour synthétiser des images riches en connaissances. Dans ce travail, nous repensons la relation entre la génération et la recherche d'images à partir de texte et proposons un cadre unifié dans le contexte des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Plus précisément, nous explorons d'abord les capacités discriminatives intrinsèques des MLLMs et introduisons une méthode de recherche générative pour effectuer la recherche sans nécessiter d'entraînement. Ensuite, nous unifions la génération et la recherche dans un processus de génération autorégressive et proposons un module de décision autonome pour choisir la meilleure correspondance entre les images générées et celles récupérées comme réponse à la requête textuelle. De plus, nous construisons un benchmark appelé TIGeR-Bench, incluant des domaines créatifs et riches en connaissances, pour standardiser l'évaluation de la génération et de la recherche unifiées d'images à partir de texte. Les résultats expérimentaux approfondis sur TIGeR-Bench et deux benchmarks de recherche, à savoir Flickr30K et MS-COCO, démontrent la supériorité et l'efficacité de notre méthode proposée.
Les méthodes existantes pour la synthèse de vues relightables -- utilisant un ensemble d'images d'un objet sous un éclairage inconnu pour reconstruire une représentation 3D pouvant être rendue sous de nouveaux points de vue avec un éclairage cible -- reposent sur le rendu inverse et tentent de séparer la géométrie de l'objet, les matériaux et l'éclairage qui expliquent les images d'entrée. De plus, cela implique généralement une optimisation via un rendu Monte Carlo différentiable, qui est fragile et coûteux en calcul. Dans ce travail, nous proposons une approche plus simple : nous commençons par relighter chaque image d'entrée à l'aide d'un modèle de diffusion d'images conditionné sur l'éclairage, puis nous reconstruisons un Neural Radiance Field (NeRF) avec ces images relightées, à partir duquel nous rendons de nouvelles vues sous l'éclairage cible. Nous démontrons que cette stratégie est étonnamment compétitive et obtient des résultats de pointe sur plusieurs benchmarks de relighting. Consultez notre page de projet à l'adresse https://illuminerf.github.io/.
La distillation de grands modèles de diffusion latente (LDMs) en des modèles rapides à échantillonner suscite un intérêt croissant dans la recherche. Cependant, la majorité des méthodes existantes se heurtent à un dilemme : elles dépendent soit (i) de plusieurs modèles distillés individuels pour différents budgets d'échantillonnage, soit (ii) sacrifient la qualité de génération avec un nombre limité (par exemple, 2-4) et/ou modéré (par exemple, 5-8) d'étapes d'échantillonnage. Pour résoudre ces problèmes, nous étendons la stratégie récente de distillation de cohérence multi-étapes (MCD) aux LDMs représentatifs, établissant ainsi l'approche des Modèles de Cohérence Latente Multi-Étapes (MLCMs) pour la synthèse d'images de haute qualité à faible coût. MLCM sert de modèle unifié pour diverses étapes d'échantillonnage grâce à la promesse de MCD. Nous renforçons en outre MCD avec une stratégie d'entraînement progressive pour améliorer la cohérence inter-segments et ainsi booster la qualité des générations en peu d'étapes. Nous utilisons les états des trajectoires d'échantillonnage du modèle enseignant comme données d'entraînement pour les MLCMs afin de réduire les exigences en matière de jeux de données d'entraînement de haute qualité et de combler l'écart entre l'entraînement et l'inférence du modèle distillé. MLCM est compatible avec les stratégies d'apprentissage par préférence pour améliorer davantage la qualité visuelle et l'attrait esthétique. Empiriquement, MLCM peut générer des images de haute qualité et agréables avec seulement 2 à 8 étapes d'échantillonnage. Sur le benchmark MSCOCO-2017 5K, MLCM distillé à partir de SDXL obtient un score CLIP de 33,30, un score esthétique de 6,19 et une récompense d'image de 1,20 avec seulement 4 étapes, surpassant largement le LCM à 4 étapes [23], SDXL-Lightning à 8 étapes [17] et HyperSD à 8 étapes [33]. Nous démontrons également la polyvalence des MLCMs dans des applications incluant la génération contrôlée, le transfert de style d'image et la génération d'images à partir de texte chinois.
Nous proposons ExtraNeRF, une nouvelle méthode pour extrapoler la gamme de vues traitées par un Neural Radiance Field (NeRF). Notre idée principale est d'exploiter les NeRFs pour modéliser les détails fins spécifiques à la scène, tout en tirant parti des modèles de diffusion pour extrapoler au-delà de nos données observées. Un élément clé consiste à suivre la visibilité pour déterminer quelles parties de la scène n'ont pas été observées, et à se concentrer sur la reconstruction cohérente de ces régions à l'aide de modèles de diffusion. Nos contributions principales incluent un module de réparation d'image basé sur la diffusion et conscient de la visibilité, qui est affiné sur les images d'entrée, produisant un NeRF initial avec des régions réparées de qualité modérée (souvent floues), suivi d'un second modèle de diffusion entraîné sur les images d'entrée pour améliorer de manière cohérente, notamment en affinant, les images réparées de la première passe. Nous démontrons des résultats de haute qualité, extrapolant au-delà d'un petit nombre de vues d'entrée (typiquement six ou moins), étendant efficacement le NeRF ainsi que réparant les régions nouvellement désoccluses à l'intérieur du volume de vue original. Nous comparons avec les travaux connexes à la fois quantitativement et qualitativement et montrons des gains significatifs par rapport à l'état de l'art.
Nous proposons une nouvelle approche pour la reconstruction de maillages 3D à partir d'images multivues. Notre méthode s'inspire des modèles de reconstruction à grande échelle comme LRM, qui utilisent un générateur de triplan basé sur des transformateurs et un modèle de champ de radiance neuronale (NeRF) entraîné sur des images multivues. Cependant, dans notre méthode, nous introduisons plusieurs modifications importantes qui nous permettent d'améliorer significativement la qualité de la reconstruction 3D. Tout d'abord, nous examinons l'architecture originale de LRM et identifions plusieurs lacunes. Par la suite, nous introduisons des modifications respectives à l'architecture de LRM, ce qui conduit à une meilleure représentation des images multivues et à un entraînement plus efficace sur le plan computationnel. Deuxièmement, afin d'améliorer la reconstruction géométrique et de permettre une supervision à la pleine résolution de l'image, nous extrayons des maillages du champ NeRF de manière différentiable et affinons le modèle NeRF via le rendu de maillage. Ces modifications nous permettent d'atteindre des performances de pointe sur les métriques d'évaluation 2D et 3D, comme un PSNR de 28,67 sur le jeu de données Google Scanned Objects (GSO). Malgré ces résultats supérieurs, notre modèle en flux direct éprouve encore des difficultés à reconstruire des textures complexes, comme du texte ou des portraits sur des objets. Pour résoudre ce problème, nous introduisons une procédure légère de raffinement de texture par instance. Cette procédure affine la représentation du triplan et le modèle d'estimation de couleur NeRF sur la surface du maillage en utilisant les images multivues d'entrée en seulement 4 secondes. Ce raffinement améliore le PSNR à 29,79 et permet une reconstruction fidèle de textures complexes, comme du texte. De plus, notre approche permet diverses applications en aval, y compris la génération de texte ou d'image vers la 3D.