Articles de recherche en IA sélectionnés quotidiennement avec traductions
Des travaux récents ont proposé l'hypothèse de représentation linéaire : les modèles de langage effectuent des calculs en manipulant des représentations unidimensionnelles de concepts ("caractéristiques") dans l'espace d'activation. En revanche, nous explorons si certaines représentations des modèles de langage pourraient être intrinsèquement multidimensionnelles. Nous commençons par développer une définition rigoureuse des caractéristiques multidimensionnelles irréductibles, basée sur leur capacité à être décomposées en caractéristiques de dimension inférieure indépendantes ou non co-occurrentes. Motivés par ces définitions, nous concevons une méthode évolutive utilisant des autoencodeurs parcimonieux pour découvrir automatiquement des caractéristiques multidimensionnelles dans GPT-2 et Mistral 7B. Ces caractéristiques auto-découvertes incluent des exemples remarquablement interprétables, tels que des caractéristiques circulaires représentant les jours de la semaine et les mois de l'année. Nous identifions des tâches où ces cercles exacts sont utilisés pour résoudre des problèmes de calcul impliquant l'arithmétique modulaire pour les jours de la semaine et les mois de l'année. Enfin, nous fournissons des preuves que ces caractéristiques circulaires sont bien l'unité fondamentale de calcul dans ces tâches grâce à des expériences d'intervention sur Mistral 7B et Llama 3 8B, et nous trouvons d'autres représentations circulaires en décomposant les états cachés pour ces tâches en composants interprétables.
Les assistants de preuve comme Lean ont révolutionné la vérification des démonstrations mathématiques, garantissant une grande précision et fiabilité. Bien que les grands modèles de langage (LLM) montrent des promesses dans le raisonnement mathématique, leur avancée dans la démonstration formelle de théorèmes est entravée par un manque de données d'entraînement. Pour résoudre ce problème, nous introduisons une approche pour générer des données étendues de preuves Lean 4 dérivées de problèmes de compétitions mathématiques de niveau lycée et premier cycle universitaire. Cette approche implique de traduire des problèmes en langage naturel en énoncés formels, de filtrer les énoncés de faible qualité, et de générer des preuves pour créer des données synthétiques. Après avoir affiné le modèle DeepSeekMath 7B sur cet ensemble de données synthétiques, qui comprend 8 millions d'énoncés formels avec preuves, notre modèle a atteint des précisions de génération de preuves complètes de 46,3% avec 64 échantillons et 52% cumulativement sur le test Lean 4 miniF2F, surpassant le modèle de base GPT-4 à 23,0% avec 64 échantillons et une méthode d'apprentissage par renforcement avec recherche arborescente à 41,0%. De plus, notre modèle a réussi à prouver 5 des 148 problèmes du benchmark Lean 4 Formalized International Mathematical Olympiad (FIMO), tandis que GPT-4 n'a réussi à en prouver aucun. Ces résultats démontrent le potentiel de l'exploitation de données synthétiques à grande échelle pour améliorer les capacités de démonstration de théorèmes dans les LLM. L'ensemble de données synthétiques et le modèle seront rendus disponibles pour faciliter les recherches ultérieures dans ce domaine prometteur.
Malgré les avancées significatives dans la génération et l'édition de vidéos utilisant des modèles de diffusion, la réalisation d'une édition vidéo précise et localisée reste un défi majeur. De plus, la plupart des méthodes existantes d'édition vidéo se concentrent principalement sur la modification du contenu visuel, avec peu de recherches dédiées à l'édition du mouvement. Dans cet article, nous présentons une nouvelle approche pour Réaliser une Vidéo (ReVideo) qui se distingue des méthodes existantes en permettant une édition vidéo précise dans des zones spécifiques grâce à la spécification à la fois du contenu et du mouvement. L'édition du contenu est facilitée par la modification de la première image, tandis que le contrôle du mouvement basé sur des trajectoires offre une expérience d'interaction utilisateur intuitive. ReVideo aborde une nouvelle tâche impliquant le couplage et le déséquilibre d'apprentissage entre le contrôle du contenu et du mouvement. Pour résoudre ce problème, nous développons une stratégie d'apprentissage en trois étapes qui découple progressivement ces deux aspects, du grossier au fin. De plus, nous proposons un module de fusion spatiotemporelle adaptative pour intégrer le contrôle du contenu et du mouvement à travers diverses étapes d'échantillonnage et localisations spatiales. Des expériences approfondies démontrent que notre ReVideo offre des performances prometteuses dans plusieurs applications d'édition vidéo précise, à savoir (1) modifier localement le contenu vidéo tout en gardant le mouvement constant, (2) garder le contenu inchangé et personnaliser de nouvelles trajectoires de mouvement, (3) modifier à la fois le contenu et les trajectoires de mouvement. Notre méthode peut également étendre de manière transparente ces applications à l'édition multi-zones sans entraînement spécifique, démontrant ainsi sa flexibilité et sa robustesse.
Exploitons-nous pleinement le potentiel des encodeurs visuels dans les modèles de langage multimodaux de grande taille (MLLMs) ? Les performances exceptionnelles récentes des MLLMs dans la compréhension multimodale ont suscité une attention considérable tant dans le milieu académique que dans l'industrie. Dans la course effrénée actuelle autour des MLLMs, l'accent semble être principalement mis sur l'aspect linguistique. Nous assistons à l'émergence de jeux de données d'instructions plus vastes et de meilleure qualité, ainsi qu'à l'intégration de modèles de langage de plus en plus volumineux. Pourtant, peu d'attention a été accordée aux signaux visuels utilisés par les MLLMs, souvent supposés être les caractéristiques de haut niveau finales extraites par un encodeur visuel figé. Dans cet article, nous présentons le Dense Connector - un connecteur vision-langage simple, efficace et prêt à l'emploi qui améliore significativement les MLLMs existants en exploitant des caractéristiques visuelles multi-couches, avec un surcoût computationnel minimal. De plus, notre modèle, entraîné uniquement sur des images, démontre des capacités remarquables en compréhension vidéo en mode zero-shot. Les résultats expérimentaux obtenus avec divers encodeurs visuels, résolutions d'images, échelles de jeux de données d'entraînement, tailles variables de modèles de langage (2,7B->70B) et architectures diverses de MLLMs (par exemple, LLaVA et Mini-Gemini) valident la polyvalence et l'évolutivité de notre approche, atteignant des performances de pointe sur 19 benchmarks d'images et de vidéos. Nous espérons que ce travail fournira une expérience précieuse et servira de module de base pour le développement futur des MLLMs.
Les avancées dans les modèles de diffusion latente (LDMs) ont révolutionné la génération d'images haute résolution, mais l'espace de conception de l'autoencodeur central à ces systèmes reste peu exploré. Dans cet article, nous présentons LiteVAE, une famille d'autoencodeurs pour LDMs qui exploite la transformée en ondelettes discrète 2D pour améliorer l'évolutivité et l'efficacité computationnelle par rapport aux autoencodeurs variationnels (VAEs) standards, sans sacrifier la qualité de sortie. Nous étudions également les méthodologies d'entraînement et l'architecture du décodeur de LiteVAE, et proposons plusieurs améliorations qui optimisent la dynamique d'entraînement et la qualité de reconstruction. Notre modèle LiteVAE de base atteint la qualité des VAEs établis dans les LDMs actuels avec une réduction de six fois des paramètres de l'encodeur, permettant un entraînement plus rapide et des besoins en mémoire GPU réduits, tandis que notre modèle plus large surpasse les VAEs de complexité comparable sur toutes les métriques évaluées (rFID, LPIPS, PSNR et SSIM).
Accélérer l'inférence des grands modèles de langage (LLMs) constitue un défi majeur en intelligence artificielle. Cet article présente l'inférence spéculative distribuée (DSI), un nouvel algorithme d'inférence distribué qui est prouvé plus rapide que l'inférence spéculative (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] et que l'inférence autorégressive traditionnelle (non-SI). Comme les autres algorithmes SI, DSI fonctionne sur des LLMs figés, ne nécessitant ni entraînement ni modifications architecturales, tout en préservant la distribution cible. Les études précédentes sur SI ont démontré des accélérations empiriques (par rapport à non-SI) mais nécessitent un LLM "draft" rapide et précis. En pratique, les LLMs disponibles sur étagère n'ont souvent pas de "drafters" correspondants suffisamment rapides et précis. Nous mettons en évidence un écart : SI devient plus lent que non-SI lorsque des "drafters" plus lents ou moins précis sont utilisés. Nous comblons cet écart en prouvant que DSI est plus rapide que SI et non-SI, quel que soit le "drafter" utilisé. En orchestrant plusieurs instances du modèle cible et des "drafters", DSI est non seulement plus rapide que SI, mais supporte également des LLMs qui ne peuvent pas être accélérés avec SI. Nos simulations montrent des accélérations pour des LLMs disponibles sur étagère dans des scénarios réalistes : DSI est 1,29 à 1,92 fois plus rapide que SI.
Les modèles de diffusion ont connu un grand succès dans la génération d'images, avec une évolution de l'architecture de base allant de l'U-Net aux Vision Transformers. Cependant, le coût computationnel des Transformers est quadratique par rapport au nombre de tokens, ce qui pose des défis importants lors du traitement d'images haute résolution. Dans ce travail, nous proposons Diffusion Mamba (DiM), qui combine l'efficacité de Mamba, un modèle de séquence basé sur les State Space Models (SSM), avec la puissance expressive des modèles de diffusion pour une synthèse efficace d'images haute résolution. Pour résoudre le défi que Mamba ne peut pas généraliser aux signaux 2D, nous proposons plusieurs conceptions architecturales, incluant des scans multidirectionnels, des tokens de remplissage apprenables à la fin de chaque ligne et colonne, et une amélioration légère des caractéristiques locales. Notre architecture DiM permet une efficacité en temps d'inférence pour les images haute résolution. De plus, pour améliorer davantage l'efficacité de l'entraînement pour la génération d'images haute résolution avec DiM, nous explorons une stratégie d'entraînement « faible à fort » qui pré-entraîne DiM sur des images basse résolution (256 × 256) puis l'affine sur des images haute résolution (512 × 512). Nous explorons également des stratégies de suréchantillonnage sans entraînement pour permettre au modèle de générer des images de résolution encore plus élevée (par exemple, 1024 × 1024 et 1536 × 1536) sans affinage supplémentaire. Les expériences démontrent l'efficacité et l'efficience de notre DiM.
Les méthodes d'entraînement de second ordre offrent de meilleures propriétés de convergence que la descente de gradient, mais sont rarement utilisées en pratique pour l'entraînement à grande échelle en raison de leur surcharge computationnelle. Cela peut être considéré comme une limitation matérielle (imposée par les ordinateurs numériques). Nous montrons ici que la descente de gradient naturelle (NGD), une méthode de second ordre, peut avoir une complexité computationnelle par itération similaire à celle d'une méthode de premier ordre, lorsqu'elle est mise en œuvre avec un matériel approprié. Nous présentons un nouvel algorithme hybride numérique-analogique pour l'entraînement de réseaux de neurones qui est équivalent à la NGD dans un certain régime de paramètres, mais évite les résolutions de systèmes linéaires prohibitivement coûteuses. Notre algorithme exploite les propriétés thermodynamiques d'un système analogique à l'équilibre, et nécessite donc un ordinateur thermodynamique analogique. L'entraînement se déroule dans une boucle hybride numérique-analogique, où le gradient et la matrice d'information de Fisher (ou toute autre matrice de courbure semi-définie positive) sont calculés à des intervalles de temps donnés pendant que les dynamiques analogiques ont lieu. Nous démontrons numériquement la supériorité de cette approche par rapport aux méthodes d'entraînement numériques de premier et second ordre de pointe sur des tâches de classification et de fine-tuning de modèles de langage.
Les approches récentes ont montré des promesses dans la distillation de modèles de diffusion en générateurs efficaces en une seule étape. Parmi elles, la Distillation par Correspondance de Distribution (DMD) produit des générateurs en une étape qui correspondent à leur enseignant en termes de distribution, sans imposer une correspondance un-à-un avec les trajectoires d'échantillonnage de leurs enseignants. Cependant, pour assurer un entraînement stable, la DMD nécessite une perte de régression supplémentaire calculée à l'aide d'un grand ensemble de paires bruit-image générées par l'enseignant avec de nombreuses étapes d'un échantillonneur déterministe. Cela est coûteux pour la synthèse d'images à grande échelle à partir de texte et limite la qualité de l'élève, l'enchaînant trop étroitement aux chemins d'échantillonnage originaux de l'enseignant. Nous introduisons DMD2, un ensemble de techniques qui lèvent cette limitation et améliorent l'entraînement de la DMD. Premièrement, nous éliminons la perte de régression et le besoin de construction coûteuse de jeux de données. Nous montrons que l'instabilité résultante est due au fait que le critique artificiel n'estime pas avec précision la distribution des échantillons générés et proposons une règle de mise à jour à deux échelles de temps comme remède. Deuxièmement, nous intégrons une perte GAN dans la procédure de distillation, en discriminant entre les échantillons générés et les images réelles. Cela nous permet d'entraîner le modèle élève sur des données réelles, atténuant l'estimation imparfaite des scores réels du modèle enseignant et améliorant la qualité. Enfin, nous modifions la procédure d'entraînement pour permettre un échantillonnage en plusieurs étapes. Nous identifions et résolvons le problème de discordance des entrées entre l'entraînement et l'inférence dans ce contexte, en simulant les échantillons du générateur au moment de l'inférence pendant l'entraînement. Ensemble, nos améliorations établissent de nouveaux référentiels dans la génération d'images en une étape, avec des scores FID de 1,28 sur ImageNet-64x64 et 8,35 sur COCO 2014 en zéro-shot, surpassant l'enseignant original malgré une réduction de 500X du coût d'inférence. De plus, nous montrons que notre approche peut générer des images en mégapixels en distillant SDXL, démontrant une qualité visuelle exceptionnelle parmi les méthodes à quelques étapes.
Ces dernières années, avec des résultats de génération réalistes et une large gamme d'applications personnalisées, les modèles génératifs basés sur la diffusion ont suscité une attention considérable dans les domaines de la génération visuelle et audio. Par rapport aux avancées significatives dans la génération texte-image ou texte-audio, la recherche dans la génération audio-visuelle ou visuelle-audio a été relativement lente. Les méthodes récentes de génération audio-visuelle recourent généralement à d'énormes modèles de langage ou à des modèles de diffusion composables. Au lieu de concevoir un autre modèle géant pour la génération audio-visuelle, dans cet article, nous prenons du recul en montrant qu'un simple et léger transformateur génératif, qui n'a pas été pleinement exploré dans la génération multi-modale, peut obtenir d'excellents résultats dans la génération image-audio. Le transformateur opère dans l'espace discret audio et visuel du Vector-Quantized GAN, et est entraîné selon une méthode de débruitage masqué. Après l'entraînement, la guidance sans classificateur peut être déployée directement pour obtenir de meilleures performances, sans aucun entraînement ou modification supplémentaire. Comme le modèle de transformateur est symétrique en termes de modalités, il peut également être directement déployé pour la génération audio-image et la co-génération. Dans les expériences, nous montrons que notre méthode simple surpasse les méthodes récentes de génération image-audio. Des échantillons audio générés peuvent être consultés à l'adresse suivante : https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
Les modèles de langage multimodaux de grande taille (MLLMs) sont largement considérés comme cruciaux dans l'exploration de l'Intelligence Artificielle Générale (AGI). Le cœur des MLLMs réside dans leur capacité à réaliser un alignement intermodal. Pour atteindre cet objectif, les MLLMs actuels suivent généralement un paradigme d'entraînement en deux phases : la phase de pré-entraînement et la phase de réglage par instructions. Malgré leur succès, il existe des lacunes dans la modélisation des capacités d'alignement au sein de ces modèles. Premièrement, lors de la phase de pré-entraînement, le modèle suppose généralement que toutes les paires image-texte sont uniformément alignées, alors qu'en réalité, le degré d'alignement entre les différentes paires image-texte est incohérent. Deuxièmement, les instructions actuellement utilisées pour le réglage incorporent une variété de tâches, et les instructions de différentes tâches nécessitent généralement des niveaux de capacités d'alignement différents, mais les MLLMs précédents négligent ces besoins d'alignement différenciés. Pour résoudre ces problèmes, nous proposons un nouveau modèle de langage multimodal de grande taille, AlignGPT. Dans la phase de pré-entraînement, au lieu de traiter toutes les paires image-texte de manière égale, nous attribuons différents niveaux de capacités d'alignement à différentes paires image-texte. Ensuite, dans la phase de réglage par instructions, nous combinons de manière adaptative ces différents niveaux de capacités d'alignement pour répondre aux besoins dynamiques d'alignement des différentes instructions. Les résultats expérimentaux approfondis montrent que notre modèle atteint des performances compétitives sur 12 benchmarks.
Adapter les modèles de diffusion pour générer des images préservant l'identité à partir d'images de référence fournies par l'utilisateur constitue un nouveau problème fascinant. Les approches prédominantes nécessitent généralement un entraînement sur un vaste ensemble d'images spécifiques à un domaine pour parvenir à la préservation de l'identité, ce qui manque de flexibilité pour différents cas d'utilisation. Pour résoudre ce problème, nous exploitons le guidage par classifieur, une technique sans entraînement qui oriente les modèles de diffusion à l'aide d'un classifieur existant, pour la génération d'images personnalisées. Notre étude montre que, basée sur un récent cadre de flux rectifié, la limitation majeure du guidage par classifieur classique, qui nécessite un classifieur spécial, peut être résolue avec une simple solution à point fixe, permettant une personnalisation flexible avec des discriminateurs d'images prêts à l'emploi. De plus, sa procédure de résolution s'avère stable lorsqu'elle est ancrée à une trajectoire de flux de référence, avec une garantie de convergence. La méthode dérivée est implémentée sur un flux rectifié avec différents discriminateurs d'images prêts à l'emploi, offrant des résultats de personnalisation avantageux pour les visages humains, les sujets vivants et certains objets. Le code est disponible à l'adresse https://github.com/feifeiobama/RectifID.
Nous étendons les transformateurs multimodaux pour inclure le mouvement de caméra 3D comme signal de conditionnement pour la tâche de génération vidéo. Les modèles génératifs de vidéo deviennent de plus en plus puissants, ce qui concentre les efforts de recherche sur les méthodes de contrôle de la sortie de ces modèles. Nous proposons d'ajouter des contrôles virtuels de caméra 3D aux méthodes de génération vidéo en conditionnant la vidéo générée sur un encodage du mouvement tridimensionnel de la caméra au cours de la vidéo générée. Les résultats démontrent que nous sommes (1) capables de contrôler avec succès la caméra pendant la génération vidéo, à partir d'une seule image et d'un signal de caméra, et (2) nous montrons la précision des trajectoires de caméra 3D générées en utilisant des méthodes traditionnelles de vision par ordinateur.
Nous étudions la tâche d'adaptation des modèles génératifs d'images à différents ensembles de données sans ajustement fin. À cette fin, nous présentons Semantica, un modèle de diffusion conditionné par une image, capable de générer des images basées sur la sémantique d'une image de conditionnement. Semantica est entraîné exclusivement sur des paires d'images à l'échelle du web, c'est-à-dire qu'il reçoit une image aléatoire d'une page web comme entrée conditionnelle et modélise une autre image aléatoire de la même page web. Nos expériences mettent en évidence l'expressivité des encodeurs d'images pré-entraînés et la nécessité d'un filtrage des données basé sur la sémantique pour obtenir une génération d'images de haute qualité. Une fois entraîné, il peut générer de manière adaptative de nouvelles images à partir d'un ensemble de données en utilisant simplement des images de cet ensemble comme entrée. Nous étudions les propriétés de transfert de Semantica sur ImageNet, LSUN Churches, LSUN Bedroom et SUN397.
Les champs de radiance neuronaux (NeRFs) rencontrent généralement des difficultés à reconstruire et à rendre des objets hautement spéculaires, dont l'apparence varie rapidement avec les changements de point de vue. Des travaux récents ont amélioré la capacité des NeRFs à rendre l'apparence spéculaire détaillée de l'éclairage environnemental lointain, mais ils sont incapables de synthétiser des réflexions cohérentes de contenus plus proches. De plus, ces techniques reposent sur de grands réseaux neuronaux coûteux en calcul pour modéliser la radiance sortante, ce qui limite considérablement la vitesse d'optimisation et de rendu. Nous abordons ces problèmes avec une approche basée sur le lancer de rayons : au lieu d'interroger un réseau neuronal coûteux pour obtenir la radiance dépendante de la vue à des points le long de chaque rayon de caméra, notre modèle lance des rayons de réflexion à partir de ces points et les trace à travers la représentation NeRF pour rendre des vecteurs de caractéristiques qui sont décodés en couleur à l'aide d'un petit réseau peu coûteux. Nous démontrons que notre modèle surpasse les méthodes précédentes pour la synthèse de vues de scènes contenant des objets brillants, et qu'il est la seule méthode NeRF existante capable de synthétiser une apparence spéculaire et des réflexions photoréalistes dans des scènes du monde réel, tout en nécessitant un temps d'optimisation comparable aux modèles de synthèse de vues actuels les plus avancés.
La synthèse de nouvelles vues pour des objets spéculaires, tels que les métaux brillants ou les peintures glacées, reste un défi majeur. Non seulement l'apparence brillante, mais aussi les effets d'illumination globale, y compris les réflexions d'autres objets dans l'environnement, sont des composants essentiels pour reproduire fidèlement une scène. Dans cet article, nous présentons le Neural Directional Encoding (NDE), un encodage d'apparence dépendant de la vue pour les champs de radiance neuronaux (NeRF) destiné au rendu d'objets spéculaires. NDE transpose le concept d'encodage spatial basé sur une grille de caractéristiques au domaine angulaire, améliorant significativement la capacité à modéliser des signaux angulaires à haute fréquence. Contrairement aux méthodes précédentes qui utilisent des fonctions d'encodage avec uniquement une entrée angulaire, nous effectuons également un traçage conique des caractéristiques spatiales pour obtenir un encodage directionnel variant spatialement, ce qui permet de traiter les effets complexes d'inter-réflexion. Des expériences approfondies sur des ensembles de données synthétiques et réels montrent qu'un modèle NeRF avec NDE (1) surpasse l'état de l'art en matière de synthèse de vues pour des objets spéculaires, et (2) fonctionne avec des réseaux de petite taille pour permettre une inférence rapide (en temps réel). La page web du projet et le code source sont disponibles à l'adresse suivante : https://lwwu2.github.io/nde/.
Dans cet article, nous présentons un système de téléprésence bidirectionnel à faible coût et haute authenticité, Tele-Aloha, conçu pour des scénarios de communication pair-à-pair. Par rapport aux systèmes précédents, Tele-Aloha utilise seulement quatre caméras RGB éparses, un GPU grand public et un écran autostéréoscopique pour atteindre une haute résolution (2048x2048), un rendu en temps réel (30 ips), une faible latence (moins de 150 ms) et une communication distante robuste. Au cœur de Tele-Aloha, nous proposons un algorithme efficace de synthèse de nouvelles vues pour le haut du corps. Tout d'abord, nous concevons un estimateur de disparité en cascade pour obtenir un indice géométrique robuste. Ensuite, un rastériseur neuronal via le lissage gaussien est introduit pour projeter les caractéristiques latentes sur la vue cible et les décoder en une résolution réduite. De plus, grâce aux données capturées de haute qualité, nous exploitons un mécanisme de mélange pondéré pour affiner l'image décodée jusqu'à la résolution finale de 2K. En tirant parti d'un écran autostéréoscopique de pointe et d'un suivi de l'iris à faible latence, les utilisateurs peuvent ressentir une forte sensation de tridimensionnalité sans aucun dispositif de visualisation porté sur la tête. Dans l'ensemble, notre système de téléprésence démontre un sentiment de co-présence dans des expériences réelles, inspirant la prochaine génération de communication.