Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Kandinsky 3.0, un modèle de génération d'images à partir de texte à grande échelle basé sur la diffusion latente, poursuivant la série des modèles Kandinsky et reflétant nos progrès pour atteindre une qualité et un réalisme accrus dans la génération d'images. Par rapport aux versions précédentes de Kandinsky 2.x, Kandinsky 3.0 utilise une architecture U-Net deux fois plus grande, un encodeur de texte dix fois plus volumineux et supprime le mapping de diffusion. Nous décrivons l'architecture du modèle, la procédure de collecte des données, la technique d'entraînement et le système de production pour l'interaction utilisateur. Nous nous concentrons sur les composants clés qui, comme nous l'avons identifié à travers un grand nombre d'expériences, ont eu l'impact le plus significatif sur l'amélioration de la qualité de notre modèle par rapport aux autres. Grâce à nos comparaisons côte à côte, Kandinsky montre une meilleure compréhension du texte et fonctionne plus efficacement dans des domaines spécifiques. Page du projet : https://ai-forever.github.io/Kandinsky-3
Dans la synthèse de parole à partir de texte (TTS), les modèles de diffusion ont atteint une qualité de génération prometteuse. Cependant, en raison du processus prédéfini de diffusion des données vers le bruit, leur distribution a priori est limitée à une représentation bruitée, qui fournit peu d'informations sur la cible de génération. Dans ce travail, nous présentons un nouveau système TTS, Bridge-TTS, qui constitue la première tentative de remplacer le bruit gaussien a priori dans les méthodes TTS basées sur la diffusion par une représentation propre et déterministe, offrant ainsi des informations structurelles solides sur la cible. Plus précisément, nous exploitons la représentation latente obtenue à partir de l'entrée textuelle comme a priori, et construisons un pont de Schrödinger entièrement traçable entre celle-ci et le mel-spectrogramme de référence, conduisant à un processus de données à données. De plus, la traçabilité et la flexibilité de notre formulation nous permettent d'étudier empiriquement les espaces de conception tels que les plannings de bruit, ainsi que de développer des échantillonneurs stochastiques et déterministes. Les résultats expérimentaux sur le jeu de données LJ-Speech illustrent l'efficacité de notre méthode en termes de qualité de synthèse et d'efficacité d'échantillonnage, surpassant significativement notre contrepartie basée sur la diffusion, Grad-TTS, dans des synthèses en 50 étapes/1000 étapes, ainsi que des modèles TTS rapides performants dans des scénarios à faible nombre d'étapes. Page du projet : https://bridge-tts.github.io/
Le pré-entraînement contrastif langue-image (CLIP) joue un rôle essentiel dans l'extraction d'informations précieuses à partir d'images pour diverses tâches. Il aligne les modalités textuelles et visuelles pour comprendre l'image dans son ensemble, y compris tous les détails, même ceux non pertinents pour des tâches spécifiques. Cependant, pour une compréhension plus fine et un contrôle éditorial des images, il devient crucial de se concentrer sur des régions d'intérêt spécifiques, qui peuvent être indiquées par des points, des masques ou des boîtes par des humains ou des modèles de perception. Pour répondre à ces besoins, nous introduisons Alpha-CLIP, une version améliorée de CLIP dotée d'un canal alpha auxiliaire pour suggérer des régions d'attention et affinée avec des millions de paires région-texte RGBA construites. Alpha-CLIP préserve non seulement la capacité de reconnaissance visuelle de CLIP, mais permet également un contrôle précis de l'accentuation des contenus d'image. Il démontre son efficacité dans diverses tâches, y compris mais sans s'y limiter, la reconnaissance en monde ouvert, les modèles de langage multimodal de grande taille, et la génération conditionnelle 2D/3D. Il possède un fort potentiel pour servir d'outil polyvalent pour les tâches liées aux images.
Le code fournit une structure syntaxique générale pour construire des programmes complexes et effectuer des calculs précis lorsqu'il est associé à un interpréteur de code. Nous émettons l'hypothèse que les modèles de langage (LMs) peuvent exploiter l'écriture de code pour améliorer le raisonnement en chaîne de pensée (Chain of Thought), non seulement pour les tâches logiques et arithmétiques, mais aussi pour les tâches linguistiques (et en particulier celles qui mélangent les deux). Par exemple, imaginez demander à un LM d'écrire un code qui compte le nombre de fois où il détecte du sarcasme dans un essai : le LM pourrait peiner à écrire une implémentation pour "detect_sarcasm(string)" qui puisse être exécutée par l'interpréteur (gérer les cas particuliers serait insurmontable). Cependant, les LMs pourraient tout de même produire une solution valide s'ils sont utilisés non seulement pour écrire le code, mais aussi pour "émuler" sélectivement l'interpréteur en générant le résultat attendu de "detect_sarcasm(string)" et d'autres lignes de code (par exemple, que l'interpréteur ne pourrait pas compiler). Dans ce travail, nous proposons Chain of Code (CoT), une extension simple mais étonnamment efficace qui améliore le raisonnement des LMs piloté par le code. L'idée clé est d'encourager les LMs à formater les sous-tâches linguistiques dans un programme sous forme de pseudocode flexible, permettant au compilateur de détecter explicitement les comportements non définis et de les confier à une simulation par un LM (en tant que "LMulator"). Les expériences démontrent que Chain of Code surpasse Chain of Thought et d'autres méthodes de référence sur une variété de benchmarks ; sur BIG-Bench Hard, Chain of Code atteint 84 %, soit une amélioration de 12 % par rapport à Chain of Thought. CoT s'adapte bien aux modèles de grande et petite taille, et élargit le champ des questions de raisonnement que les LMs peuvent résoudre correctement en "pensant en code". Page web du projet : https://chain-of-code.github.io/.
La création d'avatars 3D de têtes à haute fidélité a toujours été un sujet de recherche privilégié, mais cela reste un défi majeur dans des configurations légères avec des vues éparses. Dans cet article, nous proposons un avatar de tête gaussien représenté par des gaussiennes 3D contrôlables pour la modélisation d'avatars de tête à haute fidélité. Nous optimisons les gaussiennes 3D neutres et un champ de déformation entièrement appris basé sur un MLP pour capturer des expressions complexes. Les deux parties se renforcent mutuellement, permettant ainsi à notre méthode de modéliser des détails dynamiques fins tout en garantissant la précision des expressions. De plus, nous concevons une stratégie d'initialisation guidée par la géométrie, basée sur un SDF implicite et la méthode Deep Marching Tetrahedra, pour assurer la stabilité et la convergence du processus d'entraînement. Les expériences montrent que notre approche surpasse les autres méthodes de pointe en vue éparse, atteignant une qualité de rendu ultra haute fidélité en résolution 2K, même sous des expressions exagérées.
Les mouvements dans une vidéo se composent principalement du mouvement de la caméra, induit par le déplacement de la caméra, et du mouvement des objets, résultant du déplacement des objets. Un contrôle précis à la fois du mouvement de la caméra et des objets est essentiel pour la génération de vidéos. Cependant, les travaux existants se concentrent principalement sur un type de mouvement ou ne distinguent pas clairement les deux, limitant ainsi leurs capacités de contrôle et leur diversité. Par conséquent, cet article présente MotionCtrl, un contrôleur de mouvement unifié et flexible pour la génération de vidéos, conçu pour contrôler efficacement et indépendamment le mouvement de la caméra et des objets. L'architecture et la stratégie d'entraînement de MotionCtrl sont soigneusement élaborées, en tenant compte des propriétés inhérentes au mouvement de la caméra, au mouvement des objets et aux données d'entraînement imparfaites. Par rapport aux méthodes précédentes, MotionCtrl offre trois avantages principaux : 1) Il contrôle efficacement et indépendamment le mouvement de la caméra et des objets, permettant un contrôle plus fin des mouvements et facilitant des combinaisons flexibles et diversifiées des deux types de mouvements. 2) Ses conditions de mouvement sont déterminées par les poses et les trajectoires de la caméra, qui sont indépendantes de l'apparence et ont un impact minimal sur l'apparence ou la forme des objets dans les vidéos générées. 3) C'est un modèle relativement généralisable qui peut s'adapter à une large gamme de poses et de trajectoires de caméra une fois entraîné. Des expériences qualitatives et quantitatives approfondies ont été menées pour démontrer la supériorité de MotionCtrl par rapport aux méthodes existantes.
Cet article présente une analyse approfondie des modèles de langage de grande taille (LLMs), en se concentrant sur LLaMA, un modèle fondamental open-source majeur en traitement du langage naturel. Plutôt que d'évaluer LLaMA à travers sa capacité générative, nous concevons des tâches à choix multiples pour sonder sa compréhension intrinsèque dans des tâches de haut niveau telles que le raisonnement et le calcul. Nous examinons le modèle horizontalement, en comparant différentes tailles, et verticalement, en évaluant différentes couches. Nous révélons plusieurs découvertes clés et inhabituelles basées sur les tâches de sondage conçues : (1) Horizontalement, l'augmentation de la taille des modèles ne confère presque jamais automatiquement des connaissances supplémentaires ou une puissance de calcul accrue. En revanche, elle peut améliorer les capacités de raisonnement, en particulier dans la résolution de problèmes mathématiques, et aide à réduire les hallucinations, mais seulement au-delà de certains seuils de taille ; (2) Dans l'analyse verticale, les couches inférieures de LLaMA manquent de connaissances arithmétiques et factuelles substantielles, tout en démontrant des capacités de pensée logique, multilingue et de reconnaissance, tandis que les couches supérieures abritent la plupart de la puissance de calcul et des connaissances du monde réel.
Nous avons récemment assisté à des progrès considérables dans la modélisation et le rendu photo-réalistes d'humains. Cependant, le rendu efficace de performances humaines réalistes et leur intégration dans le pipeline de rastérisation restent des défis majeurs. Dans cet article, nous présentons HiFi4G, une approche explicite et compacte basée sur les Gaussiennes pour le rendu haute fidélité de performances humaines à partir de séquences denses. Notre intuition centrale est de combiner la représentation par Gaussiennes 3D avec un suivi non rigide, obtenant ainsi une représentation compacte et adaptée à la compression. Nous proposons d'abord un mécanisme à double graphe pour obtenir des préalables de mouvement, avec un graphe de déformation grossier pour une initialisation efficace et un graphe de Gaussiennes fin pour imposer des contraintes ultérieures. Ensuite, nous utilisons un schéma d'optimisation de Gaussiennes 4D avec des régularisateurs spatio-temporels adaptatifs pour équilibrer efficacement le préalable non rigide et la mise à jour des Gaussiennes. Nous présentons également un schéma de compression complémentaire avec compensation des résidus pour des expériences immersives sur diverses plateformes. Il atteint un taux de compression substantiel d'environ 25 fois, avec moins de 2 Mo de stockage par image. Des expériences approfondies démontrent l'efficacité de notre approche, qui surpasse significativement les méthodes existantes en termes de vitesse d'optimisation, de qualité de rendu et de surcharge de stockage.
Nous proposons Context Diffusion, un cadre basé sur la diffusion qui permet aux modèles de génération d'images d'apprendre à partir d'exemples visuels présentés en contexte. Les travaux récents abordent cet apprentissage en contexte pour la génération d'images, où une image requête est fournie aux côtés d'exemples contextuels et de prompts textuels. Cependant, la qualité et la fidélité des images générées se détériorent lorsque le prompt est absent, démontrant que ces modèles sont incapables de véritablement apprendre du contexte visuel. Pour remédier à cela, nous proposons un cadre novateur qui sépare l'encodage du contexte visuel et la préservation de la structure des images requêtes. Cela permet d'apprendre à la fois du contexte visuel et des prompts textuels, mais aussi de l'un ou l'autre. De plus, nous permettons à notre modèle de gérer des configurations few-shot, afin de répondre efficacement à divers scénarios d'apprentissage en contexte. Nos expériences et étude utilisateur démontrent que Context Diffusion excelle dans les tâches intra-domaines et extra-domaines, entraînant une amélioration globale de la qualité et de la fidélité des images par rapport aux modèles concurrents.
Les grands modèles de langage (LLM) tels que ChatGPT ont suscité un immense intérêt pour leur compréhension générale du langage et, en particulier, leur capacité à générer du texte ou du code informatique de haute qualité. Pour de nombreuses professions, les LLM représentent un outil inestimable qui peut accélérer et améliorer la qualité du travail. Dans cette note, nous examinons dans quelle mesure ils peuvent aider les mathématiciens professionnels. Nous fournissons d'abord une description mathématique du modèle de transformateur utilisé dans tous les modèles de langage modernes. Sur la base d'études récentes, nous décrivons ensuite les meilleures pratiques et les problèmes potentiels, et rendons compte des capacités mathématiques des modèles de langage. Enfin, nous mettons en lumière le potentiel des LLM à transformer la manière dont les mathématiciens travaillent.
L'édition vidéo basée sur le texte a récemment suscité un intérêt considérable pour modifier le style ou remplacer des objets ayant une structure similaire. Au-delà de cela, nous démontrons que des propriétés telles que la forme, la taille, la position, le mouvement, etc., peuvent également être modifiées dans les vidéos. Notre idée clé est que les transformations des images clés d'une caractéristique interne spécifique (par exemple, les cartes de contours des objets ou la pose humaine) peuvent facilement se propager à d'autres images pour fournir un guide de génération. Nous proposons donc MagicStick, une méthode d'édition vidéo contrôlable qui modifie les propriétés de la vidéo en utilisant la transformation des signaux de contrôle internes extraits. En détail, pour préserver l'apparence, nous étendons à la dimension temporelle à la fois le modèle de diffusion d'images pré-entraîné et ControlNet, et nous entraînons des couches d'adaptation à faible rang (LORA) pour s'adapter à des scènes spécifiques. Ensuite, lors de l'édition, nous mettons en œuvre un cadre d'inversion et d'édition. Différemment, ControlNet affiné est introduit à la fois dans l'inversion et la génération pour guider l'attention avec un mélange d'attention proposé entre les cartes d'attention spatiale de l'inversion et de l'édition. Bien que succincte, notre méthode est la première à montrer la capacité d'édition des propriétés vidéo à partir d'un modèle texte-à-image pré-entraîné. Nous présentons des expériences sur de nombreux exemples dans notre cadre unifié. Nous comparons également avec l'édition basée sur le texte consciente de la forme et la génération de vidéos à mouvement artisanal, démontrant notre supériorité en termes de cohérence temporelle et de capacité d'édition par rapport aux travaux précédents. Le code et les modèles seront rendus publics.
Nous introduisons la nouvelle tâche de génération d'Instructions Illustrées, c'est-à-dire des instructions visuelles personnalisées selon les besoins d'un utilisateur. Nous identifions des critères spécifiques à cette tâche et la formalisons à travers une série de métriques d'évaluation automatiques et humaines, conçues pour mesurer la validité, la cohérence et l'efficacité des générations. Nous combinons la puissance des grands modèles de langage (LLMs) avec des modèles de génération d'images par diffusion performants pour proposer une approche simple appelée StackedDiffusion, qui génère de telles instructions illustrées à partir d'un texte en entrée. Le modèle résultant surpasse largement les approches de référence et les LLMs multimodaux de pointe ; et dans 30 % des cas, les utilisateurs le préfèrent même aux articles générés par des humains. Plus remarquablement, il permet diverses applications nouvelles et passionnantes bien au-delà de ce que les articles statiques sur le web peuvent offrir, comme des instructions personnalisées incluant des étapes intermédiaires et des images en réponse à la situation individuelle d'un utilisateur.
Cet article présente la génération d'images conditionnée par les représentations (RCG), un cadre de génération d'images simple mais efficace qui établit un nouveau standard dans la génération d'images non conditionnée par classe. RCG ne se base sur aucune annotation humaine. Au lieu de cela, elle se conditionne sur une distribution de représentations auto-supervisées, elle-même dérivée de la distribution d'images à l'aide d'un encodeur pré-entraîné. Lors de la génération, RCG échantillonne à partir de cette distribution de représentations en utilisant un modèle de diffusion de représentations (RDM), et emploie un générateur de pixels pour créer les pixels de l'image en fonction de la représentation échantillonnée. Cette conception offre une guidance substantielle pendant le processus de génération, aboutissant à une génération d'images de haute qualité. Testé sur ImageNet 256×256, RCG atteint un Frechet Inception Distance (FID) de 3,31 et un Inception Score (IS) de 253,4. Ces résultats améliorent non seulement de manière significative l'état de l'art dans la génération d'images non conditionnée par classe, mais rivalisent également avec les méthodes actuelles les plus performantes dans la génération d'images conditionnée par classe, comblant ainsi l'écart de performance de longue date entre ces deux tâches. Le code est disponible à l'adresse suivante : https://github.com/LTH14/rcg.
En exploitant des modèles génératifs 2D pré-entraînés à grande échelle, les travaux récents sont capables de générer des vues nouvelles de haute qualité à partir d'une seule image en conditions réelles. Cependant, en raison du manque d'informations provenant de multiples vues, ces travaux rencontrent des difficultés à générer des vues nouvelles contrôlables. Dans cet article, nous présentons DreamComposer, un cadre flexible et évolutif qui peut améliorer les modèles de diffusion conscients des vues existants en injectant des conditions multi-vues. Plus précisément, DreamComposer utilise d'abord un module de projection 3D conscient des vues pour obtenir des représentations 3D d'un objet à partir de multiples vues. Ensuite, il rend les caractéristiques latentes de la vue cible à partir des représentations 3D avec le module de fusion de caractéristiques multi-vues. Enfin, les caractéristiques de la vue cible extraites des entrées multi-vues sont injectées dans un modèle de diffusion pré-entraîné. Les expériences montrent que DreamComposer est compatible avec les modèles de diffusion de pointe pour la synthèse de vues nouvelles en zero-shot, les améliorant davantage pour générer des images de vues nouvelles à haute fidélité avec des conditions multi-vues, prêtes pour la reconstruction contrôlable d'objets 3D et diverses autres applications.
Nous présentons l'Efficient Monotonic Multihead Attention (EMMA), un modèle de traduction simultanée de pointe doté d'une estimation d'alignement monotone numériquement stable et non biaisée. De plus, nous proposons des stratégies améliorées pour l'entraînement et l'inférence, incluant un ajustement fin simultané à partir d'un modèle de traduction hors ligne et une réduction de la variance de l'alignement monotone. Les résultats expérimentaux démontrent que le modèle proposé atteint des performances de pointe en traduction simultanée de la parole vers le texte pour la tâche de traduction entre l'espagnol et l'anglais.
La génération d'images pédagogiques d'actions quotidiennes humaines à partir d'un point de vue égocentrique constitue une étape clé vers un transfert de compétences efficace. Dans cet article, nous introduisons un nouveau problème : la génération de cadres d'action égocentriques. L'objectif est de synthétiser le cadre d'action en se basant sur une question d'invite de l'utilisateur et une image égocentrique en entrée qui capture l'environnement de l'utilisateur. Il est à noter que les ensembles de données égocentriques existants manquent d'annotations détaillées décrivant l'exécution des actions. De plus, les modèles de manipulation d'images basés sur la diffusion ne parviennent pas à contrôler le changement d'état d'une action dans l'espace pixel correspondant de l'image égocentrique. Pour remédier à cela, nous affinons un modèle de langage visuel de grande envergure (VLLM) via un réglage d'instructions visuelles pour élaborer des descriptions d'actions enrichies afin de résoudre le problème que nous proposons. Par ailleurs, nous proposons d'apprendre la génération de cadres d'action EGOcentriques (LEGO) en utilisant les embeddings d'image et de texte du VLLM comme conditionnement supplémentaire. Nous validons notre modèle proposé sur deux ensembles de données égocentriques : Ego4D et Epic-Kitchens. Nos expériences montrent une amélioration notable par rapport aux modèles de manipulation d'images précédents, tant dans l'évaluation quantitative que qualitative. Nous menons également des études d'ablation détaillées et des analyses pour fournir des insights sur notre méthode.
Les champs de radiance neuronaux offrent une qualité de synthèse de vues à la pointe de la technologie, mais ont tendance à être lents à rendre. Une des raisons est qu'ils utilisent le rendu volumétrique, nécessitant ainsi de nombreux échantillons (et requêtes au modèle) par rayon au moment du rendu. Bien que cette représentation soit flexible et facile à optimiser, la plupart des objets du monde réel peuvent être modélisés plus efficacement avec des surfaces plutôt que des volumes, nécessitant beaucoup moins d'échantillons par rayon. Cette observation a stimulé des progrès considérables dans les représentations de surfaces telles que les fonctions de distance signée, mais celles-ci peuvent avoir du mal à modéliser des structures semi-opaques et fines. Nous proposons une méthode, HybridNeRF, qui exploite les forces des deux représentations en rendant la plupart des objets sous forme de surfaces tout en modélisant volumétriquement la (généralement) petite fraction de régions complexes. Nous évaluons HybridNeRF sur le dataset Eyeful Tower, connu pour être difficile, ainsi que sur d'autres datasets couramment utilisés pour la synthèse de vues. En comparaison avec les méthodes de référence, y compris les approches récentes basées sur la rastérisation, nous réduisons les taux d'erreur de 15 à 30 % tout en atteignant des fréquences d'images en temps réel (au moins 36 FPS) pour des résolutions de réalité virtuelle (2Kx2K).