Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce travail, nous présentons OmniGen, un nouveau modèle de diffusion pour la génération d'images unifiée. Contrairement aux modèles de diffusion populaires (par exemple, Diffusion Stable), OmniGen ne nécessite plus de modules supplémentaires tels que ControlNet ou IP-Adapter pour traiter des conditions de contrôle diverses. OmniGen se caractérise par les caractéristiques suivantes : 1) Unification : OmniGen démontre non seulement des capacités de génération de texte vers image, mais prend également en charge de manière inhérente d'autres tâches en aval, telles que l'édition d'images, la génération basée sur le sujet et la génération conditionnelle visuelle. De plus, OmniGen peut gérer des tâches classiques de vision par ordinateur en les transformant en tâches de génération d'images, telles que la détection de contours et la reconnaissance de la pose humaine. 2) Simplicité : L'architecture d'OmniGen est hautement simplifiée, éliminant le besoin de codeurs de texte supplémentaires. De plus, il est plus convivial que les modèles de diffusion existants, permettant l'accomplissement de tâches complexes grâce à des instructions sans nécessiter d'étapes de prétraitement supplémentaires (par exemple, estimation de la pose humaine), simplifiant ainsi considérablement le flux de travail de génération d'images. 3) Transfert de Connaissances : Grâce à l'apprentissage dans un format unifié, OmniGen transfère efficacement les connaissances entre différentes tâches, gère des tâches et domaines non vus, et présente des capacités nouvelles. Nous explorons également les capacités de raisonnement du modèle et les applications potentielles du mécanisme de chaîne de pensée. Ce travail représente la première tentative d'un modèle de génération d'images polyvalent, et plusieurs problèmes restent non résolus. Nous mettrons à disposition les ressources associées en open source sur https://github.com/VectorSpaceLab/OmniGen pour favoriser les avancées dans ce domaine.
Nous présentons NVLM 1.0, une famille de modèles de langage large multimodal de classe frontière qui atteignent des résultats de pointe sur les tâches vision-langage, rivalisant avec les modèles propriétaires de premier plan (par exemple, GPT-4o) et les modèles en accès libre (par exemple, Llama 3-V 405B et InternVL 2). Remarquablement, NVLM 1.0 montre des performances améliorées en texte seul par rapport à son socle de modèle de langage large après un entraînement multimodal. En termes de conception de modèle, nous effectuons une comparaison approfondie entre les LLM multimodaux à décodeur unique (par exemple, LLaVA) et les modèles basés sur l'attention croisée (par exemple, Flamingo). En nous basant sur les forces et les faiblesses des deux approches, nous proposons une architecture novatrice qui améliore à la fois l'efficacité de l'entraînement et les capacités de raisonnement multimodal. De plus, nous introduisons une conception d'étiquetage de tuiles 1-D pour les images dynamiques haute résolution basées sur des tuiles, ce qui améliore significativement les performances sur les tâches de raisonnement multimodal et de reconnaissance optique de caractères (OCR). En ce qui concerne les données d'entraînement, nous sélectionnons méticuleusement et fournissons des informations détaillées sur nos ensembles de données de pré-entraînement multimodal et de fine-tuning supervisé. Nos résultats indiquent que la qualité des ensembles de données et la diversité des tâches sont plus importantes que l'échelle, même pendant la phase de pré-entraînement, pour toutes les architectures. Notamment, nous développons une multimodalité de qualité professionnelle pour les modèles NVLM-1.0, leur permettant d'exceller dans les tâches vision-langage tout en maintenant voire en améliorant les performances en texte seul par rapport à leurs socles de LLM. Pour y parvenir, nous élaborons et intégrons un ensemble de données en texte seul de haute qualité dans l'entraînement multimodal, aux côtés d'une quantité substantielle de données multimodales en mathématiques et en raisonnement, ce qui conduit à des capacités améliorées en mathématiques et en codage à travers les modalités. Pour faire progresser la recherche dans le domaine, nous publions les poids du modèle et allons rendre le code open-source pour la communauté : https://nvlm-project.github.io/.
Des travaux récents ont montré que de grands modèles de diffusion peuvent être réutilisés en tant qu'estimateurs de profondeur monoculaire hautement précis en considérant l'estimation de profondeur comme une tâche de génération d'image conditionnelle. Bien que le modèle proposé ait obtenu des résultats de pointe, les fortes exigences computationnelles dues à l'inférence multi-étapes ont limité son utilisation dans de nombreux scénarios. Dans cet article, nous montrons que l'inefficacité perçue était due à un défaut dans le pipeline d'inférence qui est passé inaperçu jusqu'à présent. Le modèle corrigé présente des performances comparables à la meilleure configuration précédemment rapportée tout en étant plus de 200 fois plus rapide. Pour optimiser les performances des tâches en aval, nous effectuons un ajustement fin de bout en bout sur le modèle en une seule étape avec des pertes spécifiques à la tâche et obtenons un modèle déterministe qui surpasse tous les autres modèles d'estimation de profondeur et de normales basés sur la diffusion sur des bancs d'essai zéro-shot courants. Nous constatons de manière surprenante que ce protocole d'ajustement fin fonctionne également directement sur Stable Diffusion et atteint des performances comparables aux modèles d'estimation de profondeur et de normales basés sur la diffusion de pointe actuels, remettant en question certaines des conclusions tirées des travaux antérieurs.
Dans la modélisation 3D, les concepteurs utilisent souvent un modèle 3D existant comme référence pour créer de nouveaux modèles. Cette pratique a inspiré le développement de Phidias, un nouveau modèle génératif qui utilise la diffusion pour la génération 3D augmentée par référence. En partant d'une image, notre méthode exploite un modèle de référence 3D récupéré ou fourni par l'utilisateur pour guider le processus de génération, améliorant ainsi la qualité, la capacité de généralisation et la contrôlabilité de la génération. Notre modèle intègre trois composants clés : 1) Meta-ControlNet qui module dynamiquement la force de conditionnement, 2) un routage de référence dynamique qui atténue les désalignements entre l'image d'entrée et la référence 3D, et 3) des augmentations auto-référentielles qui permettent un entraînement auto-supervisé avec un programme d'études progressif. Dans l'ensemble, ces conceptions se traduisent par une nette amélioration par rapport aux méthodes existantes. Phidias établit un cadre unifié pour la génération 3D en utilisant du texte, des images et des conditions 3D avec des applications polyvalentes.
Les modèles de langage ajustés aux instructions (LM) sont capables de répondre à des commandes impératives, offrant une interface utilisateur plus naturelle par rapport à leurs homologues de base. Dans ce travail, nous présentons Promptriever, le premier modèle de récupération capable d'être sollicité comme un LM. Pour entraîner Promptriever, nous élaborons et publions un nouvel ensemble d'entraînement d'instructions au niveau de l'instance à partir de MS MARCO, couvrant près de 500 000 instances. Promptriever atteint non seulement de solides performances sur des tâches de récupération standard, mais suit également les instructions. Nous observons : (1) des gains importants (atteignant l'état de l'art) en suivant des instructions de pertinence détaillées (+14,3 p-MRR / +3,1 nDCG sur FollowIR), (2) une robustesse significativement accrue aux choix lexicaux/formulations dans la requête+instruction (+12,9 Robustesse@10 sur InstructIR), et (3) la capacité à effectuer une recherche d'hyperparamètres via la sollicitation pour améliorer de manière fiable les performances de récupération (+1,4 augmentation moyenne sur BEIR). Promptriever démontre que les modèles de récupération peuvent être contrôlés avec des sollicitations sur une base par requête, préparant le terrain pour des travaux futurs alignant les techniques de sollicitation de LM avec la recherche d'informations.
Les modèles de diffusion latente ont montré des résultats prometteurs dans les tâches de génération texte-vers-audio (T2A), cependant les modèles précédents ont rencontré des difficultés en termes de qualité de génération, coût computationnel, échantillonnage de diffusion et préparation des données. Dans cet article, nous introduisons EzAudio, un modèle de diffusion T2A basé sur un transformateur, pour relever ces défis. Notre approche comprend plusieurs innovations clés : (1) Nous construisons le modèle T2A dans l'espace latent d'un autoencodeur variationnel (VAE) de forme d'onde 1D, évitant les complexités liées à la manipulation de représentations spectrogramme 2D et à l'utilisation d'un vocodeur neuronal supplémentaire. (2) Nous concevons une architecture de transformateur de diffusion optimisée spécifiquement adaptée aux représentations audio latentes et à la modélisation de diffusion, ce qui améliore la vitesse de convergence, la stabilité de l'entraînement et l'utilisation de la mémoire, rendant le processus d'entraînement plus facile et plus efficace. (3) Pour faire face à la rareté des données, nous adoptons une stratégie d'entraînement efficace en données qui exploite des données non étiquetées pour apprendre les dépendances acoustiques, des données de légendes audio annotées par des modèles audio-langage pour l'apprentissage de l'alignement texte-vers-audio, et des données étiquetées par des humains pour le peaufinage. (4) Nous introduisons une méthode de rééchelonnement de guidage sans classificateur (CFG) qui simplifie EzAudio en obtenant un fort alignement de prompt tout en préservant une excellente qualité audio lors de l'utilisation de scores CFG plus élevés, éliminant le besoin de lutter pour trouver le score CFG optimal pour équilibrer ce compromis. EzAudio surpasse les modèles open-source existants à la fois en termes de mesures objectives et d'évaluations subjectives, offrant des expériences d'écoute réalistes tout en maintenant une structure de modèle rationalisée, des coûts d'entraînement faibles et un processus d'entraînement facile à suivre. Le code, les données et les modèles pré-entraînés sont disponibles sur : https://haidog-yaqub.github.io/EzAudio-Page/.
Les travaux de recherche antérieurs ont évalué des LLM quantifiés en utilisant des métriques limitées telles que la perplexité ou quelques tâches de connaissances de base et de vieux ensembles de données. De plus, les récents modèles à grande échelle tels que Llama 3.1 avec jusqu'à 405 milliards n'ont pas été examinés en profondeur. Cet article évalue les performances des LLM ajustés aux instructions à travers diverses méthodes de quantification (GPTQ, AWQ, SmoothQuant et FP8) sur des modèles allant de 7 milliards à 405 milliards. En utilisant 13 benchmarks, nous évaluons les performances à travers six types de tâches : Q\&A de bon sens, compréhension de la connaissance et du langage, suivi des instructions, détection d'hallucinations, mathématiques et dialogue. Nos principales conclusions révèlent que (1) quantifier un LLM plus grand à une taille similaire à celle d'un LLM FP16 plus petit donne généralement de meilleurs résultats sur la plupart des benchmarks, sauf pour la détection d'hallucinations et le suivi des instructions ; (2) les performances varient significativement avec différentes méthodes de quantification, la taille du modèle et la largeur des bits, les méthodes basées uniquement sur les poids donnant souvent de meilleurs résultats dans les modèles plus grands ; (3) la difficulté de la tâche n'a pas d'impact significatif sur la dégradation de la précision due à la quantification ; et (4) la méthode d'évaluation MT-Bench a un pouvoir discriminatoire limité parmi les LLMs récents performants.
Les modèles de diffusion vidéo ont montré un grand potentiel dans la génération de vidéos de haute qualité, ce qui en fait un sujet de plus en plus populaire. Cependant, leur nature itérative inhérente entraîne des coûts computationnels et temporels substantiels. Bien que des efforts aient été déployés pour accélérer la diffusion vidéo en réduisant les étapes d'inférence (à travers des techniques telles que la distillation de la cohérence) et l'entraînement GAN (ces approches sont souvent limitées soit en performance, soit en stabilité d'entraînement). Dans ce travail, nous introduisons un cadre d'entraînement en deux étapes qui combine efficacement la distillation de la cohérence avec l'entraînement GAN pour relever ces défis. De plus, nous proposons une conception novatrice de discriminateur vidéo, qui élimine le besoin de décodage des latents vidéo et améliore les performances finales. Notre modèle est capable de produire des vidéos de haute qualité en une seule étape, avec la flexibilité d'effectuer un affinement multi-étapes pour une amélioration ultérieure des performances. Notre évaluation quantitative sur le benchmark OpenWebVid-1M montre que notre modèle surpasse significativement les méthodes existantes. Notamment, notre performance en une étape (FVD 171.15) dépasse la performance en 8 étapes de la méthode basée sur la distillation de la cohérence, AnimateLCM (FVD 184.79), et se rapproche de la performance en 25 étapes de la diffusion vidéo stable avancée (FVD 156.94).
La modélisation basée sur les agents (ABM) vise à comprendre le comportement des systèmes complexes en simulant une collection d'agents qui agissent et interagissent au sein d'un environnement. Leur utilité pratique nécessite de capturer des dynamiques environnementales réalistes et un comportement adaptatif des agents tout en simulant efficacement des populations de taille millionnaire. Les récents progrès dans les grands modèles de langage (LLMs) offrent une opportunité d'améliorer les ABMs en utilisant les LLMs comme agents, avec un potentiel supplémentaire pour capturer un comportement adaptatif. Cependant, l'impossibilité computationnelle d'utiliser les LLMs pour de grandes populations a entravé leur adoption généralisée. Dans cet article, nous présentons AgentTorch - un cadre qui met à l'échelle les ABMs à des millions d'agents tout en capturant un comportement d'agent haute résolution en utilisant des LLMs. Nous évaluons l'utilité des LLMs en tant qu'agents ABM, explorant le compromis entre l'échelle de la simulation et l'agence individuelle. En utilisant la pandémie de COVID-19 comme étude de cas, nous démontrons comment AgentTorch peut simuler 8,4 millions d'agents représentant la ville de New York, capturant l'impact de l'isolement et du comportement professionnel sur la santé et les résultats économiques. Nous comparons les performances de différentes architectures d'agents basées sur des agents heuristiques et des LLMs dans la prédiction des vagues de maladies et des taux de chômage. De plus, nous mettons en avant les capacités d'AgentTorch pour des analyses rétrospectives, contrefactuelles et prospectives, soulignant comment un comportement adaptatif des agents peut aider à surmonter les limitations des données historiques dans la conception des politiques. AgentTorch est un projet open-source actuellement utilisé pour l'élaboration de politiques et la découverte scientifique à travers le monde. Le cadre est disponible ici : github.com/AgentTorch/AgentTorch.
Nous nous concentrons sur le saut agile, continu et adaptatif au terrain des robots quadrupèdes dans des terrains discontinus tels que des escaliers et des pierres de pas. Contrairement au saut en une seule étape, le saut continu nécessite d'exécuter avec précision des mouvements hautement dynamiques sur de longues horizons, ce qui est un défi pour les approches existantes. Pour accomplir cette tâche, nous concevons un cadre d'apprentissage et de contrôle hiérarchique, qui se compose d'un prédicteur de carte de hauteur appris pour une perception robuste du terrain, d'une politique de mouvement au niveau du centroïde basée sur l'apprentissage par renforcement pour une planification polyvalente et adaptative au terrain, et d'un contrôleur de jambe basé sur un modèle au niveau bas pour un suivi précis du mouvement. De plus, nous réduisons l'écart entre la simulation et la réalité en modélisant avec précision les caractéristiques matérielles. Notre cadre permet à un robot Unitree Go1 d'effectuer des sauts agiles et continus sur des escaliers de taille humaine et des pierres de pas clairsemées, pour la première fois à notre connaissance. En particulier, le robot peut franchir deux marches d'escalier à chaque saut et parcourir un escalier de 3,5 m de long, 2,8 m de haut et 14 marches en 4,5 secondes. De plus, la même politique surpasse les bases dans diverses autres tâches de parkour, telles que sauter par-dessus des discontinuités horizontales ou verticales simples. Des vidéos d'expérience sont disponibles sur https://yxyang.github.io/jumping\_cod/.
La numérisation des scènes 3D statiques et des événements dynamiques 4D à partir d'images multi-vues a longtemps été un défi en vision par ordinateur et en infographie. Récemment, le Splatting Gaussien 3D (3DGS) a émergé comme une méthode de reconstruction pratique et évolutive, gagnant en popularité en raison de sa qualité de reconstruction impressionnante, de ses capacités de rendu en temps réel et de sa compatibilité avec des outils de visualisation largement utilisés. Cependant, la méthode nécessite un nombre substantiel de vues d'entrée pour obtenir une reconstruction de scène de haute qualité, introduisant un goulot d'étranglement pratique significatif. Ce défi est particulièrement sévère dans la capture de scènes dynamiques, où le déploiement d'un grand nombre de caméras peut être excessivement coûteux. Dans ce travail, nous identifions le manque d'autocorrélation spatiale des caractéristiques de splat comme l'un des facteurs contribuant à la performance suboptimale de la technique 3DGS dans des configurations de reconstruction clairsemée. Pour résoudre ce problème, nous proposons une stratégie d'optimisation qui régularise efficacement les caractéristiques de splat en les modélisant comme les sorties d'un champ neuronal implicite correspondant. Cela se traduit par une amélioration cohérente de la qualité de la reconstruction dans divers scénarios. Notre approche gère efficacement les cas statiques et dynamiques, comme le démontre des tests approfondis sur différentes configurations et complexités de scène.
Les LLM sont une partie intégrante des systèmes de génération augmentée par récupération (RAG). Alors que de nombreuses études se concentrent sur l'évaluation de la qualité des systèmes RAG de bout en bout, il existe un manque de recherche sur la compréhension de l'adéquation d'un LLM pour la tâche RAG. Ainsi, nous introduisons une nouvelle métrique, le Trust-Score, qui fournit une évaluation holistique de la fiabilité des LLM dans un cadre RAG. Nous montrons que diverses méthodes de mise en contexte, telles que l'apprentissage en contexte, échouent à adapter efficacement les LLM à la tâche RAG. Par conséquent, nous proposons Trust-Align, un cadre pour aligner les LLM en vue d'un Trust-Score plus élevé. LLaMA-3-8b, aligné avec notre méthode, surpasse significativement les LLM open-source de tailles comparables sur ASQA (jusqu'à 10,7), QAMPARI (jusqu'à 29,2) et ELI5 (jusqu'à 14,9). Nous rendons notre code disponible sur : https://github.com/declare-lab/trust-align.
La compréhension des émotions est fondamentale pour l'interaction et l'expérience humaines. Les humains infèrent facilement les émotions à partir de situations ou d'expressions faciales, les situations à partir des émotions, et effectuent diverses autres formes de cognition affective. Dans quelle mesure l'IA moderne excelle-t-elle dans ces inférences ? Nous introduisons un cadre d'évaluation pour tester la cognition affective dans les modèles fondamentaux. En partant de la théorie psychologique, nous générons 1 280 scénarios divers explorant les relations entre les évaluations, les émotions, les expressions et les résultats. Nous évaluons les capacités des modèles fondamentaux (GPT-4, Claude-3, Gemini-1.5-Pro) et des humains (N = 567) dans des conditions soigneusement sélectionnées. Nos résultats montrent que les modèles fondamentaux ont tendance à être en accord avec les intuitions humaines, égalant ou dépassant l'accord interparticulier. Dans certaines conditions, les modèles sont "surhumains" - ils prédisent mieux les jugements humains modaux que le humain moyen. Tous les modèles bénéficient d'un raisonnement en chaîne de pensée. Cela suggère que les modèles fondamentaux ont acquis une compréhension des émotions similaire à celle des humains et de leur influence sur les croyances et le comportement.
La Représentation Neuronale Implicite (RNI), exploitant un réseau neuronal pour transformer une entrée de coordonnées en attributs correspondants, a récemment entraîné des avancées significatives dans plusieurs domaines liés à la vision. Cependant, la performance de la RNI est fortement influencée par le choix de la fonction d'activation non linéaire utilisée dans son architecture de perceptron multicouche (MLP). Plusieurs non-linéarités ont été étudiées ; cependant, les RNI actuelles rencontrent des limitations dans la capture des composantes haute fréquence, des types de signaux divers et dans la résolution des problèmes inverses. Nous avons identifié que ces problèmes peuvent être grandement atténués en introduisant un changement de paradigme dans les RNI. Nous constatons qu'une architecture avec des activations apprenables dans les couches initiales peut représenter les détails fins des signaux sous-jacents. Plus précisément, nous proposons SL^{2}A-RNI, un réseau hybride pour la RNI avec une fonction d'activation apprenable à une seule couche, favorisant l'efficacité des MLP traditionnels basés sur ReLU. Notre méthode surpasse dans diverses tâches, notamment la représentation d'images, les reconstructions de formes 3D, l'inpainting, la super-résolution d'images uniques, la reconstruction CT et la synthèse de nouvelles vues. À travers des expériences approfondies, SL^{2}A-RNI établit de nouveaux benchmarks en termes d'exactitude, de qualité et de taux de convergence pour les RNI.
L'explosion récente des systèmes de génération de musique par IA a soulevé de nombreuses préoccupations concernant les droits d'auteur des données, l'octroi de licences pour la musique des musiciens et le conflit entre l'IA en open source et les grandes entreprises prestigieuses. Ces problèmes soulignent le besoin de données musicales disponibles publiquement et libres de droits, pour lesquelles il existe une grande pénurie, en particulier pour les données musicales symboliques. Pour remédier à ce problème, nous présentons PDMX : un ensemble de données open source à grande échelle de plus de 250 000 partitions MusicXML du domaine public collectées sur le forum de partage de partitions MuseScore, ce qui en fait, à notre connaissance, le plus grand ensemble de données musicales symboliques libres de droits disponible. PDMX comprend également une grande quantité de métadonnées de balises et d'interactions utilisateur, nous permettant d'analyser efficacement l'ensemble de données et de filtrer les partitions générées par les utilisateurs de haute qualité. Grâce aux métadonnées supplémentaires fournies par notre processus de collecte de données, nous menons des expériences de génération de musique multicanal pour évaluer comment différents sous-ensembles représentatifs de PDMX entraînent des comportements différents dans les modèles ultérieurs, et comment les statistiques de notation des utilisateurs peuvent être utilisées comme mesure efficace de la qualité des données. Des exemples peuvent être trouvés sur https://pnlong.github.io/PDMX.demo/.
Les représentations neuronales implicites (RNI) utilisent des réseaux neuronaux pour fournir des représentations continues et indépendantes de la résolution de signaux complexes avec un petit nombre de paramètres. Cependant, les modèles RNI existants échouent souvent à capturer des composantes fréquentielles importantes spécifiques à chaque tâche. Pour résoudre ce problème, dans cet article, nous proposons un réseau Fourier Kolmogorov Arnold (FKAN) pour les RNI. Le FKAN proposé utilise des fonctions d'activation apprenables modélisées sous forme de séries de Fourier dans la première couche pour contrôler et apprendre efficacement les composantes fréquentielles spécifiques à la tâche. De plus, les fonctions d'activation avec des coefficients de Fourier apprenables améliorent la capacité du réseau à capturer des motifs et des détails complexes, ce qui est bénéfique pour les données haute résolution et de haute dimension. Les résultats expérimentaux montrent que notre modèle FKAN proposé surpasse trois schémas de base de pointe et améliore le rapport signal sur bruit maximal (PSNR) et l'indice de similarité structurale (SSIM) pour la tâche de représentation d'images et l'intersection sur l'union (IoU) pour la tâche de représentation de volume d'occupation en 3D, respectivement.