Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les recherches récentes, telles que BitNet, ouvrent la voie à une nouvelle ère de modèles de langage à grande échelle (LLM) à 1 bit. Dans ce travail, nous présentons une variante de LLM à 1 bit, nommée BitNet b1.58, dans laquelle chaque paramètre (ou poids) du LLM est ternaire {-1, 0, 1}. Ce modèle atteint des performances comparables à celles d'un LLM Transformer en précision complète (c'est-à-dire FP16 ou BF16) avec la même taille de modèle et le même nombre de tokens d'entraînement, tant en termes de perplexité que de performance sur les tâches finales, tout en étant nettement plus rentable en termes de latence, de mémoire, de débit et de consommation d'énergie. Plus profondément, le LLM à 1,58 bit définit une nouvelle loi d'échelle et une méthode pour entraîner les nouvelles générations de LLM, à la fois performants et économiques. En outre, il permet un nouveau paradigme de calcul et ouvre la voie à la conception de matériel spécifiquement optimisé pour les LLM à 1 bit.
Dans ce travail, nous relevons le défi d'améliorer le réalisme et l'expressivité dans la génération de vidéos de têtes parlantes en nous concentrant sur la relation dynamique et nuancée entre les indices audio et les mouvements faciaux. Nous identifions les limites des techniques traditionnelles qui échouent souvent à capturer l'ensemble du spectre des expressions humaines et l'unicité des styles faciaux individuels. Pour résoudre ces problèmes, nous proposons EMO, un nouveau cadre qui utilise une approche de synthèse directe audio-vers-vidéo, contournant le besoin de modèles 3D intermédiaires ou de points de repère faciaux. Notre méthode garantit des transitions fluides entre les images et une préservation cohérente de l'identité tout au long de la vidéo, aboutissant à des animations hautement expressives et réalistes. Les résultats expérimentaux démontrent qu'EMO est capable de produire non seulement des vidéos parlantes convaincantes, mais aussi des vidéos chantées dans divers styles, surpassant significativement les méthodologies existantes de pointe en termes d'expressivité et de réalisme.
Sora est un modèle d'IA générative texte-vidéo, publié par OpenAI en février 2024. Le modèle est entraîné à générer des vidéos de scènes réalistes ou imaginatives à partir d'instructions textuelles et montre un potentiel dans la simulation du monde physique. Sur la base de rapports techniques publics et de rétro-ingénierie, cet article présente une revue complète du contexte du modèle, des technologies associées, des applications, des défis restants et des orientations futures des modèles d'IA texte-vidéo. Nous retraçons d'abord le développement de Sora et examinons les technologies sous-jacentes utilisées pour construire ce "simulateur de monde". Ensuite, nous décrivons en détail les applications et l'impact potentiel de Sora dans de multiples industries, allant de la réalisation de films et de l'éducation au marketing. Nous discutons des principaux défis et limitations qui doivent être surmontés pour déployer largement Sora, comme garantir une génération de vidéos sûre et non biaisée. Enfin, nous abordons le développement futur de Sora et des modèles de génération de vidéos en général, et comment les avancées dans ce domaine pourraient permettre de nouvelles formes d'interaction humain-IA, stimulant la productivité et la créativité dans la génération de vidéos.
Depuis des décennies, l'interaction homme-machine a été fondamentalement manuelle. Même aujourd'hui, presque tout travail productif effectué sur ordinateur nécessite une intervention humaine à chaque étape. Les agents virtuels autonomes représentent une avancée prometteuse dans l'automatisation de nombreuses de ces tâches fastidieuses. Ces agents virtuels permettraient aux utilisateurs ayant une maîtrise technique limitée d'exploiter pleinement les possibilités des systèmes informatiques. Ils pourraient également permettre une rationalisation efficace de nombreuses tâches informatiques, allant de la gestion des calendriers à des réservations de voyage complexes, avec une intervention humaine minimale. Dans cet article, nous présentons OmniACT, le premier ensemble de données et benchmark de son genre pour évaluer la capacité d'un agent à générer des programmes exécutables afin d'accomplir des tâches informatiques. Notre champ d'application va au-delà de l'automatisation web traditionnelle, couvrant une gamme variée d'applications de bureau. L'ensemble de données comprend des tâches fondamentales telles que "Lire la chanson suivante", ainsi que des tâches à plus long terme comme "Envoyer un e-mail à John Doe mentionnant l'heure et le lieu de rendez-vous". Plus précisément, étant donné une paire composée d'une image d'écran et d'une tâche en langage naturel visuellement ancrée, l'objectif est de générer un script capable d'exécuter entièrement la tâche. Nous avons testé plusieurs agents de modèles de langage robustes sur notre benchmark. Le modèle le plus performant, GPT-4, obtient les meilleurs résultats sur notre benchmark. Cependant, son niveau de performance n'atteint que 15 % de la compétence humaine dans la génération de scripts exécutables capables de réaliser la tâche, ce qui démontre la complexité de notre tâche pour les agents web conventionnels. Notre benchmark offre une plateforme pour mesurer et évaluer les progrès des agents de modèles de langage dans l'automatisation des tâches informatiques et encourage les travaux futurs visant à développer des modèles multimodaux qui relient les grands modèles de langage à l'ancrage visuel des écrans d'ordinateur.
Alors que les grands modèles de langage (LLM) adoptent souvent le fine-tuning pour débloquer leurs capacités dans des applications en aval, notre compréhension des biais inductifs (en particulier les propriétés de mise à l'échelle) des différentes méthodes de fine-tuning reste limitée. Pour combler cette lacune, nous menons des expériences systématiques étudiant si et comment différents facteurs de mise à l'échelle, incluant la taille du modèle LLM, la taille des données de pré-entraînement, la taille des nouveaux paramètres de fine-tuning et la taille des données de fine-tuning, affectent les performances du fine-tuning. Nous considérons deux types de fine-tuning -- le réglage complet du modèle (FMT) et le réglage efficace en paramètres (PET, incluant le réglage par prompt et LoRA), et explorons leurs comportements de mise à l'échelle dans le régime limité en données où la taille du modèle LLM dépasse largement la taille des données de fine-tuning. Sur la base de deux ensembles de LLM bilingues pré-entraînés allant de 1B à 16B et d'expériences sur des benchmarks de traduction bilingue et de résumé multilingue, nous constatons que 1) le fine-tuning des LLM suit une loi de mise à l'échelle multiplicative basée sur une puissance entre la taille des données de fine-tuning et chaque autre facteur de mise à l'échelle ; 2) le fine-tuning des LLM bénéficie davantage de la mise à l'échelle de la taille du modèle LLM que de la mise à l'échelle des données de pré-entraînement, et la mise à l'échelle des paramètres PET est généralement inefficace ; et 3) la méthode de fine-tuning optimale dépend fortement de la tâche et des données de fine-tuning. Nous espérons que nos résultats pourront éclairer la compréhension, la sélection et le développement des méthodes de fine-tuning des LLM.
La capacité des grands modèles de langage (LLMs) à traiter et générer du texte cohérent est considérablement affaiblie lorsque le nombre de tokens d'entrée dépasse leur longueur de prétraining. Étant donné le coût élevé du fine-tuning des modèles à grande échelle avec des séquences plus longues, nous proposons l'attention double chunk (DCA), qui permet à Llama2 70B de supporter des fenêtres de contexte de plus de 100k tokens sans entraînement continu. En décomposant le calcul de l'attention pour les longues séquences en modules basés sur des chunks, DCA parvient à capturer efficacement les informations de position relative des tokens au sein d'un même chunk (Intra-Chunk) et entre des chunks distincts (Inter-Chunk), tout en s'intégrant de manière transparente avec Flash Attention. En plus de sa capacité impressionnante d'extrapolation, DCA atteint des performances sur des tâches pratiques à long contexte qui sont comparables, voire meilleures, à celles des modèles fine-tunés. Comparé aux modèles propriétaires, notre modèle 70B sans entraînement atteint 94 % des performances de gpt-3.5-16k, indiquant qu'il constitue une alternative open-source viable. Tous les codes et données utilisés dans ce travail sont disponibles à l'adresse https://github.com/HKUNLP/ChunkLlama.
Dans le domaine des modèles génératifs texte-à-image (T2I) axés sur un sujet spécifique, les développements récents tels que DreamBooth et BLIP-Diffusion ont produit des résultats impressionnants, mais se heurtent à des limitations dues à leurs exigences intensives en matière de fine-tuning et à leurs besoins substantiels en paramètres. Bien que le module d'adaptation à faible rang (LoRA) au sein de DreamBooth offre une réduction des paramètres entraînables, il introduit une sensibilité marquée aux hyperparamètres, conduisant à un compromis entre l'efficacité des paramètres et la qualité de la synthèse d'images personnalisées T2I. Pour répondre à ces contraintes, nous introduisons \textit{DiffuseKronA}, un nouveau module d'adaptation basé sur le produit de Kronecker qui non seulement réduit significativement le nombre de paramètres de 35\% et 99,947\% par rapport à LoRA-DreamBooth et au DreamBooth original, respectivement, mais améliore également la qualité de la synthèse d'images. De manière cruciale, DiffuseKronA atténue le problème de sensibilité aux hyperparamètres, offrant des générations de haute qualité cohérentes sur une large gamme d'hyperparamètres, réduisant ainsi la nécessité d'un fine-tuning extensif. De plus, une décomposition plus contrôlable rend DiffuseKronA plus interprétable et peut même atteindre une réduction allant jusqu'à 50\% avec des résultats comparables à LoRA-DreamBooth. Évalué sur des images d'entrée et des prompts textuels divers et complexes, DiffuseKronA surpasse systématiquement les modèles existants, produisant des images diversifiées de meilleure qualité avec une fidélité améliorée et une distribution de couleurs plus précise des objets, tout en maintenant une efficacité exceptionnelle des paramètres, représentant ainsi une avancée substantielle dans le domaine de la modélisation générative T2I. Notre page de projet, comprenant des liens vers le code et les checkpoints pré-entraînés, est disponible à l'adresse https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
Les données textuelles et vidéo sont abondantes sur internet et permettent un apprentissage auto-supervisé à grande échelle grâce à la prédiction du prochain token ou de la prochaine image. Cependant, elles n'ont pas été exploitées de manière équivalente : les modèles de langage ont eu un impact significatif dans le monde réel, tandis que la génération vidéo est restée largement limitée au domaine du divertissement médiatique. Pourtant, les données vidéo capturent des informations importantes sur le monde physique qui sont difficiles à exprimer par le langage. Pour combler cette lacune, nous discutons d'une opportunité sous-estimée d'étendre la génération vidéo pour résoudre des tâches dans le monde réel. Nous observons comment, à l'instar du langage, la vidéo peut servir d'interface unifiée capable d'absorber les connaissances d'internet et de représenter des tâches diverses. De plus, nous démontrons comment, comme les modèles de langage, la génération vidéo peut servir de planificateur, d'agent, de moteur de calcul et de simulateur d'environnement grâce à des techniques telles que l'apprentissage en contexte, la planification et l'apprentissage par renforcement. Nous identifions des opportunités d'impact majeur dans des domaines tels que la robotique, la conduite autonome et les sciences, soutenues par des travaux récents qui montrent que de telles capacités avancées en génération vidéo sont plausibles à atteindre. Enfin, nous identifions les principaux défis de la génération vidéo qui freinent les progrès. Leur résolution permettra aux modèles de génération vidéo de démontrer une valeur unique aux côtés des modèles de langage dans un plus large éventail d'applications de l'IA.
Les travaux existants sur les dialogues ouverts à long terme se concentrent sur l'évaluation des réponses des modèles dans des contextes ne dépassant pas cinq sessions de discussion. Malgré les avancées des modèles de langage à grand contexte (LLMs) et des techniques de génération augmentée par récupération (RAG), leur efficacité dans les dialogues très longs reste inexplorée. Pour combler cette lacune, nous introduisons un pipeline machine-humain pour générer des dialogues de très haute qualité et à très long terme en exploitant des architectures d'agents basées sur des LLMs et en ancrant leurs dialogues sur des personas et des graphes d'événements temporels. De plus, nous dotons chaque agent de la capacité de partager et de réagir à des images. Les conversations générées sont vérifiées et éditées par des annotateurs humains pour assurer une cohérence à long terme et un ancrage aux graphes d'événements. En utilisant ce pipeline, nous collectons LoCoMo, un ensemble de données de conversations très longues, chacune comprenant en moyenne 300 tours et 9K tokens, sur jusqu'à 35 sessions. Sur la base de LoCoMo, nous présentons un benchmark d'évaluation complet pour mesurer la mémoire à long terme des modèles, englobant des tâches de réponse à des questions, de résumé d'événements et de génération de dialogues multi-modaux. Nos résultats expérimentaux indiquent que les LLMs rencontrent des difficultés à comprendre les conversations longues et à saisir les dynamiques temporelles et causales à long terme dans les dialogues. L'utilisation de stratégies comme les LLMs à grand contexte ou la RAG peut apporter des améliorations, mais ces modèles restent encore loin derrière les performances humaines.
Ce travail étudie les principes généraux pour améliorer l'apprentissage des modèles de langage (LMs), dans le but de réduire le nombre d'étapes d'entraînement nécessaires pour atteindre des performances supérieures. Plus précisément, nous présentons une théorie pour l'apprentissage optimal des LMs. Nous proposons d'abord un objectif qui optimise l'apprentissage des LMs en maximisant le taux de compression des données dans une perspective d'"entraînement-des-LMs-comme-compression-sans-perte". Ensuite, nous dérivons un théorème, nommé Loi d'Apprentissage, pour révéler les propriétés de la dynamique dans le processus d'apprentissage optimal sous notre objectif. Ce théorème est ensuite validé par des expériences sur une tâche de classification linéaire et une tâche de modélisation de langage en conditions réelles. Enfin, nous vérifions empiriquement que l'apprentissage optimal des LMs découle essentiellement de l'amélioration des coefficients dans la loi d'échelle des LMs, indiquant un grand potentiel et une importance significative pour la conception de méthodes pratiques d'accélération de l'apprentissage. Notre code est disponible à l'adresse suivante : https://aka.ms/LearningLaw.
Le modèle Sora récemment développé [1] a démontré des capacités remarquables en génération vidéo, suscitant des discussions intenses concernant son aptitude à simuler des phénomènes du monde réel. Malgré sa popularité croissante, il existe un manque de métriques établies pour évaluer quantitativement sa fidélité aux lois physiques réelles. Dans cet article, nous introduisons un nouveau benchmark qui évalue la qualité des vidéos générées en fonction de leur adhérence aux principes physiques du monde réel. Nous employons une méthode qui transforme les vidéos générées en modèles 3D, en nous appuyant sur le postulat que la précision de la reconstruction 3D dépend fortement de la qualité de la vidéo. Du point de vue de la reconstruction 3D, nous utilisons la fidélité des contraintes géométriques satisfaites par les modèles 3D construits comme un indicateur pour mesurer dans quelle mesure les vidéos générées se conforment aux règles physiques du monde réel. Page du projet : https://sora-geometrical-consistency.github.io/
La création de contenus vidéo et audio constitue la technique centrale de l'industrie cinématographique et des utilisateurs professionnels. Récemment, les méthodes existantes basées sur la diffusion abordent la génération vidéo et audio séparément, ce qui entrave le transfert de cette technologie du milieu académique vers l'industrie. Dans ce travail, nous visons à combler cet écart en proposant un cadre d'optimisation soigneusement conçu pour la génération croisée et conjointe visuelle-audio. Nous observons la puissante capacité de génération des modèles existants de génération vidéo ou audio. Ainsi, plutôt que d'entraîner des modèles géants à partir de zéro, nous proposons de relier les modèles existants performants à travers un espace de représentation latente partagé. Plus précisément, nous proposons un aligneur latent multimodal basé sur le modèle ImageBind pré-entraîné. Notre aligneur latent partage un principe similaire à celui du guidage par classifieur qui oriente le processus de débruitage par diffusion pendant l'inférence. Grâce à une stratégie d'optimisation et des fonctions de perte soigneusement conçues, nous démontrons la performance supérieure de notre méthode sur les tâches de génération conjointe vidéo-audio, de génération audio guidée par le visuel et de génération visuelle guidée par l'audio. Le site web du projet est disponible à l'adresse suivante : https://yzxing87.github.io/Seeing-and-Hearing/
Dans ce travail, nous partageons trois insights pour atteindre une qualité esthétique de pointe dans les modèles génératifs de texte-à-image. Nous nous concentrons sur trois aspects critiques pour l'amélioration des modèles : l'amélioration des couleurs et du contraste, la génération sur plusieurs ratios d'aspect, et les détails fins centrés sur l'humain. Premièrement, nous explorons l'importance du calendrier de bruit dans l'entraînement d'un modèle de diffusion, démontrant son impact profond sur le réalisme et la fidélité visuelle. Deuxièmement, nous abordons le défi de l'adaptation à divers ratios d'aspect dans la génération d'images, en soulignant l'importance de préparer un jeu de données équilibré et segmenté. Enfin, nous étudions le rôle crucial de l'alignement des sorties du modèle avec les préférences humaines, garantissant que les images générées correspondent aux attentes perceptives humaines. À travers une analyse approfondie et des expériences, Playground v2.5 démontre des performances de pointe en termes de qualité esthétique dans diverses conditions et ratios d'aspect, surpassant à la fois les modèles open-source largement utilisés comme SDXL et Playground v2, ainsi que les systèmes commerciaux propriétaires tels que DALLE 3 et Midjourney v5.2. Notre modèle est open-source, et nous espérons que le développement de Playground v2.5 fournit des lignes directrices précieuses pour les chercheurs visant à élever la qualité esthétique des modèles de génération d'images basés sur la diffusion.
Nous présentons une méthode pour générer des scènes 3D qui sont décomposées en leurs objets constitutifs. Cette décomposition est non supervisée, s'appuyant uniquement sur les connaissances d'un grand modèle pré-entraîné de génération d'images à partir de texte. Notre idée clé est que les objets peuvent être découverts en identifiant des parties d'une scène 3D qui, lorsqu'elles sont réarrangées spatialement, produisent toujours des configurations valides de la même scène. Concrètement, notre méthode optimise conjointement plusieurs NeRFs à partir de zéro - chacun représentant son propre objet - ainsi qu'un ensemble de dispositions qui composent ces objets en scènes. Nous encourageons ensuite ces scènes composées à rester dans la distribution du générateur d'images. Nous montrons que malgré sa simplicité, notre approche génère avec succès des scènes 3D décomposées en objets individuels, ouvrant de nouvelles possibilités dans la création de contenu texte-à-3D. Pour les résultats et une démonstration interactive, consultez notre page de projet à l'adresse https://dave.ml/layoutlearning/.
Les méthodes existantes basées sur NeRF pour la reconstruction de grandes scènes présentent souvent des limitations en termes de qualité visuelle et de vitesse de rendu. Bien que la récente technique de 3D Gaussian Splatting fonctionne bien pour les scènes de petite échelle et centrées sur des objets, son extension à de grandes scènes pose des défis en raison de la mémoire vidéo limitée, des temps d'optimisation longs et des variations d'apparence notables. Pour relever ces défis, nous présentons VastGaussian, la première méthode permettant une reconstruction de haute qualité et un rendu en temps réel pour les grandes scènes, basée sur le 3D Gaussian Splatting. Nous proposons une stratégie de partitionnement progressive pour diviser une grande scène en plusieurs cellules, où les caméras d'entraînement et le nuage de points sont correctement distribués selon un critère de visibilité prenant en compte l'espace aérien. Ces cellules sont ensuite fusionnées en une scène complète après une optimisation parallèle. Nous intégrons également une modélisation d'apparence découplée dans le processus d'optimisation pour réduire les variations d'apparence dans les images rendues. Notre approche surpasse les méthodes existantes basées sur NeRF et obtient des résultats de pointe sur plusieurs ensembles de données de grandes scènes, permettant une optimisation rapide et un rendu en temps réel de haute fidélité.