Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLM) sont généralement pré-entraînés sur des milliards de tokens, pour ensuite recommencer le processus dès que de nouvelles données deviennent disponibles. Une solution bien plus efficace consiste à pré-entraîner ces modèles de manière continue, ce qui permet d'économiser des ressources de calcul considérables par rapport à un ré-entraînement complet. Cependant, le décalage de distribution induit par les nouvelles données entraîne généralement une dégradation des performances sur les données précédentes ou une mauvaise adaptation aux nouvelles données. Dans ce travail, nous montrons qu'une combinaison simple et évolutive de réchauffement du taux d'apprentissage (LR), de réduction progressive du LR et de réutilisation des données précédentes suffit à égaler les performances d'un ré-entraînement complet sur toutes les données disponibles, mesurées par la perte finale et les benchmarks d'évaluation des modèles de langage (LM). Nous démontrons cela pour un décalage de distribution faible mais réaliste entre deux ensembles de données couramment utilisés pour le pré-entraînement des LLM (Anglais→Anglais) et un décalage plus marqué (Anglais→Allemand) à l'échelle d'un modèle de 405M de paramètres avec des ensembles de données volumineux (centaines de milliards de tokens). En choisissant le décalage faible mais réaliste pour des expériences à plus grande échelle, nous constatons également que nos stratégies d'apprentissage continu égalent la base de référence du ré-entraînement pour un LLM de 10B de paramètres. Nos résultats montrent que les LLM peuvent être mis à jour avec succès grâce à des stratégies d'apprentissage continu simples et évolutives, égalant la base de référence du ré-entraînement en utilisant seulement une fraction des ressources de calcul. Enfin, inspirés par des travaux antérieurs, nous proposons des alternatives au planning de taux d'apprentissage cosinus qui aident à contourner l'oubli induit par le réchauffement du LR et qui ne sont pas liées à un budget fixe de tokens.
Ce travail présente Gemma, une famille de modèles open source légers et à la pointe de la technologie, développés à partir des recherches et des technologies utilisées pour créer les modèles Gemini. Les modèles Gemma démontrent des performances solides sur les benchmarks académiques en compréhension du langage, raisonnement et sécurité. Nous publions deux tailles de modèles (2 milliards et 7 milliards de paramètres), et fournissons à la fois des points de contrôle pré-entraînés et affinés. Gemma surpasse les modèles open source de taille similaire sur 11 des 18 tâches basées sur le texte, et nous présentons des évaluations complètes des aspects de sécurité et de responsabilité des modèles, accompagnées d'une description détaillée de leur développement. Nous croyons que la publication responsable de modèles de langage de grande taille (LLM) est essentielle pour améliorer la sécurité des modèles de pointe et pour permettre la prochaine vague d'innovations dans le domaine des LLM.
Nous proposons VLOGGER, une méthode pour la génération de vidéos humaines pilotées par l'audio à partir d'une seule image d'entrée d'une personne, qui s'appuie sur les succès récents des modèles génératifs de diffusion. Notre méthode se compose de 1) un modèle stochastique de diffusion de mouvement humain vers la 3D, et 2) une architecture novatrice basée sur la diffusion qui enrichit les modèles de texte-à-image avec des contrôles spatiaux et temporels. Cela permet la génération de vidéos de haute qualité de longueur variable, facilement contrôlables via des représentations de haut niveau des visages et des corps humains. Contrairement aux travaux précédents, notre méthode ne nécessite pas d'entraînement pour chaque personne, ne repose pas sur la détection et le recadrage des visages, génère l'image complète (pas seulement le visage ou les lèvres), et prend en compte un large éventail de scénarios (par exemple, torse visible ou identités variées des sujets) qui sont essentiels pour synthétiser correctement des humains en communication. Nous avons également constitué MENTOR, un nouveau jeu de données diversifié avec des annotations de pose 3D et d'expressions, d'un ordre de grandeur supérieur aux précédents (800 000 identités) et incluant des gestes dynamiques, sur lequel nous entraînons et évaluons nos principales contributions techniques. VLOGGER surpasse les méthodes de pointe sur trois benchmarks publics, en termes de qualité d'image, de préservation de l'identité et de cohérence temporelle, tout en générant des gestes du haut du corps. Nous analysons les performances de VLOGGER selon plusieurs métriques de diversité, montrant que nos choix architecturaux et l'utilisation de MENTOR favorisent l'entraînement d'un modèle juste et non biaisé à grande échelle. Enfin, nous présentons des applications dans l'édition vidéo et la personnalisation.
Les humains acquièrent des compétences sociales à la fois par imitation et par interaction sociale. Ce processus d'apprentissage social est largement sous-étudié dans les recherches existantes sur la création d'agents linguistiques. Motivés par cette lacune, nous proposons une méthode d'apprentissage interactif, SOTOPIA-pi, visant à améliorer l'intelligence sociale des agents linguistiques. Cette méthode exploite le clonage comportemental et l'auto-renforcement sur des données d'interaction sociale filtrées selon les évaluations d'un grand modèle de langage (LLM). Nous démontrons que notre méthode d'entraînement permet à un LLM de 7B d'atteindre la capacité de réalisation d'objectifs sociaux d'un modèle expert (agent basé sur GPT-4), tout en améliorant la sécurité des agents linguistiques et en maintenant leurs performances générales sur le benchmark MMLU. Nous constatons également que ce paradigme d'entraînement révèle certaines difficultés dans l'évaluation de l'intelligence sociale basée sur les LLM : les évaluateurs basés sur les LLM surestiment les capacités des agents linguistiques spécifiquement entraînés pour l'interaction sociale.
Les modèles de fondation sont des technologies puissantes : la manière dont ils sont rendus publics influence directement leur impact sociétal. Dans cet article de position, nous nous concentrons sur les modèles de fondation ouverts, définis ici comme ceux dont les poids du modèle sont largement disponibles (par exemple, Llama 2, Stable Diffusion XL). Nous identifions cinq propriétés distinctives (par exemple, une plus grande personnalisation, un suivi insuffisant) des modèles de fondation ouverts qui engendrent à la fois leurs avantages et leurs risques. Les modèles de fondation ouverts présentent des avantages significatifs, avec certaines réserves, qui touchent à l'innovation, à la concurrence, à la répartition du pouvoir décisionnel et à la transparence. Pour comprendre leurs risques de détournement, nous concevons un cadre d'évaluation des risques pour analyser leur risque marginal. À travers plusieurs vecteurs de détournement (par exemple, cyberattaques, armes biologiques), nous constatons que la recherche actuelle est insuffisante pour caractériser efficacement le risque marginal des modèles de fondation ouverts par rapport aux technologies préexistantes. Le cadre permet d'expliquer pourquoi le risque marginal est faible dans certains cas, clarifie les désaccords sur les risques de détournement en révélant que les travaux antérieurs se sont concentrés sur différents sous-ensembles du cadre avec des hypothèses différentes, et propose une voie pour un débat plus constructif. Globalement, notre travail contribue à une évaluation plus fondée de l'impact sociétal des modèles de fondation ouverts en décrivant les recherches nécessaires pour valider empiriquement leurs avantages et risques théoriques.
Face aux défis de la rareté des données et de la synthèse avancée de mouvements dans la modélisation des interactions humain-environnement, nous présentons le jeu de données TRUMANS ainsi qu'une nouvelle méthode de synthèse de mouvements pour les interactions humain-environnement (HSI). TRUMANS se positionne comme le jeu de données HSI capturé en mouvement le plus complet actuellement disponible, englobant plus de 15 heures d'interactions humaines dans 100 environnements intérieurs. Il capture de manière détaillée les mouvements du corps entier et la dynamique des objets au niveau des parties, en mettant l'accent sur le réalisme des contacts. Ce jeu de données est ensuite amplifié par la transformation des environnements physiques en modèles virtuels exacts et par l'application d'extensions importantes à l'apparence et au mouvement des humains et des objets, tout en préservant la fidélité des interactions. En exploitant TRUMANS, nous concevons un modèle autoregressif basé sur la diffusion qui génère efficacement des séquences HSI de toute longueur, en tenant compte à la fois du contexte de la scène et des actions prévues. Dans les expériences, notre approche démontre une généralisation remarquable en zero-shot sur une gamme de jeux de données de scènes 3D (par exemple, PROX, Replica, ScanNet, ScanNet++), produisant des mouvements qui imitent de près les séquences originales capturées en mouvement, comme le confirment les expériences quantitatives et les études humaines.
Les lois d'échelle constituent des guides utiles pour le développement de modèles de langage, mais il existe encore des écarts entre les études actuelles sur l'échelle et la manière dont les modèles de langage sont finalement entraînés et évalués. Par exemple, l'échelle est généralement étudiée dans le régime d'entraînement optimal en termes de calcul (c'est-à-dire le régime "Chinchilla optimal") ; cependant, en pratique, les modèles sont souvent surentraînés pour réduire les coûts d'inférence. De plus, les lois d'échelle prédisent principalement la perte sur la prédiction du token suivant, mais les modèles sont finalement comparés sur la base de leur performance sur des tâches en aval. Dans cet article, nous abordons ces deux lacunes. Pour ce faire, nous créons un banc d'essai de 104 modèles avec des paramètres allant de 0,011 milliard à 6,9 milliards, entraînés avec différents nombres de tokens sur trois distributions de données. Premièrement, nous étudions l'échelle dans le régime de surentraînement. Nous ajustons des lois d'échelle qui extrapolent à la fois le nombre de paramètres du modèle et le ratio de tokens d'entraînement par paramètre. Cela nous permet de prédire la perte de validation d'une exécution avec 1,4 milliard de paramètres et 900 milliards de tokens (c'est-à-dire 32 fois surentraînée) et d'une exécution avec 6,9 milliards de paramètres et 138 milliards de tokens—chacune à partir d'expériences nécessitant 300 fois moins de calcul. Deuxièmement, nous relions la perplexité d'un modèle de langage à sa performance sur des tâches en aval via une loi de puissance. Nous utilisons cette loi pour prédire l'erreur top-1 moyenne sur les tâches en aval pour les deux modèles mentionnés précédemment, en utilisant des expériences nécessitant 20 fois moins de calcul. Nos expériences sont disponibles à l'adresse https://github.com/mlfoundations/scaling.
Malgré les avancées récentes dans la génération d'images vers la vidéo, une meilleure contrôlabilité et l'animation locale restent peu explorées. La plupart des méthodes existantes de transformation d'images en vidéos ne sont pas localement conscientes et ont tendance à déplacer l'ensemble de la scène. Cependant, les artistes humains peuvent avoir besoin de contrôler le mouvement de différents objets ou régions. De plus, les méthodes actuelles de transformation d'images en vidéos (I2V) exigent des utilisateurs non seulement de décrire le mouvement cible, mais aussi de fournir des descriptions détaillées redondantes du contenu des images. Ces deux problèmes entravent l'utilisation pratique des outils I2V actuels. Dans cet article, nous proposons un cadre pratique, nommé Follow-Your-Click, pour réaliser l'animation d'images avec un simple clic de l'utilisateur (pour spécifier ce qui doit bouger) et une courte invite de mouvement (pour spécifier comment bouger). Techniquement, nous proposons une stratégie de masquage de la première image, qui améliore significativement la qualité de la génération vidéo, et un module augmenté de mouvement équipé d'un ensemble de données d'invites de mouvement courtes pour améliorer les capacités de notre modèle à suivre les invites courtes. Pour contrôler davantage la vitesse du mouvement, nous proposons un contrôle de l'amplitude du mouvement basé sur le flux pour contrôler plus précisément la vitesse du mouvement cible. Notre cadre offre un contrôle utilisateur plus simple mais plus précis et une meilleure performance de génération que les méthodes précédentes. Des expériences approfondies comparées à 7 méthodes de référence, incluant à la fois des outils commerciaux et des méthodes de recherche sur 8 métriques, suggèrent la supériorité de notre approche. Page du projet : https://follow-your-click.github.io/
Les représentations neuronales implicites (INR) ont récemment connu un grand succès dans la représentation et la compression d'images, offrant une qualité visuelle élevée et des vitesses de rendu rapides de 10 à 1000 FPS, à condition que des ressources GPU suffisantes soient disponibles. Cependant, cette exigence limite souvent leur utilisation sur des appareils bas de gamme dotés d'une mémoire limitée. En réponse, nous proposons un paradigme innovant de représentation et de compression d'images par projection gaussienne 2D, nommé GaussianImage. Nous introduisons d'abord une gaussienne 2D pour représenter l'image, où chaque gaussienne possède 8 paramètres incluant la position, la covariance et la couleur. Ensuite, nous dévoilons un nouvel algorithme de rendu basé sur une sommation accumulée. De manière remarquable, notre méthode, avec une utilisation de mémoire GPU au moins 3 fois inférieure et un temps d'ajustement 5 fois plus rapide, rivalise non seulement avec les INR (par exemple, WIRE, I-NGP) en termes de performance de représentation, mais offre également une vitesse de rendu plus rapide de 1500 à 2000 FPS, indépendamment de la taille des paramètres. De plus, nous intégrons une technique de quantification vectorielle existante pour construire un codec d'image. Les résultats expérimentaux montrent que notre codec atteint une performance de taux-distortion comparable à celle des INR basés sur la compression comme COIN et COIN++, tout en permettant des vitesses de décodage d'environ 1000 FPS. Enfin, une preuve de concept préliminaire montre que notre codec surpasse COIN et COIN++ en performance lors de l'utilisation d'un codage partiel par bits rétroactifs.