Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les modèles de génération texte-image ont débloqué un vaste potentiel pour la créativité visuelle. Cependant, ces modèles peinent à générer des personnages cohérents, un aspect crucial pour de nombreuses applications pratiques telles que la visualisation d'histoires, la conception d'assets pour le développement de jeux, la publicité, et plus encore. Les méthodes actuelles reposent généralement sur plusieurs images préexistantes du personnage cible ou impliquent des processus manuels laborieux. Dans ce travail, nous proposons une solution entièrement automatisée pour la génération de personnages cohérents, avec comme seule entrée une invite textuelle. Nous introduisons une procédure itérative qui, à chaque étape, identifie un ensemble cohérent d'images partageant une identité similaire et en extrait une identité plus cohérente. Notre analyse quantitative démontre que notre méthode atteint un meilleur équilibre entre l'alignement sur l'invite et la cohérence d'identité par rapport aux méthodes de référence, et ces résultats sont renforcés par une étude utilisateur. Pour conclure, nous présentons plusieurs applications pratiques de notre approche. La page du projet est disponible à l'adresse suivante : https://omriavrahami.com/the-chosen-one
Les modèles de diffusion texte-image ont démontré des capacités remarquables dans la transformation de descriptions textuelles en images cohérentes, mais le coût computationnel de leur inférence reste un défi persistant. Pour résoudre ce problème, nous présentons UFOGen, un nouveau modèle génératif conçu pour la synthèse ultra-rapide d'images en une seule étape à partir de texte. Contrairement aux approches conventionnelles qui se concentrent sur l'amélioration des échantillonneurs ou l'utilisation de techniques de distillation pour les modèles de diffusion, UFOGen adopte une méthodologie hybride, intégrant les modèles de diffusion avec un objectif GAN. En tirant parti d'un nouvel objectif diffusion-GAN et d'une initialisation avec des modèles de diffusion pré-entraînés, UFOGen excelle dans la génération efficace d'images de haute qualité conditionnées par des descriptions textuelles en une seule étape. Au-delà de la génération traditionnelle texte-image, UFOGen démontre une polyvalence dans diverses applications. Notamment, UFOGen figure parmi les premiers modèles permettant la génération d'images en une étape à partir de texte et diverses tâches en aval, représentant une avancée significative dans le paysage des modèles génératifs efficaces. \blfootnote{*Travail réalisé en tant qu'étudiant chercheur chez Google, le symbole † indique une contribution égale.}
Malgré le succès de la chaîne de pensée pour améliorer le raisonnement des modèles de langage, le processus sous-jacent reste mal compris. Bien qu'un raisonnement logiquement solide semble intrinsèquement crucial pour la chaîne de pensée, des études antérieures révèlent, de manière surprenante, un impact minimal lors de l'utilisation de démonstrations invalides. De plus, la chaîne de pensée conventionnelle n'indique pas aux modèles de langage quelles erreurs éviter, ce qui peut potentiellement conduire à davantage d'erreurs. Ainsi, inspirés par la manière dont les humains peuvent apprendre à partir d'exemples positifs et négatifs, nous proposons la chaîne de pensée contrastive pour améliorer le raisonnement des modèles de langage. Par rapport à la chaîne de pensée conventionnelle, notre approche fournit à la fois des démonstrations de raisonnement valides et invalides, guidant ainsi le modèle à raisonner étape par étape tout en réduisant les erreurs de raisonnement. Pour améliorer la généralisation, nous introduisons une méthode automatique pour construire des démonstrations contrastives. Nos expériences sur des benchmarks de raisonnement démontrent que la chaîne de pensée contrastive peut servir d'amélioration générale de l'incitation par chaîne de pensée.
Les champs de radiance neuronaux atteignent une qualité inégalée pour la synthèse de nouvelles vues, mais leur formulation volumétrique reste coûteuse, nécessitant un nombre considérable d'échantillons pour produire des images en haute résolution. Les encodages volumétriques sont essentiels pour représenter des géométries floues telles que le feuillage et les cheveux, et ils se prêtent bien à l'optimisation stochastique. Pourtant, de nombreuses scènes sont en grande partie composées de surfaces solides qui peuvent être rendues avec précision par un seul échantillon par pixel. En nous appuyant sur cette observation, nous proposons une formulation de champ de radiance neuronale qui transitionne en douceur entre un rendu volumétrique et un rendu basé sur les surfaces, accélérant ainsi considérablement la vitesse de rendu et améliorant même la fidélité visuelle. Notre méthode construit une enveloppe de maillage explicite qui délimite spatialement une représentation volumétrique neuronale. Dans les régions solides, l'enveloppe converge presque vers une surface et peut souvent être rendue avec un seul échantillon. Pour ce faire, nous généralisons la formulation NeuS avec une taille de noyau variant spatialement et apprise, qui encode l'étalement de la densité, ajustant un noyau large pour les régions volumiques et un noyau serré pour les régions surfaciques. Nous extrayons ensuite un maillage explicite d'une bande étroite autour de la surface, dont la largeur est déterminée par la taille du noyau, et affinons le champ de radiance dans cette bande. Au moment de l'inférence, nous lançons des rayons contre le maillage et évaluons le champ de radiance uniquement dans la région délimitée, réduisant ainsi considérablement le nombre d'échantillons requis. Les expériences montrent que notre approche permet un rendu efficace avec une très haute fidélité. Nous démontrons également que l'enveloppe extraite permet des applications en aval telles que l'animation et la simulation.
Nous proposons Tied-LoRA, un paradigme simple qui exploite le partage de poids et l’entraînement sélectif pour accroître davantage l’efficacité paramétrique de la méthode d’adaptation de bas rang (LoRA). Nos investigations incluent toutes les combinaisons possibles d’entraînement/gel des paramètres en conjonction avec le partage de poids afin d’identifier l’équilibre optimal entre performance et nombre de paramètres entraînables. À travers des expériences couvrant une variété de tâches et deux modèles de langage de base, nous fournissons une analyse révélant les compromis entre efficacité et performance. Nos expériences ont mis en évidence une configuration particulière de Tied-LoRA qui se distingue en démontrant des performances comparables sur plusieurs tâches tout en n’utilisant que 13 % des paramètres employés par la méthode LoRA standard.
Les grands modèles de langage ont démontré des performances prometteuses dans les benchmarks de génération de code. Cependant, un écart considérable existe entre ces résultats de benchmarks et leur applicabilité pratique, principalement attribuable à la dépendance de la programmation réelle vis-à-vis des bibliothèques préexistantes. Au lieu d'évaluer les LLM à coder à partir de zéro, ce travail vise à proposer un nouveau cadre d'évaluation où les LLM utilisent des bibliothèques open-source pour accomplir des tâches de machine learning. Par conséquent, nous proposons ML-Bench, un benchmark étendu développé pour évaluer l'efficacité des LLM à exploiter les fonctions existantes dans les bibliothèques open-source. Il se compose de 10044 échantillons couvrant 130 tâches issues de 14 dépôts GitHub notables en machine learning. Dans ce cadre, étant donné une instruction spécifique de tâche de machine learning et le fichier README associé dans une base de code, un LLM est chargé de générer du code pour accomplir la tâche. Cela nécessite la compréhension de documents longs et entrelacés de langage et de code, ainsi que la compréhension de structures de code complexes réparties sur plusieurs fichiers, introduisant de nouveaux défis. Notamment, bien que GPT-4 montre une amélioration remarquable par rapport aux autres LLM, il ne parvient à accomplir que 39,73 % des tâches, laissant une grande marge d'amélioration. Nous abordons ces défis en proposant ML-Agent, conçu pour naviguer efficacement dans la base de code, localiser la documentation, récupérer du code et générer du code exécutable. Les résultats empiriques démontrent que ML-Agent, construit sur GPT-4, entraîne des améliorations supplémentaires. Le code, les données et les modèles sont disponibles à l'adresse https://ml-bench.github.io/.
Les benchmarks jouent un rôle crucial dans le développement des algorithmes d'apprentissage automatique. Par exemple, la recherche en apprentissage par renforcement (RL) a été fortement influencée par les environnements et les benchmarks disponibles. Cependant, les environnements de RL sont traditionnellement exécutés sur le CPU, limitant ainsi leur évolutivité avec les ressources de calcul typiques du milieu académique. Les récentes avancées dans JAX ont permis une utilisation plus large de l'accélération matérielle pour surmonter ces obstacles computationnels, permettant des pipelines d'entraînement et des environnements de RL massivement parallèles. Cela est particulièrement utile pour la recherche en apprentissage par renforcement multi-agent (MARL). Tout d'abord, plusieurs agents doivent être pris en compte à chaque étape de l'environnement, ce qui augmente la charge computationnelle, et deuxièmement, la complexité des échantillons est accrue en raison de la non-stationnarité, de l'observabilité partielle décentralisée, ou d'autres défis du MARL. Dans cet article, nous présentons JaxMARL, la première base de code open-source qui combine la facilité d'utilisation avec l'efficacité accélérée par GPU, et qui prend en charge un grand nombre d'environnements MARL couramment utilisés ainsi que des algorithmes de référence populaires. En considérant le temps réel, nos expériences montrent que notre pipeline d'entraînement basé sur JAX est jusqu'à 12500 fois plus rapide que les approches existantes. Cela permet des évaluations efficaces et approfondies, avec le potentiel de soulager la crise d'évaluation du domaine. Nous introduisons également et évaluons SMAX, une version vectorisée et simplifiée du populaire StarCraft Multi-Agent Challenge, qui élimine la nécessité d'exécuter le moteur de jeu StarCraft II. Cela permet non seulement une accélération par GPU, mais offre également un environnement MARL plus flexible, débloquant le potentiel pour l'auto-apprentissage, le méta-apprentissage, et d'autres applications futures en MARL. Nous fournissons le code à l'adresse suivante : https://github.com/flairox/jaxmarl.
Les récentes décisions des principaux laboratoires d'IA de rendre leurs modèles open-source ou de restreindre leur accès ont suscité un débat sur la question de savoir si, et comment, les modèles d'IA de plus en plus performants devraient être partagés. L'open-source en IA fait généralement référence à la mise à disposition publique et gratuite de l'architecture des modèles et de leurs poids, permettant à quiconque de les modifier, de les étudier, de les améliorer et de les utiliser. Cela présente des avantages tels que la possibilité d'un contrôle externe, l'accélération des progrès et la décentralisation du contrôle sur le développement et l'utilisation de l'IA. Cependant, cela comporte également un potentiel croissant de mésusage et de conséquences imprévues. Ce document propose une analyse des risques et des avantages de l'open-source pour les modèles de base hautement performants. Bien que l'open-source ait historiquement apporté des bénéfices nets substantiels pour la plupart des processus de développement de logiciels et d'IA, nous soutenons que pour certains modèles de base hautement performants susceptibles d'être développés dans un avenir proche, l'open-source pourrait présenter des risques suffisamment extrêmes pour surpasser les avantages. Dans un tel cas, les modèles de base hautement performants ne devraient pas être rendus open-source, du moins pas initialement. Des stratégies alternatives, y compris des options de partage de modèles non open-source, sont explorées. Le document conclut par des recommandations à l'intention des développeurs, des organismes de normalisation et des gouvernements pour établir des pratiques de partage de modèles sûres et responsables, tout en préservant les avantages de l'open-source lorsque cela est sécurisé.