Articles de recherche en IA sélectionnés quotidiennement avec traductions
Avec l'avancée des modèles de génération d'images à partir de texte (par exemple, Stable Diffusion) et des techniques de personnalisation associées telles que DreamBooth et LoRA, chacun peut désormais donner vie à son imagination en produisant des images de haute qualité à un coût abordable. Par conséquent, il existe une forte demande pour des techniques d'animation d'images afin de combiner davantage les images statiques générées avec des dynamiques de mouvement. Dans ce rapport, nous proposons un cadre pratique pour animer la plupart des modèles personnalisés de génération d'images à partir de texte existants, une fois pour toutes, évitant ainsi les efforts de réglage spécifiques à chaque modèle. Au cœur du cadre proposé se trouve l'insertion d'un module de modélisation du mouvement nouvellement initialisé dans le modèle de génération d'images à partir de texte figé, suivi de son entraînement sur des clips vidéo pour extraire des préconceptions de mouvement raisonnables. Une fois entraîné, en injectant simplement ce module de modélisation du mouvement, toutes les versions personnalisées dérivées du même modèle de base de génération d'images à partir de texte deviennent immédiatement des modèles pilotés par le texte, capables de produire des images animées diversifiées et personnalisées. Nous menons notre évaluation sur plusieurs modèles publics représentatifs de génération d'images à partir de texte personnalisés, couvrant des images d'anime et des photographies réalistes, et démontrons que notre cadre proposé aide ces modèles à générer des clips d'animation temporellement fluides tout en préservant le domaine et la diversité de leurs sorties. Le code et les poids pré-entraînés seront disponibles publiquement à l'adresse https://animatediff.github.io/.
Les grands modèles de langage (LLMs) ont établi un plan directeur pour l'avancement de l'intelligence artificielle générale. Leur objectif principal est de fonctionner comme des assistants centrés sur l'humain (utiles, honnêtes et inoffensifs). L'alignement avec les humains revêt une importance primordiale, et l'apprentissage par renforcement avec feedback humain (RLHF) apparaît comme le paradigme technologique clé sous-tendant cette quête. Les approches techniques actuelles incluent généralement des modèles de récompense pour mesurer les préférences humaines, l'optimisation de politique proximale (PPO) pour optimiser les sorties du modèle de politique, et la supervision de processus pour améliorer les capacités de raisonnement étape par étape. Cependant, en raison des défis liés à la conception des récompenses, à l'interaction avec l'environnement et à l'entraînement des agents, couplés aux coûts élevés d'essais et erreurs des grands modèles de langage, il existe un obstacle significatif pour les chercheurs en IA pour motiver le développement de l'alignement technique et l'atterrissage en toute sécurité des LLMs. L'entraînement stable du RLHF reste une énigme. Dans le premier rapport, nous disséquons le cadre du RLHF, réévaluons les mécanismes internes du PPO, et explorons comment les composants des algorithmes PPO impactent l'entraînement des agents de politique. Nous identifions les contraintes de politique comme étant le facteur clé pour la mise en œuvre efficace de l'algorithme PPO. Par conséquent, nous explorons le PPO-max, une version avancée de l'algorithme PPO, pour améliorer efficacement la stabilité de l'entraînement du modèle de politique. Sur la base de nos principaux résultats, nous effectuons une analyse complète des capacités du RLHF comparées aux modèles SFT et ChatGPT. L'absence d'implémentations open-source a posé des défis importants à l'investigation de l'alignement des LLMs. Par conséquent, nous sommes impatients de publier des rapports techniques, des modèles de récompense et des codes PPO.
Des progrès significatifs ont récemment été réalisés dans les applications créatives de grands modèles pré-entraînés pour des tâches en vision 3D, telles que la génération de formes à partir de texte. Cela motive notre investigation sur la manière dont ces modèles pré-entraînés peuvent être utilisés efficacement pour générer des formes 3D à partir d'esquisses, ce qui reste en grande partie un défi ouvert en raison des ensembles de données limités d'esquisses-formes appariées et des niveaux d'abstraction variables dans les esquisses. Nous découvrons que conditionner un modèle génératif 3D sur les caractéristiques (obtenues à partir d'un grand modèle de vision pré-entraîné et figé) de rendus synthétiques pendant l'entraînement nous permet de générer efficacement des formes 3D à partir d'esquisses au moment de l'inférence. Cela suggère que les caractéristiques du grand modèle de vision pré-entraîné portent des signaux sémantiques résilients aux changements de domaine, c'est-à-dire permettant d'utiliser uniquement des rendus RGB, tout en généralisant aux esquisses au moment de l'inférence. Nous menons un ensemble complet d'expériences explorant différents facteurs de conception et démontrons l'efficacité de notre approche simple pour la génération de multiples formes 3D pour chaque esquisse d'entrée, quel que soit leur niveau d'abstraction, sans nécessiter de jeux de données appariés pendant l'entraînement.
Nous présentons Emu, un modèle de fondation multimodal basé sur Transformer, capable de générer de manière fluide des images et des textes dans un contexte multimodal. Ce modèle omnivore peut traiter indifféremment toute entrée de données unimodale ou multimodale (par exemple, des séquences entrelacées d'images, de texte et de vidéo) grâce à un processus d'entraînement autorégressif unique. Dans un premier temps, les signaux visuels sont encodés en embeddings, qui forment, avec les tokens de texte, une séquence d'entrée entrelacée. Emu est ensuite entraîné de bout en bout avec un objectif unifié : classer le prochain token de texte ou régresser le prochain embedding visuel dans la séquence multimodale. Cette polyvalence multimodale permet d'explorer à grande échelle diverses sources de données de pré-entraînement, telles que des vidéos avec des images et du texte entrelacés, des pages web avec des images et du texte entrelacés, ainsi que des paires image-texte et vidéo-texte à l'échelle du web. Emu peut servir d'interface multimodale généraliste pour les tâches de génération d'image à partir de texte et de texte à partir d'image, et prend en charge la génération d'images et de texte en contexte. Sur un large éventail de tâches en zero-shot/few-shot, notamment la légende d'images, la réponse à des questions visuelles, la réponse à des questions vidéo et la génération d'images à partir de texte, Emu démontre des performances exceptionnelles par rapport aux modèles multimodaux de pointe. Des capacités étendues, telles que des assistants multimodaux via le réglage par instruction, sont également démontrées avec des résultats impressionnants.
Dans cet article, nous présentons Semantic-SAM, un modèle universel de segmentation d'images capable de segmenter et de reconnaître tout objet à n'importe quelle granularité souhaitée. Notre modèle offre deux avantages clés : la conscience sémantique et l'abondance de granularité. Pour atteindre la conscience sémantique, nous consolidons plusieurs jeux de données couvrant trois granularités et introduisons une classification découplée pour les objets et leurs parties. Cela permet à notre modèle de capturer des informations sémantiques riches. Pour la capacité multi-granularité, nous proposons un schéma d'apprentissage à choix multiples pendant l'entraînement, permettant à chaque clic de générer des masques à plusieurs niveaux correspondant à plusieurs masques de vérité terrain. Notamment, ce travail représente la première tentative d'entraîner conjointement un modèle sur les jeux de données SA-1B, génériques et de segmentation de parties. Les résultats expérimentaux et les visualisations démontrent que notre modèle atteint avec succès la conscience sémantique et l'abondance de granularité. De plus, la combinaison de l'entraînement sur SA-1B avec d'autres tâches de segmentation, telles que la segmentation panoptique et de parties, conduit à des améliorations de performance. Nous fournirons le code et une démonstration pour une exploration et une évaluation approfondies.
Nous présentons VampNet, une approche de modélisation de tokens acoustiques masqués pour la synthèse, la compression, l'inpainting et la variation musicale. Nous utilisons un calendrier de masquage variable pendant l'entraînement, ce qui nous permet d'échantillonner de la musique cohérente à partir du modèle en appliquant diverses approches de masquage (appelées prompts) lors de l'inférence. VampNet est non-autorégressif, s'appuyant sur une architecture transformer bidirectionnelle qui prend en compte tous les tokens en une seule passe avant. Avec seulement 36 passes d'échantillonnage, VampNet peut générer des formes d'ondes musicales de haute fidélité et cohérentes. Nous montrons qu'en utilisant différents prompts avec VampNet, nous pouvons l'appliquer à des tâches telles que la compression musicale, l'inpainting, l'outpainting, la continuation et le bouclage avec variation (vamping). Correctement prompté, VampNet est capable de maintenir le style, le genre, l'instrumentation et d'autres aspects de haut niveau de la musique. Cette capacité flexible de prompting fait de VampNet un outil puissant de co-création musicale. Le code et des échantillons audio sont disponibles en ligne.
L'intelligence humaine prospère grâce au concept de synergie cognitive, où la collaboration et l'intégration d'informations entre différents processus cognitifs produisent des résultats supérieurs par rapport à des processus cognitifs individuels isolés. Bien que les modèles de langage à grande échelle (LLMs) aient démontré des performances prometteuses en tant qu'agents généraux de résolution de tâches, ils peinent encore face à des tâches nécessitant une expertise approfondie dans un domaine et un raisonnement complexe. Dans ce travail, nous proposons le Solo Performance Prompting (SPP), qui transforme un seul LLM en un synergiste cognitif en engageant une auto-collaboration multi-tours avec plusieurs personnalités. Un synergiste cognitif désigne un agent intelligent qui collabore avec plusieurs esprits, combinant leurs forces et connaissances individuelles, pour améliorer la résolution de problèmes et la performance globale dans des tâches complexes. En identifiant et simulant dynamiquement différentes personnalités en fonction des entrées de tâches, le SPP libère le potentiel de la synergie cognitive dans les LLMs. Nous avons découvert que l'attribution de plusieurs personnalités fines et granulaires dans les LLMs suscite de meilleures capacités de résolution de problèmes par rapport à l'utilisation d'une seule ou d'un nombre fixe de personnalités. Nous évaluons le SPP sur trois tâches complexes : la rédaction créative de trivia, le jeu collaboratif Codenames et les énigmes de grille logique, couvrant à la fois des types de tâches intensives en connaissances et en raisonnement. Contrairement aux travaux précédents, tels que Chain-of-Thought, qui améliorent uniquement les capacités de raisonnement des LLMs, le SPP suscite efficacement les capacités d'acquisition de connaissances internes, réduit les hallucinations et maintient de solides capacités de raisonnement. Le code, les données et les prompts sont disponibles à l'adresse suivante : https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
Nous observons que les grands modèles de langage (LLM) pré-entraînés sont capables de compléter de manière autorégressive des séquences de tokens complexes -- allant de séquences arbitraires générées de manière procédurale par des grammaires hors contexte probabilistes (PCFG), à des motifs spatiaux plus riches trouvés dans le Corpus de Raisonnement Abstrait (ARC), un benchmark d'intelligence générale, présentés sous forme d'art ASCII. Étonnamment, la compétence de complétion de motifs peut être partiellement conservée même lorsque les séquences sont exprimées à l'aide de tokens échantillonnés aléatoirement dans le vocabulaire. Ces résultats suggèrent que, sans entraînement supplémentaire, les LLM peuvent servir de modélisateurs généraux de séquences, guidés par l'apprentissage en contexte. Dans ce travail, nous explorons comment ces capacités en zero-shot peuvent être appliquées à des problèmes en robotique -- de l'extrapolation de séquences de nombres représentant des états dans le temps pour compléter des mouvements simples, à l'incitation du moins au plus de trajectoires conditionnées par des récompenses qui peuvent découvrir et représenter des politiques en boucle fermée (par exemple, un contrôleur stabilisant pour CartPole). Bien que difficile à déployer aujourd'hui pour des systèmes réels en raison de la latence, des limitations de taille de contexte et des coûts de calcul, l'approche consistant à utiliser des LLM pour piloter un contrôle de bas niveau pourrait offrir un aperçu passionnant de la manière dont les motifs parmi les mots pourraient être transférés à des actions.
Un défi dans le développement de systèmes de traitement automatique des langues (TAL) pour les langues du monde consiste à comprendre comment ces systèmes généralisent face aux différences typologiques pertinentes pour des applications réelles. À cette fin, nous proposons M2C, un cadre morphologiquement conscient pour le test comportemental des modèles de TAL. Nous utilisons M2C pour générer des tests qui sondent le comportement des modèles en fonction de caractéristiques linguistiques spécifiques dans 12 langues typologiquement diversifiées. Nous évaluons des modèles de langues de pointe sur les tests générés. Bien que les modèles excellent dans la plupart des tests en anglais, nous mettons en évidence des échecs de généralisation face à des caractéristiques typologiques spécifiques, telles que les expressions temporelles en swahili et les possessifs composés en finnois. Nos résultats motivent le développement de modèles capables de combler ces lacunes.
Les grands modèles de langage (LLMs) ont obtenu un succès remarquable dans le domaine du traitement du langage naturel, permettant une meilleure interaction homme-machine via le langage naturel. Cependant, l'intégration fluide des signaux vocaux dans les LLMs n'a pas été bien explorée. L'architecture "décodeur uniquement" n'a pas non plus été suffisamment étudiée pour les tâches de traitement de la parole. Dans cette recherche, nous présentons Speech-LLaMA, une approche novatrice qui intègre efficacement les informations acoustiques dans les grands modèles de langage basés sur le texte. Notre méthode exploite la Classification Temporelle Connexionniste et un encodeur audio simple pour mapper les caractéristiques acoustiques compressées à l'espace sémantique continu du LLM. De plus, nous explorons davantage l'architecture décodeur uniquement pour les tâches de conversion parole-texte en entraînant un modèle Speech-LLaMA de plus petite taille, initialisé aléatoirement, uniquement à partir de données appariées parole-texte. Nous menons des expériences sur des tâches de traduction parole-texte multilingues et démontrons une amélioration significative par rapport à des bases de référence solides, mettant en évidence les avantages potentiels des modèles décodeur uniquement pour la conversion parole-texte.
Les institutions internationales pourraient jouer un rôle important pour garantir que les systèmes d’IA avancés profitent à l’humanité. Les collaborations internationales peuvent libérer le potentiel de l’IA pour favoriser le développement durable, et la coordination des efforts réglementaires peut réduire les obstacles à l’innovation et à la diffusion des bénéfices. À l’inverse, les capacités potentiellement dangereuses des systèmes d’IA puissants et polyvalents créent des externalités mondiales dans leur développement et leur déploiement, et les efforts internationaux pour promouvoir des pratiques responsables en matière d’IA pourraient aider à gérer les risques qu’ils posent. Ce document identifie un ensemble de fonctions de gouvernance qui pourraient être exercées au niveau international pour relever ces défis, allant du soutien à l’accès aux systèmes d’IA de pointe à l’établissement de normes internationales de sécurité. Il regroupe ces fonctions en quatre modèles institutionnels qui présentent des synergies internes et ont des précédents dans des organisations existantes : 1) une Commission sur l’IA de pointe qui facilite un consensus d’experts sur les opportunités et les risques liés à l’IA avancée, 2) une Organisation de gouvernance de l’IA avancée qui établit des normes internationales pour gérer les menaces mondiales posées par les modèles avancés, soutient leur mise en œuvre et pourrait surveiller la conformité à un futur régime de gouvernance, 3) un Collectif pour l’IA de pointe qui promeut l’accès à l’IA de pointe, et 4) un Projet de sécurité de l’IA qui rassemble les chercheurs et ingénieurs de premier plan pour faire progresser la recherche sur la sécurité de l’IA. Nous explorons l’utilité de ces modèles et identifions des questions ouvertes concernant leur viabilité.
L'objectif de la synthèse de programmes, ou génération de code, est de produire du code exécutable à partir de descriptions données. Récemment, un nombre croissant d'études ont employé l'apprentissage par renforcement (RL) pour améliorer les performances des grands modèles de langage (LLMs) dans le domaine du code. Cependant, ces méthodes RL n'ont utilisé que des cadres de travail hors ligne, limitant ainsi leur exploration de nouveaux espaces d'échantillonnage. De plus, les approches actuelles qui exploitent les signaux des tests unitaires sont relativement simples, ne tenant pas compte des emplacements spécifiques des erreurs dans le code. Pour résoudre ces problèmes, nous avons proposé RLTF, c'est-à-dire l'Apprentissage par Renforcement à partir des Retours de Tests Unitaires, un nouveau cadre RL en ligne avec des retours de tests unitaires multi-granularité pour affiner les LLMs de code. Notre approche génère des données en temps réel pendant l'entraînement et utilise simultanément des signaux de retour fins pour guider le modèle vers la production de code de meilleure qualité. Des expériences approfondies montrent que RLTF atteint des performances de pointe sur les benchmarks APPS et MBPP. Notre code est disponible à l'adresse suivante : https://github.com/Zyq-scut/RLTF.
La cohérence et la fiabilité sont essentielles pour mener des recherches en intelligence artificielle. De nombreux domaines de recherche renommés, tels que la détection d'objets, ont été comparés et validés à l'aide de cadres de référence solides. Après AlphaFold2, la tâche de prédiction de la structure des protéines est entrée dans une nouvelle phase, et de nombreuses méthodes ont été proposées en s'appuyant sur les composants d'AlphaFold2. L'importance d'un cadre de recherche unifié pour la prédiction de la structure des protéines réside dans la mise en œuvre et les benchmarks permettant de comparer de manière cohérente et équitable diverses approches. Pour y parvenir, nous présentons Solvent, un cadre de prédiction de la structure des protéines qui prend en charge des composants significatifs des modèles de pointe sous la forme d'une interface prête à l'emploi. Solvent intègre différents modèles implémentés dans une base de code unifiée et prend en charge l'entraînement et l'évaluation des modèles définis sur le même ensemble de données. Nous avons benchmarké des algorithmes bien connus ainsi que leurs composants et fourni des expériences qui offrent des insights utiles dans le domaine de la modélisation de la structure des protéines. Nous espérons que Solvent augmentera la fiabilité et la cohérence des modèles proposés, tout en améliorant l'efficacité en termes de vitesse et de coûts, ce qui accélérera la recherche sur la modélisation de la prédiction de la structure des protéines. Le code est disponible à l'adresse https://github.com/kakaobrain/solvent, et le projet continuera à être développé.
Nous proposons un système pour réorganiser des objets dans une scène afin d’obtenir une relation de placement objet-scène souhaitée, telle qu’un livre inséré dans une fente ouverte d’une étagère. La chaîne de traitement se généralise à des géométries, poses et agencements nouveaux, tant pour les scènes que pour les objets, et est entraînée à partir de démonstrations pour opérer directement sur des nuages de points 3D. Notre système surmonte les défis liés à l’existence de nombreuses solutions de réorganisation géométriquement similaires pour une scène donnée. En exploitant une procédure d’entraînement itérative de débruitage de pose, nous pouvons ajuster des données de démonstration multimodales et produire des sorties multimodales tout en restant précis et exact. Nous montrons également les avantages de conditionner sur des caractéristiques géométriques locales pertinentes tout en ignorant la structure globale non pertinente qui nuit à la généralisation et à la précision. Nous démontrons notre approche sur trois tâches distinctes de réorganisation qui nécessitent la gestion de la multimodalité et la généralisation sur la forme et la pose des objets, à la fois en simulation et dans le monde réel. Site web du projet, code et vidéos : https://anthonysimeonov.github.io/rpdiff-multi-modal/
La dictée vocale est une modalité de saisie de texte de plus en plus importante. Les systèmes existants qui permettent à la fois la dictée et l'édition par la voix limitent leur langage de commande à des modèles plats invoqués par des mots déclencheurs. Dans ce travail, nous étudions la faisabilité de permettre aux utilisateurs d'interrompre leur dictée avec des commandes d'édition en langage naturel ouvert. Nous introduisons une nouvelle tâche et un nouveau jeu de données, TERTiUS, pour expérimenter avec de tels systèmes. Pour supporter cette flexibilité en temps réel, un système doit segmenter et classer de manière incrémentielle des segments de parole comme étant soit de la dictée, soit des commandes, et interpréter les segments qui sont des commandes. Nous expérimentons l'utilisation de grands modèles de langage pré-entraînés pour prédire le texte édité, ou alternativement, pour prédire un petit programme d'édition de texte. Les expériences montrent un compromis naturel entre la précision du modèle et la latence : un modèle plus petit atteint une précision de l'état final de 30 % avec une latence de 1,3 seconde, tandis qu'un modèle plus grand atteint une précision de l'état final de 55 % avec une latence de 7 secondes.
La téléopération basée sur la vision offre la possibilité de doter les robots d'une intelligence de niveau humain pour interagir physiquement avec l'environnement, tout en ne nécessitant que des capteurs caméra à faible coût. Cependant, les systèmes actuels de téléopération basée sur la vision sont conçus et développés pour un modèle de robot et un environnement de déploiement spécifiques, ce qui limite leur évolutivité à mesure que le nombre de modèles de robots augmente et que la variété des environnements opérationnels s'accroît. Dans cet article, nous proposons AnyTeleop, un système de téléopération unifié et général capable de prendre en charge plusieurs bras, mains, réalités et configurations de caméra au sein d'un même système. Bien que conçu pour offrir une grande flexibilité dans le choix des simulateurs et du matériel réel, notre système parvient tout de même à atteindre des performances remarquables. Pour les expériences en monde réel, AnyTeleop surpasse un système précédent conçu pour un matériel robotique spécifique, avec un taux de réussite plus élevé, en utilisant le même robot. Pour la téléopération en simulation, AnyTeleop conduit à de meilleures performances en apprentissage par imitation, comparé à un système précédent spécialement conçu pour ce simulateur. Page du projet : http://anyteleop.com/.