Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage à contexte étendu (LLMs) actuels peuvent traiter des entrées allant jusqu'à 100 000 tokens, mais peinent à générer des dépassant même une longueur modeste de 2 000 mots. À travers des expériences contrôlées, nous constatons que la longueur effective de génération du modèle est intrinsèquement limitée par les échantillons qu'il a vus lors du réglage supervisé (SFT). En d'autres termes, leur limitation de sortie est due à la rareté des exemples de sorties longues dans les ensembles de données SFT existants. Pour remédier à cela, nous introduisons AgentWrite, un pipeline basé sur des agents qui décompose les tâches de génération ultra-longues en sous-tâches, permettant aux LLMs disponibles sur étagère de générer des sorties cohérentes dépassant 20 000 mots. En exploitant AgentWrite, nous construisons LongWriter-6k, un ensemble de données contenant 6 000 données SFT avec des longueurs de sortie allant de 2k à 32k mots. En intégrant cet ensemble de données dans l'entraînement des modèles, nous parvenons à étendre la longueur de sortie des modèles existants à plus de 10 000 mots tout en maintenant la qualité de la sortie. Nous développons également LongBench-Write, un benchmark complet pour évaluer les capacités de génération ultra-longues. Notre modèle de 9B paramètres, encore amélioré grâce à DPO, atteint des performances de pointe sur ce benchmark, surpassant même des modèles propriétaires beaucoup plus volumineux. En général, notre travail démontre que les LLMs à contexte étendu existants possèdent déjà le potentiel pour une fenêtre de sortie plus large—tout ce dont vous avez besoin est des données avec des sorties étendues lors de l'alignement du modèle pour débloquer cette capacité. Notre code et nos modèles sont disponibles à l'adresse : https://github.com/THUDM/LongWriter.
Nous présentons Imagen 3, un modèle de diffusion latente qui génère des images de haute qualité à partir de descriptions textuelles. Nous décrivons nos évaluations de qualité et de responsabilité. Imagen 3 est préféré aux autres modèles de pointe (SOTA) au moment de l'évaluation. De plus, nous abordons les questions liées à la sécurité et à la représentation, ainsi que les méthodes que nous avons utilisées pour minimiser les risques potentiels de nos modèles.
Les agents de grands modèles de langage (LLM) ont démontré un potentiel considérable pour résoudre des problèmes réels d'ingénierie logicielle (SWE). L'agent open-source le plus avancé en SWE peut résoudre plus de 27 % des problèmes réels sur GitHub dans SWE-Bench Lite. Cependant, ces frameworks d'agents sophistiqués présentent des forces variées, excellant dans certaines tâches tout en sous-performant dans d'autres. Pour pleinement exploiter la diversité de ces agents, nous proposons DEI (Diversity Empowered Intelligence), un framework qui tire parti de leur expertise unique. DEI fonctionne comme un méta-module au-dessus des frameworks d'agents SWE existants, gérant des collectifs d'agents pour améliorer la résolution de problèmes. Les résultats expérimentaux montrent qu'un comité d'agents guidé par DEI est capable de surpasser largement la performance du meilleur agent individuel. Par exemple, un groupe d'agents SWE open-source, avec un taux de résolution individuel maximal de 27,3 % sur SWE-Bench Lite, peut atteindre un taux de résolution de 34,3 % avec DEI, soit une amélioration de 25 %, surpassant ainsi la plupart des solutions propriétaires. Notre groupe le plus performant excelle avec un taux de résolution de 55 %, obtenant le classement le plus élevé sur SWE-Bench Lite. Nos résultats contribuent au corpus croissant de recherches sur les systèmes d'IA collaboratifs et leur potentiel à résoudre des défis complexes en ingénierie logicielle.
La croissance rapide de la littérature scientifique pose des défis importants pour les chercheurs qui s'efforcent de rester à jour avec les dernières avancées dans leurs domaines et d'explorer de nouveaux sujets. Nous présentons OpenResearcher, une plateforme innovante qui exploite les techniques d'Intelligence Artificielle (IA) pour accélérer le processus de recherche en répondant à diverses questions des chercheurs. OpenResearcher est construit sur la base de la Génération Augmentée par Récupération (RAG) pour intégrer des modèles de langage de grande envergure (LLMs) avec des connaissances spécifiques et actualisées dans le domaine. De plus, nous développons divers outils pour OpenResearcher afin de comprendre les requêtes des chercheurs, effectuer des recherches dans la littérature scientifique, filtrer les informations récupérées, fournir des réponses précises et complètes, et auto-affiner ces réponses. OpenResearcher peut utiliser ces outils de manière flexible pour équilibrer efficacité et efficience. En conséquence, OpenResearcher permet aux chercheurs de gagner du temps et d'augmenter leur potentiel à découvrir de nouvelles perspectives et à favoriser des percées scientifiques. Une démo, une vidéo et le code sont disponibles à l'adresse suivante : https://github.com/GAIR-NLP/OpenResearcher.
Le passage à l'échelle des grands modèles de langage (LLMs) a révolutionné leurs capacités dans diverses tâches, mais cette croissance doit s'accompagner de stratégies de calcul efficaces. L'architecture Mixture-of-Experts (MoE) se distingue par sa capacité à augmenter la taille des modèles sans augmenter significativement les coûts d'entraînement. Malgré leurs avantages, les modèles MoE actuels présentent souvent une inefficacité en termes de paramètres. Par exemple, un LLM basé sur MoE pré-entraîné avec 52 milliards de paramètres pourrait offrir des performances comparables à un modèle standard de 6,7 milliards de paramètres. Étant une partie cruciale de MoE, les routeurs actuels dans différentes couches attribuent les tokens de manière indépendante sans exploiter les informations historiques de routage, ce qui peut conduire à des combinaisons token-expert sous-optimales et au problème d'inefficacité des paramètres. Pour atténuer ce problème, nous introduisons le Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE utilise une unité récurrente à porte (GRU) pour établir des dépendances entre les décisions de routage à travers les couches consécutives. Une telle récurrence par couche peut être calculée efficacement en parallèle pour les tokens d'entrée et introduit des coûts négociables. Nos évaluations empiriques approfondies démontrent que les modèles de langage basés sur RMoE surpassent systématiquement un éventail de modèles de référence. De plus, RMoE intègre une nouvelle étape de calcul orthogonale aux méthodes existantes, permettant une compatibilité transparente avec d'autres architectures MoE. Nos analyses attribuent les gains de RMoE à son partage efficace d'informations inter-couches, qui améliore également la sélection et la diversité des experts. Notre code est disponible à l'adresse https://github.com/qiuzh20/RMoE.
Le développement des grands modèles de langage conduit à l'émergence d'un paradigme de pré-entraînement puis d'alignement, dans lequel le modèle est généralement pré-entraîné sur un vaste corpus de texte avant de subir une étape de réglage pour l'aligner sur les préférences humaines ou les tâches en aval. Dans ce travail, nous étudions la relation entre le pré-entraînement et le réglage fin en appliquant ce dernier à plusieurs points de contrôle intermédiaires du modèle pré-entraîné. Nos résultats sur 18 ensembles de données suggèrent que : i) le pré-entraînement continu améliore le modèle de manière latente qui se révèle après le réglage fin ; ii) avec un réglage fin supplémentaire, les ensembles de données pour lesquels le modèle ne démontre pas de capacités initiales bénéficient davantage que ceux où le modèle performe bien dès le stade de pré-entraînement ; iii) bien que le modèle tire un avantage significatif du réglage fin supervisé, il peut oublier des connaissances de domaine précédemment acquises ainsi que les tâches non rencontrées lors du réglage fin ; iv) le modèle présente une forte sensibilité aux prompts d'évaluation après un réglage fin supervisé, mais cette sensibilité peut être atténuée par un pré-entraînement supplémentaire.
La capacité à extraire des abstractions centrées sur les objets à partir de scènes visuelles complexes est fondamentale pour une généralisation de niveau humain. Malgré les progrès significatifs des méthodes d'apprentissage centrées sur les objets, l'apprentissage de représentations centrées sur les objets dans le monde physique en 3D reste un défi crucial. Dans ce travail, nous proposons SlotLifter, un nouveau modèle de radiance centré sur les objets qui aborde conjointement la reconstruction et la décomposition de scènes via un relèvement de caractéristiques guidé par des slots. Une telle conception unifie les représentations d'apprentissage centrées sur les objets et les méthodes de rendu basées sur l'image, offrant des performances de pointe en décomposition de scènes et en synthèse de nouvelles vues sur quatre ensembles de données synthétiques complexes et quatre ensembles de données réels, surpassant largement les méthodes existantes d'apprentissage centré sur les objets en 3D. À travers des études ablatives approfondies, nous démontrons l'efficacité des conceptions de SlotLifter, révélant des insights clés pour des orientations futures potentielles.
Inspirés par l'accent mis par Geoffrey Hinton sur la modélisation générative, "Pour reconnaître les formes, apprenez d'abord à les générer", nous explorons l'utilisation de modèles de diffusion 3D pour la classification d'objets. En exploitant les estimations de densité de ces modèles, notre approche, le Classificateur par Diffusion pour Objets 3D (DC3DO), permet une classification zero-shot de formes 3D sans entraînement supplémentaire. En moyenne, notre méthode obtient une amélioration de 12,5 % par rapport à ses homologues multivues, démontrant un raisonnement multimodal supérieur aux approches discriminatives. DC3DO utilise un modèle de diffusion conditionné par classe entraîné sur ShapeNet, et nous effectuons des inférences sur des nuages de points de chaises et de voitures. Ce travail met en lumière le potentiel des modèles génératifs dans la classification d'objets 3D.
UniT est une approche novatrice pour l'apprentissage de représentations tactiles, utilisant un VQVAE pour apprendre un espace latent compact et servir de représentation tactile. Il utilise des images tactiles obtenues à partir d'un objet simple unique pour entraîner la représentation avec transférabilité et généralisabilité. Cette représentation tactile peut être transférée en zero-shot à diverses tâches en aval, incluant des tâches de perception et l'apprentissage de politiques de manipulation. Notre évaluation sur une tâche d'estimation de pose 3D en main montre que UniT surpasse les méthodes existantes d'apprentissage de représentations visuelles et tactiles. De plus, l'efficacité d'UniT dans l'apprentissage de politiques est démontrée à travers trois tâches du monde réel impliquant des objets manipulés variés et des interactions complexes entre robot, objet et environnement. À travers des expérimentations approfondies, UniT se révèle être une méthode simple à entraîner, plug-and-play, mais largement efficace pour l'apprentissage de représentations tactiles. Pour plus de détails, veuillez consulter notre dépôt open-source https://github.com/ZhengtongXu/UniT et le site web du projet https://zhengtongxu.github.io/unifiedtactile.github.io/.
Les grands modèles de langage (LLMs) ont démontré leur prouesse dans un large éventail de tâches. Cependant, de nombreux LLMs présentent des écarts de performance significatifs entre les langues à ressources élevées et celles à ressources limitées. Pour atténuer ce défi, nous présentons FuxiTranyu, un LLM multilingue open-source, conçu pour répondre aux besoins de la communauté de recherche en matière de capacités multilingues équilibrées et performantes. FuxiTranyu-8B, le modèle de base avec 8 milliards de paramètres, est entraîné à partir de zéro sur un référentiel de données multilingues soigneusement équilibré contenant 600 milliards de tokens couvrant 43 langues naturelles et 16 langages de programmation. En plus du modèle de base, nous développons également deux modèles ajustés par instruction : FuxiTranyu-8B-SFT, affiné sur un ensemble de données d'instructions multilingues diversifié, et FuxiTranyu-8B-DPO, encore amélioré avec DPO sur un ensemble de données de préférences pour une meilleure capacité d'alignement. Des expériences approfondies sur une large gamme de benchmarks multilingues démontrent la performance compétitive de FuxiTranyu par rapport aux LLMs multilingues existants, tels que BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B et Mistral-7B-Instruct. Les analyses d'interprétabilité au niveau des neurones et des représentations suggèrent que FuxiTranyu est capable d'apprendre des représentations multilingues cohérentes à travers différentes langues. Pour promouvoir davantage de recherches sur les LLMs multilingues et leurs mécanismes de fonctionnement, nous publions à la fois les modèles de base et ajustés par instruction de FuxiTranyu, ainsi que 58 points de contrôle de pré-entraînement sur HuggingFace et Github.
La synthétisation de scénarios de films représente un défi complexe, car elle nécessite une compréhension de contextes d'entrée longs et de divers éléments spécifiques au cinéma. Les grands modèles de langage ont montré des avancées significatives dans la synthétisation de documents, mais ils éprouvent souvent des difficultés à traiter des contextes d'entrée étendus. Par ailleurs, bien que les transcriptions de séries télévisées aient fait l'objet d'études récentes, la synthétisation de scénarios de films reste peu explorée. Pour stimuler la recherche dans ce domaine, nous présentons un nouveau jeu de données, MovieSum, dédié à la synthétisation abstraite de scénarios de films. Ce jeu de données comprend 2200 scénarios de films accompagnés de leurs résumés d'intrigue issus de Wikipédia. Nous avons formaté manuellement les scénarios pour représenter leurs éléments structurels. Par rapport aux jeux de données existants, MovieSum possède plusieurs caractéristiques distinctives : (1) Il inclut des scénarios de films, qui sont plus longs que ceux des épisodes de séries télévisées. (2) Il est deux fois plus volumineux que les précédents jeux de données de scénarios de films. (3) Il fournit des métadonnées avec des identifiants IMDb pour faciliter l'accès à des connaissances externes supplémentaires. Nous présentons également les résultats des grands modèles de langage récemment publiés appliqués à la synthétisation sur notre jeu de données, afin d'établir une base de référence détaillée.
Les modèles de langage pré-entraînés (LLM) ont démontré des capacités substantielles dans une gamme de tâches conventionnelles de traitement du langage naturel (NLP), telles que la synthèse et la reconnaissance d'entités. Dans cet article, nous explorons l'application des LLM à la génération de séquences protéiques de haute qualité. Plus précisément, nous adoptons une série de LLM pré-entraînés, incluant Mistral-7B1, Llama-2-7B2, Llama-3-8B3 et gemma-7B4, pour produire des séquences protéiques valides. Tous ces modèles sont accessibles au public. Contrairement aux travaux précédents dans ce domaine, notre approche utilise un ensemble de données relativement petit comprenant 42 000 séquences protéiques humaines distinctes. Nous réentraînons ces modèles pour traiter des données liées aux protéines, garantissant la génération de structures protéiques biologiquement réalisables. Nos résultats montrent que même avec des données limitées, les modèles adaptés présentent une efficacité comparable à celle des modèles établis axés sur les protéines, tels que les variantes de ProGen, ProtGPT2 et ProLLaMA, qui ont été entraînés sur des millions de séquences protéiques. Pour valider et quantifier la performance de nos modèles, nous menons des analyses comparatives en utilisant des métriques standard telles que pLDDT, RMSD, TM-score et REU. De plus, nous nous engageons à rendre publiques les versions entraînées des quatre modèles, favorisant ainsi une plus grande transparence et collaboration dans le domaine de la biologie computationnelle.
Pour les humains comme pour les robots, le sens du toucher, connu sous le nom de perception tactile, est essentiel pour accomplir des tâches de manipulation impliquant des contacts fréquents. Trois défis majeurs dans la perception tactile robotique sont : 1) l'interprétation des signaux des capteurs, 2) la génération de signaux dans des scénarios nouveaux, et 3) l'apprentissage de politiques basées sur les capteurs. Pour les capteurs visuo-tactiles, l'interprétation a été facilitée par leur relation étroite avec les capteurs visuels (par exemple, les caméras RGB). Cependant, la génération reste difficile, car les capteurs visuo-tactiles impliquent généralement des contacts, des déformations, un éclairage et une imagerie, tous coûteux à simuler ; par conséquent, l'apprentissage de politiques a été problématique, car la simulation ne peut pas être exploitée pour la collecte de données à grande échelle. Nous présentons TacSL (taxel), une bibliothèque pour la simulation et l'apprentissage de capteurs visuo-tactiles basée sur GPU. TacSL peut être utilisée pour simuler des images visuo-tactiles et extraire des distributions de forces de contact plus de 200 fois plus rapidement que l'état de l'art précédent, le tout au sein du simulateur largement utilisé Isaac Gym. De plus, TacSL fournit une boîte à outils d'apprentissage contenant plusieurs modèles de capteurs, des environnements d'entraînement intensifs en contacts, et des algorithmes en ligne/hors ligne qui peuvent faciliter l'apprentissage de politiques pour des applications de transfert simulation-réalité. Sur le plan algorithmique, nous introduisons un nouvel algorithme d'apprentissage par renforcement en ligne appelé distillation acteur-critique asymétrique (\sysName), conçu pour apprendre efficacement et de manière efficiente des politiques basées sur le toucher en simulation, qui peuvent être transférées dans le monde réel. Enfin, nous démontrons l'utilité de notre bibliothèque et de nos algorithmes en évaluant les avantages de la distillation et de la perception multimodale pour les tâches de manipulation riches en contacts, et surtout, en réalisant un transfert simulation-réalité. Les vidéos supplémentaires et les résultats sont disponibles à l'adresse https://iakinola23.github.io/tacsl/.
Les modèles de génération d'images à partir de texte basés sur la diffusion ont considérablement fait progresser le domaine de la synthèse de contenu artistique. Cependant, les méthodes actuelles de stylisation de portraits nécessitent généralement soit un ajustement fin du modèle basé sur des exemples, soit l'utilisation de l'inversion DDIM pour ramener les images à l'espace de bruit, deux approches qui ralentissent substantiellement le processus de génération d'images. Pour surmonter ces limitations, cet article présente un cadre de stylisation de portraits sans inversion basé sur des modèles de diffusion, qui réalise la fusion des caractéristiques de contenu et de style en seulement quatre étapes d'échantillonnage. Nous avons observé que les modèles de cohérence latente utilisant la distillation de cohérence peuvent extraire efficacement des caractéristiques de cohérence représentatives à partir d'images bruitées. Pour mélanger les caractéristiques de cohérence extraites des images de contenu et de style, nous introduisons une technique de contrôle d'attention d'amélioration de style qui fusionne minutieusement les caractéristiques de contenu et de style dans l'espace d'attention de l'image cible. De plus, nous proposons une stratégie de fusion de caractéristiques pour amalgamer les caractéristiques redondantes dans les caractéristiques de cohérence, réduisant ainsi la charge computationnelle du contrôle d'attention. Des expériences approfondies ont validé l'efficacité de notre cadre proposé pour améliorer l'efficacité et la fidélité de la stylisation. Le code est disponible à l'adresse https://github.com/liujin112/ZePo.
Un système général d'anonymisation des locuteurs basé sur le désentrelacement sépare typiquement la parole en caractéristiques de contenu, de locuteur et de prosodie à l'aide d'encodeurs individuels. Cet article explore comment adapter un tel système lorsqu'un nouvel attribut de parole, par exemple l'émotion, doit être préservé de manière plus importante. Bien que les systèmes existants soient efficaces pour anonymiser les embeddings de locuteurs, ils ne sont pas conçus pour préserver l'émotion. Deux stratégies sont examinées pour cela. Premièrement, nous montrons que l'intégration d'embeddings d'émotion provenant d'un encodeur d'émotion pré-entraîné peut aider à préserver les indices émotionnels, bien que cette approche compromette légèrement la protection de la vie privée. Alternativement, nous proposons une stratégie de compensation de l'émotion comme étape de post-traitement appliquée aux embeddings de locuteurs anonymisés. Cela masque l'identité du locuteur d'origine et réintroduit les traits émotionnels perdus lors de l'anonymisation des embeddings de locuteurs. Plus précisément, nous modélisons l'attribut d'émotion en utilisant des machines à vecteurs de support pour apprendre des frontières distinctes pour chaque émotion. Lors de l'inférence, l'embedding du locuteur d'origine est traité de deux manières : premièrement, par un indicateur d'émotion pour prédire l'émotion et sélectionner avec précision la SVM correspondante à l'émotion ; deuxièmement, par un anonymiseur de locuteur pour masquer les caractéristiques du locuteur. L'embedding du locuteur anonymisé est ensuite modifié le long de la frontière SVM correspondante vers une direction émotionnelle améliorée pour sauvegarder les indices émotionnels. Les stratégies proposées sont également censées être utiles pour adapter un système général d'anonymisation des locuteurs basé sur le désentrelacement afin de préserver d'autres attributs paralinguistiques cibles, avec un potentiel pour une gamme de tâches en aval.