Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce rapport présente la série Qwen2, la dernière addition à nos grands modèles de langage et grands modèles multimodaux. Nous publions une suite complète de modèles de langage de base et ajustés par instruction, couvrant une plage de paramètres de 0,5 à 72 milliards, incluant des modèles denses et un modèle de type Mixture-of-Experts. Qwen2 surpasse la plupart des modèles open-weight précédents, y compris son prédécesseur Qwen1.5, et affiche des performances compétitives par rapport aux modèles propriétaires sur divers benchmarks en compréhension du langage, génération, compétence multilingue, codage, mathématiques et raisonnement. Le modèle phare, Qwen2-72B, démontre des performances remarquables : 84,2 sur MMLU, 37,9 sur GPQA, 64,6 sur HumanEval, 89,5 sur GSM8K, et 82,4 sur BBH en tant que modèle de langage de base. La variante ajustée par instruction, Qwen2-72B-Instruct, atteint 9,1 sur MT-Bench, 48,1 sur Arena-Hard, et 35,7 sur LiveCodeBench. De plus, Qwen2 montre des capacités multilingues robustes, maîtrisant environ 30 langues, dont l'anglais, le chinois, l'espagnol, le français, l'allemand, l'arabe, le russe, le coréen, le japonais, le thaï, le vietnamien, et bien d'autres, soulignant sa polyvalence et sa portée mondiale. Pour favoriser l'innovation communautaire et l'accessibilité, nous avons rendu les poids des modèles Qwen2 librement disponibles sur Hugging Face1 et ModelScope2, ainsi que les matériaux supplémentaires, y compris des exemples de code, sur GitHub3. Ces plateformes incluent également des ressources pour la quantification, le fine-tuning et le déploiement, facilitant une large gamme d'applications et de recherches.
Les grands modèles de langage (LLM) démontrent des capacités remarquables dans la compréhension et la génération du langage naturel. Cependant, ces modèles peuvent involontairement mémoriser des informations privées, posant des risques significatifs pour la vie privée. Cette étude aborde le défi de permettre aux LLM de protéger les données privées d'individus spécifiques sans nécessiter un réentraînement complet. Nous proposons \return, un ensemble de données Real-world pErsonal daTa UnleaRNing, comprenant 2 492 individus issus de Wikipédia avec des paires question-réponse associées, pour évaluer les méthodes de désapprentissage machine (MU) dans un scénario réaliste de protection des données personnelles. De plus, nous introduisons le Name-Aware Unlearning Framework (NAUF) pour la protection de la vie privée, qui permet au modèle d'apprendre quelles informations d'individus doivent être protégées sans affecter sa capacité à répondre à des questions concernant d'autres individus non liés. Nos expériences approfondies démontrent que NAUF atteint un score de désapprentissage moyen de pointe, surpassant la meilleure méthode de référence de 5,65 points, protégeant efficacement les données personnelles des individus cibles tout en préservant les capacités générales du modèle.
Les travaux récents explorent les lois d'échelle dans le domaine de l'IA incarnée. Compte tenu des coûts prohibitifs liés à la collecte de données du monde réel, nous pensons que le paradigme Simulation-à-Réel (Sim2Real) constitue une étape cruciale pour l'échelle d'apprentissage des modèles incarnés. Cet article présente le projet GRUtopia, la première société interactive 3D simulée conçue pour divers robots. Il propose plusieurs avancées : (a) Le jeu de données de scènes, GRScenes, comprend 100 000 scènes interactives finement annotées, qui peuvent être librement combinées pour créer des environnements à l'échelle d'une ville. Contrairement aux travaux précédents axés principalement sur les environnements domestiques, GRScenes couvre 89 catégories de scènes variées, comblant ainsi le manque d'environnements orientés services où les robots généralistes seraient initialement déployés. (b) GRResidents, un système de Personnages Non-Joueurs (PNJ) piloté par un Modèle de Langage de Grande Taille (LLM), responsable des interactions sociales, de la génération de tâches et de leur attribution, simulant ainsi des scénarios sociaux pour les applications d'IA incarnée. (c) Le benchmark, GRBench, prend en charge divers robots mais se concentre sur les robots à pattes comme agents principaux et propose des tâches modérément complexes impliquant la Navigation Locale d'Objets, la Navigation Locale Sociale et la Manipulation Locale. Nous espérons que ce travail pourra atténuer la pénurie de données de haute qualité dans ce domaine et offrir une évaluation plus complète de la recherche en IA incarnée. Le projet est disponible à l'adresse https://github.com/OpenRobotLab/GRUtopia.
Les évaluations actuelles des grands modèles de langage (LLM) négligent souvent le non-déterminisme, se concentrant généralement sur une seule sortie par exemple. Cela limite notre compréhension de la variabilité des performances des LLM dans des applications réelles. Notre étude aborde cette problématique en explorant des questions clés concernant les différences de performances entre le décodage glouton et l'échantillonnage, en identifiant la cohérence des benchmarks par rapport au non-déterminisme, et en examinant les comportements uniques des modèles. À travers des expériences approfondies, nous observons que le décodage glouton surpasse généralement les méthodes d'échantillonnage pour la plupart des tâches évaluées. Nous constatons également une performance cohérente à travers différentes tailles de LLM et méthodes d'alignement, notant que l'alignement peut réduire la variance de l'échantillonnage. De plus, notre approche d'échantillonnage best-of-N démontre que des LLM plus petits peuvent égaler ou surpasser des modèles plus grands comme GPT-4-Turbo, mettant en lumière le potentiel inexploité des LLM de petite taille. Cette recherche montre l'importance de prendre en compte le non-déterminisme dans les évaluations des LLM et fournit des insights pour le développement et l'évaluation futurs des LLM.
Nous présentons Q-Sparse, une approche simple mais efficace pour entraîner des modèles de langage de grande taille (LLMs) à activation parcimonieuse. Q-Sparse permet une parcimonie totale des activations dans les LLMs, ce qui peut apporter des gains significatifs en efficacité lors de l'inférence. Cela est réalisé en appliquant une sparsification top-K aux activations et l'estimateur direct (straight-through-estimator) à l'entraînement. Les principaux résultats de ce travail sont : (1) Q-Sparse peut atteindre des résultats comparables à ceux des LLMs de référence tout en étant beaucoup plus efficace lors de l'inférence ; (2) Nous présentons une loi d'échelle optimale pour l'inférence des LLMs à activation parcimonieuse ; (3) Q-Sparse est efficace dans différents contextes, y compris l'entraînement à partir de zéro, la poursuite de l'entraînement de LLMs existants et le réglage fin ; (4) Q-Sparse fonctionne à la fois pour les LLMs en précision complète et pour les LLMs à 1 bit (par exemple, BitNet b1.58). En particulier, la synergie entre BitNet b1.58 et Q-Sparse (qui peut être équipé de MoE) fournit la pierre angulaire et une voie claire pour révolutionner l'efficacité, y compris les coûts et la consommation d'énergie, des futurs LLMs.
Alors que les modèles de langage de grande taille (LLMs) progressent, il devient plus difficile d'évaluer de manière fiable leur production en raison des coûts élevés de l'évaluation humaine. Pour faire avancer la recherche vers de meilleurs auto-évaluateurs de LLMs, nous présentons FLAMe, une famille de modèles fondamentaux d'auto-évaluation de grande taille. FLAMe est entraîné sur notre vaste et diversifiée collection de plus de 100 tâches d'évaluation de qualité, comprenant plus de 5 millions de jugements humains, soigneusement sélectionnés et standardisés à partir d'évaluations humaines publiées dans des recherches antérieures. FLAMe améliore significativement la généralisation à une grande variété de tâches réservées, surpassant les LLMs entraînés sur des données propriétaires comme GPT-4 et Claude-3 sur de nombreuses tâches. Nous montrons que FLAMe peut également servir de point de départ puissant pour un affinage ultérieur en aval, en utilisant l'évaluation de modélisation de récompense comme étude de cas (FLAMe-RM). Notamment, sur RewardBench, notre modèle FLAMe-RM-24B (avec une précision de 87,8%) est le modèle génératif le plus performant entraîné exclusivement sur des données sous licence permissive, surpassant à la fois GPT-4-0125 (85,9%) et GPT-4o (84,7%). De plus, nous explorons une approche plus efficace sur le plan informatique en utilisant une nouvelle stratégie d'affinage par patch de queue pour optimiser notre mélange multitâche FLAMe pour l'évaluation de modélisation de récompense (FLAMe-Opt-RM), offrant des performances compétitives sur RewardBench tout en nécessitant environ 25 fois moins de points de données d'entraînement. Globalement, nos variantes de FLAMe surpassent tous les modèles LLM-as-a-Judge propriétaires populaires que nous considérons sur 8 des 12 benchmarks d'évaluation d'auto-évaluateurs, englobant 53 tâches d'évaluation de qualité, y compris RewardBench et LLM-AggreFact. Enfin, notre analyse révèle que FLAMe est significativement moins biaisé que ces modèles LLM-as-a-Judge sur le benchmark de biais d'auto-évaluateur CoBBLEr, tout en identifiant efficacement les réponses de haute qualité pour la génération de code.
Pouvons-nous générer une politique de contrôle pour un agent en utilisant une seule démonstration de comportements souhaités comme prompt, aussi facilement que créer une image à partir d'une description textuelle ? Dans cet article, nous présentons Make-An-Agent, un nouveau générateur de paramètres de politique qui exploite la puissance des modèles de diffusion conditionnelle pour la génération de comportements en politiques. Guidé par des embeddings de comportement qui encodent les informations de trajectoire, notre générateur de politiques synthétise des représentations latentes de paramètres, qui peuvent ensuite être décodées en réseaux de politiques. Entraîné sur des points de contrôle de réseaux de politiques et leurs trajectoires correspondantes, notre modèle de génération démontre une polyvalence et une scalabilité remarquables sur plusieurs tâches, ainsi qu'une forte capacité de généralisation sur des tâches inédites pour produire des politiques performantes avec seulement quelques démonstrations en entrée. Nous illustrons son efficacité et son efficience dans divers domaines et tâches, incluant des objectifs variés, des comportements différents, et même à travers différents manipulateurs robotiques. Au-delà de la simulation, nous déployons directement les politiques générées par Make-An-Agent sur des robots réels pour des tâches de locomotion.
Bien que les modèles de diffusion texte-image aient démontré des résultats de pointe en synthèse d'images, leur efficacité dans les applications en aval reste à prouver. Des travaux antérieurs ont proposé de générer des données pour l'entraînement de classificateurs d'images en cas d'accès limité à des données réelles. Cependant, ces méthodes peinent à générer des images conformes à la distribution cible ou à représenter des caractéristiques fines, limitant ainsi la généralisation des modèles de classification entraînés sur des ensembles de données synthétiques. Nous proposons DataDream, un cadre pour synthétiser des ensembles de données de classification qui représentent plus fidèlement la distribution des données réelles lorsqu'ils sont guidés par quelques exemples des classes cibles. DataDream affine les poids LoRA pour le modèle de génération d'images sur les quelques images réelles avant de générer les données d'entraînement à l'aide du modèle adapté. Nous affinons ensuite les poids LoRA pour CLIP en utilisant les données synthétiques afin d'améliorer la classification d'images en aval par rapport aux approches précédentes sur une grande variété de jeux de données. Nous démontrons l'efficacité de DataDream à travers des expériences approfondies, surpassant la précision de classification de pointe avec peu de données sur 7 des 10 jeux de données, tout en étant compétitif sur les 3 autres. De plus, nous fournissons des insights sur l'impact de divers facteurs, tels que le nombre d'images réelles et générées ainsi que le calcul d'affinage sur la performance du modèle. Le code est disponible à l'adresse https://github.com/ExplainableML/DataDream.
La génération vidéo-vers-audio (V2A) exploite les caractéristiques visuelles d'une vidéo pour produire des sons plausibles correspondant à la scène. Il est crucial que les attaques sonores générées soient synchronisées avec les actions visuelles associées, sans quoi des artefacts de synchronisation non naturels apparaissent. Les travaux récents ont exploré l'évolution des générateurs de sons conditionnés d'abord sur des images fixes, puis sur des caractéristiques vidéo, en se concentrant sur la qualité et la correspondance sémantique tout en négligeant la synchronisation, ou en sacrifiant une partie de la qualité pour améliorer uniquement la synchronisation. Dans ce travail, nous proposons un modèle génératif V2A, nommé MaskVAT, qui interconnecte un codec audio général haute qualité en bande complète avec un modèle génératif masqué séquence-à-séquence. Cette combinaison permet de modéliser simultanément une haute qualité audio, une correspondance sémantique et une synchronisation temporelle. Nos résultats montrent qu'en combinant un codec haute qualité avec des caractéristiques audio-visuelles pré-entraînées appropriées et une structure parallèle séquence-à-séquence, nous parvenons à produire des résultats hautement synchronisés tout en restant compétitifs avec l'état de l'art des modèles génératifs audio non basés sur un codec. Des exemples de vidéos et de sons générés sont disponibles à l'adresse https://maskvat.github.io.
Nous présentons une nouvelle famille de modèles de prédiction vidéo conçus pour supporter des tâches de contrôle en aval. Nous appelons ces modèles des modèles d'occupation vidéo (VOCs). Les VOCs opèrent dans un espace latent compact, évitant ainsi la nécessité de faire des prédictions sur des pixels individuels. Contrairement aux modèles du monde en espace latent précédents, les VOCs prédisent directement la distribution actualisée des états futurs en une seule étape, évitant ainsi le besoin de déroulements multi-étapes. Nous montrons que ces deux propriétés sont bénéfiques lors de la construction de modèles prédictifs de vidéo pour une utilisation dans des tâches de contrôle en aval. Le code est disponible à l'adresse suivante : https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.
Les workflows de science des données et d'ingénierie s'étendent souvent sur plusieurs étapes, du stockage à l'orchestration, en utilisant des outils comme BigQuery, dbt et Airbyte. Alors que les modèles de langage visuel (VLMs) progressent dans la compréhension multimodale et la génération de code, les agents basés sur des VLMs pourraient potentiellement automatiser ces workflows en générant des requêtes SQL, du code Python et des opérations d'interface graphique (GUI). Cette automatisation peut améliorer la productivité des experts tout en démocratisant l'accès à l'analyse de données à grande échelle. Dans cet article, nous présentons Spider2-V, le premier benchmark d'agents multimodaux axé sur les workflows professionnels de science des données et d'ingénierie, comprenant 494 tâches issues du monde réel dans des environnements informatiques authentiques et intégrant 20 applications professionnelles de niveau entreprise. Ces tâches, dérivées de cas d'utilisation réels, évaluent la capacité d'un agent multimodal à exécuter des tâches liées aux données en écrivant du code et en gérant l'interface graphique dans des systèmes logiciels de données d'entreprise. Pour équilibrer une simulation réaliste avec la simplicité de l'évaluation, nous consacrons un effort significatif à développer des configurations automatiques pour la mise en place des tâches et à élaborer soigneusement des métriques d'évaluation pour chaque tâche. De plus, nous complétons les agents multimodaux avec une documentation complète de ces systèmes logiciels de données d'entreprise. Notre évaluation empirique révèle que les agents basés sur les LLM/VLM de pointe actuels ne parviennent pas à automatiser de manière fiable l'ensemble des workflows de données (14,0 % de réussite). Même avec un guidage étape par étape, ces agents sous-performent dans les tâches nécessitant des actions d'interface graphique fines et riches en connaissances (16,2 %) et impliquant des espaces de travail hébergés dans le cloud (10,6 %). Nous espérons que Spider2-V ouvrira la voie à des agents multimodaux autonomes pour transformer l'automatisation des workflows de science des données et d'ingénierie. Notre code et nos données sont disponibles à l'adresse https://spider2-v.github.io.
Il existe un optimisme généralisé selon lequel les modèles de langage de pointe (LLMs) et les systèmes augmentés par LLM ont le potentiel d'accélérer rapidement les découvertes scientifiques dans diverses disciplines. Aujourd'hui, de nombreux benchmarks existent pour mesurer les connaissances et le raisonnement des LLM sur des questions scientifiques de type manuel, mais peu, voire aucun, sont conçus pour évaluer la performance des modèles de langage sur des tâches pratiques nécessaires à la recherche scientifique, telles que la recherche documentaire, la planification de protocoles et l'analyse de données. Pour contribuer à la création de tels benchmarks, nous présentons le Language Agent Biology Benchmark (LAB-Bench), un vaste ensemble de données comprenant plus de 2 400 questions à choix multiples pour évaluer les systèmes d'IA sur une gamme de compétences pratiques en recherche biologique, incluant la mémorisation et le raisonnement sur la littérature, l'interprétation de figures, l'accès et la navigation dans les bases de données, ainsi que la compréhension et la manipulation de séquences d'ADN et de protéines. De manière significative, contrairement aux benchmarks scientifiques précédents, nous estimons qu'un système d'IA capable d'obtenir des scores élevés de manière constante sur les tâches plus difficiles de LAB-Bench pourrait servir d'assistant utile aux chercheurs dans des domaines tels que la recherche documentaire et le clonage moléculaire. En tant qu'évaluation initiale des capacités émergentes des modèles de langage de pointe sur les tâches scientifiques, nous mesurons la performance de plusieurs d'entre eux sur notre benchmark et rapportons les résultats en comparaison avec des chercheurs experts en biologie. Nous continuerons à mettre à jour et à étendre LAB-Bench au fil du temps, et nous espérons qu'il servira d'outil utile dans le développement de systèmes de recherche automatisés à l'avenir. Un sous-ensemble public de LAB-Bench est disponible à l'adresse suivante : https://huggingface.co/datasets/futurehouse/lab-bench
L'apprentissage par transfert efficace en paramètres (PETL) est devenu un domaine de recherche florissant pour adapter les grands modèles pré-entraînés à des tâches en aval, réduisant considérablement le nombre de paramètres à entraîner tout en faisant face aux défis de mémoire lors du réglage fin. Pour y remédier, les séries efficaces en mémoire (METL) évitent de propager les gradients à travers le grand modèle de base. Cependant, elles compromettent en s'appuyant exclusivement sur des sorties intermédiaires gelées et en limitant l'exploration exhaustive des connaissances antérieures des modèles pré-entraînés. De plus, la dépendance et la redondance entre les caractéristiques inter-couches sont souvent négligées, ce qui submerge des représentations plus discriminantes et crée un écart de performance inhérent (par rapport aux méthodes PETL conventionnelles). Par conséquent, nous proposons une stratégie METL innovante appelée SHERL pour les scénarios à ressources limitées, qui découple l'adaptation entière en deux processus successifs et complémentaires. Dans la première étape, les sorties intermédiaires sont consolidées via une opération anti-redondance, améliorant leur compatibilité pour les interactions ultérieures ; ainsi, dans la deuxième étape, l'utilisation minimale des dernières couches pré-entraînées peut atténuer la demande maximale en mémoire et réguler ces caractéristiques assez flexibles en représentations plus adaptatives et puissantes pour de nouveaux domaines. Des ablations approfondies sur des tâches visuelles et linguistiques ainsi que sur des tâches purement linguistiques montrent que SHERL combine les forces des techniques efficaces en paramètres et en mémoire, performant à égalité ou mieux sur diverses architectures avec une mémoire réduite lors du réglage fin. Notre code est disponible publiquement à l'adresse : https://github.com/Paranioar/SHERL.
L'effet de renforcement mutuel (Mutual Reinforcement Effect, MRE) représente une voie prometteuse dans la recherche sur l'extraction d'informations et le multitâche. Cependant, son applicabilité a été limitée en raison de la disponibilité exclusive de jeux de données MRE mix en japonais, restreignant ainsi une exploration approfondie par la communauté de recherche mondiale. Pour remédier à cette limitation, nous introduisons un jeu de données MRE multilingue (Multilingual MRE mix, MMM) qui englobe 21 sous-ensembles de données en anglais, japonais et chinois. Dans cet article, nous proposons également une méthode de traduction de jeux de données assistée par des modèles de langage de grande taille (Large Language Models, LLMs), qui réduit considérablement le temps d'annotation manuelle nécessaire à la construction des jeux de données en exploitant les LLMs pour traduire les jeux de données japonais originaux. De plus, nous avons enrichi le jeu de données en y intégrant des tâches de reconnaissance d'entités nommées (Named Entity Recognition, NER) en domaine ouvert et de classification de phrases. En utilisant ce jeu de données élargi, nous avons développé un cadre d'entrée-sortie unifié pour entraîner un modèle de langage de grande taille dédié à l'extraction d'informations en domaine ouvert (Open-domain Information Extraction Large Language Model, OIELLM). Le modèle OIELLM démontre sa capacité à traiter efficacement les nouveaux jeux de données MMM, affichant des améliorations significatives en termes de performance.
La plupart des grands modèles de langage (LLM) actuellement déployés subissent un entraînement continu ou un affinage supplémentaire. En revanche, la majorité des recherches sur les mécanismes internes des LLM se concentrent sur des modèles à un instant donné (la fin du pré-entraînement), soulevant la question de savoir si leurs résultats se généralisent à des contextes réels. Les études existantes sur les mécanismes au fil du temps se focalisent sur des modèles encodeurs uniquement ou des modèles simplifiés, qui diffèrent significativement de la plupart des modèles déployés. Dans cette étude, nous suivons l'émergence et l'évolution des mécanismes des modèles, opérationnalisés sous forme de circuits, au cours de l'entraînement sur 300 milliards de tokens dans des LLM décodeurs uniquement, avec des modèles allant de 70 millions à 2,8 milliards de paramètres. Nous constatons que les capacités des tâches et les composants fonctionnels qui les soutiennent émergent de manière cohérente à des comptes de tokens similaires, quelle que soit l'échelle. De plus, bien que ces composants puissent être implémentés par différentes têtes d'attention au fil du temps, l'algorithme global qu'ils mettent en œuvre reste inchangé. Étonnamment, ces algorithmes ainsi que les types de composants impliqués peuvent se répliquer à travers différentes échelles de modèles. Ces résultats suggèrent que les analyses de circuits effectuées sur des petits modèles à la fin du pré-entraînement peuvent fournir des insights qui restent pertinents après un pré-entraînement supplémentaire et à travers différentes échelles de modèles.
Afin d'améliorer la qualité des vidéos synthétisées, une méthode prédominante consiste actuellement à réentraîner un modèle de diffusion expert, puis à mettre en œuvre un processus de bruitage-débruitage pour affiner les résultats. Malgré les coûts d'entraînement significatifs, maintenir la cohérence du contenu entre les vidéos originales et améliorées reste un défi majeur. Pour relever ce défi, nous proposons une nouvelle formulation qui prend en compte à la fois la qualité visuelle et la cohérence du contenu. La cohérence du contenu est assurée par une fonction de perte proposée qui préserve la structure de l'entrée, tandis que la qualité visuelle est améliorée en exploitant le processus de débruitage des modèles de diffusion préentraînés. Pour résoudre ce problème d'optimisation formulé, nous avons développé une stratégie d'optimisation du bruit plug-and-play, appelée Calibration du Bruit. En affinant le bruit initial aléatoire à travers quelques itérations, le contenu de la vidéo originale peut être largement préservé, et l'effet d'amélioration montre une nette progression. Des expériences approfondies ont démontré l'efficacité de la méthode proposée.