Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce rapport, nous présentons la série Qwen2.5-Coder, une mise à niveau significative de son prédécesseur, CodeQwen1.5. Cette série comprend deux modèles : Qwen2.5-Coder-1.5B et Qwen2.5-Coder-7B. En tant que modèle spécifique au code, Qwen2.5-Coder est construit sur l'architecture Qwen2.5 et continue d'être pré-entraîné sur un vaste corpus de plus de 5,5 billions de jetons. Grâce à un nettoyage minutieux des données, à une génération de données synthétiques évolutive et à un mélange équilibré des données, Qwen2.5-Coder démontre d'impressionnantes capacités de génération de code tout en conservant une polyvalence générale. Le modèle a été évalué sur un large éventail de tâches liées au code, atteignant des performances de pointe (SOTA) sur plus de 10 références, y compris la génération de code, l'achèvement, le raisonnement et la réparation, surpassant systématiquement des modèles plus grands de la même taille. Nous pensons que la sortie de la série Qwen2.5-Coder repoussera non seulement les limites de la recherche en intelligence du code, mais encouragera également, grâce à sa licence permissive, une adoption plus large par les développeurs dans des applications du monde réel.
Nous présentons la série Qwen2-VL, une mise à niveau avancée des modèles précédents Qwen-VL qui redéfinit l'approche conventionnelle de résolution prédéterminée dans le traitement visuel. Qwen2-VL introduit le mécanisme de Résolution Dynamique Naïve, qui permet au modèle de traiter dynamiquement des images de résolutions variables en différents nombres de jetons visuels. Cette approche permet au modèle de générer des représentations visuelles plus efficaces et précises, se rapprochant étroitement des processus perceptifs humains. Le modèle intègre également l'Incorporation de Position Rotative Multimodale (M-RoPE), facilitant la fusion efficace des informations de position à travers le texte, les images et les vidéos. Nous utilisons un paradigme unifié pour traiter à la fois les images et les vidéos, améliorant les capacités de perception visuelle du modèle. Pour explorer le potentiel des grands modèles multimodaux, Qwen2-VL étudie les lois d'échelle pour les grands modèles vision-langage (LVLMs). En mettant à l'échelle à la fois la taille du modèle - avec des versions à 2B, 8B et 72B de paramètres - et la quantité de données d'entraînement, la série Qwen2-VL atteint des performances hautement compétitives. Notamment, le modèle Qwen2-VL-72B obtient des résultats comparables à des modèles de premier plan tels que GPT-4o et Claude3.5-Sonnet sur divers benchmarks multimodaux, surpassant d'autres modèles généralistes. Le code est disponible sur https://github.com/QwenLM/Qwen2-VL.
Une compréhension textuelle étendue et un apprentissage en contexte nécessitent des modèles linguistiques qui exploitent des contextes de document complets. En raison des défis de mise en œuvre liés à l'entraînement direct de modèles à long contexte, de nombreuses méthodes ont été proposées pour étendre les modèles afin de gérer de longs contextes. Cependant, en raison des différences dans les données et les classes de modèles, il a été difficile de comparer ces approches, ce qui a conduit à une incertitude quant à la manière d'évaluer les performances à long contexte et de savoir si elles diffèrent de l'évaluation standard. Nous mettons en œuvre un protocole contrôlé pour les méthodes d'extension avec une évaluation standardisée, en utilisant des modèles de base et des données d'extension cohérents. Notre étude apporte plusieurs éclairages sur le comportement à long contexte. Tout d'abord, nous réaffirmons le rôle critique de la perplexité en tant qu'indicateur de performance polyvalent même dans les tâches à contexte plus long. Deuxièmement, nous constatons que les méthodes d'attention approximative actuelles sous-performent systématiquement dans les tâches à long contexte. Enfin, nous confirmons que les méthodes de fine-tuning exactes sont généralement efficaces dans la plage de leur extension, tandis que l'extrapolation reste difficile. Tous les codes sources, modèles et points de contrôle seront mis à disposition en open source, favorisant la transparence et facilitant de nouvelles recherches dans ce domaine critique du développement de l'IA.
La chaîne de pensée (CoT) via incitation est la méthode de facto pour solliciter les capacités de raisonnement des grands modèles de langage (LLM). Mais pour quels types de tâches ce "penser" supplémentaire est-il vraiment utile ? Pour analyser cela, nous avons mené une méta-analyse quantitative couvrant plus de 100 articles utilisant CoT et avons réalisé nos propres évaluations sur 20 ensembles de données à travers 14 modèles. Nos résultats montrent que CoT apporte des avantages de performance significatifs principalement sur des tâches impliquant des mathématiques ou de la logique, avec des gains beaucoup plus faibles sur d'autres types de tâches. Sur MMLU, générer directement la réponse sans CoT conduit à une précision presque identique à celle de CoT sauf si la question ou la réponse du modèle contient un signe égal, indiquant des opérations symboliques et de raisonnement. Suivant cette découverte, nous analysons le comportement de CoT sur ces problèmes en séparant la planification et l'exécution et en comparant avec des LLMs augmentés d'outils. Une grande partie de l'amélioration de CoT provient de l'exécution symbolique, mais elle est moins performante par rapport à l'utilisation d'un solveur symbolique. Nos résultats indiquent que CoT peut être appliqué de manière sélective, maintenant les performances tout en réduisant les coûts d'inférence. De plus, ils suggèrent la nécessité de passer des CoT basés sur des incitations à de nouveaux paradigmes qui exploitent mieux le calcul intermédiaire à travers toute la gamme des applications des LLM.
La personnalisation joue un rôle crucial dans de nombreuses tâches et applications linguistiques, car des utilisateurs ayant les mêmes besoins peuvent préférer des sorties diverses en fonction de leurs intérêts individuels. Cela a conduit au développement de diverses approches personnalisées visant à adapter de grands modèles linguistiques (LLM) pour générer des sorties personnalisées alignées sur les préférences des utilisateurs. Certaines d'entre elles impliquent le réglage fin d'un LLM personnalisé unique pour chaque utilisateur, ce qui est trop coûteux pour une application généralisée. D'autres approches introduisent des informations de personnalisation de manière plug-and-play en récupérant les textes historiques pertinents de l'utilisateur en tant que démonstrations. Cependant, cette stratégie basée sur la récupération peut rompre la continuité de l'historique de l'utilisateur et ne pas saisir les styles et les motifs globaux de l'utilisateur, entraînant ainsi des performances sous-optimales. Pour relever ces défis, nous proposons un nouveau modèle LLM personnalisé. Il construit un plongement spécifique à chaque utilisateur en modélisant tous ses contextes historiques à travers un module d'incorporation utilisateur plug-in léger. En attachant cet plongement à l'entrée de la tâche, les LLM peuvent mieux comprendre et capturer les habitudes et préférences de l'utilisateur, produisant ainsi des sorties plus personnalisées sans régler leurs propres paramètres. Des expériences approfondies sur diverses tâches dans le benchmark de personnalisation du modèle linguistique (LaMP) démontrent que le modèle proposé surpasse significativement les approches existantes de LLM personnalisés.
L'ajustement des préférences est un processus crucial pour aligner les modèles génératifs profonds avec les préférences humaines. Cette enquête offre un aperçu approfondi des récentes avancées dans l'ajustement des préférences et l'intégration des retours humains. Le document est organisé en trois sections principales : 1) introduction et préliminaires : une introduction aux cadres d'apprentissage par renforcement, aux tâches d'ajustement des préférences, aux modèles et ensembles de données dans diverses modalités : langage, parole et vision, ainsi que différentes approches politiques, 2) examen approfondi de chaque approche d'ajustement des préférences : une analyse détaillée des méthodes utilisées dans l'ajustement des préférences, et 3) applications, discussions et orientations futures : une exploration des applications de l'ajustement des préférences dans les tâches aval, y compris les méthodes d'évaluation pour différentes modalités, et une perspective sur les orientations futures de la recherche. Notre objectif est de présenter les dernières méthodologies en matière d'ajustement des préférences et d'alignement des modèles, améliorant la compréhension de ce domaine pour les chercheurs et les praticiens. Nous espérons encourager un engagement et une innovation supplémentaires dans ce domaine.
Les modèles de Mélange d'Experts (MoE) sont plus efficaces à l'échelle que les modèles denses en raison de la computation clairsemée à travers le routage des experts, activant sélectivement seulement un petit sous-ensemble de modules experts. Cependant, la computation clairsemée pose des défis aux pratiques d'entraînement traditionnelles, car le routage discret des experts entrave la rétropropagation standard et donc l'optimisation basée sur les gradients, qui sont la pierre angulaire de l'apprentissage profond. Pour mieux exploiter la puissance d'échelle de MoE, nous introduisons GRIN (Entraînement MoE InforMé par les Gradients), qui intègre une estimation clairsemée des gradients pour le routage des experts et configure le parallélisme du modèle pour éviter la suppression de jetons. En appliquant GRIN à la modélisation de langage autorégressive, nous développons un modèle MoE top-2 de 16 fois 3,8 milliards. Notre modèle, avec seulement 6,6 milliards de paramètres activés, surpasse un modèle dense de 7 milliards et égale les performances d'un modèle dense de 14 milliards entraîné sur les mêmes données. Des évaluations approfondies sur diverses tâches démontrent le potentiel de GRIN à améliorer significativement l'efficacité de MoE, atteignant 79,4 sur MMLU, 83,7 sur HellaSwag, 74,4 sur HumanEval et 58,9 sur MATH.
Avec l'avènement de l'ère du big data et des grands modèles de langage, la personnalisation rapide et personnalisée sans entraînement préalable est devenue une tendance significative. Dans ce rapport, nous présentons Takin AudioLLM, une série de techniques et de modèles, comprenant principalement Takin TTS, Takin VC et Takin Morphing, spécifiquement conçus pour la production de livres audio. Ces modèles sont capables de produire de la parole sans entraînement préalable, générant une parole de haute qualité presque indiscernable de la parole humaine réelle et facilitant la personnalisation du contenu de la parole selon les besoins individuels. Plus précisément, nous introduisons d'abord Takin TTS, un modèle de langage de codec neuronal qui s'appuie sur un codec vocal neuronal amélioré et un cadre d'entraînement multi-tâches, capable de générer une parole naturelle de haute fidélité de manière sans entraînement préalable. Pour Takin VC, nous préconisons une approche efficace de modélisation conjointe du contenu et du timbre pour améliorer la similarité des locuteurs, tout en préconisant un décodeur basé sur l'appariement de flux conditionnel pour renforcer davantage sa naturalité et son expressivité. Enfin, nous proposons le système Takin Morphing avec des approches de modélisation avancées et hautement découplées du timbre et de la prosodie, qui permettent aux individus de personnaliser la production de parole avec leur timbre et leur prosodie préférés de manière précise et contrôlable. Des expériences approfondies valident l'efficacité et la robustesse de nos modèles de la série Takin AudioLLM. Pour des démonstrations détaillées, veuillez consulter https://takinaudiollm.github.io.
Nous nous lançons dans la quête séculaire : dévoiler les dimensions cachées des objets à partir de simples aperçus de leurs parties visibles. Pour répondre à cela, nous présentons Vista3D, un cadre qui réalise une génération 3D rapide et cohérente en seulement 5 minutes. Au cœur de Vista3D se trouve une approche en deux phases : la phase grossière et la phase fine. Dans la phase grossière, nous générons rapidement une géométrie initiale avec le Gaussian Splatting à partir d'une seule image. Dans la phase fine, nous extrayons une Fonction de Distance Signée (SDF) directement à partir du Gaussian Splatting appris, en l'optimisant avec une représentation d'isurface différenciable. De plus, il élève la qualité de la génération en utilisant une représentation désentrelacée avec deux fonctions implicites indépendantes pour capturer à la fois les aspects visibles et occultés des objets. De plus, il harmonise les gradients issus d'une diffusion 2D préalable avec des diffusions préalables conscientes de la 3D par composition d'une diffusion angulaire préalable. À travers une évaluation approfondie, nous démontrons que Vista3D maintient efficacement un équilibre entre la cohérence et la diversité des objets 3D générés. Les démonstrations et le code seront disponibles sur https://github.com/florinshen/Vista3D.
Dans cet article, nous présentons SoloAudio, un modèle génératif novateur basé sur la diffusion pour l'extraction de son cible (TSE). Notre approche entraîne des modèles de diffusion latents sur l'audio, remplaçant le précédent socle U-Net par un Transformateur connecté par saut opérant sur des caractéristiques latentes. SoloAudio prend en charge à la fois l'extraction de son orientée audio et orientée langage en utilisant un modèle CLAP comme extracteur de caractéristiques pour les sons cibles. De plus, SoloAudio tire parti de l'audio synthétique généré par des modèles de texte-à-audio de pointe pour l'entraînement, démontrant une forte généralisation aux données hors domaine et aux événements sonores non vus. Nous évaluons cette approche sur l'ensemble de données de mélange FSD Kaggle 2018 et sur des données réelles d'AudioSet, où SoloAudio atteint des résultats de pointe à la fois sur les données dans le domaine et hors domaine, et présente des capacités impressionnantes de zéro-shot et de few-shot. Le code source et des démonstrations sont disponibles.
Nous présentons la Description Audio par Diffusion (DAC), un modèle de diffusion non-autorégressif conçu pour la description audio diversifiée et efficace. Bien que les modèles de description existants reposant sur des structures linguistiques aient obtenu un succès remarquable dans diverses tâches de description, leurs performances insuffisantes en termes de vitesse de génération et de diversité entravent les progrès dans la compréhension audio et les applications multimédias. Notre cadre basé sur la diffusion offre des avantages uniques découlant de sa stochasticité inhérente et de sa modélisation contextuelle holistique dans la description. À travers une évaluation rigoureuse, nous démontrons que DAC atteint non seulement des niveaux de performance de pointe par rapport aux benchmarks existants en termes de qualité de la description, mais les surpasse également de manière significative en termes de vitesse et de diversité de génération. Le succès de DAC illustre que la génération de texte peut également être intégrée de manière transparente avec les tâches de génération audio et visuelle en utilisant une structure de diffusion, ouvrant la voie à un modèle génératif unifié lié à l'audio à travers différentes modalités.
L'apprentissage par renforcement multi-agent (MARL) hors ligne est une direction de recherche passionnante qui utilise des ensembles de données statiques pour trouver des politiques de contrôle optimales pour les systèmes multi-agents. Bien que le domaine soit par définition axé sur les données, les efforts ont jusqu'à présent négligé les données dans leur quête de résultats de pointe. Nous étayons d'abord cette affirmation en examinant la littérature, montrant comment la majorité des travaux génèrent leurs propres ensembles de données sans méthodologie cohérente et fournissent peu d'informations sur les caractéristiques de ces ensembles de données. Nous montrons ensuite pourquoi négliger la nature des données pose problème, à travers des exemples saillants de la façon dont les performances algorithmiques sont étroitement liées à l'ensemble de données utilisé, nécessitant une base commune pour les expériences dans le domaine. En réponse, nous faisons un grand pas vers l'amélioration de l'utilisation des données et de la sensibilisation aux données dans le MARL hors ligne, avec trois contributions clés : (1) des directives claires pour la génération de nouveaux ensembles de données ; (2) une normalisation de plus de 80 ensembles de données existants, hébergés dans un référentiel disponible publiquement, en utilisant un format de stockage cohérent et une API facile à utiliser ; et (3) un ensemble d'outils d'analyse qui nous permettent de mieux comprendre ces ensembles de données, aidant ainsi au développement ultérieur.
Les mathématiques ont longtemps été transmises à travers le langage naturel, principalement pour la compréhension humaine. Avec l'avènement des mathématiques mécanisées et des assistants de preuve, il est de plus en plus nécessaire de comprendre le texte mathématique informel, pourtant la plupart des référentiels existants se concentrent uniquement sur l'anglais, en négligeant les autres langues. Cet article présente RoMath, une suite de référentiels de raisonnement mathématique roumaine comprenant trois ensembles de données : RoMath-Baccalauréat, RoMath-Compétitions et RoMath-Synthétique, qui couvrent une gamme de domaines mathématiques et de niveaux de difficulté, dans le but d'améliorer les modèles linguistiques non anglophones et de promouvoir le développement de l'IA multilingue. En se concentrant sur le roumain, une langue à ressources limitées avec des caractéristiques linguistiques uniques, RoMath aborde les limitations des modèles anglo-centriques et souligne le besoin de ressources dédiées au-delà de la simple traduction automatique. Nous évaluons plusieurs modèles linguistiques à poids ouverts, mettant en avant l'importance de créer des ressources pour les langues sous-représentées. Nous mettons le code et l'ensemble de données à disposition.
Les agents d'IA ont le potentiel d'aider les utilisateurs dans diverses tâches importantes, y compris la réalisation de recherches scientifiques. Pour stimuler le développement d'agents utiles, nous avons besoin de références qui soient exigeantes, mais surtout, correspondent directement à des tâches réelles d'intérêt. Cet article présente une telle référence, conçue pour mesurer la précision des agents d'IA dans la résolution d'un aspect crucial mais étonnamment difficile de la recherche scientifique : la reproductibilité computationnelle. Cette tâche, fondamentale dans le processus scientifique, consiste à reproduire les résultats d'une étude en utilisant le code et les données fournis. Nous introduisons CORE-Bench (Banc d'essai de l'agent de reproductibilité computationnelle), une référence composée de 270 tâches basées sur 90 articles scientifiques dans trois disciplines (informatique, sciences sociales et médecine). Les tâches de CORE-Bench se déclinent en trois niveaux de difficulté et comprennent à la fois des tâches uniquement textuelles et des tâches texte-vision. Nous fournissons un système d'évaluation pour mesurer la précision des agents de manière rapide et parallélisable, ce qui permet d'économiser des jours d'évaluation pour chaque exécution par rapport à une implémentation séquentielle. Nous avons évalué deux agents de base : l'AutoGPT polyvalent et un agent spécifique à la tâche appelé CORE-Agent. Nous avons testé les deux variantes en utilisant deux modèles de langage sous-jacents : GPT-4o et GPT-4o-mini. Le meilleur agent a atteint une précision de 21 % sur la tâche la plus difficile, montrant ainsi l'ampleur des améliorations possibles dans l'automatisation des tâches scientifiques courantes. Avoir des agents capables de reproduire des travaux existants est une étape nécessaire vers la construction d'agents capables de mener des recherches novatrices et de vérifier et améliorer les performances d'autres agents de recherche. Nous espérons que CORE-Bench pourra améliorer l'état de la reproductibilité et stimuler le développement des futurs agents de recherche.
La reconstruction de visuels en 3D à partir de données d'Imagerie par Résonance Magnétique fonctionnelle (IRMf), présentée sous le nom de Recon3DMind dans notre travail de conférence, suscite un intérêt significatif à la fois pour la neuroscience cognitive et la vision par ordinateur. Pour faire progresser cette tâche, nous présentons l'ensemble de données fMRI-3D, qui comprend des données de 15 participants et présente un total de 4768 objets en 3D. L'ensemble de données se compose de deux composants : fMRI-Forme, précédemment introduit et accessible sur https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, et fMRI-Objaverse, proposé dans cet article et disponible sur https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse inclut des données de 5 sujets, dont 4 font également partie de l'ensemble de base dans fMRI-Forme, chaque sujet visualisant 3142 objets en 3D répartis dans 117 catégories, tous accompagnés de légendes textuelles. Cela améliore considérablement la diversité et les applications potentielles de l'ensemble de données. De plus, nous proposons MinD-3D, un nouveau cadre conçu pour décoder les informations visuelles en 3D à partir des signaux IRMf. Le cadre extrait d'abord et agrège les caractéristiques des données IRMf à l'aide d'un encodeur de neuro-fusion, puis utilise un modèle de diffusion de pont de caractéristiques pour générer des caractéristiques visuelles, et enfin reconstruit l'objet en 3D à l'aide d'un décodeur transformateur génératif. Nous établissons de nouveaux benchmarks en concevant des métriques à la fois au niveau sémantique et structurel pour évaluer les performances du modèle. De plus, nous évaluons l'efficacité de notre modèle dans un cadre Hors-Distribution et analysons l'attribution des caractéristiques extraites et des ROI visuels dans les signaux IRMf. Nos expériences démontrent que MinD-3D non seulement reconstruit des objets en 3D avec une précision sémantique et spatiale élevée, mais approfondit également notre compréhension de la manière dont le cerveau humain traite les informations visuelles en 3D. Page du projet : https://jianxgao.github.io/MinD-3D.
Pour relever le défi de la Résumé Multi-Document (MDS), de nombreuses méthodes ont été proposées, couvrant à la fois les techniques de résumé extractif et abstrait. Cependant, chaque approche a ses propres limitations, ce qui rend moins efficace de s'appuyer uniquement sur l'une ou l'autre. Une stratégie émergente et prometteuse implique une fusion synergique des méthodes de résumé extractif et abstrait. Malgré la pléthore d'études dans ce domaine, la recherche sur la méthodologie combinée reste rare, en particulier dans le contexte du traitement du langage vietnamien. Cet article présente un nouveau cadre de MDS vietnamien exploitant une architecture de pipeline à deux composants qui intègre des techniques extractives et abstraites. Le premier composant utilise une approche extractive pour identifier les phrases clés dans chaque document. Cela est réalisé par une modification du réseau BERT pré-entraîné, qui dérive des plongements de phrases sémantiquement significatifs en utilisant des structures de réseau siamois et triplet. Le deuxième composant utilise le modèle VBD-LLaMA2-7B-50b pour le résumé abstrait, générant finalement le document résumé final. Notre cadre proposé démontre des performances positives, atteignant des scores ROUGE-2 de 39,6% sur l'ensemble de données VN-MDS et surpassant les références de pointe.
Les valeurs humaines et leur mesure font l'objet d'une enquête interdisciplinaire de longue date. Les récentes avancées en intelligence artificielle ont suscité un intérêt renouvelé pour ce domaine, les grands modèles de langage (GML) émergeant à la fois comme des outils et des sujets de mesure de valeur. Ce travail présente la Psychométrie Générative pour les Valeurs (PGV), un paradigme de mesure de valeur basé sur les GML et les données, théoriquement ancré dans les perceptions sélectives révélées par le texte. Nous commençons par affiner un GML pour une mesure précise des valeurs au niveau de la perception et vérifier la capacité des GML à analyser les textes en perceptions, formant le cœur du processus de la PGV. En appliquant la PGV à des blogs rédigés par des humains, nous démontrons sa stabilité, sa validité et sa supériorité par rapport aux outils psychologiques précédents. Ensuite, en étendant la PGV à la mesure des valeurs des GML, nous faisons progresser l'état actuel de l'art avec 1) une méthodologie psychométrique qui mesure les valeurs des GML en fonction de leurs sorties évolutives et libres, permettant une mesure spécifique au contexte ; 2) une analyse comparative des paradigmes de mesure, indiquant les biais de réponse des méthodes antérieures ; et 3) une tentative de relier les valeurs des GML et leur sécurité, révélant le pouvoir prédictif des différents systèmes de valeurs et les impacts des différentes valeurs sur la sécurité des GML. Grâce à des efforts interdisciplinaires, nous visons à exploiter l'IA pour la psychométrie de la prochaine génération et la psychométrie pour une IA alignée sur les valeurs.