Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Qwen2.5-1M, une série de modèles qui étendent la longueur du contexte à 1 million de jetons. Comparés à la version précédente de 128K, les modèles de la série Qwen2.5-1M ont des capacités de contexte long considérablement améliorées grâce à un pré-entraînement et un post-entraînement sur le contexte long. Des techniques clés telles que la synthèse de données longues, l'entraînement progressif et le fine-tuning supervisé multi-étapes sont utilisées pour améliorer efficacement les performances sur le contexte long tout en réduisant les coûts d'entraînement. Pour promouvoir l'utilisation de modèles à contexte long auprès d'une base d'utilisateurs plus large, nous présentons et mettons en open source notre cadre d'inférence. Ce cadre inclut une méthode d'extrapolation de longueur qui peut étendre les longueurs de contexte du modèle d'au moins quatre fois, voire plus, sans entraînement supplémentaire. Pour réduire les coûts d'inférence, nous mettons en œuvre une méthode d'attention clairsemée ainsi qu'une optimisation de pré-remplissage par morceaux pour les scénarios de déploiement et une méthode de raffinement de la clairvoyance pour améliorer la précision. De plus, nous détaillons nos optimisations dans le moteur d'inférence, y compris l'optimisation du noyau, le parallélisme de pipeline et l'optimisation de l'ordonnancement, qui améliorent significativement les performances globales de l'inférence. En exploitant notre cadre d'inférence, les modèles Qwen2.5-1M obtiennent un remarquable gain de vitesse de pré-remplissage de 3x à 7x dans des scénarios avec 1 million de jetons de contexte. Ce cadre fournit une solution efficace et puissante pour le développement d'applications nécessitant un traitement de contexte long en utilisant des modèles open source. La série Qwen2.5-1M comprend actuellement les modèles open source Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M, ainsi que le modèle Qwen2.5-Turbo accessible via API. Les évaluations montrent que les modèles Qwen2.5-1M ont été considérablement améliorés dans les tâches de contexte long sans compromettre les performances dans les scénarios de contexte court. En particulier, le modèle Qwen2.5-14B-Instruct-1M surpasse significativement GPT-4o-mini dans les tâches de contexte long et prend en charge des contextes huit fois plus longs.
Nous présentons Baichuan-Omni-1.5, un modèle omni-modal qui non seulement possède des capacités de compréhension omni-modales, mais fournit également des capacités de génération audio de bout en bout. Pour atteindre une interaction fluide et de haute qualité à travers les modalités sans compromettre les capacités de chaque modalité, nous avons priorisé l'optimisation de trois aspects clés. Tout d'abord, nous établissons un pipeline complet de nettoyage et de synthèse de données pour les données multimodales, obtenant environ 500 milliards de données de haute qualité (texte, audio et vision). Ensuite, un audio-tokenizer (Baichuan-Audio-Tokenizer) a été conçu pour capturer à la fois des informations sémantiques et acoustiques à partir de l'audio, permettant une intégration transparente et une compatibilité améliorée avec MLLM. Enfin, nous avons conçu une stratégie d'entraînement à plusieurs étapes qui intègre progressivement l'alignement multimodal et le fine-tuning multi-tâches, garantissant une synergie efficace à travers toutes les modalités. Baichuan-Omni-1.5 surpasse les modèles contemporains (y compris GPT4o-mini et MiniCPM-o 2.6) en termes de capacités omni-modales complètes. Notamment, il obtient des résultats comparables aux modèles de premier plan tels que Qwen2-VL-72B sur divers benchmarks médicaux multimodaux.
L'apprentissage par renforcement (RL) promet un cadre pour la résolution de problèmes quasi universelle. En pratique cependant, les algorithmes de RL sont souvent adaptés à des benchmarks spécifiques, reposant sur des hyperparamètres soigneusement réglés et des choix algorithmiques. Récemment, de puissantes méthodes de RL basées sur des modèles ont montré des résultats généraux impressionnants à travers les benchmarks, mais au prix d'une complexité accrue et de temps d'exécution lents, limitant leur applicabilité plus large. Dans cet article, nous tentons de trouver un algorithme unificateur de RL profond sans modèle qui puisse aborder une classe diversifiée de domaines et de configurations de problèmes. Pour y parvenir, nous exploitons des représentations basées sur des modèles qui linéarisent approximativement la fonction de valeur, tirant parti des objectifs de tâche plus denses utilisés par le RL basé sur des modèles tout en évitant les coûts associés à la planification ou aux trajectoires simulées. Nous évaluons notre algorithme, MR.Q, sur une variété de benchmarks communs de RL avec un seul ensemble d'hyperparamètres et montrons des performances compétitives par rapport aux baselines spécifiques au domaine et générales, fournissant ainsi une avancée concrète vers la construction d'algorithmes de RL profond sans modèle polyvalents.
Comme on le sait, les modèles d'attention hybrides quadratiques et sous-quadratiques dans les architectures à plusieurs têtes ont surpassé à la fois les modèles Transformer et RNN linéaires, ces travaux se concentrant principalement sur la réduction de la complexité KV et l'amélioration de l'efficacité. Pour des recherches plus poussées sur l'expressivité, nous introduisons notre série de modèles distillés à partir de Qwen 2.5, basés sur une attention RWKV-7 purement native, qui vise à rendre les RNN plus expressifs et à démontrer une capacité de suivi de l'état au-delà des transformers. Nous travaillons avec QRWK 32B basé sur l'architecture RWKV-6, une autre approche qui réduit le temps de traitement des connaissances complet à seulement 8 heures en utilisant 16 GPU AMD MI300X tout en maintenant les performances de Qwen 2.5. En fait, le processus de distillation peut utiliser n'importe quel LLM, pas seulement Qwen, et permet le transfert de connaissances des LLM plus grands vers des plus petits avec moins de jetons. Nous expliquerons le processus détaillé et partagerons nos idées sur la construction de modèles de base plus puissants. Veuillez noter qu'il s'agit d'un travail en cours qui sera mis à jour continuellement. Les points de contrôle du modèle et le code source sont disponibles sur https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
Les récents progrès dans la génération de la parole ont été stimulés par les ensembles de données d'entraînement à grande échelle. Cependant, les modèles actuels peinent à capturer la spontanéité et la variabilité inhérentes à la parole humaine réelle, en raison de leur dépendance à des ensembles de données de livres audio limités aux styles de lecture formels. Pour combler ce fossé, nous présentons Emilia-Pipe, un pipeline de prétraitement open-source permettant d'extraire des données d'entraînement de haute qualité à partir de données précieuses mais peu explorées en conditions réelles, capturant la parole humaine spontanée dans des contextes du monde réel. En exploitant Emilia-Pipe, nous construisons Emilia, le premier ensemble de données de génération de parole multilingue dérivé de données de parole en conditions réelles. Cet ensemble de données comprend plus de 101 000 heures de parole dans six langues : anglais, chinois, allemand, français, japonais et coréen. De plus, nous étendons Emilia pour créer Emilia-Large, un ensemble de données dépassant 216 000 heures, ce qui en fait le plus grand ensemble de données de génération de parole open-source disponible. Des expériences approfondies démontrent qu'Emilia surpasse significativement les ensembles de données traditionnels de livres audio dans la génération de parole spontanée et semblable à celle des humains, en présentant des performances supérieures dans la capture de la diversité du timbre des locuteurs et des styles de parole de la parole humaine réelle. En outre, ce travail souligne l'importance de l'augmentation de la taille de l'ensemble de données pour faire progresser la recherche en génération de parole et valide l'efficacité d'Emilia pour la génération de parole à la fois multilingue et crosslingue.
Nous présentons une nouvelle famille de réseaux de vision hybrides mobiles, appelée iFormer, axée sur l'optimisation de la latence et de la précision des applications mobiles. iFormer intègre efficacement la capacité de représentation locale rapide de la convolution avec la capacité de modélisation globale efficace de l'auto-attention. Les interactions locales sont dérivées de la transformation d'un réseau convolutionnel standard, c'est-à-dire ConvNeXt, pour concevoir un réseau mobile plus léger. Notre nouvelle attention de modulation mobile supprime les opérations intensives en mémoire dans MHA et utilise un mécanisme de modulation efficace pour renforcer la capacité globale de représentation dynamique. Nous menons des expériences approfondies démontrant que iFormer surpasse les réseaux légers existants sur diverses tâches. Notamment, iFormer atteint une impressionnante précision Top-1 de 80,4\% sur ImageNet-1k avec une latence de seulement 1,10 ms sur un iPhone 13, dépassant le MobileNetV4 récemment proposé dans des contraintes de latence similaires. De plus, notre méthode montre des améliorations significatives dans des tâches ultérieures, notamment la détection d'objets COCO, la segmentation d'instances et la segmentation sémantique ADE20k, tout en maintenant une faible latence sur les appareils mobiles pour des entrées haute résolution dans ces scénarios.
Augmenter la capacité des modèles de langage s'est avéré être une approche fiable pour améliorer les performances et débloquer de nouvelles capacités. La capacité peut être principalement définie par deux dimensions : le nombre de paramètres du modèle et le calcul par exemple. Alors que l'augmentation de la capacité implique généralement une augmentation des deux, l'interaction précise entre ces facteurs et leur contribution combinée à la capacité globale reste encore mal comprise. Nous explorons cette relation dans le contexte des Mélange d'Experts épars (MoEs), qui permettent d'augmenter le nombre de paramètres sans augmenter proportionnellement les FLOPs par exemple. Nous étudions comment la variation du niveau de sparsité, c'est-à-dire la fraction de paramètres inactifs, impacte les performances du modèle lors de la pré-entraînement et de l'évaluation en apprentissage par transfert à quelques exemples. Nous constatons qu'avec différentes contraintes (par exemple, la taille des paramètres et le calcul total d'entraînement), il existe un niveau optimal de sparsité qui améliore à la fois l'efficacité de l'entraînement et les performances du modèle. Ces résultats offrent une meilleure compréhension de l'impact de la sparsité dans les lois d'augmentation pour les MoEs et complètent les travaux existants dans ce domaine, offrant des perspectives pour la conception d'architectures plus efficaces.
L'évolutivité du calcul au moment du test est un axe prometteur pour améliorer les capacités des LLM. Cependant, le calcul au moment du test peut être augmenté de différentes manières, et combiner efficacement différentes approches reste un domaine de recherche actif. Ici, nous explorons ce problème dans le contexte de la résolution des problèmes réels de GitHub à partir de l'ensemble de données SWE-bench. Notre système, nommé CodeMonkeys, permet aux modèles de modifier de manière itérative une base de code en générant conjointement et en exécutant un script de test aux côtés de leur modification provisoire. Nous échantillonnons de nombreux de ces trajectoires multi-tours pour chaque problème afin de générer une collection de modifications candidates. Cette approche nous permet de mettre à l'échelle le calcul au moment du test "sériel" en augmentant le nombre d'itérations par trajectoire et le calcul au moment du test "parallèle" en augmentant le nombre de trajectoires par problème. Avec la mise à l'échelle parallèle, nous pouvons amortir les coûts initiaux sur plusieurs échantillons aval, ce qui nous permet d'identifier le contexte de la base de code pertinente en laissant simplement un LLM lire chaque fichier. Afin de sélectionner entre les modifications candidates, nous combinons un vote en utilisant des tests générés par le modèle avec une trajectoire multi-tours finale dédiée à la sélection. Dans l'ensemble, CodeMonkeys résout 57,4 % des problèmes de SWE-bench vérifiés avec un budget d'environ 2300 USD. Notre méthode de sélection peut également être utilisée pour combiner des candidats provenant de différentes sources. La sélection d'un ensemble de modifications à partir des meilleures soumissions vérifiées de SWE-bench existantes obtient un score de 66,2 % et surpasse le meilleur membre de l'ensemble seul. Nous publions intégralement notre code et nos données sur https://scalingintelligence.stanford.edu/pubs/codemonkeys.
Les modèles de vision langagière (VLM) ont radicalement transformé le paysage des modèles de vision par ordinateur en seulement quelques années, ouvrant un éventail passionnant de nouvelles applications allant de la classification d'images sans étiquette à la génération de légendes d'images, en passant par la réponse à des questions visuelles. Contrairement aux modèles de vision pure, ils offrent un moyen intuitif d'accéder au contenu visuel à travers des incitations linguistiques. La grande applicabilité de ces modèles nous pousse à nous demander s'ils sont également en phase avec la vision humaine - en particulier, dans quelle mesure ils adoptent les biais visuels induits par l'humain à travers la fusion multimodale, ou s'ils héritent simplement des biais des modèles de vision pure. Un biais visuel important est le biais texture vs forme, ou la prédominance de l'information locale sur l'information globale. Dans cet article, nous étudions ce biais dans une large gamme de VLM populaires. De manière intéressante, nous constatons que les VLM sont souvent plus biaisés vers la forme que leurs encodeurs de vision, ce qui indique que les biais visuels sont modulés dans une certaine mesure à travers le texte dans les modèles multimodaux. Si le texte influence effectivement les biais visuels, cela suggère que nous pourrions être en mesure de diriger les biais visuels non seulement à travers l'entrée visuelle mais aussi à travers le langage : une hypothèse que nous confirmons à travers des expériences approfondies. Par exemple, nous sommes capables de diriger le biais vers la forme de aussi bas que 49% à aussi haut que 72% uniquement à travers des incitations. Pour l'instant, le fort biais humain en faveur de la forme (96%) reste hors de portée pour tous les VLM testés.
Les modèles d'espace d'états (State Space Models - SSM) ont émergé en tant qu'alternatives efficaces aux Transformers pour la modélisation séquentielle, mais leur incapacité à exploiter les caractéristiques spécifiques à la modalité limite leurs performances dans la pré-formation multi-modale. Ici, nous proposons Mixture-of-Mamba, une nouvelle architecture SSM qui introduit une parcimonie consciente de la modalité grâce à la paramétrisation spécifique à la modalité du bloc Mamba. En nous appuyant sur Mixture-of-Transformers (W. Liang et al. arXiv:2411.04996; 2024), nous étendons les avantages de la parcimonie consciente de la modalité aux SSM tout en préservant leur efficacité computationnelle. Nous évaluons Mixture-of-Mamba à travers trois configurations de préformation multi-modale : Transfusion (jetons de texte et d'image continue entrelacés avec perte de diffusion), Chameleon (jetons de texte et d'image discrète entrelacés), et un cadre à trois modalités étendu incorporant la parole. Mixture-of-Mamba atteint de manière cohérente les mêmes valeurs de perte à des étapes d'entraînement plus précoces avec des coûts computationnels considérablement réduits. Dans le cadre de Transfusion, Mixture-of-Mamba atteint une perte d'image équivalente en n'utilisant que 34,76 % des FLOPs d'entraînement à l'échelle de 1,4 milliard. Dans le cadre de Chameleon, Mixture-of-Mamba atteint une perte d'image similaire avec seulement 42,50 % des FLOPs à l'échelle de 1,4 milliard, et une perte de texte similaire avec seulement 65,40 % des FLOPs. Dans le cadre des trois modalités, MoM atteint une perte de parole à 24,80 % des FLOPs à l'échelle de 1,4 milliard. Notre étude d'ablation met en évidence les effets synergiques du découplage des composants de projection, où le découplage conjoint entraîne des gains plus importants que les modifications individuelles. Ces résultats établissent la parcimonie consciente de la modalité comme un principe de conception polyvalent et efficace, étendant son impact des Transformers aux SSM et établissant de nouveaux benchmarks en préformation multi-modale. Notre code est accessible sur https://github.com/Weixin-Liang/Mixture-of-Mamba
Le Guidage sans Classifieur (GSC) est une technique par défaut dans divers modèles génératifs visuels, mais elle nécessite une inférence à la fois des modèles conditionnels et inconditionnels lors de l'échantillonnage. Nous proposons de construire des modèles visuels qui sont exempts d'échantillonnage guidé. L'algorithme résultant, Entraînement sans Guidage (EG), égale les performances du GSC tout en réduisant l'échantillonnage à un seul modèle, divisant ainsi par deux le coût computationnel. Contrairement aux approches basées sur la distillation précédente qui reposent sur des réseaux GSC pré-entraînés, EG permet un entraînement direct à partir de zéro. EG est simple à mettre en œuvre. Il conserve le même objectif de vraisemblance maximale que le GSC et diffère principalement dans la paramétrisation des modèles conditionnels. La mise en œuvre de EG ne nécessite que des modifications minimales aux bases de code existantes, car la plupart des choix de conception et hyperparamètres sont directement hérités du GSC. Nos expériences approfondies sur cinq modèles visuels distincts démontrent l'efficacité et la polyvalence de EG. À travers les domaines de la diffusion, de l'autorégressif et de la modélisation de prédiction masquée, EG atteint de manière constante des scores FID comparables ou même inférieurs, avec des compromis similaire entre diversité et fidélité par rapport aux références GSC, le tout sans guidage. Le code sera disponible sur https://github.com/thu-ml/EG.
Le jeu de rôle personnalisable dans les grands modèles de langage (LLM), également connu sous le nom de généralisation de personnage, suscite de plus en plus d'attention pour sa polyvalence et son efficacité en termes de coûts dans le développement et le déploiement d'agents de dialogue de jeu de rôle. Cette étude explore une approche de synthèse de données à grande échelle pour doter les LLM de capacités de généralisation de personnage. Nous commençons par synthétiser des profils de personnage à grande échelle en utilisant des personas de Persona Hub, puis explorons deux stratégies : la réécriture de réponse et la génération de réponse, pour créer des réponses d'instructions alignées sur le personnage. Pour valider l'efficacité de nos données de réglage d'instructions synthétiques pour la généralisation de personnage, nous effectuons un fine-tuning supervisé (SFT) en utilisant le modèle LLaMA-3 8B. Notre modèle le plus performant renforce le modèle d'instruction original LLaMA-3 8B et atteint des performances comparables à celles des modèles GPT-4o sur le dialogue de jeu de rôle. Nous mettons à disposition nos personnages synthétiques et nos dialogues de réglage d'instructions pour soutenir la recherche publique.
La domination des grands modèles de langage à décodeur unique a éclipsé les architectures encodeur-décodeur, malgré leurs avantages fondamentaux en termes d'efficacité dans le traitement de séquences. Pour les petits modèles de langage (SLM) - ceux avec 1 milliard de paramètres ou moins - notre analyse systématique sur les plates-formes GPU, CPU et NPU révèle que les architectures encodeur-décodeur atteignent une latence du premier jeton 47% inférieure et un débit 4,7 fois plus élevé par rapport aux modèles à décodeur unique sur les appareils périphériques. Ces gains peuvent être attribués au traitement en une seule fois de l'entrée par l'encodeur-décodeur et à la séparation efficace des phases de compréhension et de génération. Nous introduisons un nouveau cadre de distillation des connaissances qui permet aux modèles encodeur-décodeur de tirer parti des capacités des grands enseignants à décodeur unique évolutifs tout en préservant leurs avantages architecturaux, atteignant jusqu'à 6 points d'amélioration de performance moyenne à travers des tâches diverses, avec des gains significatifs dans les tâches de séquence asymétriques où les distributions d'entrée et de sortie peuvent bénéficier de différentes approches de traitement. Lorsqu'il est combiné avec des avancées modernes telles que les Incrustations de Position Rotatives (RoPE) et les encodeurs Vision, notre investigation systématique démontre que les architectures encodeur-décodeur offrent un chemin plus pratique pour déployer des modèles de langage capables dans des environnements aux ressources limitées. Nos résultats remettent en question la tendance dominante vers l'augmentation des modèles à décodeur unique, montrant que les choix architecturaux deviennent de plus en plus cruciaux à mesure que les budgets de paramètres diminuent, en particulier pour les déploiements sur appareils et périphériques où l'efficacité computationnelle est primordiale.
Nous introduisons l'Apprentissage Réalisable (FL), un paradigme d'apprentissage centré sur l'échantillon où les modèles sont entraînés en résolvant un problème de faisabilité qui borne la perte pour chaque échantillon d'entraînement. Contrairement au cadre de Minimisation du Risque Empirique (ERM) omniprésent, qui optimise les performances moyennes, FL exige des performances satisfaisantes sur chaque point de données individuel. Étant donné que tout modèle qui atteint le seuil de performance prescrit est une solution FL valide, le choix de l'algorithme d'optimisation et sa dynamique jouent un rôle crucial dans la définition des propriétés des solutions résultantes. En particulier, nous étudions une approche primal-dual qui rééquilibre dynamiquement l'importance de chaque échantillon pendant l'entraînement. Pour relever le défi de définir un seuil significatif en pratique, nous introduisons une relaxation de FL qui intègre des variables d'écart de norme minimale. Notre analyse empirique, couvrant la classification d'images, la régression d'âge et l'optimisation des préférences dans de grands modèles de langage, démontre que les modèles entraînés via FL peuvent apprendre à partir des données tout en affichant un comportement de queue amélioré par rapport à l'ERM, avec seulement un impact marginal sur les performances moyennes.