Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le développement rapide des grands modèles de langage et de vision (LLVMs) a été propulsé par les avancées dans le réglage par instructions visuelles. Récemment, les LLVMs open-source ont constitué des ensembles de données de haute qualité pour le réglage par instructions visuelles et ont utilisé des encodeurs visuels supplémentaires ou plusieurs modèles de vision par ordinateur afin de réduire l'écart de performance avec les puissants LLVMs propriétaires. Ces progrès sont attribués aux informations multidimensionnelles nécessaires pour des capacités variées, incluant la compréhension fondamentale des images, les connaissances du monde réel sur les concepts de bon sens et non-objectifs (par exemple, graphiques, diagrammes, symboles, panneaux et problèmes mathématiques), ainsi que les procédures étape par étape pour résoudre des questions complexes. En s'appuyant sur ces informations multidimensionnelles, nous présentons un nouveau LLVM efficace, Meteor (Mamba-based traversal of rationales), qui exploite des justifications multidimensionnelles pour améliorer les capacités de compréhension et de réponse. Pour intégrer des justifications longues contenant des informations abondantes, nous utilisons l'architecture Mamba, capable de traiter des données séquentielles avec une complexité temporelle linéaire. Nous introduisons un nouveau concept de parcours des justifications qui facilite l'intégration efficace des justifications. Par la suite, le modèle de langage multimodal (MLM) principal est entraîné à générer des réponses avec l'aide des justifications. Grâce à ces étapes, Meteor réalise des améliorations significatives dans les performances de langage visuel sur plusieurs benchmarks d'évaluation nécessitant des capacités variées, sans augmenter la taille du modèle ni utiliser d'encodeurs visuels ou de modèles de vision par ordinateur supplémentaires.
Les modèles multimodaux de grande taille à haute résolution (LMM) font face aux défis des tokens visuels excessifs et de la complexité visuelle quadratique. Les LMM à haute résolution actuels traitent la complexité quadratique tout en générant toujours des tokens visuels excessifs. Cependant, la redondance dans les tokens visuels est le problème clé, car elle entraîne une consommation de calcul plus importante. Pour atténuer ce problème, nous proposons ConvLLaVA, qui utilise ConvNeXt, une architecture hiérarchique, comme encodeur visuel du LMM pour remplacer le Vision Transformer (ViT). ConvLLaVA compresse les images haute résolution en caractéristiques visuelles riches en informations, empêchant efficacement la génération de tokens visuels excessifs. Pour améliorer les capacités de ConvLLaVA, nous proposons deux optimisations critiques. Comme le ConvNeXt pré-entraîné en basse résolution sous-performe lorsqu'il est appliqué directement en haute résolution, nous le mettons à jour pour combler cet écart. De plus, comme le taux de compression original de ConvNeXt est insuffisant pour des entrées de résolution beaucoup plus élevée, nous entraînons une étape successive pour compresser davantage les tokens visuels, réduisant ainsi la redondance. Ces optimisations permettent à ConvLLaVA de supporter des entrées de résolution 1536x1536 en générant seulement 576 tokens visuels, capables de gérer des images de rapport d'aspect arbitraire. Les résultats expérimentaux montrent que notre méthode atteint des performances compétitives avec les modèles de pointe sur les benchmarks courants. La série de modèles ConvLLaVA est disponible publiquement à l'adresse https://github.com/alibaba/conv-llava.
Nous étudions si les transformateurs peuvent apprendre à raisonner implicitement sur des connaissances paramétriques, une compétence avec laquelle même les modèles de langage les plus performants peinent. En nous concentrant sur deux types de raisonnement représentatifs, la composition et la comparaison, nous constatons systématiquement que les transformateurs peuvent apprendre le raisonnement implicite, mais uniquement à travers le phénomène de "grokking", c'est-à-dire un entraînement prolongé bien au-delà du surapprentissage. Les niveaux de généralisation varient également selon les types de raisonnement : face à des exemples hors distribution, les transformateurs échouent à généraliser systématiquement pour la composition, mais y parviennent pour la comparaison. Nous explorons les mécanismes internes du modèle tout au long de l'entraînement, en menant des expériences analytiques qui révèlent : 1) le mécanisme derrière le grokking, comme la formation du circuit de généralisation et sa relation avec l'efficacité relative des circuits de généralisation et de mémorisation, et 2) le lien entre la systématicité et la configuration du circuit de généralisation. Nos résultats guident la conception des données et des configurations d'entraînement pour mieux induire le raisonnement implicite et suggèrent des améliorations potentielles de l'architecture des transformateurs, comme l'encouragement du partage de connaissances inter-couches. De plus, nous démontrons que pour une tâche de raisonnement complexe avec un grand espace de recherche, GPT-4-Turbo et Gemini-1.5-Pro, basés sur une mémoire non paramétrique, échouent de manière significative, quels que soient les styles d'invite ou l'augmentation par récupération, tandis qu'un transformateur entièrement grokké peut atteindre une précision quasi parfaite, mettant en lumière la puissance de la mémoire paramétrique pour le raisonnement complexe.
Ce rapport technique présente Aya 23, une famille de modèles de langage multilingues. Aya 23 s'appuie sur la récente publication du modèle Aya (\"Ust\"un et al., 2024), en se concentrant sur l'association d'un modèle pré-entraîné hautement performant avec la collection Aya récemment publiée (Singh et al., 2024). Le résultat est un modèle de langage massif multilingue puissant desservant 23 langues, étendant les capacités de modélisation du langage de pointe à environ la moitié de la population mondiale. Le modèle Aya couvrait 101 langues, tandis qu'Aya 23 est une expérience en profondeur contre étendue, explorant l'impact de l'allocation de plus de capacité à un nombre réduit de langues incluses lors du pré-entraînement. Aya 23 surpasse à la fois les modèles multilingues massifs précédents comme Aya 101 pour les langues qu'il couvre, ainsi que les modèles largement utilisés comme Gemma, Mistral et Mixtral sur une vaste gamme de tâches discriminatives et génératives. Nous publions les poids ouverts pour les modèles 8B et 35B dans le cadre de notre engagement continu à élargir l'accès aux progrès multilingues.
Les LLM (modèles de langage de grande taille) sont coûteux en calcul pour le pré-entraînement en raison de leur échelle importante. La croissance de modèles émerge comme une approche prometteuse en exploitant des modèles plus petits pour accélérer l'entraînement de modèles plus grands. Cependant, la viabilité de ces méthodes de croissance de modèles dans le pré-entraînement efficace des LLM reste peu explorée. Ce travail identifie trois obstacles critiques : (O1) l'absence d'évaluation exhaustive, (O2) la viabilité non testée pour la mise à l'échelle, et (O3) le manque de lignes directrices empiriques. Pour aborder O1, nous résumons les approches existantes en quatre opérateurs de croissance atomiques et les évaluons systématiquement dans un cadre de pré-entraînement standardisé de LLM. Nos résultats révèlent qu'un opérateur d'empilement en profondeur, appelé G_{stack}, montre une accélération remarquable dans l'entraînement, conduisant à une diminution de la perte et à une amélioration des performances globales sur huit benchmarks standards de NLP par rapport à des bases de référence solides. Motivés par ces résultats prometteurs, nous menons des expériences approfondies pour explorer plus en détail G_{stack} afin de traiter O2 et O3. Pour O2 (viabilité non testée pour la mise à l'échelle), notre étude montre que G_{stack} est scalable et performe de manière cohérente, avec des expériences allant jusqu'à des LLM de 7B après croissance et un pré-entraînement de LLM avec 750B de tokens. Par exemple, comparé à un modèle de 7B entraîné classiquement avec 300B de tokens, notre modèle G_{stack} converge à la même perte avec 194B de tokens, résultant en une accélération de 54,6%. Nous abordons également O3 (manque de lignes directrices empiriques) en formalisant des lignes directrices pour déterminer le moment de la croissance et le facteur de croissance pour G_{stack}, le rendant pratique pour le pré-entraînement général des LLM. Nous fournissons également des discussions approfondies et des études d'ablation complètes de G_{stack}. Notre code et notre modèle pré-entraîné sont disponibles à l'adresse https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
Les stratégies de taux d'apprentissage existantes qui ne nécessitent pas la spécification de l'étape d'arrêt de l'optimisation T sont largement surpassées par les stratégies de taux d'apprentissage qui dépendent de T. Nous proposons une approche qui évite la nécessité de ce temps d'arrêt en renonçant entièrement à l'utilisation de stratégies, tout en affichant des performances de pointe par rapport aux stratégies sur une large famille de problèmes allant des problèmes convexes aux problèmes d'apprentissage profond à grande échelle. Notre approche "Schedule-Free" n'introduit aucun hyperparamètre supplémentaire par rapport aux optimiseurs standard avec momentum. Notre méthode découle directement d'une nouvelle théorie que nous développons, qui unifie la planification et la moyenne des itérations. Une implémentation open source de notre méthode est disponible (https://github.com/facebookresearch/schedule_free).
Nous présentons AutoCoder, le premier modèle de langage de grande taille à surpasser GPT-4 Turbo (avril 2024) et GPT-4o en termes de taux de réussite pass@1 sur le benchmark Human Eval (90,9 % contre 90,2 %). De plus, AutoCoder propose un interpréteur de code plus polyvalent que GPT-4 Turbo et GPT-4o. Son interpréteur de code peut installer des packages externes au lieu de se limiter aux packages intégrés. Les données d'entraînement d'AutoCoder proviennent d'un ensemble de dialogues multi-tours créé par un système combinant l'interaction d'agents et la vérification par exécution de code externe, une méthode que nous appelons \textsc{AIEV-Instruct} (Instruction Tuning avec Interaction d'Agents et Vérification par Exécution). Par rapport aux méthodes précédentes de génération de jeux de données de code à grande échelle, AIEV-Instruct réduit la dépendance aux modèles de grande taille propriétaires et fournit un jeu de données de code validé par exécution. Le code et la vidéo de démonstration sont disponibles sur https://github.com/bin123apple/AutoCoder.
Nous présentons un nouveau système de modélisation 3D générative, baptisé CraftsMan, capable de générer des géométries 3D haute fidélité avec des formes très variées, des topologies de maillage régulières et des surfaces détaillées, et, surtout, permettant d'affiner la géométrie de manière interactive. Malgré les avancées significatives dans la génération 3D, les méthodes existantes peinent encore avec des processus d'optimisation longs, des topologies de maillage irrégulières, des surfaces bruyantes et des difficultés à intégrer les modifications des utilisateurs, ce qui entrave leur adoption généralisée et leur implémentation dans les logiciels de modélisation 3D. Notre travail s'inspire de l'artisan, qui esquisse généralement la figure globale de l'œuvre avant d'en détailler les surfaces. Plus précisément, nous utilisons un modèle de diffusion natif 3D, qui opère sur un espace latent appris à partir de représentations 3D basées sur des ensembles latents, pour générer des géométries grossières avec une topologie de maillage régulière en quelques secondes. Ce processus prend en entrée une invite textuelle ou une image de référence et s'appuie sur un puissant modèle de diffusion multi-vues (MV) pour générer plusieurs vues de la géométrie grossière, qui sont ensuite introduites dans notre modèle de diffusion 3D conditionné par les MV pour générer la géométrie 3D, améliorant ainsi significativement la robustesse et la généralisabilité. Ensuite, un raffineur de géométrie basé sur les normales est utilisé pour améliorer considérablement les détails de surface. Ce raffinement peut être effectué automatiquement ou de manière interactive avec les modifications fournies par l'utilisateur. Des expériences approfondies démontrent que notre méthode atteint une efficacité élevée dans la production d'actifs 3D de qualité supérieure par rapport aux méthodes existantes. Page d'accueil : https://craftsman3d.github.io/, Code : https://github.com/wyysf-98/CraftsMan
Les caractéristiques auto-supervisées constituent la pierre angulaire des systèmes modernes d'apprentissage automatique. Elles sont généralement pré-entraînées sur des collections de données dont la construction et la curation nécessitent un effort humain considérable. Ce processus manuel présente certaines limitations similaires à celles rencontrées dans l'apprentissage supervisé, par exemple, la sélection de données via le crowdsourcing est coûteuse et chronophage, empêchant ainsi la mise à l'échelle de la taille des ensembles de données. Dans ce travail, nous examinons le problème de la curation automatique de jeux de données de haute qualité pour le pré-entraînement auto-supervisé. Nous postulons que de tels jeux de données doivent être volumineux, diversifiés et équilibrés, et proposons une approche basée sur le clustering pour en construire qui satisfont tous ces critères. Notre méthode implique des applications successives et hiérarchiques de k-means sur un vaste référentiel de données diversifié pour obtenir des clusters répartis uniformément parmi les concepts de données, suivies d'une étape d'échantillonnage hiérarchique et équilibré à partir de ces clusters. Des expériences approfondies sur trois domaines de données différents, incluant des images web, des images satellites et du texte, montrent que les caractéristiques entraînées sur nos jeux de données automatiquement curés surpassent celles entraînées sur des données non curées, tout en étant comparables ou supérieures à celles entraînées sur des données curées manuellement.
Les modèles du monde permettent aux agents basés sur des modèles d'explorer de manière interactive, de raisonner et de planifier au sein d'environnements imaginés pour la prise de décision dans le monde réel. Cependant, la forte demande d'interactivité pose des défis pour exploiter les avancées récentes des modèles génératifs vidéo dans le développement de modèles du monde à grande échelle. Ce travail présente Interactive VideoGPT (iVideoGPT), un cadre d'architecture transformer autorégressif et scalable qui intègre des signaux multimodaux—observations visuelles, actions et récompenses—dans une séquence de tokens, facilitant une expérience interactive des agents via la prédiction du token suivant. iVideoGPT intègre une technique de tokenisation compressive innovante qui discrétise efficacement les observations visuelles de haute dimension. En tirant parti de son architecture scalable, nous pouvons pré-entraîner iVideoGPT sur des millions de trajectoires de manipulation humaine et robotique, établissant ainsi une base polyvalente adaptable pour servir de modèles du monde interactifs pour une large gamme de tâches en aval. Celles-ci incluent la prédiction vidéo conditionnée par l'action, la planification visuelle et l'apprentissage par renforcement basé sur des modèles, où iVideoGPT atteint des performances compétitives par rapport aux méthodes de pointe. Notre travail fait progresser le développement de modèles du monde généraux interactifs, comblant ainsi l'écart entre les modèles génératifs vidéo et les applications pratiques d'apprentissage par renforcement basé sur des modèles.
Les modèles de langage (LMs) sont depuis longtemps utilisés pour améliorer les résultats des systèmes de reconnaissance automatique de la parole (ASR), mais ils ne sont pas conscients des erreurs commises par ces systèmes. Les modèles de correction d'erreurs sont conçus pour corriger les erreurs de l'ASR, mais ils ont montré peu d'amélioration par rapport aux LMs traditionnels, principalement en raison du manque de données d'entraînement supervisées. Dans cet article, nous présentons le Denoising LM (DLM), un modèle de correction d'erreurs à grande échelle entraîné avec d'énormes quantités de données synthétiques, surpassant largement les tentatives précédentes tout en atteignant de nouvelles performances de pointe en ASR. Nous utilisons des systèmes de synthèse vocale (TTS) pour générer des audios, qui sont ensuite traités par un système ASR pour produire des hypothèses bruitées, puis associés aux textes originaux pour entraîner le DLM. Le DLM comprend plusieurs éléments clés : (i) un modèle et des données à grande échelle ; (ii) l'utilisation de systèmes TTS multi-locuteurs ; (iii) la combinaison de plusieurs stratégies d'augmentation de bruit ; et (iv) de nouvelles techniques de décodage. Avec un ASR Transformer-CTC, le DLM atteint un taux d'erreur sur les mots (WER) de 1,5 % sur test-clean et de 3,3 % sur test-other sur Librispeech, ce qui, à notre connaissance, sont les meilleurs résultats rapportés dans un contexte où aucune donnée audio externe n'est utilisée, et qui égalent même les méthodes auto-supervisées utilisant des données audio externes. De plus, un seul DLM est applicable à différents ASRs, surpassant largement les performances du réétiquetage par recherche en faisceau basé sur les LMs conventionnels. Ces résultats indiquent que les modèles de correction d'erreurs, lorsqu'ils sont correctement étudiés, ont le potentiel de remplacer les LMs conventionnels, ouvrant la voie à un nouveau niveau de précision dans les systèmes ASR.
Les grands modèles de langage démontrent des capacités de généralisation exceptionnelles, principalement attribuables à l'utilisation de données provenant de sources diversifiées. Cependant, les pratiques conventionnelles d'intégration de ces données variées reposent largement sur des schémas heuristiques, manquant de fondements théoriques. Cette recherche aborde ces limitations en explorant des stratégies basées sur des proxies à faible coût pour les mélanges de données, dans le but de rationaliser la curation des données pour améliorer l'efficacité de l'entraînement. Plus précisément, nous proposons une loi d'échelle unifiée, appelée BiMix, qui modélise avec précision les comportements d'échelle bivariés de la quantité de données et des proportions de mélange. Nous menons des expériences systématiques et fournissons des preuves empiriques de la puissance prédictive et des principes fondamentaux de BiMix. Notamment, nos résultats révèlent que des mélanges de données sans entraînement, guidés par l'entropie, peuvent atteindre des performances comparables, voire supérieures, à celles de méthodes plus coûteuses en ressources. Nous espérons que nos insights quantitatifs pourront éclairer des recherches et développements judicieux dans la modélisation du langage à moindre coût.
La synthèse de nouvelles vues à haute plage dynamique (High Dynamic Range - HDR) vise à créer des images photoréalistes à partir de points de vue inédits en utilisant des techniques d'imagerie HDR. Les images HDR générées capturent une plage de luminosité plus étendue, contenant davantage de détails de la scène par rapport aux images à plage dynamique standard (Low Dynamic Range - LDR). Les méthodes existantes de synthèse de vues HDR reposent principalement sur NeRF, mais elles souffrent d'un temps d'entraînement long et d'une vitesse d'inférence lente. Dans cet article, nous proposons un nouveau cadre, High Dynamic Range Gaussian Splatting (HDR-GS), capable de générer efficacement de nouvelles vues HDR et de reconstruire des images LDR avec un temps d'exposition défini par l'utilisateur. Plus précisément, nous concevons un modèle de nuage de points gaussiens à double plage dynamique (Dual Dynamic Range - DDR) qui utilise les harmoniques sphériques pour ajuster la couleur HDR et emploie un mappeur de tonalité basé sur un MLP pour restituer la couleur LDR. Les couleurs HDR et LDR sont ensuite traitées par deux processus de rastérisation différentiable parallèles (Parallel Differentiable Rasterization - PDR) pour reconstruire les vues HDR et LDR. Pour établir les bases de données nécessaires à la recherche sur les méthodes basées sur le splatting gaussien 3D dans la synthèse de vues HDR, nous recalibrons les paramètres de la caméra et calculons les positions initiales des nuages de points gaussiens. Les expériences montrent que notre HDR-GS surpasse la méthode NeRF de pointe de 3,84 dB et 1,91 dB respectivement pour les synthèses de vues LDR et HDR, tout en bénéficiant d'une vitesse d'inférence 1000 fois supérieure et en nécessitant seulement 6,3 % du temps d'entraînement.