Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'autocorrection est une capacité hautement souhaitable des grands modèles de langage (LLM), cependant, elle s'est avérée largement inefficace dans les LLM modernes. Les approches existantes pour entraîner l'autocorrection nécessitent soit plusieurs modèles, soit un modèle plus performant ou d'autres formes de supervision. Dans cette optique, nous développons une approche d'apprentissage par renforcement en ligne multi-tours, SCoRe, qui améliore significativement la capacité d'autocorrection d'un LLM en utilisant uniquement des données auto-générées. Pour construire SCoRe, nous montrons d'abord que les variantes du fine-tuning supervisé (SFT) sur des traces de correction générées hors ligne par le modèle sont insuffisantes pour inculquer un comportement d'autocorrection. En particulier, nous observons que l'entraînement via SFT souffre soit d'un désaccord de distribution entre les données d'entraînement et les propres réponses du modèle, soit préfère implicitement seulement un certain mode de comportement de correction qui n'est souvent pas efficace au moment du test. SCoRe relève ces défis en s'entraînant sous la distribution propre du modèle de traces d'autocorrection auto-générées et en utilisant une régularisation appropriée pour orienter le processus d'apprentissage vers l'acquisition d'une stratégie d'autocorrection efficace au moment du test, plutôt que de simplement ajuster des réponses à haute récompense pour une instruction donnée. Cette régularisation prescrit d'exécuter une première phase de RL sur un modèle de base pour générer une initialisation de politique moins sujette à l'effondrement, puis d'utiliser un bonus de récompense pour amplifier l'autocorrection pendant l'entraînement. Lorsqu'appliqué aux modèles Gemini 1.0 Pro et 1.5 Flash, nous constatons que SCoRe atteint des performances d'autocorrection de pointe, améliorant respectivement de 15,6% et 9,1% les capacités d'autocorrection des modèles de base sur les benchmarks MATH et HumanEval.
La pré-formation sur des ensembles de données à grande échelle et de haute qualité est cruciale pour améliorer les capacités de raisonnement des Grands Modèles de Langage (GML), en particulier dans des domaines spécialisés tels que les mathématiques. Malgré l'importance reconnue, le domaine des Modèles de Langage Multimodaux (MLM) manque actuellement d'un ensemble de données de pré-formation open source complet spécifiquement conçu pour le raisonnement mathématique. Pour combler cette lacune, nous présentons InfiMM-WebMath-40B, un ensemble de données de haute qualité de documents image-texte entrelacés. Il comprend 24 millions de pages web, 85 millions d'URL d'images associées et 40 milliards de jetons de texte, tous soigneusement extraits et filtrés à partir de CommonCrawl. Nous fournissons un aperçu détaillé de notre pipeline de collecte et de traitement des données. Pour démontrer la robustesse d'InfiMM-WebMath-40B, nous avons réalisé des évaluations à la fois en mode texte seul et multimodal. Nos évaluations sur des référentiels de texte seul montrent que, malgré l'utilisation de seulement 40 milliards de jetons, notre ensemble de données améliore significativement les performances de notre modèle 1.3B, fournissant des résultats comparables à DeepSeekMath-1.3B, qui utilise 120 milliards de jetons pour la même taille de modèle. Néanmoins, avec l'introduction de notre ensemble de données de pré-formation mathématique multimodal, nos modèles établissent un nouvel état de l'art parmi les modèles open source sur des référentiels mathématiques multimodaux tels que MathVerse et We-Math. Nous mettons nos données à disposition sur https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
L'avènement des Grands Modèles de Langage (GML) a ouvert la voie aux moteurs de recherche en IA, par exemple, SearchGPT, mettant en avant un nouveau paradigme dans l'interaction humain-internet. Cependant, la plupart des moteurs de recherche en IA actuels se limitent aux paramètres textuels, négligeant les requêtes utilisateur multimodales et la nature entrelacée texte-image des informations sur les sites web. Récemment, les Grands Modèles Multimodaux (GMM) ont réalisé des progrès impressionnants. Pourtant, leur capacité à fonctionner en tant que moteurs de recherche en IA reste peu explorée, laissant la question ouverte sur le potentiel des GMM dans la recherche multimodale. À cette fin, nous concevons d'abord un pipeline délicat, MMSearch-Engine, pour doter tout GMM de capacités de recherche multimodale. En plus de cela, nous introduisons MMSearch, un banc d'essai d'évaluation complet pour évaluer les performances de recherche multimodale des GMM. Le jeu de données sélectionné contient 300 exemples collectés manuellement couvrant 14 sous-domaines, sans chevauchement avec les données d'entraînement actuelles des GMM, garantissant que la réponse correcte ne peut être obtenue que par la recherche. En utilisant MMSearch-Engine, les GMM sont évalués en réalisant trois tâches individuelles (recherche à nouveau, re-classement et résumé), ainsi qu'une tâche complète et difficile avec un processus de recherche complet. Nous menons des expériences approfondies sur des GMM à code source fermé et ouvert. Parmi tous les modèles testés, GPT-4o avec MMSearch-Engine obtient les meilleurs résultats, dépassant le produit commercial, Perplexity Pro, dans la tâche de bout en bout, démontrant l'efficacité de notre pipeline proposé. Nous présentons en outre une analyse des erreurs pour révéler que les GMM actuels ont encore du mal à saisir pleinement les tâches de recherche multimodale, et réalisons une étude d'ablation pour indiquer le potentiel de l'augmentation de la puissance de calcul au moment des tests pour les moteurs de recherche en IA. Nous espérons que MMSearch pourra offrir des perspectives uniques pour orienter le développement futur des moteurs de recherche en IA multimodaux. Page du projet : https://mmsearch.github.io
Sélectionner la meilleure solution de code parmi plusieurs générées est une tâche essentielle en génération de code, qui peut être réalisée en utilisant des validateurs fiables (par exemple, des cas de test écrits par les développeurs) pour obtenir de l'aide. Étant donné que des cas de test fiables ne sont pas toujours disponibles et peuvent être coûteux à construire en pratique, les chercheurs proposent de générer automatiquement des cas de test pour évaluer les solutions de code. Cependant, lorsque les solutions de code et les cas de test sont plausibles mais pas fiables, la sélection de la meilleure solution devient un défi. Bien que certaines stratégies heuristiques aient été proposées pour résoudre ce problème, elles manquent d'une garantie théorique solide et il reste une question ouverte de savoir si une stratégie de sélection optimale existe. Notre travail apporte deux contributions. Tout d'abord, nous montrons que dans un cadre bayésien, la stratégie de sélection optimale peut être définie en fonction de la probabilité a posteriori des états de passage observés entre les solutions et les tests. Le problème d'identification de la meilleure solution est alors formulé comme un problème de programmation entière. Deuxièmement, nous proposons une approche efficace pour approximer cette stratégie optimale (mais non calculable), où l'erreur d'approximation est bornée par la justesse des connaissances antérieures. Nous incorporons ensuite des connaissances antérieures efficaces pour personnaliser les tâches de génération de code. Des études théoriques et empiriques confirment que les heuristiques existantes sont limitées dans la sélection des meilleures solutions avec des cas de test plausibles. Notre stratégie optimale approximée proposée B4 surpasse significativement les heuristiques existantes dans la sélection de solutions de code générées par de grands modèles de langage (LLMs) avec des tests générés par LLM, atteignant une amélioration de performance relative allant jusqu'à 50 % par rapport à la meilleure heuristique et 246 % par rapport à la sélection aléatoire dans les scénarios les plus difficiles. Notre code est publiquement disponible sur https://github.com/ZJU-CTAG/B4.
Les données visuelles se présentent sous différentes formes, allant des petites icônes de quelques pixels à de longues vidéos s'étendant sur des heures. Les LLMs multimodaux existants ont généralement pour pratique de standardiser ces diverses entrées visuelles à une résolution fixe pour les encodeurs visuels et de produire des nombres de jetons similaires pour les LLMs. Cette approche n'est pas optimale pour la compréhension multimodale et inefficace pour le traitement des entrées avec des contenus visuels longs et courts. Pour résoudre ce problème, nous proposons Oryx, une architecture multimodale unifiée pour la compréhension spatiale-temporelle des images, des vidéos et des scènes 3D multi-vues. Oryx offre une solution à la demande pour traiter de manière transparente et efficace des entrées visuelles de tailles spatiales et de durées temporelles arbitraires à travers deux innovations majeures : 1) un modèle OryxViT pré-entraîné capable d'encoder des images à n'importe quelle résolution en représentations visuelles compatibles avec les LLMs ; 2) un module compresseur dynamique qui prend en charge une compression de 1x à 16x sur les jetons visuels sur demande. Ces caractéristiques de conception permettent à Oryx de prendre en charge des contextes visuels extrêmement longs, tels que des vidéos, avec une résolution plus faible et une compression élevée tout en maintenant une précision de reconnaissance élevée pour des tâches telles que la compréhension de documents avec une résolution native et sans compression. Au-delà des améliorations architecturales, une meilleure curation des données et une formation spécialisée sur la récupération de longs contextes et les données spatialement conscientes aident Oryx à acquérir de solides capacités en compréhension multimodale d'images, de vidéos et de scènes 3D simultanément. Notre travail est open source sur https://github.com/Oryx-mllm/Oryx.
Nous proposons le premier cadre de diffusion vidéo pour la colorisation de vidéos en traits de référence. Contrairement aux travaux précédents qui reposent uniquement sur des modèles génératifs d'images pour coloriser les traits de référence image par image, notre approche exploite un modèle de diffusion vidéo pré-entraîné à grande échelle pour générer des vidéos d'animation colorisées. Cette approche conduit à des résultats plus cohérents temporellement et est mieux équipée pour gérer de grands mouvements. Tout d'abord, nous introduisons le Sketch-guided ControlNet qui fournit un contrôle supplémentaire pour affiner un modèle de diffusion d'image vers vidéo pour une synthèse vidéo contrôlable, permettant la génération de vidéos d'animation conditionnées par des traits de référence. Nous proposons ensuite l'Attention de Référence pour faciliter le transfert des couleurs du cadre de référence vers d'autres images contenant des mouvements rapides et expansifs. Enfin, nous présentons un schéma novateur d'échantillonnage séquentiel, incorporant le Module de Fusion Superposée et l'Attention de Pré-Référence, pour étendre le modèle de diffusion vidéo au-delà de sa limitation originale de longueur fixe pour la colorisation de vidéos longues. Les résultats qualitatifs et quantitatifs démontrent que notre méthode surpasse significativement les techniques de pointe en termes de qualité d'image et de vidéo, ainsi que de cohérence temporelle. De plus, notre méthode est capable de générer des vidéos d'animation de haute qualité et longues, cohérentes temporellement avec de grands mouvements, ce qui n'était pas réalisable dans les travaux précédents. Notre code et notre modèle sont disponibles sur https://luckyhzt.github.io/lvcd.
La phase de pré-entraînement des modèles de langage commence souvent avec des paramètres initialisés de manière aléatoire. Avec les tendances actuelles en matière de mise à l'échelle des modèles, l'entraînement de leur grand nombre de paramètres peut être extrêmement lent et coûteux. En revanche, les petits modèles de langage sont moins coûteux à entraîner, mais ils ne parviennent souvent pas à atteindre la précision des grands modèles. Dans cet article, nous explorons une idée intrigante pour relier ces deux régimes différents : pouvons-nous développer une méthode pour initialiser de grands modèles de langage en utilisant des modèles pré-entraînés plus petits ? Une telle initialisation apportera-t-elle des avantages en termes de temps d'entraînement et de précision finale ? Dans cet article, nous présentons HyperCloning, une méthode qui peut étendre les paramètres d'un modèle de langage pré-entraîné à ceux d'un modèle plus grand avec des dimensions cachées accrues. Notre méthode garantit que le modèle plus grand conserve la fonctionnalité du modèle plus petit. Par conséquent, le modèle plus grand hérite déjà de la puissance prédictive et de la précision du modèle plus petit avant le début de l'entraînement. Nous démontrons que l'entraînement d'un tel modèle initialisé se traduit par des économies significatives en termes d'heures de GPU nécessaires pour le pré-entraînement de grands modèles de langage.
La demande croissante d'actifs 3D de haute qualité dans diverses industries nécessite une création de contenu 3D efficace et automatisée. Malgré les récents progrès dans les modèles génératifs 3D, les méthodes existantes rencontrent encore des défis en termes de vitesse d'optimisation, de fidélité géométrique et du manque d'actifs pour le rendu basé sur la physique (PBR). Dans cet article, nous présentons 3DTopia-XL, un modèle génératif 3D natif et évolutif conçu pour surmonter ces limitations. 3DTopia-XL exploite une représentation 3D basée sur des primitives novatrice, PrimX, qui encode la forme détaillée, l'albédo et le champ de matériau dans un format tensoriel compact, facilitant la modélisation de géométries haute résolution avec des actifs PBR. En plus de cette représentation novatrice, nous proposons un cadre génératif basé sur le Transformateur de Diffusion (DiT), qui comprend 1) la Compression de Patch Primitif, et 2) la Diffusion de Primitif Latent. 3DTopia-XL apprend à générer des actifs 3D de haute qualité à partir d'entrées textuelles ou visuelles. Nous menons des expériences qualitatives et quantitatives approfondies pour démontrer que 3DTopia-XL surpasse significativement les méthodes existantes dans la génération d'actifs 3D de haute qualité avec des textures et des matériaux fins, comblant efficacement l'écart de qualité entre les modèles génératifs et les applications du monde réel.
Les méthodes de génération d'images personnalisées sans réglage ont connu un succès significatif en maintenant la cohérence faciale, c'est-à-dire les identités, même avec plusieurs personnages. Cependant, le manque de cohérence holistique dans les scènes avec plusieurs personnages entrave la capacité de ces méthodes à créer un récit cohérent. Dans cet article, nous présentons StoryMaker, une solution de personnalisation qui préserve non seulement la cohérence faciale, mais aussi la cohérence des vêtements, des coiffures et des corps, facilitant ainsi la création d'une histoire à travers une série d'images. StoryMaker intègre des conditions basées sur les identités faciales et les images de personnages recadrées, incluant les vêtements, les coiffures et les corps. Plus précisément, nous intégrons les informations d'identité faciale avec les images de personnages recadrées en utilisant le Rééchantillonneur Perceiver Sensible à la Position (PPR) pour obtenir des caractéristiques de personnage distinctes. Pour éviter le mélange de plusieurs personnages et de l'arrière-plan, nous contraignons séparément les régions d'impact de l'attention croisée des différents personnages et de l'arrière-plan en utilisant une perte MSE avec des masques de segmentation. De plus, nous entraînons le réseau de génération conditionné sur les poses pour favoriser le découplage des poses. Un LoRA est également utilisé pour améliorer la fidélité et la qualité. Les expériences soulignent l'efficacité de notre approche. StoryMaker prend en charge de nombreuses applications et est compatible avec d'autres extensions sociétales. Nos codes sources et nos poids de modèle sont disponibles sur https://github.com/RedAIGC/StoryMaker.
Les méthodes récentes de génération de textures obtiennent des résultats impressionnants grâce au puissant a priori génératif qu'elles exploitent à partir de modèles de diffusion texte-image à grande échelle. Cependant, les instructions textuelles abstraites sont limitées dans la fourniture d'informations texturales ou de forme globales, ce qui entraîne les méthodes de génération de textures produisant des motifs flous ou incohérents. Pour résoudre ce problème, nous présentons FlexiTex, qui intègre des informations riches via un guidage visuel pour générer une texture de haute qualité. Le cœur de FlexiTex est le module d'amélioration du guidage visuel, qui intègre des informations plus spécifiques provenant du guidage visuel pour réduire l'ambiguïté dans l'instruction textuelle et préserver les détails haute fréquence. Pour renforcer davantage le guidage visuel, nous introduisons un module d'adaptation sensible à la direction qui conçoit automatiquement des instructions de direction basées sur différentes poses de caméra, évitant le problème de Janus et maintenant une cohérence sémantique globale. Bénéficiant du guidage visuel, FlexiTex produit des résultats quantitativement et qualitativement solides, démontrant son potentiel pour faire progresser la génération de textures pour des applications du monde réel.
Les modèles de langage (LM) peuvent produire des erreurs difficiles à détecter pour les humains, surtout lorsque la tâche est complexe. RLHF, la méthode post-entraînement la plus populaire, pourrait aggraver ce problème : pour obtenir des récompenses plus élevées, les LM pourraient devenir plus convaincants pour les humains qu'ils ont raison même lorsqu'ils ont tort. Nous étudions ce phénomène dans le cadre d'un pipeline RLHF standard, que nous appelons "U-SOPHISTRY" car il est non intentionnel de la part des développeurs de modèles. Plus précisément, nous demandons à des sujets humains contraints par le temps (par exemple, 3 à 10 minutes) d'évaluer la justesse des sorties du modèle et de calculer la précision des humains par rapport aux étiquettes de référence. Sur une tâche de question-réponse (QuALITY) et une tâche de programmation (APPS), RLHF rend les LM plus convaincants pour nos sujets mais ne les aide pas à accomplir correctement la tâche. RLHF rend également le modèle plus difficile à évaluer : le taux de faux positifs de nos sujets augmente de 24,1 % sur QuALITY et de 18,3 % sur APPS. Enfin, nous montrons que le sondage, une approche de pointe pour détecter la Sophistry Intentionnelle (par exemple, les LM piégés), ne se généralise pas à l'U-SOPHISTRY. Nos résultats mettent en lumière un mode d'échec important de RLHF et appellent à davantage de recherches pour aider les humains à s'aligner sur eux.
L'optimisation des instructions améliore les grands modèles de langage (LLM) en les alignant avec les préférences humaines à travers diverses tâches. Les approches traditionnelles pour créer des ensembles de données d'optimisation des instructions rencontrent des défis sérieux pour les langues à faibles ressources en raison de leur dépendance à l'annotation des données. Ce travail introduit une méthode novatrice, les Instructions Inverses Multilingues (MURI), qui génère des ensembles de données d'optimisation des instructions de haute qualité pour les langues à faibles ressources sans nécessiter d'annotateurs humains ou de modèles multilingues préexistants. En utilisant des instructions inverses et un pipeline de traduction, MURI produit des paires instruction-sortie à partir de textes existants rédigés par des humains dans des langues à faibles ressources. Cette méthode garantit la pertinence culturelle et la diversité en puisant des textes dans différents domaines natifs et en appliquant des filtres pour éliminer les contenus inappropriés. Notre ensemble de données, MURI-IT, comprend plus de 2 millions de paires instruction-sortie à travers 200 langues. L'évaluation par des locuteurs natifs et des expériences de fine-tuning avec les modèles mT5 démontrent l'efficacité de l'approche pour la compréhension du langage naturel (NLU) et la génération ouverte. Nous publions publiquement les ensembles de données et les modèles sur https://github.com/akoksal/muri.
Nous présentons 3DGS-LM, une nouvelle méthode qui accélère la reconstruction du Splatting Gaussien 3D (3DGS) en remplaçant son optimiseur ADAM par un optimiseur adapté de Levenberg-Marquardt (LM). Les méthodes existantes réduisent le temps d'optimisation en diminuant le nombre de Gaussiennes ou en améliorant la mise en œuvre du rasterizer différentiable. Cependant, elles reposent toujours sur l'optimiseur ADAM pour ajuster les paramètres gaussiens d'une scène en des milliers d'itérations, ce qui peut prendre jusqu'à une heure. À cette fin, nous changeons l'optimiseur pour LM qui fonctionne en conjonction avec le rasterizer différentiable 3DGS. Pour une parallélisation efficace sur GPU, nous proposons une structure de données de mise en cache pour les gradients intermédiaires qui nous permet de calculer efficacement les produits Jacobien-vecteur dans des noyaux CUDA personnalisés. À chaque itération de LM, nous calculons les directions de mise à jour à partir de plusieurs sous-ensembles d'images en utilisant ces noyaux et les combinons dans une moyenne pondérée. Dans l'ensemble, notre méthode est 30 % plus rapide que le 3DGS original tout en obtenant la même qualité de reconstruction. Notre optimisation est également agnostique par rapport à d'autres méthodes qui accélèrent le 3DGS, permettant ainsi des accélérations encore plus rapides par rapport au 3DGS classique.
La génération de vidéos à l'aide de modèles basés sur la diffusion est limitée par des coûts computationnels élevés en raison du processus de diffusion itérative image par image. Ce travail présente un réseau appelé Diffusion Réutilisable des Mouvements (Dr. Mo) pour accélérer la génération de vidéos latentes. Notre découverte clé est que les bruits grossiers dans les premières étapes de débruitage ont démontré une forte cohérence de mouvement à travers les images vidéo consécutives. Suite à cette observation, Dr. Mo propage ces bruits grossiers sur l'image suivante en incorporant des mouvements inter-images soigneusement conçus et légers, éliminant ainsi la redondance computationnelle massive des modèles de diffusion image par image. Les bruits plus sensibles et fins sont toujours acquis via des étapes de débruitage ultérieures, ce qui peut être essentiel pour conserver la qualité visuelle. Ainsi, décider quelles étapes intermédiaires devraient passer de propagations basées sur le mouvement à du débruitage peut être un problème crucial et un compromis clé entre l'efficacité et la qualité. Dr. Mo utilise un méta-réseau nommé Sélecteur d'Étapes de Débruitage (DSS) pour déterminer dynamiquement les étapes intermédiaires souhaitables à travers les images vidéo. Des évaluations approfondies sur la génération et l'édition de vidéos ont montré que Dr. Mo peut accélérer de manière significative les modèles de diffusion dans les tâches vidéo tout en améliorant la qualité visuelle.
La tâche de sous-titrage automatique audio (AAC) demande aux modèles de générer des descriptions en langage naturel d'une entrée audio. Évaluer ces sous-titres audio générés par machine est une tâche complexe qui nécessite de prendre en compte divers facteurs, parmi lesquels la compréhension de la scène auditive, l'inférence d'objets sonores, la cohérence temporelle et le contexte environnemental de la scène. Alors que les méthodes actuelles se concentrent sur des aspects spécifiques, elles échouent souvent à fournir un score global en accord avec le jugement humain. Dans ce travail, nous proposons CLAIR-A, une méthode simple et flexible qui exploite les capacités de zéro-shot des grands modèles de langage (LLM) pour évaluer les sous-titres audio candidats en demandant directement aux LLM un score de distance sémantique. Dans nos évaluations, CLAIR-A prédit mieux les jugements humains de qualité par rapport aux métriques traditionnelles, avec une amélioration de précision relative de 5,8% par rapport à la métrique FENSE spécifique au domaine et jusqu'à 11% par rapport à la meilleure mesure à usage général sur l'ensemble de données Clotho-Eval. De plus, CLAIR-A offre plus de transparence en permettant au modèle de langage d'expliquer le raisonnement derrière ses scores, ces explications étant évaluées jusqu'à 30% mieux par les évaluateurs humains que celles fournies par les méthodes de base. CLAIR-A est disponible publiquement sur https://github.com/DavidMChan/clair-a.