Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce rapport technique, nous présentons ChemVLM, le premier modèle de langage multimodal open-source dédié aux domaines de la chimie, conçu pour résoudre l'incompatibilité entre la compréhension des images chimiques et l'analyse textuelle. Basé sur l'architecture VIT-MLP-LLM, nous exploitons ChemLLM-20B comme modèle de base, dotant ainsi notre modèle de solides capacités pour comprendre et utiliser les connaissances textuelles en chimie. De plus, nous utilisons InternVIT-6B comme encodeur d'images puissant. Nous avons rassemblé des données de haute qualité provenant du domaine chimique, incluant des molécules, des formules de réaction et des données d'examens en chimie, et les avons compilées dans un ensemble de données bilingues multimodales de questions-réponses. Nous testons les performances de notre modèle sur plusieurs benchmarks open-source et trois ensembles d'évaluation personnalisés. Les résultats expérimentaux montrent que notre modèle obtient d'excellentes performances, atteignant des résultats de pointe dans cinq des six tâches concernées. Notre modèle est disponible à l'adresse suivante : https://huggingface.co/AI4Chem/ChemVLM-26B.
Les modèles de génération d'images à partir de texte sont des outils puissants pour la création d'images. Cependant, le processus de génération s'apparente à un lancer de dé, rendant difficile l'obtention d'une seule image capturant tout ce que l'utilisateur souhaite. Dans cet article, nous proposons un cadre pour créer l'image désirée en la composant à partir de diverses parties d'images générées, formant ainsi un Photomontage Générative. Étant donné une pile d'images générées par ControlNet en utilisant la même condition d'entrée et différentes graines, nous permettons aux utilisateurs de sélectionner les parties souhaitées parmi les résultats générés à l'aide d'une interface de tracé au pinceau. Nous introduisons une nouvelle technique qui prend en compte les tracés de l'utilisateur, segmente les images générées en utilisant une optimisation basée sur un graphe dans l'espace de caractéristiques de diffusion, puis compose les régions segmentées via une nouvelle méthode de fusion dans l'espace de caractéristiques. Notre méthode préserve fidèlement les régions sélectionnées par l'utilisateur tout en les composant harmonieusement. Nous démontrons que notre cadre flexible peut être utilisé pour de nombreuses applications, y compris la génération de nouvelles combinaisons d'apparence, la correction de formes incorrectes et d'artefacts, et l'amélioration de l'alignement avec l'invite. Nous présentons des résultats convaincants pour chaque application et montrons que notre méthode surpasse les méthodes de fusion d'images existantes et diverses approches de référence.
Cet article présente la série Aquila2, qui comprend une gamme étendue de modèles bilingues avec des tailles de paramètres de 7, 34 et 70 milliards. Ces modèles sont entraînés sur la base d'un cadre innovant nommé HeuriMentor (HM), qui offre des insights en temps réel sur la convergence du modèle et améliore le processus d'entraînement ainsi que la gestion des données. Le système HM, composé du moteur d'entraînement adaptatif (Adaptive Training Engine, ATE), du moniteur d'état d'entraînement (Training State Monitor, TSM) et de l'unité de gestion des données (Data Management Unit, DMU), permet une surveillance précise de la progression de l'entraînement du modèle et facilite l'optimisation efficace de la distribution des données, améliorant ainsi l'efficacité de l'entraînement. Des évaluations approfondies montrent que la série de modèles Aquila2 performe de manière comparable sur les benchmarks en anglais et en chinois. Plus précisément, Aquila2-34B ne montre qu'une légère baisse de performance lorsqu'il est quantifié en Int4. Par ailleurs, nous avons rendu notre code d'entraînement (https://github.com/FlagOpen/FlagScale) et les poids des modèles (https://github.com/FlagAI-Open/Aquila2) accessibles au public pour soutenir la recherche continue et le développement d'applications.
Nous présentons un ensemble de données à grande échelle--{\em DeepSpeak}--composé de vidéos réelles et de deepfakes montrant des personnes parlant et gesticulant devant leurs webcams. Les vidéos authentiques de cette première version du jeu de données comprennent 9 heures d'enregistrement provenant de 220 individus divers. Les vidéos falsifiées, représentant plus de 25 heures de contenu, incluent une variété de deepfakes de pointe utilisant des techniques de remplacement de visage et de synchronisation labiale, avec des voix naturelles et générées par IA. Nous prévoyons de publier des versions futures de cet ensemble de données avec des technologies de deepfake différentes et mises à jour. Ce jeu de données est mis à disposition gratuitement pour la recherche et les usages non commerciaux ; les demandes d'utilisation commerciale seront examinées.
Les récents progrès des méthodes Chain-of-Thoughts (CoT) et Program-of-Thoughts (PoT) ont considérablement amélioré les capacités de raisonnement mathématique des modèles de langage, facilitant leur intégration dans les ensembles de données d'ajustement d'instructions avec les LLM. Cependant, les méthodes existantes pour la création d'ensembles de données à grande échelle nécessitent des données de départ substantielles et des coûts de calcul élevés pour la synthèse des données, posant des défis importants en termes d'évolutivité. Nous présentons InfinityMATH, un ensemble de données d'ajustement d'instructions évolutif pour le raisonnement mathématique programmatique. Le pipeline de construction met l'accent sur la dissociation des nombres des problèmes mathématiques afin de synthétiser des programmes indépendants des nombres, permettant une mise à l'échelle efficace et flexible tout en minimisant la dépendance à des valeurs numériques spécifiques. Les expériences de fine-tuning avec des modèles de langage et de code open-source, tels que Llama2 et CodeLlama, démontrent les avantages pratiques d'InfinityMATH. Ces modèles fine-tunés ont montré des améliorations relatives significatives sur les benchmarks en domaine et hors domaine, allant de 184,7 % à 514,3 % en moyenne. De plus, ces modèles ont montré une grande robustesse sur les benchmarks GSM8K+ et MATH+, qui sont des versions améliorées des ensembles de test avec simplement des variations de nombres. InfinityMATH garantit que les modèles sont plus polyvalents et efficaces sur une gamme plus large de problèmes mathématiques. Les données sont disponibles à l'adresse suivante : https://huggingface.co/datasets/flagopen/InfinityMATH.
La modélisation et la manipulation de scènes 3D capturées à partir du monde réel sont essentielles dans diverses applications, suscitant un intérêt croissant dans la recherche. Bien que les travaux précédents sur l'édition aient obtenu des résultats intéressants en manipulant des maillages 3D, ils nécessitent souvent des maillages reconstruits avec précision pour effectuer l'édition, ce qui limite leur application dans la génération de contenu 3D. Pour combler cette lacune, nous proposons une nouvelle approche d'édition de scènes 3D pilotée par une seule image, basée sur la technique de 3D Gaussian Splatting, permettant une manipulation intuitive via l'édition directe du contenu sur un plan d'image 2D. Notre méthode apprend à optimiser les Gaussiennes 3D pour les aligner avec une version modifiée de l'image rendue à partir d'un point de vue spécifié par l'utilisateur de la scène originale. Pour capturer les déformations d'objets à longue portée, nous introduisons une perte positionnelle dans le processus d'optimisation de la 3D Gaussian Splatting et permettons la propagation du gradient grâce à une reparamétrisation. Pour gérer les Gaussiennes 3D occluses lors du rendu à partir du point de vue spécifié, nous construisons une structure basée sur des ancres et employons une stratégie d'optimisation grossière à fine capable de gérer les déformations à longue portée tout en maintenant la stabilité structurelle. De plus, nous concevons une nouvelle stratégie de masquage pour identifier de manière adaptative les régions de déformation non rigide pour une modélisation à fine échelle. Des expériences approfondies montrent l'efficacité de notre méthode dans la gestion des détails géométriques, des déformations à longue portée et non rigides, démontrant une flexibilité et une qualité d'édition supérieures par rapport aux approches précédentes.
Récemment, les tâches de génération universelle de formes d'onde ont été étudiées dans divers scénarios hors distribution. Bien que les méthodes basées sur les GAN aient démontré leur efficacité pour une génération rapide de formes d'onde, elles sont vulnérables aux situations de décalage entre l'entraînement et l'inférence, comme dans les systèmes de synthèse vocale en deux étapes. Par ailleurs, les modèles basés sur la diffusion ont montré de puissantes performances génératives dans d'autres domaines ; cependant, ils restent dans l'ombre en raison de leur lenteur d'inférence dans les tâches de génération de formes d'onde. Surtout, il n'existe aucune architecture de générateur capable de désentrelacer explicitement les caractéristiques périodiques naturelles des signaux de forme d'onde haute résolution. Dans cet article, nous proposons PeriodWave, un nouveau modèle universel de génération de formes d'onde. Tout d'abord, nous introduisons un estimateur de correspondance de flux sensible à la période, capable de capturer les caractéristiques périodiques du signal de forme d'onde lors de l'estimation des champs vectoriels. De plus, nous utilisons un estimateur multi-période qui évite les chevauchements pour capturer différentes caractéristiques périodiques des signaux de forme d'onde. Bien qu'augmenter le nombre de périodes puisse améliorer significativement les performances, cela nécessite des coûts de calcul plus élevés. Pour réduire ce problème, nous proposons également un estimateur universel conditionné à une seule période, capable de réaliser une inférence parallèle par lots en fonction des périodes. En outre, nous utilisons la transformée en ondelettes discrète pour désentrelacer sans perte les informations de fréquence des signaux de forme d'onde pour la modélisation des hautes fréquences, et introduisons FreeU pour réduire le bruit haute fréquence lors de la génération de formes d'onde. Les résultats expérimentaux ont démontré que notre modèle surpasse les modèles précédents à la fois dans la reconstruction de Mel-spectrogrammes et dans les tâches de synthèse vocale. Tout le code source sera disponible à l'adresse https://github.com/sh-lee-prml/PeriodWave.
Comprendre la sémantique 3D d'une scène est un problème fondamental pour divers scénarios, tels que les agents incarnés. Bien que les NeRFs et les 3DGS excellent dans la synthèse de nouvelles vues, les méthodes précédentes pour comprendre leur sémantique se sont limitées à une compréhension 3D incomplète : leurs résultats de segmentation sont des masques 2D et leur supervision est ancrée sur des pixels 2D. Cet article revisite ce problème afin de parvenir à une meilleure compréhension 3D d'une scène modélisée par des NeRFs et des 3DGS, comme suit. 1) Nous supervisons directement les points 3D pour entraîner le champ d'encodage linguistique. Cela atteint une précision de pointe sans recourir à des encodages linguistiques multi-échelles. 2) Nous transférons le champ linguistique pré-entraîné aux 3DGS, atteignant ainsi la première vitesse de rendu en temps réel sans sacrifier le temps d'entraînement ou la précision. 3) Nous introduisons un protocole de requête et d'évaluation 3D pour évaluer conjointement la géométrie et la sémantique reconstruites. Le code, les points de contrôle et les annotations seront disponibles en ligne. Page du projet : https://hyunji12.github.io/Open3DRF