Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage se sont avérés efficaces dans un large éventail d'applications, mais les modèles les plus sophistiqués sont souvent propriétaires. Par exemple, GPT-4 d'OpenAI et divers modèles d'Anthropic sont coûteux et consomment une quantité substantielle d'énergie. En revanche, la communauté open source a produit des modèles compétitifs, comme Llama3. De plus, des modèles de langage plus petits et spécialisés, tels que ceux conçus pour des tâches juridiques, médicales ou financières, ont surpassé leurs homologues propriétaires. Cet article présente une nouvelle approche qui utilise des tokens fonctionnels pour intégrer plusieurs modèles open source, chacun optimisé pour des tâches spécifiques. Notre nouveau modèle Octopus v4 exploite ces tokens fonctionnels pour diriger intelligemment les requêtes des utilisateurs vers le modèle vertical le plus approprié et reformater la requête pour obtenir les meilleures performances. Octopus v4, une évolution des modèles Octopus v1, v2 et v3, excelle dans la sélection, la compréhension des paramètres et le reformatage. De plus, nous explorons l'utilisation du graphe comme structure de données polyvalente qui coordonne efficacement plusieurs modèles open source en tirant parti des capacités du modèle Octopus et des tokens fonctionnels. Utilisez notre dépôt GitHub open source (https://www.nexa4ai.com/) pour essayer les modèles Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) et contribuer à un graphe plus étendu de modèles de langage. En activant des modèles de moins de 10 milliards de paramètres, nous avons atteint un score SOTA MMLU de 74,8 parmi les modèles de même niveau.
Inspirés par le théorème de représentation de Kolmogorov-Arnold, nous proposons les Réseaux de Kolmogorov-Arnold (KANs) comme alternatives prometteuses aux Perceptrons Multicouches (MLPs). Alors que les MLPs possèdent des fonctions d'activation fixes sur les nœuds ("neurones"), les KANs ont des fonctions d'activation apprenables sur les arêtes ("poids"). Les KANs n'ont aucun poids linéaire — chaque paramètre de poids est remplacé par une fonction univariée paramétrée comme une spline. Nous montrons que ce changement apparemment simple permet aux KANs de surpasser les MLPs en termes de précision et d'interprétabilité. Pour la précision, des KANs beaucoup plus petits peuvent atteindre une précision comparable ou supérieure à celle de MLPs beaucoup plus grands dans l'ajustement de données et la résolution d'équations aux dérivées partielles. Théoriquement et empiriquement, les KANs possèdent des lois d'échelle neuronale plus rapides que les MLPs. Pour l'interprétabilité, les KANs peuvent être visualisés de manière intuitive et interagir facilement avec les utilisateurs humains. À travers deux exemples en mathématiques et en physique, les KANs se révèlent être des collaborateurs utiles aidant les scientifiques à (re)découvrir des lois mathématiques et physiques. En résumé, les KANs sont des alternatives prometteuses aux MLPs, ouvrant des opportunités pour améliorer davantage les modèles d'apprentissage profond actuels qui reposent fortement sur les MLPs.
Les grands modèles de langage tels que GPT et Llama sont entraînés avec une fonction de perte de prédiction du prochain token. Dans ce travail, nous suggérons que l'entraînement des modèles de langage à prédire plusieurs tokens futurs simultanément améliore l'efficacité en termes d'échantillons. Plus précisément, à chaque position du corpus d'entraînement, nous demandons au modèle de prédire les n tokens suivants en utilisant n têtes de sortie indépendantes, opérant sur un tronc de modèle partagé. En considérant la prédiction multi-tokens comme une tâche d'entraînement auxiliaire, nous observons une amélioration des capacités en aval sans surcoût en temps d'entraînement, aussi bien pour les modèles de code que pour les modèles de langage naturel. Cette méthode est d'autant plus utile pour les modèles de grande taille et conserve son intérêt lors d'un entraînement sur plusieurs époques. Les gains sont particulièrement marqués sur les benchmarks génératifs comme le codage, où nos modèles surpassent systématiquement les modèles de référence de plusieurs points de pourcentage. Nos modèles de 13 milliards de paramètres résolvent 12 % de problèmes supplémentaires sur HumanEval et 17 % de plus sur MBPP par rapport aux modèles de prédiction du prochain token. Les expériences sur de petites tâches algorithmiques démontrent que la prédiction multi-tokens favorise le développement de têtes d'induction et de capacités de raisonnement algorithmique. Comme avantage supplémentaire, les modèles entraînés avec une prédiction de 4 tokens sont jusqu'à 3 fois plus rapides à l'inférence, même avec de grandes tailles de lots.
Dans le domaine de la génération d'images personnalisées, la capacité à créer des images préservant des concepts s'est considérablement améliorée. Créer une image qui intègre naturellement plusieurs concepts dans une composition cohérente et visuellement attrayante peut en effet s'avérer complexe. Cet article présente "InstantFamily", une approche qui utilise un nouveau mécanisme d'attention croisée masquée et une pile d'embeddings multimodaux pour réaliser la génération d'images multi-ID en zero-shot. Notre méthode préserve efficacement l'identité (ID) en exploitant des caractéristiques globales et locales d'un modèle de reconnaissance faciale pré-entraîné, intégrées avec des conditions textuelles. De plus, notre mécanisme d'attention croisée masquée permet un contrôle précis de l'intégration multi-ID et de la composition dans les images générées. Nous démontrons l'efficacité d'InstantFamily à travers des expériences montrant sa supériorité dans la génération d'images multi-ID, tout en résolvant des problèmes bien connus liés à cette tâche. Par ailleurs, notre modèle atteint des performances de pointe à la fois pour la préservation d'une seule ID et de plusieurs ID. Enfin, notre modèle présente une scalabilité remarquable, capable de préserver un nombre d'identités supérieur à celui utilisé lors de son entraînement initial.
Les méthodes d'optimisation itérative des préférences ont récemment démontré de bonnes performances pour les tâches générales de réglage d'instructions, mais elles apportent généralement peu d'amélioration pour les tâches de raisonnement (Yuan et al., 2024, Chen et al., 2024). Dans ce travail, nous développons une approche itérative qui optimise la préférence entre des candidats générés de type Chaîne de Pensée (CoT) en optimisant les étapes de raisonnement gagnantes par rapport aux perdantes qui mènent à la bonne réponse. Nous entraînons en utilisant une fonction de perte DPO modifiée (Rafailov et al., 2023) avec un terme supplémentaire de log-vraisemblance négative, que nous jugeons crucial. Nous montrons que le raisonnement s'améliore au fil des itérations répétées de ce schéma. Bien que ne s'appuyant que sur des exemples de l'ensemble d'entraînement, notre approche permet d'augmenter la précision de Llama-2-70B-Chat de 55,6 % à 81,6 % sur GSM8K (et 88,7 % avec un vote majoritaire sur 32 échantillons), de 12,5 % à 20,8 % sur MATH, et de 77,8 % à 86,7 % sur ARC-Challenge, surpassant ainsi d'autres modèles basés sur Llama-2 qui ne reposent pas sur des ensembles de données supplémentaires.
Nous étendons la longueur de contexte de Llama-3-8B-Instruct de 8K à 80K via un fine-tuning QLoRA. L'ensemble du cycle d'entraînement est extrêmement efficace, prenant seulement 8 heures sur une machine équipée de 8 GPU A800 (80G). Le modèle résultant démontre des performances supérieures sur une large gamme de tâches d'évaluation, telles que NIHS, la récupération de sujets et la compréhension de langage en contexte long ; tout en préservant également ses capacités originales sur des contextes courts. Cette extension spectaculaire du contexte est principalement attribuable à seulement 3 500 échantillons d'entraînement synthétiques générés par GPT-4, ce qui met en évidence le potentiel inhérent (mais largement sous-estimé) des LLM à étendre leur longueur de contexte initiale. En réalité, la longueur de contexte pourrait être étendue bien au-delà de 80K avec davantage de ressources de calcul. Par conséquent, l'équipe rendra publiquement disponibles l'ensemble des ressources (y compris les données, le modèle, le pipeline de génération de données et le code d'entraînement) afin de faciliter les recherches futures de la communauté : https://github.com/FlagOpen/FlagEmbedding.
Ce travail présente MotionLCM, étendant la génération de mouvements contrôlables à un niveau en temps réel. Les méthodes existantes pour le contrôle spatial dans la génération de mouvements conditionnés par texte souffrent d'une inefficacité significative en termes de temps d'exécution. Pour résoudre ce problème, nous proposons d'abord le modèle de cohérence latente pour les mouvements (MotionLCM) pour la génération de mouvements, en nous appuyant sur le modèle de diffusion latente (MLD). En utilisant une inférence en une étape (ou quelques étapes), nous améliorons encore l'efficacité en temps d'exécution du modèle de diffusion latente pour la génération de mouvements. Pour garantir une contrôlabilité efficace, nous intégrons un ControlNet pour les mouvements dans l'espace latent de MotionLCM et permettons à des signaux de contrôle explicites (par exemple, la trajectoire du bassin) dans l'espace de mouvements standard de contrôler directement le processus de génération, similaire au contrôle d'autres modèles de diffusion sans latence pour la génération de mouvements. En employant ces techniques, notre approche peut générer des mouvements humains avec du texte et des signaux de contrôle en temps réel. Les résultats expérimentaux démontrent les capacités remarquables de génération et de contrôle de MotionLCM tout en maintenant une efficacité en temps d'exécution en temps réel.
Les méthodes existantes de génération automatique de légendes pour le contenu visuel rencontrent des défis tels que le manque de détails, les hallucinations de contenu et le faible suivi des instructions. Dans ce travail, nous proposons VisualFactChecker (VFC), un pipeline flexible et sans apprentissage qui génère des légendes détaillées et fidèles pour les images 2D et les objets 3D. VFC se compose de trois étapes : 1) proposition, où des modèles de légendage image-texte proposent plusieurs légendes initiales ; 2) vérification, où un grand modèle de langage (LLM) utilise des outils tels que la détection d'objets et des modèles de question-réponse visuelle (VQA) pour vérifier les légendes proposées ; 3) légendage, où un LLM génère la légende finale en résumant les propositions de légendes et les résultats de la vérification. À cette étape, VFC peut générer de manière flexible des légendes dans divers styles en suivant des instructions complexes. Nous menons des évaluations complètes du légendage en utilisant quatre métriques : 1) le CLIP-Score pour la similarité image-texte ; 2) le CLIP-Image-Score pour mesurer la similarité image-image entre l'image originale et l'image reconstruite générée par un modèle texte-image utilisant la légende ; 3) une étude humaine sur Amazon Mechanical Turk ; 4) GPT-4V pour une évaluation fine. Les résultats d'évaluation montrent que VFC surpasse les méthodes de légendage open-source de pointe pour les images 2D sur le dataset COCO et les assets 3D sur le dataset Objaverse. Notre étude démontre qu'en combinant des modèles open-source dans un pipeline, nous pouvons atteindre une capacité de légendage comparable à celle de modèles propriétaires comme GPT-4V, malgré une taille de modèle plus de 10 fois inférieure.
Nous proposons GS-LRM, un modèle de reconstruction à grande échelle capable de prédire des primitives 3D Gaussiennes de haute qualité à partir de 2 à 4 images éparses posées en 0,23 seconde sur une seule GPU A100. Notre modèle se distingue par une architecture très simple basée sur des transformateurs : nous découpons les images d'entrée posées en patches, faisons passer les tokens d'images multi-vues concaténés à travers une séquence de blocs de transformateurs, et décodons directement les paramètres Gaussians par pixel à partir de ces tokens pour un rendu différenciable. Contrairement aux modèles LRM précédents qui ne peuvent reconstruire que des objets, en prédisant des Gaussians par pixel, GS-LRM gère naturellement des scènes présentant de grandes variations d'échelle et de complexité. Nous montrons que notre modèle peut fonctionner à la fois sur des captures d'objets et de scènes en l'entraînant respectivement sur Objaverse et RealEstate10K. Dans les deux cas, les modèles surpassent largement les références de l'état de l'art. Nous démontrons également des applications de notre modèle dans des tâches de génération 3D en aval. La page web de notre projet est disponible à l'adresse : https://sai-bi.github.io/project/gs-lrm/.
Suite à l'avènement des NeRFs, le 3D Gaussian Splatting (3D-GS) a ouvert la voie au rendu neuronal en temps réel, surmontant la charge computationnelle des méthodes volumétriques. À la suite du travail pionnier du 3D-GS, plusieurs méthodes ont tenté d'atteindre des alternatives compressibles et à haute fidélité. Cependant, en employant un schéma d'optimisation agnostique à la géométrie, ces méthodes négligent la structure 3D inhérente de la scène, limitant ainsi l'expressivité et la qualité de la représentation, ce qui entraîne divers points flottants et artefacts. Dans ce travail, nous proposons une méthode de Gaussian Splatting consciente de la structure (SAGS) qui encode implicitement la géométrie de la scène, ce qui se traduit par des performances de rendu de pointe et des besoins de stockage réduits sur des ensembles de données de synthèse de nouvelles vues. SAGS est fondée sur une représentation graphique locale-globale qui facilite l'apprentissage de scènes complexes et impose des déplacements de points significatifs qui préservent la géométrie de la scène. De plus, nous introduisons une version légère de SAGS, utilisant un schéma d'interpolation au point médian simple mais efficace, qui montre une représentation compacte de la scène avec une réduction de taille allant jusqu'à 24 fois sans recourir à aucune stratégie de compression. Des expériences approfondies sur plusieurs ensembles de données de référence démontrent la supériorité de SAGS par rapport aux méthodes 3D-GS de pointe en termes de qualité de rendu et de taille de modèle. Par ailleurs, nous montrons que notre méthode consciente de la structure peut efficacement atténuer les artefacts flottants et les distorsions irrégulières des méthodes précédentes tout en obtenant des cartes de profondeur précises. Page du projet : https://eververas.github.io/SAGS/.
Les ensembles de données vision-langage sont essentiels pour la recherche en génération d'images à partir de texte (T2I) et de texte à partir d'images (I2T). Cependant, les ensembles de données actuels manquent de descriptions détaillées qui permettraient aux modèles d'apprendre des associations plus riches. Pour combler cette lacune, nous présentons Descriptions of Connected and Contrasting Images (DOCCI), un ensemble de données contenant de longues descriptions annotées manuellement en anglais pour 15 000 images. Ces images ont été prises, sélectionnées et fournies par un seul chercheur, avec l'objectif de capturer des défis clés tels que les relations spatiales, le décompte, le rendu de texte, les connaissances générales, et plus encore. Nous avons demandé aux annotateurs humains de créer des descriptions exhaustives pour chaque image ; celles-ci comptent en moyenne 136 mots et sont conçues pour distinguer clairement chaque image de celles qui sont liées ou similaires. Chaque description est hautement compositionnelle et englobe généralement plusieurs défis. À travers des analyses quantitatives et qualitatives, nous démontrons que DOCCI constitue une ressource d'entraînement efficace pour la génération de texte à partir d'images — un modèle PaLI 5B affiné sur DOCCI montre des résultats égaux ou supérieurs à ceux de modèles plus performants et plus volumineux comme LLaVA-1.5 7B et InstructBLIP 7B. De plus, nous montrons que DOCCI est un banc d'essai utile pour la génération d'images à partir de texte, mettant en lumière les limites des modèles actuels de génération d'images à partir de texte dans la capture de descriptions longues et de détails fins.
La génération de scènes 3D est rapidement devenue une nouvelle direction de recherche exigeante, stimulée par les améliorations constantes des modèles de diffusion génératifs 2D. La plupart des travaux antérieurs dans ce domaine génèrent des scènes en assemblant itérativement de nouvelles images générées avec la géométrie existante. Ces travaux s'appuient souvent sur des estimateurs de profondeur monoculaire pré-entraînés pour transformer les images générées en 3D, en les fusionnant avec la représentation existante de la scène. Ces approches sont ensuite généralement évaluées via une métrique textuelle, mesurant la similarité entre les images générées et une invite textuelle donnée. Dans ce travail, nous apportons deux contributions fondamentales au domaine de la génération de scènes 3D. Premièrement, nous constatons que la transformation d'images en 3D à l'aide d'un modèle d'estimation de profondeur monoculaire est sous-optimale car elle ignore la géométrie de la scène existante. Nous introduisons donc un nouveau modèle de complétion de profondeur, entraîné par distillation d'enseignant et auto-apprentissage pour maîtriser le processus de fusion 3D, ce qui améliore la cohérence géométrique de la scène. Deuxièmement, nous proposons un nouveau schéma de référencement pour les méthodes de génération de scènes, basé sur la géométrie de référence, permettant ainsi de mesurer la qualité de la structure de la scène.
Les approches basées sur l'optimisation, telles que l'échantillonnage par distillation de score (SDS), montrent des perspectives prometteuses pour la génération 3D en zero-shot, mais souffrent d'une faible efficacité, principalement en raison du nombre élevé d'évaluations de fonctions (NFEs) nécessaires pour chaque échantillon. Dans cet article, nous introduisons la reconstruction itérative basée sur le score (SIR), un algorithme efficace et général pour la génération 3D avec un modèle de diffusion multi-vues basé sur le score. Étant donné les images produites par le modèle de diffusion, SIR réduit les NFEs en optimisant de manière répétée les paramètres 3D, contrairement à l'optimisation unique dans SDS, imitant ainsi le processus de reconstruction 3D. Avec d'autres améliorations, notamment l'optimisation dans l'espace des pixels, nous présentons une approche efficace appelée MicroDreamer qui s'applique généralement à diverses représentations 3D et tâches de génération 3D. En particulier, tout en conservant une performance comparable, MicroDreamer est 5 à 20 fois plus rapide que SDS pour générer des champs de radiance neuronaux et prend environ 20 secondes pour générer des maillages à partir d'une division 3D de Gaussiennes sur une seule GPU A100, réduisant de moitié le temps de la baseline zero-shot la plus rapide, DreamGaussian. Notre code est disponible à l'adresse https://github.com/ML-GSAI/MicroDreamer.
La recherche contemporaine en 3D, en particulier dans les domaines de la reconstruction et de la génération, repose fortement sur des images 2D pour les entrées ou la supervision. Cependant, les conceptions actuelles pour ces mappages 2D-3D sont gourmandes en mémoire, constituant un goulot d'étranglement majeur pour les méthodes existantes et entravant de nouvelles applications. En réponse, nous proposons une paire de composants hautement évolutifs pour les champs neuronaux 3D : Lightplane Render et Splatter, qui réduisent considérablement l'utilisation de la mémoire dans le mappage 2D-3D. Ces innovations permettent de traiter un nombre bien plus important d'images à haute résolution avec des coûts mémoire et de calcul réduits. Nous démontrons leur utilité dans diverses applications, allant de l'optimisation de scènes uniques avec des pertes au niveau de l'image à la réalisation d'un pipeline polyvalent pour une mise à l'échelle spectaculaire de la reconstruction et de la génération 3D. Code : https://github.com/facebookresearch/lightplane.