Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le pré-entraînement de grands modèles de langage (LLM) sur de vastes corpus de données textuelles est désormais un paradigme standard. Lors de l'utilisation de ces LLM pour de nombreuses applications en aval, il est courant d'intégrer de nouvelles connaissances (par exemple, des informations critiques en temps réel ou des connaissances spécifiques à un domaine privé) dans le modèle pré-entraîné, soit par le biais de prompts basés sur RAG, soit par un ajustement fin. Cependant, la méthodologie optimale pour que le modèle acquière ces nouvelles connaissances reste une question ouverte. Dans cet article, nous présentons le Retrieval Augmented FineTuning (RAFT), une méthode d'entraînement qui améliore la capacité du modèle à répondre à des questions dans des contextes "open-book" spécifiques à un domaine. Dans RAFT, étant donné une question et un ensemble de documents récupérés, nous entraînons le modèle à ignorer les documents qui n'aident pas à répondre à la question, que nous appelons documents distracteurs. RAFT y parvient en citant textuellement la séquence pertinente du document qui aide à répondre à la question. Cela, couplé avec les réponses de type chaîne de raisonnement de RAFT, améliore la capacité du modèle à raisonner. Dans le cadre de RAG spécifique à un domaine, RAFT améliore systématiquement les performances du modèle sur les ensembles de données PubMed, HotpotQA et Gorilla, proposant ainsi une méthode post-entraînement pour améliorer les LLM pré-entraînés dans le contexte de RAG spécifique à un domaine. Le code et la démonstration de RAFT sont disponibles en open-source sur github.com/ShishirPatil/gorilla.
Dans la recherche scientifique et ses applications, l'analyse de la littérature scientifique est cruciale car elle permet aux chercheurs de s'appuyer sur les travaux d'autrui. Cependant, la croissance rapide des connaissances scientifiques a entraîné une augmentation massive des articles académiques, rendant l'analyse approfondie de la littérature de plus en plus difficile et chronophage. L'émergence des modèles de langage de grande envergure (LLMs) a offert une nouvelle manière de relever ce défi. Connus pour leurs fortes capacités en résumé de textes, les LLMs sont perçus comme un outil potentiel pour améliorer l'analyse de la littérature scientifique. Cependant, les LLMs existants ont leurs propres limites. La littérature scientifique inclut souvent une large gamme d'éléments multimodaux, tels que des structures moléculaires, des tableaux et des graphiques, qui sont difficiles à comprendre et à analyser pour les LLMs axés sur le texte. Ce problème souligne le besoin urgent de nouvelles solutions capables de comprendre et d'analyser pleinement le contenu multimodal dans la littérature scientifique. Pour répondre à cette demande, nous présentons Uni-SMART (Universal Science Multimodal Analysis and Research Transformer), un modèle innovant conçu pour une compréhension approfondie de la littérature scientifique multimodale. Grâce à une évaluation quantitative rigoureuse dans plusieurs domaines, Uni-SMART démontre une performance supérieure aux principaux LLMs axés sur le texte. De plus, notre exploration s'étend à des applications pratiques, incluant la détection de contrefaçon de brevets et l'analyse nuancée de graphiques. Ces applications mettent non seulement en lumière l'adaptabilité d'Uni-SMART, mais aussi son potentiel à révolutionner la manière dont nous interagissons avec la littérature scientifique.
La compréhension des vidéos longues représente un défi majeur dans le domaine de la vision par ordinateur, nécessitant un modèle capable de raisonner sur des séquences multimodales étendues. Inspirés par le processus cognitif humain pour la compréhension des vidéos longues, nous mettons l'accent sur le raisonnement interactif et la planification plutôt que sur la capacité à traiter des entrées visuelles prolongées. Nous introduisons un système novateur basé sur des agents, VideoAgent, qui utilise un grand modèle de langage comme agent central pour identifier et compiler de manière itérative les informations cruciales afin de répondre à une question, avec des modèles de base vision-langage servant d'outils pour traduire et récupérer les informations visuelles. Évalué sur les benchmarks exigeants EgoSchema et NExT-QA, VideoAgent atteint une précision en zero-shot de 54,1 % et 71,3 % en utilisant respectivement seulement 8,4 et 8,2 images en moyenne. Ces résultats démontrent une efficacité et une efficience supérieures de notre méthode par rapport aux méthodes actuelles de pointe, soulignant le potentiel des approches basées sur des agents pour faire progresser la compréhension des vidéos longues.
L'alignement des grands modèles de langage est généralement effectué par les fournisseurs de modèles pour ajouter ou contrôler des comportements qui sont communs ou universellement compris à travers les cas d'utilisation et les contextes. En revanche, dans cet article, nous présentons une approche et une architecture qui permettent aux développeurs d'applications d'ajuster un modèle à leurs valeurs particulières, normes sociales, lois et autres réglementations, et d'orchestrer entre des exigences potentiellement conflictuelles en contexte. Nous décrivons trois composants principaux d'une telle architecture de Studio d'Alignement : les Cadreurs, les Instructeurs et les Auditeurs, qui travaillent de concert pour contrôler le comportement d'un modèle de langage. Nous illustrons cette approche avec un exemple continu d'alignement d'un chatbot interne d'entreprise aux directives de conduite commerciale de l'entreprise.
Dans cet article, nous présentons une approche améliorée du décodage spéculatif visant à accroître l'efficacité du déploiement des grands modèles de langage. Notre méthode tire parti des forces de deux techniques établies : l'approche classique de décodage spéculatif à deux modèles, et l'approche plus récente à modèle unique, Medusa. S'inspirant de Medusa, notre approche adopte une stratégie de décodage spéculatif à modèle unique. Cependant, notre méthode se distingue par l'utilisation d'une seule tête de brouillon légère avec une conception de dépendance récurrente, similaire en essence au petit modèle de brouillon utilisé dans le décodage spéculatif classique, mais sans les complexités de l'architecture complète du transformeur. Grâce à la dépendance récurrente, nous pouvons utiliser la recherche par faisceau pour filtrer rapidement les candidats indésirables avec la tête de brouillon. Le résultat est une méthode qui combine la simplicité de la conception à modèle unique et évite la nécessité de créer une structure d'attention arborescente dépendante des données uniquement pour l'inférence dans Medusa. Nous démontrons empiriquement l'efficacité de la méthode proposée sur plusieurs modèles de langage open source populaires, accompagnée d'une analyse approfondie des compromis impliqués dans l'adoption de cette approche.
Les modèles de génération audio et musicale basés sur la diffusion produisent généralement de la musique en construisant une représentation visuelle de l'audio (par exemple, un mél-spectrogramme), puis en la convertissant en audio à l'aide d'un modèle de reconstruction de phase ou d'un vocodeur. Cependant, les vocodeurs classiques produisent un audio monophonique à des résolutions inférieures (par exemple, 16-24 kHz), ce qui limite leur efficacité. Nous proposons MusicHiFi — un vocodeur stéréophonique haute fidélité et efficace. Notre méthode utilise une cascade de trois réseaux antagonistes génératifs (GAN) qui convertissent des mél-spectrogrammes basse résolution en audio, augmentent la résolution audio via une extension de bande passante, et transforment l'audio en stéréo. Par rapport aux travaux précédents, nous proposons 1) une architecture unifiée de générateur et de discriminateur basée sur les GAN, ainsi qu'une procédure d'entraînement pour chaque étape de notre cascade, 2) un nouveau module d'extension de bande passante rapide et quasi compatible avec le sous-échantillonnage, et 3) un nouvel upmixer mono-vers-stéréo rapide et compatible avec le downmix, garantissant la préservation du contenu monophonique en sortie. Nous évaluons notre approche à l'aide de tests d'écoute objectifs et subjectifs, et constatons qu'elle offre une qualité audio comparable ou supérieure, un meilleur contrôle de la spatialisation, et une vitesse d'inférence significativement plus rapide par rapport aux travaux précédents. Des exemples sonores sont disponibles sur https://MusicHiFi.github.io/web/.
La reconstruction d'objets 3D détaillés à partir d'images monoculaires reste une tâche complexe en raison des informations limitées disponibles. Dans cet article, nous présentons FDGaussian, un nouveau cadre en deux étapes pour la reconstruction 3D à partir d'une seule image. Les méthodes récentes utilisent généralement des modèles de diffusion 2D pré-entraînés pour générer des vues plausibles à partir de l'image d'entrée, mais elles rencontrent des problèmes d'incohérence multi-vues ou de manque de fidélité géométrique. Pour surmonter ces défis, nous proposons un mécanisme de décomposition en plans orthogonaux pour extraire des caractéristiques géométriques 3D à partir de l'entrée 2D, permettant ainsi la génération d'images multi-vues cohérentes. De plus, nous accélérons l'état de l'art du Gaussian Splatting en intégrant une attention épipolaire pour fusionner les images provenant de différents points de vue. Nous démontrons que FDGaussian génère des images avec une grande cohérence entre les différentes vues et reconstruit des objets 3D de haute qualité, à la fois qualitativement et quantitativement. Plus d'exemples sont disponibles sur notre site web https://qjfeng.net/FDGaussian/.
Les efforts antérieurs dans le développement de modèles légers se sont principalement concentrés sur des architectures basées sur les CNN et les Transformers, mais ont rencontré des défis persistants. Les CNN, bien qu'habiles à extraire des caractéristiques locales, compromettent la résolution, tandis que les Transformers offrent une portée globale mais augmentent les exigences computationnelles en O(N^2). Ce compromis permanent entre précision et efficacité reste un obstacle majeur. Récemment, les modèles d'espace d'état (SSMs), tels que Mamba, ont montré des performances exceptionnelles et une compétitivité dans diverses tâches telles que la modélisation du langage et la vision par ordinateur, tout en réduisant la complexité temporelle de l'extraction d'informations globales à O(N). Inspirés par cela, ce travail propose d'explorer le potentiel des modèles d'espace d'état visuels dans la conception de modèles légers et introduit une nouvelle variante de modèle efficace appelée EfficientVMamba. Concrètement, notre EfficientVMamba intègre une approche de balayage sélectif basée sur l'atrous par un échantillonnage efficace, constituant des blocs de construction conçus pour exploiter à la fois les caractéristiques de représentation globales et locales. De plus, nous étudions l'intégration entre les blocs SSM et les convolutions, et introduisons un bloc d'espace d'état visuel efficace combiné avec une branche de convolution supplémentaire, ce qui améliore encore les performances du modèle. Les résultats expérimentaux montrent qu'EfficientVMamba réduit la complexité computationnelle tout en obtenant des résultats compétitifs dans une variété de tâches de vision. Par exemple, notre EfficientVMamba-S avec 1,3G FLOPs améliore Vim-Ti avec 1,5G FLOPs par une marge significative de 5,6% en précision sur ImageNet. Le code est disponible à l'adresse : https://github.com/TerryPei/EfficientVMamba.
Encouragé par la disponibilité croissante de modèles de diffusion 2D pré-entraînés, la génération d'images en 3D en exploitant le Score Distillation Sampling (SDS) réalise des progrès remarquables. La plupart des méthodes existantes combinent une élévation de nouvelles vues à partir de modèles de diffusion 2D, qui prennent généralement l'image de référence comme condition, tout en appliquant une supervision stricte par L2 sur la vue de référence. Cependant, une adhérence excessive à l'image tend à corrompre les connaissances inductives du modèle de diffusion 2D, conduisant fréquemment à une génération 3D plate ou déformée. Dans ce travail, nous réexaminons la génération d'images en 3D sous un nouvel angle et présentons Isotropic3D, un pipeline de génération d'images en 3D qui ne prend en entrée qu'une embedding CLIP d'image. Isotropic3D permet à l'optimisation d'être isotrope par rapport à l'angle azimutal en s'appuyant uniquement sur la perte SDS. Le cœur de notre cadre repose sur un affinage en deux étapes d'un modèle de diffusion. Premièrement, nous affinons un modèle de diffusion texte-à-3D en remplaçant son encodeur de texte par un encodeur d'image, ce qui permet au modèle d'acquérir préliminairement des capacités image-à-image. Deuxièmement, nous effectuons un affinage en utilisant notre Explicit Multi-view Attention (EMA), qui combine des images multi-vues bruitées avec l'image de référence sans bruit comme condition explicite. L'embedding CLIP est envoyé au modèle de diffusion tout au long du processus, tandis que les images de référence sont abandonnées une fois l'affinage terminé. En conséquence, avec une seule embedding CLIP d'image, Isotropic3D est capable de générer des images multi-vues mutuellement cohérentes ainsi qu'un modèle 3D avec un contenu plus symétrique et net, une géométrie bien proportionnée, une texture riche en couleurs et moins de distorsion par rapport aux méthodes existantes de génération d'images en 3D, tout en préservant largement la similarité avec l'image de référence. La page du projet est disponible à l'adresse https://isotropic3d.github.io/. Le code et les modèles sont disponibles à l'adresse https://github.com/pkunliu/Isotropic3D.
Alors que les tâches de génération de texte-à-3D et d'image-à-3D ont reçu une attention considérable, un domaine important mais peu exploré entre elles est la génération contrôlée de texte-à-3D, sur laquelle nous nous concentrons principalement dans ce travail. Pour aborder cette tâche, 1) nous introduisons Multi-view ControlNet (MVControl), une nouvelle architecture de réseau neuronal conçue pour améliorer les modèles de diffusion multi-vues pré-entraînés existants en intégrant des conditions d'entrée supplémentaires, telles que les cartes de contours, de profondeur, de normales et de gribouillis. Notre innovation réside dans l'introduction d'un module de conditionnement qui contrôle le modèle de diffusion de base en utilisant à la fois des embeddings locaux et globaux, calculés à partir des images de condition d'entrée et des poses de caméra. Une fois entraîné, MVControl est capable de fournir un guidage de diffusion 3D pour la génération de 3D basée sur l'optimisation. Et, 2) nous proposons un pipeline de génération 3D multi-étapes efficace qui tire parti des avantages des récents modèles de reconstruction à grande échelle et de l'algorithme de distillation de score. En nous appuyant sur notre architecture MVControl, nous employons une méthode unique de guidage hybride par diffusion pour diriger le processus d'optimisation. Dans un souci d'efficacité, nous adoptons les Gaussiennes 3D comme représentation au lieu des représentations implicites couramment utilisées. Nous sommes également les premiers à utiliser SuGaR, une représentation hybride qui lie les Gaussiennes aux faces des triangles du maillage. Cette approche atténue le problème de la mauvaise géométrie dans les Gaussiennes 3D et permet la sculpture directe de la géométrie fine sur le maillage. Des expériences approfondies démontrent que notre méthode atteint une généralisation robuste et permet la génération contrôlée de contenu 3D de haute qualité.
L'estimation en temps réel du flux optique avec une grande précision est un composant crucial dans diverses applications, notamment la localisation et la cartographie en robotique, le suivi d'objets et la reconnaissance d'activités en vision par ordinateur. Bien que les méthodes récentes de flux optique basées sur l'apprentissage aient atteint une grande précision, elles s'accompagnent souvent de coûts de calcul élevés. Dans cet article, nous proposons une architecture de flux optique hautement efficace, appelée NeuFlow, qui répond à la fois aux préoccupations de précision élevée et de coût de calcul. L'architecture suit un schéma global-local. Étant donné les caractéristiques des images d'entrée extraites à différentes résolutions spatiales, une correspondance globale est utilisée pour estimer un flux optique initial à la résolution 1/16, capturant les grands déplacements, qui est ensuite affiné à la résolution 1/8 avec des couches CNN légères pour une meilleure précision. Nous évaluons notre approche sur Jetson Orin Nano et RTX 2080 pour démontrer les améliorations d'efficacité sur différentes plateformes de calcul. Nous obtenons une accélération notable de 10x à 80x par rapport à plusieurs méthodes de pointe, tout en maintenant une précision comparable. Notre approche atteint environ 30 FPS sur les plateformes de calcul en périphérie, ce qui représente une avancée significative dans le déploiement de tâches complexes de vision par ordinateur telles que SLAM sur de petits robots comme les drones. Le code complet d'entraînement et d'évaluation est disponible à l'adresse https://github.com/neufieldrobotics/NeuFlow.