Articles de recherche en IA sélectionnés quotidiennement avec traductions
Malgré leurs capacités remarquables, les grands modèles de langage (LLM) produisent souvent des réponses contenant des inexactitudes factuelles en raison de leur dépendance exclusive aux connaissances paramétriques qu'ils encapsulent. La Génération Augmentée par Récupération (RAG), une approche ad hoc qui enrichit les modèles de langage par la récupération de connaissances pertinentes, réduit ces problèmes. Cependant, récupérer et incorporer de manière indiscriminée un nombre fixe de passages, sans tenir compte de la nécessité de la récupération ou de la pertinence des passages, diminue la polyvalence des modèles de langage ou peut conduire à la génération de réponses inutiles. Nous introduisons un nouveau cadre appelé Génération Augmentée par Récupération et Auto-Réflexion (Self-RAG) qui améliore la qualité et la factualité d'un modèle de langage grâce à la récupération et à l'auto-réflexion. Notre cadre entraîne un seul modèle de langage arbitraire qui récupère de manière adaptative des passages à la demande, et génère et réfléchit sur les passages récupérés et ses propres générations en utilisant des tokens spéciaux, appelés tokens de réflexion. La génération de tokens de réflexion rend le modèle de langage contrôlable pendant la phase d'inférence, lui permettant d'adapter son comportement à diverses exigences de tâches. Les expériences montrent que Self-RAG (7B et 13B paramètres) surpasse significativement les LLM et les modèles augmentés par récupération de pointe sur un ensemble diversifié de tâches. Plus précisément, Self-RAG surpasse ChatGPT et Llama2-chat augmenté par récupération sur les tâches de question-réponse ouverte, de raisonnement et de vérification des faits, et il montre des gains significatifs dans l'amélioration de la factualité et de la précision des citations pour les générations longues par rapport à ces modèles.
Le traitement de la musique assisté par l'IA est un domaine diversifié qui englobe des dizaines de tâches, allant des tâches de génération (par exemple, la synthèse de timbres) aux tâches de compréhension (par exemple, la classification musicale). Pour les développeurs et les amateurs, il est très difficile de maîtriser toutes ces tâches pour répondre à leurs besoins en matière de traitement musical, surtout en considérant les énormes différences dans les représentations des données musicales et l'applicabilité des modèles sur différentes plateformes parmi les diverses tâches. Par conséquent, il est nécessaire de construire un système pour organiser et intégrer ces tâches, et ainsi aider les praticiens à analyser automatiquement leurs besoins et à appeler les outils appropriés comme solutions pour répondre à leurs exigences. Inspirés par le récent succès des grands modèles de langage (LLMs) dans l'automatisation des tâches, nous développons un système, nommé MusicAgent, qui intègre de nombreux outils liés à la musique et un flux de travail autonome pour répondre aux besoins des utilisateurs. Plus précisément, nous construisons 1) un ensemble d'outils qui collecte des outils provenant de diverses sources, y compris Hugging Face, GitHub, et les API Web, etc. 2) un flux de travail autonome alimenté par des LLMs (par exemple, ChatGPT) pour organiser ces outils et décomposer automatiquement les demandes des utilisateurs en plusieurs sous-tâches et invoquer les outils musicaux correspondants. L'objectif principal de ce système est de libérer les utilisateurs des complexités des outils IA-musique, leur permettant de se concentrer sur l'aspect créatif. En offrant aux utilisateurs la liberté de combiner facilement les outils, le système propose une expérience musicale fluide et enrichissante.
Les méthodes récentes de génération de texte-à-3D atteignent une capacité impressionnante de création de contenu 3D grâce aux avancées dans les modèles de diffusion d'images et les stratégies d'optimisation. Cependant, les méthodes actuelles peinent à générer un contenu 3D correct pour des prompts complexes sur le plan sémantique, c'est-à-dire des prompts décrivant plusieurs objets interagissant entre eux et associés à différents attributs. Dans ce travail, nous proposons un cadre général nommé Progressive3D, qui décompose la génération entière en une série d'étapes d'édition localement progressives pour créer un contenu 3D précis pour des prompts complexes, et nous contraignons le changement de contenu à se produire uniquement dans les régions déterminées par des prompts de région définis par l'utilisateur à chaque étape d'édition. De plus, nous proposons une technique de suppression des composants sémantiques superposés pour encourager le processus d'optimisation à se concentrer davantage sur les différences sémantiques entre les prompts. Des expériences approfondies démontrent que le cadre Progressive3D proposé génère un contenu 3D précis pour des prompts à sémantique complexe et est généralisable à diverses méthodes texte-à-3D pilotées par différentes représentations 3D.