Articles de recherche en IA sélectionnés quotidiennement avec traductions
Des modèles comme GPT-4o permettent une interaction en temps réel avec de grands modèles de langage (LLM) par la parole, améliorant significativement l'expérience utilisateur par rapport à une interaction traditionnelle basée sur le texte. Cependant, il existe encore un manque d'exploration sur la manière de construire des modèles d'interaction par la parole basés sur des LLM open source. Pour remédier à cela, nous proposons LLaMA-Omni, une architecture de modèle novatrice conçue pour une interaction par la parole avec des LLM à faible latence et de haute qualité. LLaMA-Omni intègre un encodeur de parole pré-entraîné, un adaptateur de parole, un LLM et un décodeur de parole en continu. Il élimine le besoin de transcription de la parole et peut générer simultanément des réponses textuelles et vocales directement à partir d'instructions vocales avec une latence extrêmement faible. Nous construisons notre modèle sur la base du dernier modèle Llama-3.1-8B-Instruct. Pour aligner le modèle avec des scénarios d'interaction par la parole, nous avons construit un ensemble de données nommé InstructS2S-200K, comprenant 200 000 instructions vocales et les réponses vocales correspondantes. Les résultats expérimentaux montrent que, par rapport aux modèles de langage parlé précédents, LLaMA-Omni fournit de meilleures réponses à la fois en contenu et en style, avec une latence de réponse aussi basse que 226 ms. De plus, l'entraînement de LLaMA-Omni prend moins de 3 jours sur seulement 4 GPU, ouvrant la voie au développement efficace de modèles de langage parlé à l'avenir.
La Génération Augmentée par Récupération (RAG) a émergé comme un paradigme courant pour utiliser les Grands Modèles de Langage (LLM) aux côtés de bases de connaissances privées et à jour. Dans ce travail, nous abordons les défis liés à l'utilisation de LLM-comme-Juge lors de l'évaluation des réponses fondées générées par les systèmes RAG. Pour évaluer les capacités de calibration et de discrimination des modèles de juges, nous identifions 7 modes d'échec des générateurs et introduisons GroUSE (Scoring Unitaire de l'Évaluation des Questions-Réponses Fondées), un banc d'essai de méta-évaluation de 144 tests unitaires. Ce banc d'essai révèle que les cadres d'évaluation RAG automatisés existants négligent souvent des modes d'échec importants, même lors de l'utilisation de GPT-4 comme juge. Pour améliorer la conception actuelle des cadres d'évaluation RAG automatisés, nous proposons un pipeline novateur et constatons que, bien que les modèles fermés performant bien sur GroUSE, les juges open-source de pointe ne se généralisent pas à nos critères proposés, malgré une forte corrélation avec le jugement de GPT-4. Nos résultats suggèrent que la corrélation avec GPT-4 est un proxy incomplet pour la performance pratique des modèles de juges et devrait être complétée par des évaluations sur des tests unitaires pour une détection précise des modes d'échec. Nous montrons en outre que le réglage fin de Llama-3 sur les traces de raisonnement de GPT-4 renforce significativement ses capacités d'évaluation, améliorant à la fois la corrélation avec les évaluations de GPT-4 et la calibration sur des situations de référence.
L'« affordance » désigne les interactions potentielles inhérentes aux objets. La perception de l'« affordance » peut permettre aux agents intelligents de naviguer et d'interagir efficacement avec de nouveaux environnements. Le « grounding » de l'« affordance » faiblement supervisé enseigne aux agents le concept d'« affordance » sans annotations coûteuses au niveau des pixels, mais avec des images exocentriques. Bien que les récents progrès dans le « grounding » faiblement supervisé de l'« affordance » aient donné des résultats prometteurs, il reste des défis, notamment l'exigence d'un ensemble de données d'images exocentriques et égocentriques appariées, et la complexité de l'ancrage de diverses « affordances » pour un seul objet. Pour les relever, nous proposons le « grounding » d'« affordance » faiblement supervisé conscient des relations d'interaction (INTRA). Contrairement aux travaux antérieurs, INTRA reformule ce problème comme un apprentissage de représentation pour identifier les caractéristiques uniques des interactions par l'apprentissage contrastif avec uniquement des images exocentriques, éliminant ainsi le besoin d'ensembles de données appariées. De plus, nous exploitons les plongements de modèles vision-langage pour effectuer l'ancrage d'« affordance » de manière flexible avec n'importe quel texte, concevant la génération de cartes d'« affordance » conditionnées par le texte pour refléter la relation d'interaction pour l'apprentissage contrastif et renforcer la robustesse avec notre augmentation de synonymes de texte. Notre méthode a surpassé les travaux antérieurs sur divers ensembles de données tels que AGD20K, IIT-AFF, CAD et UMD. De plus, les résultats expérimentaux démontrent que notre méthode a une remarquable scalabilité de domaine pour les images / illustrations synthétisées et est capable d'effectuer un ancrage d'« affordance » pour de nouvelles interactions et objets.
La musique est une partie intégrante de la culture humaine, incarnant l'intelligence et la créativité humaines, dont les chansons constituent une part essentielle. Alors que divers aspects de la génération de chansons ont été explorés par des travaux antérieurs, tels que la voix chantée, la composition vocale et l'arrangement instrumental, etc., la génération de chansons avec à la fois des voix et un accompagnement donnés des paroles reste un défi majeur, entravant l'application des modèles de génération musicale dans le monde réel. Dans cette optique, nous proposons SongCreator, un système de génération de chansons conçu pour relever ce défi. Le modèle présente deux conceptions novatrices : un modèle de langage à double séquence (DSLM) minutieusement conçu pour capturer les informations des voix et de l'accompagnement pour la génération de chansons, et une stratégie de masque d'attention supplémentaire pour DSLM, qui permet à notre modèle de comprendre, générer et éditer des chansons, le rendant adapté à diverses tâches de génération liées aux chansons. Des expériences approfondies démontrent l'efficacité de SongCreator en atteignant des performances de pointe ou compétitives sur les huit tâches. Notamment, il surpasse largement les travaux antérieurs dans la transformation de paroles en chansons et en voix. De plus, il est capable de contrôler indépendamment les conditions acoustiques des voix et de l'accompagnement dans la chanson générée à travers des invitations différentes, démontrant son applicabilité potentielle. Nos échantillons sont disponibles sur https://songcreator.github.io/.
Foley est un terme couramment utilisé dans le cinéma, faisant référence à l'ajout d'effets sonores quotidiens à des films muets ou des vidéos pour améliorer l'expérience auditive. La tâche de Vidéo vers Audio (V2A), en tant que type particulier de tâche de foley automatique, présente des défis inhérents liés à la synchronisation audio-visuelle. Ces défis englobent le maintien de la cohérence du contenu entre la vidéo d'entrée et l'audio généré, ainsi que l'alignement des propriétés temporelles et de volume au sein de la vidéo. Pour résoudre ces problèmes, nous avons construit un modèle de synthèse vidéo-vers-audio contrôlable, appelé Draw an Audio, qui prend en charge plusieurs instructions d'entrée à travers des masques dessinés et des signaux de volume. Pour garantir la cohérence du contenu entre l'audio synthétisé et la vidéo cible, nous introduisons le Module d'Attention par Masque (MAM), qui utilise des instructions vidéo masquées pour permettre au modèle de se concentrer sur les régions d'intérêt. De plus, nous mettons en œuvre le Module Temps-Volume (TLM), qui utilise un signal de volume auxiliaire pour garantir la synthèse d'un son qui s'aligne avec la vidéo à la fois en termes de volume et de dimensions temporelles. En outre, nous avons étendu un ensemble de données V2A à grande échelle, nommé VGGSound-Caption, en annotant des indications de légende. Des expériences approfondies sur des benchmarks difficiles à travers deux ensembles de données V2A à grande échelle confirment que Draw an Audio atteint l'état de l'art. Page du projet : https://yannqi.github.io/Draw-an-Audio/.
Ces dernières années, le développement de modèles de diffusion a conduit à des progrès significatifs dans les tâches de génération d'images et de vidéos, avec des modèles pré-entraînés tels que la série Stable Diffusion jouant un rôle crucial. Inspirés par l'élagage de modèles qui allège les grands modèles pré-entraînés en supprimant les paramètres non importants, nous proposons une nouvelle méthode de fine-tuning de modèle pour tirer pleinement parti de ces paramètres inefficaces et permettre au modèle pré-entraîné d'acquérir de nouvelles capacités spécifiques à la tâche. Dans ce travail, nous investiguons d'abord l'importance des paramètres dans les modèles de diffusion pré-entraînés, et découvrons que les 10% à 20% les plus petits des paramètres en valeurs absolues ne contribuent pas au processus de génération. Sur la base de cette observation, nous proposons une méthode appelée SaRA qui réutilise ces paramètres temporairement inefficaces, équivalant à optimiser une matrice de poids clairsemée pour apprendre la connaissance spécifique à la tâche. Pour atténuer le surajustement, nous proposons un schéma d'entraînement clairsemé à faible rang basé sur la norme nucléaire pour un fine-tuning efficace. De plus, nous concevons une nouvelle stratégie de réglage progressif des paramètres pour tirer pleinement parti des paramètres re-entraînés/finetuned. Enfin, nous proposons une nouvelle stratégie de rétropropagation non structurée, qui réduit significativement les coûts de mémoire lors du fine-tuning. Notre méthode améliore les capacités génératives des modèles pré-entraînés dans les applications aval et surpasse les méthodes traditionnelles de fine-tuning comme LoRA pour maintenir la capacité de généralisation du modèle. Nous validons notre approche à travers des expériences de fine-tuning sur les modèles SD, démontrant des améliorations significatives. SaRA offre également un avantage pratique qui nécessite seulement une seule modification de ligne de code pour une implémentation efficace et est parfaitement compatible avec les méthodes existantes.
Les Champs de Radiance Neuraux (NeRFs) ont révolutionné la reconstruction de scènes et d'objets statiques en 3D, offrant une qualité sans précédent. Cependant, étendre les NeRFs pour modéliser des objets dynamiques ou des articulations d'objets reste un problème complexe. Les travaux antérieurs ont abordé cette question en se concentrant sur la reconstruction au niveau des parties et l'estimation du mouvement des objets, mais ils reposent souvent sur des heuristiques concernant le nombre de parties mobiles ou les catégories d'objets, ce qui peut limiter leur utilisation pratique. Dans ce travail, nous introduisons LEIA, une nouvelle approche pour représenter des objets 3D dynamiques. Notre méthode implique d'observer l'objet à des instants de temps distincts ou "états" et de conditionner un hyper-réseau sur l'état actuel, en l'utilisant pour paramétrer notre NeRF. Cette approche nous permet d'apprendre une représentation latente invariante à la vue pour chaque état. Nous démontrons en outre qu'en interpolant entre ces états, nous pouvons générer de nouvelles configurations d'articulation dans l'espace 3D qui n'avaient pas été vues auparavant. Nos résultats expérimentaux mettent en évidence l'efficacité de notre méthode pour articuler des objets d'une manière indépendante de l'angle de vue et de la configuration des articulations. Notamment, notre approche surpasse les méthodes antérieures qui reposent sur des informations de mouvement pour l'enregistrement des articulations.