Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les évaluations récentes des modèles de langage à grande échelle (LLMs) se sont concentrées sur le test de leurs capacités en zero-shot/few-shot pour des tâches de base en traitement du langage naturel et sur leur aptitude à traduire des instructions en API d'outils. Cependant, l'évaluation des LLMs utilisant des outils complexes pour accomplir des instructions multi-tours et multi-modales dans un environnement multi-modal complexe n'a pas été explorée. Pour combler cette lacune, nous introduisons le benchmark PowerPoint Task Completion (PPTC) afin d'évaluer la capacité des LLMs à créer et modifier des fichiers PPT sur la base d'instructions utilisateur. Il contient 279 sessions multi-tours couvrant des sujets variés et des centaines d'instructions impliquant des opérations multi-modales. Nous proposons également le système d'évaluation PPTX-Match qui vérifie si les LLMs exécutent l'instruction en se basant sur le fichier de prédiction plutôt que sur la séquence d'API de référence, ce qui permet de supporter diverses séquences d'API générées par les LLMs. Nous avons mesuré 3 LLMs propriétaires et 6 LLMs open-source. Les résultats montrent que GPT-4 surpasse les autres LLMs avec une précision de 75,1 % dans les tests de dialogue en un seul tour, mais rencontre des difficultés à accomplir des sessions entières, atteignant seulement 6 % de précision par session. Nous identifions trois causes principales d'erreurs dans notre benchmark : l'accumulation d'erreurs dans les sessions multi-tours, le traitement des modèles PPT longs et la perception multi-modale. Ces éléments représentent des défis majeurs pour les futurs systèmes LLM et agents. Nous mettons à disposition les données, le code et le système d'évaluation de PPTC à l'adresse https://github.com/gydpku/PPTC.
Nous proposons Fast Language-Audio Pre-training (FLAP), une approche auto-supervisée qui apprend de manière efficace et efficiente des représentations alignées de l'audio et du langage grâce au masquage, à l'apprentissage contrastif et à la reconstruction. Pour l'efficacité, FLAP supprime aléatoirement des tokens de spectrogramme audio, en se concentrant uniquement sur ceux qui restent pour l'auto-supervision. Grâce à l'apprentissage contrastif inter-modal, FLAP apprend à aligner les représentations audio et texte appariées dans un espace latent partagé. Notamment, FLAP exploite plusieurs vues augmentées via le masquage pour le contraste inter-modal et apprend à reconstruire la partie masquée des tokens audio. De plus, FLAP utilise des modèles de langage de grande taille (LLMs) pour augmenter les entrées textuelles, contribuant ainsi à une amélioration des performances. Ces approches conduisent à des représentations audio-texte plus robustes et informatives, permettant à FLAP d'atteindre des performances de pointe (SoTA) sur les tâches de récupération audio-texte sur AudioCaps (atteignant 53,0 % R@1) et Clotho (atteignant 25,5 % R@1).
Nous présentons EmerNeRF, une approche simple mais puissante pour l'apprentissage de représentations spatio-temporelles de scènes de conduite dynamiques. Fondé sur les champs neuronaux, EmerNeRF capture simultanément la géométrie, l'apparence, le mouvement et la sémantique des scènes via un auto-amorçage. EmerNeRF repose sur deux composants clés : Premièrement, il stratifie les scènes en champs statiques et dynamiques. Cette décomposition émerge purement de l'auto-supervision, permettant à notre modèle d'apprendre à partir de sources de données générales et non contrôlées. Deuxièmement, EmerNeRF paramétrise un champ de flux induit à partir du champ dynamique et utilise ce champ de flux pour agréger davantage les caractéristiques multi-images, amplifiant ainsi la précision de rendu des objets dynamiques. Le couplage de ces trois champs (statique, dynamique et flux) permet à EmerNeRF de représenter des scènes hautement dynamiques de manière autonome, sans dépendre d'annotations de vérité terrain ou de modèles pré-entraînés pour la segmentation d'objets dynamiques ou l'estimation du flux optique. Notre méthode atteint des performances de pointe en simulation de capteurs, surpassant significativement les méthodes précédentes lors de la reconstruction de scènes statiques (+2.93 PSNR) et dynamiques (+3.70 PSNR). De plus, pour renforcer la généralisation sémantique d'EmerNeRF, nous élevons les caractéristiques des modèles de fondation visuels 2D dans l'espace-temps 4D et abordons un biais positionnel général dans les Transformers modernes, améliorant significativement les performances de perception 3D (par exemple, une amélioration relative de 37.50% en moyenne dans la précision de prédiction d'occupation). Enfin, nous construisons un ensemble de données diversifié et exigeant de 120 séquences pour évaluer les champs neuronaux dans des contextes extrêmes et hautement dynamiques.