Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les systèmes modernes d'intelligence artificielle (IA) sont alimentés par des modèles de base. Cet article présente un nouvel ensemble de modèles de base, appelé Llama 3. Il s'agit d'une famille de modèles de langage qui prennent nativement en charge le multilinguisme, le codage, le raisonnement et l'utilisation d'outils. Notre plus grand modèle est un Transformer dense avec 405 milliards de paramètres et une fenêtre contextuelle allant jusqu'à 128 000 tokens. Cet article présente une évaluation empirique approfondie de Llama 3. Nous constatons que Llama 3 offre une qualité comparable à celle des principaux modèles de langage tels que GPT-4 sur une multitude de tâches. Nous rendons Llama 3 accessible au public, y compris les versions pré-entraînées et post-entraînées du modèle de langage à 405 milliards de paramètres et notre modèle Llama Guard 3 pour la sécurité des entrées et sorties. L'article présente également les résultats d'expériences dans lesquelles nous intégrons des capacités de traitement d'images, de vidéos et de parole dans Llama 3 via une approche compositionnelle. Nous observons que cette approche rivalise avec l'état de l'art sur les tâches de reconnaissance d'images, de vidéos et de parole. Les modèles résultants ne sont pas encore largement diffusés car ils sont encore en cours de développement.
Les récents progrès dans le domaine des Transformers de Diffusion (DiT) ont démontré une remarquable aptitude à produire des contenus vidéo de haute qualité. Cependant, le potentiel des modèles de diffusion basés sur les transformers pour générer efficacement des vidéos avec un mouvement contrôlable reste un domaine peu exploré. Cet article présente Tora, le premier cadre DiT orienté trajectoire qui intègre simultanément des conditions textuelles, visuelles et de trajectoire pour la génération de vidéos. Plus précisément, Tora se compose d'un Extracteur de Trajectoire (TE), d'un DiT Spatio-Temporel, et d'un Fuseur de Guidage de Mouvement (MGF). Le TE encode des trajectoires arbitraires en patches de mouvement spatio-temporels hiérarchiques à l'aide d'un réseau de compression vidéo 3D. Le MGF intègre ces patches de mouvement dans les blocs DiT pour générer des vidéos cohérentes suivant les trajectoires. Notre conception s'aligne parfaitement avec l'évolutivité des DiT, permettant un contrôle précis de la dynamique du contenu vidéo avec des durées, des ratios d'aspect et des résolutions variés. Des expériences approfondies démontrent l'excellence de Tora dans l'atteinte d'une fidélité de mouvement élevée, tout en simulant méticuleusement le mouvement du monde physique. La page peut être consultée à l'adresse https://ali-videoai.github.io/tora_video.
Nous présentons MoMa, une architecture novatrice de mélange d'experts (MoE) sensible aux modalités, conçue pour le pré-entraînement de modèles de langage à fusion précoce et multimodaux. MoMa traite les images et le texte dans des séquences arbitraires en divisant les modules experts en groupes spécifiques à chaque modalité. Ces groupes traitent exclusivement les tokens désignés tout en utilisant un routage appris au sein de chaque groupe pour maintenir une adaptabilité sémantiquement informée. Nos résultats empiriques révèlent des gains substantiels d'efficacité lors du pré-entraînement grâce à cette allocation de paramètres spécifique aux modalités. Avec un budget d'entraînement de 1 trillion de tokens, le modèle MoMa 1.4B, doté de 4 experts pour le texte et 4 experts pour les images, réalise des économies impressionnantes en termes de FLOPs : 3,7x globalement, avec 2,6x pour le texte et 5,2x pour le traitement des images par rapport à une base dense de calcul équivalent, mesuré par la perte lors du pré-entraînement. Cela surpasse le MoE standard avec choix d'experts utilisant 8 experts multimodaux, qui atteint des économies globales de FLOPs de 3x (3x pour le texte, 2,8x pour les images). La combinaison de MoMa avec le mélange de profondeurs (MoD) améliore encore les économies de FLOPs lors du pré-entraînement à 4,2x globalement (texte : 3,4x, images : 5,3x), bien que cette combinaison nuise aux performances en inférence causale en raison d'une sensibilité accrue à la précision du routeur. Ces résultats démontrent le potentiel de MoMa à faire progresser significativement l'efficacité du pré-entraînement des modèles de langage à fusion précoce et multimodaux, ouvrant la voie à des systèmes d'IA multimodaux plus efficaces en termes de ressources et plus performants.
Dans cet article, nous présentons Cross Language Agent -- Simultaneous Interpretation (CLASI), un système de traduction simultanée de la parole (SiST) de haute qualité et proche de l'humain. Inspiré par les interprètes professionnels humains, nous utilisons une nouvelle stratégie de lecture-écriture basée sur les données pour équilibrer la qualité de la traduction et la latence. Pour relever le défi de la traduction des terminologies spécifiques à un domaine, CLASI emploie un module de récupération multi-modal pour obtenir des informations pertinentes afin d'enrichir la traduction. Soutenu par des modèles de langage de grande taille (LLMs), notre approche peut générer une traduction tolérante aux erreurs en tenant compte de l'audio d'entrée, du contexte historique et des informations récupérées. Les résultats expérimentaux montrent que notre système surpasse les autres systèmes par des marges significatives. Aligné sur les interprètes professionnels humains, nous évaluons CLASI avec une meilleure métrique d'évaluation humaine, la proportion d'informations valides (VIP), qui mesure la quantité d'informations pouvant être transmises avec succès aux auditeurs. Dans les scénarios réels, où les discours sont souvent disfluents, informels et peu clairs, CLASI atteint un VIP de 81,3 % et 78,0 % pour les directions de traduction chinois-anglais et anglais-chinois, respectivement. En revanche, les systèmes commerciaux ou open-source de pointe n'atteignent que 35,4 % et 41,6 %. Sur le jeu de données extrêmement difficile, où les autres systèmes atteignent moins de 13 % de VIP, CLASI peut encore atteindre 70 % de VIP.
Nous présentons ShieldGemma, une suite complète de modèles de modération de contenu basés sur des LLM (modèles de langage de grande taille), construits sur Gemma2. Ces modèles offrent des prédictions robustes et de pointe en matière de risques de sécurité pour les principaux types de contenus nuisibles (contenu sexuellement explicite, contenu dangereux, harcèlement, discours haineux) dans les entrées utilisateur et les sorties générées par les LLM. En évaluant à la fois sur des benchmarks publics et internes, nous démontrons une performance supérieure par rapport aux modèles existants, tels que Llama Guard (+10,8\% AU-PRC sur les benchmarks publics) et WildCard (+4,3\%). De plus, nous présentons un pipeline novateur de curation de données basé sur les LLM, adaptable à une variété de tâches liées à la sécurité et au-delà. Nous avons montré une forte performance de généralisation pour les modèles principalement entraînés sur des données synthétiques. En publiant ShieldGemma, nous offrons une ressource précieuse à la communauté de recherche, faisant progresser la sécurité des LLM et permettant la création de solutions de modération de contenu plus efficaces pour les développeurs.
Le premier atelier sur la contamination des données (CONDA 2024) se concentre sur tous les aspects pertinents de la contamination des données en traitement automatique du langage naturel, où la contamination des données est définie comme des situations où les données d'évaluation sont incluses dans les corpus de pré-entraînement utilisés pour entraîner des modèles à grande échelle, compromettant ainsi les résultats d'évaluation. L'atelier a lancé une tâche partagée pour recueillir des preuves de contamination des données dans les ensembles de données et les modèles actuellement disponibles. L'objectif de cette tâche partagée et de la base de données associée est d'aider la communauté à comprendre l'étendue du problème et de permettre aux chercheurs d'éviter de rapporter des résultats d'évaluation sur des ressources connues comme étant contaminées. La tâche partagée fournit une base de données publique structurée et centralisée pour la collecte de preuves de contamination, ouverte aux contributions de la communauté via des demandes de pull sur GitHub. Ce premier article de compilation est basé sur 566 entrées signalées concernant 91 sources contaminées, provenant d'un total de 23 contributeurs. Les détails des événements individuels de contamination sont disponibles sur la plateforme. La plateforme reste en ligne et ouverte aux contributions de la communauté.
La segmentation sémantique audio-visuelle (AVSS) vise à segmenter et classer les objets sonores dans les vidéos à l'aide d'indices acoustiques. Cependant, la plupart des approches opèrent sous l'hypothèse de catégories fermées et ne peuvent identifier que des catégories prédéfinies à partir des données d'entraînement, manquant ainsi de la capacité de généralisation nécessaire pour détecter des catégories nouvelles dans des applications pratiques. Dans cet article, nous introduisons une nouvelle tâche : la segmentation sémantique audio-visuelle à vocabulaire ouvert, étendant la tâche AVSS à des scénarios de monde ouvert au-delà de l'espace de labels annotés. Il s'agit d'une tâche plus complexe qui nécessite de reconnaître toutes les catégories, y compris celles qui n'ont jamais été vues ni entendues pendant l'entraînement. De plus, nous proposons le premier cadre AVSS à vocabulaire ouvert, OV-AVSS, qui se compose principalement de deux parties : 1) un module universel de localisation des sources sonores pour effectuer la fusion audio-visuelle et localiser tous les objets sonores potentiels, et 2) un module de classification à vocabulaire ouvert pour prédire les catégories en s'appuyant sur les connaissances préalables issues de modèles vision-langage pré-entraînés à grande échelle. Pour évaluer correctement l'AVSS à vocabulaire ouvert, nous avons divisé des sous-ensembles d'entraînement et de test zero-shot basés sur le benchmark AVSBench-semantic, nommé AVSBench-OV. Des expériences approfondies démontrent la forte capacité de segmentation et de généralisation zero-shot de notre modèle sur toutes les catégories. Sur le jeu de données AVSBench-OV, OV-AVSS atteint 55,43 % de mIoU sur les catégories de base et 29,14 % de mIoU sur les catégories nouvelles, surpassant la méthode zero-shot de pointe de 41,88 %/20,61 % et la méthode à vocabulaire ouvert de 10,2 %/11,6 %. Le code est disponible à l'adresse https://github.com/ruohaoguo/ovavss.
Nous présentons Berkeley Humanoid, une plateforme de recherche humanoïde fiable et à faible coût, conçue pour le contrôle basé sur l'apprentissage. Notre robot léger, construit en interne, est spécifiquement conçu pour les algorithmes d'apprentissage avec une faible complexité de simulation, un mouvement anthropomorphique et une grande résistance aux chutes. Le faible écart entre simulation et réalité du robot permet une locomotion agile et robuste sur divers terrains en extérieur, obtenue avec un simple contrôleur d'apprentissage par renforcement utilisant une légère randomisation de domaine. De plus, nous démontrons que le robot peut parcourir des centaines de mètres, marcher sur un sentier escarpé non pavé et sauter sur une ou deux jambes, témoignant ainsi de ses hautes performances en marche dynamique. Capable d'une locomotion omnidirectionnelle et de résister à de fortes perturbations avec une configuration compacte, notre système vise un déploiement évolutif et sim-to-real des systèmes humanoïdes basés sur l'apprentissage. Pour plus de détails, veuillez consulter http://berkeley-humanoid.com.
Les expressions faciales et les mouvements des mains sont essentiels pour exprimer nos émotions et interagir avec le monde. Cependant, la plupart des avatars humains 3D modélisés à partir d'une vidéo capturée de manière informelle ne prennent en charge que les mouvements du corps, sans inclure les expressions faciales ni les mouvements des mains. Dans ce travail, nous présentons ExAvatar, un avatar humain 3D complet et expressif appris à partir d'une courte vidéo monoculaire. Nous concevons ExAvatar comme une combinaison du modèle de maillage paramétrique complet du corps (SMPL-X) et du lissage par Gaussiennes 3D (3DGS). Les principaux défis sont 1) une diversité limitée des expressions faciales et des poses dans la vidéo et 2) l'absence d'observations 3D, telles que des scans 3D et des images RGBD. La diversité limitée dans la vidéo rend les animations avec de nouvelles expressions faciales et poses non triviales. De plus, l'absence d'observations 3D pourrait entraîner une ambiguïté significative dans les parties du corps humain non observées dans la vidéo, ce qui peut provoquer des artefacts visibles sous de nouveaux mouvements. Pour y remédier, nous introduisons notre représentation hybride du maillage et des Gaussiennes 3D. Notre représentation hybride traite chaque Gaussienne 3D comme un sommet sur la surface avec des informations de connectivité prédéfinies (c'est-à-dire des faces triangulaires) entre elles, suivant la topologie de maillage de SMPL-X. Cela rend notre ExAvatar animable avec de nouvelles expressions faciales en étant piloté par l'espace des expressions faciales de SMPL-X. De plus, en utilisant des régularisateurs basés sur la connectivité, nous réduisons considérablement les artefacts dans les nouvelles expressions faciales et poses.
L'obfuscation de paternité vise à masquer l'identité d'un auteur dans un texte en modifiant le style d'écriture, le vocabulaire, la syntaxe et d'autres caractéristiques linguistiques associées à l'auteur du texte. Cette altération doit équilibrer confidentialité et utilité. Bien que des techniques d'obfuscation robustes puissent efficacement dissimuler l'identité de l'auteur, elles dégradent souvent la qualité et l'utilité du texte pour son objectif initial. Inversement, maintenir une utilité élevée tend à offrir une confidentialité insuffisante, facilitant la désanonymisation de l'auteur par un adversaire. Ainsi, parvenir à un compromis optimal entre ces deux objectifs conflictuels est crucial. Dans cet article, nous proposons TAROT : Obfuscation de Paternité Orientée Tâche Utilisant l'Optimisation de Politique, une nouvelle méthode non supervisée d'obfuscation de paternité dont le but est d'optimiser le compromis confidentialité-utilité en régénérant l'intégralité du texte en tenant compte de son utilité en aval. Notre approche exploite l'optimisation de politique comme paradigme de fine-tuning sur des modèles de langage de petite taille afin de réécrire les textes en préservant l'identité de l'auteur et l'utilité pour la tâche en aval. Nous montrons que notre approche réduit considérablement la précision des attaquants tout en préservant l'utilité. Nous mettons notre code et nos modèles à disposition du public.
Les modèles de fondation visuels actuels sont entraînés exclusivement sur des données 2D non structurées, ce qui limite leur compréhension de la structure 3D des objets et des scènes. Dans ce travail, nous montrons que l'affinage sur des données conscientes de la 3D améliore la qualité des caractéristiques sémantiques émergentes. Nous concevons une méthode pour transformer les caractéristiques sémantiques 2D en une représentation 3D efficace basée sur des gaussiennes, ce qui nous permet de les re-rendre pour des vues arbitraires. En utilisant les caractéristiques rendues conscientes de la 3D, nous concevons une stratégie d'affinage pour transférer cette conscience 3D dans un modèle de fondation 2D. Nous démontrons que les modèles affinés de cette manière produisent des caractéristiques qui améliorent directement les performances des tâches en aval, telles que la segmentation sémantique et l'estimation de la profondeur, grâce à un simple sondage linéaire. Notamment, bien qu'affinés sur un seul ensemble de données intérieures, l'amélioration est transférable à une variété de jeux de données intérieurs et à des ensembles de données hors domaine. Nous espérons que notre étude encouragera la communauté à envisager d'injecter une conscience 3D lors de l'entraînement des modèles de fondation 2D. Page du projet : https://ywyue.github.io/FiT3D.
L'intégration d'une dimension temporelle dans les modèles de diffusion d'images pré-entraînés pour la génération de vidéos est une approche courante. Cependant, cette méthode est exigeante en termes de calcul et nécessite des ensembles de données vidéo à grande échelle. Plus crucial encore, l'hétérogénéité entre les ensembles de données d'images et de vidéos entraîne souvent un oubli catastrophique de l'expertise en images. Des tentatives récentes pour extraire directement des extraits vidéo à partir de modèles de diffusion d'images ont quelque peu atténué ces problèmes. Néanmoins, ces méthodes ne peuvent générer que de courts clips vidéo avec des mouvements simples et ne parviennent pas à capturer des mouvements fins ou des déformations non structurées. Dans cet article, nous proposons un nouvel algorithme d'échantillonnage vidéo Zero-Shot, dénommé ZS^2, capable de générer directement des clips vidéo de haute qualité à partir de méthodes de synthèse d'images existantes, telles que Stable Diffusion, sans aucun entraînement ou optimisation. Plus précisément, ZS^2 utilise le modèle de bruit de dépendance et l'attention à l'élan temporel pour assurer respectivement la cohérence du contenu et la fluidité de l'animation. Cette capacité lui permet d'exceller dans des tâches connexes, telles que la génération de vidéos conditionnelles et spécialisées dans un contexte, ainsi que l'édition de vidéos guidée par des instructions. Les résultats expérimentaux montrent que ZS^2 atteint des performances de pointe en génération de vidéos zero-shot, surpassant parfois les méthodes supervisées récentes. Page d'accueil : https://densechen.github.io/zss/.
Les champs neuronaux excellent en vision par ordinateur et en robotique grâce à leur capacité à comprendre le monde visuel en 3D, comme l'inférence de sémantique, de géométrie et de dynamique. Étant donné les capacités des champs neuronaux à représenter de manière dense une scène 3D à partir d'images 2D, nous posons la question suivante : pouvons-nous mettre à l'échelle leur pré-entraînement auto-supervisé, en utilisant spécifiquement des autoencodeurs masqués, pour générer des représentations 3D efficaces à partir d'images RGB posées ? Grâce au succès impressionnant de l'extension des transformers à de nouvelles modalités de données, nous utilisons des Vision Transformers 3D standard pour s'adapter à la formulation unique des NeRFs. Nous exploitons la grille volumétrique de NeRF comme entrée dense pour le transformer, en la contrastant avec d'autres représentations 3D telles que les nuages de points où la densité d'information peut être inégale et la représentation irrégulière. En raison de la difficulté d'appliquer des autoencodeurs masqués à une représentation implicite, comme NeRF, nous optons pour l'extraction d'une représentation explicite qui canonise les scènes à travers les domaines en utilisant la trajectoire de la caméra pour l'échantillonnage. Notre objectif est rendu possible en masquant des patches aléatoires de la grille de radiance et de densité de NeRF et en utilisant un Swin Transformer 3D standard pour reconstruire les patches masqués. Ce faisant, le modèle peut apprendre la structure sémantique et spatiale de scènes complètes. Nous pré-entraînons cette représentation à grande échelle sur notre ensemble de données proposé d'images RGB posées, totalisant plus de 1,8 million d'images. Une fois pré-entraîné, l'encodeur est utilisé pour un transfert d'apprentissage 3D efficace. Notre nouveau pré-entraînement auto-supervisé pour les NeRFs, NeRF-MAE, s'adapte remarquablement bien et améliore les performances sur diverses tâches 3D complexes. En utilisant des données 2D posées non étiquetées pour le pré-entraînement, NeRF-MAE surpasse significativement le pré-entraînement 3D auto-supervisé et les bases de compréhension de scènes NeRF sur les ensembles de données Front3D et ScanNet avec une amélioration absolue des performances de plus de 20% AP50 et 8% AP25 pour la détection d'objets 3D.