Articles de recherche en IA sélectionnés quotidiennement avec traductions
La communauté BigCode, une collaboration scientifique ouverte œuvrant pour le développement responsable de modèles de langage de grande taille pour le code (Code LLMs), présente StarCoder et StarCoderBase : des modèles de 15,5 milliards de paramètres avec une longueur de contexte de 8K, des capacités de remplissage et une inférence rapide en grands lots rendue possible par l'attention multi-requêtes. StarCoderBase est entraîné sur 1 trillion de tokens provenant de The Stack, une vaste collection de dépôts GitHub sous licence permissive, accompagnée d'outils d'inspection et d'un processus de désengagement. Nous avons affiné StarCoderBase sur 35 milliards de tokens Python, donnant naissance à StarCoder. Nous réalisons l'évaluation la plus complète à ce jour des Code LLMs et montrons que StarCoderBase surpasse tous les Code LLMs open source prenant en charge plusieurs langages de programmation, tout en égalant ou surpassant le modèle code-cushman-001 d'OpenAI. De plus, StarCoder surpasse tous les modèles affinés sur Python, peut atteindre 40 % de réussite au premier essai (pass@1) sur HumanEval, tout en conservant ses performances sur d'autres langages de programmation. Nous prenons plusieurs mesures importantes pour une publication sécurisée en accès libre, incluant un pipeline amélioré de suppression des informations personnelles (PII) et un nouvel outil de traçage d'attribution, et rendons les modèles StarCoder disponibles publiquement sous une version plus viable commercialement de la licence Open Responsible AI Model.
Dans cette étude, nous entamons une exploration de la compréhension vidéo en introduisant VideoChat, un système de compréhension vidéo centré sur le chat de bout en bout. Il intègre des modèles de base pour la vidéo et des modèles de langage de grande envergure via une interface neuronale apprenable, excellant dans le raisonnement spatio-temporel, la localisation d'événements et l'inférence de relations causales. Pour régler ce système de manière instructive, nous proposons un ensemble de données d'instructions centré sur la vidéo, composé de milliers de vidéos associées à des descriptions détaillées et des conversations. Cet ensemble de données met l'accent sur le raisonnement spatio-temporel et les relations causales, offrant une ressource précieuse pour l'entraînement de systèmes de compréhension vidéo centrés sur le chat. Des expériences qualitatives préliminaires révèlent le potentiel de notre système à travers un large éventail d'applications vidéo et établissent une norme pour les recherches futures. Accédez à notre code et à nos données sur https://github.com/OpenGVLab/Ask-Anything.
L'intelligence artificielle générative (AIGC, ou contenu généré par IA) a réalisé des progrès remarquables au cours des dernières années, parmi lesquels la génération de contenu guidée par texte est la plus pratique, car elle permet l'interaction entre les instructions humaines et l'AIGC. Grâce aux avancées dans les technologies de conversion texte-image ainsi que dans la modélisation 3D (comme NeRF), la conversion texte-3D est devenue un domaine de recherche émergent et très actif. Notre travail propose la première étude exhaustive sur le texte-3D, afin d'aider les lecteurs intéressés par ce domaine à suivre rapidement son développement rapide. Tout d'abord, nous présentons les représentations de données 3D, incluant à la fois les données euclidiennes et non euclidiennes. Ensuite, nous introduisons diverses technologies de base et résumons comment les travaux récents combinent ces technologies pour réaliser une conversion texte-3D satisfaisante. De plus, nous synthétisons les applications de la technologie texte-3D, notamment la génération d'avatars, la génération de textures, la transformation de formes et la génération de scènes.
La représentation fidèle des performances humaines constitue un élément essentiel pour diverses applications, telles que la production cinématographique, les jeux vidéo ou la visioconférence. Pour combler l'écart avec la qualité de niveau production, nous présentons HumanRF, une représentation neuronale dynamique 4D de scènes qui capture l'apparence complète du corps en mouvement à partir d'une entrée vidéo multi-vues, et permet une lecture sous des angles de vue nouveaux et inédits. Notre nouvelle représentation agit comme un encodage vidéo dynamique qui capture des détails fins à des taux de compression élevés en factorisant l'espace-temps via une décomposition matricielle-vectorielle temporelle. Cela nous permet d'obtenir des reconstructions temporellement cohérentes d'acteurs humains pour des séquences longues, tout en représentant des détails haute résolution même dans des contextes de mouvements complexes. Alors que la plupart des recherches se concentrent sur la synthèse à des résolutions de 4MP ou moins, nous relevons le défi d'opérer à 12MP. À cette fin, nous introduisons ActorsHQ, un nouveau jeu de données multi-vues qui fournit des séquences en 12MP provenant de 160 caméras pour 16 séquences, accompagnées de reconstructions de maillages haute fidélité par image. Nous mettons en évidence les défis qui émergent de l'utilisation de données à si haute résolution et montrons que notre HumanRF exploite efficacement ces données, marquant une avancée significative vers la synthèse de vues nouvelles de qualité production.
La construction de modèles 3D animables est un défi en raison de la nécessité de scans 3D, d'un enregistrement laborieux et d'un rigging manuel, qui sont difficiles à généraliser à des catégories arbitraires. Récemment, le rendu différenciable offre une voie pour obtenir des modèles 3D de haute qualité à partir de vidéos monoculaires, mais ceux-ci sont limités à des catégories rigides ou à des instances uniques. Nous présentons RAC, qui construit des modèles 3D par catégorie à partir de vidéos monoculaires tout en dissociant les variations entre instances et les mouvements dans le temps. Trois idées clés sont introduites pour résoudre ce problème : (1) l'adaptation d'un squelette à des instances via l'optimisation, (2) une méthode de régularisation de l'espace latent qui encourage une structure partagée au sein d'une catégorie tout en préservant les détails spécifiques à chaque instance, et (3) l'utilisation de modèles 3D d'arrière-plan pour dissocier les objets du fond. Nous montrons que des modèles 3D d'humains, de chats et de chiens peuvent être appris à partir de 50 à 100 vidéos disponibles sur internet.
Nous présentons Integrated Multimodal Perception (IMP), une approche simple et évolutive pour l'entraînement et la modélisation multi-tâches multimodales. IMP intègre des entrées multimodales incluant des images, des vidéos, du texte et de l'audio dans un seul encodeur Transformer avec un minimum de composants spécifiques à chaque modalité. IMP utilise une conception novatrice qui combine la Descente de Gradient Alternée (AGD) et le Mixture-of-Experts (MoE) pour une mise à l'échelle efficace des modèles et des tâches. Nous menons des études empiriques approfondies sur IMP et révélons les insights clés suivants : 1) effectuer des mises à jour par descente de gradient en alternant sur des modalités hétérogènes diverses, des fonctions de perte et des tâches, tout en variant les résolutions d'entrée, améliore efficacement la compréhension multimodale. 2) la sparsification du modèle avec MoE sur un seul encodeur agnostique aux modalités améliore considérablement les performances, surpassant les modèles denses utilisant des encodeurs spécifiques à chaque modalité ou des couches de fusion supplémentaires, et atténue grandement les conflits entre modalités. IMP atteint des performances compétitives sur un large éventail de tâches en aval, incluant la classification d'images, la classification de vidéos, la recherche image-texte et vidéo-texte. Plus notablement, nous entraînons un IMP-MoE-L sparse axé sur les tâches vidéo qui établit un nouvel état de l'art en classification zéro-shot de vidéos. Notre modèle atteint 77,0% sur Kinetics-400, 76,8% sur Kinetics-600 et 76,8% sur Kinetics-700 en précision de classification zéro-shot, améliorant l'état de l'art précédent de +5%, +6,7% et +5,8% respectivement, tout en utilisant seulement 15% de leur coût de calcul total d'entraînement.
Nous proposons une nouvelle approche pour développer des systèmes de recommandation à grande échelle préservant la vie privée, en utilisant des modèles de langage de grande taille (LLM) à différentielle privée (DP), qui surmontent certains défis et limitations liés à l'entraînement DP de ces systèmes complexes. Notre méthode est particulièrement adaptée au domaine émergent des systèmes de recommandation basés sur les LLM, mais peut être facilement employée pour tout système de recommandation traitant des représentations d'entrées en langage naturel. Notre approche consiste à utiliser des méthodes d'entraînement DP pour affiner un LLM pré-entraîné publiquement sur une tâche de génération de requêtes. Le modèle résultant peut générer des requêtes synthétiques privées représentatives des requêtes originales, qui peuvent être librement partagées pour toute procédure d'entraînement de recommandation non privée en aval, sans engendrer de coût supplémentaire en matière de confidentialité. Nous évaluons notre méthode sur sa capacité à entraîner de manière sécurisée des modèles de récupération profonds efficaces, et nous observons des améliorations significatives dans leur qualité de récupération sans compromettre les garanties de confidentialité au niveau des requêtes, par rapport aux méthodes où les modèles de récupération sont directement entraînés avec DP.
Pour permettre aux robots polyvalents d'opérer, nous devrons leur permettre de manipuler quotidiennement des objets articulés comme le font les humains. La manipulation robotique actuelle s'est largement appuyée sur l'utilisation d'une pince parallèle, ce qui limite le robot à un ensemble restreint d'objets. En revanche, l'utilisation d'une main robotique multifinger permettra une meilleure approximation du comportement humain et permettra au robot de manipuler une diversité d'objets articulés. À cette fin, nous proposons un nouveau benchmark appelé DexArt, qui implique la manipulation dextre d'objets articulés dans un simulateur physique. Dans notre benchmark, nous définissons plusieurs tâches de manipulation complexes, et la main robotique devra manipuler divers objets articulés dans chaque tâche. Notre objectif principal est d'évaluer la généralisation de la politique apprise sur des objets articulés non vus. Cela est très difficile étant donné les degrés de liberté élevés des mains et des objets. Nous utilisons l'apprentissage par renforcement avec l'apprentissage de représentations 3D pour atteindre la généralisation. À travers des études approfondies, nous fournissons de nouvelles perspectives sur la manière dont l'apprentissage de représentations 3D affecte la prise de décision dans l'apprentissage par renforcement avec des entrées de nuages de points 3D. Plus de détails sont disponibles à l'adresse https://www.chenbao.tech/dexart/.
Dans cet article, nous analysons les performances d'un modèle de transformateur multitâche de bout en bout sur la tâche de recommandations conversationnelles, qui vise à fournir des suggestions basées sur les préférences explicites d'un utilisateur exprimées dans un dialogue. Alors que les travaux précédents dans ce domaine adoptent des approches multi-composants complexes où la gestion du dialogue et la recommandation d'entités sont traitées par des composants séparés, nous montrons qu'un modèle de transformateur unifié, basé sur le modèle de transformateur texte-à-texte T5, peut rivaliser à la fois en recommandant des éléments pertinents et en générant des dialogues conversationnels. Nous affinons notre modèle sur le jeu de données ReDIAL de recommandation conversationnelle de films, et créons des tâches d'entraînement supplémentaires dérivées de MovieLens (telles que la prédiction d'attributs de films et de films connexes basée sur un film d'entrée), dans un cadre d'apprentissage multitâche. À l'aide d'une série d'études de sondage, nous démontrons que les connaissances acquises dans les tâches supplémentaires sont transférées au cadre conversationnel, où chaque tâche entraîne une augmentation de 9 % à 52 % de son score de sondage associé.