Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les systèmes de recommandation modernes exploitent des modèles de recherche à grande échelle composés de deux étapes : l'entraînement d'un modèle à double encodeur pour projeter les requêtes et les candidats dans le même espace, suivi d'une recherche de voisins approximatifs (Approximate Nearest Neighbor, ANN) pour sélectionner les meilleurs candidats en fonction de l'embedding d'une requête. Dans cet article, nous proposons un nouveau paradigme en une seule étape : un modèle de récupération génératif qui décode de manière autoregressive les identifiants des candidats cibles en une seule phase. Pour ce faire, au lieu d'attribuer des identifiants atomiques générés aléatoirement à chaque élément, nous générons des identifiants sémantiques (Semantic IDs) : un tuple de mots de code sémantiquement significatif pour chaque élément, qui sert d'identifiant unique. Nous utilisons une méthode hiérarchique appelée RQ-VAE pour générer ces mots de code. Une fois les identifiants sémantiques générés pour tous les éléments, un modèle séquence-à-séquence basé sur un Transformer est entraîné pour prédire l'identifiant sémantique de l'élément suivant. Comme ce modèle prédit directement le tuple de mots de code identifiant l'élément suivant de manière autoregressive, il peut être considéré comme un modèle de récupération génératif. Nous montrons que notre système de recommandation entraîné selon ce nouveau paradigme améliore les résultats obtenus par les modèles actuels de l'état de l'art (SOTA) sur le jeu de données Amazon. De plus, nous démontrons que le modèle séquence-à-séquence couplé avec des identifiants sémantiques hiérarchiques offre une meilleure généralisation et améliore ainsi la récupération des éléments à démarrage froid (cold-start) pour les recommandations.
Les réseaux de neurones profonds ont démontré des performances remarquables dans les tâches d'apprentissage supervisé, mais nécessitent de grandes quantités de données étiquetées. L'apprentissage auto-supervisé propose un paradigme alternatif, permettant au modèle d'apprendre à partir de données sans étiquettes explicites. La théorie de l'information a joué un rôle essentiel dans la compréhension et l'optimisation des réseaux de neurones profonds. Plus précisément, le principe du goulot d'étranglement informationnel a été appliqué pour optimiser le compromis entre compression et préservation des informations pertinentes dans des contextes supervisés. Cependant, l'objectif informationnel optimal dans l'apprentissage auto-supervisé reste incertain. Dans cet article, nous passons en revue diverses approches de l'apprentissage auto-supervisé sous l'angle de la théorie de l'information et présentons un cadre unifié qui formalise le problème d'apprentissage informationnel auto-supervisé. Nous intégrons les recherches existantes dans un cadre cohérent, examinons les méthodes auto-supervisées récentes et identifions les opportunités et les défis de recherche. De plus, nous discutons de la mesure empirique des quantités informationnelles et de leurs estimateurs. Cet article offre une revue complète de l'intersection entre la théorie de l'information, l'apprentissage auto-supervisé et les réseaux de neurones profonds.
Les modèles de langage les plus récents, tels que ChatGPT et GPT-4, ont suscité une attention considérable en raison de leur capacité à générer des réponses de haute qualité à des entrées humaines. Bien que ChatGPT et GPT-4 aient été largement testés sur des corpus textuels génériques, démontrant ainsi leurs impressionnantes capacités, aucune étude ne s'est encore concentrée sur des corpus financiers. Dans cette étude, nous cherchons à combler cette lacune en examinant le potentiel de ChatGPT et GPT-4 en tant que solveurs pour des problèmes typiques d'analyse de texte financier dans un contexte zero-shot ou few-shot. Plus précisément, nous évaluons leurs capacités sur quatre tâches représentatives à travers cinq ensembles de données textuelles financières distincts. L'étude préliminaire révèle que ChatGPT et GPT-4 rencontrent des difficultés dans des tâches telles que la reconnaissance d'entités nommées (NER) financières et l'analyse de sentiment, où des connaissances spécifiques au domaine sont nécessaires, tout en excellant dans les tâches de raisonnement numérique. Nous rapportons à la fois les forces et les limites des versions actuelles de ChatGPT et GPT-4, en les comparant aux modèles affinés de pointe ainsi qu'aux modèles génératifs spécifiques au domaine pré-entraînés. Nos expériences fournissent des études qualitatives, à travers lesquelles nous espérons contribuer à une meilleure compréhension des capacités des modèles existants et faciliter des améliorations futures.
Dans une série de travaux récents, les architectures centrées sur les objets se sont révélées adaptées à la décomposition non supervisée de scènes dans le domaine visuel. Inspirés par ces méthodes, nous présentons AudioSlots, un modèle génératif centré sur les slots pour la séparation aveugle de sources dans le domaine audio. AudioSlots est construit à l'aide de réseaux encodeur et décodeur permutation-équivariants. Le réseau encodeur, basé sur l'architecture Transformer, apprend à mapper un spectrogramme audio mixé à un ensemble non ordonné d'embeddings de sources indépendantes. Le réseau décodeur à diffusion spatiale apprend à générer les spectrogrammes des sources à partir de ces embeddings. Nous entraînons le modèle de bout en bout en utilisant une fonction de perte invariante aux permutations. Nos résultats sur la séparation de parole Libri2Mix constituent une preuve de concept que cette approche est prometteuse. Nous discutons en détail des résultats et des limites de notre méthode, et esquissons des pistes potentielles pour surmonter ces limitations ainsi que des directions pour les travaux futurs.
Suite au succès remarquable des modèles de diffusion dans la génération d'images, des travaux récents ont également démontré leur capacité impressionnante à résoudre un certain nombre de problèmes inverses de manière non supervisée, en contraignant de manière appropriée le processus d'échantillonnage sur la base d'une entrée conditionnelle. Motivés par cela, dans cet article, nous présentons la première approche utilisant les modèles de diffusion comme a priori pour une reconstruction très précise de la BRDF faciale 3D à partir d'une seule image. Nous commençons par exploiter un ensemble de données UV de haute qualité de réflectance faciale (albedo diffus et spéculaire, ainsi que les normales), que nous rendons sous différents éclairages pour simuler des textures RGB naturelles, puis nous entraînons un modèle de diffusion non conditionné sur des paires concaténées de textures rendues et de composantes de réflectance. Au moment du test, nous ajustons un modèle morphable 3D à l'image donnée et déplions le visage en une texture UV partielle. En échantillonnant à partir du modèle de diffusion tout en conservant intacte la partie observée de la texture, le modèle comble non seulement les zones auto-occluses mais aussi les composantes de réflectance inconnues, en une seule séquence d'étapes de débruitage. Contrairement aux méthodes existantes, nous acquérons directement la texture observée à partir de l'image d'entrée, ce qui permet une estimation de la réflectance plus fidèle et cohérente. À travers une série de comparaisons qualitatives et quantitatives, nous démontrons une performance supérieure à la fois dans la complétion de texture et dans les tâches de reconstruction de la réflectance.
La prolifération de contenus vidéo exige des approches basées sur des réseaux neuronaux efficaces et flexibles pour générer de nouveaux contenus vidéo. Dans cet article, nous proposons une approche novatrice qui combine la génération de vidéos à partir de texte en mode zéro-shot avec ControlNet pour améliorer les résultats de ces modèles. Notre méthode prend en entrée plusieurs images esquissées et génère une vidéo qui correspond au flux de ces images, en s'appuyant sur l'architecture Text-to-Video Zero et en intégrant ControlNet pour permettre des conditions d'entrée supplémentaires. En interpolant d'abord des images entre les esquisses fournies, puis en exécutant Text-to-Video Zero en utilisant la vidéo des nouvelles images interpolées comme technique de contrôle, nous tirons parti des avantages de la génération de vidéos à partir de texte en mode zéro-shot et du contrôle robuste offert par ControlNet. Les expériences montrent que notre méthode excelle dans la production de contenus vidéo de haute qualité et remarquablement cohérents, qui s'alignent plus précisément sur le mouvement souhaité par l'utilisateur pour le sujet de la vidéo. Nous fournissons un ensemble complet de ressources, incluant une vidéo de démonstration, un site web du projet, un dépôt GitHub open-source et un espace de jeu Colab, pour encourager la recherche et l'application de notre méthode proposée.
Pour qu'un robot personnalise efficacement l'assistance physique, il doit apprendre les préférences de l'utilisateur qui peuvent être généralement réutilisées dans des scénarios futurs. Dans ce travail, nous étudions la personnalisation du rangement domestique avec des robots capables de ranger des pièces en ramassant des objets et en les rangeant. Un défi majeur consiste à déterminer l'emplacement approprié pour chaque objet, car les préférences des personnes peuvent varier considérablement en fonction des goûts personnels ou du contexte culturel. Par exemple, une personne peut préférer ranger les chemises dans le tiroir, tandis qu'une autre peut les préférer sur l'étagère. Nous visons à construire des systèmes capables d'apprendre de telles préférences à partir de seulement quelques exemples via des interactions antérieures avec une personne particulière. Nous montrons que les robots peuvent combiner la planification et la perception basées sur le langage avec les capacités de synthèse en peu d'exemples des grands modèles de langage (LLMs) pour déduire des préférences utilisateur généralisées largement applicables aux interactions futures. Cette approche permet une adaptation rapide et atteint une précision de 91,2 % sur des objets non vus dans notre ensemble de données de référence. Nous démontrons également notre approche sur un manipulateur mobile réel appelé TidyBot, qui range avec succès 85,0 % des objets dans des scénarios de test réels.
Ces dernières années, les grands modèles de langage pré-entraînés (LLMs) ont démontré leur capacité à suivre des instructions et à accomplir de nouvelles tâches à partir de quelques exemples. La possibilité de paramétrer un LLM grâce à ces exemples en contexte élargit ses capacités à un coût bien moindre que le réglage fin. Nous prolongeons cette réflexion et présentons une méthode qui étend encore les capacités d'un LLM en l'intégrant au sein d'un algorithme ou d'un programme. Pour illustrer les avantages de cette approche, nous proposons un exemple concret de réponse à des questions étayées par des preuves. Nous obtenons une amélioration de 6,4 % par rapport à la base de référence de la chaîne de raisonnement grâce à une approche plus algorithmique, sans aucun réglage fin. Par ailleurs, nous mettons en lumière des travaux récents dans cette perspective et discutons des avantages et des inconvénients par rapport aux approches standard.
L'optimisation et le rendu des champs de radiance neuronaux (NeRF) sont coûteux en calculs en raison du grand nombre d'échantillons requis par le rendu volumétrique. Des travaux récents ont intégré des approches d'échantillonnage alternatives pour accélérer leurs méthodes, mais celles-ci ne sont souvent pas au cœur de l'étude. Dans cet article, nous explorons et comparons plusieurs approches d'échantillonnage et démontrons qu'une amélioration de l'échantillonnage est généralement applicable à diverses variantes de NeRF sous un concept unifié d'estimateur de transmittance. Pour faciliter les expérimentations futures, nous développons NerfAcc, une boîte à outils Python offrant des API flexibles pour intégrer des méthodes d'échantillonnage avancées dans les méthodes liées aux NeRF. Nous démontrons sa flexibilité en montrant qu'elle peut réduire le temps d'entraînement de plusieurs méthodes NeRF récentes de 1,5x à 20x avec des modifications minimales du code existant. De plus, des NeRFs hautement personnalisés, comme Instant-NGP, peuvent être implémentés en PyTorch natif grâce à NerfAcc.
L'exécution de code est un aspect fondamental de la sémantique des langages de programmation qui reflète le comportement exact du code. Cependant, la plupart des modèles pré-entraînés pour l'intelligence du code ignorent la trace d'exécution et ne s'appuient que sur le code source et les structures syntaxiques. Dans cet article, nous étudions dans quelle mesure les modèles pré-entraînés peuvent comprendre et exécuter du code. Nous développons une technique d'augmentation de données basée sur des mutations pour créer un ensemble de données Python à grande échelle et réaliste, ainsi qu'une tâche d'exécution de code, qui mettent à l'épreuve les modèles existants tels que Codex. Nous présentons ensuite CodeExecutor, un modèle Transformer qui exploite un pré-entraînement sur l'exécution de code et un apprentissage curriculaire pour améliorer sa compréhension sémantique. Nous évaluons CodeExecutor sur l'exécution de code et montrons ses performances prometteuses ainsi que ses limites. Nous démontrons également ses avantages potentiels pour des tâches d'intelligence du code telles que la recherche de code à code en zero-shot et la génération de texte à code. Notre analyse fournit des insights sur les capacités d'apprentissage et de généralisation des modèles pré-entraînés pour l'exécution de code.
Les pages web constituent une ressource riche pour les tâches linguistiques et vision-langage. Cependant, seuls des fragments de pages web sont conservés : des paires image-légende, des articles textuels longs ou du HTML brut, jamais tous ensemble au même endroit. Par conséquent, les tâches liées aux pages web ont reçu peu d'attention, et les données structurées image-texte sont sous-utilisées. Pour étudier la compréhension multimodale des pages web, nous introduisons la suite Wikipedia Webpage 2M (WikiWeb2M) ; la première à conserver l'ensemble complet des images, du texte et des données structurelles disponibles dans une page. WikiWeb2M peut être utilisée pour des tâches telles que la génération de descriptions de pages, la synthèse de sections et la création de légendes d'images contextuelles.