Articles de recherche en IA sélectionnés quotidiennement avec traductions
Repousser les frontières des architectures sous-quadratiques pour les modèles de langage (LMs) est crucial dans le domaine en rapide évolution du traitement du langage naturel. Les innovations récentes, notamment les modèles à espace d'états, ont initialement été saluées pour surpasser les performances des Transformers dans les tâches de modélisation du langage. Cependant, ces modèles ont révélé des lacunes dans les capacités essentielles d'apprentissage en contexte (In-Context Learning) - un domaine où le Transformer excelle traditionnellement. Le modèle Based est apparu comme une solution hybride, combinant un Transformer linéaire avec un noyau inspiré du développement en série de Taylor des fonctions exponentielles, enrichi par des réseaux convolutifs. Reproduisant l'aptitude en contexte du Transformer, il est devenu un sérieux concurrent dans le domaine. Dans notre travail, nous présentons une modification unique et élégante du noyau Based qui amplifie ses capacités d'apprentissage en contexte, évaluées avec la tâche de rappel associatif multi-requêtes (Multi-Query Associative Recall) et le processus global de modélisation du langage, tel que démontré sur le jeu de données Pile.
Cet article aborde le défi du traitement de documents longs à l'aide de modèles transformeurs génératifs. Pour évaluer différentes approches, nous introduisons BABILong, un nouveau benchmark conçu pour évaluer les capacités des modèles à extraire et traiter des faits distribués dans des textes étendus. Notre évaluation, qui inclut des benchmarks pour GPT-4 et RAG, révèle que les méthodes courantes ne sont efficaces que pour des séquences allant jusqu'à 10^4 éléments. En revanche, le fine-tuning de GPT-2 avec des augmentations de mémoire récurrente lui permet de gérer des tâches impliquant jusqu'à 10^7 éléments. Cette réalisation marque un bond en avant considérable, car il s'agit de loin de l'entrée la plus longue traitée par un modèle de réseau neuronal ouvert à ce jour, démontrant une amélioration significative des capacités de traitement pour les séquences longues.
L'exploitation des longues histoires d'engagement des utilisateurs est essentielle pour des recommandations de contenu personnalisées. Le succès des modèles de langage pré-entraînés (PLMs) en traitement du langage naturel (NLP) a conduit à leur utilisation pour encoder les historiques des utilisateurs et les éléments candidats, en formulant les recommandations de contenu comme des tâches d'appariement sémantique textuel. Cependant, les travaux existants peinent encore à traiter des textes historiques d'utilisateurs très longs et des interactions insuffisantes entre utilisateurs et éléments. Dans cet article, nous introduisons un cadre de recommandation basé sur le contenu, SPAR, qui aborde efficacement les défis de l'extraction globale des intérêts des utilisateurs à partir de leur longue histoire d'engagement. Il y parvient en exploitant un PLM, des couches de poly-attention et des mécanismes de parcimonie attentionnelle pour encoder l'historique de l'utilisateur de manière sessionnelle. Les caractéristiques des côtés utilisateur et élément sont suffisamment fusionnées pour la prédiction d'engagement tout en maintenant des représentations indépendantes pour les deux côtés, ce qui est efficace pour le déploiement pratique du modèle. De plus, nous améliorons le profilage des utilisateurs en exploitant un modèle de langage de grande taille (LLM) pour extraire des intérêts globaux de l'historique d'engagement des utilisateurs. Des expériences approfondies sur deux ensembles de données de référence démontrent que notre cadre surpasse les méthodes existantes de pointe (SoTA).
Les grands modèles de langage (LLM) sont devenus un outil dominant et essentiel pour les chercheurs en traitement automatique du langage naturel (TALN) dans un large éventail de tâches. Aujourd'hui, de nombreux chercheurs utilisent les LLM pour la génération de données synthétiques, l'évaluation de tâches, le fine-tuning, la distillation et d'autres workflows de recherche impliquant des modèles en boucle. Cependant, des défis surgissent lors de l'utilisation de ces modèles, découlant de leur échelle, de leur nature propriétaire et du manque d'outils standardisés pour ces nouveaux workflows émergents. L'ascension rapide de ces modèles et ces défis uniques ont eu des impacts négatifs immédiats sur la science ouverte et sur la reproductibilité des travaux qui les utilisent. Dans cet article, nous présentons DataDreamer, une bibliothèque Python open source qui permet aux chercheurs d'écrire du code simple pour mettre en œuvre des workflows puissants avec les LLM. DataDreamer aide également les chercheurs à adhérer aux meilleures pratiques que nous proposons pour encourager la science ouverte et la reproductibilité. La bibliothèque et sa documentation sont disponibles à l'adresse suivante : https://github.com/datadreamer-dev/DataDreamer.
La création vidéo est devenue de plus en plus populaire, mais l'expertise et l'effort requis pour le montage constituent souvent des obstacles pour les débutants. Dans cet article, nous explorons l'intégration des grands modèles de langage (LLMs) dans le flux de travail de montage vidéo afin de réduire ces barrières. Notre vision de conception est incarnée par LAVE, un système novateur qui propose une assistance par agent alimenté par LLM et des fonctionnalités de montage enrichies par le langage. LAVE génère automatiquement des descriptions linguistiques pour les séquences de l'utilisateur, servant de base pour permettre au LLM de traiter les vidéos et d'assister dans les tâches de montage. Lorsque l'utilisateur fournit des objectifs de montage, l'agent planifie et exécute les actions pertinentes pour les atteindre. De plus, LAVE permet aux utilisateurs de monter des vidéos soit via l'agent, soit par manipulation directe de l'interface utilisateur, offrant ainsi une flexibilité et permettant un affinement manuel des actions de l'agent. Notre étude utilisateur, qui a inclus huit participants allant des novices aux monteurs expérimentés, a démontré l'efficacité de LAVE. Les résultats ont également mis en lumière les perceptions des utilisateurs concernant le paradigme de montage assisté par LLM proposé et son impact sur leur créativité et leur sentiment de co-création. Sur la base de ces constatations, nous proposons des implications de conception pour orienter le développement futur des systèmes de montage de contenu assistés par agent.
L'évaluation automatique côte à côte s'est imposée comme une approche prometteuse pour évaluer la qualité des réponses des grands modèles de langage (LLM). Cependant, l'analyse des résultats issus de cette méthode soulève des défis en termes d'évolutivité et d'interprétabilité. Dans cet article, nous présentons LLM Comparator, un nouvel outil d'analyse visuelle permettant d'analyser de manière interactive les résultats de l'évaluation automatique côte à côte. Cet outil prend en charge des workflows interactifs pour aider les utilisateurs à comprendre quand et pourquoi un modèle performe mieux ou moins bien qu'un modèle de référence, ainsi que les différences qualitatives entre les réponses de deux modèles. Nous avons conçu et développé cet outil de manière itérative en collaborant étroitement avec des chercheurs et des ingénieurs d'une grande entreprise technologique. Cet article détaille les défis utilisateurs que nous avons identifiés, la conception et le développement de l'outil, ainsi qu'une étude observationnelle menée auprès de participants évaluant régulièrement leurs modèles.
Les grands modèles de langage (LLMs) sont de plus en plus répandus dans les systèmes conversationnels en raison de leurs capacités avancées de compréhension et de génération dans des contextes généraux. Cependant, leur efficacité dans les dialogues orientés tâches (TOD), qui nécessitent non seulement la génération de réponses mais aussi un suivi efficace de l'état du dialogue (DST) dans des tâches et domaines spécifiques, reste moins satisfaisante. Dans ce travail, nous proposons une nouvelle approche, FnCTOD, pour résoudre le DST avec les LLMs via l'appel de fonctions. Cette méthode améliore le DST en zero-shot, permettant une adaptation à divers domaines sans collecte de données extensive ou réglage du modèle. Nos résultats expérimentaux démontrent que notre approche atteint des performances exceptionnelles avec des LLMs open-source de taille modeste ainsi que des LLMs propriétaires : avec un prompting en contexte, elle permet à divers modèles de 7B ou 13B paramètres de surpasser l'état de l'art (SOTA) précédent atteint par ChatGPT, et améliore les performances de ChatGPT en battant le SOTA de 5,6 % en JGA moyen. Les résultats individuels pour GPT-3.5 et GPT-4 sont boostés de 4,8 % et 14 %, respectivement. Nous montrons également qu'en effectuant un fine-tuning sur un petit ensemble de dialogues orientés tâches diversifiés, nous pouvons équiper des modèles de taille modeste, en particulier un modèle LLaMA2-Chat de 13B paramètres, de capacités d'appel de fonctions et de performances DST comparables à ChatGPT tout en conservant leurs capacités conversationnelles. Nous prévoyons d'ouvrir le code expérimental et le modèle en open-source.
Les modèles de diffusion se sont avérés très efficaces pour la génération d'images et de vidéos ; cependant, ils rencontrent encore des défis de composition lors de la génération d'images de tailles variées en raison de données d'entraînement à échelle unique. L'adaptation de grands modèles de diffusion pré-entraînés pour des résolutions plus élevées nécessite des ressources computationnelles et d'optimisation substantielles, mais atteindre une capacité de génération comparable à celle des modèles à basse résolution reste difficile. Cet article propose un nouveau modèle de diffusion en cascade auto-adaptatif qui exploite les connaissances riches acquises par un modèle bien entraîné à basse résolution pour une adaptation rapide à la génération d'images et de vidéos à plus haute résolution, en utilisant des paradigmes de réglage sans ajustement ou avec un suréchantillonneur peu coûteux. En intégrant une séquence de modules de suréchantillonnage multi-échelles, le modèle de diffusion en cascade auto-adaptatif peut s'adapter efficacement à une résolution plus élevée, tout en préservant les capacités de composition et de génération originales. Nous proposons en outre une stratégie de réordonnancement du bruit guidée par un pivot pour accélérer le processus d'inférence et améliorer les détails structurels locaux. Par rapport à un réglage complet, notre approche permet une accélération de l'entraînement par un facteur de 5 et ne nécessite que 0,002M paramètres de réglage supplémentaires. Des expériences approfondies démontrent que notre approche peut s'adapter rapidement à la synthèse d'images et de vidéos à plus haute résolution en effectuant un réglage fin en seulement 10 000 étapes, avec pratiquement aucun temps d'inférence supplémentaire.
Cet article démontre qu'un modèle de langage progressivement aligné peut efficacement relier des encodeurs visuels figés et des modèles de langage étendus (LLMs). Bien que l'architecture fondamentale et les méthodes de pré-entraînement des encodeurs visuels et des LLMs aient été largement étudiées, l'architecture et la stratégie d'entraînement des adaptateurs vision-langage varient considérablement dans les travaux récents. Notre recherche entreprend une exploration approfondie de l'architecture de rééchantillonneur perceiver de pointe et établit une base de référence solide. Cependant, nous observons que l'alignement vision-langage avec le rééchantillonneur perceiver présente une convergence lente et une scalabilité limitée, avec un manque de supervision directe. Pour résoudre ce problème, nous proposons PaLM2-VAdapter, utilisant un modèle de langage progressivement aligné comme adaptateur vision-langage. Par rapport à la base de référence solide avec le rééchantillonneur perceiver, notre méthode montre empiriquement une convergence plus rapide, une performance supérieure et une scalabilité accrue. Des expériences approfondies sur diverses tâches de réponse à des questions visuelles (VQA) et de génération de légendes sur des images et des vidéos démontrent que notre modèle présente des capacités de compréhension visuelle et de raisonnement multimodal de pointe. De manière notable, notre méthode atteint ces avancées avec 30 à 70 % de paramètres en moins que les modèles vision-langage étendus de pointe, marquant une amélioration significative de l'efficacité.
La reconstruction et le rendu d'objets 3D à partir de vues très éparses revêt une importance cruciale pour promouvoir les applications des techniques de vision 3D et améliorer l'expérience utilisateur. Cependant, les images provenant de vues éparses ne contiennent qu'une quantité très limitée d'informations 3D, ce qui pose deux défis majeurs : 1) La difficulté à établir une cohérence multi-vues, car les images disponibles pour l'appariement sont trop peu nombreuses ; 2) Des informations partielles omises ou fortement compressées sur l'objet, en raison d'une couverture de vues insuffisante. Pour relever ces défis, nous proposons GaussianObject, un cadre de représentation et de rendu d'objets 3D utilisant le splatting de Gaussiennes, qui atteint une qualité de rendu élevée avec seulement 4 images en entrée. Nous introduisons d'abord des techniques de coque visuelle et d'élimination des flotteurs, qui injectent explicitement des a priori structurels dans le processus d'optimisation initial pour aider à établir la cohérence multi-vues, produisant ainsi une représentation grossière en Gaussiennes 3D. Ensuite, nous construisons un modèle de réparation basé sur des modèles de diffusion pour compléter les informations manquantes sur l'objet, où les Gaussiennes sont ensuite affinées. Nous concevons une stratégie d'auto-génération pour obtenir des paires d'images afin d'entraîner le modèle de réparation. Notre méthode GaussianObject est évaluée sur plusieurs ensembles de données complexes, notamment MipNeRF360, OmniObject3D et OpenIllumination, obtenant des résultats de reconstruction solides à partir de seulement 4 vues et surpassant significativement les méthodes précédentes de l'état de l'art.
Nous présentons l’Interface Universelle de Manipulation (UMI) — un cadre de collecte de données et d’apprentissage de politiques permettant un transfert direct de compétences à partir de démonstrations humaines en conditions réelles vers des politiques robotiques déployables. UMI utilise des pinces portatives couplées à une conception d’interface soignée pour permettre une collecte de données portable, peu coûteuse et riche en informations pour des démonstrations de manipulation bimanuelle et dynamique complexes. Pour faciliter l’apprentissage de politiques déployables, UMI intègre une interface de politique soigneusement conçue avec une latence correspondante au temps d’inférence et une représentation d’actions par trajectoires relatives. Les politiques apprises qui en résultent sont indépendantes du matériel et peuvent être déployées sur plusieurs plateformes robotiques. Doté de ces fonctionnalités, le cadre UMI débloque de nouvelles capacités de manipulation robotique, permettant des comportements dynamiques, bimanuels, précis et à long terme généralisables sans adaptation, simplement en modifiant les données d’entraînement pour chaque tâche. Nous démontrons la polyvalence et l’efficacité d’UMI à travers des expériences exhaustives en conditions réelles, où les politiques apprises via UMI se généralisent sans adaptation à de nouveaux environnements et objets lorsqu’elles sont entraînées sur des démonstrations humaines variées. Le système matériel et logiciel d’UMI est open-source à l’adresse https://umi-gripper.github.io.
La diversité des contextes dans lesquels les grands modèles de langage (LLM) sont déployés nécessite la capacité de modifier ou de personnaliser les comportements par défaut du modèle pour intégrer des exigences et des préférences nuancées. Une interface pratique pour spécifier de tels ajustements du modèle est le retour verbal de haut niveau, comme par exemple : "N'utilise pas d'émoticônes lorsque tu rédiges des e-mails à mon supérieur." Cependant, bien que la rédaction de retours verbaux de haut niveau soit bien plus simple que la collecte d'annotations pour l'apprentissage par renforcement à partir de retours humains (RLHF), nous constatons que le simple fait de fournir un tel retour au modèle entraîne une sur-généralisation du retour à des contextes où il n'est pas pertinent. Nous étudions le problème de l'intégration de retours verbaux sans une telle sur-généralisation, ce qui inspire une nouvelle méthode : les Critiques Contextualisées avec Optimisation des Préférences Contraintes (C3PO). C3PO utilise un retour verbal de haut niveau pour générer un petit ensemble de données de préférences synthétiques spécifiant comment le retour devrait (ou ne devrait pas) être appliqué. Il affine ensuite le modèle en fonction des données de préférences synthétiques tout en minimisant la divergence par rapport au modèle original pour les prompts où le retour ne s'applique pas. Nos résultats expérimentaux indiquent que notre approche applique efficacement les retours verbaux aux scénarios pertinents tout en préservant les comportements existants pour d'autres contextes. Pour les retours de haut niveau générés par des humains et par GPT-4, C3PO adhère efficacement au retour donné, de manière comparable aux bases de référence en contexte, tout en réduisant la sur-généralisation de 30 %.