Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans cet article, nous présentons Writing in the Margins (WiM), un nouveau schéma d'inférence pour les grands modèles de langage conçu pour optimiser le traitement de longues séquences d'entrée dans des tâches orientées vers la récupération. Cette approche exploite le pré-remplissage segmenté du cache clé-valeur pour effectuer une inférence par segment, ce qui permet un traitement efficace de contextes étendus ainsi que la génération et la classification d'informations intermédiaires ("marges") qui guident le modèle vers des tâches spécifiques. Cette méthode augmente légèrement la charge de calcul tout en améliorant significativement les performances des modèles prêts à l'emploi sans nécessiter de fine-tuning. Plus précisément, nous observons que WiM apporte une amélioration moyenne de 7,5 % en termes de précision pour les compétences de raisonnement (HotpotQA, MultiHop-RAG) et une augmentation de plus de 30,0 % du score F1 pour les tâches d'agrégation (CWE). De plus, nous montrons comment le schéma proposé s'intègre dans une conception interactive de récupération qui fournit aux utilisateurs finaux des mises à jour continues sur l'avancement du traitement du contexte, et souligne l'intégration d'informations pertinentes dans la réponse finale. Nous mettons à disposition notre implémentation de WiM en utilisant la bibliothèque Hugging Face Transformers sur https://github.com/writer/writing-in-the-margins.
Nous présentons GameNGen, le premier moteur de jeu entièrement alimenté par un modèle neuronal qui permet une interaction en temps réel avec un environnement complexe sur de longues trajectoires à haute qualité. GameNGen peut simuler de manière interactive le jeu classique DOOM à plus de 20 images par seconde sur un seul TPU. La prédiction du prochain frame atteint un PSNR de 29,4, comparable à une compression JPEG avec perte. Les évaluateurs humains sont à peine meilleurs que le hasard pour distinguer de courts extraits du jeu des extraits de la simulation. GameNGen est entraîné en deux phases : (1) un agent RL apprend à jouer au jeu et les sessions d'entraînement sont enregistrées, et (2) un modèle de diffusion est formé pour produire le prochain frame, conditionné par la séquence des frames et actions passées. Les augmentations de conditionnement permettent une génération autorégressive stable sur de longues trajectoires.
Les architectures RNN linéaires, telles que Mamba, peuvent être compétitives avec les modèles Transformer en modélisation de langage tout en présentant des caractéristiques de déploiement avantageuses. Étant donné l'accent mis sur l'entraînement de grands modèles Transformer, nous examinons le défi de convertir ces modèles pré-entraînés pour le déploiement. Nous démontrons qu'il est possible de distiller de grands Transformers en RNN linéaires en réutilisant les poids de projection linéaire des couches d'attention avec des ressources GPU académiques. Le modèle hybride résultant, qui intègre un quart des couches d'attention, atteint des performances comparables à celles du Transformer d'origine dans les benchmarks de chat et surpasse les modèles hybrides Mamba open-source entraînés à partir de zéro avec des billions de jetons, à la fois dans les benchmarks de chat et généraux. De plus, nous introduisons un algorithme de décodage spéculatif conscient du matériel qui accélère la vitesse d'inférence des modèles Mamba et hybrides. Dans l'ensemble, nous montrons comment, avec des ressources de calcul limitées, nous pouvons supprimer bon nombre des couches d'attention d'origine et générer à partir du modèle résultant de manière plus efficace. Notre modèle le plus performant, distillé à partir de Llama3-8B-Instruct, atteint un taux de victoire contrôlé par la longueur de 29,61 sur AlpacaEval 2 contre GPT-4 et 7,35 sur MT-Bench, surpassant le meilleur modèle RNN linéaire ajusté aux instructions.
Nous présentons une méthode pour générer des séquences vidéo avec un mouvement cohérent entre une paire de trames clés d'entrée. Nous adaptons un modèle de diffusion d'image vers vidéo à grande échelle pré-entraîné (initialement formé pour générer des vidéos se déplaçant vers l'avant dans le temps à partir d'une seule image d'entrée) pour l'interpolation de trames clés, c'est-à-dire, pour produire une vidéo entre deux trames d'entrée. Nous réalisons cette adaptation grâce à une technique de fine-tuning légère qui produit une version du modèle qui prédit plutôt des vidéos se déplaçant en arrière dans le temps à partir d'une seule image d'entrée. Ce modèle (ainsi que le modèle d'origine se déplaçant vers l'avant) est ensuite utilisé dans un processus d'échantillonnage de diffusion bidirectionnelle qui combine les estimations de modèle superposées à partir de chacune des deux trames clés. Nos expériences montrent que notre méthode surpasse à la fois les méthodes basées sur la diffusion existantes et les techniques traditionnelles d'interpolation d'images.
Les systèmes d'IA qui répondent aux questions en langage naturel sur les bases de données promettent de débloquer une valeur immense. De tels systèmes permettraient aux utilisateurs de tirer parti des capacités de raisonnement et de connaissance puissantes des modèles de langage (ML) ainsi que de la puissance de calcul évolutive des systèmes de gestion des données. Ces capacités combinées permettraient aux utilisateurs de poser des questions en langage naturel arbitraires sur des sources de données personnalisées. Cependant, les méthodes et les référentiels existants n'explorent pas suffisamment ce cadre. Les méthodes Text2SQL se concentrent uniquement sur les questions en langage naturel pouvant être exprimées en algèbre relationnelle, représentant un petit sous-ensemble des questions que les utilisateurs réels souhaitent poser. De même, le modèle Retrieval-Augmented Generation (RAG) ne prend en compte que le sous-ensemble limité des requêtes pouvant être répondues par des recherches ponctuelles dans un ou quelques enregistrements de données dans la base de données. Nous proposons le modèle Table-Augmented Generation (TAG), un paradigme unifié et polyvalent pour répondre aux questions en langage naturel sur les bases de données. Le modèle TAG représente une large gamme d'interactions entre le ML et la base de données qui n'ont pas été explorées auparavant et crée des opportunités de recherche passionnantes pour tirer parti des connaissances mondiales et des capacités de raisonnement des ML sur les données. Nous développons systématiquement des référentiels pour étudier le problème TAG et constatons que les méthodes standard ne répondent correctement à pas plus de 20 % des requêtes, confirmant ainsi la nécessité de poursuivre la recherche dans ce domaine. Nous mettons le code du référentiel à disposition sur https://github.com/TAG-Research/TAG-Bench.
Nous proposons une approche basée sur la diffusion pour la génération Texte-vers-Image (T2I) avec un contrôle interactif de la mise en page 3D. Le contrôle de la mise en page a été largement étudié pour pallier les lacunes des modèles de diffusion T2I dans la compréhension du placement et des relations des objets à partir de descriptions textuelles. Néanmoins, les approches existantes pour le contrôle de la mise en page se limitent aux mises en page 2D, nécessitent que l'utilisateur fournisse une mise en page statique au préalable, et échouent à préserver les images générées lors de changements de mise en page. Cela rend ces approches inadaptées aux applications nécessitant un contrôle tridimensionnel des objets et des affinements itératifs, par exemple, la conception intérieure et la génération de scènes complexes. À cette fin, nous exploitons les récents progrès des modèles T2I conditionnés par la profondeur et proposons une nouvelle approche pour le contrôle interactif de la mise en page 3D. Nous remplaçons les boîtes 2D traditionnelles utilisées dans le contrôle de la mise en page par des boîtes 3D. De plus, nous repensons la tâche T2I comme un processus de génération multi-étapes, où à chaque étape, l'utilisateur peut insérer, modifier et déplacer un objet en 3D tout en préservant les objets des étapes précédentes. Nous parvenons à cela grâce à notre module d'Auto-Attention Dynamique (DSA) proposé et à la stratégie de traduction d'objets 3D cohérente. Les expériences montrent que notre approche peut générer des scènes complexes basées sur des mises en page 3D, augmentant le taux de succès de génération d'objets par rapport aux méthodes T2I conditionnées par la profondeur standard de 2x. De plus, elle surpasse d'autres méthodes en préservant les objets lors de changements de mise en page. Page du projet : https://abdo-eldesokey.github.io/build-a-scene/
Les avatars 3D photoréalistes et contrôlables sont essentiels pour diverses applications telles que la réalité virtuelle et mixte (RV/RM), la téléprésence, les jeux vidéo et la production cinématographique. Les méthodes traditionnelles de création d'avatars impliquent souvent des processus de numérisation et de reconstruction fastidieux pour chaque avatar, ce qui limite leur extensibilité. De plus, ces méthodes ne permettent pas d'échantillonner de nouvelles identités ou de modifier celles existantes. En revanche, en apprenant un fort a priori à partir des données, les modèles génératifs offrent une alternative prometteuse aux méthodes de reconstruction traditionnelles, facilitant les contraintes de temps à la fois pour la capture et le traitement des données. De plus, les méthodes génératives permettent des applications ultérieures au-delà de la reconstruction, telles que l'édition et la stylisation. Néanmoins, la recherche sur les avatars 3D génératifs en est encore à ses débuts, et donc les méthodes actuelles présentent encore des limitations telles que la création d'avatars statiques, le manque de réalisme photographique, des détails faciaux incomplets ou une conduite limitée. Pour remédier à cela, nous proposons un modèle génératif conditionné par texte qui peut générer des avatars faciaux photoréalistes de diverses identités, avec des détails plus complets comme les cheveux, les yeux et l'intérieur de la bouche, et qui peuvent être pilotés à travers un puissant espace d'expression latente non paramétrique. Plus précisément, nous intégrons les capacités génératives et d'édition des modèles de diffusion latente avec un modèle a priori fort pour la conduite de l'expression de l'avatar. Notre modèle peut générer et contrôler des avatars haute fidélité, même ceux hors distribution. Nous soulignons également son potentiel pour des applications ultérieures, y compris l'édition d'avatars et la reconstruction d'avatars en un seul coup.
La lecture de texte à partir d'images (qu'il s'agisse de scènes naturelles ou de documents) est un sujet de recherche de longue date depuis des décennies, en raison du défi technique élevé et de la large gamme d'applications. Auparavant, des modèles spécialisés individuels étaient développés pour aborder les sous-tâches de la lecture de texte (par exemple, la reconnaissance de texte de scène, la reconnaissance de texte manuscrit et la reconnaissance d'expressions mathématiques). Cependant, de tels modèles spécialisés ne peuvent généralement pas généraliser efficacement à travers différentes sous-tâches. Récemment, des modèles généralistes (comme GPT-4V), formés sur d'énormes données de manière unifiée, ont montré un énorme potentiel dans la lecture de texte dans divers scénarios, mais avec les inconvénients d'une précision limitée et d'une faible efficacité. Dans ce travail, nous proposons Platypus, un modèle spécialisé généralisé pour la lecture de texte. Plus précisément, Platypus combine le meilleur des deux mondes : il est capable de reconnaître du texte de diverses formes avec une seule architecture unifiée, tout en atteignant une excellente précision et une haute efficacité. Pour mieux exploiter l'avantage de Platypus, nous construisons également un ensemble de données de lecture de texte (appelé Worms), dont les images sont sélectionnées dans des ensembles de données précédents et partiellement re-étiquetées. Des expériences sur des benchmarks standard démontrent l'efficacité et la supériorité du modèle Platypus proposé. Le modèle et les données seront rendus publiquement disponibles sur https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
Nous présentons SHADOW, un modèle de langage affiné entraîné sur une tâche intermédiaire utilisant un raisonnement déductif associatif, et mesurons sa performance sur une tâche de construction de base de connaissances en complétant des triplets Wikidata. Nous évaluons SHADOW sur le défi LM-KBC 2024 et montrons qu'il surpasse la solution de référence de 20% avec un score F1 de 68,72%.
Nous introduisons les tours sémantiques, une méthode de représentation des connaissances extrinsèques, et la comparons aux connaissances intrinsèques dans les grands modèles de langage pour l'apprentissage d'ontologies. Nos expériences montrent un compromis entre les performances et l'ancrage sémantique pour les connaissances extrinsèques par rapport à un modèle intrinsèque finement réglé. Nous présentons nos résultats sur le défi Large Language Models for Ontology Learning (LLMs4OL) 2024.
Cet article traite de la reconstruction en 3D des oiseaux de mer qui ont récemment attiré l'attention des scientifiques de l'environnement en tant que précieux bio-indicateurs des changements environnementaux. De telles informations en 3D sont bénéfiques pour analyser le comportement et la forme physiologique des oiseaux, par exemple en suivant les mouvements, la forme et les changements d'apparence. Du point de vue de la vision par ordinateur, les oiseaux sont particulièrement difficiles en raison de leurs mouvements rapides et souvent non rigides. Nous proposons une approche pour reconstruire la pose et la forme en 3D à partir de vidéos monoclaires d'une espèce spécifique d'oiseau de mer - le guillemot de Troïl. Notre approche comprend une chaîne complète de détection, de suivi, de segmentation et de reconstruction en 3D temporellement cohérente. De plus, nous proposons une perte temporelle qui étend les estimateurs de pose d'oiseaux en 3D à partir d'images uniques au domaine temporel. De plus, nous fournissons un ensemble de données du monde réel de 10000 images vidéo en moyenne capturant neuf oiseaux simultanément, comprenant une grande variété de mouvements et d'interactions, y compris un petit ensemble de test avec des étiquettes de points clés spécifiques aux oiseaux. En utilisant notre optimisation temporelle, nous obtenons des performances de pointe pour les séquences difficiles de notre ensemble de données.
L'Industrie 4.0 a révolutionné la fabrication en impulsant la numérisation et en déplaçant le paradigme vers la fabrication additive (AM). La Modélisation par Dépôt de Fil Fondu (FDM), une technologie clé de l'AM, permet la création de produits hautement personnalisés et rentables avec un minimum de déchets de matériau grâce à une extrusion couche par couche, posant un défi significatif aux méthodes traditionnelles de soustraction. Cependant, la susceptibilité des techniques d'extrusion de matériau aux erreurs nécessite souvent l'intervention d'experts pour détecter et atténuer les défauts qui peuvent compromettre gravement la qualité du produit. Bien que la détection automatique des erreurs et les modèles d'apprentissage automatique existent, leur généralisabilité à travers des configurations diverses d'imprimantes 3D, de micrologiciels et de capteurs est limitée, et les méthodes d'apprentissage profond nécessitent des ensembles de données étiquetées étendus, entravant la scalabilité et l'adaptabilité. Pour relever ces défis, nous présentons un cadre de surveillance et de contrôle des processus qui exploite les Modèles de Langage de Grande Taille (LLM) pré-entraînés aux côtés des imprimantes 3D pour détecter et résoudre les défauts d'impression. Le LLM évalue la qualité d'impression en analysant des images capturées après chaque couche ou segment d'impression, en identifiant les modes de défaillance et en interrogeant l'imprimante pour les paramètres pertinents. Il génère ensuite et exécute un plan d'action correctif. Nous avons validé l'efficacité du cadre proposé dans l'identification des défauts en le comparant à un groupe témoin d'ingénieurs avec une expertise diversifiée en AM. Notre évaluation a démontré que les agents basés sur les LLM identifient non seulement avec précision les erreurs courantes d'impression 3D, telles que l'extrusion incohérente, les fils, le gauchissement et l'adhérence des couches, mais déterminent également efficacement les paramètres causant ces échecs et les corrigent de manière autonome sans nécessiter d'intervention humaine.