Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'information structurelle est cruciale pour comprendre la sémantique des images riches en texte, telles que les documents, les tableaux et les graphiques. Les modèles de langage multimodaux (MLLMs) existants pour la compréhension visuelle de documents sont dotés de capacités de reconnaissance de texte, mais manquent de compétences générales de compréhension structurelle pour les images de documents riches en texte. Dans ce travail, nous soulignons l'importance de l'information structurelle dans la compréhension visuelle de documents et proposons l'apprentissage unifié de la structure pour améliorer les performances des MLLMs. Notre apprentissage unifié de la structure comprend des tâches d'analyse structurelle et des tâches de localisation de texte à plusieurs niveaux de granularité, couvrant 5 domaines : document, page web, tableau, graphique et image naturelle. Pour mieux encoder l'information structurelle, nous concevons un module vision-texte simple et efficace, H-Reducer, qui permet non seulement de préserver les informations de mise en page, mais aussi de réduire la longueur des caractéristiques visuelles en fusionnant les patches adjacents horizontalement via la convolution, permettant ainsi au modèle de langage de comprendre plus efficacement les images haute résolution. De plus, en construisant des séquences de texte sensibles à la structure et des paires de texte et de boîtes englobantes à plusieurs niveaux de granularité pour des images riches en texte disponibles publiquement, nous créons un ensemble d'entraînement complet, DocStruct4M, pour soutenir l'apprentissage de la structure. Enfin, nous construisons un petit ensemble de données de réglage de raisonnement de haute qualité, DocReason25K, pour déclencher la capacité d'explication détaillée dans le domaine des documents. Notre modèle DocOwl 1.5 atteint des performances de pointe sur 10 benchmarks de compréhension visuelle de documents, améliorant les performances SOTA des MLLMs avec un modèle de langage de 7B de plus de 10 points sur 5/10 benchmarks. Nos codes, modèles et ensembles de données sont disponibles publiquement à l'adresse suivante : https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
Cet article se concentre sur la compression de prompts indépendante de la tâche pour une meilleure généralisation et efficacité. Compte tenu de la redondance dans le langage naturel, les approches existantes compressent les prompts en supprimant des tokens ou des unités lexicales selon leur entropie informationnelle obtenue à partir d'un modèle de langage causal tel que LLaMa-7B. Le défi est que l'entropie informationnelle peut être une métrique de compression sous-optimale : (i) elle ne tire parti que du contexte unidirectionnel et peut ne pas capturer toutes les informations essentielles nécessaires à la compression des prompts ; (ii) elle n'est pas alignée avec l'objectif de compression des prompts. Pour résoudre ces problèmes, nous proposons une procédure de distillation de données pour extraire des connaissances d'un modèle de langage (LLM) afin de compresser les prompts sans perdre d'informations cruciales, tout en introduisant un jeu de données de compression de texte extractive. Nous formulons la compression des prompts comme un problème de classification de tokens pour garantir la fidélité du prompt compressé à l'original, et utilisons un encodeur Transformer comme architecture de base pour capturer toutes les informations essentielles pour la compression des prompts à partir du contexte bidirectionnel complet. Notre approche réduit la latence en apprenant explicitement l'objectif de compression avec des modèles plus petits tels que XLM-RoBERTa-large et mBERT. Nous évaluons notre méthode sur des jeux de données intra-domaines et extra-domaines, notamment MeetingBank, LongBench, ZeroScrolls, GSM8K et BBH. Malgré sa petite taille, notre modèle montre des gains de performance significatifs par rapport à des bases de référence solides et démontre une capacité de généralisation robuste à travers différents LLM. De plus, notre modèle est 3 à 6 fois plus rapide que les méthodes de compression de prompts existantes, tout en accélérant la latence end-to-end par un facteur de 1,6 à 2,9 avec des taux de compression de 2 à 5 fois.
Transformer du texte non structuré en formes structurées et significatives, organisées par des étiquettes de catégories utiles, constitue une étape fondamentale dans l'exploration de texte pour l'analyse et l'application en aval. Cependant, la plupart des méthodes existantes pour produire des taxonomies d'étiquettes et construire des classificateurs basés sur le texte reposent encore largement sur l'expertise du domaine et la curation manuelle, rendant le processus coûteux et chronophage. Cela est particulièrement difficile lorsque l'espace des étiquettes est sous-spécifié et que les annotations de données à grande échelle ne sont pas disponibles. Dans cet article, nous abordons ces défis avec les modèles de langage à grande échelle (LLMs), dont l'interface basée sur des invites facilite l'induction et l'utilisation de pseudo-étiquettes à grande échelle. Nous proposons TnT-LLM, un cadre en deux phases qui utilise les LLMs pour automatiser le processus de génération et d'attribution d'étiquettes de bout en bout avec un effort humain minimal pour tout cas d'utilisation donné. Dans la première phase, nous introduisons une approche de raisonnement en plusieurs étapes en zéro-shot qui permet aux LLMs de produire et d'affiner une taxonomie d'étiquettes de manière itérative. Dans la deuxième phase, les LLMs sont utilisés comme étiqueteurs de données qui produisent des échantillons d'entraînement afin que des classificateurs supervisés légers puissent être construits, déployés et servis de manière fiable à grande échelle. Nous appliquons TnT-LLM à l'analyse de l'intention de l'utilisateur et du domaine conversationnel pour Bing Copilot (anciennement Bing Chat), un moteur de recherche conversationnel à domaine ouvert. Des expériences approfondies utilisant à la fois des métriques d'évaluation humaine et automatique démontrent que TnT-LLM génère des taxonomies d'étiquettes plus précises et pertinentes par rapport aux meilleures méthodes de référence, et atteint un équilibre favorable entre précision et efficacité pour la classification à grande échelle. Nous partageons également nos expériences pratiques et nos insights sur les défis et les opportunités d'utilisation des LLMs pour l'exploration de texte à grande échelle dans des applications réelles.
Les modèles de langage de grande taille (LLMs) open source ont obtenu un grand succès dans diverses tâches de traitement du langage naturel (NLP). Cependant, ils restent nettement inférieurs aux modèles basés sur des API lorsqu'ils agissent en tant qu'agents. La question de savoir comment intégrer les capacités d'agent dans les LLMs généraux devient un problème crucial et urgent. Cet article présente d'abord trois observations clés : (1) le corpus d'entraînement actuel pour les agents est entremêlé de formats à suivre et de raisonnements d'agents, ce qui s'écarte significativement de la distribution des données de pré-entraînement ; (2) les LLMs montrent des vitesses d'apprentissage différentes pour les capacités requises par les tâches d'agents ; et (3) les approches actuelles ont des effets secondaires lorsqu'elles améliorent les capacités des agents en introduisant des hallucinations. Sur la base de ces constats, nous proposons Agent-FLAN pour affiner efficacement les modèles de langage pour les agents. Grâce à une décomposition et une reconception minutieuses du corpus d'entraînement, Agent-FLAN permet à Llama2-7B de surpasser les meilleurs travaux précédents de 3,5 % sur divers ensembles de données d'évaluation d'agents. Avec des échantillons négatifs soigneusement construits, Agent-FLAN atténue grandement les problèmes d'hallucination selon notre benchmark d'évaluation établi. De plus, il améliore de manière constante les capacités d'agent des LLMs lors de l'augmentation de la taille des modèles, tout en renforçant légèrement les capacités générales des LLMs. Le code sera disponible à l'adresse https://github.com/InternLM/Agent-FLAN.
Nous présentons AnimateDiff-Lightning pour une génération de vidéos ultra-rapide. Notre modèle utilise une distillation progressive par diffusion adversarial pour atteindre un nouvel état de l'art dans la génération de vidéos en peu d'étapes. Nous discutons de nos modifications pour l'adapter à la modalité vidéo. De plus, nous proposons de distiller simultanément le flux de probabilité de plusieurs modèles de diffusion de base, aboutissant à un module de mouvement distillé unique avec une compatibilité stylistique plus large. Nous sommes heureux de mettre à disposition notre modèle AnimateDiff-Lightning distillé pour l'usage de la communauté.
Alors que les systèmes robotiques à grande échelle reposent généralement sur des instructions textuelles pour exécuter des tâches, ce travail explore une approche différente : les robots peuvent-ils déduire la tâche directement en observant les humains ? Ce changement nécessite que le robot soit capable de décoder l'intention humaine et de la traduire en actions exécutables, en tenant compte de ses contraintes physiques et de son environnement. Nous présentons Vid2Robot, un nouveau cadre d'apprentissage end-to-end basé sur la vidéo pour les robots. Étant donné une démonstration vidéo d'une tâche de manipulation et les observations visuelles actuelles, Vid2Robot produit directement les actions du robot. Cela est réalisé grâce à un modèle de représentation unifié entraîné sur un vaste ensemble de données comprenant des vidéos humaines et des trajectoires robotiques. Le modèle exploite des mécanismes d'attention croisée pour fusionner les caractéristiques de la vidéo d'invocation avec l'état actuel du robot et générer des actions appropriées qui imitent la tâche observée. Pour améliorer encore les performances de la politique, nous proposons des pertes contrastives auxiliaires qui renforcent l'alignement entre les représentations vidéo humaines et robotiques. Nous évaluons Vid2Robot sur des robots réels, démontrant une amélioration de 20 % des performances par rapport à d'autres politiques conditionnées par la vidéo lors de l'utilisation de vidéos de démonstration humaine. De plus, notre modèle présente des capacités émergentes, telles que le transfert réussi de mouvements observés d'un objet à un autre, et la composition à long terme, montrant ainsi son potentiel pour des applications réelles. Site du projet : vid2robot.github.io
Les modèles vision-langage (VLMs) atteignent des performances de plus en plus solides sur les tâches multimodales. Cependant, leurs capacités de raisonnement restent limitées, en particulier pour les VLMs de plus petite taille, alors que celles des grands modèles de langage (LLMs) ont connu de nombreuses améliorations. Nous proposons une technique pour transférer les capacités des LLMs vers les VLMs. Sur la tâche récemment introduite ChartQA, notre méthode obtient des performances de pointe lorsqu'elle est appliquée au VLM PaLI3-5B de chen2023pali3, tout en permettant également de bien meilleures performances sur PlotQA et FigureQA. Nous améliorons d'abord la représentation des graphiques en poursuivant l'étape de pré-entraînement en utilisant une version améliorée de la tâche de traduction graphique-vers-tableau de liu2023deplot. Nous proposons ensuite de construire un jeu de données 20 fois plus grand que l'ensemble d'entraînement original. Pour améliorer les capacités de raisonnement général et les opérations numériques, nous synthétisons des traces de raisonnement en utilisant la représentation tabulaire des graphiques. Enfin, notre modèle est affiné en utilisant la fonction de perte multitâche introduite par hsieh2023distilling. Notre variante ChartPaLI-5B surpasse même des modèles 10 fois plus grands comme PaLIX-55B sans utiliser un système OCR en amont, tout en maintenant un temps d'inférence constant par rapport à la référence PaLI3-5B. Lorsque les justifications sont encore affinées avec une simple incitation de type "programme de pensée" (chen2023program), notre modèle surpasse les récents Gemini Ultra et GPT-4V.
La création de champs 4D de Gaussian Splatting à partir d'images ou de vidéos est une tâche complexe en raison de sa nature sous-contrainte. Bien que l'optimisation puisse s'appuyer sur des références photométriques issues des vidéos d'entrée ou être régulée par des modèles génératifs, la supervision directe des mouvements des Gaussiennes reste peu explorée. Dans cet article, nous introduisons un nouveau concept, le flux Gaussien, qui relie la dynamique des Gaussiennes 3D et les vitesses des pixels entre des images consécutives. Le flux Gaussien peut être obtenu efficacement en projetant la dynamique des Gaussiennes dans l'espace image. Ce processus différentiable permet une supervision dynamique directe à partir du flux optique. Notre méthode apporte des avantages significatifs à la génération de contenu dynamique 4D et à la synthèse de nouvelles vues 4D avec Gaussian Splatting, en particulier pour les contenus présentant des mouvements complexes difficiles à gérer par les méthodes existantes. Le problème courant de dérive des couleurs dans la génération 4D est également résolu grâce à une dynamique des Gaussiennes améliorée. Une qualité visuelle supérieure dans des expériences approfondies démontre l'efficacité de notre méthode. Les évaluations quantitatives et qualitatives montrent que notre méthode atteint des résultats de pointe dans les deux tâches de génération 4D et de synthèse de nouvelles vues 4D. Page du projet : https://zerg-overmind.github.io/GaussianFlow.github.io/
La génération d'actifs 3D de haute qualité à partir d'une image donnée est très recherchée dans diverses applications telles que la réalité augmentée (AR) et la réalité virtuelle (VR). Les avancées récentes dans la génération 3D à partir d'une seule image explorent des modèles feed-forward qui apprennent à inférer le modèle 3D d'un objet sans optimisation. Bien que des résultats prometteurs aient été obtenus pour la génération d'objets individuels, ces méthodes peinent souvent à modéliser des actifs 3D complexes contenant intrinsèquement plusieurs objets. Dans ce travail, nous présentons ComboVerse, un cadre de génération 3D qui produit des actifs 3D de haute qualité avec des compositions complexes en apprenant à combiner plusieurs modèles. 1) Nous effectuons d'abord une analyse approfondie de cet « écart multi-objets » à la fois du point de vue du modèle et des données. 2) Ensuite, avec des modèles 3D reconstruits de différents objets, nous cherchons à ajuster leurs tailles, angles de rotation et positions pour créer un actif 3D correspondant à l'image donnée. 3) Pour automatiser ce processus, nous appliquons un échantillonnage de distillation de scores spatialement conscient (SSDS) à partir de modèles de diffusion pré-entraînés pour guider le positionnement des objets. Notre cadre proposé met l'accent sur l'alignement spatial des objets, par rapport à l'échantillonnage de distillation de scores standard, et obtient ainsi des résultats plus précis. Des expériences approfondies valident que ComboVerse apporte des améliorations significatives par rapport aux méthodes existantes dans la génération d'actifs 3D compositionnels.
Dans cette étude, nous explorons la génération d'images haute résolution à partir de modèles de diffusion pré-entraînés, en abordant les défis persistants, tels que les motifs répétitifs et les distorsions structurelles, qui apparaissent lorsque les modèles sont appliqués au-delà de leurs résolutions d'entraînement. Pour résoudre ce problème, nous introduisons une approche innovante et sans entraînement, FouriScale, basée sur une analyse dans le domaine fréquentiel. Nous remplaçons les couches convolutionnelles originales des modèles de diffusion pré-entraînés en incorporant une technique de dilatation ainsi qu'une opération de filtrage passe-bas, visant respectivement à assurer la cohérence structurelle et la cohérence d'échelle à travers les résolutions. Renforcée par une stratégie de remplissage puis de recadrage, notre méthode peut gérer de manière flexible la génération d'images à partir de texte pour divers ratios d'aspect. En utilisant FouriScale comme guide, notre méthode parvient à équilibrer l'intégrité structurelle et la fidélité des images générées, atteignant une capacité impressionnante de génération de haute qualité, haute résolution et de taille arbitraire. Grâce à sa simplicité et sa compatibilité, notre méthode peut offrir des perspectives précieuses pour les futures explorations dans la synthèse d'images à ultra-haute résolution. Le code sera disponible à l'adresse suivante : https://github.com/LeonHLJ/FouriScale.
L'efficacité remarquable des modèles de diffusion texte-image a motivé une exploration approfondie de leur application potentielle dans les domaines vidéo. Les méthodes zero-shot visent à étendre les modèles de diffusion d'images aux vidéos sans nécessiter d'entraînement du modèle. Les méthodes récentes se concentrent principalement sur l'intégration de la correspondance inter-images dans les mécanismes d'attention. Cependant, la contrainte douce imposée pour déterminer où se concentrer sur les caractéristiques valides peut parfois s'avérer insuffisante, entraînant une incohérence temporelle. Dans cet article, nous introduisons FRESCO, une correspondance intra-image parallèlement à la correspondance inter-images, afin d'établir une contrainte spatio-temporelle plus robuste. Cette amélioration garantit une transformation plus cohérente du contenu sémantiquement similaire à travers les images. Au-delà du simple guidage de l'attention, notre approche implique une mise à jour explicite des caractéristiques pour atteindre une cohérence spatio-temporelle élevée avec la vidéo d'entrée, améliorant significativement la cohérence visuelle des vidéos traduites résultantes. Des expériences approfondies démontrent l'efficacité de notre cadre proposé dans la production de vidéos de haute qualité et cohérentes, marquant une amélioration notable par rapport aux méthodes zero-shot existantes.
Ces dernières années, le splatting par Gaussiennes 3D s'est imposé comme une technique puissante pour la reconstruction et la génération 3D, reconnue pour ses capacités de rendu rapide et de haute qualité. Pour pallier ces lacunes, cet article présente un nouveau cadre basé sur la diffusion, GVGEN, conçu pour générer efficacement des représentations de Gaussiennes 3D à partir d'une entrée textuelle. Nous proposons deux techniques innovantes : (1) Représentation Volumétrique Structurée. Nous organisons d'abord les points de Gaussiennes 3D désordonnés sous une forme structurée appelée GaussianVolume. Cette transformation permet de capturer des détails de texture complexes au sein d'un volume composé d'un nombre fixe de Gaussiennes. Pour mieux optimiser la représentation de ces détails, nous proposons une méthode unique d'élagage et de densification nommée Stratégie de Pool de Candidats, améliorant la fidélité des détails grâce à une optimisation sélective. (2) Pipeline de Génération Grossière à Fine. Pour simplifier la génération de GaussianVolume et permettre au modèle de générer des instances avec une géométrie 3D détaillée, nous proposons un pipeline allant du grossier au fin. Il construit d'abord une structure géométrique de base, suivie de la prédiction des attributs complets des Gaussiennes. Notre cadre, GVGEN, démontre une performance supérieure dans les évaluations qualitatives et quantitatives par rapport aux méthodes existantes de génération 3D. Simultanément, il maintient une vitesse de génération rapide (environ 7 secondes), établissant efficacement un équilibre entre qualité et efficacité.
La texturation d'humains 3D avec des cartes UV sémantiques reste un défi en raison de la difficulté à acquérir des UV raisonnablement dépliées. Malgré les récents progrès en text-to-3D supervisant des rendus multi-vues à l'aide de grands modèles text-to-image (T2I), des problèmes persistent concernant la vitesse de génération, la cohérence textuelle et la qualité des textures, entraînant une rareté des données parmi les ensembles de données existants. Nous présentons TexDreamer, le premier modèle de génération de textures 3D humaines haute fidélité multimodal en zero-shot. En utilisant une stratégie de fine-tuning efficace pour l'adaptation des textures, nous adaptons un grand modèle T2I à une structure UV sémantique tout en préservant sa capacité de généralisation d'origine. Grâce à un module innovant de traduction de caractéristiques, le modèle entraîné est capable de générer des textures 3D humaines haute fidélité à partir de texte ou d'image en quelques secondes. Par ailleurs, nous introduisons ArTicuLated humAn textureS (ATLAS), le plus grand ensemble de données de textures 3D humaines haute résolution (1024 X 1024), contenant 50k textures haute fidélité accompagnées de descriptions textuelles.