Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'extraction de contenu de documents est cruciale en vision par ordinateur, en particulier pour répondre aux besoins en données de haute qualité des grands modèles de langage (LLM) et des technologies de génération augmentée par récupération (RAG). Cependant, les méthodes actuelles d'analyse de documents souffrent de limitations significatives en termes de diversité et d'évaluation exhaustive. Pour relever ces défis, nous introduisons OmniDocBench, un nouveau banc d'essai multi-source conçu pour faire progresser l'extraction automatisée de contenu de documents. OmniDocBench comprend un ensemble de données d'évaluation de haute qualité méticuleusement sélectionné et annoté, comprenant neuf types de documents divers tels que des articles académiques, des manuels, des diapositives, entre autres. Notre banc d'essai offre un cadre d'évaluation flexible et complet avec 19 étiquettes de catégories de mise en page et 14 étiquettes d'attributs, permettant des évaluations à plusieurs niveaux sur l'ensemble des ensembles de données, des modules individuels ou des types de données spécifiques. En utilisant OmniDocBench, nous réalisons une analyse comparative exhaustive des pipelines modulaires existants et des méthodes multimodales de bout en bout, mettant en évidence leurs limitations dans la gestion de la diversité des documents et garantissant une évaluation équitable. OmniDocBench établit une norme d'évaluation robuste, diversifiée et équitable pour le domaine de l'extraction de contenu de documents, offrant des perspectives cruciales pour les avancées futures et favorisant le développement des technologies d'analyse de documents. Les codes et l'ensemble de données sont disponibles sur https://github.com/opendatalab/OmniDocBench.
Les grands modèles de langage (LLMs) sont limités à raisonner dans l'espace de "langage", où ils expriment généralement le processus de raisonnement avec une chaîne de pensée (CoT) pour résoudre un problème de raisonnement complexe. Cependant, nous soutenons que l'espace de langage n'est pas toujours optimal pour le raisonnement. Par exemple, la plupart des jetons de mots sont principalement destinés à la cohérence textuelle et ne sont pas essentiels au raisonnement, tandis que certains jetons critiques nécessitent une planification complexe et posent d'énormes défis aux LLMs. Pour explorer le potentiel du raisonnement des LLMs dans un espace latent non restreint au lieu d'utiliser le langage naturel, nous introduisons un nouveau paradigme, Coconut (Chaîne de Pensée Continue). Nous utilisons le dernier état caché du LLM comme représentation de l'état de raisonnement (appelé "pensée continue"). Au lieu de le décoder en un jeton de mot, nous le renvoyons au LLM en tant qu'incorporation d'entrée ultérieure directement dans l'espace continu. Les expériences montrent que Coconut peut augmenter efficacement le LLM sur plusieurs tâches de raisonnement. Ce nouveau paradigme de raisonnement latent conduit à des schémas de raisonnement avancés émergents : la pensée continue peut encoder plusieurs étapes de raisonnement suivantes alternatives, permettant au modèle d'effectuer une recherche en largeur (BFS) pour résoudre le problème, plutôt que de s'engager prématurément dans un seul chemin déterministe comme CoT. Coconut surpasse CoT dans certaines tâches de raisonnement logique qui nécessitent un retour en arrière substantiel lors de la planification, avec moins de jetons de réflexion pendant l'inférence. Ces résultats démontrent la promesse du raisonnement latent et offrent des perspectives précieuses pour la recherche future.
Étant donné que les modèles de langage commettent régulièrement des erreurs lors de la résolution de problèmes mathématiques, l'identification automatisée des erreurs dans le processus de raisonnement devient de plus en plus importante pour leur supervision à grande échelle. Dans cet article, nous présentons ProcessBench pour mesurer la capacité à identifier les étapes erronées dans le raisonnement mathématique. Il se compose de 3 400 cas de test, principalement axés sur des problèmes mathématiques de niveau compétition et olympique. Chaque cas de test contient une solution étape par étape avec l'emplacement de l'erreur annoté par des experts humains. Les modèles doivent identifier la première étape contenant une erreur, ou conclure que toutes les étapes sont correctes. Nous menons une évaluation approfondie sur ProcessBench, impliquant deux types de modèles : les modèles de récompense de processus (PRM) et les modèles critiques, où pour ces derniers, nous incitons les modèles de langage généraux à critiquer chaque étape de la solution. Nous tirons deux observations principales : (1) Les PRM existants ont généralement du mal à se généraliser à des problèmes mathématiques plus complexes au-delà de GSM8K et MATH. Ils sont moins performants que les modèles critiques (c'est-à-dire les modèles de langage généraux incités) et notre propre PRM entraîné qui est simplement affiné sur l'ensemble de données PRM800K. (2) Le meilleur modèle open source, QwQ-32B-Preview, a démontré une capacité de critique compétitive avec le modèle propriétaire GPT-4o, bien qu'il reste en retard sur le modèle spécialisé en raisonnement o1-mini. Nous espérons que ProcessBench pourra stimuler la recherche future dans l'évaluation du processus de raisonnement, ouvrant la voie à une supervision à grande échelle des modèles de langage.
L'incorporation de la mémoire dans les agents est essentielle pour de nombreuses tâches dans le domaine de l'Apprentissage par Renforcement (RL). En particulier, la mémoire est primordiale pour les tâches qui nécessitent l'utilisation d'informations passées, l'adaptation à des environnements nouveaux et l'amélioration de l'efficacité des échantillons. Cependant, le terme "mémoire" englobe un large éventail de concepts, ce qui, associé à l'absence d'une méthodologie unifiée pour valider la mémoire d'un agent, conduit à des jugements erronés sur les capacités mnésiques des agents et empêche une comparaison objective avec d'autres agents renforcés par la mémoire. Cet article vise à rationaliser le concept de mémoire en RL en fournissant des définitions précises et pratiques des types de mémoire des agents, tels que la mémoire à long terme par rapport à la mémoire à court terme et la mémoire déclarative par rapport à la mémoire procédurale, inspirées des sciences cognitives. En utilisant ces définitions, nous catégorisons différentes classes de mémoire des agents, proposons une méthodologie expérimentale robuste pour évaluer les capacités mnésiques des agents RL et standardisons les évaluations. De plus, nous démontrons empiriquement l'importance de respecter la méthodologie proposée lors de l'évaluation des différents types de mémoire des agents en menant des expériences avec différents agents RL et en montrant les conséquences de sa violation.
Le développement rapide des grands Modèles Vision- Langage (VLM) a conduit à des résultats impressionnants sur les référentiels académiques, principalement dans les langues largement parlées. Cependant, des écarts significatifs persistent dans la capacité des VLM actuels à traiter les langues à faibles ressources et les contextes culturels variés, principalement en raison d'un manque de données diverses, de haute qualité et vérifiées pour la sécurité. Par conséquent, ces modèles ont souvent du mal à comprendre les langues à faibles ressources et les subtilités culturelles de manière exempte de toxicité. Pour remédier à ces limitations, nous présentons Maya, un modèle Multimodal Multilingue open-source. Nos contributions sont triples : 1) un ensemble de données de pré-entraînement image-texte multilingue dans huit langues, basé sur l'ensemble de données de pré-entraînement LLaVA ; 2) une analyse approfondie de la toxicité au sein de l'ensemble de données LLaVA, suivie de la création d'une version novatrice exempte de toxicité dans huit langues ; et 3) un modèle image-texte multilingue prenant en charge ces langues, améliorant la compréhension culturelle et linguistique dans les tâches vision-langage. Code disponible sur https://github.com/nahidalam/maya.
La géolocalisation visuelle globale prédit où une image a été capturée sur Terre. Comme les images varient en termes de précision de localisation, cette tâche implique intrinsèquement un degré significatif d'ambiguïté. Cependant, les approches existantes sont déterministes et négligent cet aspect. Dans cet article, nous visons à combler l'écart entre la géolocalisation traditionnelle et les méthodes génératives modernes. Nous proposons la première approche générative de géolocalisation basée sur la diffusion et la correspondance de flux riemannien, où le processus de débruitage opère directement sur la surface de la Terre. Notre modèle atteint des performances de pointe sur trois référentiels de géolocalisation visuelle : OpenStreetView-5M, YFCC-100M et iNat21. De plus, nous introduisons la tâche de géolocalisation visuelle probabiliste, où le modèle prédit une distribution de probabilité sur toutes les localisations possibles au lieu d'un seul point. Nous présentons de nouvelles mesures et des bases pour cette tâche, démontrant les avantages de notre approche basée sur la diffusion. Les codes et les modèles seront rendus disponibles.
Les Modèles de Langage Multimodaux à Grande Échelle (MLLM) excellent dans les tâches de vision--langage en se pré-entraînant uniquement sur des annotations de concepts à gros grains (par exemple, des légendes d'images). Nous émettons l'hypothèse qu'intégrer des annotations de concepts à grains fins (par exemple, des étiquettes d'objets et des régions d'objets) améliorera encore les performances, car les deux granularités de données se complètent en termes de largeur et de profondeur dans la représentation des concepts. Nous introduisons un nouveau jeu de données présentant des annotations de concepts Multimodaux Multi-Grains (MMGiC) pour les MLLM. En construisant MMGiC, nous explorons l'impact de différentes recettes de données sur la compréhension et la génération multimodales. Nos analyses révèlent que les annotations de concepts multi-grains s'intègrent et se complètent, dans le cadre de notre modèle structuré et d'un cadre MLLM général. Nous explorons clairement et démontrons le potentiel de MMGiC pour aider les MLLM à mieux localiser et apprendre des concepts, en alignant la vision et le langage à plusieurs granularités. Nous validons en outre notre hypothèse en étudiant la comparaison équitable et la collaboration efficace entre MMGiC et les données image--légende sur 12 référentiels de compréhension et de génération multimodaux, par exemple, leur combinaison appropriée permet d'obtenir des améliorations absolues de 3,95 % et 2,34 % sur POPE et SEED-Bench par rapport aux données image--légende seules. Le code, les données et les modèles seront disponibles sur https://github.com/LooperXX/MMGiC.
Ces dernières années, on observe un intérêt croissant pour l'unification de la compréhension et de la génération d'images au sein des Grands Modèles de Langage (GML). Cet intérêt croissant nous a incités à explorer l'extension de cette unification aux vidéos. Le défi principal réside dans le développement d'un tokeniseur vidéo polyvalent qui capture à la fois les caractéristiques spatiales et les dynamiques temporelles des vidéos pour obtenir des représentations pour les GML, et ces représentations peuvent ensuite être décodées en clips vidéo réalistes pour permettre la génération de vidéos. Dans ce travail, nous présentons Divot, un Tokeniseur Vidéo Alimenté par Diffusion, qui exploite le processus de diffusion pour l'apprentissage de représentations vidéo auto-supervisé. Nous postulons que si un modèle de diffusion vidéo peut efficacement débruiter des clips vidéo en prenant les caractéristiques d'un tokeniseur vidéo comme condition, alors le tokeniseur a capturé avec succès des informations spatiales et temporelles robustes. De plus, le modèle de diffusion vidéo fonctionne intrinsèquement comme un dé-tokeniseur, décodant les vidéos à partir de leurs représentations. En s'appuyant sur le tokeniseur Divot, nous présentons Divot-Vicuna à travers l'autorégression vidéo-texte et la génération texte-vidéo en modélisant les distributions des caractéristiques Divot à valeurs continues avec un Modèle de Mélange Gaussien. Les résultats expérimentaux démontrent que notre tokeniseur vidéo basé sur la diffusion, lorsqu'il est intégré à un GML pré-entraîné, atteint des performances compétitives sur divers bancs d'essai de compréhension et de génération de vidéos. Le Divot-Vicuna ajusté aux instructions excelle également dans la narration vidéo, générant des récits entrelacés et les vidéos correspondantes.
Les modèles récents de génération 3D s'appuient généralement sur des "gold-labels" 3D à petite échelle ou des prédictions de diffusion 2D pour la création de contenu 3D. Cependant, leur performance est limitée par des contraintes 3D en raison du manque de paradigmes d'apprentissage évolutifs. Dans ce travail, nous présentons See3D, un modèle de diffusion multi-vue conditionnel visuel entraîné sur de grandes vidéos Internet à des fins de création 3D en monde ouvert. Le modèle vise à acquérir des connaissances 3D en observant uniquement le contenu visuel des vastes et rapidement croissantes données vidéo - Vous le voyez, vous l'obtenez. Pour ce faire, nous avons d'abord augmenté l'ensemble de données d'entraînement à l'aide d'un pipeline de curation de données proposé qui filtre automatiquement les incohérences multi-vues et les observations insuffisantes des vidéos sources. Cela a permis d'obtenir un ensemble de données multi-vues de haute qualité, riche et diversifié à grande échelle, appelé WebVi3D, contenant 320 millions de trames issues de 16 millions de clips vidéo. Néanmoins, apprendre des prédictions 3D génériques à partir de vidéos sans géométrie 3D explicite ou annotations de pose de caméra est complexe, et annoter les poses pour des vidéos à l'échelle du web est excessivement coûteux. Pour éliminer le besoin de conditions de pose, nous introduisons un signal visuel conditionnel innovant - un signal visuel purement inductif 2D généré en ajoutant du bruit dépendant du temps aux données vidéo masquées. Enfin, nous présentons un nouveau cadre de génération 3D conditionnel visuel en intégrant See3D dans un pipeline basé sur le warping pour une génération 3D haute fidélité. Nos comparaisons numériques et visuelles sur des référentiels de reconstruction unique et clairsemée montrent que See3D, entraîné sur des données vidéo rentables et évolutives, atteint des capacités de génération notable en zéro-shot et en monde ouvert, surpassant nettement les modèles entraînés sur des ensembles de données 3D coûteux et contraignants. Veuillez consulter notre page de projet à l'adresse : https://vision.baai.ac.cn/see3d
Les transformateurs linéaires ont attiré l'attention en tant qu'alternatives efficaces aux transformateurs standard, mais leurs performances dans les tâches de recherche et de contexte étendu ont été limitées. Pour remédier à ces limitations, des travaux récents ont exploré deux mécanismes distincts : le contrôle adaptatif de la mémoire par des mécanismes de filtrage et la règle de mise à jour delta pour des modifications précises de la mémoire. Nous observons que ces mécanismes sont complémentaires : le filtrage permet une effacement rapide de la mémoire tandis que la règle delta facilite les mises à jour ciblées. En nous appuyant sur cette observation, nous introduisons la règle delta filtrée et développons un algorithme d'entraînement parallèle optimisé pour le matériel moderne. Notre architecture proposée, Gated DeltaNet, surpasse de manière constante les modèles existants tels que Mamba2 et DeltaNet sur plusieurs bancs d'essai, notamment la modélisation de langage, le raisonnement de bon sens, la récupération en contexte, l'extrapolation de longueur et la compréhension de contexte étendu. Nous améliorons encore les performances en développant des architectures hybrides qui combinent des couches Gated DeltaNet avec une attention à fenêtre glissante ou des couches Mamba2, obtenant à la fois une efficacité d'entraînement améliorée et des performances de tâche supérieures.
Dans ce travail, nous proposons la première approche de transfert de mouvement dans un transformateur de diffusion à travers le Mélange de Guidage de Score (MSG), un cadre théoriquement fondé pour le transfert de mouvement dans les modèles de diffusion. Notre principale contribution théorique réside dans la reformulation du score conditionnel pour décomposer le score de mouvement et le score de contenu dans les modèles de diffusion. En formulant le transfert de mouvement comme un mélange d'énergies potentielles, le MSG préserve naturellement la composition de la scène et permet des transformations de scène créatives tout en maintenant l'intégrité des motifs de mouvement transférés. Cet échantillonnage novateur fonctionne directement sur des modèles de diffusion vidéo pré-entraînés sans formation ou ajustement supplémentaire. À travers des expériences approfondies, le MSG démontre une gestion réussie de divers scénarios, y compris le transfert de mouvement d'objet unique, d'objets multiples, de mouvements entre objets ainsi que le transfert de mouvement de caméra complexe. De plus, nous introduisons MotionBench, le premier ensemble de données de transfert de mouvement composé de 200 vidéos sources et de 1000 mouvements transférés, couvrant les transferts d'objet unique/multiple et les mouvements de caméra complexes.
Avec l'augmentation constante des volumes de données d'observation de la Terre présents dans les archives de grands programmes tels que Copernicus, il y a un besoin croissant de représentations vectorielles efficaces des données brutes sous-jacentes. L'approche consistant à extraire des représentations de caractéristiques à partir de réseaux neuronaux profonds pré-entraînés est une approche puissante qui peut fournir des abstractions sémantiques des données d'entrée. Cependant, la manière dont cela est fait pour les archives d'imagerie contenant des données géospatiales n'a pas encore été définie. Dans ce travail, une extension est proposée à un projet communautaire existant, Major TOM, axé sur la fourniture et la normalisation de jeux de données ouverts et gratuits prêts pour l'IA pour l'observation de la Terre. De plus, quatre ensembles de données d'incorporation globaux et denses sont publiés ouvertement et gratuitement en même temps que la publication de ce manuscrit, aboutissant au jeu de données ouvert mondial le plus complet d'incorporations visuelles géospatiales en termes de surface terrestre couverte.
Dans l'apprentissage des politiques visuomotrices robotiques, les modèles basés sur la diffusion ont connu un succès significatif en améliorant la précision de la génération de trajectoires d'actions par rapport aux modèles autorégressifs traditionnels. Cependant, ils souffrent d'inefficacité en raison de multiples étapes de débruitage et d'une flexibilité limitée due à des contraintes complexes. Dans cet article, nous introduisons CARP (Coarse-to-Fine AutoRegressive Policy), un nouveau paradigme pour l'apprentissage des politiques visuomotrices qui redéfinit le processus de génération d'actions autorégressives comme une approche à échelle suivante, de grossier à fin. CARP découple la génération d'actions en deux étapes : d'abord, un autoencodeur d'actions apprend des représentations multi-échelles de l'ensemble de la séquence d'actions ; ensuite, un transformateur de style GPT affine la prédiction de séquence à travers un processus autorégressif de grossier à fin. Cette approche simple et intuitive produit des actions hautement précises et fluides, égalant voire surpassant les performances des politiques basées sur la diffusion tout en maintenant une efficacité comparable à celle des politiques autorégressives. Nous menons des évaluations approfondies dans des contextes divers, y compris des scénarios mono-tâche et multi-tâches sur des bancs d'essai de simulation basés sur l'état et l'image, ainsi que des tâches réelles. CARP atteint des taux de succès compétitifs, avec une amélioration allant jusqu'à 10 %, et offre une inférence 10 fois plus rapide par rapport aux politiques de pointe, établissant un paradigme performant, efficace et flexible pour la génération d'actions dans les tâches robotiques.
Nous présentons un nouveau modèle d'apparence qui réalise simultanément la récupération explicite de maillages de surface 3D de haute qualité et la synthèse photoréaliste de nouvelles vues à partir d'échantillons de vues clairsemées. Notre idée clé est de modéliser la géométrie de scène sous-jacente sous la forme d'un atlas de cartes que nous rendons avec des surfels gaussiens en 2D (MAtCha Gaussians). MAtCha extrait les détails de surface de haute fréquence de la scène à partir d'un estimateur de profondeur monoculaire standard et les affine grâce au rendu de surfels gaussiens. Les surfels gaussiens sont attachés aux cartes en temps réel, satisfaisant ainsi le réalisme photographique du rendu volumétrique neuronal et la géométrie nette d'un modèle de maillage, c'est-à-dire deux objectifs en apparence contradictoires dans un seul modèle. Au cœur de MAtCha se trouve un nouveau modèle de déformation neuronale et une perte de structure qui préserve les détails de surface fins extraits des profondeurs monoculaires apprises tout en traitant leurs ambiguïtés d'échelle fondamentales. Les résultats d'une validation expérimentale approfondie démontrent la qualité de pointe de la reconstruction de surface et du réalisme photographique de MAtCha, à la hauteur des meilleurs concurrents mais avec une réduction spectaculaire du nombre de vues d'entrée et du temps de calcul. Nous pensons que MAtCha servira d'outil fondamental pour toute application visuelle en vision, graphisme et robotique nécessitant une géométrie explicite en plus du réalisme photographique. Notre page de projet est la suivante : https://anttwo.github.io/matcha/
Nous proposons un watermark textuel multi-bits imperceptible intégré par reformulation avec des LLM. Nous affinons un couple de paraphraseurs LLM conçus pour se comporter différemment afin que leur différence de reformulation, reflétée dans la sémantique du texte, puisse être identifiée par un décodeur entraîné. Pour intégrer notre watermark multi-bits, nous utilisons deux paraphraseurs de manière alternative pour encoder le code binaire prédéfini au niveau de la phrase. Ensuite, nous utilisons un classificateur de texte en tant que décodeur pour décoder chaque bit du watermark. À travers des expériences approfondies, nous montrons que nos watermarks peuvent atteindre plus de 99,99\% d'AUC de détection avec de petits (1,1 milliard) paraphraseurs de texte tout en conservant l'information sémantique de la phrase d'origine. Plus important encore, notre pipeline est robuste face aux substitutions de mots et aux perturbations de reformulation de phrases, et généralise bien aux données hors distribution. Nous montrons également la furtivité de notre watermark avec une évaluation basée sur les LLM. Nous mettons le code en open source : https://github.com/xiaojunxu/multi-bit-text-watermark.
La fusion de modèles a montré un grand potentiel pour combiner des modèles d'experts, mais l'avantage de la fusion est incertain lors de la fusion de modèles "généralistes" formés sur de nombreuses tâches. Nous explorons la fusion dans le contexte de grands modèles (environ 100 milliards de paramètres), en recyclant des points de contrôle qui présentent des compromis entre différentes tâches. Ces points de contrôle sont souvent créés dans le processus de développement d'un modèle de pointe, et de nombreux points de contrôle sous-optimaux sont généralement jetés. Étant donné un ensemble de points de contrôle de modèles obtenus à partir de différentes exécutions d'entraînement (par exemple, différentes étapes, objectifs, hyperparamètres et mélanges de données), qui montrent naturellement des compromis entre différentes capacités linguistiques (par exemple, suivi des instructions vs génération de code), nous étudions si la fusion peut recycler de tels modèles sous-optimaux en un modèle optimal de Pareto. Notre algorithme d'optimisation ajuste le poids de chaque point de contrôle dans une combinaison linéaire, donnant ainsi des modèles optimaux de Pareto qui surpassent à la fois les modèles individuels et les bases de fusion. Une analyse plus approfondie montre que de bonnes fusions tendent à inclure presque tous les points de contrôle avec des poids non nuls, indiquant que même des points de contrôle initiaux apparemment mauvais peuvent contribuer à de bonnes fusions finales.
Nous présentons Turbo3D, un système de conversion de texte en 3D ultra-rapide capable de générer des éléments de type Gaussian splatting de haute qualité en moins d'une seconde. Turbo3D utilise un générateur de diffusion à 4 étapes et 4 vues rapide et un reconstructeur Gaussien à propagation avant efficace, tous deux opérant dans un espace latent. Le générateur à 4 étapes et 4 vues est un modèle étudiant distillé grâce à une nouvelle approche à double enseignant, qui encourage l'étudiant à apprendre la cohérence des vues d'un enseignant multi-vues et le photoréalisme d'un enseignant mono-vue. En déplaçant les entrées du reconstructeur Gaussien de l'espace des pixels à l'espace latent, nous éliminons le temps supplémentaire de décodage d'image et réduisons de moitié la longueur de la séquence du transformateur pour une efficacité maximale. Notre méthode démontre des résultats de génération 3D supérieurs par rapport aux références précédentes, tout en fonctionnant en une fraction de leur temps d'exécution.