Articles de recherche en IA sélectionnés quotidiennement avec traductions
Générer des réponses naturelles et pertinentes pour communiquer avec des entrées humaines multimodales est une capacité fondamentale des grands modèles de vision et de langage (LVLMs). Bien que les LVLMs open-source actuels démontrent des performances prometteuses dans des scénarios simplifiés tels que des entrées à tour unique et image unique, ils sont limités dans les scénarios de conversation réels, comme suivre des instructions dans un contexte historique long avec des tours multiples et des images multiples. Les benchmarks existants pour les LVLMs se concentrent principalement sur des questions à choix unique ou des réponses courtes, ce qui ne permet pas d'évaluer adéquatement les capacités des LVLMs dans les applications d'interaction humain-IA du monde réel. Par conséquent, nous introduisons MMDU, un benchmark complet, et MMDU-45k, un jeu de données d'ajustement d'instructions à grande échelle, conçus pour évaluer et améliorer les capacités des LVLMs dans les conversations à tours multiples et images multiples. Nous utilisons un algorithme de clustering pour trouver les images et descriptions textuelles pertinentes à partir de Wikipédia open-source et construisons les paires question-réponse par des annotateurs humains avec l'assistance du modèle GPT-4o. MMDU contient un maximum de 18k tokens image+texte, 20 images et 27 tours, ce qui est au moins 5 fois plus long que les benchmarks précédents et pose des défis aux LVLMs actuels. Notre analyse approfondie de 15 LVLMs représentatifs utilisant MMDU révèle que les LVLMs open-source sont à la traîne par rapport à leurs homologues propriétaires en raison de données limitées d'ajustement d'instructions conversationnelles. Nous démontrons que l'ajustement fin des LVLMs open-source sur MMDU-45k comble significativement cet écart, générant des conversations plus longues et plus précises, et améliorant les scores sur MMDU et les benchmarks existants (MMStar : +1,1 %, MathVista : +1,5 %, ChartQA : +1,2 %). Nos contributions ouvrent la voie à la réduction de l'écart entre les modèles LVLMs actuels et les exigences des applications réelles. Ce projet est disponible à l'adresse https://github.com/Liuziyu77/MMDU.
Nous présentons DataComp for Language Models (DCLM), un banc d'essai pour des expériences contrôlées sur les ensembles de données visant à améliorer les modèles de langage. Dans le cadre de DCLM, nous fournissons un corpus standardisé de 240 000 milliards de tokens extraits de Common Crawl, des recettes de pré-entraînement efficaces basées sur le framework OpenLM, ainsi qu'une large suite de 53 évaluations en aval. Les participants au benchmark DCLM peuvent expérimenter des stratégies de curation de données telles que la déduplication, le filtrage et le mélange de données, à des échelles de modèles allant de 412 millions à 7 milliards de paramètres. Comme référence pour DCLM, nous menons des expériences approfondies et constatons que le filtrage basé sur des modèles est essentiel pour constituer un ensemble d'entraînement de haute qualité. Le jeu de données résultant, DCLM-Baseline, permet d'entraîner un modèle de langage de 7 milliards de paramètres à partir de zéro pour atteindre une précision de 64% en 5-shot sur MMLU avec 2 600 milliards de tokens d'entraînement. Comparé à MAP-Neo, l'état de l'art précédent en matière de modèles de langage à données ouvertes, DCLM-Baseline représente une amélioration de 6,6 points de pourcentage sur MMLU tout en étant entraîné avec 40% de calcul en moins. Notre modèle de référence est également comparable à Mistral-7B-v0.3 et Llama 3 8B sur MMLU (63% et 66%), et obtient des performances similaires en moyenne sur 53 tâches de compréhension du langage naturel tout en étant entraîné avec 6,6 fois moins de calcul que Llama 3 8B. Nos résultats soulignent l'importance de la conception des ensembles de données pour l'entraînement des modèles de langage et offrent un point de départ pour des recherches ultérieures sur la curation de données.
L'optimisation directe des préférences (DPO) s'est avérée être une méthode efficace pour l'alignement des grands modèles de langage (LLM). Des travaux récents ont tenté d'appliquer la DPO à des scénarios multimodaux, mais ont rencontré des difficultés à obtenir des améliorations constantes. À travers une expérience comparative, nous identifions le problème de préférence inconditionnelle dans l'optimisation des préférences multimodales, où le modèle néglige la condition de l'image. Pour résoudre ce problème, nous proposons mDPO, un objectif DPO multimodal qui empêche la surpriorisation des préférences basées uniquement sur le langage en optimisant également la préférence pour l'image. De plus, nous introduisons une ancre de récompense qui force la récompense à être positive pour les réponses choisies, évitant ainsi la diminution de leur probabilité — un problème intrinsèque à l'optimisation des préférences relatives. Les expériences menées sur deux LLM multimodaux de tailles différentes et trois benchmarks largement utilisés démontrent que mDPO résout efficacement le problème de préférence inconditionnelle dans l'optimisation des préférences multimodales et améliore significativement les performances du modèle, en particulier en réduisant les hallucinations.
Les grands modèles de langage (LLMs) sont capables de traiter des historiques de dialogue étendus lors d'interactions prolongées avec les utilisateurs sans modules de mémoire supplémentaires ; cependant, leurs réponses ont tendance à négliger ou à rappeler incorrectement des informations passées. Dans cet article, nous revisitons la génération de réponses augmentée par la mémoire à l'ère des LLMs. Alors que les travaux précédents se concentrent sur l'élimination des souvenirs obsolètes, nous soutenons que ces souvenirs peuvent fournir des indices contextuels qui aident les systèmes de dialogue à comprendre le développement des événements passés et, par conséquent, à améliorer la génération de réponses. Nous présentons Theanine, un cadre qui enrichit la génération de réponses des LLMs avec des chronologies de mémoire — des séries de souvenirs qui illustrent le développement et la causalité des événements passés pertinents. Parallèlement à Theanine, nous introduisons TeaFarm, un pipeline de questions-réponses basé sur des scénarios contrefactuels qui aborde les limites de G-Eval dans les conversations à long terme. Des vidéos supplémentaires de nos méthodes et le jeu de données TeaBag pour l'évaluation de TeaFarm sont disponibles sur https://theanine-693b0.web.app/.
Récemment, les actifs 3D créés par reconstruction et génération ont atteint une qualité comparable à celle des actifs conçus manuellement, soulignant leur potentiel de remplacement. Cependant, ce potentiel reste largement inexploité car ces actifs doivent toujours être convertis en maillages pour les applications de l'industrie 3D, et les maillages produits par les méthodes actuelles d'extraction de maillages sont nettement inférieurs aux Maillages Créés par des Artistes (MCA), c'est-à-dire les maillages créés par des artistes humains. Plus précisément, les méthodes actuelles d'extraction de maillages reposent sur des faces denses et ignorent les caractéristiques géométriques, entraînant des inefficacités, un post-traitement complexe et une qualité de représentation moindre. Pour résoudre ces problèmes, nous présentons MeshAnything, un modèle qui traite l'extraction de maillages comme un problème de génération, produisant des MCA alignés avec des formes spécifiées. En convertissant des actifs 3D dans toute représentation 3D en MCA, MeshAnything peut être intégré à diverses méthodes de production d'actifs 3D, améliorant ainsi leur application dans l'industrie 3D. L'architecture de MeshAnything comprend un VQ-VAE et un transformeur décodeur uniquement conditionné par la forme. Nous apprenons d'abord un vocabulaire de maillages à l'aide du VQ-VAE, puis nous entraînons le transformeur décodeur uniquement conditionné par la forme sur ce vocabulaire pour une génération de maillages autorégressive conditionnée par la forme. Nos expériences approfondies montrent que notre méthode génère des MCA avec des centaines de fois moins de faces, améliorant considérablement l'efficacité du stockage, du rendu et de la simulation, tout en atteignant une précision comparable aux méthodes précédentes.
Malgré la récente observation que les grands modèles de langage (LLMs) peuvent stocker des connaissances factuelles substantielles, il existe une compréhension limitée des mécanismes par lesquels ils acquièrent ces connaissances factuelles lors du pré-entraînement. Ce travail comble cette lacune en étudiant comment les LLMs acquièrent des connaissances factuelles pendant le pré-entraînement. Les résultats révèlent plusieurs insights importants sur la dynamique d'acquisition des connaissances factuelles lors du pré-entraînement. Premièrement, de manière contre-intuitive, nous observons que le pré-entraînement sur davantage de données ne montre aucune amélioration significative dans la capacité du modèle à acquérir et à maintenir des connaissances factuelles. Ensuite, il existe une relation de loi de puissance entre les étapes d'entraînement et l'oubli de la mémorisation et de la généralisation des connaissances factuelles, et les LLMs entraînés avec des données d'entraînement dupliquées présentent un oubli plus rapide. Troisièmement, l'entraînement des LLMs avec des tailles de lot plus importantes peut renforcer la robustesse des modèles face à l'oubli. Globalement, nos observations suggèrent que l'acquisition de connaissances factuelles dans le pré-entraînement des LLMs se produit en augmentant progressivement la probabilité des connaissances factuelles présentes dans les données de pré-entraînement à chaque étape. Cependant, cette augmentation est diluée par un oubli ultérieur. Sur la base de cette interprétation, nous démontrons que nous pouvons fournir des explications plausibles pour les comportements récemment observés des LLMs, tels que la faible performance des LLMs sur les connaissances de longue traîne et les avantages de la déduplication du corpus de pré-entraînement.
Les récents modèles de langage de grande taille ont été enrichis de capacités visuelles, leur permettant de comprendre les images, les vidéos et les contenus intercalés vision-langage. Cependant, les méthodes d'apprentissage de ces grands modèles multimodaux traitent généralement les vidéos comme des clips prédéterminés, ce qui les rend moins efficaces et moins performants pour gérer les entrées vidéo en flux continu. Dans cet article, nous proposons un nouveau cadre d'apprentissage en flux vidéo (Learning-In-Video-Stream, LIVE), qui permet une conversation alignée temporellement, à long contexte et en temps réel au sein d'un flux vidéo continu. Notre cadre LIVE comprend des approches complètes pour réaliser un dialogue en flux vidéo, incluant : (1) un objectif d'apprentissage conçu pour effectuer la modélisation du langage pour des entrées en flux continu, (2) un schéma de génération de données qui convertit les annotations temporelles hors ligne en un format de dialogue en flux, et (3) un pipeline d'inférence optimisé pour accélérer les réponses du modèle dans les flux vidéo réels. Avec notre cadre LIVE, nous avons construit le modèle VideoLLM-online sur Llama-2/Llama-3 et démontrons ses avantages significatifs dans le traitement des vidéos en flux. Par exemple, en moyenne, notre modèle peut prendre en charge un dialogue en flux dans un clip vidéo de 5 minutes à plus de 10 FPS sur une GPU A100. De plus, il montre également des performances de pointe sur des benchmarks vidéo hors ligne publics, tels que la reconnaissance, le sous-titrage et la prévision. Le code, le modèle, les données et la démo sont disponibles à l'adresse https://showlab.github.io/videollm-online.
Le déploiement des grands modèles de langage (LLM) est souvent entravé par les exigences mémoire importantes du cache clé-valeur (KV), en particulier à mesure que les longueurs de contexte augmentent. Les approches existantes pour réduire la taille du cache KV impliquent soit un ajustement fin du modèle pour apprendre une stratégie de compression, soit l'utilisation des scores d'attention pour réduire la longueur de la séquence. Nous analysons les distributions d'attention dans les modèles basés sur des Transformers à décodeur uniquement et observons que les schémas d'allocation de l'attention restent cohérents à travers la plupart des couches. Étonnamment, nous trouvons une corrélation claire entre la norme L_2 et les scores d'attention sur les paires KV mises en cache, où une faible norme L_2 d'une clé d'embedding conduit généralement à un score d'attention élevé lors du décodage. Cette découverte indique que l'influence d'une paire KV est potentiellement déterminée par l'embedding de la clé elle-même avant d'être interrogée. Sur la base de cette observation, nous compressons le cache KV en fonction de la norme L_2 des embeddings de clés. Nos résultats expérimentaux montrent que cette stratégie simple peut réduire la taille du cache KV de 50 % sur des tâches de modélisation du langage et de recherche d'une aiguille dans une botte de foin, et de 90 % sur des tâches de récupération de passkey, sans perte de précision.
Les grands modèles de langage (LLM) basés sur des transformeurs décodeurs uniquement ont démontré des capacités de compréhension de texte supérieures par rapport aux modèles de la série CLIP et T5. Cependant, le paradigme pour exploiter les LLM avancés actuels dans les modèles de diffusion texte-image reste à explorer. Nous avons observé un phénomène inhabituel : l'utilisation directe d'un grand modèle de langage comme encodeur de prompt dégrade significativement la capacité à suivre les instructions dans la génération d'images. Nous avons identifié deux obstacles principaux derrière ce problème. Le premier est le désalignement entre l'entraînement à la prédiction du prochain token dans les LLM et la nécessité de caractéristiques discriminatives pour les prompts dans les modèles de diffusion. Le second est le biais positionnel intrinsèque introduit par l'architecture décodeur uniquement. Pour résoudre ce problème, nous proposons un nouveau cadre pour exploiter pleinement les capacités des LLM. Grâce à une utilisation soigneusement conçue, nous améliorons efficacement la capacité de représentation textuelle pour l'encodage des prompts et éliminons son biais positionnel inhérent. Cela nous permet d'intégrer les LLM de pointe dans le modèle de génération texte-image de manière flexible. De plus, nous proposons également une manière efficace de fusionner plusieurs LLM dans notre cadre. Considérant les excellentes performances et capacités de mise à l'échelle démontrées par l'architecture transformeur, nous concevons également un Transformeur de Diffusion Infusé par LLM (LI-DiT) basé sur ce cadre. Nous menons des expériences approfondies pour valider LI-DiT à travers différentes tailles de modèle et de données. Grâce aux capacités inhérentes des LLM et à nos conceptions innovantes, les performances de compréhension des prompts de LI-DiT surpassent facilement les modèles open-source de pointe ainsi que les modèles commerciaux fermés dominants, y compris Stable Diffusion 3, DALL-E 3 et Midjourney V6. Le puissant LI-DiT-10B sera disponible après des optimisations et vérifications de sécurité supplémentaires.
La perception et la compréhension des sons non vocaux et de la parole non verbale sont essentielles pour prendre des décisions qui nous aident à interagir avec notre environnement. Dans cet article, nous proposons GAMA, un nouveau modèle audio-langage généraliste de grande envergure (LALM) doté de capacités avancées de compréhension audio et de raisonnement complexe. Nous construisons GAMA en intégrant un LLM avec plusieurs types de représentations audio, y compris des caractéristiques issues d'un Audio Q-Former personnalisé, un agrégateur multicouche qui regroupe les caractéristiques de plusieurs couches d'un encodeur audio. Nous affinons GAMA sur un vaste ensemble de données audio-langage, ce qui lui confère des capacités de compréhension audio. Ensuite, nous proposons CompA-R (Instruction-Tuning pour le raisonnement audio complexe), un ensemble de données d'instruction-tuning (IT) généré de manière synthétique avec des instructions qui nécessitent que le modèle effectue un raisonnement complexe sur l'audio en entrée. Nous ajustons GAMA avec CompA-R pour lui attribuer des capacités de raisonnement complexe, en ajoutant également une invite douce en entrée avec des preuves sémantiques de haut niveau en exploitant les étiquettes d'événements de l'audio en entrée. Enfin, nous proposons également CompA-R-test, un ensemble de données d'évaluation étiqueté par des humains pour évaluer les capacités des LALM sur des questions-réponses audio ouvertes nécessitant un raisonnement complexe. Grâce à des évaluations automatisées et expertes par des humains, nous montrons que GAMA surpasse tous les autres LALM de la littérature sur diverses tâches de compréhension audio avec des marges de 1% à 84%. De plus, GAMA ajusté avec CompA-R s'avère supérieur dans ses capacités de raisonnement complexe et de suivi d'instructions.
Les ensembles de données multimodales entrelacées, présentant des séquences libres et entrelacées d'images et de texte, sont essentiels pour entraîner les modèles multimodaux de grande envergure (LMMs) à la pointe de la technologie. Malgré la progression rapide des LMMs open-source, il existe une pénurie marquée d'ensembles de données multimodales entrelacées à grande échelle et diversifiés. En réponse, nous présentons MINT-1T, l'ensemble de données Multimodal INTerleaved open-source le plus vaste et diversifié à ce jour. MINT-1T comprend un billion de tokens de texte et trois milliards d'images, soit une augmentation d'échelle par 10 par rapport aux ensembles de données open-source existants. De plus, nous incluons des sources jusqu'ici inexploitées telles que les PDFs et les articles d'ArXiv. Étant donné que la mise à l'échelle des ensembles de données multimodales entrelacées nécessite un effort d'ingénierie substantiel, partager le processus de curation des données et publier l'ensemble de données profite grandement à la communauté. Nos expériences montrent que les LMMs entraînés sur MINT-1T rivalisent avec les performances des modèles entraînés sur le précédent ensemble de données leader, OBELICS. Nos données et notre code seront publiés à l'adresse https://github.com/mlfoundations/MINT-1T.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré une excellente compréhension des images et des données 3D. Cependant, ces deux modalités présentent des lacunes dans la capture holistique de l'apparence et de la géométrie des objets. Parallèlement, les champs de radiance neuronaux (NeRFs), qui encodent des informations dans les poids d'un simple perceptron multicouche (MLP), sont devenus une modalité de plus en plus répandue, encodant simultanément la géométrie et l'apparence photoréaliste des objets. Cet article explore la faisabilité et l'efficacité de l'intégration des NeRFs dans les MLLMs. Nous créons LLaNA, le premier assistant généraliste NeRF-langage capable d'effectuer de nouvelles tâches telles que la description de NeRFs et le Q&R. Notamment, notre méthode traite directement les poids du MLP du NeRF pour extraire des informations sur les objets représentés, sans avoir besoin de rendre des images ou de matérialiser des structures de données 3D. De plus, nous construisons un ensemble de données de NeRFs annotés de texte pour diverses tâches NeRF-langage sans intervention humaine. Sur la base de cet ensemble de données, nous développons un benchmark pour évaluer la capacité de compréhension des NeRFs de notre méthode. Les résultats montrent que le traitement des poids des NeRFs est plus performant que l'extraction de représentations 2D ou 3D à partir des NeRFs.
L'entraînement de grands modèles vision-langage nécessite des paires image-texte étendues et de haute qualité. Cependant, les ensembles de données existants, extraits du web, sont bruyants et manquent de descriptions d'images détaillées. Pour combler cette lacune, nous présentons PixelProse, un ensemble de données complet de plus de 16 millions de légendes générées de manière synthétique, exploitant des modèles vision-langage de pointe pour des descriptions détaillées et précises. Pour garantir l'intégrité des données, nous analysons rigoureusement notre ensemble de données pour détecter les contenus problématiques, y compris les matériaux d'abus sexuel sur mineurs (CSAM), les informations personnellement identifiables (PII) et la toxicité. Nous fournissons également des métadonnées précieuses telles que la présence de filigranes et les scores esthétiques, facilitant un filtrage supplémentaire de l'ensemble de données. Nous espérons que PixelProse sera une ressource précieuse pour les futures recherches en vision-langage. PixelProse est disponible à l'adresse suivante : https://huggingface.co/datasets/tomg-group-umd/pixelprose.
L'apprentissage par renforcement à partir de retours humains (RLHF) constitue une solution prometteuse pour aligner plus étroitement les grands modèles de langage (LLMs) avec les valeurs humaines. L'optimisation des préférences hors politique, où les données de préférence sont obtenues à partir d'autres modèles, est largement adoptée en raison de son efficacité en termes de coût et de sa scalabilité. Cependant, l'optimisation des préférences hors politique souffre souvent d'un écart distributionnel entre la politique utilisée pour la collecte des données et la politique cible, ce qui conduit à une optimisation sous-optimale. Dans cet article, nous proposons une nouvelle stratégie pour atténuer ce problème en simulant un apprentissage en politique avec des données de préférence hors politique. Notre méthode d'Optimisation Pondérée des Préférences (WPO) adapte les données hors politique pour qu'elles ressemblent davantage à des données en politique en repondérant les paires de préférences selon leur probabilité sous la politique actuelle. Cette méthode non seulement résout le problème de l'écart distributionnel, mais améliore également le processus d'optimisation sans engendrer de coûts supplémentaires. Nous validons notre méthode sur des benchmarks de suivi d'instructions, notamment Alpaca Eval 2 et MT-bench. WPO surpasse l'Optimisation Directe des Préférences (DPO) jusqu'à 5,6 % sur Alpaca Eval 2 et établit un taux de victoire remarquable de 48,6 % contre GPT-4-turbo en longueur contrôlée, basé sur Llama-3-8B-Instruct, ce qui en fait le modèle 8B le plus performant du classement. Nous publierons le code et les modèles sur https://github.com/wzhouad/WPO.
Le paradigme actuel de fine-tuning pour les modèles de langage est fragile dans les scénarios d'édition de connaissances, où le modèle doit intégrer de nouvelles informations sans nécessiter un réentraînement extensif. Cette fragilité se traduit souvent par un surajustement, une réduction des performances et une génération de langage peu naturelle. Pour remédier à cela, nous proposons l'Édition Contextuelle Cohérente (Consistent In-Context Editing, ICE), une approche novatrice qui exploite la capacité d'apprentissage contextuel du modèle pour l'ajuster vers une distribution contextuelle plutôt qu'une cible one-hot. ICE introduit un cadre d'optimisation simple qui inclut à la fois une cible et une procédure, améliorant ainsi la robustesse et l'efficacité des méthodes de tuning basées sur le gradient. Nous fournissons des analyses approfondies d'ICE à travers quatre aspects critiques de l'édition de connaissances : la précision, la localité, la généralisation et la qualité linguistique, mettant en avant ses avantages. Les résultats expérimentaux sur quatre ensembles de données confirment l'efficacité d'ICE et démontrent son potentiel pour l'édition continue, garantissant que les informations mises à jour sont intégrées tout en préservant l'intégrité du modèle.
Les modèles du monde simulent les états futurs du monde en réponse à différentes actions. Ils facilitent la création de contenu interactif et fournissent une base pour un raisonnement ancré et à long terme. Les modèles de base actuels ne répondent pas pleinement aux capacités des modèles généraux du monde : les grands modèles de langage (LLM) sont limités par leur dépendance à la modalité linguistique et leur compréhension restreinte du monde physique, tandis que les modèles vidéo manquent de contrôle interactif sur les simulations du monde. Cet article fait un pas vers la construction d'un modèle général du monde en introduisant Pandora, un modèle hybride autoregressif-diffusif qui simule les états du monde en générant des vidéos et permet un contrôle en temps réel avec des actions en texte libre. Pandora atteint la généralité de domaine, la cohérence vidéo et la contrôlabilité grâce à un pré-entraînement à grande échelle et un ajustement par instruction. De manière cruciale, Pandora contourne le coût d'un entraînement à partir de zéro en intégrant un LLM pré-entraîné (7B) et un modèle vidéo pré-entraîné, ne nécessitant qu'un ajustement fin léger supplémentaire. Nous illustrons les vastes sorties de Pandora à travers divers domaines (intérieur/extérieur, naturel/urbain, humain/robot, 2D/3D, etc.). Les résultats indiquent un grand potentiel pour construire des modèles généraux du monde plus performants avec un entraînement à plus grande échelle.
Les récentes avancées dans les modèles vision-langage (VLMs) soulignent la nécessité de mesurer les préférences humaines dans les interactions multimodales du monde réel. Pour combler cette lacune, nous avons lancé WildVision-Arena (WV-Arena), une plateforme en ligne qui collecte les préférences humaines pour évaluer les VLMs. Nous avons constitué WV-Bench en sélectionnant 500 échantillons de haute qualité parmi 8 000 soumissions d'utilisateurs sur WV-Arena. WV-Bench utilise GPT-4 comme juge pour comparer chaque VLM à Claude-3-Sonnet, obtenant une corrélation de Spearman de 0,94 avec l'Elo de WV-Arena. Cela surpasse significativement d'autres benchmarks comme MMVet, MMMU et MMStar. Notre analyse approfondie de 20 000 interactions réelles révèle des insights importants sur les cas d'échec des VLMs les plus performants. Par exemple, nous constatons que bien que GPT-4V surpasse de nombreux autres modèles comme Reka-Flash, Opus et Yi-VL-Plus dans des tâches simples de reconnaissance visuelle et de raisonnement, il rencontre encore des difficultés avec les indices contextuels subtils, le raisonnement spatial, l'imagination visuelle et les connaissances de domaine expertes. De plus, les VLMs actuels présentent des problèmes d'hallucinations et de sécurité lorsqu'ils sont intentionnellement provoqués. Nous publions nos données de chat et de feedback pour faire progresser la recherche dans le domaine des VLMs.
Nous présentons L4GM, le premier modèle de reconstruction 4D à grande échelle capable de générer des objets animés à partir d'une vidéo monoscopique en une seule passe directe ne prenant qu'une seconde. La clé de notre succès réside dans un nouveau jeu de données de vidéos multivues contenant des objets animés rendus et soigneusement sélectionnés issus d'Objaverse. Ce jeu de données représente 44 000 objets diversifiés avec 110 000 animations rendues sous 48 angles de vue, résultant en 12 millions de vidéos totalisant 300 millions d'images. Nous avons conçu L4GM pour qu'il reste simple et évolutif, en le construisant directement sur LGM, un modèle de reconstruction 3D à grande échelle pré-entraîné qui génère des ellipsoïdes gaussiens 3D à partir d'images multivues. L4GM produit une représentation par image en 3D Gaussian Splatting à partir de trames vidéo échantillonnées à une fréquence d'images basse, puis suréchantillonne cette représentation à une fréquence plus élevée pour obtenir une fluidité temporelle. Nous ajoutons des couches d'auto-attention temporelle au modèle LGM de base pour l'aider à apprendre la cohérence temporelle, et utilisons une fonction de perte de rendu multivue par pas de temps pour entraîner le modèle. La représentation est suréchantillonnée à une fréquence d'images plus élevée en entraînant un modèle d'interpolation qui produit des représentations gaussiennes 3D intermédiaires. Nous démontrons que L4GM, uniquement entraîné sur des données synthétiques, généralise extrêmement bien sur des vidéos réelles, produisant des actifs 3D animés de haute qualité.
Dans le monde réel, les documents sont organisés dans différents formats et selon diverses modalités. Les pipelines de recherche traditionnels nécessitent des techniques d'analyse de documents sur mesure et des modules d'extraction de contenu pour préparer les entrées à l'indexation. Ce processus est fastidieux, sujet à des erreurs et entraîne une perte d'information. À cette fin, nous proposons Document Screenshot Embedding (DSE), un nouveau paradigme de recherche qui considère les captures d'écran de documents comme un format d'entrée unifié, ne nécessitant aucun prétraitement d'extraction de contenu et préservant toutes les informations d'un document (par exemple, texte, image et mise en page). DSE exploite un grand modèle vision-langage pour encoder directement les captures d'écran de documents en représentations denses pour la recherche. Pour évaluer notre méthode, nous avons d'abord créé le jeu de données Wiki-SS, un corpus de 1,3 million de captures d'écran de pages web Wikipédia, pour répondre aux questions du jeu de données Natural Questions. Dans un tel contexte de recherche de documents intensifs en texte, DSE montre une efficacité compétitive par rapport à d'autres méthodes de recherche textuelle reposant sur l'analyse. Par exemple, DSE surpasse BM25 de 17 points en précision de recherche top-1. De plus, dans une tâche de recherche de diapositives à modalités mixtes, DSE surpasse significativement les méthodes de recherche textuelle OCR de plus de 15 points en nDCG@10. Ces expériences montrent que DSE est un paradigme de recherche de documents efficace pour divers types de documents. Les points de contrôle du modèle, le code et la collection Wiki-SS seront publiés.
Les benchmarks pour les grands modèles de langage multimodaux (MLM) servent désormais à évaluer simultanément les capacités générales des modèles plutôt que de se concentrer sur une compétence spécifique. Par conséquent, lorsqu'un développeur souhaite identifier les modèles à utiliser pour son application, il est submergé par le nombre de benchmarks disponibles et reste incertain quant à savoir lesquels reflètent le mieux son cas d'utilisation spécifique. Cet article présente Task-Me-Anything, un moteur de génération de benchmarks qui produit un benchmark adapté aux besoins de l'utilisateur. Task-Me-Anything maintient une taxonomie extensible d'actifs visuels et peut générer de manière programmatique un grand nombre d'instances de tâches. De plus, il traite algorithmiquement les requêtes des utilisateurs concernant les performances des MLM de manière efficace, dans le cadre d'un budget de calcul défini. Il contient 113 000 images, 10 000 vidéos, 2 000 actifs d'objets 3D, plus de 365 catégories d'objets, 655 attributs et 335 relations. Il peut générer 750 millions de paires question-réponse basées sur des images/vidéos, axées sur l'évaluation des capacités perceptives des MLM. Task-Me-Anything révèle des insights critiques : les MLM open-source excellent dans la reconnaissance d'objets et d'attributs, mais manquent de compréhension spatiale et temporelle ; chaque modèle présente des forces et des faiblesses uniques ; les modèles plus grands performent généralement mieux, bien que des exceptions existent ; et GPT4o montre des difficultés à reconnaître les objets en rotation/mouvement et à distinguer les couleurs.
Une frontière récente en vision par ordinateur est la tâche de génération de vidéos 3D, qui consiste à produire une représentation 3D variant dans le temps d'une scène. Pour générer des scènes 3D dynamiques, les méthodes actuelles modélisent explicitement la dynamique temporelle 3D en optimisant conjointement la cohérence à travers le temps et les différentes vues de la scène. Dans cet article, nous explorons s'il est nécessaire d'imposer explicitement la cohérence multivue dans le temps, comme le font les approches actuelles, ou si un modèle peut se contenter de générer des représentations 3D pour chaque pas de temps de manière indépendante. Nous proposons donc un modèle, Vid3D, qui exploite la diffusion de vidéos 2D pour générer des vidéos 3D en produisant d'abord une "graine" 2D de la dynamique temporelle de la vidéo, puis en générant indépendamment une représentation 3D pour chaque pas de temps de cette vidéo graine. Nous évaluons Vid3D par rapport à deux méthodes de pointe en génération de vidéos 3D et constatons que Vid3D obtient des résultats comparables sans modéliser explicitement la dynamique temporelle 3D. Nous étudions également comment la qualité de Vid3D dépend du nombre de vues générées par image. Bien que nous observions une certaine dégradation avec moins de vues, cette dégradation reste mineure. Nos résultats suggèrent ainsi que la connaissance temporelle 3D pourrait ne pas être nécessaire pour générer des scènes 3D dynamiques de haute qualité, ouvrant la voie à des algorithmes génératifs plus simples pour cette tâche.
Il est largement admis qu'un réseau neuronal peut s'adapter à un ensemble d'entraînement contenant au moins autant d'échantillons qu'il a de paramètres, ce qui sous-tend les notions de modèles surparamétrés et sous-paramétrés. Cependant, en pratique, nous ne trouvons que des solutions accessibles via notre procédure d'entraînement, incluant l'optimiseur et les régularisateurs, ce qui limite la flexibilité. De plus, la paramétrisation exacte de la classe de fonctions, intégrée dans une architecture, façonne sa surface de perte et influence les minima que nous trouvons. Dans ce travail, nous examinons la capacité des réseaux neuronaux à s'adapter aux données en pratique. Nos résultats indiquent que : (1) les optimiseurs standards trouvent des minima où le modèle ne peut s'adapter qu'à des ensembles d'entraînement contenant significativement moins d'échantillons qu'il n'a de paramètres ; (2) les réseaux convolutifs sont plus efficaces en termes de paramètres que les MLP et les ViT, même sur des données étiquetées aléatoirement ; (3) bien que l'entraînement stochastique soit considéré comme ayant un effet régularisant, SGD trouve en réalité des minima qui s'adaptent à plus de données d'entraînement que la descente de gradient par lots complets ; (4) la différence de capacité à s'adapter aux échantillons correctement et incorrectement étiquetés peut être prédictive de la généralisation ; (5) les fonctions d'activation ReLU conduisent à trouver des minima qui s'adaptent à plus de données, bien qu'elles soient conçues pour éviter les gradients qui disparaissent ou explosent dans les architectures profondes.
Nous présentons un nouveau jeu de données multimodal de préférences pour des tâches créatives, comprenant plus de 250 millions d'évaluations humaines sur plus de 2,2 millions de légendes, collectées via des données de notation crowdsourcées pour le concours hebdomadaire de légendes de dessins humoristiques du New Yorker au cours des huit dernières années. Ce jeu de données unique soutient le développement et l'évaluation de modèles de langage multimodaux à grande échelle ainsi que des algorithmes de fine-tuning basés sur les préférences pour la génération de légendes humoristiques. Nous proposons de nouveaux benchmarks pour juger de la qualité des légendes générées par les modèles, en utilisant à la fois GPT4 et des jugements humains pour établir des stratégies d'évaluation basées sur le classement. Nos résultats expérimentaux mettent en lumière les limites des méthodes actuelles de fine-tuning, telles que RLHF et DPO, lorsqu'elles sont appliquées à des tâches créatives. De plus, nous démontrons que même les modèles de pointe comme GPT4 et Claude sont actuellement moins performants que les meilleurs participants humains dans la génération de légendes humoristiques. Alors que nous concluons cet effort de collecte de données à grande échelle, nous mettons à disposition l'intégralité du jeu de données de préférences à la communauté de recherche, favorisant ainsi de nouvelles avancées dans la génération et l'évaluation de l'humour en IA.
L'essor rapide des modèles de langage (LMs) a étendu leur utilisation à plusieurs applications. Cependant, en raison des contraintes liées à la taille des modèles, aux coûts associés ou aux restrictions propriétaires, l'utilisation des modèles de langage de pointe (SOTA) n'est pas toujours réalisable. Avec l'émergence de modèles de langage ouverts et plus petits, davantage d'applications peuvent tirer parti de leurs capacités, mais sélectionner le bon modèle de langage peut s'avérer complexe. Ce travail propose une analyse expérimentale approfondie de la correction sémantique des sorties de 10 modèles de langage ouverts et plus petits, à travers trois aspects : les types de tâches, les domaines d'application et les types de raisonnement, en utilisant divers styles d'invites. Nous démontrons que les modèles et les styles d'invite les plus efficaces varient en fonction des exigences spécifiques. Notre analyse fournit une évaluation comparative des modèles de langage et des styles d'invite en utilisant un schéma à trois niveaux d'aspects pour leur sélection stratégique basée sur les cas d'utilisation et d'autres contraintes. Nous montrons également que, s'ils sont utilisés de manière appropriée, ces modèles de langage peuvent rivaliser, et parfois surpasser, les modèles de pointe comme DeepSeek-v2, GPT-3.5-Turbo et GPT-4o.
Les transformeurs basés sur l'attention sont devenus l'architecture standard dans de nombreux domaines de l'apprentissage profond, principalement grâce à leur capacité à modéliser des dépendances à longue portée et à gérer des séquences d'entrée de longueur variable. Cependant, le mécanisme d'attention, avec sa complexité quadratique, constitue un goulot d'étranglement majeur dans l'architecture des transformeurs. Cet algorithme est uniquement unidirectionnel dans le décodeur et converge vers un motif statique dans les modèles sur-paramétrés ne comportant qu'un décodeur. Je traite ce problème en développant une fonction générative comme remplacement de l'attention ou de l'activation. Elle conserve un caractère auto-régressif en comparant chaque token avec le précédent. Dans mon environnement de test avec nanoGPT, cela entraîne une perte plus faible tout en utilisant un modèle plus petit. La perte diminue davantage en incorporant un vecteur de contexte moyen. Ce concept de remplacement de l'attention est distribué sous la licence GNU AGPL v3 à l'adresse suivante : https://gitlab.com/Bachstelze/causal_generation.
Une multitude de modèles de langage de grande taille (LLMs) sont confrontés à un défi commun dans l'analyse contextuelle des tâches de question-réponse sur des tableaux. Ces défis découlent de (1) fenêtres de contexte limitées pour les grands tableaux, (2) divergences multifacettes entre les schémas de tokenisation et les limites des cellules, et (3) diverses limitations liées à la confidentialité des données lors de l'utilisation de modèles externes tels que gpt-3.5-turbo. Nous proposons un jeu coopératif nommé "HiddenTables" comme solution potentielle à ce défi. En substance, "HiddenTables" se joue entre le LLM générateur de code "Solver" et l'"Oracle" qui évalue la capacité des agents LLM à résoudre des tâches de question-réponse sur des tableaux. Ce jeu repose sur des schémas en langage naturel et, surtout, garantit la sécurité des données sous-jacentes. Nous présentons des expériences probantes sur un ensemble diversifié de tableaux qui démontrent l'incapacité collective des LLMs à généraliser et à performer sur des requêtes complexes, à gérer les dépendances compositionnelles, et à aligner le langage naturel sur des commandes programmatiques lorsque des schémas de tableaux concrets sont fournis. Contrairement aux modèles basés sur des encodeurs, nous avons repoussé les limites de "HiddenTables" pour ne pas être restreints par le nombre de lignes, ce qui permet d'exhiber une efficacité améliorée en termes de tokens de prompt et de complétion. Notre infrastructure a donné naissance à un nouveau jeu de données "PyQTax" qui couvre 116 671 triplets question-tableau-réponse et fournit des décompositions et étiquettes supplémentaires pour diverses taxonomies de questions. Ainsi, parallèlement à nos contributions académiques concernant les lacunes des LLMs dans les tâches de TableQA, "HiddenTables" est une manifestation concrète de la manière dont les LLMs peuvent interagir avec des ensembles de données massifs tout en assurant la sécurité des données et en minimisant les coûts de génération.
La sélection de données de haute qualité pour le pré-entraînement est cruciale pour influencer les performances des modèles de langage sur les tâches en aval. Un défi majeur réside dans l'identification de ce sous-ensemble optimal, un problème généralement considéré comme insoluble, nécessitant ainsi des heuristiques évolutives et efficaces. Dans ce travail, nous proposons une méthode de sélection de données, CoLoR-Filter (Conditional Loss Reduction Filtering), qui exploite une approche inspirée de l'inférence bayésienne empirique pour dériver un critère de sélection simple et efficace sur le plan computationnel, basé sur les valeurs de perte relative de deux modèles auxiliaires. En plus de la justification théorique, nous évaluons empiriquement CoLoR-Filter sur deux tâches de modélisation du langage : (1) la sélection de données à partir de C4 pour l'adaptation au domaine en vue d'une évaluation sur des livres, et (2) la sélection de données à partir de C4 pour une série de tâches de réponse à des questions à choix multiples en aval. Nous démontrons une mise à l'échelle favorable à la fois lorsque nous sous-sélectionnons de manière plus agressive et en utilisant de petits modèles auxiliaires pour sélectionner des données pour de grands modèles cibles. Comme résultat phare, les données sélectionnées par CoLoR-Filter à l'aide d'une paire de modèles auxiliaires de 150 millions de paramètres peuvent entraîner un modèle cible de 1,2 milliard de paramètres à égaler un modèle de 1,2 milliard de paramètres entraîné sur 25 milliards de tokens sélectionnés aléatoirement, avec 25 fois moins de données pour les livres et 11 fois moins de données pour les tâches en aval. Code : https://github.com/davidbrandfonbrener/color-filter-olmo Données filtrées : https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
La peinture générative 3D figure parmi les principaux facteurs d'amélioration de la productivité dans la gestion et le recyclage d'actifs 3D haute résolution. Depuis que les modèles de texte-à-image sont devenus accessibles pour l'inférence sur du matériel grand public, les performances des méthodes de peinture 3D n'ont cessé de s'améliorer et sont actuellement proches d'un plateau. Au cœur de la plupart de ces modèles se trouve le processus itératif de débruitage par diffusion dans l'espace latent, intrinsèquement chronophage. Plusieurs techniques ont récemment été développées pour accélérer la génération et réduire les itérations d'échantillonnage de plusieurs ordres de grandeur. Conçues pour l'imagerie générative 2D, ces techniques ne fournissent pas de méthodes pour les transposer en 3D. Dans cet article, nous comblons cette lacune en proposant une adaptation du modèle de cohérence latente (Latent Consistency Model, LCM) pour cette tâche spécifique. Nous analysons les forces et les faiblesses du modèle proposé et l'évaluons de manière quantitative et qualitative. Sur la base de l'étude des échantillons du jeu de données Objaverse, notre méthode de peinture 3D obtient une forte préférence dans toutes les évaluations. Le code source est disponible à l'adresse suivante : https://github.com/kongdai123/consistency2.
L'utilisation des préférences humaines pour orienter le comportement des modèles de langage de grande taille (LLMs) a connu un succès notable ces dernières années. Cependant, la sélection et l'étiquetage des données restent un goulot d'étranglement pour ces systèmes, en particulier à grande échelle. Ainsi, sélectionner les points les plus informatifs pour obtenir des retours humains peut considérablement réduire le coût de l'étiquetage des préférences et favoriser le développement ultérieur des LLMs. L'apprentissage actif bayésien offre un cadre théorique pour relever ce défi et a démontré un succès remarquable dans divers contextes. Cependant, les tentatives précédentes pour l'employer dans la modélisation des préférences n'ont pas répondu à ces attentes. Dans ce travail, nous identifions que l'estimation naïve de l'incertitude épistémique conduit à l'acquisition d'échantillons redondants. Nous abordons ce problème en proposant le Bayesian Active Learner for Preference Modeling (BAL-PM), une nouvelle politique d'acquisition stochastique qui cible non seulement les points de forte incertitude épistémique selon le modèle de préférence, mais cherche également à maximiser l'entropie de la distribution des prompts acquis dans l'espace de caractéristiques engendré par le LLM utilisé. Nos expériences montrent que BAL-PM nécessite 33 % à 68 % d'étiquettes de préférence en moins sur deux ensembles de données populaires de préférences humaines et surpasse les politiques d'acquisition bayésiennes stochastiques précédentes.