Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons InternVL 2.5, une série avancée de modèles de langage multimodal large (MLLM) qui s'appuie sur InternVL 2.0, en conservant son architecture de modèle de base tout en introduisant des améliorations significatives dans les stratégies d'entraînement et de test ainsi que dans la qualité des données. Dans ce travail, nous explorons la relation entre l'agrandissement du modèle et ses performances, en explorant systématiquement les tendances de performance dans les encodeurs de vision, les modèles de langage, les tailles de jeu de données et les configurations de test. À travers des évaluations approfondies sur un large éventail de benchmarks, incluant le raisonnement multidisciplinaire, la compréhension de documents, la compréhension multi-images/vidéo, la compréhension du monde réel, la détection d'hallucinations multimodales, l'ancrage visuel, les capacités multilingues, et le traitement de langage pur, InternVL 2.5 affiche des performances compétitives, rivalisant avec des modèles commerciaux de premier plan tels que GPT-4o et Claude-3.5-Sonnet. Notamment, notre modèle est le premier MLLM open-source à dépasser les 70% sur le benchmark MMMU, réalisant une amélioration de 3,7 points grâce au raisonnement Chain-of-Thought (CoT) et démontrant un fort potentiel pour l'agrandissement au moment du test. Nous espérons que ce modèle contribuera à la communauté open-source en établissant de nouvelles normes pour le développement et l'application de systèmes d'IA multimodaux. Pour une démonstration HuggingFace, voir https://huggingface.co/spaces/OpenGVLab/InternVL
Ce rapport technique présente les modèles de langage EXAONE 3.5 optimisés par instructions, développés et publiés par LG AI Research. Les modèles de langage EXAONE 3.5 sont proposés en trois configurations : 32B, 7.8B et 2.4B. Ces modèles présentent plusieurs capacités remarquables : 1) des capacités exceptionnelles de suivi des instructions dans des scénarios réels, atteignant les scores les plus élevés sur sept benchmarks, 2) une excellente compréhension du contexte étendu, obtenant les meilleures performances sur quatre benchmarks, et 3) des résultats compétitifs par rapport aux modèles ouverts de pointe de tailles similaires sur neuf benchmarks généraux. Les modèles de langage EXAONE 3.5 sont ouverts à tous à des fins de recherche et peuvent être téléchargés depuis https://huggingface.co/LGAI-EXAONE. Pour une utilisation commerciale, veuillez contacter le point de contact officiel de LG AI Research : [email protected].
Les récents progrès dans les modèles génératifs de texte-à-vidéo (T2V) ont montré des capacités impressionnantes. Cependant, ces modèles restent insuffisants pour aligner les vidéos synthétisées sur les préférences humaines (par exemple, refléter avec précision les descriptions textuelles), ce qui est particulièrement difficile à résoudre, car les préférences humaines sont intrinsèquement subjectives et difficiles à formaliser en tant que fonctions objectives. Par conséquent, cet article propose LiFT, une nouvelle méthode de fine-tuning exploitant les retours humains pour l'alignement des modèles T2V. Plus précisément, nous construisons d'abord un ensemble de données d'annotations de notation humaine, LiFT-HRA, comprenant environ 10 000 annotations humaines, chacune incluant un score et sa justification correspondante. Sur cette base, nous entraînons un modèle de récompense LiFT-Critic pour apprendre efficacement la fonction de récompense, qui sert de proxy pour le jugement humain, mesurant l'alignement entre les vidéos données et les attentes humaines. Enfin, nous exploitons la fonction de récompense apprise pour aligner le modèle T2V en maximisant la probabilité pondérée par la récompense. À titre d'étude de cas, nous appliquons notre pipeline à CogVideoX-2B, montrant que le modèle affiné surpasse le CogVideoX-5B sur les 16 métriques, mettant en évidence le potentiel des retours humains pour améliorer l'alignement et la qualité des vidéos synthétisées.
Les modèles de langage multimodaux à grande échelle (MLLM) open-source ont montré un potentiel significatif dans un large éventail de tâches multimodales. Cependant, leurs capacités de raisonnement restent limitées par les ensembles de données d'accord d'instructions existants, qui ont été principalement réutilisés à partir d'ensembles de données académiques tels que VQA, AI2D et ChartQA. Ces ensembles de données ciblent des tâches simplistes et ne fournissent que des réponses au niveau de la phrase sans aucune justification intermédiaire. Pour relever ces défis, nous introduisons une méthode évolutive et rentable pour construire un ensemble de données d'accord d'instructions multimodal à grande échelle avec des justifications intermédiaires riches conçues pour susciter le raisonnement CoT. En n'utilisant que des modèles ouverts, nous créons un ensemble de données contenant 12 millions de paires d'instructions-réponses pour couvrir des tâches diverses et intensives en raisonnement avec des justifications détaillées et fidèles. Les expériences montrent que l'entraînement des MLLM sur cet ensemble de données améliore significativement les capacités de raisonnement, atteignant des performances de pointe sur des référentiels tels que MathVerse (+8,1 %), MMMU-Pro (+7 %) et MuirBench (+13,3 %). De plus, le modèle montre des améliorations notables allant jusqu'à 4 % sur des référentiels non basés sur le raisonnement. Des études d'ablation mettent en évidence l'importance des composants clés, tels que la réécriture et l'auto-filtrage, dans le processus de construction de l'ensemble de données.
Les récentes avancées en matière d'édition d'images guidée par le texte permettent aux utilisateurs d'effectuer des modifications d'images à l'aide de simples entrées textuelles, en exploitant les connaissances a priori des modèles texte-image à diffusion multi-étape. Cependant, ces méthodes sont souvent insuffisantes pour répondre aux exigences de vitesse nécessaires aux applications réelles et embarquées en raison du processus coûteux d'inversion et d'échantillonnage multi-étape impliqué. En réponse à cela, nous présentons SwiftEdit, un outil d'édition simple mais hautement efficace qui permet une édition d'images guidée par le texte instantanée (en 0,23s). L'avancée de SwiftEdit réside dans ses deux contributions novatrices : un cadre d'inversion en une étape qui permet la reconstruction d'image en une seule étape via l'inversion et une technique d'édition guidée par un masque avec notre mécanisme de rééchelonnement de l'attention proposé pour réaliser une édition d'image localisée. De nombreuses expériences sont fournies pour démontrer l'efficacité et l'efficience de SwiftEdit. En particulier, SwiftEdit permet une édition d'images guidée par le texte instantanée, bien plus rapide que les méthodes multi-étapes précédentes (au moins 50 fois plus rapide), tout en maintenant des performances compétitives dans les résultats d'édition. Notre page de projet se trouve à l'adresse : https://swift-edit.github.io/
Les grands modèles de langage (LLM) sont connus pour leur consommation de mémoire élevée pendant l'entraînement, en particulier avec l'optimiseur AdamW populaire. Ce fardeau de mémoire nécessite l'utilisation de plus de GPU ou de GPU haut de gamme, ou la réduction des tailles de lot, limitant ainsi la scalabilité et le débit de l'entraînement. Pour remédier à cela, divers optimiseurs économes en mémoire ont été proposés pour réduire l'utilisation de mémoire de l'optimiseur. Cependant, ils rencontrent des défis critiques : (i) dépendance à des opérations SVD coûteuses ; (ii) compromis significatifs en termes de performances par rapport à AdamW ; et (iii) surcharge de mémoire d'optimiseur encore substantielle pour maintenir des performances compétitives. Dans ce travail, nous identifions que la règle d'adaptation du taux d'apprentissage d'AdamW peut être efficacement simplifiée en tant que mise à jour structurée du taux d'apprentissage. Sur la base de cette observation, nous proposons l'Échelle de Gradient Approximée pour l'Optimisation Économe en Mémoire des LLM (APOLLO), qui approxime la mise à l'échelle du taux d'apprentissage en utilisant un état auxiliaire d'optimiseur de rang faible basé sur une projection aléatoire pure. Cette règle de mise à jour structurée du taux d'apprentissage rend APOLLO très tolérant aux réductions de mémoire supplémentaires tout en offrant des performances de pré-entraînement comparables. Même sa variante de rang 1, APOLLO-Mini, atteint des performances de pré-entraînement supérieures par rapport à AdamW avec des coûts mémoire de niveau SGD. Des expériences approfondies démontrent que la série APOLLO se comporte au même niveau, voire mieux qu'AdamW, tout en réalisant des économies de mémoire plus importantes en éliminant presque entièrement les états d'optimisation d'AdamW. Ces économies offrent des avantages significatifs au niveau du système : (1) Débit Amélioré : un débit 3 fois supérieur sur une configuration 8xA100-80GB par rapport à AdamW en prenant en charge des tailles de lot 4 fois plus grandes. (2) Scalabilité du Modèle Améliorée : Pré-entraînement LLaMA-13B avec DDP naïf sur des GPU A100-80GB sans optimisations au niveau du système. (3) Pré-entraînement Amical aux GPU Bas de Gamme : Pré-entraînement LLaMA-7B sur un seul GPU en utilisant moins de 12 Go de mémoire avec quantification des poids.
Les récents développements des grands modèles de langage pré-entraînés sur des corpus étendus ont montré un succès significatif dans diverses tâches de traitement du langage naturel avec un minimum de fine-tuning. Ce succès offre de nouvelles perspectives pour la robotique, qui a longtemps été limitée par le coût élevé des données annotées d'actions. Nous nous demandons : étant donné l'abondance de données vidéo contenant des connaissances liées à l'interaction disponibles en tant que riche "corpus", une approche similaire de pré-entraînement génératif peut-elle être appliquée de manière efficace pour améliorer l'apprentissage des robots ? Le défi clé est d'identifier une représentation efficace pour le pré-entraînement autorégressif qui bénéficie aux tâches de manipulation robotique. Inspirés par la façon dont les humains apprennent de nouvelles compétences en observant des environnements dynamiques, nous proposons que l'apprentissage robotique efficace devrait mettre l'accent sur les connaissances liées au mouvement, étroitement liées aux actions de bas niveau et indépendantes du matériel, facilitant le transfert des mouvements appris aux actions réelles des robots. À cette fin, nous introduisons Moto, qui convertit le contenu vidéo en séquences de jetons de mouvement latents par un Tokenizer de Mouvement Latent, apprenant un "langage" de pontage du mouvement à partir de vidéos de manière non supervisée. Nous pré-entraînons Moto-GPT par autorégression de jetons de mouvement, lui permettant de capturer diverses connaissances visuelles sur le mouvement. Après le pré-entraînement, Moto-GPT démontre la capacité prometteuse de produire des jetons de mouvement sémantiquement interprétables, de prédire des trajectoires de mouvement plausibles et d'évaluer la rationalité des trajectoires grâce à la probabilité de sortie. Pour transférer les connaissances sur les mouvements appris aux actions réelles des robots, nous mettons en œuvre une stratégie de co-fine-tuning qui relie de manière transparente la prédiction de jetons de mouvement latents et le contrôle réel des robots. Des expériences approfondies montrent que le Moto-GPT finement réglé présente une robustesse et une efficacité supérieures sur les référentiels de manipulation robotique, soulignant son efficacité dans le transfert de connaissances des données vidéo aux tâches de manipulation visuelle en aval.
Les modèles de génération texte-vidéo ont montré des progrès significatifs ces dernières années. Cependant, ils rencontrent encore des difficultés à générer des scènes dynamiques complexes basées sur des indications textuelles compositionnelles, telles que la liaison d'attributs pour plusieurs objets, la dynamique temporelle associée à différents objets et les interactions entre objets. Notre principale motivation est que les tâches complexes peuvent être décomposées en tâches plus simples, chacune gérée par un agent MLLM spécialisé dans un rôle. Plusieurs agents peuvent collaborer pour atteindre une intelligence collective pour des objectifs complexes. Nous proposons GenMAC, un cadre itératif multi-agent qui permet la génération compositionnelle de texte-vidéo. Le flux de travail collaboratif comprend trois étapes : Conception, Génération et Réaménagement, avec une boucle itérative entre les étapes de Génération et de Réaménagement pour vérifier progressivement et affiner les vidéos générées. L'étape de Réaménagement est l'étape la plus difficile qui vise à vérifier les vidéos générées, suggérer des corrections et réaménager les indications textuelles, les mises en page image par image et les échelles de guidage pour la prochaine itération de génération. Pour éviter l'hallucination d'un seul agent MLLM, nous décomposons cette étape en quatre agents basés sur MLLM exécutés séquentiellement : agent de vérification, agent de suggestion, agent de correction et agent de structuration de la sortie. De plus, pour aborder divers scénarios de génération compositionnelle de texte-vidéo, nous concevons un mécanisme d'auto-routage pour sélectionner de manière adaptative le bon agent de correction parmi une collection d'agents de correction, chacun spécialisé pour un scénario. Des expériences approfondies démontrent l'efficacité de GenMAC, atteignant des performances de pointe en matière de génération compositionnelle de texte-vidéo.
Dans quelle mesure les Modèles de Langage Multimodaux de Grande Taille (MLLM) peuvent-ils comprendre les images composites ? Les images composites (IC) sont des visuels synthétiques créés en fusionnant plusieurs éléments visuels, tels que des graphiques, des affiches ou des captures d'écran, plutôt que d'être capturés directement par une caméra. Alors que les IC sont courantes dans les applications du monde réel, les récents développements des MLLM se sont principalement concentrés sur l'interprétation des images naturelles (IN). Notre recherche révèle que les MLLM actuels rencontrent des défis significatifs pour comprendre avec précision les IC, ayant souvent du mal à extraire des informations ou à effectuer un raisonnement complexe basé sur ces images. Nous constatons que les données d'entraînement existantes pour les IC sont principalement formatées pour des tâches de questions-réponses (par exemple, dans des ensembles de données comme ChartQA et ScienceQA), tandis que des ensembles de données d'images-légendes de haute qualité, essentiels pour un alignement robuste entre la vision et le langage, ne sont disponibles que pour les IN. Pour combler ce fossé, nous introduisons les Légendes Composites (CompCap), un cadre flexible qui exploite les Grands Modèles de Langage (LLM) et des outils d'automatisation pour synthétiser des IC avec des légendes précises et détaillées. En utilisant CompCap, nous constituons CompCap-118K, un ensemble de données contenant 118K paires image-légende à travers six types d'IC. Nous validons l'efficacité de CompCap-118K en affinant de manière supervisée les MLLM de trois tailles : xGen-MM-inst.-4B et LLaVA-NeXT-Vicuna-7B/13B. Les résultats empiriques montrent que CompCap-118K améliore significativement la compréhension des IC par les MLLM, entraînant des gains moyens de 1,7 %, 2,0 % et 2,9 % respectivement sur onze critères d'évaluation.
Le Splatting Gaussien en 3D a démontré un succès notable dans la reconstruction de scènes à grande échelle, mais des défis persistent en raison de la forte consommation de mémoire d'entraînement et des surcoûts de stockage. Les représentations hybrides qui intègrent des caractéristiques implicites et explicites offrent un moyen d'atténuer ces limitations. Cependant, lorsqu'appliquées dans un entraînement par blocs parallélisés, deux problèmes critiques surviennent car la précision de la reconstruction se détériore en raison de la réduction de la diversité des données lors de l'entraînement de chaque bloc de manière indépendante, et l'entraînement parallèle limite le nombre de blocs divisés au nombre de GPU disponibles. Pour résoudre ces problèmes, nous proposons Momentum-GS, une approche novatrice qui exploite l'auto-distillation basée sur le momentum pour promouvoir la cohérence et la précision à travers les blocs tout en dissociant le nombre de blocs du nombre de GPU physiques. Notre méthode maintient un décodeur Gaussien enseignant mis à jour avec le momentum, assurant une référence stable pendant l'entraînement. Ce professeur fournit à chaque bloc une orientation globale de manière auto-distillée, favorisant la cohérence spatiale dans la reconstruction. Pour garantir davantage de cohérence à travers les blocs, nous incorporons une pondération des blocs, ajustant dynamiquement le poids de chaque bloc en fonction de sa précision de reconstruction. Des expériences approfondies sur des scènes à grande échelle montrent que notre méthode surpasse de manière constante les techniques existantes, réalisant une amélioration de 12,8% en LPIPS par rapport à CityGaussian avec beaucoup moins de blocs divisés et établissant un nouvel état de l'art. Page du projet : https://jixuan-fan.github.io/Momentum-GS_Page/
L'IA multimodale a le potentiel d'améliorer significativement les tâches de compréhension de documents, telles que le traitement des reçus, la compréhension des flux de travail, l'extraction de données des documents et la rédaction de rapports. Les tâches de génération de code nécessitant des sorties longues et structurées peuvent également bénéficier de la multimodalité. Malgré cela, leur utilisation dans les applications commerciales est souvent limitée en raison d'un accès restreint aux données d'entraînement et de licences restrictives, ce qui entrave l'accès ouvert. Pour pallier ces limitations, nous présentons BigDocs-7.5M, un ensemble de données de haute qualité et en accès libre comprenant 7,5 millions de documents multimodaux répartis sur 30 tâches. Nous utilisons un processus efficace de curation des données pour garantir la qualité de nos données et leur compatibilité avec les licences. Notre processus met l'accent sur la responsabilité, la transparence et l'analyse minutieuse du contenu à travers des règles de filtrage, des métadonnées traçables et une analyse de contenu soigneuse. De plus, nous introduisons BigDocs-Bench, une suite de référence avec 10 nouvelles tâches où nous créons des ensembles de données reflétant des cas d'utilisation réels impliquant le raisonnement sur les Interfaces Utilisateur Graphiques (GUI) et la génération de code à partir d'images. Nos expériences montrent que l'entraînement avec BigDocs-Bench améliore les performances moyennes jusqu'à 25,8% par rapport à GPT-4o en source fermée dans le raisonnement sur les documents et les tâches de sortie structurée telles que la génération de Screenshot2HTML ou Image2Latex. Enfin, les évaluations humaines ont montré une préférence pour les sorties des modèles entraînés sur BigDocs par rapport à GPT-4o. Cela suggère que BigDocs peut aider à la fois les universitaires et la communauté open source à utiliser et améliorer les outils d'IA pour renforcer les capacités multimodales et le raisonnement sur les documents. Le projet est hébergé sur https://bigdocs.github.io.
Les vidéos du monde réel sont composées de séquences d'événements. Générer de telles séquences avec un contrôle temporel précis est irréalisable avec les générateurs vidéo existants qui se basent sur un seul paragraphe de texte en entrée. Lorsqu'ils sont chargés de générer plusieurs événements décrits à l'aide d'une seule instruction, ces méthodes ignorent souvent certains événements ou échouent à les organiser dans le bon ordre. Pour remédier à cette limitation, nous présentons MinT, un générateur vidéo multi-événements avec contrôle temporel. Notre insight clé est d'associer chaque événement à une période spécifique dans la vidéo générée, ce qui permet au modèle de se concentrer sur un événement à la fois. Pour permettre des interactions conscientes du temps entre les légendes d'événements et les jetons vidéo, nous concevons une méthode d'encodage de position basée sur le temps, appelée ReRoPE. Cet encodage aide à guider l'opération de co-attention. En affinant un transformateur de diffusion vidéo pré-entraîné sur des données temporellement ancrées, notre approche produit des vidéos cohérentes avec des événements connectés de manière fluide. Pour la première fois dans la littérature, notre modèle offre un contrôle sur le timing des événements dans les vidéos générées. Des expériences approfondies démontrent que MinT surpasse de loin les modèles open source existants.
Dans cet article, nous présentons PanoDreamer, une nouvelle méthode pour produire une scène 3D cohérente à 360 degrés à partir d'une seule image d'entrée. Contrairement aux méthodes existantes qui génèrent la scène de manière séquentielle, nous formulons le problème comme une estimation de panorama et de profondeur à partir d'une seule image. Une fois l'image panoramique cohérente et sa profondeur correspondante obtenues, la scène peut être reconstruite en comblant les petites régions occultées et en les projetant dans l'espace 3D. Notre contribution principale réside dans la formulation de l'estimation de panorama et de profondeur à partir d'une seule image comme deux tâches d'optimisation et dans l'introduction de stratégies de minimisation alternée pour résoudre efficacement leurs objectifs. Nous démontrons que notre approche surpasse les techniques existantes en matière de reconstruction de scènes à 360 degrés à partir d'une seule image en termes de cohérence et de qualité globale.
La reconstruction des scènes intérieures reste un défi en raison de la complexité inhérente des structures spatiales et de la prévalence des régions sans texture. Les récentes avancées en matière de Splatting gaussien 3D ont amélioré la synthèse de nouvelles vues avec un traitement accéléré, mais n'ont pas encore fourni des performances comparables en matière de reconstruction de surface. Dans cet article, nous présentons 2DGS-Room, une nouvelle méthode exploitant le Splatting gaussien 2D pour une reconstruction de scène intérieure haute fidélité. Plus précisément, nous utilisons un mécanisme guidé par des graines pour contrôler la distribution des Gaussiennes 2D, la densité des points de graine étant dynamiquement optimisée grâce à des mécanismes de croissance et d'élagage adaptatifs. Pour améliorer davantage la précision géométrique, nous incorporons des contraintes de profondeur monoculaire et de normales pour fournir respectivement des contraintes pour les détails et les régions sans texture. De plus, des contraintes de cohérence multi-vues sont utilisées pour atténuer les artefacts et améliorer encore la qualité de la reconstruction. Des expériences approfondies sur les ensembles de données ScanNet et ScanNet++ démontrent que notre méthode atteint des performances de pointe en matière de reconstruction de scènes intérieures.
Les grands modèles de langage (LLM) ont fait du dialogue l'un des modes centraux d'interaction homme-machine, entraînant l'accumulation de vastes quantités de journaux de conversation et une demande croissante de génération de dialogue. Un cycle de vie conversationnel s'étend de la Prélude à l'Interlocution jusqu'à l'Épilogue, englobant divers éléments. Malgré l'existence de nombreuses études liées au dialogue, il existe un manque de références qui englobent des éléments de dialogue complets, entravant la modélisation précise et l'évaluation systématique. Pour combler cette lacune, nous introduisons une tâche de recherche innovante, la Modélisation des Éléments de Dialogue, comprenant la Conscience des Éléments et l'Interaction de l'Agent de Dialogue, et proposons un nouveau référentiel, DEMO, conçu pour une modélisation et une évaluation complètes du dialogue. Inspirés par l'apprentissage par imitation, nous construisons en outre l'agent qui possède la capacité habile de modéliser les éléments de dialogue en se basant sur le référentiel DEMO. Des expériences approfondies indiquent que les LLM existants présentent encore un potentiel considérable d'amélioration, et notre agent DEMO affiche des performances supérieures tant dans les tâches en domaine que hors domaine.
Les récompenses demeurent un moyen non interprétable de spécifier des tâches pour l'Apprentissage par Renforcement, car les humains sont souvent incapables de prédire le comportement optimal de toute fonction de récompense donnée, ce qui conduit à une mauvaise conception de la récompense et à des manipulations de récompense. Le langage présente un moyen attrayant de communiquer l'intention aux agents et de contourner la conception de récompenses, mais les efforts antérieurs en ce sens ont été limités par des efforts d'étiquetage coûteux et non évolutifs. Dans ce travail, nous proposons une méthode pour une alternative entièrement non supervisée à l'ancrage des instructions de langage de manière à obtenir des politiques de manière zéro-shot. Nous présentons une solution qui prend la forme d'imaginer, projeter et imiter : l'agent imagine la séquence d'observations correspondant à la description en langage d'une tâche, projette la séquence imaginée vers notre domaine cible, et l'ancrage à une politique. Les modèles vidéo-langage nous permettent d'imaginer des descriptions de tâches qui exploitent la connaissance des tâches apprises à partir de mappages vidéo-texte à l'échelle d'Internet. Le défi demeure de relier ces générations à une politique. Dans ce travail, nous montrons que nous pouvons atteindre une politique de langage-comportement zéro-shot en ancrant d'abord les séquences imaginées dans des observations réelles d'un agent RL non supervisé et en utilisant une solution en forme fermée pour l'apprentissage par imitation qui permet à l'agent RL de reproduire les observations ancrées. Notre méthode, RLZero, est à notre connaissance la première à démontrer des capacités de génération de langage-comportement zéro-shot sans aucune supervision sur une variété de tâches sur des domaines simulés. Nous montrons en outre que RLZero peut également générer des politiques zéro-shot à partir de vidéos à corps croisés telles que celles extraites de YouTube.