Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les modèles de diffusion vidéo ont montré des capacités exceptionnelles à simuler les dynamiques du monde réel et à maintenir une cohérence en 3D. Ce progrès nous inspire pour explorer le potentiel de ces modèles afin d'assurer une cohérence dynamique à travers divers points de vue, une caractéristique hautement souhaitable pour des applications telles que le tournage virtuel. Contrairement aux méthodes existantes axées sur la génération multi-vue d'objets uniques pour la reconstruction 4D, notre intérêt réside dans la génération de vidéos en monde ouvert à partir de points de vue arbitraires, en incorporant des poses de caméra 6 DoF. Pour y parvenir, nous proposons un module plug-and-play qui améliore un modèle texte-vidéo pré-entraîné pour la génération de vidéos multi-caméras, assurant ainsi un contenu cohérent à travers différents points de vue. Plus précisément, nous introduisons un module de synchronisation multi-vue pour maintenir la cohérence de l'apparence et de la géométrie à travers ces points de vue. Étant donné la rareté des données d'entraînement de haute qualité, nous concevons un schéma d'entraînement hybride qui exploite des images multi-caméras et des vidéos monoculaires pour compléter les vidéos multi-caméras rendues par Unreal Engine. De plus, notre méthode permet des extensions intéressantes, telles que la réexécution d'une vidéo à partir de nouveaux points de vue. Nous publions également un ensemble de données vidéo synchronisées multi-vues, nommé SynCamVideo-Dataset. Page du projet : https://jianhongbai.github.io/SynCamMaster/.
Les récents progrès dans la génération de texte vers image (T2I) ont montré un succès remarquable dans la production d'images de haute qualité à partir de texte. Cependant, les modèles T2I existants montrent une performance dégradée dans la génération d'images compositionnelles impliquant plusieurs objets et des relations complexes. Nous attribuons ce problème aux limitations des ensembles de données existants d'associations image-texte, qui manquent d'annotations précises des relations entre objets avec seulement des indications. Pour résoudre ce problème, nous avons construit LAION-SG, un ensemble de données à grande échelle avec des annotations structurales de haute qualité des graphes de scène (SG), qui décrivent précisément les attributs et les relations de plusieurs objets, représentant efficacement la structure sémantique dans des scènes complexes. Sur la base de LAION-SG, nous entraînons un nouveau modèle de base SDXL-SG pour incorporer des informations d'annotation structurale dans le processus de génération. Des expériences approfondies montrent que les modèles avancés formés sur notre ensemble de données LAION-SG affichent des améliorations significatives de performance dans la génération de scènes complexes par rapport aux modèles sur les ensembles de données existants. Nous introduisons également CompSG-Bench, une référence qui évalue les modèles dans la génération d'images compositionnelles, établissant ainsi une nouvelle norme pour ce domaine.
Les modèles de vision-langage ont récemment réalisé des avancées significatives, démontrant des performances supérieures dans une gamme de tâches, telles que la reconnaissance optique de caractères et l'analyse de diagrammes complexes. S'appuyant sur cette tendance, nous introduisons un nouveau modèle de vision-langage, POINTS1.5, conçu pour exceller dans diverses applications du monde réel. POINTS1.5 est une amélioration de POINTS1.0 et intègre plusieurs innovations clés : i) Nous remplaçons l'encodeur de vision CLIP d'origine, qui avait une résolution d'image fixe, par un encodeur de vision de style NaViT qui prend en charge une résolution élevée dynamique native. Cela permet à POINTS1.5 de traiter des images de n'importe quelle résolution sans avoir besoin de les diviser en tuiles. ii) Nous ajoutons le support bilingue à POINTS1.5, améliorant significativement sa capacité en chinois. En raison de la rareté des ensembles de données chinois open-source pour les modèles de vision-langage, nous collectons de nombreuses images sur Internet et les annotons en utilisant une combinaison de méthodes manuelles et automatiques. iii) Nous proposons un ensemble de méthodes de filtrage rigoureuses pour les ensembles de données d'ajustement d'instructions visuelles. Nous évaluons de manière exhaustive toutes ces méthodes de filtrage et choisissons les plus efficaces pour obtenir l'ensemble final d'ajustement d'instructions visuelles. Grâce à ces innovations, POINTS1.5 surpasse nettement POINTS1.0 et démontre de solides performances dans une gamme d'applications du monde réel. Notamment, POINTS1.5-7B est entraîné sur moins de 4 milliards de tokens et se classe en première position sur le classement OpenCompass parmi les modèles ayant moins de 10 milliards de paramètres.
La génération d'images de personne contrôlables vise à générer une image de personne conditionnée par des images de référence, permettant un contrôle précis sur l'apparence ou la pose de la personne. Cependant, les méthodes précédentes ont souvent déformé les détails texturaux fins de l'image de référence, malgré une qualité d'image globale élevée. Nous attribuons ces distorsions à une attention insuffisante aux régions correspondantes de l'image de référence. Pour remédier à cela, nous proposons donc d'apprendre des champs de flux dans l'attention (Leffa), qui guident explicitement la requête cible pour qu'elle se concentre sur la bonne clé de référence dans la couche d'attention lors de l'entraînement. Plus précisément, cela est réalisé via une perte de régularisation sur la carte d'attention au sein d'une ligne de base basée sur la diffusion. Nos expériences approfondies montrent que Leffa atteint des performances de pointe dans le contrôle de l'apparence (essayage virtuel) et de la pose (transfert de pose), réduisant significativement la distorsion des détails fins tout en maintenant une haute qualité d'image. De plus, nous montrons que notre perte est indépendante du modèle et peut être utilisée pour améliorer les performances d'autres modèles de diffusion.
L'écosystème BrowserGym répond au besoin croissant d'évaluation et de comparaison efficaces des agents web, en particulier ceux exploitant l'automatisation et les Grands Modèles de Langage (GML) pour les tâches d'interaction web. De nombreux benchmarks existants souffrent de fragmentation et de méthodologies d'évaluation incohérentes, rendant difficile la réalisation de comparaisons fiables et de résultats reproductibles. BrowserGym vise à résoudre ce problème en fournissant un environnement unifié de type salle de sport avec des espaces d'observation et d'action bien définis, facilitant l'évaluation standardisée à travers divers benchmarks. Associé à AgentLab, un cadre complémentaire qui aide à la création, au test et à l'analyse des agents, BrowserGym offre une flexibilité pour l'intégration de nouveaux benchmarks tout en garantissant une évaluation cohérente et une gestion complète des expériences. Cette approche standardisée vise à réduire le temps et la complexité du développement d'agents web, soutenant des comparaisons plus fiables et facilitant l'analyse approfondie des comportements des agents, et pourrait aboutir à des agents plus adaptables et performants, accélérant ainsi l'innovation dans l'automatisation basée sur les GML. En tant que preuve à l'appui, nous menons la première expérience à grande échelle avec plusieurs benchmarks d'agents web et comparons les performances de 6 GML de pointe sur tous les benchmarks actuellement disponibles dans BrowserGym. Entre autres résultats, nos résultats mettent en évidence une grande disparité entre les derniers modèles d'OpenAI et d'Anthropic, Claude-3.5-Sonnet se démarquant sur presque tous les benchmarks, sauf sur les tâches liées à la vision où GPT-4o est supérieur. Malgré ces avancées, nos résultats soulignent que la construction d'agents web robustes et efficaces reste un défi majeur, en raison de la complexité inhérente des environnements web réels et des limites des modèles actuels.
Alors que les générateurs vidéo fondamentaux récents produisent des sorties visuellement riches, ils rencontrent toujours des problèmes de dérive d'apparence, où les objets se dégradent progressivement ou changent de manière incohérente à travers les images, rompant la cohérence visuelle. Nous émettons l'hypothèse que cela est dû à l'absence de supervision explicite en termes de suivi spatial au niveau des caractéristiques. Nous proposons Track4Gen, un générateur vidéo conscient de l'espace qui combine la perte de diffusion vidéo avec le suivi de points à travers les images, offrant une supervision spatiale améliorée sur les caractéristiques de diffusion. Track4Gen fusionne la génération vidéo et les tâches de suivi de points dans un seul réseau en apportant des modifications minimales aux architectures de génération vidéo existantes. En utilisant la Diffusion Vidéo Stable comme base, Track4Gen démontre qu'il est possible d'unifier la génération vidéo et le suivi de points, qui sont généralement traités comme des tâches distinctes. Nos évaluations approfondies montrent que Track4Gen réduit efficacement la dérive d'apparence, aboutissant à une génération vidéo temporellement stable et visuellement cohérente. Page du projet : hyeonho99.github.io/track4gen
Le contrôle de style a été populaire dans les modèles de génération vidéo. Les méthodes existantes génèrent souvent des vidéos loin du style donné, provoquent des fuites de contenu et ont du mal à transférer une vidéo vers le style désiré. Notre première observation est que l'étape d'extraction du style est importante, tandis que les méthodes existantes mettent l'accent sur le style global mais ignorent les textures locales. Afin d'intégrer des caractéristiques de texture tout en évitant les fuites de contenu, nous filtrons les patchs liés au contenu tout en conservant ceux liés au style en fonction de la similarité des patchs; pour l'extraction du style global, nous générons un ensemble de données de style apparié grâce à l'illusion du modèle pour faciliter l'apprentissage contrastif, ce qui améliore considérablement la cohérence absolue du style. De plus, pour combler l'écart entre l'image et la vidéo, nous entraînons un adaptateur de mouvement léger sur des vidéos fixes, ce qui renforce implicitement l'étendue de la stylisation et permet à notre modèle entraîné sur des images d'être appliqué de manière transparente aux vidéos. Grâce à ces efforts, notre approche, StyleMaster, non seulement réalise une amélioration significative à la fois en termes de ressemblance de style et de cohérence temporelle, mais peut également se généraliser facilement au transfert de style vidéo avec un ControlNet en tuile grise. Des expériences approfondies et des visualisations démontrent que StyleMaster surpasse significativement ses concurrents, générant efficacement des vidéos stylisées de haute qualité qui s'alignent sur le contenu textuel et ressemblent étroitement au style des images de référence. Notre page de projet se trouve à l'adresse https://zixuan-ye.github.io/stylemaster
Les modèles gaussiens à propagation avant généralisés ont réalisé des progrès significatifs dans la reconstruction 3D à faible visibilité en exploitant les connaissances antérieures de vastes ensembles de données multi-vues. Cependant, ces modèles ont souvent du mal à représenter les détails haute fréquence en raison du nombre limité de gaussiennes. Alors que la stratégie de densification utilisée dans l'optimisation de l'étalement gaussien 3D par scène (3D-GS) peut être adaptée aux modèles à propagation avant, elle peut ne pas être idéalement adaptée aux scénarios généralisés. Dans cet article, nous proposons la Densification Générative, une méthode efficace et généralisable pour densifier les gaussiennes générées par les modèles à propagation avant. Contrairement à la stratégie de densification 3D-GS, qui divise et clone de manière itérative les paramètres gaussiens bruts, notre méthode sur-échantillonne les représentations des caractéristiques des modèles à propagation avant et génère leurs gaussiennes fines correspondantes en une seule passe, exploitant les connaissances antérieures intégrées pour une généralisation améliorée. Les résultats expérimentaux sur les tâches de reconstruction au niveau de l'objet et de la scène montrent que notre méthode surpasse les approches de pointe avec des tailles de modèle comparables ou plus petites, réalisant des améliorations notables dans la représentation des détails fins.
Cet article présente StreamChat, une approche novatrice qui améliore les capacités d'interaction des Grands Modèles Multimodaux (LMM) avec du contenu vidéo en streaming. Dans les scénarios d'interaction en streaming, les méthodes existantes se basent uniquement sur les informations visuelles disponibles au moment où une question est posée, ce qui entraîne des retards significatifs car le modèle reste inconscient des changements ultérieurs dans la vidéo en streaming. StreamChat aborde cette limitation en mettant à jour de manière innovante le contexte visuel à chaque étape de décodage, garantissant que le modèle utilise un contenu vidéo à jour tout au long du processus de décodage. De plus, nous introduisons une architecture flexible et efficace basée sur l'attention croisée pour traiter les entrées en streaming dynamiques tout en maintenant l'efficacité de l'inférence pour les interactions en streaming. En outre, nous construisons un nouvel ensemble de données d'instructions denses pour faciliter l'entraînement des modèles d'interaction en streaming, complété par un mécanisme parallèle 3D-RoPE qui code les informations temporelles relatives des jetons visuels et textuels. Les résultats expérimentaux montrent que StreamChat atteint des performances compétitives sur des référentiels d'images et de vidéos établis et présente des capacités supérieures dans les scénarios d'interaction en streaming par rapport aux LMM vidéo de pointe.
Éditer des images réelles à l'aide d'un modèle de diffusion/flux texte-vers-image (T2I) pré-entraîné implique souvent d'inverser l'image en sa carte de bruit correspondante. Cependant, l'inversion en elle-même est généralement insuffisante pour obtenir des résultats satisfaisants, c'est pourquoi de nombreuses méthodes interviennent également dans le processus d'échantillonnage. Ces méthodes permettent d'obtenir des résultats améliorés mais ne sont pas facilement transférables entre les architectures de modèles. Nous présentons ici FlowEdit, une méthode d'édition basée sur le texte pour les modèles de flux T2I pré-entraînés, qui est sans inversion, sans optimisation et indépendante du modèle. Notre méthode construit une EDO qui mappe directement entre les distributions source et cible (correspondant aux instructions textuelles source et cible) et atteint un coût de transport inférieur à l'approche par inversion. Cela conduit à des résultats de pointe, comme nous l'illustrons avec Stable Diffusion 3 et FLUX. Le code et des exemples sont disponibles sur la page web du projet.
Le raisonnement spatial en 3D est la capacité d'analyser et d'interpréter les positions, orientations et relations spatiales des objets dans l'espace en 3D. Cela permet aux modèles de développer une compréhension globale de la scène en 3D, ce qui rend leur application possible dans un éventail plus large de domaines, tels que la navigation autonome, la robotique et la RA/RV. Alors que les grands modèles multimodaux (LMMs) ont réalisé des progrès remarquables dans un large éventail de tâches de compréhension d'images et de vidéos, leurs capacités à effectuer un raisonnement spatial en 3D sur des images naturelles diverses sont moins étudiées. Dans ce travail, nous présentons le premier banc d'essai complet de raisonnement spatial en 3D, 3DSRBench, avec 2 772 paires de questions-réponses visuelles annotées manuellement réparties sur 12 types de questions. Nous menons une évaluation robuste et approfondie des capacités de raisonnement spatial en 3D en équilibrant la distribution des données et en adoptant une nouvelle stratégie FlipEval. Pour étudier davantage la robustesse du raisonnement spatial en 3D par rapport aux points de vue en 3D de la caméra, notre 3DSRBench comprend deux sous-ensembles avec des questions de raisonnement spatial en 3D sur des images appariées avec des points de vue communs et non communs. Nous évaluons un large éventail de LMMs open source et propriétaires, mettant en lumière leurs limitations dans divers aspects de la conscience en 3D, tels que la hauteur, l'orientation, l'emplacement et le raisonnement multi-objets, ainsi que leur performance dégradée sur des images avec des points de vue de caméra non communs. Notre 3DSRBench fournit des résultats et des perspectives précieux sur le développement futur de LMMs dotés de solides capacités de raisonnement en 3D. Notre page de projet et notre ensemble de données sont disponibles sur https://3dsrbench.github.io.
Dans le domaine de la génération de mouvements à partir de texte, les modèles masqués de type Bert (MoMasK, MMM) produisent actuellement des sorties de meilleure qualité par rapport aux modèles autorégressifs de type GPT (T2M-GPT). Cependant, ces modèles de type Bert manquent souvent de la capacité de sortie en continu requise pour les applications dans les environnements de jeux vidéo et multimédias, une caractéristique inhérente aux modèles de type GPT. De plus, ils présentent des performances plus faibles en termes de génération hors distribution. Pour surpasser la qualité des modèles de type BERT tout en exploitant une structure de type GPT, sans ajouter de modèles de raffinement supplémentaires qui compliquent la mise à l'échelle des données, nous proposons une architecture novatrice, Mogo (Motion Only Generate Once), qui génère des mouvements humains 3D réalistes de haute qualité en entraînant un seul modèle de transformer. Mogo se compose uniquement de deux composants principaux : 1) RVQ-VAE, un autoencodeur variationnel hiérarchique de quantification vectorielle résiduelle, qui discrétise des séquences de mouvement continues avec une grande précision ; 2) Transformateur Causal Hiérarchique, chargé de générer les séquences de mouvement de base de manière autorégressive tout en inférant simultanément des résidus à travers différentes couches. Les résultats expérimentaux démontrent que Mogo peut générer des séquences de mouvement continues et cycliques jusqu'à 260 images (13 secondes), dépassant la limitation de longueur de 196 images (10 secondes) des ensembles de données existants tels que HumanML3D. Sur l'ensemble de test HumanML3D, Mogo atteint un score FID de 0,079, surpassant à la fois le modèle de type GPT T2M-GPT (FID = 0,116), AttT2M (FID = 0,112) et le modèle de type BERT MMM (FID = 0,080). De plus, notre modèle atteint la meilleure performance quantitative en termes de génération hors distribution.
Nous explorons une nouvelle expérience de création vidéo, nommée Création Vidéo par Démonstration. Étant donné une vidéo de démonstration et une image de contexte provenant d'une scène différente, nous générons une vidéo physiquement plausible qui se poursuit naturellement à partir de l'image de contexte et met en œuvre les concepts d'action de la démonstration. Pour permettre cette capacité, nous présentons delta-Diffusion, une approche d'entraînement auto-supervisée qui apprend à partir de vidéos non étiquetées par prédiction conditionnelle des images futures. Contrairement à la plupart des contrôles de génération vidéo existants qui sont basés sur des signaux explicites, nous adoptons la forme de contrôle latent implicite pour une flexibilité maximale et une expressivité requise par les vidéos générales. En exploitant un modèle de base vidéo avec une conception de bottleneck d'apparence en surface, nous extrayons des latents d'action des vidéos de démonstration pour conditionner le processus de génération avec une fuite d'apparence minimale. Empiriquement, delta-Diffusion surpasse les baselines connexes en termes de préférence humaine et d'évaluations à grande échelle par des machines, et démontre des potentiels vers la simulation interactive du monde. Des résultats de génération vidéo échantillonnés sont disponibles sur https://delta-diffusion.github.io/.
Les grands modèles de langage sont connus pour capturer des connaissances du monde réel, ce qui leur permet d'exceller dans de nombreuses tâches ultérieures. Malgré les avancées récentes, ces modèles restent sujets à ce que l'on appelle communément des hallucinations, les amenant à produire du texte indésirable et incorrect sur le plan factuel. Dans ce travail, nous proposons une nouvelle méthode de calibration qui peut être utilisée pour lutter contre les hallucinations. Nous ajoutons un jeton spécial [IDK] ("Je ne sais pas") au vocabulaire du modèle et introduisons une fonction objective qui déplace la masse de probabilité vers le jeton [IDK] pour les prédictions incorrectes. Cette approche permet au modèle d'exprimer explicitement son incertitude dans sa sortie. Nous évaluons notre méthode proposée sur plusieurs architectures de modèles et tâches factuelles ultérieures. Nous constatons que les modèles entraînés avec notre méthode sont capables d'exprimer l'incertitude là où ils commettraient auparavant des erreurs, tout en subissant seulement une légère perte de connaissances encodées. Nous réalisons en outre des études d'ablation approfondies de plusieurs variations de notre approche et fournissons une analyse détaillée du compromis précision-rappel de notre méthode.
Les tailles croissantes des grands modèles de langage (GML) entraînent une surcharge computationnelle et une utilisation importante de la mémoire lors de l'adaptation de ces modèles à des tâches ou domaines spécifiques. Diverses méthodes d'ajustement fin de paramètres efficaces (PEFT) ont été conçues pour atténuer ces défis en formant un petit ensemble de paramètres pour les mises à jour spécifiques à la tâche des poids du modèle. Parmi les méthodes PEFT, LoRA se distingue par sa simplicité et son efficacité, inspirant le développement d'une série de variantes. Cependant, LoRA et ses successeurs ignorent les connaissances qui sont bruyantes ou non pertinentes pour la tâche ciblée, impactant négativement les performances du modèle et conduisant à une sous-optimalité. Pour remédier à cette limitation, nous introduisons l'Adaptation de Valeur Singulière Consciente des Connaissances (KaSA), une méthode PEFT qui exploite la décomposition en valeurs singulières (SVD) avec des valeurs singulières conscientes des connaissances pour activer dynamiquement les connaissances en fonction de leur pertinence pour la tâche en cours. Nous menons des expériences approfondies sur une gamme de GML pour des tâches couvrant la compréhension du langage naturel (NLU), la génération (NLG), le suivi d'instructions et le raisonnement de bon sens. Les résultats expérimentaux démontrent que KaSA surpasse de manière constante FFT et 14 baselines PEFT populaires sur 16 benchmarks et 4 ensembles de données synthétiques, soulignant l'efficacité et l'adaptabilité de notre méthode. Le code source de notre méthode est disponible sur https://github.com/juyongjiang/KaSA.
La transfert de style basé sur le texte vise à fusionner le style d'une image de référence avec le contenu décrit par une instruction textuelle. Les récents progrès dans les modèles texte-vers-image ont amélioré la subtilité des transformations de style, mais d'importants défis persistent, notamment en termes de surajustement aux styles de référence, de contrôle limité du style et de désalignement avec le contenu textuel. Dans cet article, nous proposons trois stratégies complémentaires pour aborder ces problèmes. Tout d'abord, nous introduisons un mécanisme de Normalisation d'Instance Adaptative (AdaIN) croisé-modal pour une meilleure intégration des caractéristiques de style et de texte, améliorant l'alignement. Ensuite, nous développons une approche de Guidage sans Classificateur basé sur le Style (SCFG) qui permet un contrôle sélectif sur les éléments stylistiques, réduisant les influences non pertinentes. Enfin, nous incorporons un modèle enseignant lors des premières étapes de génération pour stabiliser les agencements spatiaux et atténuer les artefacts. Nos évaluations approfondies démontrent des améliorations significatives en termes de qualité de transfert de style et d'alignement avec les instructions textuelles. De plus, notre approche peut être intégrée dans les cadres de transfert de style existants sans fine-tuning.
La création de données de haute qualité pour entraîner des agents d'apprentissage guidés par la langue robustes est un défi de longue date en intelligence artificielle incarnée. Dans cet article, nous présentons un Mécanisme de Raffinement de Données Autonome (SRDF) qui génère des paires d'instructions de navigation-trajectoire de haute qualité et à grande échelle en affinant de manière itérative le pool de données grâce à la collaboration entre deux modèles, le générateur d'instructions et le navigateur, sans aucune annotation humaine en boucle. Plus précisément, le SRDF commence par utiliser un générateur de base pour créer un pool de données initial afin d'entraîner un navigateur de base, puis en appliquant le navigateur entraîné pour filtrer le pool de données. Cela conduit à des données de meilleure qualité pour entraîner un meilleur générateur, qui peut à son tour produire des données de haute qualité pour entraîner le navigateur de la prochaine itération. Un tel mécanisme établit un processus d'autoraffinement des données, produisant un ensemble de données continuellement amélioré et hautement efficace pour l'apprentissage de la navigation guidée par le langage à grande échelle. Nos expériences montrent qu'après plusieurs itérations du mécanisme, le navigateur élève la limite de performance de 70% à 78% SPL sur l'ensemble de test R2R classique, dépassant pour la première fois la performance humaine (76%). Parallèlement, ce processus conduit à un générateur supérieur, comme en témoigne une augmentation du score SPICE de 23,5 à 26,2, meilleur que toutes les méthodes précédentes de génération d'instructions VLN. Enfin, nous démontrons la scalabilité de notre méthode en augmentant la diversité de l'environnement et des instructions, ainsi que la capacité de généralisation de notre navigateur pré-entraîné sur diverses tâches de navigation en aval, dépassant de loin les méthodes de pointe dans tous les cas.
La Traduction d'Images (TI) détient un immense potentiel dans divers domaines, permettant la traduction du contenu textuel présent dans les images vers différentes langues. Cependant, les ensembles de données existants souffrent souvent de limitations en termes d'échelle, de diversité et de qualité, entravant le développement et l'évaluation des modèles de TI. Pour résoudre ce problème, nous présentons MIT-10M, un corpus parallèle à grande échelle de traduction d'images multilingues comprenant plus de 10 millions de paires image-texte issues de données du monde réel, qui ont fait l'objet d'un nettoyage approfondi des données et d'une validation de traduction multilingue. Il contient 840 000 images de trois tailles, 28 catégories, tâches avec trois niveaux de difficulté et 14 paires image-texte de langues, ce qui constitue une amélioration considérable par rapport aux ensembles de données existants. Nous menons des expériences approfondies pour évaluer et entraîner des modèles sur MIT-10M. Les résultats expérimentaux indiquent clairement que notre ensemble de données présente une adaptabilité supérieure lorsqu'il s'agit d'évaluer les performances des modèles pour relever des tâches de traduction d'images complexes et difficiles dans le monde réel. De plus, les performances du modèle affiné avec MIT-10M ont triplé par rapport au modèle de référence, confirmant ainsi davantage sa supériorité.