papers.description
Les grands modèles de langage (LLM) pour le code sont devenus indispensables dans divers domaines, notamment la génération de code, les tâches de raisonnement et les systèmes d'agents. Bien que les LLM de code en accès libre se rapprochent de plus en plus des niveaux de performance des modèles propriétaires, les LLM de code de haute qualité adaptés à des investigations scientifiques rigoureuses, en particulier ceux dotés de pipelines de traitement de données reproductibles et de protocoles d'entraînement transparents, restent limités. Cette rareté est due à divers défis, notamment les contraintes de ressources, les considérations éthiques et les avantages concurrentiels liés au maintien de modèles avancés. Pour combler cette lacune, nous présentons OpenCoder, un LLM de code de premier plan qui non seulement atteint des performances comparables aux modèles leaders, mais sert également de « livre de recettes ouvert » pour la communauté de recherche. Contrairement à la plupart des efforts précédents, nous publions non seulement les poids du modèle et le code d'inférence, mais également les données d'entraînement reproductibles, le pipeline complet de traitement des données, les résultats rigoureux d'ablation expérimentale et les protocoles d'entraînement détaillés pour la recherche scientifique ouverte. Grâce à cette publication exhaustive, nous identifions les éléments clés pour construire un LLM de code de premier plan : (1) des règles heuristiques optimisées pour le nettoyage des données et des méthodes de déduplication des données, (2) la récupération de corpus textuels liés au code et (3) des données synthétiques de haute qualité aux étapes de recuit et de réglage fin supervisé. En offrant ce niveau d'ouverture, nous visons à élargir l'accès à tous les aspects d'un LLM de code de premier plan, avec OpenCoder servant à la fois de modèle puissant et de fondation ouverte pour accélérer la recherche et permettre des avancées reproductibles dans l'IA pour le code.
Les recherches récentes sur les modèles de langage à grande échelle (LLM) 1-bit, tels que BitNet b1.58, ouvrent une voie prometteuse pour réduire les coûts d'inférence des LLM tout en maintenant leurs performances. Dans ce travail, nous présentons BitNet a4.8, permettant des activations 4-bit pour les LLM 1-bit. BitNet a4.8 utilise une stratégie hybride de quantification et de sparsification pour atténuer les erreurs de quantification introduites par les canaux aberrants. Plus précisément, nous utilisons des activations 4-bit pour les entrées des couches d'attention et du réseau feed-forward, tout en sparsifiant les états intermédiaires suivis d'une quantification 8-bit. Des expériences approfondies montrent que BitNet a4.8 atteint des performances comparables à BitNet b1.58 avec des coûts d'entraînement équivalents, tout en étant plus rapide en inférence grâce à l'activation de noyaux 4-bit (INT4/FP4). De plus, BitNet a4.8 active seulement 55 % des paramètres et prend en charge un cache KV 3-bit, améliorant ainsi l'efficacité du déploiement et de l'inférence des LLM à grande échelle.
Dans cet article, nous présentons DimensionX, un cadre conçu pour générer des scènes 3D et 4D photoréalistes à partir d'une seule image grâce à la diffusion vidéo. Notre approche repose sur l'idée que la structure spatiale d'une scène 3D et l'évolution temporelle d'une scène 4D peuvent être efficacement représentées par des séquences d'images vidéo. Bien que les modèles récents de diffusion vidéo aient montré un succès remarquable dans la production de visuels saisissants, ils rencontrent des limitations pour reconstruire directement des scènes 3D/4D en raison d'une contrôlabilité spatiale et temporelle limitée lors de la génération. Pour surmonter cela, nous proposons ST-Director, qui découple les facteurs spatiaux et temporels dans la diffusion vidéo en apprenant des LoRAs sensibles aux dimensions à partir de données variant selon les dimensions. Cette approche de diffusion vidéo contrôlable permet une manipulation précise de la structure spatiale et de la dynamique temporelle, nous permettant de reconstruire à la fois des représentations 3D et 4D à partir de séquences d'images combinant les dimensions spatiales et temporelles. De plus, pour combler l'écart entre les vidéos générées et les scènes du monde réel, nous introduisons un mécanisme de génération 3D conscient des trajectoires et une stratégie de débruitage préservant l'identité pour la génération 4D. Des expériences approfondies sur divers ensembles de données réels et synthétiques démontrent que DimensionX obtient des résultats supérieurs en génération vidéo contrôlable, ainsi qu'en génération de scènes 3D et 4D, par rapport aux méthodes précédentes.
Le développement des grands modèles de langage (LLMs) s'est étendu à des systèmes multimodaux capables de traiter le texte, les images et la parole dans un cadre unifié. L'entraînement de ces modèles nécessite des ensembles de données et des ressources de calcul considérablement plus importants que les LLMs textuels uniquement. Pour relever les défis liés à la mise à l'échelle, nous introduisons Mixture-of-Transformers (MoT), une architecture de transformateur multimodal parcimonieuse qui réduit significativement les coûts de calcul lors du pré-entraînement. MoT découple les paramètres non-embarqués du modèle par modalité — incluant les réseaux feed-forward, les matrices d'attention et la normalisation de couche — permettant un traitement spécifique à chaque modalité avec une auto-attention globale sur la séquence d'entrée complète. Nous évaluons MoT dans plusieurs configurations et échelles de modèles. Dans le cadre de Chameleon 7B (génération autoregressive de texte et d'images), MoT atteint les performances de la base de référence dense en utilisant seulement 55,8 % des FLOPs. Lorsqu'il est étendu pour inclure la parole, MoT atteint des performances vocales comparables à la base de référence dense avec seulement 37,2 % des FLOPs. Dans le cadre de Transfusion, où le texte et l'image sont entraînés avec des objectifs différents, un modèle MoT de 7B correspond aux performances de la modalité image de la base de référence dense avec un tiers des FLOPs, et un modèle MoT de 760M surpasse une base de référence dense de 1,4B sur les principales métriques de génération d'images. Le profilage du système met en outre en évidence les avantages pratiques de MoT, atteignant la qualité d'image de la base de référence dense en 47,2 % du temps réel et la qualité de texte en 75,6 % du temps réel (mesuré sur des instances AWS p4de.24xlarge avec des GPU NVIDIA A100).
Les pipelines de réponse à des questions visuelles sur des documents (DocVQA) qui répondent à des questions à partir de documents ont des applications étendues. Les méthodes existantes se concentrent sur la gestion de documents à page unique avec des modèles de langage multi-modaux (MLM), ou s'appuient sur une génération augmentée par récupération de texte (RAG) qui utilise des outils d'extraction de texte tels que la reconnaissance optique de caractères (OCR). Cependant, il existe des difficultés à appliquer ces méthodes dans des scénarios réels : (a) les questions nécessitent souvent des informations provenant de différentes pages ou documents, où les MLM ne peuvent pas gérer de nombreux documents longs ; (b) les documents contiennent souvent des informations importantes dans des éléments visuels tels que des figures, mais les outils d'extraction de texte les ignorent. Nous introduisons M3DocRAG, un nouveau cadre RAG multi-modal qui s'adapte de manière flexible à divers contextes de documents (domaine fermé et domaine ouvert), sauts de questions (mono-saut et multi-sauts), et modalités de preuve (texte, graphique, figure, etc.). M3DocRAG trouve les documents pertinents et répond aux questions en utilisant un récupérateur multi-modal et un MLM, ce qui lui permet de gérer efficacement un ou plusieurs documents tout en préservant les informations visuelles. Comme les ensembles de données DocVQA précédents posent des questions dans le contexte d'un document spécifique, nous présentons également M3DocVQA, un nouveau benchmark pour évaluer la DocVQA en domaine ouvert sur plus de 3 000 documents PDF avec plus de 40 000 pages. Dans trois benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), les résultats empiriques montrent que M3DocRAG avec ColPali et Qwen2-VL 7B obtient des performances supérieures à de nombreux modèles de référence, y compris des performances de pointe dans MP-DocVQA. Nous fournissons des analyses complètes de différents indexations, MLM et modèles de récupération. Enfin, nous montrons qualitativement que M3DocRAG peut gérer avec succès divers scénarios, tels que lorsque des informations pertinentes existent sur plusieurs pages et lorsque les preuves de réponse n'existent que dans des images.
L'alignement fin entre les vidéos et le texte est un défi en raison de la dynamique spatiale et temporelle complexe des vidéos. Les modèles multimodaux de grande taille (LMM) existants basés sur la vidéo gèrent des conversations basiques mais peinent à réaliser un ancrage précis au niveau des pixels dans les vidéos. Pour résoudre ce problème, nous introduisons VideoGLaMM, un LMM conçu pour un ancrage fin au niveau des pixels dans les vidéos basé sur des entrées textuelles fournies par l'utilisateur. Notre conception relie de manière fluide trois composants clés : un modèle de langage de grande taille, un encodeur visuel dual qui met l'accent à la fois sur les détails spatiaux et temporels, et un décodeur spatio-temporel pour la génération précise de masques. Cette connexion est facilitée par des adaptateurs V-L et L-V ajustables qui permettent un alignement étroit entre la vision et le langage (VL). L'architecture est entraînée pour synchroniser à la fois les éléments spatiaux et temporels du contenu vidéo avec les instructions textuelles. Pour permettre un ancrage fin, nous avons constitué un ensemble de données multimodales comportant des conversations visuellement ancrées et détaillées en utilisant un pipeline d'annotation semi-automatique, aboutissant à un ensemble diversifié de 38k triplets vidéo-QA ainsi que 83k objets et 671k masques. Nous évaluons VideoGLaMM sur trois tâches difficiles : la génération de conversations ancrées, l'ancrage visuel et la segmentation vidéo référentielle. Les résultats expérimentaux montrent que notre modèle surpasse systématiquement les approches existantes dans les trois tâches.
Avec l'introduction de modèles basés sur les transformateurs pour les tâches de vision et de langage, tels que LLaVA et Chameleon, il y a eu un regain d'intérêt pour la représentation discrète et tokenisée des images. Ces modèles traitent souvent les patches d'images comme des tokens discrets, analogues aux mots dans le langage naturel, en apprenant des alignements conjoints entre les langages visuels et humains. Cependant, on sait peu de choses sur le comportement statistique de ces langages visuels - s'ils suivent des distributions de fréquence, des structures grammaticales ou des topologies similaires à celles des langages naturels. Dans cet article, nous adoptons une approche centrée sur le langage naturel pour analyser les langages visuels discrets et découvrons des similitudes frappantes ainsi que des différences fondamentales. Nous démontrons que, bien que les langages visuels adhèrent à des distributions de Zipf, une innovation accrue des tokens entraîne une entropie plus élevée et une compression plus faible, avec des tokens représentant principalement des parties d'objets, indiquant une granularité intermédiaire. Nous montrons également que les langages visuels manquent de structures grammaticales cohésives, conduisant à une perplexité plus élevée et à une organisation hiérarchique plus faible par rapport aux langages naturels. Enfin, nous démontrons que, bien que les modèles de vision s'alignent plus étroitement avec les langages naturels que d'autres modèles, cet alignement reste significativement plus faible que la cohésion observée dans les langages naturels. À travers ces expériences, nous illustrons comment la compréhension des propriétés statistiques des langages visuels discrets peut éclairer la conception de modèles de vision par ordinateur plus efficaces.
Pour renforcer les liens sociaux avec leurs interlocuteurs, les humains acquièrent naturellement la capacité de répondre de manière appropriée dans une situation donnée en considérant quelle compétence conversationnelle est la plus adaptée pour la réponse - un processus que nous appelons la "compétence d'esprit". Pour les agents conversationnels basés sur des modèles de langage de grande taille (LLM), planifier des compétences conversationnelles appropriées, comme le font les humains, est un défi en raison de la complexité des dialogues sociaux, en particulier dans des scénarios interactifs. Pour résoudre ce problème, nous proposons un ensemble de données de conversations annotées selon la compétence d'esprit, nommé Multifaceted Skill-of-Mind, qui inclut des compétences conversationnelles multitours et multidimensionnelles dans divers scénarios interactifs (par exemple, à long terme, de conseil, orientés vers des tâches), ancrés dans des contextes sociaux variés (par exemple, démographiques, persona, règles empiriques). Cet ensemble de données comprend environ 100 000 conversations. En utilisant cet ensemble de données, nous introduisons une nouvelle famille de LLM infusés de compétence d'esprit, nommée Thanos, avec des tailles de modèle de 1B, 3B et 8B paramètres. Grâce à des expériences approfondies, ces modèles démontrent avec succès le processus de compétence d'esprit et présentent une forte généralisation dans l'inférence de compétences multidimensionnelles à travers divers domaines. De plus, nous montrons que Thanos améliore significativement la qualité des réponses générées par les agents conversationnels basés sur des LLM et favorise les comportements prosociaux dans les évaluations humaines.
Les modèles de diffusion se sont avérés très efficaces pour générer des images de haute qualité. Cependant, à mesure que ces modèles deviennent plus volumineux, ils nécessitent considérablement plus de mémoire et souffrent d'une latence accrue, posant ainsi des défis majeurs pour leur déploiement. Dans ce travail, nous visons à accélérer les modèles de diffusion en quantifiant leurs poids et activations à 4 bits. À un niveau aussi agressif, les poids et les activations sont très sensibles, rendant les méthodes de quantification post-entraînement conventionnelles, comme le lissage, insuffisantes pour les grands modèles de langage. Pour surmonter cette limitation, nous proposons SVDQuant, un nouveau paradigme de quantification à 4 bits. Contrairement au lissage qui redistribue les valeurs aberrantes entre les poids et les activations, notre approche absorbe ces valeurs aberrantes en utilisant une branche de faible rang. Nous consolidons d'abord les valeurs aberrantes en les déplaçant des activations vers les poids, puis nous employons une branche de faible rang à haute précision pour intégrer les valeurs aberrantes des poids via la décomposition en valeurs singulières (SVD). Ce processus facilite la quantification des deux côtés. Cependant, exécuter naïvement la branche de faible rang de manière indépendante entraîne un surcoût important en raison des mouvements supplémentaires de données des activations, annulant ainsi l'accélération apportée par la quantification. Pour résoudre ce problème, nous co-concevons un moteur d'inférence, Nunchaku, qui fusionne les noyaux de la branche de faible rang avec ceux de la branche à faible nombre de bits pour éliminer les accès mémoire redondants. Il peut également supporter de manière transparente des adaptateurs de faible rang (LoRAs) prêts à l'emploi sans nécessiter de re-quantification. Des expériences approfondies sur SDXL, PixArt-Sigma et FLUX.1 valident l'efficacité de SVDQuant pour préserver la qualité des images. Nous réduisons l'utilisation de mémoire pour les modèles FLUX.1 de 12B par un facteur de 3,5, atteignant une accélération de 3,0 fois par rapport à la base de référence quantifiée à 4 bits uniquement sur les poids, sur un GPU portable 4090 de 16 Go, ouvrant ainsi la voie à des applications plus interactives sur PC. Notre bibliothèque de quantification et notre moteur d'inférence sont open-source.
À mesure que les limites de contexte des grands modèles de langage (LLM) augmentent, l'éventail des applications possibles et des fonctions en aval s'élargit. Dans de nombreuses tâches du monde réel, les décisions dépendent de détails dispersés dans des collections de documents souvent disparates contenant principalement des informations non pertinentes. Les LLM à contexte long semblent bien adaptés à cette forme de recherche d'information complexe et de raisonnement, qui s'est traditionnellement avérée coûteuse et chronophage. Cependant, bien que le développement de modèles à contexte plus long ait connu des progrès rapides ces dernières années, notre compréhension de l'efficacité avec laquelle les LLM utilisent leur contexte n'a pas suivi le rythme. Pour remédier à cela, nous menons une série d'expériences de récupération conçues pour évaluer les capacités de 17 LLM leaders, telles que leur capacité à suivre des fils d'information à travers la fenêtre de contexte. De manière frappante, nous constatons que de nombreux modèles sont remarquablement "threadsafe" : capables de suivre simultanément plusieurs fils sans perte significative de performance. Néanmoins, pour de nombreux modèles, nous constatons que la limite effective de contexte est nettement plus courte que la longueur de contexte supportée, avec une précision qui diminue à mesure que la fenêtre de contexte s'agrandit. Notre étude met également en lumière le point important que les comptes de tokens provenant de différents tokeniseurs ne doivent pas être directement comparés - ils correspondent souvent à des nombres substantiellement différents de caractères écrits. Nous publions notre code et les données expérimentales de contexte long.
Des progrès significatifs ont été réalisés dans le domaine de la manipulation mobile à vocabulaire ouvert, où l'objectif est qu'un robot exécute des tâches dans n'importe quel environnement à partir d'une description en langage naturel. Cependant, la plupart des systèmes actuels supposent un environnement statique, ce qui limite leur applicabilité dans des scénarios réels où les environnements changent fréquemment en raison de l'intervention humaine ou des actions du robot lui-même. Dans ce travail, nous présentons DynaMem, une nouvelle approche de manipulation mobile en monde ouvert qui utilise une mémoire spatio-sémantique dynamique pour représenter l'environnement d'un robot. DynaMem construit une structure de données 3D pour maintenir une mémoire dynamique de nuages de points, et répond aux requêtes de localisation d'objets à vocabulaire ouvert en utilisant des modèles de langage multimodaux (LLMs) ou des caractéristiques à vocabulaire ouvert générées par des modèles vision-langage de pointe. Grâce à DynaMem, nos robots peuvent explorer de nouveaux environnements, rechercher des objets non présents en mémoire, et mettre à jour continuellement la mémoire à mesure que les objets se déplacent, apparaissent ou disparaissent dans la scène. Nous avons mené des expériences approfondies sur les robots Stretch SE3 dans trois scènes réelles et neuf scènes hors ligne, et avons obtenu un taux de réussite moyen de 70 % pour la prise et le dépôt d'objets non stationnaires, ce qui représente une amélioration de plus de 2x par rapport aux systèmes statiques de pointe. Notre code ainsi que les vidéos de nos expériences et déploiements sont open source et peuvent être consultés sur notre site web de projet : https://dynamem.github.io/
Le mélange de codes, qui consiste à intégrer des éléments lexicaux et grammaticaux issus de plusieurs langues au sein d'une même phrase, est un phénomène linguistique répandu, particulièrement prévalent dans les sociétés multilingues. En Inde, les utilisateurs des réseaux sociaux s'engagent fréquemment dans des conversations en mélange de codes utilisant l'alphabet latin, notamment parmi les communautés migrantes qui forment des groupes en ligne pour partager des informations locales pertinentes. Cet article se concentre sur les défis liés à l'extraction d'informations pertinentes à partir de conversations en mélange de codes, spécifiquement dans le cas du bengali translittéré en alphabet latin mélangé à l'anglais. Cette étude présente une approche novatrice pour relever ces défis en développant un mécanisme permettant d'identifier automatiquement les réponses les plus pertinentes dans des conversations en mélange de codes. Nous avons expérimenté avec un ensemble de données comprenant des requêtes et des documents issus de Facebook, ainsi que des fichiers de pertinence de requêtes (QRels) pour faciliter cette tâche. Nos résultats démontrent l'efficacité de notre approche pour extraire des informations pertinentes à partir de conversations numériques complexes en mélange de codes, contribuant ainsi au domaine plus large du traitement automatique des langues dans des environnements multilingues et de textes informels. Nous utilisons GPT-3.5 Turbo via des prompts, tout en exploitant la nature séquentielle des documents pertinents pour élaborer un modèle mathématique qui aide à détecter les documents pertinents correspondant à une requête.
Les benchmarks existants pour évaluer les modèles de base se concentrent principalement sur des tâches mono-documentaires et textuelles. Cependant, ils échouent souvent à saisir pleinement la complexité des workflows de recherche, qui impliquent généralement l'interprétation de données non textuelles et la collecte d'informations à travers plusieurs documents. Pour combler cette lacune, nous introduisons M3SciQA, un benchmark de question-réponse scientifique multimodal et multi-documentaire, conçu pour une évaluation plus complète des modèles de base. M3SciQA comprend 1 452 questions annotées par des experts, couvrant 70 clusters d'articles de traitement automatique du langage naturel, où chaque cluster représente un article principal ainsi que tous les documents qu'il cite, reflétant ainsi le workflow de compréhension d'un article unique en exigeant des données multimodales et multi-documentaires. Avec M3SciQA, nous menons une évaluation complète de 18 modèles de base. Nos résultats indiquent que les modèles de base actuels sont encore significativement moins performants que les experts humains en matière de recherche d'informations multimodales et de raisonnement à travers plusieurs documents scientifiques. De plus, nous explorons les implications de ces résultats pour l'avancement futur de l'application des modèles de base dans l'analyse de la littérature scientifique multimodale.
Nous présentons GazeGen, un système d'interaction utilisateur qui génère du contenu visuel (images et vidéos) pour les emplacements indiqués par le regard de l'utilisateur. GazeGen permet une manipulation intuitive du contenu visuel en ciblant les régions d'intérêt avec le regard. En utilisant des techniques avancées de détection d'objets et d'IA générative, GazeGen effectue des ajouts/suppressions d'images, des repositionnements et des changements de matériaux de surface des objets d'image contrôlés par le regard, et convertit des images statiques en vidéos. Au cœur de GazeGen se trouve l'agent DFT Gaze (Distilled and Fine-Tuned Gaze), un modèle ultra-léger avec seulement 281K paramètres, réalisant des prédictions de regard en temps réel précises et adaptées aux yeux de chaque utilisateur sur de petits dispositifs périphériques. GazeGen est le premier système à combiner la génération de contenu visuel avec l'estimation de regard en temps réel, rendu possible exclusivement par DFT Gaze. Cette estimation de regard en temps réel permet diverses tâches de génération de contenu visuel, toutes contrôlées par le regard de l'utilisateur. L'entrée pour DFT Gaze est constituée des images des yeux de l'utilisateur, tandis que les entrées pour la génération de contenu visuel sont la vue de l'utilisateur et le point de regard prédit par DFT Gaze. Pour réaliser des prédictions de regard efficaces, nous dérivons le petit modèle d'un grand modèle (10 fois plus grand) via des techniques novatrices de distillation de connaissances et d'adaptation personnelle. Nous intégrons la distillation de connaissances avec un autoencodeur masqué, développant ainsi un modèle d'estimation de regard compact mais puissant. Ce modèle est ensuite affiné avec des adaptateurs, permettant des prédictions de regard très précises et personnalisées avec un minimum d'entrée utilisateur. DFT Gaze garantit un suivi de regard à faible latence et précis, supportant une large gamme de tâches pilotées par le regard. Nous validons les performances de DFT Gaze sur les benchmarks AEA et OpenEDS2020, démontrant une faible erreur angulaire de regard et une faible latence sur le dispositif périphérique (Raspberry Pi 4). De plus, nous décrivons les applications de GazeGen, illustrant sa polyvalence et son efficacité dans divers scénarios d'utilisation.
Les méthodes de génération d'images vers vidéos ont atteint une qualité impressionnante et photoréaliste. Cependant, ajuster des éléments spécifiques dans les vidéos générées, tels que le mouvement des objets ou le déplacement de la caméra, est souvent un processus fastidieux d'essais et d'erreurs, impliquant par exemple la régénération de vidéos avec différentes graines aléatoires. Des techniques récentes abordent ce problème en affinant un modèle pré-entraîné pour suivre des signaux de conditionnement, tels que des boîtes englobantes ou des trajectoires de points. Pourtant, cette procédure d'affinage peut être coûteuse en calcul et nécessite des ensembles de données avec des mouvements d'objets annotés, qui peuvent être difficiles à obtenir. Dans ce travail, nous présentons SG-I2V, un cadre pour la génération contrôlée d'images vers vidéos qui est auto-guidé, offrant un contrôle en zero-shot en s'appuyant uniquement sur les connaissances présentes dans un modèle de diffusion pré-entraîné, sans nécessiter d'affinage ou de connaissances externes. Notre méthode zero-shot surpasse les bases de référence non supervisées tout en étant compétitive avec les modèles supervisés en termes de qualité visuelle et de fidélité du mouvement.
Au-delà de la synthèse d'images haute fidélité, les modèles de diffusion ont récemment démontré des résultats prometteurs dans les tâches de perception visuelle dense. Cependant, la plupart des travaux existants traitent les modèles de diffusion comme un composant autonome pour les tâches de perception, les utilisant soit uniquement pour l'augmentation de données prêtes à l'emploi, soit comme de simples extracteurs de caractéristiques. Contrairement à ces efforts isolés et donc sous-optimaux, nous introduisons un cadre unifié et polyvalent basé sur la diffusion, Diff-2-in-1, capable de gérer simultanément la génération de données multimodales et la perception visuelle dense, grâce à une exploitation unique du processus de dédiffusion. Au sein de ce cadre, nous améliorons davantage la perception visuelle discriminative via la génération multimodale, en utilisant le réseau de dédiffusion pour créer des données multimodales qui reflètent la distribution de l'ensemble d'entraînement original. De manière cruciale, Diff-2-in-1 optimise l'utilisation des données créées, diversifiées et fidèles, en exploitant un mécanisme d'apprentissage auto-améliorant novateur. Des évaluations expérimentales approfondies valident l'efficacité de notre cadre, mettant en évidence des améliorations de performance constantes sur divers modèles discriminatifs et une génération de données multimodales de haute qualité, caractérisée à la fois par le réalisme et l'utilité.