Articles de recherche en IA sélectionnés quotidiennement avec traductions
PaliGemma 2 est une mise à niveau du modèle ouvert PaliGemma Vision-Language Model (VLM) basé sur la famille de modèles de langage Gemma 2. Nous combinons l'encodeur vision SigLIP-So400m qui était également utilisé par PaliGemma avec toute la gamme de modèles Gemma 2, du modèle 2B jusqu'au modèle 27B. Nous entraînons ces modèles à trois résolutions (224px, 448px et 896px) en plusieurs étapes pour les doter d'une connaissance étendue en vue d'un transfert via un fine-tuning. La famille résultante de modèles de base couvrant différentes tailles de modèles et résolutions nous permet d'explorer les facteurs impactant les performances de transfert (comme le taux d'apprentissage) et d'analyser l'interaction entre le type de tâche, la taille du modèle et la résolution. Nous augmentons en outre le nombre et la portée des tâches de transfert au-delà du cadre de PaliGemma, y compris différentes tâches liées à la ROC telles que la reconnaissance de la structure des tableaux, la reconnaissance de la structure moléculaire, la reconnaissance des partitions musicales, ainsi que la génération de légendes fines et détaillées et de rapports de radiographie, sur lesquels PaliGemma 2 obtient des résultats de pointe.
Les approches récentes ont donné des résultats prometteurs dans la distillation de modèles de diffusion texte-image à plusieurs étapes en modèles à une seule étape. La technique de distillation efficace de pointe, c'est-à-dire SwiftBrushv2 (SBv2), dépasse même les performances du modèle enseignant avec des ressources limitées. Cependant, notre étude révèle son instabilité lors de la manipulation de différentes structures de modèles de diffusion en raison de l'utilisation d'une échelle de guidage fixe dans la perte de distillation du score variationnel (VSD). Une autre faiblesse des modèles de diffusion à une seule étape existants est le manque de support pour un guidage négatif de l'invite, qui est crucial dans la génération d'images pratique. Cet article présente SNOOPI, un nouveau cadre conçu pour remédier à ces limitations en améliorant le guidage dans les modèles de diffusion à une seule étape lors de l'entraînement et de l'inférence. Tout d'abord, nous améliorons efficacement la stabilité de l'entraînement grâce à Proper Guidance-SwiftBrush (PG-SB), qui utilise une approche de guidage sans classificateur à échelle aléatoire. En variant l'échelle de guidage des deux modèles enseignants, nous élargissons leurs distributions de sortie, ce qui se traduit par une perte VSD plus robuste permettant à SB de fonctionner efficacement sur des structures diverses tout en maintenant des performances compétitives. Deuxièmement, nous proposons une méthode sans entraînement appelée Negative-Away Steer Attention (NASA), qui intègre des invites négatives dans les modèles de diffusion à une seule étape via une attention croisée pour supprimer les éléments indésirables dans les images générées. Nos résultats expérimentaux montrent que nos méthodes proposées améliorent significativement les modèles de base selon diverses mesures. Remarquablement, nous atteignons un score HPSv2 de 31,08, établissant ainsi une nouvelle référence de pointe pour les modèles de diffusion à une seule étape.
Nous présentons TokenFlow, un nouveau tokeniseur d'images unifié qui comble le fossé de longue date entre la compréhension multimodale et la génération. Les recherches antérieures ont tenté d'utiliser un encodeur de quantification vectorielle (VQ) ciblé sur la reconstruction pour unifier ces deux tâches. Nous observons que la compréhension et la génération nécessitent des granularités d'informations visuelles fondamentalement différentes. Cela entraîne un compromis critique, compromettant particulièrement les performances dans les tâches de compréhension multimodale. TokenFlow relève ce défi grâce à une architecture innovante à double codebook qui découple l'apprentissage sémantique et de niveau pixel tout en maintenant leur alignement via un mécanisme de mapping partagé. Cette conception permet un accès direct aux représentations sémantiques de haut niveau cruciales pour les tâches de compréhension et aux caractéristiques visuelles fines essentielles pour la génération à travers des indices partagés. Nos expériences approfondies démontrent la supériorité de TokenFlow sur plusieurs dimensions. En exploitant TokenFlow, nous démontrons pour la première fois qu'une entrée visuelle discrète peut surpasser LLaVA-1.5 13B en termes de performances de compréhension, avec une amélioration moyenne de 7,2\%. Pour la reconstruction d'images, nous obtenons un score FID solide de 0,63 en résolution 384*384. De plus, TokenFlow établit des performances de pointe dans la génération d'images autorégressive avec un score GenEval de 0,55 en résolution 256*256, obtenant des résultats comparables à SDXL.
Les vidéos à 360 degrés offrent une expérience hyper-immersive qui permet aux spectateurs d'explorer une scène dynamique sur 360 degrés complets. Pour parvenir à une création de contenu en format vidéo à 360 degrés plus conviviale et personnalisée, nous cherchons à transformer les vidéos standard en vidéos à 360 degrés équirectangulaires. À cette fin, nous présentons Imagine360, le premier cadre de génération de vidéos de perspective à 360 degrés qui crée des vidéos de haute qualité à 360 degrés avec des motifs de mouvement riches et variés à partir d'ancrages vidéo. Imagine360 apprend des motifs visuels sphériques et de mouvement fins à partir de données vidéo à 360 degrés limitées grâce à plusieurs conceptions clés. 1) Tout d'abord, nous adoptons la conception à double branche, comprenant une branche de débruitage vidéo de perspective et de panorama pour fournir des contraintes locales et globales pour la génération de vidéos à 360 degrés, avec un module de mouvement et des couches spatiales LoRA ajustées finement sur des vidéos web 360 degrés étendues. 2) De plus, un masque antipodal est conçu pour capturer les dépendances de mouvement à longue portée, améliorant le mouvement de caméra inversé entre les pixels antipodaux à travers les hémisphères. 3) Pour gérer les diverses entrées vidéo de perspective, nous proposons des conceptions sensibles à l'élévation qui s'adaptent aux masques vidéo variables en raison des changements d'élévation entre les images. Des expériences approfondies montrent qu'Imagine360 offre une qualité graphique supérieure et une cohérence de mouvement parmi les méthodes de génération de vidéos à 360 degrés de pointe. Nous pensons qu'Imagine360 présente un potentiel pour faire progresser la création de vidéos à 360 degrés personnalisées et immersives.
Les modèles de diffusion ont été appliqués à l'achèvement de scènes LiDAR 3D en raison de leur forte stabilité d'entraînement et de leur haute qualité d'achèvement. Cependant, la lenteur de l'échantillonnage limite l'application pratique des modèles d'achèvement de scènes basés sur la diffusion, car les véhicules autonomes nécessitent une perception efficace des environnements environnants. Cet article propose une nouvelle méthode de distillation adaptée aux modèles d'achèvement de scènes LiDAR 3D, appelée ScoreLiDAR, qui permet d'obtenir un achèvement de scène efficace mais de haute qualité. ScoreLiDAR permet au modèle distillé d'échantillonner en significativement moins d'étapes après la distillation. Pour améliorer la qualité de l'achèvement, nous introduisons également une nouvelle Perte Structurale, qui encourage le modèle distillé à capturer la structure géométrique de la scène LiDAR 3D. La perte contient un terme par scène contraignant la structure holistique et un terme par point contraignant les points de repère clés et leur configuration relative. Des expériences approfondies démontrent que ScoreLiDAR accélère significativement le temps d'achèvement de 30,55 à 5,37 secondes par image (>5 fois) sur SemanticKITTI et atteint des performances supérieures par rapport aux modèles d'achèvement de scènes LiDAR 3D de pointe. Notre code est publiquement disponible sur https://github.com/happyw1nd/ScoreLiDAR.
Les récentes avancées dans les grands modèles multimodaux vidéo (LMMs) ont considérablement amélioré leur compréhension et leurs capacités de raisonnement vidéo. Cependant, leurs performances chutent sur des tâches hors distribution (OOD) qui sont sous-représentées dans les données d'entraînement. Les méthodes traditionnelles telles que le fine-tuning sur des ensembles de données OOD sont impraticables en raison des coûts computationnels élevés. Alors que l'apprentissage en contexte (ICL) avec des exemples de démonstration a montré des performances de généralisation prometteuses dans les tâches linguistiques et les tâches image-langage sans fine-tuning, l'application de l'ICL aux tâches vidéo-langage est confrontée à des défis en raison de la longueur de contexte limitée dans les LMMs vidéo, car les vidéos nécessitent des longueurs de jeton plus longues. Pour résoudre ces problèmes, nous proposons VideoICL, un nouveau cadre d'apprentissage en contexte vidéo pour les tâches OOD qui introduit une stratégie de sélection d'exemples pertinents basée sur la similarité et une approche d'inférence itérative basée sur la confiance. Cela permet de sélectionner les exemples les plus pertinents et de les classer en fonction de leur similarité, à utiliser pour l'inférence. Si la réponse générée a une faible confiance, notre cadre sélectionne de nouveaux exemples et effectue à nouveau l'inférence, affinant itérativement les résultats jusqu'à l'obtention d'une réponse à haute confiance. Cette approche améliore les performances de compréhension vidéo OOD en étendant la longueur efficace du contexte sans entraîner de coûts élevés. Les résultats expérimentaux sur plusieurs benchmarks démontrent des gains de performance significatifs, notamment dans des scénarios spécifiques au domaine, jetant les bases pour des applications de compréhension vidéo plus larges. Le code sera publié sur https://github.com/KangsanKim07/VideoICL
La création d'avatars réalistes et animables nécessite encore des minutes de vidéos multi-vues ou monoculaires en rotation, et la plupart des méthodes manquent de contrôle précis sur les gestes et les expressions. Pour repousser cette limite, nous abordons le défi de construire un avatar parlant en entier à partir d'une seule image. Nous proposons un nouveau processus qui aborde deux problèmes critiques : 1) la modélisation dynamique complexe et 2) la généralisation à de nouveaux gestes et expressions. Pour obtenir une généralisation fluide, nous exploitons les récents modèles de diffusion d'images vers vidéos guidées par la pose pour générer des images vidéo imparfaites en tant que pseudo-étiquettes. Pour surmonter le défi de la modélisation dynamique posé par des vidéos pseudo-incohérentes et bruyantes, nous introduisons une représentation hybride d'avatar 3DGS-maillage étroitement couplée et appliquons plusieurs régularisations clés pour atténuer les incohérences causées par des étiquettes imparfaites. Des expériences approfondies sur des sujets divers démontrent que notre méthode permet la création d'un avatar parlant en entier, photoréaliste, précisément animable et expressif à partir d'une seule image.
Dans cet article, nous présentons un modèle vision-langage coréen-anglais open source (VLM), VARCO-VISION. Nous intégrons une stratégie d'entraînement étape par étape qui permet à un modèle d'apprendre à la fois des informations linguistiques et visuelles tout en préservant les connaissances du modèle de base. Notre modèle démontre des performances exceptionnelles dans divers contextes nécessitant des capacités de compréhension et de génération d'images-textes bilingues par rapport à des modèles de taille similaire. VARCO-VISION est également capable d'ancrer, de référencer et de reconnaître des caractères optiques (OCR), élargissant ainsi son utilisation et ses applications potentielles pour des scénarios réels. En plus du modèle, nous publions cinq ensembles de données d'évaluation coréens, comprenant quatre ensembles fermés et un ensemble ouvert. Nous anticipons que notre jalon élargira les opportunités pour les chercheurs en IA visant à entraîner des VLM. VARCO-VISION est disponible sur https://huggingface.co/NCSOFT/VARCO-VISION-14B.
Cet article présente MIDI, un nouveau paradigme pour la génération de scènes 3D compositionnelles à partir d'une seule image. Contrairement aux méthodes existantes qui reposent sur des techniques de reconstruction ou de recherche, ou aux approches récentes qui utilisent la génération d'objets étape par étape, MIDI étend les modèles de génération d'objets 3D à partir d'images pré-entraînées à des modèles de diffusion multi-instance, permettant la génération simultanée de plusieurs instances 3D avec des relations spatiales précises et une grande capacité de généralisation. Au cœur de MIDI se trouve un mécanisme d'attention multi-instance novateur, qui capture efficacement les interactions entre objets et la cohérence spatiale directement dans le processus de génération, sans avoir besoin de processus complexes en plusieurs étapes. La méthode utilise des images d'objets partiels et le contexte global de la scène en tant qu'entrées, modélisant directement l'achèvement des objets pendant la génération 3D. Pendant l'entraînement, nous supervisons efficacement les interactions entre les instances 3D en utilisant une quantité limitée de données au niveau de la scène, tout en incorporant des données d'objets uniques pour la régularisation, maintenant ainsi la capacité de généralisation pré-entraînée. MIDI démontre des performances de pointe dans la génération d'images de scènes, validées par des évaluations sur des données synthétiques, des données de scènes du monde réel, et des images de scènes stylisées générées par des modèles de diffusion texte-vers-image.
Les récents progrès dans les modèles génératifs ont considérablement amélioré la synthèse de nouvelles vues (NVS) à partir de données multi-vues. Cependant, les méthodes existantes dépendent de processus externes d'alignement multi-vues, tels que l'estimation explicite de la pose ou la pré-reconstruction, ce qui limite leur flexibilité et leur accessibilité, notamment lorsque l'alignement est instable en raison d'un chevauchement insuffisant ou d'occlusions entre les vues. Dans cet article, nous proposons NVComposer, une nouvelle approche qui élimine le besoin d'un alignement externe explicite. NVComposer permet au modèle génératif d'inférer implicitement les relations spatiales et géométriques entre plusieurs vues conditionnelles en introduisant deux composants clés : 1) un modèle de diffusion à double flux image-pose qui génère simultanément des nouvelles vues cibles et les poses de caméra conditionnelles, et 2) un module d'alignement de caractéristiques conscient de la géométrie qui distille des connaissances géométriques à partir de modèles stéréo denses pendant l'entraînement. Des expériences approfondies démontrent que NVComposer atteint des performances de pointe dans les tâches génératives multi-vues NVS, en éliminant la dépendance à l'alignement externe et en améliorant ainsi l'accessibilité du modèle. Notre approche montre des améliorations substantielles dans la qualité de synthèse à mesure que le nombre de vues d'entrée non posées augmente, mettant en évidence son potentiel pour des systèmes NVS génératifs plus flexibles et accessibles.
Nous présentons NitroFusion, une approche fondamentalement différente de la diffusion en une seule étape qui permet d'obtenir une génération de haute qualité grâce à un cadre adversarial dynamique. Alors que les méthodes en une seule étape offrent des avantages de vitesse spectaculaires, elles souffrent généralement d'une dégradation de la qualité par rapport à leurs homologues multi-étapes. Tout comme un panel de critiques d'art fournit des retours complets en se spécialisant dans différents aspects tels que la composition, la couleur et la technique, notre approche maintient un grand nombre de têtes de discriminateur spécialisées qui guident collectivement le processus de génération. Chaque groupe de discriminateurs développe une expertise dans des aspects de qualité spécifiques à différents niveaux de bruit, fournissant des retours divers qui permettent une génération en une seule étape de haute fidélité. Notre cadre combine : (i) un pool de discriminateurs dynamiques avec des groupes de discriminateurs spécialisés pour améliorer la qualité de la génération, (ii) des mécanismes de rafraîchissement stratégiques pour éviter le surajustement du discriminateur, et (iii) des têtes de discriminateur global-local pour une évaluation de la qualité multi-échelle, et un entraînement inconditionnel/conditionnel pour une génération équilibrée. De plus, notre cadre prend en charge de manière unique un déploiement flexible grâce à un affinement ascendant, permettant aux utilisateurs de choisir dynamiquement entre 1 et 4 étapes de débruitage avec le même modèle pour des compromis directs entre qualité et vitesse. À travers des expériences approfondies, nous démontrons que NitroFusion surpasse significativement les méthodes en une seule étape existantes sur plusieurs métriques d'évaluation, se distinguant particulièrement dans la préservation des détails fins et de la cohérence globale.
Les progrès rapides des Modèles de Langage Multimodaux à Grande Échelle (MLLM) ont eu un impact significatif sur diverses tâches multimodales. Cependant, ces modèles rencontrent des défis dans les tâches nécessitant une compréhension spatiale au sein d'environnements 3D. Des efforts ont été déployés pour améliorer les MLLMs, tels que l'incorporation de caractéristiques de nuages de points, cependant, un écart considérable persiste entre les représentations apprises par les modèles et la complexité inhérente des scènes 3D. Cette disparité découle principalement de l'entraînement des MLLMs sur des données principalement 2D, ce qui limite leur efficacité à comprendre les espaces 3D. Pour résoudre ce problème, dans cet article, nous proposons un modèle généraliste novateur, à savoir le Video-3D LLM, pour la compréhension des scènes 3D. En traitant les scènes 3D comme des vidéos dynamiques et en incorporant un encodage de position 3D dans ces représentations, notre Video-3D LLM aligne les représentations vidéo avec les contextes spatiaux du monde réel de manière plus précise. De plus, nous avons mis en œuvre une technique d'échantillonnage de couverture maximale pour optimiser l'équilibre entre les coûts computationnels et l'efficacité des performances. Des expériences approfondies démontrent que notre modèle atteint des performances de pointe sur plusieurs référentiels de compréhension de scènes 3D, y compris ScanRefer, Multi3DRefer, Scan2Cap, ScanQA et SQA3D.
L'évaluation actuelle des compétences mathématiques dans les LLM est limitée, car les références existantes sont soit relativement petites, se concentrent principalement sur des problèmes d'école primaire et secondaire, soit manquent de diversité dans les sujets. De plus, l'inclusion d'éléments visuels dans les tâches reste largement sous-exploitée. Pour combler ces lacunes, nous présentons U-MATH, un nouveau banc d'essai de 1 100 problèmes universitaires ouverts non publiés provenant de supports pédagogiques. Il est équilibré entre six matières principales, avec 20 % de problèmes multimodaux. Étant donné la nature ouverte des problèmes U-MATH, nous utilisons un LLM pour juger de la justesse des solutions générées. À cette fin, nous publions mu-MATH, un ensemble de données pour évaluer les capacités des LLM à juger des solutions. L'évaluation des LLM de domaine général, spécifiques aux mathématiques et multimodaux met en lumière les défis posés par U-MATH. Nos résultats révèlent que les LLM n'atteignent qu'une précision maximale de 63 % sur les tâches basées sur du texte, avec seulement 45 % sur les problèmes visuels. L'évaluation des solutions s'avère difficile pour les LLM, le meilleur juge LLM ayant un score F1 de 80 % sur mu-MATH.
La génération de données synthétiques avec de grands modèles de langage est un paradigme prometteur pour augmenter les données naturelles sur une gamme presque infinie de tâches. Compte tenu de cette diversité, les comparaisons directes entre les algorithmes de génération de données synthétiques sont rares, ce qui rend difficile la compréhension des améliorations apportées et des goulots d'étranglement existants. Nous proposons d'évaluer les algorithmes en fonction de la composition des données synthétiques générées par chaque algorithme en termes de qualité des données, de diversité et de complexité. Nous choisissons ces trois caractéristiques pour leur importance dans les processus ouverts et l'impact de chacune sur les capacités des modèles en aval. Nous considérons que la qualité est essentielle pour la généralisation du modèle en distribution, la diversité est essentielle pour la généralisation hors distribution, et la complexité est bénéfique pour les deux. De plus, nous mettons en avant l'existence de compromis entre qualité et diversité dans les données d'entraînement et les effets en aval sur les performances des modèles. Nous examinons ensuite l'effet des différents composants du pipeline de données synthétiques sur chaque caractéristique des données. Cette analyse nous permet de taxonomiser et de comparer les algorithmes de génération de données synthétiques en fonction des composants qu'ils utilisent et des effets résultants sur la composition des données QDC. Cette analyse se prolonge dans une discussion sur l'importance d'équilibrer la qualité, la diversité et la complexité des données synthétiques pour des algorithmes d'apprentissage par renforcement efficaces et d'auto-amélioration. Analogues aux compromis QD dans les données d'entraînement, il existe souvent des compromis entre la qualité de la sortie du modèle et la diversité de la sortie qui impactent la composition des données synthétiques. Nous observons que de nombreux modèles sont actuellement évalués et optimisés uniquement pour la qualité de la sortie, limitant ainsi la diversité de la sortie et le potentiel d'auto-amélioration. Nous soutenons que l'équilibre de ces compromis est essentiel pour le développement de futurs algorithmes d'auto-amélioration et mettons en lumière un certain nombre de travaux progressant dans cette direction.
Les caractéristiques internes des modèles de diffusion pré-entraînés à grande échelle ont récemment été établies comme des descripteurs sémantiques puissants pour une large gamme de tâches aval. Les travaux utilisant ces caractéristiques doivent généralement ajouter du bruit aux images avant de les passer à travers le modèle pour obtenir les caractéristiques sémantiques, car les modèles n'offrent pas les caractéristiques les plus utiles lorsque les images sont peu ou pas bruitées. Nous montrons que ce bruit a un impact critique sur l'utilité de ces caractéristiques qui ne peut être corrigé en utilisant des ensembles avec différents bruits aléatoires. Nous abordons ce problème en introduisant une méthode légère de fine-tuning non supervisée qui permet aux backbones de diffusion de fournir des caractéristiques sémantiques de haute qualité et sans bruit. Nous montrons que ces caractéristiques surpassent largement les caractéristiques de diffusion précédentes dans une grande variété de configurations d'extraction et de tâches aval, offrant de meilleures performances même par rapport aux méthodes basées sur des ensembles à une fraction du coût.
En fusionnant des LLM open-source hétérogènes avec des architectures et des tailles variables, il est possible d'intégrer les forces de différents modèles. Cependant, les méthodes de fusion existantes sont confrontées à des défis importants, tels que l'alignement du vocabulaire et la fusion des matrices de distribution. Ces procédures sont non seulement complexes, mais aussi susceptibles d'introduire du bruit et des erreurs. Dans cet article, nous proposons une méthode de fusion implicite, l'Optimisation des Préférences Pondérées des Récompenses (WRPO), qui exploite l'optimisation des préférences entre les LLM sources et le LLM cible pour transférer efficacement leurs capacités. WRPO élimine le besoin d'alignement du vocabulaire et de fusion de matrices et peut être mis à l'échelle de manière efficace pour accueillir divers LLM. Pour résoudre les écarts distributionnels entre les LLM sources et cibles, WRPO introduit une stratégie d'adaptation progressive qui déplace progressivement la dépendance sur les exemples préférés du LLM cible vers les LLM sources. Des expériences approfondies sur les bancs d'essai MT-Bench, AlpacaEval-2 et Arena-Hard montrent que WRPO surpasse systématiquement les méthodes existantes de fusion des connaissances et diverses lignes de base de fine-tuning. Lorsqu'appliqué au modèle cible LLaMA3-8B-Instruct, WRPO atteint un taux de réussite contrôlé par la longueur de 55,9% contre GPT-4-Preview-1106 sur AlpacaEval-2 et un taux de réussite de 46,2% contre GPT-4-0314 sur Arena-Hard. Notre code est disponible sur https://github.com/SLIT-AI/WRPO.
Le texte sert de signal de contrôle clé dans la génération vidéo en raison de sa nature narrative. Pour transformer les descriptions textuelles en clips vidéo, les modèles actuels de diffusion vidéo empruntent des caractéristiques aux encodeurs de texte mais rencontrent des difficultés liées à la compréhension limitée du texte. Le récent succès des grands modèles de langage (LLM) met en avant la puissance des transformateurs à décodeur unique, offrant ainsi trois avantages clairs pour la génération texte-vidéo (T2V) : une compréhension textuelle précise résultant d'une extensibilité supérieure, une imagination au-delà du texte d'entrée permise par la prédiction du jeton suivant, et une flexibilité pour prioriser les intérêts des utilisateurs grâce à l'ajustement des instructions. Néanmoins, l'écart de distribution des caractéristiques émergeant des deux paradigmes de modélisation textuelle différents entrave l'utilisation directe des LLM dans les modèles T2V établis. Ce travail relève ce défi avec Mimir, un cadre d'entraînement de bout en bout doté d'un fusionneur de jetons soigneusement adapté pour harmoniser les sorties des encodeurs de texte et des LLM. Une telle conception permet au modèle T2V de tirer pleinement parti des connaissances préalables vidéo apprises tout en capitalisant sur la capacité liée au texte des LLM. Des résultats quantitatifs et qualitatifs approfondis démontrent l'efficacité de Mimir dans la génération de vidéos de haute qualité avec une excellente compréhension du texte, notamment lors du traitement de courtes légendes et de la gestion des mouvements changeants. Page du projet : https://lucaria-academy.github.io/Mimir/
Les grands modèles multimodaux (LMM) ont réalisé des avancées significatives grâce au perfectionnement de l'accord d'instructions. Cependant, bien que les modèles existants puissent comprendre les images et les vidéos de manière holistique, ils rencontrent encore des difficultés avec la compréhension au niveau de l'instance qui nécessite une compréhension et un alignement plus nuancés. La compréhension au niveau de l'instance est cruciale car elle se concentre sur les éléments spécifiques qui nous intéressent le plus. De manière excitante, les travaux existants montrent que les LMM de pointe présentent de solides capacités de compréhension au niveau de l'instance lorsqu'ils sont fournis avec des indices visuels explicites. Motivés par cela, nous introduisons un pipeline d'annotation automatisé assisté par GPT-4o pour extraire des informations au niveau de l'instance à partir d'images et de vidéos grâce à des indications visuelles explicites pour un guidage au niveau de l'instance. En nous appuyant sur ce pipeline, nous avons proposé Inst-IT, une solution pour améliorer les LMM dans la compréhension au niveau de l'instance via un Accord d'Instructions avec des indications visuelles explicites. Inst-IT se compose d'un banc d'essai pour diagnostiquer la compréhension au niveau de l'instance multimodale, d'un ensemble de données d'accord d'instructions à grande échelle, et d'un paradigme d'entraînement continu d'accord d'instructions pour améliorer efficacement les capacités de compréhension au niveau de l'instance spatiale-temporelle des LMM existants. Les résultats expérimentaux montrent qu'avec le renforcement d'Inst-IT, nos modèles atteignent non seulement des performances exceptionnelles sur le banc d'essai Inst-IT, mais démontrent également des améliorations significatives sur divers bancs d'essai de compréhension d'images et de vidéos génériques. Cela souligne que notre ensemble de données renforce non seulement la compréhension au niveau de l'instance, mais renforce également les capacités globales de compréhension d'images et de vidéos génériques.
Nous présentons LumiNet, une architecture novatrice qui exploite des modèles génératifs et des représentations intrinsèques latentes pour un transfert d'éclairage efficace. Étant donné une image source et une image d'éclairage cible, LumiNet synthétise une version reéclairée de la scène source qui capture l'éclairage de la cible. Notre approche apporte deux contributions clés : une stratégie de curation des données à partir du modèle de reéclairage basé sur StyleGAN pour notre entraînement, et un ControlNet basé sur la diffusion modifié qui traite à la fois les propriétés intrinsèques latentes de l'image source et les propriétés extrinsèques latentes de l'image cible. Nous améliorons en outre le transfert d'éclairage grâce à un adaptateur appris (MLP) qui injecte les propriétés extrinsèques latentes de la cible via une attention croisée et un affinage. Contrairement au ControlNet traditionnel, qui génère des images avec des cartes conditionnelles à partir d'une seule scène, LumiNet traite des représentations latentes de deux images différentes - préservant la géométrie et l'albédo de la source tout en transférant les caractéristiques d'éclairage de la cible. Des expériences démontrent que notre méthode transfère avec succès des phénomènes d'éclairage complexes, y compris les reflets spéculaires et l'illumination indirecte, à travers des scènes avec des agencements spatiaux et des matériaux variés, surpassant les approches existantes sur des scènes intérieures complexes en n'utilisant que des images en entrée.