Articles de recherche en IA sélectionnés quotidiennement avec traductions
Malgré la croissance rapide de la recherche en apprentissage automatique, les implémentations de code correspondantes sont souvent indisponibles, rendant la reproduction des résultats et la construction sur des travaux antérieurs lentes et laborieuses pour les chercheurs. Parallèlement, les modèles de langage de grande taille (LLMs) récents excellent dans la compréhension des documents scientifiques et la génération de code de haute qualité. Inspirés par cela, nous introduisons PaperCoder, un framework multi-agent basé sur des LLMs qui transforme les articles d'apprentissage automatique en dépôts de code fonctionnels. PaperCoder opère en trois étapes : la planification, où il construit une feuille de route de haut niveau, conçoit l'architecture du système avec des diagrammes, identifie les dépendances de fichiers et génère des fichiers de configuration ; l'analyse, qui se concentre sur l'interprétation des détails spécifiques à l'implémentation ; et la génération, où un code modulaire et conscient des dépendances est produit. De plus, chaque phase est instanciée par un ensemble d'agents spécialisés conçus pour collaborer efficacement tout au long du pipeline. Nous évaluons ensuite PaperCoder sur la génération d'implémentations de code à partir d'articles d'apprentissage automatique en nous basant sur des évaluations à la fois basées sur des modèles et humaines, spécifiquement celles des auteurs originaux des articles, avec les dépôts publiés par les auteurs comme vérité de référence lorsqu'ils sont disponibles. Nos résultats démontrent l'efficacité de PaperCoder à créer des implémentations de haute qualité et fidèles. De plus, il montre systématiquement des forces dans le benchmark récemment publié PaperBench, surpassant les bases de référence solides par des marges substantielles.
Ces dernières années, les modèles d'édition d'images ont connu un développement remarquable et rapide. Le récent dévoilement de modèles multimodaux de pointe tels que GPT-4o et Gemini2 Flash a introduit des capacités d'édition d'images très prometteuses. Ces modèles démontrent une aptitude impressionnante à répondre à la grande majorité des besoins d'édition pilotés par les utilisateurs, marquant ainsi une avancée significative dans le domaine de la manipulation d'images. Cependant, il existe encore un écart important entre les algorithmes open-source et ces modèles propriétaires. Ainsi, dans cet article, nous visons à publier un modèle d'édition d'images de pointe, appelé Step1X-Edit, qui peut offrir des performances comparables à celles des modèles propriétaires comme GPT-4o et Gemini2 Flash. Plus précisément, nous adoptons un LLM multimodal pour traiter l'image de référence et les instructions d'édition de l'utilisateur. Un embedding latent est extrait et intégré à un décodeur d'image par diffusion pour obtenir l'image cible. Pour entraîner le modèle, nous avons construit un pipeline de génération de données afin de produire un ensemble de données de haute qualité. Pour l'évaluation, nous avons développé GEdit-Bench, un nouveau benchmark basé sur des instructions utilisateurs du monde réel. Les résultats expérimentaux sur GEdit-Bench montrent que Step1X-Edit surpasse les modèles open-source existants par une marge substantielle et s'approche des performances des modèles propriétaires leaders, contribuant ainsi de manière significative au domaine de l'édition d'images.
La génération d'images à partir de texte pilotée par un sujet (T2I) vise à produire des images qui s'alignent sur une description textuelle donnée, tout en préservant l'identité visuelle d'une image de référence. Malgré son applicabilité étendue en aval — allant de la personnalisation améliorée dans la génération d'images à la représentation cohérente de personnages dans le rendu vidéo — les progrès dans ce domaine sont limités par l'absence d'évaluation automatique fiable. Les méthodes existantes évaluent soit un seul aspect de la tâche (c'est-à-dire l'alignement textuel ou la préservation du sujet), soit ne correspondent pas aux jugements humains, soit reposent sur des évaluations coûteuses basées sur des API. Pour remédier à cela, nous introduisons RefVNLI, une métrique économique qui évalue à la fois l'alignement textuel et la préservation du sujet en une seule prédiction. Entraîné sur un jeu de données à grande échelle dérivé de benchmarks de raisonnement vidéo et de perturbations d'images, RefVNLI surpasse ou égale les baselines existantes sur plusieurs benchmarks et catégories de sujets (par exemple, Animal, Objet), atteignant des gains allant jusqu'à 6,4 points en alignement textuel et 8,5 points en cohérence du sujet. Il excelle également avec des concepts moins connus, s'alignant sur les préférences humaines avec une précision supérieure à 87 %.
Le cadre de pré-entraînement contrastif langage-image (CLIP) est devenu une approche largement utilisée pour l'apprentissage de représentations multimodales, en particulier dans les tâches de recherche et de clustering image-texte. Cependant, son efficacité est limitée par trois contraintes majeures : (1) la troncation des tokens textuels, (2) l'encodage isolé des images et des textes, et (3) une compositionnalité insuffisante due à un comportement de type "sac de mots". Bien que les modèles de langage multimodaux de grande taille (MLLMs) récents aient montré des avancées significatives dans la compréhension généralisée vision-langage, leur potentiel pour apprendre des représentations multimodales transférables reste sous-exploré. Dans ce travail, nous présentons UniME (Universal Multimodal Embedding), un nouveau cadre en deux étapes qui exploite les MLLMs pour apprendre des représentations discriminatives pour diverses tâches en aval. Dans la première étape, nous effectuons une distillation de connaissances discriminatives textuelles à partir d'un modèle enseignant basé sur un LLM puissant pour améliorer la capacité d'encodage du composant langage du MLLM. Dans la deuxième étape, nous introduisons un réglage par instructions renforcé par des négatifs difficiles pour approfondir l'apprentissage de représentations discriminatives. Plus précisément, nous atténuons d'abord la contamination par les faux négatifs, puis échantillonnons plusieurs négatifs difficiles par instance dans chaque lot, forçant le modèle à se concentrer sur les échantillons complexes. Cette approche améliore non seulement la puissance discriminative, mais aussi la capacité à suivre les instructions dans les tâches en aval. Nous menons des expériences approfondies sur le benchmark MMEB et plusieurs tâches de recherche, incluant la recherche de légendes courtes et longues ainsi que la recherche compositionnelle. Les résultats montrent qu'UniME obtient une amélioration constante des performances sur toutes les tâches, démontrant des capacités discriminatives et compositionnelles supérieures.
Nous présentons un cadre pour le raisonnement prenant en compte la perspective dans les modèles vision-langage (VLMs) à travers la simulation d'imagerie mentale. La prise de perspective, c'est-à-dire la capacité à percevoir un environnement ou une situation depuis un point de vue alternatif, constitue un critère essentiel pour une compréhension visuelle de niveau humain, cruciale pour l'interaction avec l'environnement et la collaboration avec des agents autonomes. Malgré les avancées dans le raisonnement spatial au sein des VLMs, des recherches récentes ont montré que les VLMs modernes manquent significativement de capacités de raisonnement prenant en compte la perspective et présentent un biais marqué en faveur d'interprétations égocentriques. Pour combler l'écart entre les VLMs et la perception humaine, nous nous concentrons sur le rôle de l'imagerie mentale, où les humains perçoivent le monde à travers des représentations abstraites qui facilitent les changements de perspective. Motivés par cela, nous proposons un cadre pour le raisonnement prenant en compte la perspective, nommé Changement de Perspective Abstraite (APC), qui exploite efficacement des modèles de base en vision, tels que la détection d'objets, la segmentation et l'estimation d'orientation, pour construire des abstractions de scène et permettre des transformations de perspective. Nos expériences sur des benchmarks d'images synthétiques et réelles, comparées à divers VLMs, démontrent des améliorations significatives dans le raisonnement prenant en compte la perspective avec notre cadre, surpassant en outre les modèles de raisonnement spatial affinés et les approches basées sur la synthèse de nouvelles vues.
Avec l'avènement de jeux de données 3D à grande échelle, les modèles génératifs 3D à propagation avant, tels que le Large Reconstruction Model (LRM), ont suscité un intérêt considérable et obtenu des succès remarquables. Cependant, nous observons que les images RVB entraînent souvent des objectifs d'apprentissage conflictuels et manquent de la clarté nécessaire pour la reconstruction géométrique. Dans cet article, nous revisitons les biais inductifs associés à la reconstruction de maillages et introduisons DiMeR, un nouveau modèle à propagation avant à double flux désentrelacé pour la reconstruction de maillages à partir de vues éparses. L'idée clé est de désentrelacer à la fois l'entrée et le cadre en parties géométrie et texture, réduisant ainsi la difficulté d'apprentissage pour chaque partie selon le principe du rasoir d'Occam. Étant donné que les cartes normales sont strictement cohérentes avec la géométrie et capturent avec précision les variations de surface, nous utilisons les cartes normales comme entrée exclusive pour la branche géométrie afin de réduire la complexité entre l'entrée et la sortie du réseau. De plus, nous améliorons l'algorithme d'extraction de maillage pour introduire une supervision de vérité terrain 3D. Quant à la branche texture, nous utilisons les images RVB comme entrée pour obtenir le maillage texturé. Globalement, DiMeR démontre des capacités robustes dans diverses tâches, y compris la reconstruction à partir de vues éparses, la génération 3D à partir d'une seule image et la génération 3D à partir de texte. De nombreuses expériences montrent que DiMeR surpasse significativement les méthodes précédentes, avec une amélioration de plus de 30 % de la distance de Chamfer sur les jeux de données GSO et OmniObject3D.
Les modèles autorégressifs (AR), longtemps dominants dans la génération de langage, sont de plus en plus appliqués à la synthèse d'images mais sont souvent considérés comme moins compétitifs que les modèles basés sur la diffusion. Une limitation majeure réside dans le nombre substantiel de tokens d'image requis par les modèles AR, ce qui contraint à la fois l'efficacité de l'entraînement et de l'inférence, ainsi que la résolution des images. Pour remédier à cela, nous présentons Token-Shuffle, une méthode novatrice mais simple qui réduit le nombre de tokens d'image dans les Transformers. Notre idée clé repose sur la redondance dimensionnelle des vocabulaires visuels dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs), où les codes visuels de faible dimension issus de l'encodeur visuel sont directement mappés sur des vocabulaires linguistiques de haute dimension. En exploitant cela, nous considérons deux opérations clés : le token-shuffle, qui fusionne les tokens locaux spatialement le long de la dimension des canaux pour diminuer le nombre de tokens en entrée, et le token-unshuffle, qui démêle les tokens inférés après les blocs Transformer pour restaurer l'arrangement spatial en sortie. Entraîné conjointement avec des prompts textuels, notre stratégie ne nécessite aucun encodeur de texte pré-entraîné supplémentaire et permet aux MLLMs de supporter la synthèse d'images à très haute résolution de manière unifiée via la prédiction de tokens suivants, tout en maintenant un entraînement et une inférence efficaces. Pour la première fois, nous repoussons les limites de la génération d'images à partir de texte par AR à une résolution de 2048x2048 avec des performances de génération satisfaisantes. Dans le benchmark GenAI, notre modèle de 2,7 milliards de paramètres atteint un score global de 0,77 sur les prompts difficiles, surpassant les modèles AR LlamaGen de 0,18 et les modèles de diffusion LDM de 0,15. Des évaluations humaines exhaustives à grande échelle démontrent également notre capacité prééminente en génération d'images en termes d'alignement textuel, de défauts visuels et d'apparence visuelle. Nous espérons que Token-Shuffle pourra servir de conception de base pour une génération d'images haute résolution efficace au sein des MLLMs.
La qualité et la diversité sont deux métriques cruciales pour les données d'entraînement des grands modèles de langage (LLM), ayant un impact positif sur leurs performances. Les études existantes optimisent souvent ces métriques séparément, généralement en appliquant d'abord un filtrage de qualité puis en ajustant les proportions des données. Cependant, ces approches négligent le compromis inhérent entre qualité et diversité, nécessitant leur prise en compte conjointe. Étant donné un quota d'entraînement fixe, il est essentiel d'évaluer à la fois la qualité de chaque point de données et son effet complémentaire sur l'ensemble du jeu de données. Dans cet article, nous introduisons un cadre unifié de sélection de données appelé QuaDMix, qui optimise automatiquement la distribution des données pour le pré-entraînement des LLM tout en équilibrant qualité et diversité. Plus précisément, nous proposons d'abord plusieurs critères pour mesurer la qualité des données et utilisons une classification par domaine pour distinguer les points de données, mesurant ainsi la diversité globale. QuaDMix emploie ensuite une fonction de paramétrage unifiée qui détermine la probabilité d'échantillonnage de chaque point de données en fonction de ces étiquettes liées à la qualité et à la diversité. Pour accélérer la recherche des paramètres optimaux impliqués dans le cadre QuaDMix, nous menons des expériences simulées sur des modèles plus petits et utilisons LightGBM pour la recherche de paramètres, inspirés par la méthode RegMix. Nos expériences sur divers modèles et jeux de données démontrent que QuaDMix améliore en moyenne les performances de 7,2 % sur plusieurs benchmarks. Ces résultats surpassent les stratégies indépendantes pour la qualité et la diversité, soulignant la nécessité et la capacité à équilibrer qualité et diversité des données.
L'essayage vidéo remplace les vêtements dans les vidéos par des tenues cibles. Les méthodes existantes peinent à générer des résultats de haute qualité et temporellement cohérents face à des motifs vestimentaires complexes et des poses corporelles variées. Nous présentons 3DV-TON, un nouveau cadre basé sur la diffusion pour générer des résultats d'essayage vidéo haute fidélité et temporellement cohérents. Notre approche utilise des maillages 3D texturés et animables générés comme guide explicite au niveau des images, atténuant ainsi le problème des modèles qui se concentrent excessivement sur la fidélité visuelle au détriment de la cohérence du mouvement. Ceci est réalisé en permettant une référence directe aux mouvements cohérents des textures vestimentaires tout au long des séquences vidéo. La méthode proposée intègre un pipeline adaptatif pour générer un guide 3D dynamique : (1) sélection d'une image clé pour un essayage initial en 2D, suivi de (2) la reconstruction et l'animation d'un maillage 3D texturé synchronisé avec les poses originales de la vidéo. Nous introduisons également une stratégie robuste de masquage rectangulaire qui atténue efficacement la propagation d'artefacts causée par la fuite d'informations vestimentaires lors des mouvements dynamiques du corps et des vêtements. Pour faire progresser la recherche en essayage vidéo, nous présentons HR-VVT, un jeu de données de référence haute résolution contenant 130 vidéos avec divers types de vêtements et scénarios. Les résultats quantitatifs et qualitatifs démontrent notre performance supérieure par rapport aux méthodes existantes. La page du projet est accessible à ce lien : https://2y7c3.github.io/3DV-TON/
Les vérificateurs étape par étape -- également connus sous le nom de modèles de récompense de processus (PRMs) -- constituent un élément clé pour le passage à l'échelle lors des tests. Les PRMs nécessitent une supervision au niveau des étapes, ce qui les rend coûteux à entraîner. Ce travail vise à construire des PRMs efficaces en termes de données sous forme de modèles de récompense verbaux étape par étape qui vérifient chaque étape de la solution en générant une chaîne de pensée (CoT) de vérification. Nous proposons ThinkPRM, un vérificateur à longue CoT affiné avec un nombre d'étiquettes de processus considérablement inférieur à celui requis par les PRMs discriminatifs. Notre approche tire parti des capacités de raisonnement inhérentes aux modèles à longue CoT, et surpasse les méthodes LLM-as-a-Judge et les vérificateurs discriminatifs -- en utilisant seulement 1% des étiquettes de processus de PRM800K -- sur plusieurs benchmarks exigeants. Plus précisément, ThinkPRM dépasse les baselines sur ProcessBench, MATH-500 et AIME '24 dans le cadre d'une sélection best-of-N et d'une recherche guidée par la récompense. Dans une évaluation hors domaine sur un sous-ensemble de GPQA-Diamond et LiveCodeBench, notre PRM surpasse les vérificateurs discriminatifs entraînés sur l'intégralité de PRM800K de 8% et 4,5%, respectivement. Enfin, avec le même budget de tokens, ThinkPRM optimise plus efficacement le calcul de vérification par rapport à LLM-as-a-Judge, le surpassant de 7,2% sur un sous-ensemble de ProcessBench. Notre travail met en valeur l'intérêt des PRMs génératifs à longue CoT, capables de passer à l'échelle le calcul de vérification lors des tests tout en nécessitant une supervision minimale pour l'entraînement. Notre code, données et modèles seront publiés sur https://github.com/mukhal/thinkprm.
Les modèles de diffusion latente (LDMs) dominent la génération d'images de haute qualité, mais l'intégration de l'apprentissage de représentations avec la modélisation générative reste un défi. Nous introduisons un nouveau cadre de modélisation générative d'images qui comble de manière fluide cet écart en exploitant un modèle de diffusion pour modéliser conjointement les latents de bas niveau (provenant d'un autoencodeur variationnel) et les caractéristiques sémantiques de haut niveau (issues d'un encodeur auto-supervisé pré-entraîné comme DINO). Notre approche de diffusion latente-sémantique apprend à générer des paires image-caractéristiques cohérentes à partir de bruit pur, améliorant significativement à la fois la qualité générative et l'efficacité de l'entraînement, tout en nécessitant seulement des modifications minimales aux architectures standard des Transformers de Diffusion. En éliminant le besoin d'objectifs de distillation complexes, notre conception unifiée simplifie l'entraînement et débloque une nouvelle stratégie d'inférence puissante : le Guidage par Représentation, qui exploite les sémantiques apprises pour orienter et affiner la génération d'images. Évaluée dans des contextes conditionnels et non conditionnels, notre méthode apporte des améliorations substantielles en termes de qualité d'image et de vitesse de convergence de l'entraînement, établissant une nouvelle direction pour la modélisation générative consciente des représentations.
Nous présentons DyMU, un cadre efficace et sans apprentissage qui réduit dynamiquement la charge computationnelle des modèles vision-langage (VLMs) tout en maintenant des performances élevées sur les tâches. Notre approche comprend deux composants clés. Premièrement, le Dynamic Token Merging (DToMe) réduit le nombre d'embeddings de tokens visuels en fusionnant les tokens similaires en fonction de la complexité de l'image, abordant ainsi l'inefficacité inhérente des sorties de longueur fixe dans les transformeurs visuels. Deuxièmement, le Virtual Token Unmerging (VTU) simule la séquence de tokens attendue pour les grands modèles de langage (LLMs) en reconstruisant efficacement la dynamique d'attention d'une séquence complète, préservant ainsi les performances en aval sans nécessiter de réglage supplémentaire. Contrairement aux approches précédentes, notre méthode adapte dynamiquement la compression des tokens au contenu de l'image et fonctionne entièrement sans apprentissage, la rendant directement applicable à la plupart des architectures VLM de pointe. Des expériences approfondies sur des tâches de compréhension d'images et de vidéos montrent que DyMU peut réduire le nombre moyen de tokens visuels de 32% à 85% tout en atteignant des performances comparables à celles des modèles utilisant des séquences complètes, y compris les encodeurs visuels basés sur AnyRes récemment popularisés. De plus, à travers des analyses qualitatives, nous démontrons que DToMe adapte efficacement la réduction des tokens en fonction de la complexité de l'image et, contrairement aux systèmes existants, offre aux utilisateurs un meilleur contrôle sur les coûts computationnels. Page du projet : https://mikewangwzhl.github.io/dymu/.
La croissance rapide des plateformes vidéo en ligne, en particulier des services de diffusion en direct, a créé un besoin urgent de systèmes de compréhension vidéo en temps réel. Ces systèmes doivent traiter des flux vidéo continus et répondre instantanément aux requêtes des utilisateurs, posant des défis uniques pour les modèles de langage vidéo à grande échelle (VideoLLMs) actuels. Bien que les VideoLLMs existants excellent dans le traitement de vidéos complètes, ils rencontrent des limitations significatives dans les scénarios de streaming en raison de leur incapacité à gérer efficacement les images denses et redondantes. Nous présentons TimeChat-Online, un nouveau VideoLLM en ligne qui révolutionne l'interaction vidéo en temps réel. Au cœur de ce modèle se trouve notre module innovant de suppression différentielle de tokens (DTD), qui aborde le défi fondamental de la redondance visuelle dans les vidéos en streaming. S'inspirant du phénomène de cécité au changement dans la perception visuelle humaine, le DTD préserve les changements temporels significatifs tout en filtrant le contenu statique et redondant entre les images. De manière remarquable, nos expériences montrent que le DTD réduit de 82,8 % les tokens vidéo tout en maintenant 98 % des performances sur StreamingBench, révélant que plus de 80 % du contenu visuel dans les vidéos en streaming est naturellement redondant sans nécessiter de guidage linguistique. Pour permettre une interaction en temps réel fluide, nous présentons TimeChat-Online-139K, un ensemble de données complet de vidéos en streaming comportant divers modèles d'interaction, y compris des scénarios de rétro-tracé, de perception actuelle et de réponse future. La capacité unique de Réponse Proactive de TimeChat-Online, naturellement obtenue grâce à la surveillance continue des transitions de scènes vidéo via le DTD, le distingue des approches conventionnelles. Notre évaluation approfondie démontre la performance supérieure de TimeChat-Online sur les benchmarks de streaming (StreamingBench et OvOBench) tout en maintenant des résultats compétitifs sur les tâches de vidéo longue durée telles que Video-MME et MLVU.
Les modèles de langage de grande taille (LLMs) restent difficiles à évaluer de manière exhaustive, en particulier pour les langues autres que l'anglais, où les données de haute qualité sont souvent limitées. Les benchmarks et classements existants sont principalement centrés sur l'anglais, avec seulement quelques-uns abordant d'autres langues. Ces benchmarks présentent plusieurs lacunes majeures : ils négligent la diversité des variétés linguistiques, privilégient les capacités fondamentales du traitement automatique du langage naturel (NLP) par rapport aux tâches pertinentes pour l'industrie, et sont statiques. Avec ces aspects à l'esprit, nous présentons IberBench, un benchmark complet et extensible conçu pour évaluer les performances des LLMs sur des tâches NLP fondamentales et pertinentes pour l'industrie, dans les langues parlées à travers la péninsule ibérique et l'Ibéro-Amérique. IberBench intègre 101 jeux de données provenant de campagnes d'évaluation et de benchmarks récents, couvrant 22 catégories de tâches telles que l'analyse de sentiments et d'émotions, la détection de toxicité et la synthèse. Le benchmark aborde les principales limitations des pratiques d'évaluation actuelles, telles que le manque de diversité linguistique et les configurations d'évaluation statiques, en permettant des mises à jour continues et des soumissions de modèles et de jeux de données pilotées par la communauté, modérées par un comité d'experts. Nous évaluons 23 LLMs allant de 100 millions à 14 milliards de paramètres et fournissons des insights empiriques sur leurs forces et leurs limites. Nos résultats indiquent que (i) les LLMs performent moins bien sur les tâches pertinentes pour l'industrie que sur les tâches fondamentales, (ii) les performances sont en moyenne plus faibles pour le galicien et le basque, (iii) certaines tâches montrent des résultats proches du hasard, et (iv) dans d'autres tâches, les LLMs performent au-dessus du hasard mais en dessous des systèmes de tâches partagées. IberBench propose des implémentations open-source pour l'ensemble du pipeline d'évaluation, incluant la normalisation et l'hébergement des jeux de données, l'évaluation incrémentale des LLMs, et un classement accessible au public.
Nous présentons ViSMap : Unsupervised Video Summarisation by Meta Prompting, un système permettant de résumer des vidéos d'une heure sans supervision. La plupart des modèles existants de compréhension vidéo fonctionnent bien sur des vidéos courtes d'événements pré-segmentés, mais ils peinent à résumer des vidéos plus longues où les événements pertinents sont dispersés et non pré-segmentés. De plus, la compréhension des vidéos longues repose souvent sur un entraînement hiérarchique supervisé nécessitant des annotations extensives, coûteuses, lentes et sujettes à des incohérences. Avec ViSMaP, nous comblons le fossé entre les vidéos courtes (où les données annotées sont abondantes) et les vidéos longues (où elles ne le sont pas). Nous utilisons des LLM pour créer des pseudo-résumés optimisés de vidéos longues en utilisant des descriptions de segments provenant de vidéos courtes. Ces pseudo-résumés servent de données d'entraînement pour un modèle générant des résumés de vidéos longues, évitant ainsi le besoin d'annotations coûteuses pour ces dernières. Plus précisément, nous adoptons une stratégie de méta-invite pour générer et affiner itérativement des pseudo-résumés de vidéos longues. Cette stratégie exploite des descriptions de clips courts obtenues à partir d'un modèle supervisé de vidéos courtes pour guider le résumé. Chaque itération utilise trois LLM fonctionnant en séquence : un pour générer le pseudo-résumé à partir des descriptions de clips, un autre pour l'évaluer, et un troisième pour optimiser l'invite du générateur. Cette itération est nécessaire car la qualité des pseudo-résumés dépend fortement de l'invite du générateur et varie considérablement selon les vidéos. Nous évaluons nos résumés de manière approfondie sur plusieurs jeux de données ; nos résultats montrent que ViSMaP atteint des performances comparables aux modèles supervisés de pointe tout en généralisant à travers différents domaines sans sacrifier la performance. Le code sera publié à la sortie de l'article.
La génération d'images basée sur des patchs autorégressifs a récemment démontré des résultats compétitifs en termes de qualité d'image et de scalabilité. Elle peut également être facilement intégrée et mise à l'échelle dans des modèles vision-langage. Cependant, les modèles autorégressifs nécessitent un ordre défini pour la génération des patchs. Alors qu'un ordre naturel basé sur la dictée des mots est logique pour la génération de texte, il n'existe pas d'ordre de génération inhérent pour la génération d'images. Traditionnellement, un ordre de balayage raster (de haut en bas et de gauche à droite) guide les modèles de génération d'images autorégressifs. Dans cet article, nous soutenons que cet ordre est sous-optimal, car il ne respecte pas la causalité du contenu de l'image : par exemple, lorsqu'il est conditionné par une description visuelle d'un coucher de soleil, un modèle autorégressif peut générer les nuages avant le soleil, bien que la couleur des nuages devrait dépendre de la couleur du soleil et non l'inverse. Dans ce travail, nous montrons que, premièrement, en entraînant un modèle à générer des patchs dans un ordre quelconque, nous pouvons inférer à la fois le contenu et l'emplacement (ordre) de chaque patch lors de la génération. Deuxièmement, nous utilisons ces ordres extraits pour affiner le modèle à ordre quelconque afin de produire des images de meilleure qualité. À travers nos expériences, nous démontrons sur deux jeux de données que cette nouvelle méthode de génération produit de meilleures images que l'approche traditionnelle de balayage raster, avec des coûts d'entraînement similaires et sans annotations supplémentaires.
L'annotation des poses de caméra dans les vidéos dynamiques sur Internet à grande échelle est cruciale pour faire progresser des domaines tels que la génération de vidéos réalistes et la simulation. Cependant, la collecte d'un tel ensemble de données est difficile, car la plupart des vidéos sur Internet ne sont pas adaptées à l'estimation de pose. De plus, l'annotation de vidéos dynamiques sur Internet présente des défis importants, même pour les méthodes les plus avancées. Dans cet article, nous présentons DynPose-100K, un ensemble de données à grande échelle de vidéos dynamiques sur Internet annotées avec des poses de caméra. Notre pipeline de collecte aborde le filtrage en utilisant un ensemble soigneusement combiné de modèles spécifiques à la tâche et généralistes. Pour l'estimation de pose, nous combinons les dernières techniques de suivi de points, de masquage dynamique et de structure à partir du mouvement pour obtenir des améliorations par rapport aux approches les plus récentes. Notre analyse et nos expériences démontrent que DynPose-100K est à la fois à grande échelle et diversifié selon plusieurs attributs clés, ouvrant des perspectives pour des avancées dans diverses applications en aval.
Les techniques de réduction de dimensionnalité sont fondamentales pour l'analyse et la visualisation de données en haute dimension. Les méthodes établies comme t-SNE et PCA présentent un compromis entre puissance de représentation et interprétabilité. Cet article introduit une nouvelle approche qui comble cet écart en combinant l'interprétabilité des méthodes linéaires avec l'expressivité des transformations non linéaires. L'algorithme proposé construit une cartographie non linéaire entre les espaces de haute et de basse dimension à travers une combinaison de transformations linéaires, chacune pondérée par des fonctions gaussiennes. Cette architecture permet des transformations non linéaires complexes tout en préservant les avantages d'interprétabilité des méthodes linéaires, car chaque transformation peut être analysée indépendamment. Le modèle résultant offre à la fois une réduction de dimensionnalité puissante et des insights transparents sur l'espace transformé. Des techniques pour interpréter les transformations apprises sont présentées, incluant des méthodes pour identifier les dimensions supprimées et comment l'espace est dilaté et contracté. Ces outils permettent aux praticiens de comprendre comment l'algorithme préserve et modifie les relations géométriques lors de la réduction de dimensionnalité. Pour assurer l'utilité pratique de cet algorithme, la création de logiciels conviviaux est mise en avant, facilitant son adoption dans le milieu académique et industriel.