Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que les modèles de langage multimodaux à grande échelle (MLLMs) démontrent des capacités remarquables sur des images statiques, ils peinent souvent à comprendre des vidéos courtes dynamiques et riches en informations, un média dominant dans le paysage numérique actuel. Pour combler cette lacune, nous présentons Kwai Keye-VL, un modèle de fondation multimodal de 8 milliards de paramètres conçu pour offrir des performances de pointe dans la compréhension des vidéos courtes tout en conservant des capacités solides en vision et langage à usage général. Le développement de Keye-VL repose sur deux piliers fondamentaux : un ensemble de données massif et de haute qualité dépassant 600 milliards de tokens, avec un accent particulier sur la vidéo, et une méthode d'entraînement innovante. Cette méthode comprend un processus de pré-entraînement en quatre étapes pour un alignement solide entre la vision et le langage, suivi d'un processus de post-entraînement méticuleux en deux phases. La première phase de post-entraînement améliore les capacités fondamentales telles que le suivi des instructions, tandis que la deuxième phase se concentre sur la stimulation du raisonnement avancé. Dans cette deuxième phase, une innovation clé est notre mélange de données de « démarrage à froid » en cinq modes, incluant « pensée », « non-pensée », « auto-pensée », « pensée avec image » et des données vidéo de haute qualité. Ce mélange enseigne au modèle à décider quand et comment raisonner. Les étapes ultérieures d'apprentissage par renforcement (RL) et d'alignement renforcent davantage ces capacités de raisonnement et corrigent les comportements anormaux du modèle, tels que les sorties répétitives. Pour valider notre approche, nous menons des évaluations approfondies, montrant que Keye-VL atteint des résultats de pointe sur les benchmarks vidéo publics et reste très compétitif sur les tâches générales basées sur des images (Figure 1). De plus, nous développons et publions le KC-MMBench, un nouveau benchmark conçu pour les scénarios réels de vidéos courtes, où Keye-VL montre un avantage significatif.
La colorisation d'animation est un élément crucial de la production dans l'industrie de l'animation réelle. La colorisation d'animations longues entraîne des coûts de main-d'œuvre élevés. Par conséquent, la colorisation automatisée d'animations longues basée sur un modèle de génération vidéo présente une valeur de recherche significative. Les études existantes se limitent à la colorisation à court terme. Ces études adoptent un paradigme local, fusionnant des caractéristiques qui se chevauchent pour obtenir des transitions fluides entre les segments locaux. Cependant, le paradigme local néglige les informations globales, ne parvenant pas à maintenir une cohérence de couleur à long terme. Dans cette étude, nous soutenons qu'une cohérence de couleur idéale à long terme peut être atteinte grâce à un paradigme dynamique global-local, c'est-à-dire en extrayant dynamiquement des caractéristiques globales cohérentes en couleur pertinentes pour la génération actuelle. Plus précisément, nous proposons LongAnimation, un nouveau cadre qui comprend principalement un SketchDiT, une Mémoire Dynamique Globale-Locale (DGLM) et une Récompense de Cohérence de Couleur. Le SketchDiT capture des caractéristiques de référence hybrides pour soutenir le module DGLM. Le module DGLM utilise un modèle de compréhension de vidéos longues pour compresser dynamiquement les caractéristiques historiques globales et les fusionner de manière adaptative avec les caractéristiques de la génération actuelle. Pour affiner la cohérence de couleur, nous introduisons une Récompense de Cohérence de Couleur. Pendant l'inférence, nous proposons une fusion de cohérence de couleur pour lisser la transition entre les segments vidéo. Des expériences approfondies sur des animations à court terme (14 images) et à long terme (en moyenne 500 images) montrent l'efficacité de LongAnimation à maintenir une cohérence de couleur à court et à long terme pour la tâche de colorisation d'animation en domaine ouvert. Le code est disponible à l'adresse https://cn-makers.github.io/long_animation_web/.
Nous présentons Depth Anything at Any Condition (DepthAnything-AC), un modèle fondamental d'estimation de profondeur monoculaire (MDE) capable de gérer diverses conditions environnementales. Les modèles MDE fondamentaux précédents obtiennent des performances impressionnantes dans des scènes générales, mais ne parviennent pas à bien fonctionner dans des environnements ouverts complexes impliquant des conditions difficiles, telles que des variations d'éclairage, des intempéries et des distorsions induites par les capteurs. Pour surmonter les défis liés à la rareté des données et à l'incapacité de générer des pseudo-étiquettes de haute qualité à partir d'images corrompues, nous proposons un paradigme de réglage fin de régularisation de cohérence non supervisé qui ne nécessite qu'une quantité relativement faible de données non étiquetées. De plus, nous proposons la Contrainte de Distance Spatiale pour contraindre explicitement le modèle à apprendre les relations relatives au niveau des patchs, ce qui permet d'obtenir des limites sémantiques plus nettes et des détails plus précis. Les résultats expérimentaux démontrent les capacités de généralisation sans apprentissage préalable (zero-shot) de DepthAnything-AC sur divers benchmarks, y compris des benchmarks d'intempéries réelles, des benchmarks de corruption synthétique et des benchmarks généraux. Page du projet : https://ghost233lism.github.io/depthanything-AC-page Code : https://github.com/HVision-NKU/DepthAnythingAC
Les avancées remarquables des modèles de base en vision et langage dans la compréhension, le raisonnement et la génération multimodales ont suscité des efforts croissants pour étendre cette intelligence au monde physique, stimulant ainsi l'essor des modèles vision-langage-action (VLA). Malgré des approches apparemment diverses, nous observons que les modèles VLA actuels peuvent être unifiés sous un cadre unique : les entrées visuelles et linguistiques sont traitées par une série de modules VLA, produisant une chaîne de tokens d'action qui encodent progressivement des informations plus concrètes et exploitables, générant finalement des actions exécutables. Nous déterminons en outre que le choix de conception principal distinguant les modèles VLA réside dans la manière dont les tokens d'action sont formulés, qui peuvent être catégorisés en description linguistique, code, affordance, trajectoire, état objectif, représentation latente, action brute et raisonnement. Cependant, il manque une compréhension exhaustive des tokens d'action, ce qui entrave considérablement le développement efficace des VLA et obscurcit les orientations futures. Par conséquent, cette étude vise à catégoriser et interpréter les recherches existantes sur les VLA à travers le prisme de la tokenisation d'action, à distiller les forces et les limites de chaque type de token, et à identifier les domaines à améliorer. Grâce à cette revue systématique et à cette analyse, nous offrons une perspective synthétique sur l'évolution plus large des modèles VLA, mettons en lumière des directions sous-explorées mais prometteuses, et contribuons à des orientations pour les recherches futures, espérant ainsi rapprocher le domaine de l'intelligence à usage général.
Nous présentons FreeMorph, la première méthode de morphing d’images sans réglage qui s’adapte à des entrées ayant des sémantiques ou des dispositions différentes. Contrairement aux méthodes existantes qui reposent sur le réglage fin de modèles de diffusion pré-entraînés et sont limitées par des contraintes temporelles et des divergences sémantiques ou de disposition, FreeMorph offre un morphing d’images de haute fidélité sans nécessiter d’entraînement par instance. Malgré leur efficacité et leur potentiel, les méthodes sans réglage rencontrent des difficultés à maintenir des résultats de haute qualité en raison de la nature non linéaire du processus de débruitage multi-étapes et des biais hérités du modèle de diffusion pré-entraîné. Dans cet article, nous introduisons FreeMorph pour relever ces défis en intégrant deux innovations clés. 1) Nous proposons d’abord une conception d’interpolation sphérique guidée qui intègre des indications explicites des images d’entrée en modifiant les modules d’auto-attention, permettant ainsi de résoudre la perte d’identité et d’assurer des transitions directionnelles tout au long de la séquence générée. 2) Nous introduisons ensuite une tendance de variation orientée par étapes qui mélange les modules d’auto-attention dérivés de chaque image d’entrée pour obtenir des transitions contrôlées et cohérentes respectant les deux entrées. Nos évaluations approfondies démontrent que FreeMorph surpasse les méthodes existantes, étant 10x à 50x plus rapide et établissant un nouvel état de l’art pour le morphing d’images.
Nous présentons le décodage parallèle sensible à la localité (Locality-aware Parallel Decoding, LPD) pour accélérer la génération d’images autorégressive. La génération d’images autorégressive traditionnelle repose sur la prédiction de patchs suivants, un processus limité par la mémoire qui entraîne une latence élevée. Les travaux existants ont tenté de paralléliser la prédiction de patchs suivants en passant à une prédiction multi-patchs pour accélérer le processus, mais n’ont obtenu qu’une parallélisation limitée. Pour atteindre une parallélisation élevée tout en maintenant la qualité de génération, nous introduisons deux techniques clés : (1) la modélisation autorégressive parallélisée flexible, une architecture novatrice qui permet un ordre de génération arbitraire et des degrés de parallélisation variables. Elle utilise des tokens de requête de position apprenables pour guider la génération aux positions cibles tout en assurant une visibilité mutuelle entre les tokens générés simultanément pour un décodage parallèle cohérent. (2) L’ordonnancement de génération sensible à la localité, un planificateur innovant qui forme des groupes pour minimiser les dépendances intra-groupes et maximiser le support contextuel, améliorant ainsi la qualité de génération. Grâce à ces conceptions, nous réduisons les étapes de génération de 256 à 20 (résolution 256×256) et de 1024 à 48 (résolution 512×512) sans compromettre la qualité sur la génération conditionnelle par classe d’ImageNet, tout en obtenant une latence au moins 3,4 fois inférieure à celle des modèles autorégressifs parallélisés précédents.
Le lien intrinsèque entre le mouvement facial et la parole est souvent négligé dans la modélisation générative, où la synthèse de têtes parlantes et la conversion de texte en parole (TTS) sont généralement traitées comme des tâches distinctes. Cet article présente JAM-Flow, un cadre unifié pour synthétiser et conditionner simultanément le mouvement facial et la parole. Notre approche exploite le *flow matching* et une nouvelle architecture de *Multi-Modal Diffusion Transformer* (MM-DiT), intégrant des modules spécialisés Motion-DiT et Audio-DiT. Ces modules sont couplés via des couches d'attention conjointe sélective et intègrent des choix architecturaux clés, tels que des embeddings positionnels temporellement alignés et un masquage localisé de l'attention conjointe, pour permettre une interaction intermodale efficace tout en préservant les forces spécifiques à chaque modalité. Entraîné avec un objectif de style *inpainting*, JAM-Flow prend en charge une large gamme d'entrées de conditionnement, y compris le texte, l'audio de référence et le mouvement de référence, facilitant des tâches telles que la génération synchronisée de têtes parlantes à partir de texte, l'animation pilotée par l'audio, et bien plus encore, le tout au sein d'un modèle unique et cohérent. JAM-Flow représente une avancée significative dans la modélisation générative multimodale en offrant une solution pratique pour la synthèse audio-visuelle holistique. Page du projet : https://joonghyuk.com/jamflow-web
Les méthodes précédentes d'édition vidéo guidée par texte souffrent souvent d'incohérence temporelle, de distorsion du mouvement et, surtout, de transformations de domaine limitées. Nous attribuons ces limitations à une modélisation insuffisante de la pertinence spatiotemporelle des pixels pendant le processus d'édition. Pour y remédier, nous proposons STR-Match, un algorithme d'édition vidéo sans apprentissage qui produit des vidéos visuellement attrayantes et cohérentes spatiotemporellement grâce à une optimisation latente guidée par notre nouveau score STR. Ce score capture la pertinence spatiotemporelle des pixels entre les images adjacentes en exploitant des modules d'attention spatiale 2D et temporelle 1D dans les modèles de diffusion texte-vidéo (T2V), sans recourir à des mécanismes d'attention 3D coûteux en calcul. Intégré dans un cadre d'optimisation latente avec un masque latent, STR-Match génère des vidéos temporellement cohérentes et visuellement fidèles, tout en maintenant des performances solides même sous des transformations de domaine significatives et en préservant les attributs visuels clés de la source. Des expériences approfondies démontrent que STR-Match surpasse systématiquement les méthodes existantes en termes de qualité visuelle et de cohérence spatiotemporelle.
Les applications scientifiques de l'apprentissage automatique reposent souvent sur des modèles petits et spécialisés, ajustés à des domaines particuliers. Ces modèles atteignent fréquemment des performances excellentes, mais manquent de flexibilité. Les modèles de base offrent une grande polyvalence, mais sont généralement moins performants que les approches spécialisées, en particulier sur des modalités non traditionnelles et des domaines à longue traîne. Nous proposons MARVIS (Modality Adaptive Reasoning over VISualizations), une méthode sans entraînement qui permet même à de petits modèles vision-langage de prédire avec précision n'importe quelle modalité de données. MARVIS transforme les espaces d'incorporation latents en représentations visuelles, puis exploite les compétences de raisonnement spatial et granulaire des modèles vision-langage pour les interpréter et les utiliser avec succès. MARVIS obtient des performances compétitives dans les domaines de la vision, de l'audio, de la biologie et des données tabulaires en utilisant un seul modèle de 3 milliards de paramètres, surpassant Gemini de 16 % en moyenne et approchant les méthodes spécialisées, sans exposer d'informations personnellement identifiables (P.I.I.) ni nécessiter d'entraînement spécifique au domaine. Nous mettons à disposition notre code et nos jeux de données à l'adresse suivante : https://github.com/penfever/marvis.