papers.description
Ce rapport présente Kandinsky 5.0, une famille de modèles de fondation de pointe pour la synthèse d'images haute résolution et de vidéos de 10 secondes. Le cadre comprend trois modèles principaux : Kandinsky 5.0 Image Lite - une série de modèles de génération d'images de 6 milliards de paramètres, Kandinsky 5.0 Video Lite - des modèles rapides et légers de 2 milliards de paramètres pour la conversion de texte en vidéo et d'image en vidéo, et Kandinsky 5.0 Video Pro - des modèles de 19 milliards de paramètres qui atteignent une qualité supérieure de génération vidéo. Nous fournissons un examen complet du cycle de vie de la curation des données - incluant la collecte, le traitement, le filtrage et le clustering - pour le pipeline d'entraînement en plusieurs étapes qui implique un pré-entraînement extensif et intègre des techniques d'amélioration de la qualité telles que le fine-tuning auto-supervisé (SFT) et le post-entraînement basé sur l'apprentissage par renforcement (RL). Nous présentons également de nouvelles optimisations architecturales, d'entraînement et d'inférence qui permettent à Kandinsky 5.0 d'atteindre des vitesses de génération élevées et des performances de pointe dans diverses tâches, comme le démontre l'évaluation humaine. En tant que cadre génératif à grande échelle et accessible au public, Kandinsky 5.0 exploite pleinement le potentiel de son pré-entraînement et des étapes suivantes pour être adapté à une large gamme d'applications génératives. Nous espérons que ce rapport, ainsi que la publication de notre code open-source et des points de contrôle d'entraînement, contribueront de manière significative au développement et à l'accessibilité de modèles génératifs de haute qualité pour la communauté de recherche.
Les modèles vidéo ont obtenu un succès remarquable dans la génération de vidéos haute fidélité avec une cohérence dynamique du mouvement. Par analogie avec l'évolution de la génération de texte vers le raisonnement basé sur le texte en modélisation linguistique, le développement des modèles vidéo nous amène à nous demander : Les modèles vidéo peuvent-ils raisonner via la génération vidéo ? Comparé au corpus textuel discret, la vidéo ancre le raisonnement dans des dispositions spatiales explicites et une continuité temporelle, ce qui en fait un substrat idéal pour le raisonnement spatial. Dans ce travail, nous explorons le paradigme du raisonnement par vidéo et présentons VR-Bench - un benchmark complet conçu pour évaluer systématiquement les capacités de raisonnement des modèles vidéo. Fondé sur des tâches de résolution de labyrinthes qui exigent intrinsèquement une planification spatiale et un raisonnement multi-étapes, VR-Bench contient 7 920 vidéos générées de manière procédurale couvrant cinq types de labyrinthes et divers styles visuels. Notre analyse empirique démontre que le Fine-Tuning Supervisé (SFT) peut efficacement susciter la capacité de raisonnement des modèles vidéo. Les modèles vidéo présentent une perception spatiale plus forte pendant le raisonnement, surpassant les modèles vision-langue leaders et généralisant bien à travers divers scénarios, tâches et niveaux de complexité. Nous découvrons en outre un effet d'échelle au moment du test, où un échantillonnage diversifié pendant l'inférence améliore la fiabilité du raisonnement de 10 à 20 %. Ces résultats soulignent le potentiel unique et l'évolutivité du raisonnement par vidéo pour les tâches de raisonnement spatial.
Les agents de recherche en IA offrent la promesse d'accélérer le progrès scientifique en automatisant la conception, l'implémentation et l'entraînement des modèles d'apprentissage automatique. Cependant, le domaine n'en est qu'à ses débuts, et les facteurs clés déterminant le succès ou l'échec des trajectoires des agents ne sont pas entièrement compris. Nous examinons le rôle que joue la diversité d'idéation dans la performance des agents. Premièrement, nous analysons les trajectoires des agents sur MLE-bench, un benchmark reconnu pour évaluer les agents de recherche en IA, à travers différents modèles et échafaudages d'agents. Notre analyse révèle que différents modèles et échafaudages d'agents produisent des degrés variables de diversité d'idéation, et que les agents les plus performants tendent à présenter une diversité d'idéation accrue. De plus, nous menons une expérience contrôlée où nous modifions le degré de diversité d'idéation, démontrant qu'une plus grande diversité d'idéation entraîne une performance supérieure. Enfin, nous consolidons nos résultats en examinant des métriques d'évaluation supplémentaires au-delà du système de notation standard par médailles de MLE-bench, montrant que nos conclusions restent valables sur d'autres métriques de performance des agents.
L'apprentissage par renforcement (RL) fournit un cadre théorique pour améliorer les modèles vision-langage (VLM) sur des tâches de raisonnement complexes. Cependant, les approches RL existantes reposent souvent sur des annotations humaines ou des heuristiques spécifiques aux tâches pour définir des récompenses vérifiables, deux méthodes coûteuses et difficiles à généraliser. Nous présentons VisPlay, un cadre RL auto-évolutif qui permet aux VLM d'améliorer de manière autonome leurs capacités de raisonnement en utilisant de grandes quantités de données image non labellisées. En partant d'un seul VLM de base, VisPlay assigne au modèle deux rôles interactifs : un Questionneur Conditionné par l'Image qui formule des questions visuelles difficiles mais solubles, et un Raisonneur Multimodal qui génère des réponses dites "argentées". Ces rôles sont entraînés conjointement avec l'Optimisation de Politique Relative par Groupe (GRPO), qui intègre des récompenses basées sur la diversité et la difficulté pour équilibrer la complexité des questions générées avec la qualité des réponses argentées. VisPlay s'adapte efficacement à deux familles de modèles. Entraîné sur Qwen2.5-VL et MiMo-VL, VisPlay obtient des améliorations constantes en raisonnement visuel, généralisation compositionnelle et réduction des hallucinations sur huit benchmarks, incluant MM-Vet et MMMU, démontrant une voie évolutive vers une intelligence multimodale auto-optimisée. La page du projet est disponible à l'adresse https://bruno686.github.io/VisPlay/
L'applicabilité des modèles actuels de segmentation des lésions pour les radiographies thoraciques (CXR) a été limitée à la fois par un petit nombre d'étiquettes cibles et par la dépendance à des entrées textuelles longues et détaillées de niveau expert, créant ainsi un obstacle à l'utilisation pratique. Pour remédier à ces limitations, nous introduisons un nouveau paradigme : la segmentation des lésions guidée par instruction (ILS), conçue pour segmenter divers types de lésions sur la base d'instructions simples et conviviales. Dans le cadre de ce paradigme, nous construisons MIMIC-ILS, le premier jeu de données à grande échelle de type instruction-réponse pour la segmentation des lésions en CXR, en utilisant notre pipeline multimodal entièrement automatisé qui génère des annotations à partir des images de radiographies thoraciques et de leurs rapports correspondants. MIMIC-ILS contient 1,1 million de paires instruction-réponse dérivées de 192 000 images et 91 000 masques de segmentation uniques, couvrant sept types majeurs de lésions. Pour en démontrer empiriquement l'utilité, nous présentons ROSALIA, un modèle vision-langage affiné sur MIMIC-ILS. ROSALIA peut segmenter diverses lésions et fournir des explications textuelles en réponse aux instructions de l'utilisateur. Le modèle atteint une grande précision de segmentation et textuelle dans notre nouvelle tâche proposée, soulignant l'efficacité de notre pipeline et la valeur de MIMIC-ILS en tant que ressource fondamentale pour l'ancrage au niveau pixel des lésions en CXR.
La prolifération de vidéos d'une heure (par exemple, conférences, podcasts, documentaires) a intensifié la demande pour une structuration efficace du contenu. Cependant, les approches existantes sont limitées par un apprentissage à petite échelle avec des annotations généralement courtes et grossières, ce qui restreint la généralisation aux transitions nuancées dans les vidéos longues. Nous présentons ARC-Chapter, le premier modèle de chapitrage vidéo à grande échelle entraîné sur plus d'un million de chapitres de vidéos longues, comportant des annotations de chapitres bilingues, temporellement ancrées et hiérarchiques. Pour atteindre cet objectif, nous avons constitué un jeu de données de chapitres bilingues anglais-chinois via un pipeline structuré qui unifie les transcriptions ASR, les textes scéniques et les légendes visuelles en annotations multi-niveaux, allant des titres courts aux longs résumés. Nous démontrons des améliorations nettes des performances avec l'augmentation des données, tant en volume qu'en intensité des annotations. De plus, nous concevons une nouvelle métrique d'évaluation appelée GRACE, qui intègre les chevauchements de segments plusieurs-à-un et la similarité sémantique, reflétant mieux la flexibilité réelle du chapitrage. Des expériences approfondies démontrent qu'ARC-Chapter établit un nouvel état de l'art avec une avance significative, surpassant le précédent meilleur modèle de 14,0 % en score F1 et de 11,3 % en score SODA. De plus, ARC-Chapter montre une excellente transférabilité, améliorant l'état de l'art sur des tâches en aval comme le sous-titrage dense de vidéos sur YouCook2.
Nous présentons MHR, un modèle paramétrique du corps humain qui combine le paradigme squelette/forme découplé d'ATLAS avec une structure de rigging moderne et flexible et un système de corrections de pose inspiré de la bibliothèque Momentum. Notre modèle permet une animation humaine expressive et anatomiquement plausible, prend en charge des corrections de pose non linéaires, et est conçu pour une intégration robuste dans les pipelines de réalité augmentée/virtuelle et de graphismes.
Nous présentons MoS (Mélange d'États), un nouveau paradigme de fusion pour les modèles de diffusion multimodaux qui combine les modalités via des interactions flexibles basées sur les états. Le cœur de MoS est un routeur apprenable, opérant au niveau des tokens, qui crée des interactions dépendantes du pas de débruîtage et des entrées entre les états cachés des modalités, alignant précisément les caractéristiques au niveau token avec la trajectoire de diffusion. Ce routeur sélectionne de manière éparse les k-meilleurs états cachés et est entraîné avec une stratégie ε-greedy, sélectionnant efficacement les caractéristiques contextuelles avec un nombre minimal de paramètres apprenables et une surcharge computationnelle négligeable. Nous validons notre conception avec la génération texte-image (MoS-Image) et l'édition (MoS-Editing), qui obtiennent des résultats à la pointe de l'état de l'art. Avec seulement 3 à 5 milliards de paramètres, nos modèles égalent ou surpassent des modèles jusqu'à 4 fois plus grands. Ces résultats établissent MoS comme un paradigme flexible et efficace en calcul pour la mise à l'échelle des modèles de diffusion multimodaux.
Alors que l'intelligence incarnée émerge comme une frontière centrale de la recherche en intelligence artificielle, les plateformes de simulation doivent évoluer au-delà des interactions physiques de bas niveau pour capturer des comportements sociaux complexes et centrés sur l'humain. Nous présentons FreeAskWorld, un cadre de simulation interactif qui intègre des grands modèles de langage (LLM) pour la planification comportementale de haut niveau et des interactions ancrées sémantiquement, inspiré par les théories de l'intention et de la cognition sociale. Notre cadre prend en charge des simulations humain-agent réalistes et évolutives et inclut un pipeline modulaire de génération de données conçu pour diverses tâches incarnées. Pour valider ce cadre, nous étendons la tâche classique de Navigation Visuelle et Linguistique (VLN) vers un scénario d'Inquisition de Direction enrichi par l'interaction, dans lequel les agents peuvent activement rechercher et interpréter des instructions de navigation. Nous présentons et rendons publique FreeAskWorld, une base de données de référence à grande échelle comprenant des environnements reconstruits, six types de tâches variées, 16 catégories d'objets principaux, 63 429 images échantillons annotées et plus de 17 heures de données d'interaction pour soutenir l'entraînement et l'évaluation des systèmes d'IA incarnée. Nous évaluons des modèles de VLN et des participants humains dans des configurations en boucle ouverte et en boucle fermée. Les résultats expérimentaux démontrent que les modèles fine-tunés sur FreeAskWorld surpassent leurs homologues originaux, atteignant une compréhension sémantique améliorée et une compétence interactionnelle accrue. Ces résultats soulignent l'efficacité des cadres de simulation socialement ancrés pour faire progresser les systèmes d'IA incarnée vers une planification de haut niveau sophistiquée et une interaction humain-agent plus naturelle. Surtout, notre travail souligne que l'interaction elle-même constitue une modalité informationnelle supplémentaire.
L'appariement dense de caractéristiques vise à estimer toutes les correspondances entre deux images d'une scène 3D et s'est récemment imposé comme la référence en raison de sa grande précision et de sa robustesse. Cependant, les apparieurs denses existants échouent ou performent mal dans de nombreux scénarios difficiles du monde réel, et les modèles à haute précision sont souvent lents, limitant leur applicabilité. Dans cet article, nous attaquons ces faiblesses sur un large front grâce à une série d'améliorations systématiques qui, ensemble, produisent un modèle nettement supérieur. En particulier, nous construisons une architecture d'appariement et une fonction de perte novatrices qui, combinées à une distribution d'apprentissage diversifiée et soigneusement sélectionnée, permettent à notre modèle de résoudre de nombreuses tâches d'appariement complexes. Nous accélérons également l'apprentissage grâce à un pipeline découplé en deux étapes (appariement puis raffinement), et réduisons dans le même temps considérablement l'utilisation de la mémoire lors du raffinement grâce à un noyau CUDA personnalisé. Enfin, nous exploitons le modèle de fondation DINOv3 ainsi que plusieurs autres idées pour rendre le modèle plus robuste et moins biaisé. Dans notre vaste série d'expériences, nous montrons que le nouvel apparieur qui en résulte établit un nouvel état de l'art, étant nettement plus précis que ses prédécesseurs. Le code est disponible à l'adresse https://github.com/Parskatt/romav2.
Les récentes avancées en IA générative pour la musique ont atteint une fidélité et une diversité stylistique remarquables, mais ces systèmes échouent souvent à s'aligner sur les préférences humaines nuancées en raison des fonctions de perte spécifiques qu'ils utilisent. Cet article préconise l'application systématique de techniques d'alignement des préférences à la génération musicale, afin de combler le fossé fondamental entre l'optimisation computationnelle et l'appréciation musicale humaine. En nous appuyant sur des percées récentes, notamment l'apprentissage des préférences à grande échelle de MusicRL, les cadres d'alignement multi-préférences comme l'optimisation des préférences basée sur la diffusion dans DiffRhythm+, et les techniques d'optimisation au moment de l'inférence comme Text2midi-InferAlign, nous discutons de la manière dont ces techniques peuvent relever les défis uniques de la musique : la cohérence temporelle, la consistance harmonique et l'évaluation subjective de la qualité. Nous identifions des défis de recherche clés, notamment l'évolutivité vers des compositions de longue durée et la fiabilité dans la modélisation des préférences. À plus long terme, nous envisageons qu'une génération musicale alignée sur les préférences permette des applications transformatrices dans les outils de composition interactive et les services musicaux personnalisés. Ce travail appelle à une recherche interdisciplinaire soutenue, combinant les avancées en apprentissage automatique et en théorie musicale, pour créer des systèmes d'IA musicale qui répondent véritablement aux besoins créatifs et expérientiels humains.
Nous présentons Medal S, un modèle fondateur de segmentation médicale qui prend en charge des prompts spatiaux en résolution native et textuels au sein d'une architecture entraînable de bout en bout. Contrairement aux méthodes purement textuelles dépourvues de conscience spatiale, Medal S réalise un alignement canal par canal entre les prompts volumétriques et les embeddings textuels, atténuant les inexactitudes dues aux écarts de résolution. En préservant le contexte 3D complet, il traite efficacement plusieurs masques en résolution native en parallèle, améliorant les performances de segmentation multi-classes. Un module convolutif 3D léger permet un raffinement précis dans l'espace voxel guidé par les deux types de prompts, prenant en charge jusqu'à 243 classes à travers les modalités TDM, IRM, TEP, échographie et microscopie du jeu de données BiomedSegFM. Medal S propose deux modes d'invite : un mode texte uniquement, où les prédictions du modèle servent de prompts spatiaux pour un auto-raffinement sans intervention humaine, et un mode hybride, intégrant des annotations manuelles pour une flexibilité accrue. Pour une segmentation à 24 classes, le prompt spatial parallèle réduit le temps d'inférence de plus de 90 % par rapport à un prompt séquentiel. Nous proposons un rééchantillonnage dynamique pour résoudre le déséquilibre du ratio cible-patch, étendant SAT et nnU-Net pour l'augmentation des données. De plus, nous développons un prétraitement textuel optimisé, une stratégie d'inférence en deux étapes et des techniques de post-traitement pour améliorer l'efficacité mémoire, la précision et la vitesse d'inférence. Sur la moyenne des cinq modalités de l'ensemble de validation, Medal S surpasse SAT avec un DSC de 75,44 (contre 69,83), un NSD de 77,34 (contre 71,06), un F1 de 38,24 (contre 24,88) et un DSC TP de 65,46 (contre 46,97). Medal S atteint d'excellentes performances en harmonisant la précision spatiale avec le guidage sémantique textuel, démontrant une efficacité et une exactitude supérieures dans les tâches de segmentation médicale multi-classes par rapport aux approches basées sur des prompts séquentiels. Medal S sera accessible publiquement à l'adresse https://github.com/yinghemedical/Medal-S.