papers.description
Cet article présente l'Optimisation de Politique de Séquence de Groupe (GSPO), notre algorithme d'apprentissage par renforcement stable, efficace et performant pour l'entraînement de grands modèles de langage. Contrairement aux algorithmes précédents qui adoptent des ratios d'importance au niveau des tokens, GSPO définit le ratio d'importance en fonction de la vraisemblance des séquences et effectue un découpage, une récompense et une optimisation au niveau des séquences. Nous démontrons que GSPO atteint une efficacité et une performance d'entraînement supérieures par rapport à l'algorithme GRPO, stabilise notablement l'entraînement par renforcement des Mixtures-of-Experts (MoE), et a le potentiel de simplifier la conception de l'infrastructure d'apprentissage par renforcement. Ces mérites de GSPO ont contribué aux améliorations remarquables des derniers modèles Qwen3.
Les récents progrès des architectures basées sur les transformateurs ont démontré un succès remarquable dans les tâches de génération vidéo. Cependant, la complexité quadratique des mécanismes d'attention complète reste un goulot d'étranglement critique, en particulier pour les séquences vidéo de haute résolution et de longue durée. Dans cet article, nous proposons NABLA, un nouveau mécanisme d'attention adaptative par blocs au niveau du voisinage qui s'adapte dynamiquement aux motifs de sparsité dans les transformateurs de diffusion vidéo (DiTs). En exploitant une attention par blocs avec un seuil adaptatif basé sur la sparsité, NABLA réduit la surcharge computationnelle tout en préservant la qualité générative. Notre méthode ne nécessite pas de conception personnalisée d'opérateurs de bas niveau et peut être intégrée de manière transparente avec l'opérateur Flex Attention de PyTorch. Les expériences démontrent que NABLA permet d'atteindre jusqu'à 2,7 fois plus de rapidité en entraînement et en inférence par rapport aux méthodes de référence, presque sans compromettre les métriques quantitatives (score CLIP, score VBench, score d'évaluation humaine) ni la qualité visuelle. Le code et les poids des modèles sont disponibles ici : https://github.com/gen-ai-team/Wan2.1-NABLA
Les modèles de langage de grande taille (LLMs) ont atteint des performances impressionnantes sur des tâches nécessitant un raisonnement approfondi, mais l'optimisation de leur efficacité de raisonnement reste un défi ouvert. Bien que la mise à l'échelle au moment du test (Test-Time Scaling, TTS) améliore la qualité du raisonnement, elle conduit souvent à une surréflexion, gaspillant des tokens sur des calculs redondants. Ce travail explore comment guider efficacement et de manière adaptative la mise à l'échelle des LLMs au moment du test sans entraînement supplémentaire. Inspiré par le concept de momentum en physique, nous proposons le Raisonnement Guidé par l'Incertitude de Momentum (Momentum Uncertainty-guided Reasoning, MUR), qui alloue dynamiquement des budgets de réflexion aux étapes critiques du raisonnement en suivant et en agrégeant l'incertitude étape par étape au fil du temps. Pour permettre un contrôle flexible au moment de l'inférence, nous introduisons le gamma-control, un mécanisme simple qui ajuste le budget de raisonnement via un seul hyperparamètre. Nous fournissons une preuve théorique approfondie pour soutenir la supériorité de MUR en termes de stabilité et de biais. MUR est évalué de manière exhaustive contre diverses méthodes de TTS sur quatre benchmarks exigeants (MATH-500, AIME24, AIME25 et GPQA-diamond) en utilisant différentes tailles des récents modèles Qwen3 (1,7B, 4B et 8B). Les résultats démontrent que MUR réduit les calculs de plus de 50 % en moyenne tout en améliorant la précision de 0,62 à 3,37 %.
Nous présentons Captain Cinema, un cadre de génération pour la création de courts métrages. À partir d’une description textuelle détaillée d’une intrigue cinématographique, notre approche génère d’abord une séquence de keyframes qui délimitent l’ensemble du récit, garantissant ainsi une cohérence à long terme tant dans l’histoire que dans l’apparence visuelle (par exemple, les scènes et les personnages). Nous appelons cette étape la planification descendante des keyframes. Ces keyframes servent ensuite de signaux de conditionnement pour un modèle de synthèse vidéo, capable d’apprentissage contextuel étendu, afin de produire les dynamiques spatio-temporelles entre elles. Cette étape est appelée la synthèse ascendante de la vidéo. Pour soutenir la génération stable et efficace d’œuvres cinématographiques narratives longues et multi-scènes, nous introduisons une stratégie d’entraînement entrelacé pour les Transformers de Diffusion Multimodale (MM-DiT), spécifiquement adaptée aux données vidéo à contexte étendu. Notre modèle est entraîné sur un ensemble de données cinématographiques spécialement conçu, composé de paires de données entrelacées. Nos expériences démontrent que Captain Cinema excelle dans la création automatisée de courts métrages visuellement cohérents et narrativement consistants, avec une qualité et une efficacité élevées. Page du projet : https://thecinema.ai
Les grands modèles de raisonnement ont atteint des performances remarquables grâce à des séquences étendues de pensée en chaîne, mais cette liberté computationnelle entraîne une génération excessive de tokens, même pour des problèmes simples. Nous présentons l'Optimisation de Politique à Longueur Adaptative (LAPO), un cadre novateur qui transforme le contrôle de la longueur du raisonnement d'une contrainte externe en une capacité intrinsèque du modèle. Contrairement aux approches existantes qui imposent des limites rigides ou reposent sur des interventions a posteriori, LAPO permet aux modèles d'intérioriser une compréhension de la profondeur de raisonnement appropriée grâce à un processus d'apprentissage par renforcement en deux étapes. Dans la première étape, les modèles apprennent des schémas de raisonnement naturels en découvrant la distribution statistique des longueurs de solutions réussies. La deuxième étape exploite ces schémas comme guide méta-cognitif, les intégrant directement dans le contexte de raisonnement du modèle pour garantir une flexibilité lors de l'inférence. Les expériences sur des benchmarks de raisonnement mathématique démontrent que LAPO réduit l'utilisation de tokens jusqu'à 40,9 % tout en améliorant la précision de 2,3 %. Notre analyse révèle que les modèles entraînés avec LAPO développent des capacités émergentes à allouer les ressources computationnelles en fonction de la complexité du problème, atteignant ainsi un raisonnement efficace sans sacrifier la qualité.
Malgré les avancées remarquables réalisées par les travaux récents en génération 3D, la mise à l'échelle de ces méthodes à des étendues géographiques, telles que la modélisation de milliers de kilomètres carrés de la surface terrestre, reste un défi ouvert. Nous abordons ce problème grâce à une double innovation en matière d'infrastructure de données et d'architecture de modèle. Tout d'abord, nous présentons Aerial-Earth3D, le plus grand ensemble de données aériennes 3D à ce jour, composé de 50 000 scènes soigneusement sélectionnées (chacune mesurant 600 m x 600 m) capturées à travers le continent américain, comprenant 45 millions d'images multi-vues de Google Earth. Chaque scène fournit des images multi-vues annotées avec des poses, des cartes de profondeur, des normales, une segmentation sémantique et des poses de caméra, avec un contrôle de qualité explicite pour garantir la diversité du terrain. Sur cette base, nous proposons EarthCrafter, un cadre sur mesure pour la génération 3D à grande échelle de la Terre via une diffusion latente sparse-découplée. Notre architecture sépare la génération structurelle et texturale : 1) Des VAEs 3D doubles sparse compressent des voxels géométriques haute résolution et des splats gaussiens texturaux 2D (2DGS) dans des espaces latents compacts, atténuant largement les calculs coûteux liés aux vastes échelles géographiques tout en préservant les informations critiques. 2) Nous proposons des modèles de correspondance de flux conditionnels entraînés sur des entrées mixtes (sémantiques, images, ou aucune) pour modéliser de manière flexible les caractéristiques géométriques et texturales latentes de manière indépendante. Des expériences approfondies démontrent qu'EarthCrafter performe nettement mieux dans la génération à très grande échelle. Le cadre supporte en outre des applications variées, allant de la génération de plans urbains guidés par la sémantique à la synthèse de terrains inconditionnelle, tout en maintenant une plausibilité géographique grâce à nos riches a priori de données provenant d'Aerial-Earth3D. Notre page de projet est disponible à l'adresse https://whiteinblue.github.io/earthcrafter/.
La mise à l'échelle des modèles de génération visuelle est essentielle pour la création de contenu dans le monde réel, mais elle nécessite des coûts substantiels en termes d'entraînement et de calcul. Alternativement, la mise à l'échelle au moment du test a suscité un intérêt croissant en raison de son efficacité en ressources et de ses performances prometteuses. Dans ce travail, nous présentons TTS-VAR, le premier cadre général de mise à l'échelle au moment du test pour les modèles visuels auto-régressifs (VAR), modélisant le processus de génération comme un problème de recherche de chemin. Pour équilibrer dynamiquement l'efficacité computationnelle avec la capacité d'exploration, nous introduisons d'abord un plan de taille de lot descendant adaptatif tout au long du processus de génération causale. En outre, inspiré par la génération multi-échelle hiérarchique allant du grossier au fin des VAR, notre cadre intègre deux composants clés : (i) Aux échelles grossières, nous observons que les tokens générés sont difficiles à évaluer, ce qui peut conduire à l'acceptation erronée d'échantillons inférieurs ou au rejet d'échantillons supérieurs. En remarquant que les échelles grossières contiennent suffisamment d'informations structurelles, nous proposons une recherche de diversité basée sur le clustering. Elle préserve la variété structurelle grâce au clustering des caractéristiques sémantiques, permettant une sélection ultérieure d'échantillons ayant un potentiel plus élevé. (ii) Aux échelles fines, la sélection de potentiel basée sur le rééchantillonnage priorise les candidats prometteurs en utilisant des scores de potentiel, définis comme des fonctions de récompense incorporant l'historique de génération multi-échelle. Les expériences sur le puissant modèle VAR Infinity montrent une amélioration notable de 8,7 % du score GenEval (de 0,69 à 0,75). Les insights clés révèlent que les caractéristiques structurelles des premiers stades influencent efficacement la qualité finale, et que l'efficacité du rééchantillonnage varie selon les échelles de génération. Le code est disponible à l'adresse https://github.com/ali-vilab/TTS-VAR.
Les grands modèles de raisonnement atteignent des performances remarquables grâce à une génération extensive de chaînes de pensée, mais présentent une inefficacité computationnelle significative en appliquant des stratégies de raisonnement uniformes indépendamment de la complexité des problèmes. Nous présentons l'Optimisation Hiérarchique des Politiques de Budget (HBPO), un cadre d'apprentissage par renforcement qui permet aux modèles d'apprendre des profondeurs de raisonnement spécifiques aux problèmes sans sacrifier leurs capacités. HBPO aborde le défi fondamental de l'effondrement de l'espace d'exploration dans l'entraînement axé sur l'efficacité, où les pénalités sur la longueur des sorties biaisent systématiquement les modèles contre les chemins de raisonnement longs nécessaires. Grâce à une exploration hiérarchique du budget, notre approche partitionne les échantillons de déploiement en plusieurs sous-groupes avec des budgets de jetons distincts, visant à permettre une allocation efficace des ressources tout en empêchant la dégradation des capacités. Nous introduisons des mécanismes de récompense différenciés qui créent des incitations conscientes du budget alignées sur la complexité du problème, permettant aux modèles de découvrir des correspondances naturelles entre les exigences de la tâche et l'effort computationnel. Des expériences approfondies démontrent que HBPO réduit l'utilisation moyenne de jetons jusqu'à 60,6 % tout en améliorant la précision de 3,14 % sur quatre benchmarks de raisonnement. Contrairement aux méthodes existantes qui imposent des contraintes externes ou reposent sur une sélection de mode discrète, HBPO présente un comportement adaptatif émergent où les modèles ajustent automatiquement la profondeur de raisonnement en fonction de la complexité du problème. Nos résultats suggèrent que l'efficacité du raisonnement et les capacités ne sont pas intrinsèquement conflictuelles, et peuvent être optimisées simultanément grâce à un entraînement hiérarchique structuré de manière appropriée qui préserve la diversité d'exploration.
L'extraction d'information (IE) est fondamentale pour de nombreuses applications de traitement du langage naturel (NLP), mais les solutions existantes nécessitent souvent des modèles spécialisés pour différentes tâches ou reposent sur des modèles de langage de grande taille, coûteux en calcul. Nous présentons GLiNER2, un cadre unifié qui améliore l'architecture originale de GLiNER pour prendre en charge la reconnaissance d'entités nommées, la classification de texte et l'extraction de données structurées hiérarchiques au sein d'un seul modèle efficace. Basé sur une architecture de transformateur pré-entraîné, GLiNER2 maintient une efficacité sur CPU et une taille compacte tout en introduisant une composition multi-tâches via une interface intuitive basée sur des schémas. Nos expériences démontrent des performances compétitives dans les tâches d'extraction et de classification, avec des améliorations substantielles en termes d'accessibilité de déploiement par rapport aux alternatives basées sur des modèles de langage de grande taille. Nous publions GLiNER2 en tant que bibliothèque open-source installable via pip, avec des modèles pré-entraînés et une documentation disponible à l'adresse https://github.com/fastino-ai/GLiNER2.
L'apprentissage à partir de flux de données non stationnaires soumis à des dérives conceptuelles nécessite des modèles capables de s'adapter en temps réel tout en restant économes en ressources. Les méthodes d'ensembles adaptatifs existantes reposent souvent sur des mécanismes d'adaptation grossiers ou des schémas de vote simples qui ne parviennent pas à exploiter de manière optimale les connaissances spécialisées. Cet article présente DriftMoE, une architecture en ligne de type Mixture-of-Experts (MoE) qui surmonte ces limitations grâce à un nouveau cadre d'apprentissage conjoint. DriftMoE intègre un routeur neuronal compact co-entraîné avec un ensemble d'experts basés sur des arbres de Hoeffding incrémentaux. L'innovation clé réside dans une boucle d'apprentissage symbiotique qui favorise la spécialisation des experts : le routeur sélectionne l'expert le plus adapté pour la prédiction, les experts pertinents se mettent à jour de manière incrémentale avec la véritable étiquette, et le routeur affine ses paramètres à l'aide d'un masque de correction multi-hot qui renforce chaque expert précis. Cette boucle de rétroaction fournit au routeur un signal d'apprentissage clair tout en accélérant la spécialisation des experts. Nous évaluons les performances de DriftMoE sur neuf benchmarks de pointe en apprentissage de flux de données, couvrant des dérives abruptes, graduelles et issues du monde réel, en testant deux configurations distinctes : une où les experts se spécialisent sur des régimes de données (variante multi-classes), et une autre où ils se concentrent sur une spécialisation mono-classe (variante basée sur les tâches). Nos résultats montrent que DriftMoE obtient des performances compétitives par rapport aux ensembles adaptatifs de pointe en apprentissage de flux, offrant une approche rigoureuse et efficace pour l'adaptation aux dérives conceptuelles. Tous les codes, pipelines de données et scripts de reproductibilité sont disponibles dans notre dépôt GitHub public : https://github.com/miguel-ceadar/drift-moe.
Nous présentons la dernière série de modèles TeleChat : TeleChat2, TeleChat2.5 et T1, offrant une amélioration significative par rapport à leur prédécesseur, TeleChat. Malgré des changements minimes dans l'architecture du modèle, la nouvelle série réalise des gains de performance substantiels grâce à des stratégies de formation améliorées, tant en pré-entraînement qu'en post-entraînement. La série commence avec TeleChat2, qui subit un pré-entraînement sur 10 000 milliards de tokens de haute qualité et diversifiés. Cela est suivi par un Fine-Tuning Supervisé (SFT) et une Optimisation Directe des Préférences (DPO) pour renforcer davantage ses capacités. TeleChat2.5 et T1 étendent le pipeline en intégrant une phase de pré-entraînement continu avec des ensembles de données spécifiques à un domaine, combinée à un apprentissage par renforcement (RL) pour améliorer les performances dans les tâches de génération de code et de raisonnement mathématique. La variante T1 est conçue pour le raisonnement complexe, prenant en charge un raisonnement en chaîne de pensée (CoT) long et démontrant des améliorations substantielles en mathématiques et en codage. En revanche, TeleChat2.5 privilégie la vitesse, offrant une inférence rapide. Les deux modèles phares, T1 et TeleChat2.5, sont des architectures denses basées sur des Transformers avec 115 milliards de paramètres, montrant des avancées significatives dans le raisonnement et la performance générale des tâches par rapport au TeleChat original. Notamment, T1-115B surpasse des modèles propriétaires tels que o1-mini d'OpenAI et GPT-4o. Nous rendons publics TeleChat2, TeleChat2.5 et T1, y compris les versions post-entraînées avec 35 milliards et 115 milliards de paramètres, pour doter les développeurs et les chercheurs de modèles de langage de pointe adaptés à diverses applications.
Les récents progrès dans la synthèse d'images à partir de texte bénéficient largement de stratégies d'échantillonnage sophistiquées et de l'orientation sans classifieur (CFG) pour garantir une génération de haute qualité. Cependant, la dépendance de la CFG à deux passes avant, en particulier lorsqu'elle est combinée à des algorithmes d'échantillonnage complexes, entraîne des coûts d'inférence prohibitifs. Pour remédier à cela, nous introduisons TeEFusion (Fusion d'Empreintes Textuelles), une méthode de distillation novatrice et efficace qui intègre directement l'amplitude de guidage dans les empreintes textuelles et distille la stratégie d'échantillonnage complexe du modèle enseignant. En fusionnant simplement les empreintes textuelles conditionnelles et non conditionnelles à l'aide d'opérations linéaires, TeEFusion reconstruit le guidage souhaité sans ajouter de paramètres supplémentaires, tout en permettant au modèle étudiant d'apprendre à partir de la sortie du modèle enseignant produite via son approche d'échantillonnage sophistiquée. Des expériences approfondies sur des modèles de pointe tels que SD3 démontrent que notre méthode permet à l'étudiant de reproduire étroitement les performances de l'enseignant avec une stratégie d'échantillonnage beaucoup plus simple et efficace. Par conséquent, le modèle étudiant atteint des vitesses d'inférence jusqu'à 6 fois plus rapides que le modèle enseignant, tout en maintenant une qualité d'image comparable à celle obtenue grâce à l'approche d'échantillonnage complexe de l'enseignant. Le code est disponible publiquement à l'adresse https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
Ce rapport documente, décrit et évalue les nouveaux modèles GloVe (Global Vectors for Word Representation) anglais de 2024. Bien que les modèles GloVe originaux construits en 2014 aient été largement utilisés et jugés utiles, les langues et le monde continuent d'évoluer, et nous avons estimé que l'usage actuel pourrait bénéficier de modèles mis à jour. De plus, les modèles de 2014 n'étaient pas soigneusement documentés concernant les versions exactes des données et le prétraitement utilisés, et nous rectifions cela en documentant ces nouveaux modèles. Nous avons entraîné deux ensembles de plongements lexicaux en utilisant Wikipédia, Gigaword et un sous-ensemble de Dolma. L'évaluation par comparaison de vocabulaire, tests directs et tâches de reconnaissance d'entités nommées (NER) montre que les vecteurs de 2024 intègrent de nouveaux mots pertinents sur le plan culturel et linguistique, offrent des performances comparables sur des tâches structurelles comme les analogies et les similarités, et démontrent une amélioration des performances sur des ensembles de données NER récents et dépendants du temps, tels que les données de presse non occidentales.
Les segments en vision par ordinateur sont souvent définis par des considérations sémantiques et dépendent fortement de conventions spécifiques à des catégories. En revanche, la psychologie du développement suggère que les humains perçoivent le monde en termes d'objets de Spelke—des regroupements d'éléments physiques qui se déplacent de manière cohérente lorsqu'ils sont soumis à des forces physiques. Les objets de Spelke opèrent donc sur des relations de mouvement causal indépendantes des catégories, ce qui pourrait mieux soutenir des tâches comme la manipulation et la planification. Dans cet article, nous évaluons d'abord le concept d'objet de Spelke, en introduisant le jeu de données SpelkeBench qui contient une grande variété de segments de Spelke bien définis dans des images naturelles. Ensuite, pour extraire algorithmiquement les segments de Spelke à partir d'images, nous construisons SpelkeNet, une classe de modèles visuels entraînés à prédire des distributions de mouvements futurs. SpelkeNet permet d'estimer deux concepts clés pour la découverte d'objets de Spelke : (1) la carte d'affordance de mouvement, identifiant les régions susceptibles de bouger sous une poussée, et (2) la carte de déplacement attendu, capturant comment le reste de la scène se déplacera. Ces concepts sont utilisés pour une "exploration contrefactuelle statistique", où diverses "poussées virtuelles" sont appliquées sur des régions à forte affordance de mouvement, et les cartes de déplacement attendu résultantes sont utilisées pour définir les segments de Spelke comme des agrégats statistiques de corrélations de mouvement. Nous constatons que SpelkeNet surpasse les modèles supervisés de référence comme SegmentAnything (SAM) sur SpelkeBench. Enfin, nous montrons que le concept de Spelke est utile en pratique pour des applications en aval, offrant des performances supérieures sur le benchmark 3DEditBench pour la manipulation d'objets physiques lorsqu'il est utilisé dans divers modèles de manipulation d'objets prêts à l'emploi.
Les systèmes de synthèse vocale (TTS) basés sur la diffusion ont réalisé des progrès remarquables dans la synthèse vocale en zero-shot, mais l'optimisation de tous les composants pour les métriques perceptuelles reste un défi. Les travaux antérieurs avec DMOSpeech ont démontré une optimisation directe des métriques pour les composants de génération de la parole, mais la prédiction de la durée est restée non optimisée. Cet article présente DMOSpeech 2, qui étend l'optimisation des métriques au prédicteur de durée grâce à une approche d'apprentissage par renforcement. Le système proposé met en œuvre un nouveau cadre de politique de durée utilisant l'optimisation des préférences relatives par groupe (GRPO) avec la similarité du locuteur et le taux d'erreur sur les mots comme signaux de récompense. En optimisant ce composant précédemment non optimisé, DMOSpeech 2 crée un pipeline de synthèse plus complet et optimisé pour les métriques. De plus, cet article introduit l'échantillonnage guidé par un enseignant, une approche hybride qui exploite un modèle enseignant pour les étapes initiales de débruitage avant de passer au modèle étudiant, améliorant significativement la diversité des sorties tout en maintenant l'efficacité. Des évaluations approfondies démontrent une performance supérieure sur toutes les métriques par rapport aux systèmes précédents, tout en réduisant de moitié les étapes d'échantillonnage sans dégradation de la qualité. Ces avancées représentent une étape significative vers des systèmes de synthèse vocale avec une optimisation des métriques sur plusieurs composants. Les échantillons audio, le code et les modèles pré-entraînés sont disponibles à l'adresse https://dmospeech2.github.io/.
Les modèles de langage de grande taille (LLMs) montrent un potentiel considérable dans les applications financières ; cependant, les modèles prédominants présentent souvent des limites lorsqu'ils sont confrontés à des scénarios nécessitant des capacités de raisonnement sophistiquées, des critères de fiabilité stricts et une adaptation efficace aux exigences spécifiques au domaine. Nous présentons la série Agentar-Fin-R1 de modèles de langage de grande taille financiers (8B et 32B paramètres), spécifiquement conçus à partir du modèle de base Qwen3 pour améliorer les capacités de raisonnement, la fiabilité et la spécialisation dans le domaine des applications financières. Notre approche d'optimisation intègre un système d'étiquetage de tâches financières de haute qualité et systématique avec un cadre complet d'assurance de fiabilité à plusieurs niveaux. Ce cadre englobe l'ingénierie de connaissances fiables de haute qualité, la synthèse de données fiables par multi-agents et une gouvernance rigoureuse de validation des données. Grâce à l'optimisation automatisée guidée par étiquettes et sensible à la difficulté, à un pipeline d'entraînement en deux étapes et à des systèmes d'attribution dynamique, nous obtenons des améliorations substantielles dans l'efficacité de l'entraînement. Nos modèles sont évalués de manière exhaustive sur des benchmarks financiers grand public tels que Fineva, FinEval et FinanceIQ, ainsi que sur des ensembles de données de raisonnement général comme MATH-500 et GPQA-diamond. Pour évaluer de manière approfondie les capacités de déploiement en situation réelle, nous proposons de manière innovante le benchmark d'évaluation Finova, qui se concentre sur le raisonnement financier au niveau des agents et la vérification de la conformité. Les résultats expérimentaux démontrent qu'Agentar-Fin-R1 non seulement atteint des performances de pointe sur les tâches financières, mais montre également des capacités de raisonnement général exceptionnelles, validant son efficacité en tant que solution fiable pour les applications financières à haut risque. Le benchmark Finova est disponible à l'adresse https://github.com/antgroup/Finova.
Nous présentons Iwin Transformer, un nouveau transformeur visuel hiérarchique sans intégration de position, qui peut être affiné directement de basse à haute résolution grâce à la collaboration d'une attention par fenêtres entrelacées innovante et d'une convolution séparable en profondeur. Cette approche utilise l'attention pour connecter des tokens distants et applique la convolution pour relier les tokens voisins, permettant un échange d'informations globales au sein d'un seul module, surmontant ainsi la limitation du Swin Transformer qui nécessite deux blocs consécutifs pour approximer l'attention globale. Des expériences approfondies sur des benchmarks visuels démontrent que Iwin Transformer présente une forte compétitivité dans des tâches telles que la classification d'images (87,4 de précision top-1 sur ImageNet-1K), la segmentation sémantique et la reconnaissance d'actions vidéo. Nous validons également l'efficacité du composant central d'Iwin en tant que module autonome pouvant remplacer de manière transparente le module d'auto-attention dans la génération d'images conditionnées par classe. Les concepts et méthodes introduits par Iwin Transformer ont le potentiel d'inspirer de futures recherches, comme Iwin 3D Attention dans la génération vidéo. Le code et les modèles sont disponibles à l'adresse https://github.com/cominder/Iwin-Transformer.
La récupération de vidéos partiellement pertinentes (PRVR) aborde le défi crucial de l'appariement de vidéos non découpées avec des requêtes textuelles décrivant uniquement un contenu partiel. Les méthodes existantes souffrent de distorsions géométriques dans l'espace euclidien, ce qui peut parfois mal représenter la structure hiérarchique intrinsèque des vidéos et négliger certaines sémantiques hiérarchiques, conduisant finalement à une modélisation temporelle sous-optimale. Pour résoudre ce problème, nous proposons le premier cadre de modélisation hyperbolique pour la PRVR, nommé HLFormer, qui exploite l'apprentissage dans l'espace hyperbolique pour compenser les capacités de modélisation hiérarchique sous-optimales de l'espace euclidien. Plus précisément, HLFormer intègre le bloc d'attention de Lorentz et le bloc d'attention euclidien pour encoder les embeddings vidéo dans des espaces hybrides, en utilisant le module d'interaction adaptative guidé par la moyenne pour fusionner dynamiquement les caractéristiques. De plus, nous introduisons une perte de préservation de l'ordre partiel pour imposer la hiérarchie "texte < vidéo" à travers les contraintes du cône lorentzien. Cette approche améliore encore l'appariement intermodal en renforçant la pertinence partielle entre le contenu vidéo et les requêtes textuelles. Des expériences approfondies montrent que HLFormer surpasse les méthodes de pointe. Le code est disponible à l'adresse https://github.com/lijun2005/ICCV25-HLFormer.
La segmentation d'images médicales est cruciale pour de nombreuses tâches de santé, notamment le diagnostic de maladies et la planification des traitements. Un domaine clé est la segmentation des lésions cutanées, essentielle pour diagnostiquer le cancer de la peau et suivre les patients. Dans ce contexte, cet article présente SegDT, un nouveau modèle de segmentation basé sur un transformateur de diffusion (DiT). SegDT est conçu pour fonctionner sur du matériel à faible coût et intègre Rectified Flow, ce qui améliore la qualité de génération avec un nombre réduit d'étapes d'inférence tout en conservant la flexibilité des modèles de diffusion standard. Notre méthode est évaluée sur trois ensembles de données de référence et comparée à plusieurs travaux existants, obtenant des résultats de pointe tout en maintenant des vitesses d'inférence rapides. Cela rend le modèle proposé attrayant pour des applications médicales en conditions réelles. Ce travail améliore les performances et les capacités des modèles d'apprentissage profond dans l'analyse d'images médicales, permettant des outils de diagnostic plus rapides et plus précis pour les professionnels de santé. Le code est rendu public à l'adresse suivante : https://github.com/Bekhouche/SegDT{GitHub}.
Cet article présente une nouvelle approche basée sur l'apprentissage profond pour la classification simultanée de l'âge et du genre à partir d'images faciales, conçue pour améliorer l'efficacité des campagnes publicitaires ciblées. Nous proposons une architecture personnalisée de réseau de neurones convolutifs (CNN), optimisée pour ces deux tâches, qui exploite la corrélation inhérente entre les informations sur l'âge et le genre présentes dans les caractéristiques faciales. Contrairement aux méthodes existantes qui traitent souvent ces tâches de manière indépendante, notre modèle apprend des représentations partagées, conduisant à une amélioration des performances. Le réseau est entraîné sur un vaste ensemble de données diversifié d'images faciales, soigneusement prétraité pour garantir la robustesse face aux variations d'éclairage, de pose et de qualité d'image. Nos résultats expérimentaux démontrent une amélioration significative de la précision de la classification du genre, atteignant 95 %, et une erreur absolue moyenne compétitive de 5,77 ans pour l'estimation de l'âge. De manière critique, nous analysons les performances à travers différents groupes d'âge, identifiant des défis spécifiques dans l'estimation précise de l'âge des individus plus jeunes. Cette analyse révèle la nécessité d'une augmentation ciblée des données et d'un raffinement du modèle pour aborder ces biais. De plus, nous explorons l'impact de différentes architectures CNN et de réglages d'hyperparamètres sur la performance globale, fournissant des insights précieux pour les recherches futures.
Les modèles de langage multimodaux de grande taille (MLLMs), construits sur des architectures linguistiques puissantes, ont permis l'apprentissage en contexte multimodal (MICL) - l'adaptation à de nouvelles tâches à partir de quelques démonstrations multimodales composées d'images, de questions et de réponses. Bien qu'ils montrent des améliorations notables sur les ensembles de données standard en vision et langage, les MLLMs actuels peinent à exploiter les informations visuelles dans les démonstrations. Plus précisément, ils ont tendance à négliger les indices visuels et à trop s'appuyer sur les motifs textuels, conduisant à une simple imitation du texte plutôt qu'à une véritable adaptation multimodale. Ce comportement rend le MICL encore unimodal et limite grandement son utilité pratique. Plus important encore, cette limitation est souvent masquée par l'amélioration des performances sur des tâches ne nécessitant pas la compréhension du contexte visuel. Par conséquent, la manière d'améliorer efficacement les capacités du MICL et d'évaluer de manière fiable ses performances reste peu explorée. Pour résoudre ces problèmes, nous introduisons d'abord la Réallocation Dynamique de l'Attention (DARA), une stratégie de fine-tuning efficace qui encourage les modèles à se concentrer sur le contexte visuel en rééquilibrant l'attention entre les tokens visuels et textuels. En outre, nous présentons TrueMICL, un ensemble de données dédié au MICL avec des ensembles de support et de test qui exigent explicitement l'intégration d'informations multimodales - en particulier le contenu visuel - pour accomplir correctement les tâches. Des expériences approfondies démontrent l'efficacité de notre solution holistique, mettant en évidence des améliorations substantielles dans les véritables capacités d'apprentissage en contexte multimodal. Le code et les ensembles de données sont disponibles à l'adresse https://chenxshuo.github.io/true-micl-colm.