papers.description
Nous présentons Native Parallel Reasoner (NPR), un cadre sans enseignant permettant aux Grands Modèles de Langage (LLM) de développer par eux-mêmes de véritables capacités de raisonnement parallèle. NPR transforme le modèle d'une émulation séquentielle vers une cognition parallèle native grâce à trois innovations majeures : 1) un paradigme d'entraînement progressif auto-distillé qui passe d'une découverte de format « cold-start » à des contraintes topologiques strictes sans supervision externe ; 2) un nouvel algorithme d'Optimisation de Politique Parallèle-Aware (PAPO) qui optimise les politiques de branchement directement dans le graphe d'exécution, permettant au modèle d'apprendre la décomposition adaptive par essais et erreurs ; et 3) un Moteur NPR robuste qui restructure la gestion de la mémoire et le contrôle de flux de SGLang pour permettre un entraînement RL parallèle stable et à grande échelle. Sur huit benchmarks de raisonnement, NPR entraîné sur Qwen3-4B obtient des gains de performance allant jusqu'à 24,5 % et des accélérations d'inférence allant jusqu'à 4,6x. Contrairement aux lignes de base antérieures qui reviennent souvent à un décodage autorégressif, NPR démontre une exécution parallèle authentique à 100 %, établissant une nouvelle norme pour un raisonnement agentique auto-évolutif, efficace et scalable.
Les encodages positionnels rotatifs (RoPE) sont devenus une norme pour encoder l'ordre des séquences dans les grands modèles de langage (LLM) en appliquant des rotations aux vecteurs de requête et de clé dans le plan complexe. Cependant, les implémentations standard n'utilisent que la composante réelle du produit scalaire à valeurs complexes pour le calcul du score d'attention. Cette simplification élimine la composante imaginaire, qui contient des informations de phase précieuses, entraînant une perte potentielle de détails relationnels cruciaux pour la modélisation des dépendances en contexte long. Dans cet article, nous proposons une extension qui réintègre cette composante imaginaire écartée. Notre méthode exploite la représentation complexe complète pour créer un score d'attention à deux composantes. Nous démontrons théoriquement et empiriquement que cette approche améliore la modélisation des dépendances en contexte long en préservant davantage d'informations positionnelles. De plus, les évaluations sur une série de benchmarks de modélisation du langage en contexte long montrent que notre méthode améliore constamment les performances par rapport au RoPE standard, les bénéfices devenant plus significatifs à mesure que la longueur du contexte augmente. Le code est disponible à l'adresse https://github.com/OpenMOSS/rope_pp.
Les méthodes existantes d'édition vidéo sont confrontées à un compromis critique : les modèles experts offrent de la précision mais reposent sur des connaissances préalables spécifiques aux tâches, comme les masques, ce qui entrave leur unification ; à l'inverse, les modèles unifiés d'apprentissage temporel en contexte sont exempts de masques mais manquent d'indices spatiaux explicites, conduisant à un mappage faible entre les instructions et les régions ainsi qu'à une localisation imprécise. Pour résoudre ce conflit, nous proposons VideoCoF, une nouvelle approche de Chaîne d'Images inspirée du raisonnement en Chaîne de Pensée. VideoCoF impose une procédure « voir, raisonner, puis éditer » en forçant le modèle de diffusion vidéo à prédire d'abord des jetons de raisonnement (latents de région d'édition) avant de générer les jetons vidéo cibles. Cette étape de raisonnement explicite supprime le besoin de masques fournis par l'utilisateur tout en permettant un alignement précis entre les instructions et les régions et une édition vidéo fine. De plus, nous introduisons une stratégie d'alignement RoPE qui exploite ces jetons de raisonnement pour garantir l'alignement du mouvement et permettre une extrapolation de la durée au-delà de la période d'entraînement. Nous démontrons qu'avec un coût de données minimal de seulement 50 000 paires vidéo, VideoCoF atteint des performances de pointe sur VideoCoF-Bench, validant l'efficacité et l'efficience de notre approche. Notre code, nos poids et nos données sont disponibles à l'adresse https://github.com/knightyxp/VideoCoF.
L'art voxel est une stylisation distinctive largement utilisée dans les jeux et médias numériques, mais la génération automatisée à partir de maillages 3D reste difficile en raison d'exigences contradictoires d'abstraction géométrique, de préservation sémantique et de cohérence discrète des couleurs. Les méthodes existantes simplifient excessivement la géométrie ou échouent à atteindre l'esthétique voxel aux contraintes précises au pixel et limitée à une palette. Nous présentons Voxify3D, un cadre différentiable en deux étages reliant l'optimisation de maillage 3D à une supervision d'art pixel 2D. Notre innovation fondamentale réside dans l'intégration synergique de trois composants : (1) une supervision orthographique par art pixel qui élimine la distorsion perspective pour un alignement précis voxel-pixel ; (2) un alignement CLIP par patchs qui préserve la sémantique across les niveaux de discrétisation ; (3) une quantification Gumbel-Softmax contrainte par palette permettant l'optimisation différentiable sur des espaces de couleurs discrets avec des stratégies de palette contrôlables. Cette intégration résout des défis fondamentaux : la préservation sémantique sous discrétisation extrême, l'esthétique pixel-art par rendu volumétrique, et l'optimisation discrète de bout en bout. Les expériences montrent des performances supérieures (37.12 CLIP-IQA, 77.90% de préférence utilisateur) sur divers personnages avec abstraction contrôlable (2-8 couleurs, résolutions 20x-50x). Page du projet : https://yichuanh.github.io/Voxify-3D/
La génération de vidéos à partir de références (R2V) vise à synthétiser des vidéos correspondant à une description textuelle tout en préservant l'identité du sujet à partir d'images de référence. Cependant, les méthodes R2V actuelles sont limitées par leur dépendance à des triplets explicites image-vidéo-texte, dont la construction est extrêmement coûteuse et difficile à généraliser. Nous contournons ce goulot d'étranglement en introduisant Saber, un cadre zéro-shot scalable qui ne nécessite aucune donnée R2V explicite. Entraîné exclusivement sur des paires vidéo-texte, Saber utilise une stratégie d'apprentissage par masquage et une conception de modèle basée sur l'attention pour apprendre des représentations cohérentes avec l'identité et conscientes de la référence. Des techniques d'augmentation par masquage sont intégrées pour atténuer les artefacts de copier-coller fréquents dans la génération de vidéos à partir de références. De plus, Saber démontre des capacités de généralisation remarquables avec un nombre variable de références et obtient des performances supérieures sur le benchmark OpenS2V-Eval par rapport aux méthodes entraînées avec des données R2V.
Les systèmes multi-agents basés sur de grands modèles de langage (LLM) sont difficiles à déboguer car les défaillances émergent souvent de traces d'interaction longues et ramifiées. La pratique courante consiste à exploiter les LLM pour la localisation des erreurs basée sur les journaux, en attribuant les fautes à un agent et une étape spécifiques. Cependant, ce paradigme présente deux limitations majeures : (i) le débogage par journaux seul manque de validation, produisant des hypothèses non testées, et (ii) l'attribution à une seule étape ou un seul agent est souvent mal posée, car nous constatons que plusieurs interventions distinctes peuvent réparer indépendamment la tâche défaillante. Pour résoudre la première limitation, nous présentons DoVer, un cadre de débogage piloté par l'intervention, qui enrichit la génération d'hypothèses par une vérification active via des interventions ciblées (par exemple, modifier des messages, ajuster des plans). Pour la seconde limitation, plutôt que d'évaluer la précision de l'attribution, nous nous concentrons sur la mesure de la capacité du système à résoudre l'échec ou à réaliser des progrès quantifiables vers la réussite de la tâche, reflétant une vision plus orientée résultats du débogage. Au sein du cadre agent Magnetic-One, sur les jeux de données dérivés de GAIA et AssistantBench, DoVer transforme 18 à 28 % des essais échoués en succès, réalise jusqu'à 16 % de progrès vers des étapes clés, et valide ou réfute 30 à 60 % des hypothèses d'échec. DoVer performe également efficacement sur un autre jeu de données (GSMPlus) et cadre agent (AG2), où il récupère 49 % des essais échoués. Ces résultats soulignent l'intervention comme un mécanisme pratique pour améliorer la fiabilité des systèmes agentiques et ouvrent des perspectives pour des méthodes de débogage plus robustes et évolutives pour les systèmes multi-agents basés sur les LLM. Le site web du projet et le code seront disponibles à l'adresse https://aka.ms/DoVer.
Nous étudions l'édition de vidéos égocentriques guidée par instructions pour des applications de RA interactives. Bien que les éditeurs vidéo IA récents obtiennent de bons résultats sur des séquences à la troisième personne, les vues égocentriques présentent des défis uniques - incluant les mouvements égocentriques rapides et les interactions fréquentes main-objet - qui créent un écart de domaine significatif. De plus, les pipelines d'édition hors ligne existants souffrent d'une latence élevée, limitant l'interaction en temps réel. Pour résoudre ces problèmes, nous présentons un écosystème complet pour l'édition vidéo égocentrique. Premièrement, nous construisons EgoEditData, un ensemble de données soigneusement conçu et manuellement organisé spécifiquement conçu pour les scénarios d'édition égocentrique, comportant de riches interactions main-objet tout en préservant explicitement les mains. Deuxièmement, nous développons EgoEdit, un éditeur vidéo égocentrique suivant les instructions qui prend en charge l'inférence en flux continu en temps réel sur un seul GPU. Enfin, nous introduisons EgoEditBench, une suite d'évaluation ciblant la fidélité aux instructions, la préservation des mains et des interactions, et la stabilité temporelle sous mouvement égocentrique. Sur les tâches d'édition égocentriques et générales, EgoEdit produit des résultats temporellement stables et fidèles aux instructions avec une latence interactive. Il obtient des gains nets sur les benchmarks d'édition égocentrique - où les méthodes existantes peinent - tout en maintenant des performances comparables aux méthodes de référence les plus solides sur les tâches d'édition générales. EgoEditData et EgoEditBench seront rendus publics pour la communauté scientifique. Consultez notre site web à l'adresse https://snap-research.github.io/EgoEdit.
Les techniques récentes d'apprentissage par renforcement (RL) ont permis d'améliorer notablement les capacités de raisonnement des modèles de langage, mais on ignore encore si l'après-entraînement étend véritablement les capacités de raisonnement au-delà de ce que le modèle acquiert durant le pré-entraînement. Un défi majeur réside dans le manque de contrôle des pipelines d'entraînement modernes : les corpus de pré-entraînement à grande échelle sont opaques, l'entraînement intermédiaire est souvent sous-étudié, et les objectifs de RL interagissent de façon complexe avec des connaissances préalables inconnues. Pour résoudre cette ambiguïté, nous développons un cadre expérimental entièrement contrôlé qui isole les contributions causales du pré-entraînement, de l'entraînement intermédiaire et de l'après-entraînement par RL. Notre approche utilise des tâches de raisonnement synthétiques avec des opérations atomiques explicites, des traces de raisonnement étape par étape analysables, et une manipulation systématique des distributions d'entraînement. Nous évaluons les modèles selon deux axes : la généralisation extrapolative à des compositions plus complexes et la généralisation contextuelle à travers différents contextes de surface. En utilisant ce cadre, nous réconcilions les points de vue contradictoires sur l'efficacité du RL. Nous montrons que : 1) Le RL produit des gains réels de capacité (pass@128) uniquement lorsque le pré-entraînement laisse une marge de progression suffisante et lorsque les données de RL ciblent le seuil de compétence du modèle, c'est-à-dire des tâches à la frontière, difficiles mais pas encore hors de portée. 2) La généralisation contextuelle nécessite une exposition minimale mais suffisante lors du pré-entraînement, après quoi le RL peut assurer un transfert fiable. 3) L'entraînement intermédiaire améliore significativement les performances à budget de calcul fixe par rapport au RL seul, démontrant son rôle central mais sous-exploré dans les pipelines d'entraînement. 4) Les récompenses au niveau du processus réduisent le détournement de récompense et améliorent la fidélité du raisonnement. Ensemble, ces résultats clarifient l'interaction entre pré-entraînement, entraînement intermédiaire et RL, offrant une base pour comprendre et améliorer les stratégies d'entraînement des modèles de langage pour le raisonnement.
La plupart des modèles génératifs visuels compriment les images dans un espace latent avant d'appliquer une modélisation par diffusion ou autorégressive. Pourtant, les approches existantes telles que les VAE et les encodeurs alignés sur les modèles fondateurs contraignent implicitement l'espace latent sans façonner explicitement sa distribution, rendant incertain le type de distribution optimal pour la modélisation. Nous présentons le VAE à Appariement de Distribution (DMVAE), qui aligne explicitement la distribution latente de l'encodeur avec une distribution de référence arbitraire via une contrainte d'appariement de distribution. Cela généralise au-delà de l'a priori gaussien des VAE conventionnels, permettant un alignement avec des distributions dérivées de caractéristiques auto-supervisées, du bruit de diffusion, ou d'autres distributions a priori. Avec DMVAE, nous pouvons étudier systématiquement quelles distributions latentes sont plus propices à la modélisation, et nous constatons que les distributions dérivées de l'auto-supervision offrent un excellent équilibre entre fidélité de reconstruction et efficacité de modélisation, atteignant un gFID de 3.2 sur ImageNet avec seulement 64 époques d'entraînement. Nos résultats suggèrent que le choix d'une structure de distribution latente appropriée (obtenue via un alignement au niveau distributionnel), plutôt que de compter sur des a priori fixes, est essentiel pour combler l'écart entre des latentes faciles à modéliser et une synthèse d'images de haute fidélité. Le code est disponible à l'adresse https://github.com/sen-ye/dmvae.
Les humains ne perçoivent pas seulement la similarité attributive – ils perçoivent également la similarité relationnelle. Une pomme est semblable à une pêche parce que ce sont toutes deux des fruits rougeâtres, mais la Terre est aussi semblable à une pêche : sa croûte, son manteau et son noyau correspondent à la peau, la chair et le noyau de la pêche. Cette capacité à percevoir et reconnaître la similarité relationnelle est considérée par les scientifiques cognitifs comme ce qui distingue les humains des autres espèces. Pourtant, toutes les métriques de similarité visuelle largement utilisées aujourd'hui (par exemple, LPIPS, CLIP, DINO) se concentrent uniquement sur la similarité attributive perceptuelle et ne parviennent pas à capturer les riches similarités relationnelles, souvent surprenantes, que les humains perçoivent. Comment pouvons-nous dépasser le contenu visible d'une image pour capturer ses propriétés relationnelles ? Comment pouvons-nous rapprocher dans l'espace de représentation des images partageant la même logique relationnelle ? Pour répondre à ces questions, nous formulons d'abord la similarité relationnelle des images comme un problème mesurable : deux images sont relationnellement similaires lorsque leurs relations internes ou fonctions entre les éléments visuels correspondent, même si leurs attributs visuels diffèrent. Nous avons ensuite constitué un jeu de données de 114 000 images-légendes dans lequel les légendes sont anonymisées – décrivant la logique relationnelle sous-jacente de la scène plutôt que son contenu de surface. En utilisant ce jeu de données, nous affinons un modèle vision-langage pour mesurer la similarité relationnelle entre les images. Ce modèle constitue une première étape vers la connexion d'images par leur structure relationnelle sous-jacente plutôt que par leur apparence visible. Notre étude montre que si la similarité relationnelle a de nombreuses applications dans le monde réel, les modèles de similarité d'images existants échouent à la capturer – révélant ainsi une lacune critique dans l'informatique visuelle.
Nous proposons MVP (Multi-view Pyramid Transformer), une architecture de transformeur multi-vues évolutive qui reconstruit directement de grandes scènes 3D à partir de dizaines à des centaines d'images en une seule passe avant. S'inspirant de l'idée « regarder plus large pour voir l'ensemble, regarder plus fin pour voir les détails », MVP repose sur deux principes de conception fondamentaux : 1) une hiérarchie inter-vues locale-vers-globale qui élargit progressivement la perspective du modèle des vues locales vers des groupes, et finalement vers la scène entière, et 2) une hiérarchie intra-vues fine-vers-grossière qui part de représentations spatiales détaillées et les agrège progressivement en tokens compacts et riches en information. Cette double hiérarchie concilie efficacité computationnelle et richesse représentationnelle, permettant une reconstruction rapide de scènes vastes et complexes. Nous validons MVP sur divers jeux de données et montrons que, couplé au *3D Gaussian Splatting* comme représentation 3D sous-jacente, il atteint une qualité de reconstruction généralisable à l'état de l'art tout en maintenant une haute efficacité et une grande évolutivité pour une large gamme de configurations de vues.
Nous présentons LongCat-Image, un modèle fondateur pionnier, open-source et bilingue (chinois-anglais) pour la génération d'images, conçu pour relever les principaux défis liés au rendu de texte multilingue, au photoréalisme, à l'efficacité du déploiement et à l'accessibilité pour les développeurs, qui sont prévalents dans les modèles leaders actuels. 1) Nous y parvenons grâce à des stratégies rigoureuses de curation des données aux étapes de pré-entraînement, d'entraînement intermédiaire et de SFT (Supervised Fine-Tuning), complétées par l'utilisation coordonnée de modèles de récompense curés pendant la phase d'apprentissage par renforcement (RL). Cette stratégie établit le modèle comme un nouvel état de l'art (SOTA), offrant des capacités de rendu de texte supérieures, un photoréalisme remarquable et une qualité esthétique significativement améliorée. 2) Il établit notamment une nouvelle référence industrielle pour le rendu des caractères chinois. En prenant en charge même les caractères complexes et rares, il surpasse les principales solutions open-source et commerciales en termes de couverture, tout en atteignant une précision supérieure. 3) Le modèle atteint une efficacité remarquable grâce à sa conception compacte. Avec un modèle de diffusion principal de seulement 6 milliards de paramètres, il est nettement plus petit que les architectures de type Mixture-of-Experts (MoE) de près de 20 milliards de paramètres ou plus, courantes dans le domaine. Cela garantit une utilisation minimale de la VRAM et une inférence rapide, réduisant significativement les coûts de déploiement. Au-delà de la génération, LongCat-Image excelle également dans l'édition d'images, obtenant des résultats SOTA sur des benchmarks standard avec une cohérence d'édition supérieure par rapport aux autres travaux open-source. 4) Pour autonomiser pleinement la communauté, nous avons établi l'écosystème open-source le plus complet à ce jour. Nous publions non seulement plusieurs versions du modèle pour la génération et l'édition d'images, incluant des points de contrôle après les étapes d'entraînement intermédiaire et final, mais aussi la chaîne d'outils complète de la procédure d'entraînement. Nous croyons que l'ouverture de LongCat-Image fournira un soutien robuste aux développeurs et chercheurs, repoussant les frontières de la création de contenu visuel.
Les modèles récents de génération vidéo démontrent des capacités de synthèse impressionnantes mais restent limités par un conditionnement unimodal, ce qui restreint leur compréhension holistique du monde. Cette limitation provient d'une interaction cross-modale insuffisante et d'une diversité modale limitée pour une représentation complète des connaissances du monde. Pour résoudre ces problèmes, nous présentons UnityVideo, un framework unifié pour la génération vidéo consciente du monde qui apprend conjointement à partir de multiples modalités (masques de segmentation, squelettes humains, DensePose, flux optique et cartes de profondeur) et de paradigmes d'entraînement. Notre approche comporte deux composants principaux : (1) un bruitage dynamique pour unifier les paradigmes d'entraînement hétérogènes, et (2) un commutateur de modalité avec un apprenant contextuel qui permet un traitement unifié via des paramètres modulaires et un apprentissage contextuel. Nous contribuons avec un jeu de données unifié à grandechelle contenant 1,3 million d'échantillons. Grâce à une optimisation conjointe, UnityVideo accélère la convergence et améliore significativement la généralisation à zéro-shot sur des données non vues. Nous démontrons qu'UnityVideo atteint une qualité vidéo supérieure, une meilleure cohérence et une meilleure adéquation avec les contraintes du monde physique. Le code et les données sont disponibles à l'adresse : https://github.com/dvlab-research/UnityVideo
Les grands modèles de vision et langage (VLM) comblent efficacement l'écart de modalité grâce à un pré-entraînement extensif, acquérant des représentations visuelles sophistiquées alignées avec le langage. Cependant, il reste peu exploré si ces représentations, optimisées pour les tâches de compréhension multimodale, recèlent un potentiel inhérent pour la génération visuelle. Dans cet article, nous proposons VGT (Visual Generation Tuning), un nouveau paradigme conçu pour stimuler les capacités sous-jacentes de génération visuelle au sein de tout modèle de vision et langage. En effectuant un réglage efficace de la génération visuelle sur des VLM bien pré-entraînés, nous réduisons significativement les coûts d'alignement et accélérons la convergence de la modélisation autorégressive dans l'espace continu (accélération de 20x). Spécifiquement, nous écartons les VAE au niveau pixel entrelacés conçus pour les transformeurs de diffusion et formulons VGT-AE en alignant les encodeurs sémantiques de VLM pré-entraînés avec les représentations latentes des décodeurs pixel. Dans les tâches de reconstruction d'image, nous atteignons 26,67 PSNR et 0,50 rFID à un taux de compression de 28x, surpassant les VAE spécialisés ; dans les tâches de génération visuelle, nous obtenons des résultats state-of-the-art parmi les modèles autorégressifs, avec 0,77 sur GenEval et 78,73 sur DPG-Bench. De plus, notre VGT proposé démontre un potentiel d'évolutivité significatif et est polyvalent pour doter tout VLM entraîné à la compréhension multimodale de capacités de génération visuelle, ouvrant ainsi une nouvelle voie pour explorer les modèles fondateurs multimodaux unifiés de nouvelle génération. Les modèles et codes sont disponibles à l'adresse https://github.com/hustvl/VGT.
Les modèles de récompense de processus (PRM) qui fournissent un retour d'évaluation dense au niveau des étapes ont montré leur potentiel pour l'apprentissage par renforcement, mais leur adoption reste limitée par le besoin d'annotations coûteuses au niveau des étapes ou de références de vérité terrain. Nous proposons SPARK : un framework en trois étapes où, dans la première phase, un modèle générateur produit des solutions diverses et un modèle vérificateur les évalue en utilisant un scaling parallèle (auto-cohérence) et un scaling séquentiel (méta-critique). Dans la deuxième étape, nous utilisons ces sorties de vérification comme données d'entraînement synthétiques pour affiner des modèles génératifs de récompense de processus, qui servent ensuite de signaux de récompense pendant l'entraînement. Nous montrons que l'agrégation de multiples vérifications indépendantes au niveau des étapes produit des données d'entraînement pour les modèles de récompense de processus qui surpassent la supervision par vérité terrain des résultats, atteignant 67,5 F1 sur ProcessBench (un benchmark pour identifier les étapes erronées dans le raisonnement mathématique) contre 66,4 pour l'entraînement guidé par référence et 61,9 pour GPT-4o. Dans la phase finale, nous appliquons notre PRM génératif avec vérification par chaîne de pensée (PRM-CoT) comme modèle de récompense dans des expériences de RL sur le raisonnement mathématique, et introduisons des contraintes de format pour prévenir le détournement de récompense. En utilisant Qwen2.5-Math-7B, nous atteignons une précision moyenne de 47,4 % sur six benchmarks de raisonnement mathématique, surpassant la méthode RLVR basée sur la vérité terrain (43,9 %). Notre travail permet un entraînement par RL sans référence qui surpasse les méthodes utilisant la vérité terrain, ouvrant de nouvelles possibilités pour les domaines dépourvus de réponses vérifiables ou d'accès à une vérité terrain.
Le raisonnement visuel intégré aux outils (TiVR) a démontré un grand potentiel pour améliorer la résolution de problèmes multimodaux. Cependant, les paradigmes existants de TiVR se concentrent principalement sur l'intégration de divers outils visuels par apprentissage par renforcement, tout en négligeant la conception de mécanismes de réponse efficaces pour traiter les sorties d'outils peu fiables ou erronées. Cette limitation est particulièrement prononcée dans les tâches de référencement et d'ancrage, où les prédictions inexactes des outils de détection induisent souvent les modèles TiVR en erreur, générant un raisonnement halluciné. Pour résoudre ce problème, nous proposons le VG-Refiner, le premier cadre visant un raisonnement ancré par référencement raffiné par outil. Techniquement, nous introduisons un mécanisme à deux étapes de réflexion-reconsidération qui permet au modèle d'analyser et de répondre explicitement aux retours des outils, ainsi qu'une récompense de raffinement qui encourage une correction efficace face à de mauvais résultats d'outils. De plus, nous proposons deux nouvelles métriques et établissons des protocoles d'évaluation équitables pour mesurer systématiquement la capacité de raffinement des modèles actuels. Nous adoptons une petite quantité de données spécifiques à la tâche pour renforcer la capacité de raffinement de VG-Refiner, obtenant une amélioration significative de la précision et de la capacité de correction sur des benchmarks de référencement et d'ancrage raisonné, tout en préservant les capacités générales du modèle préentraîné.
Nous proposons ReCamDriving, un cadre de génération de vidéos à nouvelles trajectoires purement basé sur la vision et contrôlé par caméra. Alors que les méthodes de réparation échouent à restaurer les artéfacts complexes et que les approches basées sur le LiDAR s'appuient sur des indices épars et incomplets, ReCamDriving exploite des rendus 3DGS denses et complets de la scène pour fournir un guidage géométrique explicite, permettant une génération précise et contrôlable par la caméra. Pour atténuer le surapprentissage aux comportements de restauration lors du conditionnement sur les rendus 3DGS, ReCamDriving adopte un paradigme d'entraînement en deux étapes : la première étape utilise les poses de caméra pour un contrôle grossier, tandis que la deuxième étape intègre les rendus 3DGS pour un guidage géométrique et de point de vue plus fin. De plus, nous présentons une stratégie de curation de données inter-trajectoires basée sur le 3DGS pour éliminer l'écart entre l'entraînement et les tests dans les patterns de transformation de caméra, permettant une supervision multi-trajectoires évolutive à partir de vidéos monoculaires. Sur la base de cette stratégie, nous constituons le jeu de données ParaDrive, contenant plus de 110 000 paires de vidéos à trajectoires parallèles. Des expériences approfondies démontrent que ReCamDriving atteint un état de l'art en matière de contrôlabilité de la caméra et de cohérence structurelle.
Les récents progrès des modèles de langage multimodaux (MLLMs) ont permis le développement de capacités unifiées de perception et de raisonnement. Cependant, ces systèmes restent très vulnérables aux attaques de contournement (« jailbreak ») qui neutralisent les mécanismes de sécurité et induisent des comportements nuisibles. Les référentiels existants, tels que JailBreakV-28K, MM-SafetyBench et HADES, offrent des informations précieuses sur les vulnérabilités multimodales, mais ils se concentrent généralement sur des scénarios d'attaque limités, manquent d'une évaluation standardisée des défenses et ne fournissent pas de boîte à outils unifiée et reproductible. Pour combler ces lacunes, nous présentons OmniSafeBench-MM, une boîte à outils complète pour l'évaluation des attaques et défenses de contournement multimodal. OmniSafeBench-MM intègre 13 méthodes d'attaque représentatives, 15 stratégies de défense et un jeu de données diversifié couvrant 9 domaines de risque principaux et 50 catégories fines, structuré selon des types de requêtes consultatives, impératives et déclaratives pour refléter les intentions réalistes des utilisateurs. Au-delà de la couverture des données, il établit un protocole d'évaluation tridimensionnel mesurant (1) la nocivité, distinguée par une échelle granulaire et multi-niveaux allant des préjudices individuels à faible impact aux menaces sociétales catastrophiques, (2) l'alignement de l'intention entre les réponses et les requêtes, et (3) le niveau de détail des réponses, permettant une analyse nuancée de l'équilibre sécurité-utilité. Nous menons des expériences approfondies sur 10 MLLMs open-source et 8 MLLMs propriétaires pour révéler leur vulnérabilité au contournement multimodal. En unifiant les données, la méthodologie et l'évaluation dans une plateforme open-source et reproductible, OmniSafeBench-MM fournit une base standardisée pour la recherche future. Le code est disponible à l'adresse https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
Malgré les progrès prometteurs dans la génération d'images pilotée par un sujet, les modèles actuels s'écartent souvent des identités de référence et peinent dans les scènes complexes comportant plusieurs sujets. Pour relever ce défi, nous présentons OpenSubject, un vaste corpus dérivé de vidéos contenant 2,5 millions d'échantillons et 4,35 millions d'images destiné à la génération et à la manipulation pilotées par un sujet. Le jeu de données est construit selon un pipeline en quatre étapes qui exploite des préalables d'identité inter-images. (i) Curatation de vidéos. Nous appliquons des filtres de résolution et d'esthétique pour obtenir des séquences de haute qualité. (ii) Extraction et appariement de sujets inter-images. Nous utilisons un consensus de catégorie basé sur un modèle vision-langage (VLM), un ancrage local et un appariement tenant compte de la diversité pour sélectionner des paires d'images. (iii) Synthèse d'images de référence préservant l'identité. Nous introduisons un prolongement guidé par une carte de segmentation pour synthétiser les images d'entrée pour la génération pilotée par un sujet, et un remplissage guidé par une boîte pour générer les images d'entrée pour la manipulation pilotée par un sujet, accompagnés d'augmentations géométriques et d'une érosion des contours irréguliers. (iv) Vérification et légendage. Nous utilisons un VLM pour valider les échantillons synthétisés, resynthétiser les échantillons échoués sur la base de l'étape (iii), puis construire des légendes courtes et longues. De plus, nous introduisons un benchmark couvrant la génération et la manipulation pilotées par un sujet, puis nous évaluons la fidélité à l'identité, l'adhésion à l'invite, la cohérence de la manipulation et la cohérence de l'arrière-plan à l'aide d'un juge VLM. Des expériences approfondies montrent que l'entraînement avec OpenSubject améliore les performances de génération et de manipulation, en particulier dans les scènes complexes.
La régression basée sur le décodage, qui reformule la régression comme une tâche de génération de séquence, est apparue comme un paradigme prometteur pour appliquer les grands modèles de langage à la prédiction numérique. Cependant, ses progrès sont entravés par le désalignement entre les objectifs discrets au niveau des tokens (par exemple, l'entropie croisée) et les valeurs numériques continues. Les approches existantes reposant sur des contraintes au niveau des tokens échouent souvent à capturer l'ampleur globale de la valeur cible, limitant ainsi leur précision et leur généralisation. Dans cet article, nous proposons de libérer le potentiel de la régression basée sur le décodage via l'Apprentissage par Renforcement (AR). Nous formulons le processus de génération comme un Processus de Décision Markovien, en utilisant des récompenses au niveau de la séquence pour imposer une cohérence numérique globale. Des expériences approfondies sur la régression tabulaire et la régression de métriques de code démontrent que notre méthode (spécifiquement avec ReMax et GRPO) surpasse systématiquement à la fois les approches de référence au niveau des tokens les plus avancées et les têtes de régression traditionnelles, montrant la supériorité de l'introduction de signaux au niveau de la séquence. Notre analyse révèle en outre que l'AR améliore significativement l'efficacité d'échantillonnage et la précision prédictive, établissant la régression basée sur le décodage comme un paradigme robuste et précis pour la prédiction numérique à usage général.
Les modèles génératifs visuels (par exemple, les modèles de diffusion) opèrent généralement dans des espaces latents compressés pour équilibrer l'efficacité de l'entraînement et la qualité des échantillons. Parallèlement, l'intérêt s'accroît pour l'exploitation de représentations visuelles pré-entraînées de haute qualité, soit en les alignant dans des VAE, soit directement au sein du modèle génératif. Cependant, l'adaptation de telles représentations reste difficile en raison d'incompatibilités fondamentales entre les caractéristiques orientées compréhension et les espaces latents adaptés à la génération. Les encodeurs de représentation bénéficient de latents de haute dimension qui capturent des hypothèses diverses pour les régions masquées, tandis que les modèles génératifs privilégient des latents de faible dimension qui doivent préserver fidèlement le bruit injecté. Cette divergence a conduit les travaux antérieurs à recourir à des objectifs et architectures complexes. Dans ce travail, nous proposons FAE (Feature Auto-Encoder), un cadre simple mais efficace qui adapte les représentations visuelles pré-entraînées en latents de faible dimension adaptés à la génération en utilisant seulement une couche d'attention, tout en conservant suffisamment d'informations pour la reconstruction et la compréhension. La clé est de coupler deux décodeurs profonds distincts : l'un entraîné à reconstruire l'espace de caractéristiques original, et un second qui prend les caractéristiques reconstruites en entrée pour la génération d'images. FAE est générique ; il peut être instancié avec divers encodeurs auto-supervisés (par exemple, DINO, SigLIP) et intégré à deux familles génératives distinctes : les modèles de diffusion et les flots de normalisation. Sur des benchmarks de génération conditionnée par classe et de texte-à-image, FAE obtient de solides performances. Par exemple, sur ImageNet 256x256, notre modèle de diffusion avec CFG atteint un FID quasi-state-of-the-art de 1,29 (800 époques) et 1,70 (80 époques). Sans CFG, FAE atteint le FID state-of-the-art de 1,48 (800 époques) et 2,08 (80 époques), démontrant à la fois une haute qualité et un apprentissage rapide.
Nous présentons GRAPE (Group RepresentAtional Position Encoding), un cadre unifié pour l'encodage positionnel basé sur les actions de groupe. GRAPE réunit deux familles de mécanismes : (i) les rotations multiplicatives (GRAPE Multiplicatif) dans SO(d) et (ii) les biais log-additifs (GRAPE Additif) résultant d'actions unipotentes dans le groupe linéaire général GL. Dans GRAPE Multiplicatif, une position n dans Z (ou t dans R) agit comme G(n)=exp(n,ω,L) avec un générateur antisymétrique de rang 2 L dans R^{d × d}, produisant une application relative, compositionnelle, norme-préservante avec une exponentielle matricielle de forme close. RoPE est retrouvée exactement lorsque les d/2 plans sont les paires de coordonnées canoniques avec un spectre log-uniforme. Les sous-espaces commutatifs appris et les mélanges compacts non commutatifs étendent strictement cette géométrie pour capturer le couplage des caractéristiques inter-sous-espaces à un coût par tête de O(d) et O(r d), respectivement. Dans GRAPE Additif, les logits additifs émergent comme des actions unipotentes de rang 1 (ou faible rang), retrouvant ALiBi et le Forgetting Transformer (FoX) comme cas spéciaux exacts tout en préservant une loi relative exacte et une capacité de mise en cache en flux continu. Globalement, GRAPE fournit un espace de conception principiel pour la géométrie positionnelle dans les modèles à contexte long, subsumant RoPE et ALiBi comme cas particuliers. Page du projet : https://github.com/model-architectures/GRAPE.
Les récents progrès des modèles génératifs autorégressifs (AR) ont donné naissance à des systèmes de synthèse de médias de plus en plus performants. Parmi eux, la prédiction multi-échelle est apparue comme un paradigme populaire, où les modèles génèrent des images de manière grossière à fine. Cependant, les modèles AR multi-échelles souffrent d'un biais d'exposition, ce qui nuit à la qualité de la génération. Nous identifions deux causes principales à ce problème : (1) le décalage entraînement-inférence, où le modèle doit s'appuyer sur ses propres prédictions imparfaites lors de l'inférence, et (2) un déséquilibre dans la difficulté d'apprentissage à chaque échelle, où certaines échelles présentent une complexité d'optimisation disproportionnellement plus élevée. Par une analyse approfondie de la dynamique d'entraînement, nous proposons l'Affinage Auto-Autorégressif (SAR) pour remédier à ces limitations. SAR introduit un mécanisme de Déploiement à Échelles Décalées (SSR) qui effectue des déploiements autorégressifs légers pour exposer le modèle à ses propres prédictions intermédiaires, alignant ainsi les patterns d'entraînement et d'inférence, ainsi qu'une fonction de perte complémentaire de Forçage de l'Étudiant par Contraste (CSFL) qui fournit une supervision adéquate pour les contextes auto-générés afin d'assurer un entraînement stable. Les résultats expérimentaux montrent que l'application de SAR à des modèles AR pré-entraînés améliore constamment la qualité de génération avec une surcharge computationnelle minime. Par exemple, SAR permet une réduction du FID de 5,2 % sur FlexVAR-d16 entraîné sur ImageNet 256 en seulement 10 époques (5 heures sur 32 GPU A100). Compte tenu de son efficacité, de son extensibilité et de son efficacité, nous estimons que SAR peut servir de méthode fiable de post-entraînement pour la génération visuelle autorégressive.
Les modèles vision-langage (VLM) récents atteignent des capacités de raisonnement remarquables grâce à l'apprentissage par renforcement (RL), offrant une solution viable pour réaliser des grands modèles vision-langage (LVLM) à évolution continue à l'ère de l'expérience. Cependant, le RL pour les VLM nécessite d'abondantes données multimodales de haute qualité, ce qui s'avère particulièrement difficile dans des domaines spécialisés comme la chimie, les sciences de la Terre et les mathématiques multimodales. Les stratégies existantes, telles que les données synthétiques et les mécanismes d'auto-récompense, souffrent de distributions limitées et de difficultés d'alignement, conduisant finalement au détournement de récompense : les modèles exploitent des motifs à forte récompense, effondrant l'entropie de la politique et déstabilisant l'entraînement. Nous proposons DoGe (Découpler pour Généraliser), un cadre à double découplage qui guide les modèles à apprendre d'abord du contexte plutôt qu'à résoudre des problèmes en se recentrant sur les scénarios contextuels négligés par les méthodes à données synthétiques. En découplant le processus d'apprentissage en deux composantes (Penseur et Solveur), nous quantifions raisonnablement les signaux de récompense de ce processus et proposons une approche de post-entraînement RL en deux étapes, allant de l'exploration libre du contexte à la résolution pratique des tâches. Deuxièmement, pour augmenter la diversité des données d'entraînement, DoGe construit un pipeline évolutif d'apprentissage curriculaire : un corpus étendu de connaissances du domaine natif et un pool de problèmes sources à évolution itérative. Les expériences montrent que notre méthode surpasse constamment la baseline sur divers benchmarks, offrant une voie évolutive pour réaliser des LVLM auto-évolutifs.
La généralisation en robotique de manipulation est essentielle pour déployer des robots dans des environnements ouverts et progresser vers l'intelligence artificielle générale. Bien que les modèles Vision-Langage-Action (VLA) récents exploitent de grands modèles de compréhension pré-entraînés pour la perception et le suivi d'instructions, leur capacité à généraliser à de nouvelles tâches, objets et contextes reste limitée. Dans ce travail, nous présentons VideoVLA, une approche simple qui explore le potentiel de transformation de grands modèles de génération vidéo en manipulateurs robotiques VLA. Étant donné une instruction langagière et une image, VideoVLA prédit une séquence d'actions ainsi que les résultats visuels futurs. Construit sur un Transformeur à Diffusion multimodal, VideoVLA modélise conjointement les modalités vidéo, langage et action, en utilisant des modèles génératifs vidéo pré-entraînés pour la prévision visuelle et actionnelle conjointe. Nos expériences montrent que des futurs imaginés de haute qualité corrèlent avec des prédictions d'actions fiables et la réussite des tâches, soulignant l'importance de l'imagination visuelle en manipulation. VideoVLA démontre une forte généralisation, incluant l'imitation de compétences d'autres incarnations et la manipulation de nouveaux objets. Cette stratégie de double prédiction - prévoir à la fois les actions et leurs conséquences visuelles - explore un changement de paradigme dans l'apprentissage robotique et libère des capacités de généralisation dans les systèmes de manipulation.
Les systèmes de dialogue à contexte long souffrent d’inertie d’état, où des contraintes statiques empêchent les modèles de résoudre les conflits entre les intentions évolutives de l’utilisateur et le contexte historique établi. Pour y remédier, nous proposons DZ-TDPO, un cadre d’alignement non destructif qui combine des contraintes KL dynamiques sensibles aux conflits avec un biais d’attention temporelle calibré. Les expériences sur le jeu de données Multi-Session Chat (MSC) montrent que DZ-TDPO atteint des taux de victoire à la pointe (55,4 % sur Phi-3.5) tout en maintenant une généralisation robuste en zero-shot. Notre analyse d’échelle révèle un « compromis capacité-stabilité » : si les petits modèles subissent une « taxe d’alignement » (augmentation de la perplexité) pour surmonter l’inertie historique, le modèle plus large Qwen2.5-7B atteint un taux de victoire de 50,8 % avec une surcharge de perplexité négligeable. Cela confirme que l’inertie d’attention temporelle peut être atténuée par une régulation précise de l’attention plutôt que par des mises à jour destructrices des poids, préservant ainsi les capacités générales (MMLU) quelle que soit l’échelle du modèle. Le code et les données sont disponibles à l’adresse : https://github.com/lyj20071013/DZ-TDPO
Alors que les robots investissent les espaces de travail humains, il est crucial qu'ils comprennent les instructions incarnées des personnes pour permettre une interaction homme-robot (HRI) intuitive et fluide. Cependant, une compréhension précise est difficile en raison du manque de jeux de données à grande échelle capturant des interactions incarnées naturelles dans divers contextes de HRI. Les jeux de données existants souffrent de biais de perspective, d'une collecte à vue unique, d'une couverture inadéquate des gestes non verbaux et d'une focalisation prédominante sur les environnements intérieurs. Pour résoudre ces problèmes, nous présentons le jeu de données Refer360, une collection à grande échelle d'interactions verbales et non verbales incarnées, recueillies sous divers angles de vue dans des environnements intérieurs et extérieurs. De plus, nous introduisons MuRes, un module résiduel guidé multimodal conçu pour améliorer la compréhension des expressions de référence incarnées. MuRes agit comme un goulot d'étranglement informationnel, extrayant les signaux saillants spécifiques à chaque modalité et les renforçant dans des représentations pré-entraînées pour former des caractéristiques complémentaires pour les tâches en aval. Nous menons des expériences approfondies sur quatre jeux de données HRI, incluant Refer360, et démontrons que les modèles multimodaux actuels ne parviennent pas à capturer de manière exhaustive les interactions incarnées ; cependant, les augmenter avec MuRes améliore constamment leurs performances. Ces résultats établissent Refer360 comme un benchmark précieux et montrent le potentiel de l'apprentissage résiduel guidé pour faire progresser la compréhension des expressions de référence incarnées chez les robots opérant dans des environnements humains.
Les garanties de convergence classiques pour l'apprentissage par gradient dans les jeux nécessitent que le pseudo-gradient soit (fortement) monotone dans la géométrie euclidienne, comme l'a montré Rosen (1965), une condition qui échoue souvent même dans des jeux simples avec des couplages forts entre joueurs. Nous présentons Small-Gain Nash (SGN), une condition de petit gain par blocs dans une géométrie personnalisée à pondération par blocs. SGN transforme les bornes locales de courbure et de couplage Lipschitz entre joueurs en un certificat traitable de contraction. Elle construit une métrique par blocs pondérée dans laquelle le pseudo-gradient devient fortement monotone sur toute région où ces bornes sont valides, même lorsqu'il est non-monotone au sens euclidien. Le flot continu est exponentiellement contractant dans cette géométrie conçue, et les discrétisations par Euler projeté et RK4 convergent sous des bornes de pas explicites dérivées de la marge SGN et d'une constante de Lipschitz locale. Notre analyse révèle une « bande d'échelles de temps certifiée », un certificat non asymptotique et métrique qui joue un rôle similaire à TTUR : plutôt que de forcer une séparation asymptotique des échelles de temps via des pas de temps inégaux et s'annulant, SGN identifie une bande finie de poids métriques relatifs pour laquelle une dynamique à pas unique est prouvablement contractante. Nous validons le cadre sur des jeux quadratiques où l'analyse de monotonie euclidienne échoue à prédire la convergence, mais où SGN la certifie avec succès, et étendons la construction aux géométries miroir/Fisher pour le gradient de politique régularisé par l'entropie dans les jeux de Markov. Le résultat est un pipeline de certification hors ligne qui estime les paramètres de courbure, de couplage et de Lipschitz sur des régions compactes, optimise les poids des blocs pour agrandir la marge SGN, et retourne un certificat de convergence structurel et calculable consistant en une métrique, un taux de contraction et des pas de temps sûrs pour les jeux non-monotones.
L'autoencodeur variationnel à quantification vectorielle (VQ-VAE) est un autoencodeur discret qui compresse les images en tokens discrets. Son entraînement est difficile en raison de la discrétisation. Dans cet article, nous proposons une technique simple mais efficace, baptisée Gaussian Quant (GQ), qui convertit un VAE gaussien avec une certaine contrainte en un VQ-VAE sans entraînement. GQ génère un bruit gaussien aléatoire comme livre de codes et trouve le bruit le plus proche de la moyenne a posteriori. Théoriquement, nous prouvons que lorsque le logarithme de la taille du livre de codes dépasse le taux de codage "bits-back" du VAE gaussien, une faible erreur de quantification est garantie. Pratiquement, nous proposons une heuristique pour entraîner le VAE gaussien en vue d'une GQ efficace, nommée contrainte de divergence cible (TDC). Empiriquement, nous montrons que GQ surpasse les VQ-VAE précédents, tels que VQGAN, FSQ, LFQ et BSQ, sur les architectures UNet et ViT. De plus, TDC améliore également les méthodes de discrétisation précédentes pour VAE gaussiens, comme TokenBridge. Le code source est disponible à l'adresse https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
Les travaux récents sur la traduction de texte structuré se limitent encore au niveau de la phrase, car ils peinent à gérer efficacement les structures complexes de documents XML ou HTML au niveau documentaire. Pour remédier à cela, nous proposons le Renforcement de l'Apprentissage par le Format (FormatRL), qui utilise l'Optimisation de Politique Relative par Groupe sur un modèle pré-entraîné supervisé afin d'optimiser directement de nouvelles récompenses sensibles à la structure : 1) TreeSim, qui mesure la similarité structurelle entre les arbres XML prédits et de référence, et 2) Node-chrF, qui évalue la qualité de traduction au niveau des nœuds XML. De plus, nous appliquons StrucAUC, une métrique fine distinguant les erreurs mineures des échecs structurels majeurs. Les expériences sur le benchmark de documentation logicielle SAP démontrent des améliorations sur six métriques, et une analyse montre comment différentes fonctions de récompense contribuent aux améliorations tant structurelles que de qualité de traduction.
Nous présentons un cadre auto-supervisé à deux étages qui combine l'Architecture Prédictive à Codage Conjoint (JEPA) avec un Mécanisme d'Attention à Densité Adaptative (DAAM) pour l'apprentissage de représentations robustes de la parole. L'étape~1 utilise la JEPA avec le DAAM pour apprendre des caractéristiques audio sémantiques via une prédiction masquée dans l'espace latent, entièrement découplée de la reconstruction de la forme d'onde. L'étape~2 exploite ces représentations pour une tokenisation efficace à l'aide de la Quantification Scalaire Finie (FSQ) et d'un schéma d'empaquetage à base mixte, suivie d'une reconstruction de forme d'onde haute fidélité avec un décodeur HiFi-GAN. En intégrant un mécanisme d'activation basé sur un mélange gaussien à densité adaptative dans l'encodeur JEPA, le modèle effectue une sélection adaptative des caractéristiques temporelles et découvre une structure hiérarchique de la parole à une faible fréquence d'images de 2,5~Hz. Les tokens résultants (47,5 tokens/sec) fournissent une représentation réversible, hautement compressée et adaptée aux modèles de langage, qui est compétitive avec, et souvent plus efficace que, les codecs audio neuronaux existants.
Ce document étudie la discontinuité fondamentale entre les deux derniers modèles Segment Anything : SAM2 et SAM3. Nous expliquons pourquoi l'expertise en segmentation par prompt de SAM2 ne se transpose pas au paradigme conceptuel multimodal de SAM3. SAM2 fonctionne via des prompts spatiaux (points, boîtes, masques) produisant une segmentation purement géométrique et temporelle. En revanche, SAM3 introduit une architecture unifiée vision-langage capable de raisonnement en vocabulaire ouvert, d'ancrage sémantique, d'alignement contrastif et de compréhension conceptuelle par exemplaires. Nous structurons cette analyse autour de cinq composantes principales : (1) une Rupture Conceptuelle entre la Segmentation par Prompt et la Segmentation par Concept, contrastant la sémantique des prompts spatiaux de SAM2 avec la fusion multimodale et la génération de masques conditionnés par le texte de SAM3 ; (2) une Divergence Architecturale, détaillant la conception purement visuelle et temporelle de SAM2 par rapport à l'intégration dans SAM3 d'encodeurs vision-langage, d'encodeurs géométriques et d'exemplaires, de modules de fusion, de décodeurs de type DETR, de requêtes d'objets et de gestion de l'ambiguïté via un mélange d'experts (Mixture-of-Experts) ; (3) les Différences de Jeux de Données et d'Annotations, contrastant les masques vidéo SA-1B de SAM2 avec les corpus annotés de concepts multimodaux de SAM3 ; (4) les Distinctions en matière d'Entraînement et d'Hyperparamètres, montrant pourquoi les connaissances d'optimisation de SAM2 ne s'appliquent pas à SAM3 ; et (5) l'Évaluation, les Métriques et les Modes d'Échec, décrivant la transition des métriques géométriques d'IoU vers une évaluation sémantique en vocabulaire ouvert. Ensemble, ces analyses établissent SAM3 comme une nouvelle classe de modèle fondationnel de segmentation et tracent les orientations futures pour l'ère émergente de la segmentation pilotée par les concepts.