Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les graphiques vectoriels évolutifs (SVG) constituent un format d'image important largement adopté dans le domaine de la conception graphique en raison de leur indépendance à la résolution et de leur capacité d'édition. L'étude de la génération de SVG de haute qualité a continuellement attiré l'attention des concepteurs et des chercheurs de la communauté AIGC. Cependant, les méthodes existantes produisent soit des résultats non structurés avec un coût de calcul élevé, soit se limitent à générer des icônes monochromes aux structures trop simplifiées. Pour produire des SVG complexes et de haute qualité, nous proposons OmniSVG, un cadre unifié qui exploite des modèles vision-langage pré-entraînés (VLMs) pour la génération multimodale de SVG de bout en bout. En paramétrant les commandes et les coordonnées SVG en tokens discrets, OmniSVG découple la logique structurelle de la géométrie de bas niveau pour un entraînement efficace tout en conservant l'expressivité des structures SVG complexes. Pour faire progresser le développement de la synthèse SVG, nous introduisons MMSVG-2M, un ensemble de données multimodales contenant deux millions d'actifs SVG richement annotés, ainsi qu'un protocole d'évaluation standardisé pour les tâches de génération conditionnelle de SVG. Des expériences approfondies montrent qu'OmniSVG surpasse les méthodes existantes et démontre son potentiel d'intégration dans les flux de travail professionnels de conception SVG.
Les grands modèles de langage (LLMs) ont démontré leur capacité à traiter des tâches de plus en plus complexes grâce à un raisonnement avancé, la génération de contenus longs et l'utilisation d'outils. La résolution de ces tâches implique souvent des calculs longs au moment de l'inférence. Dans la résolution de problèmes humains, une stratégie courante pour accélérer le travail est la collaboration : en divisant le problème en sous-tâches, en explorant différentes stratégies de manière concurrente, etc. Des recherches récentes ont montré que les LLMs peuvent également fonctionner en parallèle en mettant en œuvre des cadres de coopération explicites, tels que des mécanismes de vote ou la création explicite de sous-tâches indépendantes pouvant être exécutées en parallèle. Cependant, chacun de ces cadres peut ne pas être adapté à tous les types de tâches, ce qui peut limiter leur applicabilité. Dans ce travail, nous proposons une approche de conception différente : nous exécutons des "travailleurs" LLM en parallèle, en leur permettant de se synchroniser via un cache d'attention mis à jour de manière concurrente, et en incitant ces travailleurs à décider de la meilleure manière de collaborer. Notre approche permet aux instances de concevoir leur propre stratégie de collaboration pour le problème en cours, tout en "voyant" les progrès partiels des autres dans le cache concurrent. Nous implémentons cette approche via Hogwild! Inference : un moteur d'inférence parallèle pour LLM où plusieurs instances du même LLM fonctionnent en parallèle avec le même cache d'attention, avec un accès "instantané" aux tokens générés par les autres. Hogwild! Inference tire parti des Rotary Position Embeddings (RoPE) pour éviter les recalculs tout en améliorant l'utilisation du matériel parallèle. Nous constatons que les LLM modernes capables de raisonnement peuvent effectuer une inférence avec un cache Key-Value partagé sans nécessiter de réglage supplémentaire.
Nous présentons Skywork R1V, un modèle de raisonnement multimodal étendant les modèles de langage de grande taille (LLM) de la série R1 aux modalités visuelles via une méthode de transfert multimodal efficace. En s'appuyant sur un projecteur visuel léger, Skywork R1V facilite une adaptation multimodale fluide sans nécessiter de réentraînement du modèle de langage de base ou de l'encodeur visuel. Pour renforcer l'alignement visuel-textuel, nous proposons une stratégie d'optimisation hybride qui combine un Fine-Tuning Supervisé Itératif (SFT) avec une Optimisation de Politique Relative par Groupe (GRPO), améliorant significativement l'efficacité de l'intégration intermodale. De plus, nous introduisons une approche de distillation en Chaîne de Pensée à longueur adaptative pour la génération de données de raisonnement. Cette approche optimise dynamiquement les longueurs des chaînes de raisonnement, améliorant ainsi l'efficacité de l'inférence et prévenant un raisonnement excessif. Les évaluations empiriques démontrent que Skywork R1V, avec seulement 38 milliards de paramètres, offre des performances compétitives, atteignant un score de 69,0 sur le benchmark MMMU et 67,5 sur MathVista. Parallèlement, il maintient une performance robuste en raisonnement textuel, comme en témoignent les scores impressionnants de 72,0 sur AIME et 94,0 sur MATH500. Les poids du modèle Skywork R1V ont été rendus publics pour promouvoir l'ouverture et la reproductibilité.
Le paysage de la génération d'images a rapidement évolué, des premières approches basées sur les GAN aux modèles de diffusion, et plus récemment, vers des architectures génératives unifiées cherchant à relier les tâches de compréhension et de génération. Les avancées récentes, notamment le GPT-4o, ont démontré la faisabilité d'une génération multimodale de haute fidélité, bien que leur conception architecturale reste mystérieuse et non publiée. Cela soulève la question de savoir si la génération d'images et de texte a déjà été intégrée avec succès dans un cadre unifié pour ces méthodes. Dans ce travail, nous menons une étude empirique des capacités de génération d'images du GPT-4o, en le comparant aux modèles open-source et commerciaux leaders. Notre évaluation couvre quatre catégories principales, incluant la génération texte-à-image, image-à-image, image-à-3D et image-à-X, avec plus de 20 tâches. Notre analyse met en lumière les forces et les limites du GPT-4o dans divers contextes, et le situe dans l'évolution plus large de la modélisation générative. À travers cette investigation, nous identifions des directions prometteuses pour les futurs modèles génératifs unifiés, en mettant l'accent sur le rôle de la conception architecturale et de la mise à l'échelle des données.
L'alignement des grands modèles de langage (LLM) avec les préférences humaines a connu un succès remarquable. Cependant, les ensembles de données existants sur les préférences chinoises sont limités par leur petite échelle, leur couverture de domaines restreinte et l'absence de validation rigoureuse des données. De plus, la dépendance à l'égard des annotateurs humains pour l'étiquetage des instructions et des réponses limite considérablement l'évolutivité des ensembles de données sur les préférences humaines. Pour relever ces défis, nous avons conçu un pipeline d'annotation d'ensemble de données sur les préférences chinoises basé sur des LLM, sans intervention humaine. Plus précisément, nous avons collecté et soigneusement filtré 92 000 requêtes chinoises de haute qualité, puis avons utilisé 15 LLM grand public pour générer et noter des paires de réponses choisies-rejetées. Sur cette base, nous introduisons COIG-P (Chinese Open Instruction Generalist - Preference), un ensemble de données sur les préférences chinoises de haute qualité et à grande échelle, comprenant 1 009 000 paires de préférences chinoises couvrant 6 domaines variés : Chat, Code, Mathématiques, Logique, Roman et Rôle. En nous appuyant sur COIG-P, afin de réduire la surcharge liée à l'utilisation des LLM pour la notation, nous avons entraîné un modèle de récompense chinois (CRM) de 8 milliards de paramètres et avons méticuleusement construit un benchmark de récompense chinois (CRBench). Les résultats d'évaluation basés sur AlignBench liu2024alignbenchbenchmarkingchinesealignment montrent que COIG-P surpasse significativement les autres ensembles de données sur les préférences chinoises, et qu'il apporte des améliorations de performance allant de 2 % à 12 % pour les séries de modèles Qwen2/2.5 et Infinity-Instruct-3M-0625, respectivement. Les résultats sur CRBench démontrent que notre CRM possède une capacité de notation robuste et fiable. Nous l'appliquons pour filtrer les paires de réponses choisies-rejetées dans un sous-ensemble de test de COIG-P, et nos expériences montrent qu'il est comparable à GPT-4o pour identifier les échantillons de faible qualité tout en maintenant l'efficacité et la rentabilité. Nos codes et données sont disponibles sur https://github.com/multimodal-art-projection/COIG-P.
Bien que la génération pilotée par sujet ait été largement explorée dans le domaine de la génération d'images en raison de ses nombreuses applications, elle reste confrontée à des défis en matière d'évolutivité des données et d'extensibilité des sujets. Pour le premier défi, la transition de la constitution de jeux de données à sujet unique à des jeux de données multi-sujets et leur mise à l'échelle est particulièrement complexe. Pour le second, la plupart des méthodes récentes se concentrent sur la génération à sujet unique, ce qui rend difficile leur application dans des scénarios multi-sujets. Dans cette étude, nous proposons un pipeline de synthèse de données hautement cohérent pour relever ce défi. Ce pipeline exploite les capacités intrinsèques de génération en contexte des transformateurs de diffusion et produit des données appariées multi-sujets de grande cohérence. Par ailleurs, nous introduisons UNO, qui combine un alignement progressif intermodal et un encodage positionnel rotatif universel. Il s'agit d'un modèle sujet-à-image conditionné par plusieurs images, entraîné de manière itérative à partir d'un modèle texte-à-image. Des expériences approfondies montrent que notre méthode permet d'atteindre une grande cohérence tout en garantissant la contrôlabilité dans les générations pilotées par un sujet unique ou par plusieurs sujets.
L'architecture Mixture of Experts (MoE) a démontré des avantages significatifs en permettant d'augmenter la capacité du modèle sans augmentation proportionnelle des calculs. Cependant, la taille importante des modèles MoE introduit des demandes substantielles en mémoire, ce qui nécessite généralement un déchargement des experts sur des plateformes aux ressources limitées et entraîne un surcoût important. L'inférence hybride CPU-GPU a été proposée pour exploiter les calculs CPU afin de réduire le surcoût de chargement des experts, mais elle fait face à des défis majeurs : d'une part, les modèles d'activation des experts des modèles MoE sont très instables, rendant les stratégies de mappage fixes des travaux existants inefficaces ; d'autre part, le planning hybride CPU-GPU pour MoE est intrinsèquement complexe en raison de la diversité des tailles et structures des experts, ainsi que de la distribution inégale de la charge de travail, etc. Pour relever ces défis, dans cet article, nous proposons HybriMoE, un cadre d'inférence hybride CPU-GPU qui améliore l'utilisation des ressources grâce à un système novateur de planification CPU-GPU et de gestion du cache. HybriMoE introduit (i) une stratégie de planification intra-couche dynamique pour équilibrer la charge de travail entre le CPU et le GPU, (ii) un algorithme de préchargement inter-couche basé sur l'impact, et (iii) un algorithme de mise en cache basé sur des scores pour atténuer l'instabilité de l'activation des experts. Nous implémentons HybriMoE sur le cadre kTransformers et l'évaluons sur trois modèles de langage largement utilisés basés sur MoE. Les résultats expérimentaux montrent que HybriMoE atteint une accélération moyenne de 1,33 fois dans l'étape de préremplissage et de 1,70 fois dans l'étape de décodage par rapport au cadre d'inférence hybride MoE de pointe. Notre code est disponible à l'adresse : https://github.com/PKU-SEC-Lab/HybriMoE.
Les modèles de diffusion/flux texte-image (T2I) ont récemment suscité un intérêt considérable grâce à leur remarquable capacité à produire des créations visuelles flexibles. Cependant, la synthèse d'images haute résolution présente des défis redoutables en raison de la rareté et de la complexité du contenu haute résolution. Pour répondre à cela, nous présentons HiFlow, un cadre agnostique aux modèles et sans nécessité d'entraînement, visant à débloquer le potentiel de résolution des modèles de flux pré-entraînés. Plus précisément, HiFlow établit un flux de référence virtuel dans l'espace haute résolution qui capture efficacement les caractéristiques des informations de flux basse résolution, offrant ainsi un guide pour la génération haute résolution à travers trois aspects clés : l'alignement d'initialisation pour la cohérence des basses fréquences, l'alignement de direction pour la préservation de la structure, et l'alignement d'accélération pour la fidélité des détails. En exploitant ce guidage aligné sur le flux, HiFlow améliore considérablement la qualité de la synthèse d'images haute résolution des modèles T2I et démontre sa polyvalence à travers leurs variantes personnalisées. Des expériences approfondies valident la supériorité de HiFlow dans l'obtention d'une qualité d'image haute résolution supérieure par rapport aux méthodes actuelles de pointe.
Avec les puissants modèles de langage à grande échelle (LLMs) démontrant des capacités de raisonnement surpassant celles des humains, une question cruciale se pose : les LLMs raisonnent-ils véritablement, ou se contentent-ils de rappeler des réponses issues de leurs vastes ensembles de données d'entraînement extraits du web ? Les benchmarks publiés deviennent inévitablement contaminés une fois intégrés dans les ensembles d'entraînement ultérieurs des LLMs, compromettant ainsi leur fiabilité en tant qu'évaluations fidèles. Pour répondre à cela, nous introduisons KUMO, un cadre d'évaluation génératif conçu spécifiquement pour évaluer le raisonnement des LLMs. KUMO combine de manière synergique les LLMs avec des moteurs symboliques pour produire dynamiquement des tâches de raisonnement diversifiées, à plusieurs étapes, partiellement observables et ajustables en difficulté. Grâce à un pipeline automatisé, KUMO génère continuellement de nouvelles tâches dans des domaines ouverts, obligeant les modèles à démontrer une véritable généralisation plutôt qu'une simple mémorisation. Nous avons évalué 23 LLMs de pointe sur 5 000 tâches réparties dans 100 domaines créés par KUMO, comparant leurs capacités de raisonnement à celles d'étudiants universitaires. Nos résultats révèlent que de nombreux LLMs surpassent les performances universitaires sur des tâches de raisonnement simples, et que les LLMs optimisés pour le raisonnement atteignent des performances universitaires sur des défis de raisonnement complexes. De plus, les performances des LLMs sur les tâches KUMO sont fortement corrélées avec les résultats sur des benchmarks de raisonnement récemment publiés, soulignant la valeur de KUMO en tant qu'outil d'évaluation robuste et durable des véritables capacités de raisonnement des LLMs.
Les récentes avancées dans les modèles de langage multimodaux de grande envergure (MLLMs) ont conduit à des améliorations significatives sur divers benchmarks multimodaux. Cependant, alors que les évaluations passent des ensembles de données statiques à des environnements dynamiques et ouverts, les benchmarks actuels basés sur des jeux restent inadéquats car ils manquent de tâches centrées sur la vision et ne parviennent pas à évaluer les diverses compétences de raisonnement nécessaires à la prise de décision dans le monde réel. Pour remédier à cela, nous introduisons Visual-centric Multiple Abilities Game Evaluation (V-MAGE), un cadre d'évaluation basé sur des jeux conçu pour évaluer les capacités de raisonnement visuel des MLLMs. V-MAGE propose cinq jeux variés avec plus de 30 niveaux soigneusement conçus, testant les modèles sur des compétences visuelles fondamentales telles que le positionnement, le suivi de trajectoire, la synchronisation et la mémoire visuelle, ainsi que sur des raisonnements de plus haut niveau comme la planification à long terme et la délibération. Nous utilisons V-MAGE pour évaluer les principaux MLLMs, révélant des défis significatifs dans leur perception et raisonnement visuels. Dans tous les environnements de jeu, les MLLMs les plus performants, déterminés par des comparaisons de classement Elo, présentent un écart de performance substantiel par rapport aux humains. Nos résultats mettent en lumière des limitations critiques, notamment divers types d'erreurs perceptuelles commises par les modèles, et suggèrent des pistes d'amélioration potentielles d'un point de vue centré sur l'agent, comme l'affinement des stratégies d'agents et la correction des inexactitudes perceptuelles. Le code est disponible à l'adresse https://github.com/CSU-JPG/V-MAGE.
L'équilibre entre fidélité et éditabilité est essentiel dans l'édition d'images basée sur le texte (TIE), où les échecs conduisent souvent à des problèmes de sur- ou sous-édition. Les méthodes existantes reposent généralement sur des injections d'attention pour préserver la structure et exploitent les capacités d'alignement textuel inhérentes aux modèles pré-entraînés de texte à image (T2I) pour l'éditabilité, mais elles manquent de mécanismes explicites et unifiés pour équilibrer correctement ces deux objectifs. Dans ce travail, nous présentons UnifyEdit, une méthode sans ajustement qui effectue une optimisation latente de diffusion pour permettre une intégration équilibrée de la fidélité et de l'éditabilité dans un cadre unifié. Contrairement aux injections d'attention directes, nous développons deux contraintes basées sur l'attention : une contrainte de préservation de l'auto-attention (SA) pour la fidélité structurelle, et une contrainte d'alignement de l'attention croisée (CA) pour améliorer l'alignement textuel et ainsi l'éditabilité. Cependant, l'application simultanée de ces deux contraintes peut entraîner des conflits de gradients, où la dominance d'une contrainte résulte en une sur- ou sous-édition. Pour résoudre ce problème, nous introduisons un planificateur adaptatif d'étapes temporelles qui ajuste dynamiquement l'influence de ces contraintes, guidant la latence de diffusion vers un équilibre optimal. Des expériences quantitatives et qualitatives approfondies valident l'efficacité de notre approche, démontrant sa supériorité dans l'atteinte d'un équilibre robuste entre la préservation de la structure et l'alignement textuel à travers diverses tâches d'édition, surpassant d'autres méthodes de pointe. Le code source sera disponible à l'adresse https://github.com/CUC-MIPG/UnifyEdit.
Les récents progrès dans les modèles de raisonnement ont démontré des améliorations significatives en termes de précision, en particulier pour des tâches complexes telles que le raisonnement mathématique, grâce à l'utilisation de processus de raisonnement détaillés et complets. Cependant, la génération de ces séquences de raisonnement longues est coûteuse en calcul et chronophage. Pour remédier à cette inefficacité, nous exploitons le parallélisme inhérent à certaines tâches pour accélérer le processus de raisonnement. Plus précisément, lorsque plusieurs branches de raisonnement parallèles existent, nous décodons plusieurs tokens par étape en utilisant un masque d'attention spécialisé, les traitant au sein d'une seule séquence, évitant ainsi une utilisation supplémentaire de mémoire. Les résultats expérimentaux montrent que notre méthode permet d'obtenir une accélération de plus de 100 % du temps de décodage tout en maintenant la qualité des réponses.
Le réglage fin par renforcement (Reinforcement Finetuning, RFT) a montré un grand potentiel pour améliorer les capacités de raisonnement mathématique des grands modèles de langage (LLMs), mais il est souvent peu efficace en termes d'échantillons et de calcul, nécessitant un entraînement extensif. Dans ce travail, nous introduisons AdaRFT (Adaptive Curriculum Reinforcement Finetuning), une méthode qui améliore significativement à la fois l'efficacité et la précision finale du RFT grâce à un apprentissage curriculaire adaptatif. AdaRFT ajuste dynamiquement la difficulté des problèmes d'entraînement en fonction des signaux de récompense récents du modèle, garantissant que le modèle s'entraîne constamment sur des tâches qui sont à la fois stimulantes et résolubles. Cette stratégie d'échantillonnage adaptatif accélère l'apprentissage en maintenant une plage de difficulté optimale, évitant ainsi le gaspillage de calcul sur des problèmes trop faciles ou trop difficiles. AdaRFT ne nécessite qu'une extension légère aux algorithmes RFT standard comme l'Optimisation de Politique Proximale (Proximal Policy Optimization, PPO), sans modifier la fonction de récompense ou l'architecture du modèle. Les expériences sur des ensembles de données mathématiques de niveau compétition, incluant des problèmes de style AMC, AIME et IMO, démontrent qu'AdaRFT améliore significativement à la fois l'efficacité de l'entraînement et les performances de raisonnement. Nous évaluons AdaRFT sur plusieurs distributions de données et tailles de modèles, montrant qu'il réduit le nombre d'étapes d'entraînement jusqu'à 2x et améliore la précision de manière considérable, offrant ainsi un cadre RFT plus scalable et efficace.
Les cadres d'évaluation existants pour les capacités de raisonnement des modèles de langage de grande taille (LLMs) et des modèles vision-langage de grande taille (LVLMs) se concentrent principalement sur l'évaluation du raisonnement textuel ou de la compréhension vision-langage, avec une interaction dynamique limitée entre les contraintes textuelles et visuelles. Pour remédier à cette limitation, nous introduisons CrossWordBench, un benchmark conçu pour évaluer les capacités de raisonnement des LLMs et des LVLMs à travers le médium des mots croisés - une tâche nécessitant une adhésion multimodale aux contraintes sémantiques des indices textuels et aux contraintes intersectionnelles des structures de grilles visuelles. CrossWordBench s'appuie sur un cadre de génération de puzzles contrôlable qui produit des puzzles dans plusieurs formats (texte et image) et propose différentes stratégies d'évaluation allant de la résolution directe de puzzles à des modes interactifs. Notre évaluation approfondie de plus de 20 modèles révèle que les LLMs spécialisés en raisonnement surpassent considérablement les modèles non spécialisés en exploitant efficacement les contraintes de lettres croisées. Nous démontrons en outre que les LVLMs rencontrent des difficultés avec cette tâche, montrant une forte corrélation entre leur performance en résolution de puzzles et leur précision dans l'analyse des grilles. Nos résultats offrent des insights sur les limites des capacités de raisonnement des LLMs et LVLMs actuels, et fournissent une approche efficace pour créer des tâches multimodales contraintes pour les évaluations futures.
Les récents progrès dans la démonstration automatique de théorèmes (ATP) grâce aux LLM ont mis en lumière le potentiel du raisonnement formel avec les codes Lean 4. Cependant, l'ATP n'a pas encore été révolutionnée par le récent passage à l'échelle post-entraînement, comme l'ont démontré Open AI O1/O3 et Deepseek R1. Dans ce travail, nous étudions l'ensemble du post-entraînement de l'ATP, dans le but de l'aligner sur les avancées des modèles de raisonnement en langage naturel. Pour commencer, nous entraînons continuellement les modèles actuels d'ATP avec un ensemble de données hybride, composé de nombreuses paires énoncé-preuve, ainsi que de données supplémentaires visant à intégrer des comportements cognitifs imitant le raisonnement humain et l'affinement d'hypothèses. Ensuite, nous explorons l'apprentissage par renforcement en utilisant les récompenses de résultat retournées par le compilateur Lean 4. Grâce à nos processus d'entraînement continu et d'apprentissage par renforcement, nous avons réussi à améliorer les démonstrateurs formels existants, notamment DeepSeek-Prover-v1.5 et Goedel-Prover, atteignant des performances de pointe dans le domaine de la génération de preuves complètes. Par exemple, nous obtenons un taux de réussite de 59,8 % (pass@32) sur MiniF2F. Il s'agit d'un projet en cours, et nous mettrons progressivement à jour nos découvertes, ainsi que nos données et détails d'entraînement.
L'apprentissage par imitation s'est imposé comme une approche prometteuse pour développer des robots généralistes. Cependant, la mise à l'échelle de l'apprentissage par imitation pour de grands modèles de base robotiques reste un défi en raison de sa dépendance à des démonstrations expertes de haute qualité. Parallèlement, de grandes quantités de données vidéo décrivant une variété d'environnements et de comportements divers sont facilement accessibles. Ces données constituent une source riche d'informations sur les dynamiques du monde réel et les interactions entre agents et environnement. Toutefois, exploiter directement ces données pour l'apprentissage par imitation s'est avéré difficile en raison de l'absence d'annotations d'actions nécessaires pour la plupart des méthodes contemporaines. Dans ce travail, nous présentons les Unified World Models (UWM), un cadre qui permet d'exploiter à la fois les données vidéo et les données d'action pour l'apprentissage de politiques. Concrètement, un UWM intègre un processus de diffusion d'actions et un processus de diffusion vidéo au sein d'une architecture de transformateur unifiée, où des pas de diffusion indépendants régissent chaque modalité. Nous montrons qu'en contrôlant simplement chaque pas de diffusion, l'UWM peut représenter de manière flexible une politique, une dynamique directe, une dynamique inverse et un générateur vidéo. À travers des expériences en simulation et dans le monde réel, nous démontrons que : (1) l'UWM permet un pré-entraînement efficace sur des ensembles de données robotiques multitâches à grande échelle avec des prédictions de dynamiques et d'actions, aboutissant à des politiques plus généralisables et robustes que l'apprentissage par imitation, (2) l'UWM facilite naturellement l'apprentissage à partir de données vidéo sans actions grâce au contrôle indépendant des pas de diffusion spécifiques à chaque modalité, améliorant encore les performances des politiques affinées. Nos résultats suggèrent que l'UWM représente une étape prometteuse vers l'exploitation de grands ensembles de données hétérogènes pour un apprentissage robotique scalable, et offre une unification simple entre les paradigmes souvent disjoints de l'apprentissage par imitation et de la modélisation du monde. Les vidéos et le code sont disponibles à l'adresse https://weirdlabuw.github.io/uwm/.
La découverte généralisée de catégories (GCD) est un problème pragmatique mais sous-exploré, qui nécessite que les modèles regroupent et découvrent automatiquement de nouvelles catégories en exploitant les échantillons étiquetés des anciennes classes. Le défi réside dans le fait que les données non étiquetées contiennent à la fois des anciennes et des nouvelles classes. Les travaux antérieurs utilisant l'étiquetage pseudo-supervisé avec des classificateurs paramétriques traitent les anciennes et les nouvelles classes séparément, ce qui entraîne une précision déséquilibrée entre elles. Les méthodes récentes employant l'apprentissage contrastif négligent les positifs potentiels et sont découplées de l'objectif de regroupement, conduisant à des représentations biaisées et à des résultats sous-optimaux. Pour résoudre ces problèmes, nous introduisons un cadre d'apprentissage de prototypes unifié et non biaisé, nommé ProtoGCD, dans lequel les anciennes et les nouvelles classes sont modélisées avec des prototypes conjoints et des objectifs d'apprentissage unifiés, {permettant une modélisation unifiée entre les anciennes et les nouvelles classes}. Plus précisément, nous proposons un mécanisme d'étiquetage pseudo-supervisé adaptatif à double niveau pour atténuer le biais de confirmation, ainsi que deux termes de régularisation pour aider collectivement à apprendre des représentations plus adaptées pour la GCD. De plus, pour des considérations pratiques, nous concevons un critère pour estimer le nombre de nouvelles classes. Par ailleurs, nous étendons ProtoGCD pour détecter les valeurs aberrantes non vues, atteignant ainsi une unification au niveau de la tâche. Des expériences approfondies montrent que ProtoGCD atteint des performances de pointe sur des ensembles de données génériques et spécifiques. Le code est disponible à l'adresse https://github.com/mashijie1028/ProtoGCD.