papers.description
L'apprentissage auto-supervisé promet d'éliminer le besoin d'annotation manuelle des données, permettant aux modèles de s'adapter sans effort à des ensembles de données massifs et à des architectures plus grandes. En n'étant pas spécifiquement adapté à des tâches ou domaines particuliers, ce paradigme d'entraînement a le potentiel d'apprendre des représentations visuelles à partir de sources diverses, allant des images naturelles aux images aériennes -- en utilisant un seul algorithme. Ce rapport technique présente DINOv3, une étape majeure vers la réalisation de cette vision en exploitant des stratégies simples mais efficaces. Premièrement, nous tirons parti des avantages de la mise à l'échelle de la taille des ensembles de données et des modèles grâce à une préparation, une conception et une optimisation minutieuses des données. Deuxièmement, nous introduisons une nouvelle méthode appelée ancrage de Gram, qui résout efficacement le problème connu mais non résolu de la dégradation des cartes de caractéristiques denses lors de longues périodes d'entraînement. Enfin, nous appliquons des stratégies post-hoc qui améliorent encore la flexibilité de nos modèles en termes de résolution, de taille de modèle et d'alignement avec le texte. En conséquence, nous présentons un modèle de fondation visuel polyvalent qui surpasse l'état de l'art spécialisé dans un large éventail de configurations, sans ajustement fin. DINOv3 produit des caractéristiques denses de haute qualité qui obtiennent des performances exceptionnelles sur diverses tâches visuelles, surpassant significativement les modèles de fondation auto-supervisés et faiblement supervisés précédents. Nous partageons également la suite de modèles visuels DINOv3, conçue pour faire progresser l'état de l'art sur un large spectre de tâches et de données en fournissant des solutions évolutives pour diverses contraintes de ressources et scénarios de déploiement.
Nous étudions le potentiel des grands modèles de langage (LLMs) à servir de simulateurs efficaces pour les tâches de recherche agentique en apprentissage par renforcement (RL), réduisant ainsi la dépendance aux interactions coûteuses avec des moteurs de recherche externes. Pour ce faire, nous quantifions d'abord la capacité de recherche intrinsèque des LLMs via des prompts structurés et un échantillonnage répété, une approche que nous nommons Self-Search. Nos résultats révèlent que les LLMs présentent un comportement de mise à l'échelle robuste par rapport au budget d'inférence, atteignant des scores élevés en pass@k sur des benchmarks de questions-réponses, y compris la tâche difficile BrowseComp. Sur la base de ces observations, nous introduisons Self-Search RL (SSRL), qui améliore la capacité de Self-Search des LLMs grâce à des récompenses basées sur le format et des règles. SSRL permet aux modèles d'affiner itérativement leur utilisation des connaissances en interne, sans nécessiter d'accès à des outils externes. Les évaluations empiriques démontrent que les modèles de politique entraînés par SSRL fournissent un environnement rentable et stable pour l'entraînement RL axé sur la recherche, réduisant la dépendance aux moteurs de recherche externes et facilitant un transfert robuste du simulé au réel. Nous tirons les conclusions suivantes : 1) Les LLMs possèdent des connaissances du monde qui peuvent être efficacement sollicitées pour atteindre des performances élevées ; 2) SSRL démontre le potentiel d'exploitation des connaissances internes pour réduire les hallucinations ; 3) Les modèles entraînés par SSRL s'intègrent de manière transparente avec les moteurs de recherche externes sans effort supplémentaire. Nos résultats mettent en lumière le potentiel des LLMs à soutenir un entraînement plus évolutif des agents RL.
Suite à l'introduction par OpenAI du concept de « raisonnement avec les images », des efforts récents ont exploré la stimulation de l'utilisation d'informations visuelles dans le processus de raisonnement pour améliorer les performances des modèles dans les tâches de perception et de raisonnement. Cependant, à notre connaissance, aucun travail open-source n'offre actuellement un ensemble de fonctionnalités aussi riche que les modèles propriétaires (O3), capables d'effectuer diverses manipulations d'images tout en renforçant les capacités de raisonnement logique via le code. Dans cet article, nous faisons une première tentative dans cette direction en introduisant Thyme (Think Beyond Images), un nouveau paradigme permettant aux MLLMs de transcender les approches existantes de « raisonnement avec les images » en générant et exécutant de manière autonome diverses opérations de traitement d'images et de calcul via du code exécutable. Cette approche facilite non seulement un ensemble riche et dynamique de manipulations d'images (par exemple, recadrage, rotation, amélioration du contraste), mais permet également des calculs mathématiques, tout en maintenant une autonomie élevée dans la décision de quand et comment appliquer ces opérations. Nous activons cette capacité grâce à une stratégie d'entraînement en deux étapes : un SFT initial sur un ensemble de données soigneusement sélectionné de 500 000 échantillons pour enseigner la génération de code, suivi d'une phase de RL pour affiner la prise de décision. Pour l'étape de RL, nous collectons et concevons manuellement des paires question-réponse à haute résolution pour augmenter la difficulté d'apprentissage, et nous proposons GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), un algorithme qui applique des températures distinctes à la génération de texte et de code pour équilibrer l'exploration du raisonnement avec la précision de l'exécution du code. Nous menons une analyse expérimentale approfondie et des études d'ablation. Des évaluations complètes sur près de 20 benchmarks montrent que Thyme apporte des gains de performance significatifs et cohérents, en particulier dans les tâches de perception à haute résolution et de raisonnement complexe.
Les récentes avancées dans le pré-entraînement des grands modèles de langage (LLM) ont montré que l'augmentation simple de la quantité de données finit par atteindre des rendements décroissants, rencontrant un « mur de données ». En réponse, l'utilisation de données synthétiques pour le pré-entraînement est apparue comme un paradigme prometteur pour repousser les limites de la performance. Malgré cela, les facteurs influençant la qualité des données synthétiques restent mal compris. Dans ce travail, nous présentons BeyondWeb, un cadre de génération de données synthétiques qui produit des données de haute qualité pour le pré-entraînement. BeyondWeb étend considérablement les capacités des ensembles de données traditionnels à l'échelle du web, surpassant les ensembles de données synthétiques de pointe tels que Cosmopedia et le sous-ensemble de haute qualité de Nemotron-CC (Nemotron-Synth) respectivement de 5,1 points de pourcentage (pp) et 2,6 pp en moyenne sur une série de 14 évaluations de référence. Il permet un entraînement jusqu'à 7,7 fois plus rapide que les données web ouvertes et 2,7 fois plus rapide que Nemotron-Synth. Fait remarquable, un modèle de 3B entraîné sur 180B tokens avec BeyondWeb surpasse un modèle de 8B entraîné avec le même budget de tokens sur Cosmopedia. Nous présentons également plusieurs insights tirés de BeyondWeb sur les données synthétiques pour le pré-entraînement : ce qui motive leurs avantages, quelles données reformuler et comment, ainsi que l'impact de la taille et de la famille du modèle sur la qualité des données. Globalement, notre travail montre qu'il n'existe pas de solution miracle pour générer des données synthétiques de haute qualité pour le pré-entraînement. Les meilleurs résultats nécessitent d'optimiser conjointement de nombreux facteurs, une tâche complexe qui exige une science rigoureuse et une expertise pratique. Les approches naïves peuvent apporter des améliorations modestes, potentiellement à un coût élevé, tandis que des méthodes bien exécutées peuvent conduire à des améliorations transformatives, comme le démontre BeyondWeb.
Bien que l'inférence des LLM soit devenue une charge de travail critique pour de nombreuses applications en aval, l'inférence efficace des LLM reste un défi en raison de l'empreinte mémoire substantielle et des exigences élevées en bande passante. Parallèlement, les capacités de calcul ont régulièrement dépassé à la fois la capacité mémoire et la bande passante au cours des dernières décennies, une tendance qui reste évidente dans les matériels GPU modernes et qui exacerbe le défi de l'inférence des LLM. Ainsi, de nouveaux algorithmes émergent, qui échangent une augmentation des calculs contre une réduction des opérations mémoire. Dans cette optique, nous présentons XQuant, qui tire parti de cette tendance, permettant une réduction d'un ordre de grandeur de la consommation mémoire grâce à une quantification en faible précision, avec des avantages substantiels en termes de précision par rapport aux méthodes de quantification de cache KV de pointe. Nous y parvenons en quantifiant et en mettant en cache les activations d'entrée de couche X, au lieu d'utiliser le cache KV standard, puis en rematérialisant les clés et les valeurs à la volée pendant l'inférence. Cela entraîne une économie mémoire immédiate de 2 fois par rapport au cache KV. En appliquant XQuant, nous obtenons jusqu'à 7,7 fois d'économie mémoire avec une dégradation de perplexité inférieure à 0,1 par rapport à la référence FP16. De plus, notre approche exploite le fait que les valeurs X sont similaires entre les couches. Sur la base de cette observation, nous introduisons XQuant-CL, qui exploite la similarité inter-couches dans les embeddings X pour une compression extrême. Sur différents modèles, XQuant-CL atteint jusqu'à 10 fois d'économie mémoire par rapport à la référence FP16 avec seulement 0,01 de dégradation de perplexité, et 12,5 fois d'économie mémoire avec seulement 0,1 de dégradation de perplexité. XQuant exploite l'augmentation rapide des capacités de calcul des plateformes matérielles pour éliminer le goulot d'étranglement mémoire, tout en surpassant les méthodes de quantification de cache KV de pointe et en atteignant une précision proche de FP16 sur une large gamme de modèles.
La recherche de publications est une activité cruciale pour les chercheurs, impliquant généralement l'utilisation d'une requête décrivant un sujet pour trouver des articles pertinents. À mesure que la recherche progresse, les besoins en matière de recherche de publications peuvent devenir plus flexibles, incluant parfois des détails spécifiques tels que la configuration de modules, plutôt que de se limiter à des sujets généraux. Cependant, les systèmes de recherche de publications existants ne parviennent pas à répondre à ces besoins de granularité flexible, car ces systèmes collectent principalement les résumés d'articles pour construire un index de corpus, ce qui manque d'informations détaillées pour supporter la recherche par des requêtes plus fines. Dans ce travail, nous proposons PaperRegister, composé d'une indexation hiérarchique hors ligne et d'une récupération adaptative en ligne, transformant l'index traditionnel basé sur les résumés en un arbre d'index hiérarchique pour la recherche de publications, permettant ainsi de supporter des requêtes à granularité flexible. Les expériences sur des tâches de recherche de publications à différentes granularités montrent que PaperRegister atteint des performances de pointe, et excelle particulièrement dans les scénarios à granularité fine, mettant en évidence son potentiel en tant que solution efficace pour la recherche de publications à granularité flexible dans des applications réelles. Le code de ce travail est disponible à l'adresse suivante : https://github.com/Li-Z-Q/PaperRegister.
Nous présentons TexVerse, un jeu de données 3D à grande échelle mettant en avant des textures haute résolution. Alors que les récentes avancées dans les jeux de données 3D à grande échelle ont amélioré la génération de géométries haute résolution, la création de textures haute résolution de bout en bout reste peu explorée en raison du manque de jeux de données appropriés. TexVerse comble cette lacune avec une collection soigneusement sélectionnée de plus de 858K modèles 3D haute résolution uniques provenant de Sketchfab, incluant plus de 158K modèles avec des matériaux de rendu physiquement réalistes (PBR). Chaque modèle comprend toutes ses variantes haute résolution, portant le total à 1,6M d'instances 3D. TexVerse inclut également des sous-ensembles spécialisés : TexVerse-Skeleton, avec 69K modèles riggés, et TexVerse-Animation, avec 54K modèles animés, tous deux conservant les données originales de squelette et d'animation téléchargées par l'utilisateur. Nous fournissons également des annotations détaillées des modèles décrivant les caractéristiques générales, les composants structurels et les caractéristiques complexes. TexVerse offre une ressource de données de haute qualité avec un large éventail d'applications potentielles dans la synthèse de textures, le développement de matériaux PBR, l'animation et diverses tâches de vision et de graphismes 3D.
Les récents progrès dans l'animation de portraits pilotée par l'audio ont démontré des capacités impressionnantes. Cependant, les méthodes existantes peinent à s'aligner sur les préférences humaines fines et multidimensionnelles, telles que le naturel des mouvements, la précision de la synchronisation labiale et la qualité visuelle. Cela est dû à la difficulté d'optimiser des objectifs de préférence souvent conflictuels, ainsi qu'à la rareté de jeux de données de grande échelle et de haute qualité comportant des annotations de préférence multidimensionnelles. Pour résoudre ces problèmes, nous introduisons d'abord Talking-Critic, un modèle de récompense multimodal qui apprend des fonctions de récompense alignées sur les humains pour quantifier dans quelle mesure les vidéos générées satisfont les attentes multidimensionnelles. En nous appuyant sur ce modèle, nous constituons Talking-NSQ, un jeu de données de préférence humaine multidimensionnelle à grande échelle contenant 410 000 paires de préférences. Enfin, nous proposons Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), un cadre novateur pour aligner les modèles d'animation de portraits basés sur la diffusion avec des préférences fines et multidimensionnelles. TLPO découple les préférences en modules experts spécialisés, qui sont ensuite fusionnés à travers les étapes temporelles et les couches du réseau, permettant une amélioration complète et fine dans toutes les dimensions sans interférence mutuelle. Les expériences montrent que Talking-Critic surpasse significativement les méthodes existantes en termes d'alignement avec les évaluations de préférence humaine. Par ailleurs, TLPO réalise des améliorations substantielles par rapport aux modèles de référence en précision de synchronisation labiale, naturel des mouvements et qualité visuelle, affichant une performance supérieure dans les évaluations qualitatives et quantitatives. Notre page de projet : https://fantasy-amap.github.io/fantasy-talking2/
Nous présentons StyleMM, un nouveau cadre capable de construire un modèle morphable 3D (3DMM) stylisé basé sur des descriptions textuelles définies par l'utilisateur spécifiant un style cible. En s'appuyant sur un réseau de déformation de maillage pré-entraîné et un générateur de texture pour des visages humains réalistes basés sur 3DMM, notre approche affine ces modèles en utilisant des images faciales stylisées générées via une traduction image-à-image (i2i) guidée par texte avec un modèle de diffusion, qui servent de cibles de stylisation pour le maillage rendu. Pour éviter des modifications indésirables de l'identité, de l'alignement facial ou des expressions pendant la traduction i2i, nous introduisons une méthode de stylisation qui préserve explicitement les attributs faciaux de l'image source. En maintenant ces attributs critiques pendant la stylisation d'image, l'approche proposée assure un transfert de style 3D cohérent à travers l'espace des paramètres 3DMM via un entraînement basé sur l'image. Une fois entraîné, StyleMM permet la génération en feed-forward de maillages de visages stylisés avec un contrôle explicite sur les paramètres de forme, d'expression et de texture, produisant des maillages avec une connectivité de vertex cohérente et une capacité d'animation. Les évaluations quantitatives et qualitatives démontrent que notre approche surpasse les méthodes de pointe en termes de diversité faciale au niveau de l'identité et de capacité de stylisation. Le code et les vidéos sont disponibles sur [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).
Les réseaux de neurones graphiques (GNN) ont obtenu des résultats de pointe dans les tâches de vision par ordinateur et de classification d'images médicales en capturant les dépendances structurelles entre les instances de données. Cependant, leur processus de décision reste largement opaque, limitant leur fiabilité dans les applications cliniques à haut risque où l'interprétabilité est essentielle. Les techniques d'explicabilité existantes pour les GNN sont généralement post-hoc et globales, offrant peu d'informations sur les décisions individuelles des nœuds ou le raisonnement local. Nous présentons X-Node, un cadre de GNN auto-explicatif dans lequel chaque nœud génère sa propre explication dans le cadre du processus de prédiction. Pour chaque nœud, nous construisons un vecteur de contexte structuré encodant des indices interprétables tels que le degré, la centralité, le clustering, la saillance des caractéristiques et l'accord des labels au sein de sa topologie locale. Un module Reasoner léger transforme ce contexte en un vecteur d'explication compact, qui sert trois objectifs : (1) reconstruire l'embedding latent du nœud via un décodeur pour garantir la fidélité, (2) générer une explication en langage naturel à l'aide d'un LLM pré-entraîné (par exemple, Grok ou Gemini), et (3) guider le GNN lui-même via un mécanisme d'"injection de texte" qui réinjecte les explications dans le pipeline de passage de messages. Nous évaluons X-Node sur deux ensembles de données graphiques dérivés de MedMNIST et MorphoMNIST, en l'intégrant avec des architectures GCN, GAT et GIN. Nos résultats montrent que X-Node maintient une précision de classification compétitive tout en produisant des explications fidèles par nœud. Dépôt : https://github.com/basiralab/X-Node.
Alors que les Modèles de Langage Multimodaux de Grande Tchelle (MLLMs) gagnent en applicabilité généralisée, il devient de plus en plus souhaitable de les adapter aux besoins divers des utilisateurs. Dans cet article, nous étudions l'adaptation des MLLMs par le biais du décodage contrôlé. Pour y parvenir, nous introduisons la première méthode de décodage guidé par récompense pour les MLLMs et démontrons son application pour améliorer leur ancrage visuel. Notre méthode implique la construction de modèles de récompense pour l'ancrage visuel et leur utilisation pour guider le processus de décodage du MLLM. Concrètement, nous construisons deux modèles de récompense distincts pour contrôler indépendamment le degré de précision et de rappel des objets dans la sortie du modèle. Notre approche permet une contrôlabilité en temps réel du processus d'inférence d'un MLLM de deux manières : premièrement, en offrant un contrôle sur l'importance relative de chaque fonction de récompense pendant le décodage, permettant à l'utilisateur de faire un compromis dynamique entre la précision et le rappel des objets dans les tâches de légendage d'images ; deuxièmement, en offrant un contrôle sur l'étendue de la recherche pendant le décodage, permettant à l'utilisateur de contrôler le compromis entre la quantité de calcul au moment du test et le degré d'ancrage visuel. Nous évaluons notre méthode sur des benchmarks standard de hallucination d'objets, montrant qu'elle offre une contrôlabilité significative sur l'inférence des MLLMs, tout en surpassant systématiquement les méthodes existantes de mitigation des hallucinations.
L'apprentissage auto-supervisé présente un grand potentiel pour la télédétection, mais les méthodes auto-supervisées standard doivent être adaptées aux caractéristiques uniques des données d'observation de la Terre. Nous faisons un pas dans cette direction en réalisant un benchmark complet des stratégies de fusion et des schémas de normalisation des cibles de reconstruction pour des données d'observation de la Terre multimodales, multitemporelles et multispectrales. Sur la base de nos résultats, nous proposons MAESTRO, une nouvelle adaptation du Masked Autoencoder, intégrant des stratégies de fusion optimisées et un schéma de normalisation des cibles sur mesure qui introduit un a priori spectral comme signal d'auto-supervision. Évalué sur quatre jeux de données d'observation de la Terre, MAESTRO établit un nouvel état de l'art pour les tâches qui reposent fortement sur la dynamique multitemporelle, tout en restant très compétitif pour les tâches dominées par une modalité mono-temporelle unique. Le code pour reproduire toutes nos expériences est disponible à l'adresse https://github.com/ignf/maestro.
L'apprentissage profond a révolutionné l'imagerie médicale, mais son efficacité est sévèrement limitée par le manque de données annotées pour l'entraînement. Cet article présente un nouveau cadre d'apprentissage semi-supervisé basé sur les GAN, spécialement conçu pour les régimes à faible quantité de données annotées, évalué dans des configurations allant de 5 à 50 échantillons annotés par classe. Notre approche intègre trois réseaux de neurones spécialisés — un générateur pour la traduction d'images conditionnée par classe, un discriminateur pour l'évaluation de l'authenticité et la classification, ainsi qu'un classifieur dédié — au sein d'un cadre d'entraînement en trois phases. La méthode alterne entre un entraînement supervisé sur des données annotées limitées et un apprentissage non supervisé qui exploite une abondance d'images non annotées via la traduction d'image à image plutôt que la génération à partir de bruit. Nous utilisons un pseudo-étiquetage basé sur l'ensemble qui combine les prédictions pondérées par la confiance du discriminateur et du classifieur avec une cohérence temporelle via une moyenne mobile exponentielle, permettant une estimation fiable des étiquettes pour les données non annotées. Une évaluation approfondie sur onze ensembles de données MedMNIST démontre que notre approche obtient des améliorations statistiquement significatives par rapport à six méthodes semi-supervisées basées sur les GAN de pointe, avec des performances particulièrement solides dans le cadre extrême de 5 échantillons où la rareté des données annotées est la plus problématique. Le cadre maintient sa supériorité dans toutes les configurations évaluées (5, 10, 20 et 50 échantillons par classe). Notre approche offre une solution pratique pour les applications d'imagerie médicale où les coûts d'annotation sont prohibitifs, permettant une performance de classification robuste même avec un minimum de données annotées. Le code est disponible à l'adresse https://github.com/GuidoManni/SPARSE.