Articles de recherche en IA sélectionnés quotidiennement avec traductions
La tâche de résolution de problèmes consiste à modifier une base de code pour générer un correctif qui traite un problème donné. Cependant, les benchmarks existants, tels que SWE-bench, se concentrent presque exclusivement sur Python, ce qui les rend insuffisants pour évaluer les modèles de langage de grande taille (LLMs) dans des écosystèmes logiciels diversifiés. Pour remédier à cela, nous introduisons un benchmark multilingue de résolution de problèmes, appelé Multi-SWE-bench, couvrant Java, TypeScript, JavaScript, Go, Rust, C et C++. Il comprend un total de 1 632 instances de haute qualité, soigneusement annotées à partir de 2 456 candidats par 68 annotateurs experts, garantissant que le benchmark peut fournir une évaluation précise et fiable. Sur la base de Multi-SWE-bench, nous évaluons une série de modèles de pointe en utilisant trois méthodes représentatives (Agentless, SWE-agent et OpenHands) et présentons une analyse complète avec des insights empiriques clés. En outre, nous lançons une communauté open-source Multi-SWE-RL, visant à construire des ensembles de données d'entraînement à grande échelle pour l'apprentissage par renforcement (RL) dans les tâches de résolution de problèmes. En tant que contribution initiale, nous publions un ensemble de 4 723 instances bien structurées couvrant sept langages de programmation, posant une base solide pour la recherche en RL dans ce domaine. Plus important encore, nous ouvrons l'ensemble de notre pipeline de production de données, accompagné de tutoriels détaillés, encourageant la communauté open-source à contribuer continuellement et à étendre l'ensemble de données. Nous envisageons notre Multi-SWE-bench et la communauté en pleine croissance de Multi-SWE-RL comme des catalyseurs pour faire progresser le RL vers son plein potentiel, nous rapprochant ainsi un peu plus de l'aube de l'AGI.
Le raisonnement mathématique constitue une pierre angulaire de l'intelligence humaine et un critère clé pour évaluer les capacités avancées des grands modèles de langage (LLM). Cependant, la communauté de recherche manque encore d'un corpus ouvert, à grande échelle et de haute qualité, spécifiquement adapté aux besoins du pré-entraînement des LLM axés sur les mathématiques. Nous présentons MegaMath, un ensemble de données ouvertes, constitué à partir de sources diverses et centrées sur les mathématiques, en suivant les pratiques suivantes : (1) Réexploitation des données web : Nous avons réextrahi des documents mathématiques de Common Crawl en optimisant le HTML pour les mathématiques, en appliquant un filtrage basé sur fasttext et une déduplication, le tout afin d'obtenir des données de meilleure qualité sur Internet. (2) Rappel des données de code liées aux mathématiques : Nous avons identifié du code de haute qualité en lien avec les mathématiques à partir d'un vaste corpus d'entraînement de code, Stack-V2, augmentant ainsi la diversité des données. (3) Exploration des données synthétiques : Nous avons synthétisé du texte de type question-réponse, du code lié aux mathématiques et des blocs mixtes texte-code à partir de données web ou de code. En intégrant ces stratégies et en validant leur efficacité grâce à des ablations approfondies, MegaMath propose 371 milliards de tokens, offrant ainsi la plus grande quantité et la meilleure qualité parmi les ensembles de données ouverts existants pour le pré-entraînement en mathématiques.
Les modèles de langage de grande taille (LLMs) ont obtenu des performances considérables dans diverses tâches de planification agentique. Cependant, les approches traditionnelles de planification agentique adoptent une méthodologie de "irrigation par inondation" qui injecte de manière indiscriminée des trajectoires optimales, des retours externes et des connaissances de domaine dans les modèles d'agents. Cette pratique néglige le principe cognitif humain fondamental de la conscience de soi situationnelle lors de la prise de décision - la capacité à évaluer dynamiquement les exigences situationnelles et à employer stratégiquement les ressources pendant la prise de décision. Nous proposons la conscience de soi agentique informée pour combler cette lacune, un nouveau paradigme permettant aux agents basés sur LLM de réguler de manière autonome l'utilisation des connaissances. Plus précisément, nous proposons KnowSelf, une approche centrée sur les données qui applique aux agents une conscience de soi informée, à l'instar des humains. Concrètement, nous concevons un critère heuristique de jugement situationnel pour marquer des tokens spéciaux sur les trajectoires auto-explorées de l'agent afin de collecter des données d'entraînement. Grâce à un processus d'entraînement en deux étapes, le modèle d'agent peut basculer entre différentes situations en générant des tokens spéciaux spécifiques, atteignant ainsi des effets de planification optimaux avec des coûts minimaux. Nos expériences démontrent que KnowSelf peut surpasser diverses bases de référence solides sur différentes tâches et modèles avec une utilisation minimale de connaissances externes. Le code est disponible à l'adresse suivante : https://github.com/zjunlp/KnowSelf.
Dans ce travail, nous présentons VARGPT-v1.1, un modèle visuel autorégressif unifié avancé qui s'appuie sur notre précédent cadre VARGPT. Le modèle conserve le double paradigme de prédiction du token suivant pour la compréhension visuelle et de génération à l'échelle suivante pour la synthèse d'images. Plus précisément, VARGPT-v1.1 intègre : (1) une nouvelle stratégie d'entraînement combinant un réglage itératif d'instructions visuelles avec un apprentissage par renforcement via l'Optimisation Directe des Préférences (DPO), (2) un corpus d'entraînement élargi contenant 8,3 millions de paires d'instructions visuelles-génératives, (3) une architecture de modèle de langage améliorée utilisant Qwen2, (4) une résolution de génération d'images accrue, et (5) des capacités émergentes d'édition d'images sans modifications architecturales. Ces avancées permettent à VARGPT-v1.1 d'atteindre des performances de pointe dans les tâches de compréhension multimodale et de suivi d'instructions texte-à-image, démontrant des améliorations significatives à la fois dans les métriques de compréhension et de génération. Notamment, grâce au réglage d'instructions visuelles, le modèle acquiert des fonctionnalités d'édition d'images tout en maintenant une cohérence architecturale avec son prédécesseur, révélant le potentiel pour une compréhension, génération et édition visuelles unifiées. Nos résultats suggèrent que des modèles visuels autorégressifs unifiés bien conçus peuvent adopter efficacement des stratégies d'entraînement flexibles issues des grands modèles de langage (LLM), montrant une scalabilité prometteuse. Le code source et les poids du modèle sont disponibles publiquement à l'adresse https://github.com/VARGPT-family/VARGPT-v1.1.
Les Transformers constituent la pierre angulaire des grands modèles de langage modernes, mais leur complexité computationnelle quadratique limite leur efficacité dans le traitement de séquences longues. Les avancées récentes de Mamba, un modèle d'espace d'état (SSM) à complexité linéaire, offrent des gains d'efficacité prometteurs mais souffrent d'un apprentissage contextuel instable et d'une généralisation multitâche limitée. Cet article propose TransMamba, un cadre novateur qui unifie Transformer et Mamba à travers des matrices de paramètres partagées (par exemple, QKV et CBx), permettant ainsi de basculer dynamiquement entre les mécanismes d'attention et de SSM à différentes longueurs de tokens et couches. Nous concevons le Convertisseur de Mémoire pour relier Transformer et Mamba en convertissant les sorties d'attention en états compatibles avec SSM, assurant un flux d'information fluide aux TransPoints où la transformation s'opère. La planification des TransPoints est également explorée en profondeur pour des améliorations supplémentaires. Nous avons mené des expériences approfondies démontrant que TransMamba atteint une efficacité d'entraînement et des performances supérieures par rapport aux modèles de référence, et validé la cohérence profonde entre les paradigmes Transformer et Mamba, offrant ainsi une solution évolutive pour la modélisation de séquences de nouvelle génération.
Dans l'interaction entre les agents et leurs environnements, les agents développent leurs capacités en planifiant et en exécutant des actions. Cependant, les agents basés sur des modèles de langage (LLM) rencontrent des défis substantiels lorsqu'ils sont déployés dans des environnements nouveaux ou lorsqu'ils doivent naviguer dans des espaces d'actions non conventionnels. Pour permettre aux agents d'explorer de manière autonome les environnements, d'optimiser les workflows et d'améliorer leur compréhension des actions, nous proposons SynWorld, un cadre qui permet aux agents de synthétiser des scénarios possibles avec une invocation d'actions multi-étapes dans l'espace d'actions et d'effectuer une exploration par recherche arborescente de Monte Carlo (MCTS) pour affiner efficacement leur connaissance des actions dans l'environnement actuel. Nos expériences démontrent que SynWorld est une approche efficace et générale pour l'apprentissage des connaissances d'action dans de nouveaux environnements. Le code est disponible à l'adresse https://github.com/zjunlp/SynWorld.
Les agents autonomes alimentés par des modèles de fondation ont connu une adoption généralisée dans diverses applications du monde réel. Cependant, ils restent très vulnérables aux instructions malveillantes et aux attaques, ce qui peut entraîner des conséquences graves telles que des violations de la vie privée et des pertes financières. Plus critique encore, les dispositifs de protection existants pour les LLM ne sont pas applicables en raison de la nature complexe et dynamique des agents. Pour relever ces défis, nous proposons ShieldAgent, le premier agent de protection conçu pour faire respecter explicitement les politiques de sécurité concernant la trajectoire d'actions d'autres agents protégés, grâce à un raisonnement logique. Concrètement, ShieldAgent commence par construire un modèle de politique de sécurité en extrayant des règles vérifiables à partir de documents de politique et en les structurant en un ensemble de circuits de règles probabilistes basés sur les actions. Étant donné la trajectoire d'actions de l'agent protégé, ShieldAgent récupère les circuits de règles pertinents et génère un plan de protection, en s'appuyant sur sa bibliothèque complète d'outils et sur du code exécutable pour la vérification formelle. Par ailleurs, face au manque de benchmarks de protection pour les agents, nous introduisons ShieldAgent-Bench, un ensemble de données contenant 3 000 paires d'instructions et de trajectoires d'actions liées à la sécurité, collectées via des attaques de pointe dans 6 environnements web et 7 catégories de risques. Les expériences montrent que ShieldAgent atteint des performances de pointe sur ShieldAgent-Bench et trois benchmarks existants, surpassant les méthodes précédentes de 11,3 % en moyenne avec un rappel élevé de 90,1 %. De plus, ShieldAgent réduit les requêtes API de 64,7 % et le temps d'inférence de 58,2 %, démontrant ainsi sa grande précision et son efficacité dans la protection des agents.
L'entraînement d'agents IA efficaces pour des interactions multi-tours nécessite des données de haute qualité qui capturent les dynamiques réalistes entre humains et agents. Cependant, ces données sont rares et coûteuses à collecter manuellement. Nous présentons APIGen-MT, un cadre en deux phases qui génère des données d'agents multi-tours vérifiables et diversifiées. Dans la première phase, notre pipeline agentique produit des plans détaillés de tâches avec des actions de référence, en s'appuyant sur un comité de réviseurs LLM et des boucles de rétroaction itératives. Ces plans sont ensuite transformés en trajectoires d'interaction complètes grâce à une simulation d'interaction humain-agent. Nous entraînons une famille de modèles — la série xLAM-2-fc-r avec des tailles allant de 1B à 70B paramètres. Nos modèles surpassent les modèles de pointe tels que GPT-4o et Claude 3.5 sur les benchmarks tau-bench et BFCL, les modèles plus petits surpassant leurs homologues plus grands, en particulier dans des contextes multi-tours, tout en maintenant une cohérence supérieure sur plusieurs essais. Des expériences approfondies démontrent que notre approche vérifiée de planification aux détails produit des données d'entraînement de haute qualité, permettant le développement d'agents plus fiables, efficaces et compétents. Nous mettons en open source à la fois les données synthétiques collectées et les modèles xLAM-2-fc-r entraînés pour faire avancer la recherche sur les agents IA. Les modèles sont disponibles sur HuggingFace à l'adresse https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 et le site du projet est https://apigen-mt.github.io.
Les benchmarks existants pour les MLLM (Modèles de Langage Multimodaux) rencontrent des défis significatifs dans l'évaluation des MLLM Unifiés (U-MLLM) en raison de : 1) l'absence de benchmarks standardisés pour les tâches traditionnelles, entraînant des comparaisons incohérentes ; 2) le manque de benchmarks pour la génération multimodale mixte, ce qui ne permet pas d'évaluer les capacités de raisonnement multimodal. Nous présentons un cadre d'évaluation complet conçu pour évaluer systématiquement les U-MLLM. Notre benchmark comprend : 1. Évaluation Standardisée des Tâches Traditionnelles. Nous échantillonnons à partir de 12 ensembles de données, couvrant 10 tâches avec 30 sous-tâches, garantissant des comparaisons cohérentes et équitables entre les études. 2. Évaluation Unifiée des Tâches. Nous introduisons cinq nouvelles tâches testant le raisonnement multimodal, incluant l'édition d'images, les questions-réponses de bon sens avec génération d'images, et le raisonnement géométrique. 3. Benchmarking Complet des Modèles. Nous évaluons 12 U-MLLM leaders, tels que Janus-Pro, EMU3, VILA-U, et Gemini2-flash, ainsi que des modèles spécialisés dans la compréhension (par exemple, Claude-3.5-Sonnet) et la génération (par exemple, DALL-E-3). Nos résultats révèlent des écarts de performance substantiels parmi les U-MLLM existants, soulignant la nécessité de modèles plus robustes capables de gérer efficacement les tâches multimodales mixtes. Le code et les données d'évaluation sont disponibles sur https://mme-unify.github.io/.
La reconstruction humaine à partir d'une seule image est essentielle pour les applications de modélisation numérique humaine, mais reste une tâche extrêmement complexe. Les approches actuelles s'appuient sur des modèles génératifs pour synthétiser des images multi-vues en vue d'une reconstruction 3D et d'une animation ultérieures. Cependant, la génération directe de multiples vues à partir d'une seule image humaine souffre d'incohérences géométriques, entraînant des problèmes tels que des membres fragmentés ou flous dans les modèles reconstruits. Pour surmonter ces limitations, nous introduisons HumanDreamer-X, un nouveau cadre qui intègre la génération et la reconstruction multi-vues humaines dans un pipeline unifié, améliorant significativement la cohérence géométrique et la fidélité visuelle des modèles 3D reconstruits. Dans ce cadre, le 3D Gaussian Splatting sert de représentation 3D explicite pour fournir une priorité initiale en termes de géométrie et d'apparence. Sur cette base, HumanFixer est entraîné pour restaurer les rendus 3DGS, garantissant des résultats photoréalistes. De plus, nous explorons les défis inhérents aux mécanismes d'attention dans la génération multi-vues humaine, et proposons une stratégie de modulation de l'attention qui améliore efficacement les détails géométriques et la cohérence d'identité à travers les multi-vues. Les résultats expérimentaux démontrent que notre approche améliore notablement les métriques de qualité PSNR de génération et de reconstruction de 16,45 % et 12,65 % respectivement, atteignant un PSNR allant jusqu'à 25,62 dB, tout en montrant des capacités de généralisation sur des données en conditions réelles et une applicabilité à divers modèles de base de reconstruction humaine.
Cet article présente Comprehensive Relighting, la première approche tout-en-un capable de contrôler et d'harmoniser l'éclairage à partir d'une image ou d'une vidéo de personnes avec des parties du corps arbitraires dans n'importe quelle scène. La construction d'un modèle aussi généralisable est extrêmement difficile en raison du manque de jeux de données, ce qui limite les modèles de relighting basés sur l'image à des scénarios spécifiques (par exemple, le visage ou une personne statique). Pour relever ce défi, nous réutilisons un modèle de diffusion pré-entraîné comme priorité d'image générale et modélisons conjointement le relighting humain et l'harmonisation de l'arrière-plan dans un cadre grossier-à-fin. Pour améliorer davantage la cohérence temporelle du relighting, nous introduisons un modèle d'éclairage temporel non supervisé qui apprend la cohérence cyclique de l'éclairage à partir de nombreuses vidéos du monde réel sans aucune vérité terrain. Au moment de l'inférence, notre module d'éclairage temporel est combiné aux modèles de diffusion via des algorithmes de fusion spatio-temporelle sans entraînement supplémentaire ; et nous appliquons un nouveau raffinement guidé comme post-traitement pour préserver les détails haute fréquence de l'image d'entrée. Dans les expériences, Comprehensive Relighting démontre une forte généralisabilité et une cohérence temporelle de l'éclairage, surpassant les méthodes existantes de relighting et d'harmonisation humaines basées sur l'image.
La segmentation d'images et de vidéos médicales est une tâche cruciale pour la médecine de précision, qui a connu des progrès considérables dans le développement de modèles spécifiques à une tâche ou à une modalité, ainsi que de modèles généralistes pour les images 2D. Cependant, les études sur la création de modèles polyvalents pour les images 3D et les vidéos, accompagnées d'études utilisateurs approfondies, restent limitées. Nous présentons ici MedSAM2, un modèle de segmentation fondationnel promptable pour la segmentation d'images 3D et de vidéos. Ce modèle a été développé en affinant le Segment Anything Model 2 sur un vaste ensemble de données médicales comprenant plus de 455 000 paires d'images-masques 3D et 76 000 images, surpassant les modèles précédents sur une large gamme d'organes, de lésions et de modalités d'imagerie. De plus, nous avons mis en place un pipeline humain-dans-la-boucle pour faciliter la création de jeux de données à grande échelle, aboutissant, à notre connaissance, à l'étude utilisateur la plus extensive à ce jour, impliquant l'annotation de 5 000 lésions en tomodensitométrie, 3 984 lésions hépatiques en IRM et 251 550 images vidéo d'échocardiogramme, démontrant que MedSAM2 peut réduire les coûts manuels de plus de 85 %. MedSAM2 est également intégré dans des plateformes largement utilisées, dotées d'interfaces conviviales pour un déploiement local et cloud, en faisant un outil pratique pour soutenir une segmentation efficace, évolutive et de haute qualité dans les environnements de recherche et de soins de santé.
Équilibrer la résolution temporelle et les détails spatiaux dans un budget de calcul limité reste un défi majeur pour les modèles de langage multi-modaux (MLLMs) basés sur la vidéo. Les méthodes existantes compressent généralement les représentations vidéo en utilisant des règles prédéfinies avant de les intégrer au LLM, ce qui entraîne une perte d'information irréversible et ignore souvent les instructions d'entrée. Pour résoudre ce problème, nous proposons une nouvelle architecture lente-rapide qui contourne naturellement ce compromis, permettant l'utilisation de davantage de trames d'entrée tout en préservant les détails spatiaux. Inspirés par la manière dont les humains parcourent rapidement une vidéo avant de se concentrer sur les parties pertinentes, notre conception lente-rapide utilise une stratégie à double jeton : 1) les jetons visuels "rapides" — un ensemble compact de caractéristiques vidéo compressées — sont intégrés au LLM avec les embeddings textuels pour fournir un aperçu rapide ; 2) les jetons visuels "lents" — des caractéristiques vidéo non compressées — sont soumis à une attention croisée par les embeddings textuels via des couches de décodeur hybrides spécialement conçues, permettant une extraction de détails visuels pertinents en fonction des instructions avec une complexité linéaire. Nous menons une exploration systématique pour optimiser à la fois l'architecture globale et les composants clés. Les expériences montrent que notre modèle surpasse significativement les bases de référence reposant uniquement sur l'auto-attention, étendant la capacité d'entrée de 16 à 128 trames avec seulement une augmentation de 3 % du calcul, et obtenant une amélioration moyenne de 16 % sur cinq benchmarks de compréhension vidéo. Notre modèle de 7B atteint des performances de pointe parmi les modèles de taille similaire. De plus, notre architecture lente-rapide est une conception plug-and-play qui peut être intégrée à d'autres MLLMs vidéo pour améliorer l'efficacité et l'évolutivité.
Dans cette recherche, nous présentons BEATS, un nouveau cadre d'évaluation des biais, de l'éthique, de l'équité et de la factualité dans les grands modèles de langage (LLM). En nous appuyant sur le cadre BEATS, nous proposons un benchmark de biais pour les LLM qui mesure les performances selon 29 métriques distinctes. Ces métriques couvrent un large éventail de caractéristiques, incluant les biais démographiques, cognitifs et sociaux, ainsi que des mesures de raisonnement éthique, d'équité entre groupes et de risque de désinformation liée à la factualité. Ces métriques permettent une évaluation quantitative de la mesure dans laquelle les réponses générées par les LLM peuvent perpétuer des préjugés sociétaux qui renforcent ou amplifient les inégalités systémiques. Pour obtenir un score élevé à ce benchmark, un LLM doit démontrer un comportement très équitable dans ses réponses, ce qui en fait une norme rigoureuse pour l'évaluation de l'IA responsable. Les résultats empiriques basés sur les données de notre expérience montrent que 37,65 % des sorties générées par les modèles leaders de l'industrie contenaient une forme de biais, soulignant un risque substantiel dans l'utilisation de ces modèles pour des systèmes de prise de décision critiques. Le cadre et le benchmark BEATS offrent une méthodologie évolutive et statistiquement rigoureuse pour évaluer les LLM, diagnostiquer les facteurs à l'origine des biais et développer des stratégies d'atténuation. Avec le cadre BEATS, notre objectif est de contribuer au développement de modèles d'IA plus socialement responsables et alignés sur l'éthique.
Lorsque les ondes sonores frappent un objet, elles induisent des vibrations qui produisent des changements visuels subtils et à haute fréquence, lesquels peuvent être utilisés pour reconstituer le son. Les premières études se heurtent toujours à des compromis liés au taux d'échantillonnage, à la bande passante, au champ de vision et à la simplicité du chemin optique. Les récents progrès dans le matériel des caméras événementielles montrent un bon potentiel pour leur application dans la récupération visuelle du son, grâce à leur capacité supérieure à capturer des signaux à haute fréquence. Cependant, les méthodes existantes de récupération de vibrations basées sur les événements ne sont pas encore optimales pour la récupération du son. Dans ce travail, nous proposons une nouvelle pipeline pour la récupération du son sans contact, en exploitant pleinement les informations spatio-temporelles du flux d'événements. Nous générons d'abord un grand ensemble d'entraînement en utilisant une nouvelle pipeline de simulation. Ensuite, nous avons conçu un réseau qui tire parti de la parcimonie des événements pour capturer les informations spatiales et utilise Mamba pour modéliser les informations temporelles à long terme. Enfin, nous entraînons un bloc d'agrégation spatiale pour agréger les informations provenant de différents emplacements afin d'améliorer encore la qualité du signal. Pour capturer les signaux d'événements causés par les ondes sonores, nous avons également conçu un système d'imagerie utilisant une matrice laser pour améliorer le gradient et avons collecté plusieurs séquences de données pour les tests. Les résultats expérimentaux sur des données synthétiques et réelles démontrent l'efficacité de notre méthode.
Les récents progrès dans le domaine du clonage comportemental ont permis aux robots d'exécuter des tâches de manipulation complexes. Cependant, l'évaluation précise des performances d'entraînement reste un défi, en particulier pour les applications en conditions réelles, car les pertes liées au clonage comportemental corrèlent souvent mal avec la réussite effective des tâches. Par conséquent, les chercheurs se tournent vers des métriques de taux de succès dérivées d'évaluations en conditions réelles coûteuses et chronophages, rendant l'identification de politiques optimales et la détection de surajustement ou de sous-ajustement peu pratiques. Pour résoudre ces problèmes, nous proposons real-is-sim, un nouveau cadre de clonage comportemental qui intègre un jumeau numérique dynamique (basé sur les Gaussiennes Embodied) tout au long du pipeline de développement de la politique : collecte de données, entraînement et déploiement. En alignant continuellement le monde simulé avec le monde physique, les démonstrations peuvent être collectées dans le monde réel avec des états extraits du simulateur. Le simulateur permet des représentations d'état flexibles en rendant des entrées d'image depuis n'importe quel point de vue ou en extrayant des informations d'état de bas niveau à partir des objets incarnés dans la scène. Pendant l'entraînement, les politiques peuvent être directement évaluées dans le simulateur de manière hors ligne et hautement parallélisable. Enfin, lors du déploiement, les politiques sont exécutées dans le simulateur où le robot réel suit directement les articulations du robot simulé, découplant ainsi efficacement l'exécution de la politique du matériel réel et atténuant les défis traditionnels de transfert de domaine. Nous validons real-is-sim sur la tâche de manipulation PushT, démontrant une forte corrélation entre les taux de succès obtenus dans le simulateur et les évaluations en conditions réelles. Les vidéos de notre système sont disponibles à l'adresse https://realissim.rai-inst.com.
La délimitation précise des limites des parcelles agricoles à partir d'imagerie satellitaire est essentielle pour la gestion des terres et le suivi des cultures. Cependant, les méthodes actuelles rencontrent des difficultés en raison de la taille limitée des jeux de données, des écarts de résolution et des conditions environnementales variées. Nous abordons ce problème en reformulant la tâche comme un problème de segmentation d'instances et en introduisant le jeu de données Field Boundary Instance Segmentation - 22M (FBIS-22M), un ensemble de données à grande échelle et multi-résolution comprenant 672 909 patches d'images satellitaires haute résolution (allant de 0,25 m à 10 m) et 22 926 427 masques d'instances de parcelles individuelles, réduisant ainsi considérablement l'écart entre les jeux de données agricoles et ceux d'autres domaines de la vision par ordinateur. Nous proposons également Delineate Anything, un modèle de segmentation d'instances entraîné sur notre nouveau jeu de données FBIS-22M. Notre modèle proposé établit un nouvel état de l'art, avec une amélioration substantielle de 88,5 % en [email protected] et de 103 % en [email protected]:0.95 par rapport aux méthodes existantes, tout en démontrant une inférence significativement plus rapide et une forte généralisation zero-shot sur diverses résolutions d'images et régions géographiques inédites. Le code, les modèles pré-entraînés et le jeu de données FBIS-22M sont disponibles à l'adresse suivante : https://lavreniuk.github.io/Delineate-Anything.
L'ajustement fin d'un modèle pré-entraîné de génération d'images à partir de texte (Text-to-Image, T2I) sur un ensemble de données de portraits personnalisés est la méthode dominante pour la personnalisation pilotée par texte des attributs de portrait. En raison de la pollution sémantique lors de l'ajustement fin, les méthodes existantes peinent à maintenir le comportement original du modèle et à réaliser un apprentissage incrémental tout en personnalisant les attributs cibles. Pour résoudre ce problème, nous proposons SPF-Portrait, une approche novatrice visant à comprendre purement les sémantiques personnalisées tout en éliminant la pollution sémantique dans la personnalisation de portraits pilotée par texte. Dans SPF-Portrait, nous proposons un pipeline à double voie qui introduit le modèle original comme référence pour la voie d'ajustement fin conventionnelle. Grâce à l'apprentissage contrastif, nous assurons l'adaptation aux attributs cibles et alignons intentionnellement les autres attributs non liés avec le portrait original. Nous introduisons une nouvelle Carte de Contrôle Fin Sémantique, qui représente les régions de réponse précises des sémantiques cibles, pour guider spatialement le processus d'alignement entre les voies contrastives. Ce processus d'alignement préserve non seulement efficacement les performances du modèle original, mais évite également un sur-alignement. De plus, nous proposons un nouveau mécanisme de renforcement de la réponse pour améliorer les performances des attributs cibles, tout en atténuant les écarts de représentation inhérents à la supervision directe intermodale. Des expériences approfondies démontrent que SPF-Portrait atteint des performances de pointe. Page web du projet : https://spf-portrait.github.io/SPF-Portrait/