Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce travail, nous présentons Qwen3, la dernière version de la famille de modèles Qwen. Qwen3 comprend une série de grands modèles de langage (LLM) conçus pour améliorer les performances, l'efficacité et les capacités multilingues. La série Qwen3 inclut des modèles à architecture dense et à architecture Mixture-of-Experts (MoE), avec des échelles de paramètres allant de 0,6 à 235 milliards. Une innovation clé de Qwen3 est l'intégration d'un mode de réflexion (pour un raisonnement complexe et multi-étapes) et d'un mode non-réflexion (pour des réponses rapides et contextuelles) dans un cadre unifié. Cela élimine le besoin de basculer entre différents modèles—tels que les modèles optimisés pour le chat (par exemple, GPT-4o) et les modèles dédiés au raisonnement (par exemple, QwQ-32B)—et permet un changement de mode dynamique basé sur les requêtes de l'utilisateur ou les modèles de chat. Par ailleurs, Qwen3 introduit un mécanisme de budget de réflexion, permettant aux utilisateurs d'allouer les ressources de calcul de manière adaptative lors de l'inférence, équilibrant ainsi la latence et les performances en fonction de la complexité de la tâche. De plus, en exploitant les connaissances des modèles phares, nous réduisons considérablement les ressources de calcul nécessaires pour construire des modèles à plus petite échelle, tout en assurant des performances très compétitives. Les évaluations empiriques démontrent que Qwen3 atteint des résultats de pointe sur divers benchmarks, incluant des tâches de génération de code, de raisonnement mathématique, de tâches d'agents, etc., rivalisant avec des modèles MoE plus grands et des modèles propriétaires. Par rapport à son prédécesseur Qwen2.5, Qwen3 étend le support multilingue de 29 à 119 langues et dialectes, améliorant l'accessibilité mondiale grâce à une meilleure compréhension et génération interlangues. Pour faciliter la reproductibilité et la recherche et développement communautaire, tous les modèles Qwen3 sont accessibles publiquement sous licence Apache 2.0.
Pour améliorer la sécurité des modèles de langage visuel (VLMs), cet article présente un nouveau modèle de protection basé sur le raisonnement, nommé GuardReasoner-VL. L'idée centrale est d'inciter le modèle de protection à raisonner de manière délibérée avant de prendre des décisions de modération via l'apprentissage par renforcement en ligne (RL). Tout d'abord, nous construisons GuardReasoner-VLTrain, un corpus de raisonnement contenant 123 000 échantillons et 631 000 étapes de raisonnement, couvrant des entrées textuelles, visuelles et textuelles-visuelles. Ensuite, sur cette base, nous initialisons la capacité de raisonnement de notre modèle via un apprentissage supervisé fin (SFT). De plus, nous renforçons davantage le raisonnement concernant la modération grâce à l'apprentissage par renforcement en ligne. Concrètement, pour augmenter la diversité et la difficulté des échantillons, nous effectuons un échantillonnage par rejet suivi d'une augmentation des données via une concaténation de données consciente de la sécurité. Par ailleurs, nous utilisons un paramètre de découpage dynamique pour encourager l'exploration dans les premières étapes et l'exploitation dans les étapes ultérieures. Pour équilibrer la performance et l'efficacité des tokens, nous concevons une récompense de sécurité prenant en compte la longueur, qui intègre la précision, le format et le coût en tokens. Des expériences approfondies démontrent la supériorité de notre modèle. De manière remarquable, il surpasse le second meilleur modèle par un score F1 moyen de 19,27 %. Nous mettons à disposition les données, le code et les modèles (3B/7B) de GuardReasoner-VL à l'adresse https://github.com/yueliu1999/GuardReasoner-VL/.
Les récents progrès des modèles de langage à grande échelle (LLMs) et de leurs extensions multimodales (MLLMs) ont considérablement amélioré le raisonnement machine à travers diverses tâches. Cependant, ces modèles reposent principalement sur le texte pur comme moyen d'expression et de structuration du raisonnement, même en présence d'informations visuelles. Dans ce travail, nous soutenons que le langage n'est pas toujours la modalité la plus naturelle ou efficace pour le raisonnement, en particulier dans les tâches impliquant des informations spatiales et géométriques. Motivés par cela, nous proposons un nouveau paradigme, la Planification Visuelle, qui permet de planifier à travers des représentations purement visuelles, indépendamment du texte. Dans ce paradigme, la planification est exécutée via des séquences d'images qui encodent l'inférence étape par étape dans le domaine visuel, de manière similaire à la façon dont les humains esquissent ou visualisent des actions futures. Nous introduisons un nouveau cadre d'apprentissage par renforcement, la Planification Visuelle par Apprentissage par Renforcement (VPRL), renforcé par GRPO pour l'après-entraînement de grands modèles de vision, conduisant à des améliorations substantielles dans la planification pour une sélection de tâches de navigation visuelle représentatives, telles que FrozenLake, Maze et MiniBehavior. Notre paradigme de planification visuelle surpasse toutes les autres variantes de planification qui effectuent le raisonnement dans l'espace textuel uniquement. Nos résultats établissent la Planification Visuelle comme une alternative viable et prometteuse au raisonnement basé sur le langage, ouvrant de nouvelles voies pour les tâches qui bénéficient d'une inférence intuitive basée sur les images.
L'extension rapide des fenêtres contextuelles dans les grands modèles vision-langage a donné naissance aux modèles vision-langage à contexte long (LCVLMs), capables de traiter des centaines d'images avec des tokens de texte entrelacés en une seule passe avant. Dans ce travail, nous introduisons MMLongBench, le premier benchmark couvrant un ensemble diversifié de tâches vision-langage à contexte long, pour évaluer les LCVLMs de manière efficace et approfondie. MMLongBench est composé de 13 331 exemples répartis en cinq catégories différentes de tâches en aval, telles que le RAG visuel et l'ICL Many-Shot. Il offre également une couverture large des types d'images, incluant diverses images naturelles et synthétiques. Pour évaluer la robustesse des modèles à différentes longueurs d'entrée, tous les exemples sont fournis à cinq longueurs d'entrée standardisées (8K-128K tokens) via un schéma de tokenisation cross-modal combinant des patches visuels et des tokens de texte. À travers un benchmarking approfondi de 46 LCVLMs propriétaires et open-source, nous fournissons une analyse complète des capacités actuelles des modèles en contexte long vision-langage. Nos résultats montrent que : i) la performance sur une seule tâche est un faible indicateur de la capacité globale en contexte long ; ii) les modèles propriétaires et open-source rencontrent des difficultés dans les tâches vision-langage à contexte long, indiquant une marge substantielle d'amélioration future ; iii) les modèles dotés d'une meilleure capacité de raisonnement tendent à afficher de meilleures performances en contexte long. En offrant une large couverture de tâches, divers types d'images et un contrôle rigoureux de la longueur, MMLongBench fournit la base manquante pour diagnostiquer et faire progresser la prochaine génération de LCVLMs.
Les récents progrès des grands modèles de langage (LLM) ont démontré la puissance du raisonnement à travers des chaînes de pensée auto-générées. Plusieurs agents de raisonnement peuvent collaborer pour élever la qualité du raisonnement conjoint au-dessus des résultats individuels. Cependant, ces agents interagissent généralement de manière séquentielle, échangeant une latence accrue contre une amélioration de la qualité. Dans cet article, nous proposons Group Think—un seul LLM qui agit comme plusieurs agents de raisonnement concurrents, ou penseurs. Avec une visibilité partagée sur l'avancement partiel de la génération de chacun, Group Think introduit un nouveau paradigme de raisonnement concurrent dans lequel plusieurs trajectoires de raisonnement s'adaptent dynamiquement les unes aux autres au niveau des tokens. Par exemple, un fil de raisonnement peut modifier sa génération en plein milieu de phrase en détectant qu'un autre fil est mieux positionné pour continuer. Cette collaboration fine au niveau des tokens permet à Group Think de réduire le raisonnement redondant et d'améliorer la qualité tout en atteignant une latence significativement plus faible. De plus, sa nature concurrente permet une utilisation efficace des ressources de calcul inactives, le rendant particulièrement adapté à l'inférence en périphérie, où de très petites tailles de lots sous-utilisent souvent les GPU locaux. Nous proposons une modification simple et généralisable qui permet à tout LLM existant de réaliser Group Think sur un GPU local. Nous présentons également une stratégie d'évaluation pour mesurer la latence du raisonnement et démontrons empiriquement des améliorations de latence en utilisant des LLM open-source qui n'ont pas été explicitement entraînés pour Group Think. Nous espérons que ce travail ouvre la voie à des LLM futurs pour manifester un comportement collaboratif plus sophistiqué et plus efficace, permettant une génération de meilleure qualité.
Les modèles vision-langage (VLMs) ont obtenu un succès remarquable dans diverses tâches en exploitant des informations textuelles riches avec un minimum de données étiquetées. Cependant, le déploiement de ces grands modèles reste difficile, en particulier dans des environnements aux ressources limitées. La distillation de connaissances (KD) offre une solution bien établie à ce problème ; cependant, les approches récentes de KD à partir de VLMs impliquent souvent un entraînement en plusieurs étapes ou un réglage supplémentaire, augmentant la surcharge computationnelle et la complexité de l'optimisation. Dans cet article, nous proposons \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (\texttt{DHO}) -- un cadre de KD simple mais efficace qui transfère les connaissances des VLMs vers des modèles compacts et spécifiques à une tâche dans des contextes semi-supervisés. Plus précisément, nous introduisons des têtes de prédiction doubles qui apprennent indépendamment à partir de données étiquetées et des prédictions de l'enseignant, et proposons de combiner linéairement leurs sorties lors de l'inférence. Nous observons que DHO atténue les conflits de gradient entre les signaux supervisés et de distillation, permettant un apprentissage des caractéristiques plus efficace que les baselines à tête unique de KD. Par conséquent, des expériences approfondies montrent que DHO surpasse systématiquement les baselines dans plusieurs domaines et sur des ensembles de données à granularité fine. Notamment, sur ImageNet, il atteint des performances de pointe, améliorant la précision de 3 % et 0,1 % avec respectivement 1 % et 10 % de données étiquetées, tout en utilisant moins de paramètres.
La fusion de modèles permet de combiner les capacités de modèles existants en un nouveau - a posteriori, sans entraînement supplémentaire. Cette approche a gagné en popularité grâce à son faible coût et à la disponibilité de bibliothèques prenant en charge la fusion sur des GPU grand public. Des travaux récents montrent que l'association de la fusion avec des algorithmes évolutionnaires peut améliorer les performances, mais aucun cadre ne supporte actuellement l'expérimentation flexible avec de telles stratégies pour les modèles de langage. Nous présentons Mergenetic, une bibliothèque open-source pour la fusion évolutive de modèles. Mergenetic permet une composition aisée des méthodes de fusion et des algorithmes évolutionnaires tout en intégrant des estimateurs légers de fitness pour réduire les coûts d'évaluation. Nous décrivons sa conception et démontrons que Mergenetic produit des résultats compétitifs sur diverses tâches et langues en utilisant un matériel modeste.
La prédiction multi-tokens s'est imposée comme un objectif prometteur pour améliorer le pré-entraînement des modèles de langage, mais ses avantages ne se sont pas systématiquement généralisés à d'autres contextes, tels que le réglage fin. Dans cet article, nous proposons MuToR, une approche simple et efficace pour la prédiction multi-tokens qui entrelace des tokens de registre apprenables dans la séquence d'entrée, chacun étant chargé de prédire des cibles futures. Par rapport aux méthodes existantes, MuToR offre plusieurs avantages clés : il introduit un nombre négligeable de paramètres supplémentaires, ne nécessite aucune modification architecturale—garantissant ainsi la compatibilité avec les modèles de langage pré-entraînés disponibles—et reste aligné avec l'objectif de prédiction du token suivant, ce qui le rend particulièrement adapté au réglage fin supervisé. De plus, il supporte naturellement des horizons de prédiction évolutifs. Nous démontrons l'efficacité et la polyvalence de MuToR à travers une gamme de cas d'utilisation, incluant le réglage fin supervisé, le réglage fin efficace en paramètres (PEFT), et le pré-entraînement, sur des tâches génératives complexes dans les domaines du langage et de la vision. Notre code sera disponible à l'adresse : https://github.com/nasosger/MuToR.
Les grands modèles de langage (LLMs) ont démontré des performances solides dans un large éventail de tâches de programmation, mais leur potentiel pour l'optimisation de code reste sous-exploré. Ce travail étudie si les LLMs peuvent optimiser les performances du code assembleur, où un contrôle fin de l'exécution permet des améliorations difficiles à exprimer dans les langages de haut niveau. Nous présentons un cadre d'apprentissage par renforcement qui entraîne les LLMs en utilisant l'Optimisation de Politique Proximale (PPO), guidé par une fonction de récompense qui prend en compte à la fois la correction fonctionnelle, validée par des cas de test, et les performances d'exécution par rapport au compilateur industriel de référence gcc -O3. Pour soutenir cette étude, nous introduisons un benchmark de 8 072 programmes réels. Notre modèle, Qwen2.5-Coder-7B-PPO, atteint un taux de réussite aux tests de 96,0 % et une accélération moyenne de 1,47x par rapport à la base de référence gcc -O3, surpassant les 20 autres modèles évalués, y compris Claude-3.7-sonnet. Ces résultats indiquent que l'apprentissage par renforcement peut libérer le potentiel des LLMs pour servir d'optimiseurs efficaces des performances du code assembleur.
La démonstration automatique de théorèmes (ATP) dans les langages formels reste un défi majeur en IA, nécessitant une déduction logique rigoureuse et la navigation dans des espaces de recherche vastes. Bien que les grands modèles de langage (LLM) aient montré des performances prometteuses, les prouveurs pas à pas existants souffrent souvent d'un guidage de recherche biaisé, entraînant des inefficacités et des stratégies de preuve sous-optimales. Cet article présente le Multi-Perspective Search Prover (MPS-Prover), un nouveau système ATP pas à pas conçu pour surmonter ces limitations. MPS-Prover intègre deux innovations clés : une stratégie de curation de données post-entraînement très efficace qui élimine environ 40 % des données d'entraînement redondantes sans compromettre les performances, et un mécanisme de recherche arborescente multi-perspectives. Cette recherche intègre un modèle critique appris avec des règles heuristiques stratégiquement conçues pour diversifier la sélection de tactiques, éviter de rester bloqué dans des états improductifs et renforcer la robustesse de la recherche. Des évaluations approfondies démontrent que MPS-Prover atteint des performances de pointe sur plusieurs benchmarks exigeants, notamment miniF2F et ProofNet, surpassant les modèles précédents à 7 milliards de paramètres. De plus, nos analyses révèlent que MPS-Prover génère des preuves significativement plus courtes et plus diversifiées par rapport aux méthodes pas à pas et de preuve complète existantes, mettant en évidence son efficacité et son efficience. Notre travail fait progresser les capacités du raisonnement formel basé sur les LLM et propose un cadre robuste ainsi qu'une analyse complète pour développer des prouveurs de théorèmes plus puissants.
Malgré les avancées rapides des capacités des modèles génératifs, les modèles pré-entraînés de génération d'images à partir de texte peinent encore à capturer la sémantique véhiculée par des prompts complexes combinant plusieurs objets et attributs au niveau des instances. Par conséquent, nous observons un intérêt croissant pour l'intégration de contraintes structurelles supplémentaires, généralement sous la forme de boîtes englobantes grossières, afin de mieux guider le processus de génération dans ces cas difficiles. Dans ce travail, nous poussons l'idée de guidage structurel un peu plus loin en constatant que les modèles contemporains de génération d'images peuvent directement fournir une initialisation structurelle fine et plausible. Nous proposons une technique qui associe ce guidage structurel basé sur l'image à des instructions au niveau des instances générées par des modèles de langage (LLM), produisant ainsi des images qui respectent toutes les parties du prompt textuel, y compris le nombre d'objets, les attributs au niveau des instances et les relations spatiales entre les instances.
Les études récentes sur les capacités de raisonnement des grands modèles de langage (LLM) ont montré des améliorations prometteuses des performances des modèles en exploitant un processus de réflexion prolongé et des ressources computationnelles supplémentaires lors de l'inférence, principalement dans les tâches impliquant un raisonnement mathématique (Muennighoff et al., 2025). Cependant, il reste incertain si des chaînes de raisonnement plus longues améliorent intrinsèquement la précision factuelle, en particulier au-delà des contextes mathématiques. Dans ce travail, nous examinons minutieusement le raisonnement des LLM dans des scénarios complexes de question-réponse (QA) en domaine ouvert. Nous distillons initialement des traces de raisonnement à partir de modèles de raisonnement à grande échelle avancés (QwQ-32B et DeepSeek-R1-671B), puis affinons une variété de modèles allant de variantes plus petites et ajustées par instruction à des architectures plus grandes basées sur Qwen2.5. Pour enrichir les traces de raisonnement, nous introduisons des informations factuelles provenant de graphes de connaissances sous forme de chemins dans nos traces de raisonnement. Notre configuration expérimentale comprend quatre approches de base et six modèles différents ajustés par instruction évalués sur un benchmark de six ensembles de données, couvrant plus de 22,6K questions. Au total, nous effectuons 168 exécutions expérimentales et analysons environ 1,7 million de traces de raisonnement. Nos résultats indiquent que, dans une seule exécution, les modèles de raisonnement plus petits obtiennent des améliorations notables de la précision factuelle par rapport à leurs homologues ajustés par instruction d'origine. De plus, notre analyse démontre que l'ajout de ressources computationnelles et de budgets de tokens au moment du test améliore systématiquement la précision factuelle de 2 à 8 %, confirmant ainsi l'efficacité de la mise à l'échelle au moment du test pour améliorer les performances et, par conséquent, la précision du raisonnement dans les tâches de QA en domaine ouvert. Nous publions tous les artefacts expérimentaux pour des recherches ultérieures.
Les grands modèles de langage (LLM) sont de plus en plus appliqués aux questions de science des matériaux, notamment la compréhension de la littérature, la prédiction des propriétés, la découverte de matériaux et la conception d'alliages. Parallèlement, une large gamme d'approches computationnelles basées sur la physique a été développée pour calculer les propriétés des matériaux. Nous proposons ici une application de référence pour évaluer la capacité des LLM à répondre à des questions de science des matériaux grâce à la génération et à l'exécution sécurisée de codes basés sur ces packages computationnels de science des matériaux. MatTools repose sur deux composantes complémentaires : un benchmark de questions-réponses (QA) pour les outils de simulation des matériaux et un benchmark d'utilisation d'outils en conditions réelles. Nous avons conçu une méthodologie automatisée pour collecter efficacement des exemples d'utilisation réelle d'outils en science des matériaux. Le benchmark QA, dérivé de la base de code et de la documentation de pymatgen (Python Materials Genomics), comprend 69 225 paires QA qui évaluent la capacité d'un LLM à comprendre les outils de science des matériaux. Le benchmark en conditions réelles contient 49 tâches (138 sous-tâches) nécessitant la génération de code Python fonctionnel pour le calcul des propriétés des matériaux. Notre évaluation de divers LLM révèle trois insights clés : (1) Les généralistes surpassent les spécialistes ; (2) L'IA connaît l'IA ; et (3) Plus simple est mieux. MatTools fournit un cadre standardisé pour évaluer et améliorer les capacités des LLM pour les applications d'outils en science des matériaux, facilitant le développement de systèmes d'IA plus efficaces pour la science des matériaux et la recherche scientifique en général.
Alors que les modèles de langage de grande taille (LLMs) s'intègrent dans nos interactions sociales et économiques, il est essentiel d'approfondir notre compréhension de la manière dont les humains réagissent face aux LLMs dans des contextes stratégiques. Nous présentons les résultats de la première expérience de laboratoire contrôlée et monétairement incitée, examinant les différences de comportement humain dans un concours de beauté-p à plusieurs joueurs contre d'autres humains et contre des LLMs. Nous utilisons un plan d'étude intra-sujet afin de comparer les comportements au niveau individuel. Nous montrons que, dans cet environnement, les sujets humains choisissent des nombres significativement plus faibles lorsqu'ils jouent contre des LLMs que contre des humains, ce qui est principalement dû à la prévalence accrue des choix d'équilibre de Nash à 'zéro'. Ce changement est principalement motivé par les sujets ayant une forte capacité de raisonnement stratégique. Les sujets qui choisissent l'équilibre de Nash à zéro justifient leur stratégie en invoquant la capacité de raisonnement perçue des LLMs et, de manière inattendue, leur propension à la coopération. Nos résultats fournissent des insights fondamentaux sur l'interaction multi-joueurs entre humains et LLMs dans des jeux à choix simultanés, révèlent des hétérogénéités dans le comportement des sujets et leurs croyances concernant le jeu des LLMs lorsqu'ils jouent contre eux, et suggèrent des implications importantes pour la conception de mécanismes dans des systèmes mixtes humains-LLMs.
La modification d'images à l'aide d'instructions en langage naturel est devenue une méthode intuitive et expressive pour transformer le contenu visuel ; cependant, évaluer la performance de tels modèles reste un défi. Les approches d'évaluation existantes reposent souvent sur des métriques de similarité image-texte comme CLIP, qui manquent de précision. Dans ce travail, nous introduisons un nouveau benchmark conçu pour évaluer les modèles de modification d'images guidés par texte de manière plus rigoureuse, selon deux dimensions critiques : (i) la correction fonctionnelle, évaluée via des questions à choix multiples générées automatiquement pour vérifier si le changement souhaité a été correctement appliqué ; et (ii) la préservation du contenu de l'image, qui garantit que les régions non ciblées restent visuellement cohérentes grâce à une technique de masquage basée sur les objets et à un score de préservation. Le benchmark comprend plus de 1000 exemples de modifications de haute qualité répartis dans 20 catégories de contenu variées, chacun annoté avec des instructions détaillées, des questions d'évaluation et des masques spatiaux d'objets. Nous menons une étude à grande échelle comparant GPT-Image-1, le dernier modèle phare dans le domaine de la modification d'images guidée par texte, à plusieurs modèles de pointe, et validons nos métriques automatiques par rapport aux évaluations humaines. Les résultats montrent que GPT-Image-1 excelle en précision dans le suivi des instructions, mais modifie souvent excessivement des régions non pertinentes de l'image, mettant en lumière un compromis clé dans le comportement actuel des modèles. GIE-Bench offre un cadre évolutif et reproductible pour faire progresser l'évaluation plus précise de la modification d'images guidée par texte.
Les mains sont essentielles à l'interaction humaine, et comprendre les contacts entre les mains et le monde peut favoriser une compréhension approfondie de leur fonction. Récemment, on observe une augmentation du nombre de jeux de données sur les interactions manuelles, couvrant les interactions avec des objets, d'autres mains, des scènes et le corps. Malgré l'importance de cette tâche et la disponibilité croissante de données de haute qualité, la manière d'apprendre efficacement l'estimation dense des contacts manuels reste largement inexplorée. Deux défis majeurs se posent pour l'apprentissage de l'estimation dense des contacts manuels. Premièrement, il existe un problème de déséquilibre de classe dans les jeux de données sur les contacts manuels, où la majorité des échantillons ne sont pas en contact. Deuxièmement, ces jeux de données présentent un déséquilibre spatial, la plupart des contacts se situant au niveau des extrémités des doigts, ce qui pose des défis pour la généralisation des contacts dans d'autres régions de la main. Pour résoudre ces problèmes, nous proposons un cadre d'apprentissage pour l'estimation dense des contacts manuels (HACO) à partir de données déséquilibrées. Pour atténuer le déséquilibre de classe, nous introduisons un échantillonnage équilibré des contacts, qui construit et échantillonne à partir de plusieurs groupes représentant équitablement les statistiques de contact pour les échantillons avec et sans contact. De plus, pour traiter le déséquilibre spatial, nous proposons une perte équilibrée au niveau des sommets (VCB), qui intègre la distribution spatiale des contacts en pondérant séparément la contribution de la perte de chaque sommet en fonction de sa fréquence de contact dans le jeu de données. En conséquence, nous apprenons efficacement à prédire l'estimation dense des contacts manuels à partir de données à grande échelle, sans souffrir des problèmes de déséquilibre de classe et spatial. Les codes seront rendus publics.
La segmentation précise des régions d'intérêt dans les images biomédicales revêt une importance considérable dans l'analyse d'images. Bien que plusieurs modèles de base pour la segmentation biomédicale aient actuellement atteint des performances excellentes sur certains ensembles de données, ils montrent généralement des performances sous-optimales sur des données de domaines non vus. Nous attribuons cette lacune à l'absence de connaissances vision-langage avant la segmentation. Les modèles de langage multimodaux de grande envergure (MLLMs) apportent des capacités exceptionnelles de compréhension et de raisonnement aux tâches multimodales, ce qui nous inspire à exploiter les MLLMs pour injecter des connaissances vision-langage (VLK), permettant ainsi aux modèles de vision de démontrer des capacités de généralisation supérieures sur des ensembles de données inter-domaines. Dans cet article, nous proposons d'utiliser les MLLMs pour guider SAM dans l'apprentissage de données microscopiques inter-domaines, unifiant Segment Anything in Microscopy, nommé uLLSAM. Plus précisément, nous proposons le module d'alignement sémantique vision-langage (VLSA), qui injecte des VLK dans le modèle Segment Anything (SAM). Nous constatons qu'après avoir reçu des prompts globaux de VLK, les performances de SAM s'améliorent significativement, mais il existe des lacunes dans la perception des contours des limites. Par conséquent, nous proposons en outre la régularisation des limites sémantiques (SBR) pour guider SAM. Notre méthode obtient des améliorations de performances de 7,71 % en Dice et de 12,10 % en SA sur 9 ensembles de données microscopiques intra-domaines, atteignant des performances de pointe. Notre méthode démontre également des améliorations de 6,79 % en Dice et de 10,08 % en SA sur 10 ensembles de données extra-domaines, montrant de solides capacités de généralisation. Le code est disponible à l'adresse https://github.com/ieellee/uLLSAM.
Nous présentons CheXGenBench, un cadre d'évaluation rigoureux et multidimensionnel pour la génération synthétique de radiographies thoraciques, qui évalue simultanément la fidélité, les risques de confidentialité et l'utilité clinique des modèles génératifs texte-image les plus avancés. Malgré les progrès rapides de l'IA générative pour les images du monde réel, les évaluations dans le domaine médical ont été entravées par des incohérences méthodologiques, des comparaisons architecturales obsolètes et des critères d'évaluation déconnectés qui abordent rarement la valeur clinique pratique des échantillons synthétiques. CheXGenBench surmonte ces limitations grâce à un partitionnement standardisé des données et un protocole d'évaluation unifié comprenant plus de 20 métriques quantitatives qui analysent systématiquement la qualité de génération, les vulnérabilités potentielles en matière de confidentialité et l'applicabilité clinique en aval pour 11 architectures texte-image de pointe. Nos résultats révèlent des inefficacités critiques dans les protocoles d'évaluation existants, en particulier dans l'évaluation de la fidélité générative, conduisant à des comparaisons incohérentes et peu informatives. Notre cadre établit un benchmark standardisé pour la communauté de l'IA médicale, permettant des comparaisons objectives et reproductibles tout en facilitant l'intégration transparente des modèles génératifs existants et futurs. De plus, nous publions un ensemble de données synthétiques de haute qualité, SynthCheX-75K, comprenant 75 000 radiographies générées par le modèle le plus performant (Sana 0.6B) dans notre benchmark, pour soutenir les recherches ultérieures dans ce domaine critique. Grâce à CheXGenBench, nous établissons un nouvel état de l'art et mettons à disposition notre cadre, nos modèles et l'ensemble de données SynthCheX-75K sur https://raman1121.github.io/CheXGenBench/.
L'essor des modèles de langage de grande taille (LLMs) a accru les préoccupations concernant l'utilisation abusive de textes générés par l'IA, faisant du tatouage numérique une solution prometteuse. Les principales méthodes de tatouage pour les LLMs se divisent en deux catégories : celles basées sur les logits et celles basées sur l'échantillonnage. Cependant, les méthodes actuelles impliquent des compromis entre robustesse, qualité du texte et sécurité. Pour atténuer cela, nous intégrons les approches basées sur les logits et sur l'échantillonnage, en exploitant leurs forces respectives pour atteindre une synergie. Dans cet article, nous proposons un cadre de tatouage symbiotique polyvalent avec trois stratégies : série, parallèle et hybride. Le cadre hybride intègre de manière adaptative des tatouages en utilisant l'entropie des tokens et l'entropie sémantique, optimisant ainsi l'équilibre entre détectabilité, robustesse, qualité du texte et sécurité. De plus, nous validons notre approche à travers des expériences approfondies sur divers ensembles de données et modèles. Les résultats expérimentaux montrent que notre méthode surpasse les références existantes et atteint des performances de pointe (state-of-the-art, SOTA). Nous pensons que ce cadre offre de nouvelles perspectives sur les paradigmes variés du tatouage numérique. Notre code est disponible à l'adresse suivante : https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.
Le transfert de style avec optimisation au moment de l'inférence (ST-ITO) est une approche récente pour transférer les effets appliqués d'un audio de référence à une piste audio brute. Il optimise les paramètres des effets pour minimiser la distance entre les embeddings de style de l'audio traité et celui de référence. Cependant, cette méthode traite toutes les configurations possibles de manière égale et repose uniquement sur l'espace d'embedding, ce qui peut conduire à des résultats irréalistes ou biaisés. Nous abordons cet écueil en introduisant un a priori gaussien dérivé d'un jeu de données de préréglages vocaux, DiffVox, sur l'espace des paramètres. L'optimisation résultante est équivalente à une estimation du maximum a posteriori. Les évaluations sur le transfert d'effets vocaux sur le jeu de données MedleyDB montrent des améliorations significatives sur plusieurs métriques par rapport aux méthodes de référence, y compris un estimateur d'effets audio aveugle, des approches par plus proches voisins et le ST-ITO non calibré. La calibration proposée réduit l'erreur quadratique moyenne des paramètres jusqu'à 33 % et correspond mieux au style de référence. Des évaluations subjectives avec 16 participants confirment la supériorité de notre méthode, en particulier dans des régimes de données limitées. Ce travail démontre comment l'intégration de connaissances a priori au moment de l'inférence améliore le transfert d'effets audio, ouvrant la voie à des systèmes de traitement audio plus efficaces et réalistes.