Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le domaine du diagnostic médical a connu une transformation significative avec l'avènement des grands modèles de langage (LLM), mais les défis liés à l'interprétabilité de ces modèles restent largement non résolus. Cette étude introduit la Chaîne de Diagnostic (Chain-of-Diagnosis, CoD) pour améliorer l'interprétabilité des diagnostics médicaux basés sur les LLM. CoD transforme le processus diagnostique en une chaîne de diagnostic qui reflète le raisonnement d'un médecin, offrant ainsi un cheminement de pensée transparent. De plus, CoD produit une distribution de confiance des maladies pour garantir la transparence dans la prise de décision. Cette interprétabilité rend les diagnostics du modèle contrôlables et aide à identifier les symptômes critiques à explorer grâce à la réduction de l'entropie des confiances. Avec CoD, nous avons développé DiagnosisGPT, capable de diagnostiquer 9604 maladies. Les résultats expérimentaux montrent que DiagnosisGPT surpasse d'autres LLM sur les benchmarks de diagnostic. Par ailleurs, DiagnosisGPT offre une interprétabilité tout en assurant une contrôlabilité dans la rigueur diagnostique.
Cet article n'introduit pas une nouvelle méthode. Il propose plutôt une comparaison plus équitable et plus exhaustive des modèles KAN et MLP à travers diverses tâches, incluant l'apprentissage automatique, la vision par ordinateur, le traitement audio, le traitement du langage naturel et la représentation de formules symboliques. Plus précisément, nous contrôlons le nombre de paramètres et les FLOPs pour comparer les performances de KAN et MLP. Notre observation principale est que, à l'exception des tâches de représentation de formules symboliques, MLP surpasse généralement KAN. Nous menons également des études d'ablation sur KAN et constatons que son avantage dans la représentation de formules symboliques provient principalement de sa fonction d'activation B-spline. Lorsque B-spline est appliquée à MLP, les performances en représentation de formules symboliques s'améliorent significativement, dépassant ou égalant celles de KAN. Cependant, dans d'autres tâches où MLP surpasse déjà KAN, B-spline n'améliore pas substantiellement les performances de MLP. Par ailleurs, nous constatons que le problème d'oubli de KAN est plus sévère que celui de MLP dans un cadre standard d'apprentissage continu par classes incrémentales, ce qui diffère des résultats rapportés dans l'article sur KAN. Nous espérons que ces résultats fourniront des insights pour les recherches futures sur KAN et d'autres alternatives à MLP. Lien du projet : https://github.com/yu-rp/KANbeFair
Les récents progrès dans la génération de vidéos ont principalement exploité les modèles de diffusion pour des contenus de courte durée. Cependant, ces approches peinent souvent à modéliser des narrations complexes et à maintenir la cohérence des personnages sur de longues périodes, ce qui est essentiel pour la production de vidéos longues comme les films. Nous proposons MovieDreamer, un cadre hiérarchique novateur qui intègre les forces des modèles autorégressifs avec le rendu basé sur la diffusion pour ouvrir la voie à la génération de vidéos de longue durée avec des progressions narratives complexes et une haute fidélité visuelle. Notre approche utilise des modèles autorégressifs pour assurer la cohérence narrative globale, en prédisant des séquences de tokens visuels qui sont ensuite transformés en images vidéo de haute qualité grâce au rendu par diffusion. Cette méthode s'apparente aux processus traditionnels de production cinématographique, où les histoires complexes sont décomposées en scènes gérables. De plus, nous employons un script multimodal qui enrichit les descriptions de scènes avec des informations détaillées sur les personnages et le style visuel, améliorant ainsi la continuité et l'identité des personnages à travers les scènes. Nous présentons des expériences approfondies couvrant divers genres cinématographiques, démontrant que notre approche non seulement atteint une qualité visuelle et narrative supérieure, mais étend également de manière significative la durée des contenus générés au-delà des capacités actuelles. Page d'accueil : https://aim-uofa.github.io/MovieDreamer/.
Le Virtual Try-On (VTON) est devenu une technologie transformatrice, permettant aux utilisateurs d'expérimenter avec la mode sans avoir à essayer physiquement des vêtements. Cependant, les méthodes existantes peinent souvent à générer des résultats de haute fidélité et cohérents dans les détails. Bien que les modèles de diffusion, tels que la série Stable Diffusion, aient démontré leur capacité à créer des images de haute qualité et photoréalistes, ils rencontrent des défis importants dans des scénarios de génération conditionnelle comme le VTON. Plus précisément, ces modèles ont du mal à maintenir un équilibre entre contrôle et cohérence lors de la génération d'images pour des essais virtuels de vêtements. OutfitAnyone surmonte ces limitations en exploitant un modèle de diffusion conditionnelle à deux flux, lui permettant de gérer habilement la déformation des vêtements pour des résultats plus réalistes. Il se distingue par des facteurs de modulation de l'évolutivité tels que la pose, la morphologie et une large applicabilité, s'étendant des images d'anime à celles de situations réelles. La performance d'OutfitAnyone dans divers scénarios souligne son utilité et sa préparation pour un déploiement en conditions réelles. Pour plus de détails et des résultats animés, veuillez consulter https://humanaigc.github.io/outfit-anyone/.
Les modèles de génération texte-vidéo (T2V) ont progressé de manière significative, mais leur capacité à composer différents objets, attributs, actions et mouvements dans une vidéo reste peu explorée. Les benchmarks précédents en génération texte-vidéo négligent également cette capacité cruciale pour l'évaluation. Dans ce travail, nous menons la première étude systématique sur la génération texte-vidéo compositionnelle. Nous proposons T2V-CompBench, le premier benchmark spécifiquement conçu pour la génération texte-vidéo compositionnelle. T2V-CompBench englobe divers aspects de la compositionnalité, incluant la liaison cohérente des attributs, la liaison dynamique des attributs, les relations spatiales, la liaison des mouvements, la liaison des actions, les interactions entre objets, et la numératie générative. Nous concevons également avec soin des métriques d'évaluation basées sur des modèles de langage multimodaux (MLLM), des métriques basées sur la détection, et des métriques basées sur le suivi, qui reflètent mieux la qualité de la génération texte-vidéo compositionnelle pour sept catégories proposées avec 700 prompts texte. L'efficacité des métriques proposées est vérifiée par leur corrélation avec les évaluations humaines. Nous évaluons également divers modèles génératifs texte-vidéo et effectuons une analyse approfondie à travers différents modèles et différentes catégories compositionnelles. Nous constatons que la génération texte-vidéo compositionnelle est très difficile pour les modèles actuels, et nous espérons que notre initiative éclairera les recherches futures dans cette direction.
Les ensembles de données et modèles existants pour l'interaction humain-objet (HOI) en 3D se contentent d'aligner des descriptions globales avec la longue séquence HOI, tout en manquant une compréhension détaillée des états intermédiaires et des transitions entre ces états. Dans cet article, nous soutenons que l'alignement sémantique granulaire, qui utilise des descriptions au niveau des états, offre un paradigme prometteur pour l'apprentissage de représentations HOI sémantiquement riches. Pour y parvenir, nous introduisons Semantic-HOI, un nouvel ensemble de données comprenant plus de 20 000 paires d'états HOI avec des descriptions granulaires pour chaque état HOI et les mouvements corporels qui se produisent entre deux états consécutifs. En exploitant cet ensemble de données proposé, nous concevons trois tâches HOI au niveau des états pour réaliser un alignement sémantique granulaire au sein de la séquence HOI. De plus, nous proposons un modèle unifié appelé F-HOI, conçu pour tirer parti d'instructions multimodales et permettre au Modèle de Langage Multimodal de grande taille de gérer efficacement diverses tâches HOI. F-HOI offre plusieurs avantages : (1) Il utilise une formulation de tâche unifiée qui prend en charge l'utilisation d'entrées multimodales polyvalentes. (2) Il maintient la cohérence de l'HOI dans les espaces 2D, 3D et linguistiques. (3) Il exploite une supervision textuelle granulaire pour une optimisation directe, évitant une modélisation complexe des états HOI. Des expériences approfondies révèlent que F-HOI aligne efficacement les états HOI avec des descriptions sémantiques granulaires, abordant avec succès les tâches de compréhension, de raisonnement, de génération et de reconstruction.
Avec les avancées en matière de disponibilité des données et de ressources de calcul, les Modèles de Langage Multimodaux de Grande Taille (MLLMs) ont démontré des capacités dans divers domaines. Cependant, la complexité quadratique de l'encodeur visuel dans les MLLMs limite la résolution des images d'entrée. La plupart des approches actuelles atténuent ce problème en découpant les images haute résolution en sous-images plus petites, qui sont ensuite traitées indépendamment par l'encodeur visuel. Bien qu'elles capturent suffisamment de détails locaux, ces sous-images manquent de contexte global et n'interagissent pas entre elles. Pour pallier cette limitation, nous proposons un nouveau MLLM, INF-LLaVA, conçu pour une perception efficace des images haute résolution. INF-LLaVA intègre deux composants innovants. Premièrement, nous introduisons un Module de Découpage Dual-perspective (DCM), qui garantit que chaque sous-image contient des détails continus d'un point de vue local et des informations complètes d'un point de vue global. Deuxièmement, nous introduisons un Module d'Amélioration Dual-perspective (DEM) pour permettre l'amélioration mutuelle des caractéristiques globales et locales, permettant à INF-LLaVA de traiter efficacement les images haute résolution en capturant simultanément des informations locales détaillées et un contexte global complet. Des études d'ablation approfondies valident l'efficacité de ces composants, et des expériences sur un ensemble diversifié de benchmarks démontrent qu'INF-LLaVA surpasse les MLLMs existants. Le code et le modèle pré-entraîné sont disponibles à l'adresse https://github.com/WeihuangLin/INF-LLaVA.
Malgré la disponibilité de compétitions internationales dotées de prix en argent, de véhicules à grande échelle et d'environnements de simulation, la recherche sur la course autonome et le contrôle de voitures de sport fonctionnant à la limite de leur adhérence a été limitée par les coûts élevés d'acquisition et de gestion des véhicules, ainsi que par la précision physique limitée des simulateurs open-source. Dans cet article, nous proposons une plateforme de simulation de course basée sur le simulateur Assetto Corsa pour tester, valider et comparer des algorithmes de conduite autonome, y compris l'apprentissage par renforcement (RL) et le contrôle prédictif par modèle (MPC) classique, dans des scénarios réalistes et exigeants. Nos contributions incluent le développement de cette plateforme de simulation, plusieurs algorithmes de pointe adaptés à l'environnement de course, ainsi qu'un ensemble de données complet collecté auprès de conducteurs humains. De plus, nous évaluons les algorithmes dans le cadre de l'apprentissage par renforcement hors ligne. Tous les codes nécessaires (y compris l'environnement et les benchmarks), des exemples fonctionnels, les ensembles de données et des vidéos sont rendus publics et peuvent être consultés à l'adresse suivante : https://assetto-corsa-gym.github.io.
Le pré-entraînement basé sur la vidéo offre un potentiel immense pour l'apprentissage de représentations visuelles robustes à une échelle sans précédent. Récemment, les méthodes de modélisation vidéo masquée ont montré une prometteuse scalabilité, mais peinent à capturer des sémantiques de haut niveau en raison de la reconstruction de cibles prédéfinies de bas niveau, telles que les pixels. Pour résoudre ce problème, nous présentons SIGMA (Sinkhorn-guided Masked Video Modelling), une nouvelle méthode de pré-entraînement vidéo qui apprend conjointement le modèle vidéo ainsi qu'un espace de caractéristiques cible à l'aide d'un réseau de projection. Cependant, cette simple modification implique que la perte de reconstruction L2 classique conduira à des solutions triviales, car les deux réseaux sont optimisés conjointement. Pour y remédier, nous distribuons les caractéristiques des tubes spatio-temporels de manière uniforme sur un nombre limité de clusters apprenables. En formulant cela comme un problème de transport optimal, nous imposons une entropie élevée dans les caractéristiques générées à travers le lot, infusant ainsi une signification sémantique et temporelle dans l'espace de caractéristiques. Les affectations de clusters résultantes sont utilisées comme cibles pour une tâche de prédiction symétrique où le modèle vidéo prédit l'affectation de cluster du réseau de projection et vice versa. Les résultats expérimentaux sur dix jeux de données à travers trois benchmarks valident l'efficacité de SIGMA dans l'apprentissage de représentations vidéo plus performantes, conscientes du temps et robustes, surpassant les méthodes de pointe. Notre site web de projet avec le code est disponible à l'adresse suivante : https://quva-lab.github.io/SIGMA.
Le déploiement de modèles de langage (LMs) nécessite que les sorties soient à la fois de haute qualité et conformes aux directives de sécurité. Bien que les garde-fous au moment de l'inférence (Inference-Time Guardrails, ITG) proposent des solutions qui ajustent les distributions de sortie des modèles vers la conformité, nous constatons que les méthodes actuelles peinent à équilibrer sécurité et utilité. Les méthodes ITG qui traitent de manière sûre les requêtes non conformes montrent une utilité réduite, tandis que celles qui privilégient l'utilité compromettent la sécurité. Nous qualifions ce compromis de "taxe de garde-fou", analogue à la "taxe d'alignement". Pour y remédier, nous proposons PrimeGuard, une nouvelle méthode ITG qui utilise un flux de contrôle structuré. PrimeGuide achemine les requêtes vers différentes auto-instantiations du LM avec des instructions variées, en exploitant ses capacités inhérentes à suivre des instructions et son apprentissage en contexte. Notre approche, sans nécessiter de réglage, compile dynamiquement les directives du concepteur du système pour chaque requête. Nous construisons et publions safe-eval, un benchmark de sécurité diversifié pour les équipes rouges. Des évaluations approfondies démontrent que PrimeGuard, sans réglage fin, surmonte la taxe de garde-fou en (1) augmentant significativement la résistance aux attaques itératives de contournement et (2) obtenant des résultats de pointe en matière de garde-fou de sécurité tout en (3) égalant les scores d'utilité des modèles ajustés pour l'alignement. Des évaluations approfondies montrent que PrimeGuard, sans réglage fin, surpasse toutes les lignes de base concurrentes et surmonte la taxe de garde-fou en améliorant la fraction de réponses sûres de 61% à 97% et en augmentant les scores d'utilité moyens de 4,17 à 4,29 sur les plus grands modèles, tout en réduisant le taux de réussite des attaques de 100% à 8%. L'implémentation de PrimeGuard est disponible à l'adresse https://github.com/dynamofl/PrimeGuard et le jeu de données safe-eval est disponible à l'adresse https://huggingface.co/datasets/dynamoai/safe_eval.
L'application des modèles vision-langage (VLMs) a obtenu un succès impressionnant dans diverses tâches robotiques, mais il existe peu d'explorations concernant l'utilisation de modèles fondateurs pour la navigation des robots quadrupèdes. Nous présentons le système Cross Anything System (CAS), une innovation composée d'un module de raisonnement de haut niveau et d'une politique de contrôle de bas niveau, permettant au robot de naviguer sur des terrains 3D complexes et d'atteindre la position cible. Pour le raisonnement de haut niveau et la planification de mouvement, nous proposons un système algorithmique novateur exploitant un VLM, avec une conception de décomposition de tâches et un mécanisme d'exécution en boucle fermée des sous-tâches. Pour le contrôle de locomotion de bas niveau, nous utilisons la méthode de sélection par recuit probabiliste (PAS) pour entraîner une politique de contrôle par apprentissage par renforcement. De nombreuses expériences montrent que notre système complet peut naviguer avec précision et robustesse sur des terrains 3D complexes, et sa forte capacité de généralisation assure des applications dans divers scénarios et terrains intérieurs et extérieurs. Page du projet : https://cross-anything.github.io/