Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans cet article, nous présentons Medical SAM 2 (MedSAM-2), un modèle de segmentation avancé qui utilise le framework SAM 2 pour traiter à la fois les tâches de segmentation d'images médicales en 2D et en 3D. En adoptant l'approche consistant à considérer les images médicales comme des vidéos, MedSAM-2 ne s'applique pas seulement aux images médicales en 3D, mais débloque également une nouvelle capacité de segmentation en un seul prompt. Cela permet aux utilisateurs de fournir un prompt pour une seule image ou une image spécifique ciblant un objet, après quoi le modèle peut segmenter automatiquement le même type d'objet dans toutes les images suivantes, indépendamment des relations temporelles entre les images. Nous avons évalué MedSAM-2 sur une variété de modalités d'imagerie médicale, incluant les organes abdominaux, les disques optiques, les tumeurs cérébrales, les nodules thyroïdiens et les lésions cutanées, en le comparant aux modèles de pointe dans des contextes de segmentation traditionnelle et interactive. Nos résultats montrent que MedSAM-2 non seulement surpasse les modèles existants en termes de performance, mais démontre également une généralisation supérieure sur une gamme de tâches de segmentation d'images médicales. Notre code sera disponible à l'adresse suivante : https://github.com/MedicineToken/Medical-SAM2
Le pré-entraînement auto-supervisé à grande échelle a ouvert la voie à un modèle de base capable de gérer de nombreuses tâches visuelles différentes. La plupart des méthodologies de pré-entraînement entraînent un seul modèle d'une certaine taille à la fois. Cependant, diverses contraintes de calcul ou de stockage dans des scénarios réels nécessitent des efforts considérables pour développer une série de modèles de différentes tailles à déployer. Ainsi, dans cette étude, nous proposons un nouveau cadre de formation auto-supervisé à trois branches, appelé POA (Pre-training Once for All), pour résoudre ce problème susmentionné. Notre approche introduit une branche étudiante élastique innovante dans un paradigme moderne d'auto-distillation. À chaque étape de pré-entraînement, nous échantillonnons aléatoirement un sous-réseau de l'étudiant original pour former l'étudiant élastique et entraînons toutes les branches de manière auto-distillante. Une fois pré-entraîné, POA permet l'extraction de modèles pré-entraînés de tailles diverses pour les tâches en aval. Remarquablement, l'étudiant élastique facilite le pré-entraînement simultané de plusieurs modèles de différentes tailles, qui agit également comme un ensemble supplémentaire de modèles de diverses tailles pour améliorer l'apprentissage de la représentation. Des expériences approfondies, incluant les k-plus proches voisins, l'évaluation par sondage linéaire et des évaluations sur plusieurs tâches en aval, démontrent l'efficacité et les avantages de notre POA. Il atteint des performances de pointe en utilisant les architectures ViT, Swin Transformer et ResNet, produisant environ une centaine de modèles de différentes tailles grâce à une seule session de pré-entraînement. Le code est disponible à l'adresse : https://github.com/Qichuzyy/POA.
La liaison d'entités (Entity Linking, EL) et l'extraction de relations (Relation Extraction, RE) sont des tâches fondamentales en traitement du langage naturel, jouant un rôle crucial dans une multitude d'applications. Dans cet article, nous proposons ReLiK, une architecture de type Retriever-Reader pour à la fois l'EL et la RE, où, étant donné un texte en entrée, le module Retriever s'occupe d'identifier les entités ou relations candidates susceptibles d'apparaître dans le texte. Par la suite, le module Reader a pour mission de déterminer les entités ou relations pertinentes parmi celles récupérées et d'établir leur alignement avec les segments textuels correspondants. Nous introduisons notamment une représentation d'entrée innovante qui intègre les entités ou relations candidates avec le texte, permettant de lier des entités ou d'extraire des relations en une seule passe avant et de tirer pleinement parti des capacités de contextualisation des modèles de langage pré-entraînés, contrairement aux méthodes précédentes basées sur Retriever-Reader, qui nécessitent une passe avant pour chaque candidat. Notre formulation de l'EL et de la RE atteint des performances de pointe à la fois sur des benchmarks en domaine et hors domaine, tout en utilisant un budget d'entraînement académique et avec une vitesse d'inférence jusqu'à 40 fois supérieure à celle des concurrents. Enfin, nous montrons comment notre architecture peut être utilisée de manière transparente pour l'extraction d'information combinée (cIE), c'est-à-dire EL + RE, et établir un nouvel état de l'art en employant un Reader partagé qui extrait simultanément les entités et les relations.
Étant donné un maillage 3D, nous visons à synthétiser des textures 3D correspondant à des descriptions textuelles arbitraires. Les méthodes actuelles pour générer et assembler des textures à partir de vues échantillonnées entraînent souvent des coutures visibles ou un lissage excessif. Pour résoudre ces problèmes, nous présentons TexGen, un nouveau cadre d'échantillonnage et de rééchantillonnage multi-vues pour la génération de textures, exploitant un modèle de diffusion texte-à-image pré-entraîné. Pour un échantillonnage cohérent entre les vues, nous maintenons d'abord une carte de texture dans l'espace RGB, paramétrée par l'étape de débruitage et mise à jour après chaque étape d'échantillonnage du modèle de diffusion, afin de réduire progressivement les écarts entre les vues. Une stratégie d'échantillonnage multi-vues guidée par l'attention est exploitée pour diffuser les informations d'apparence à travers les vues. Pour préserver les détails de la texture, nous développons une technique de rééchantillonnage du bruit qui aide à estimer le bruit, générant des entrées pour les étapes de débruitage suivantes, en fonction de l'invite textuelle et de la carte de texture actuelle. Grâce à une évaluation qualitative et quantitative approfondie, nous démontrons que notre méthode proposée produit des textures de qualité significativement meilleure pour divers objets 3D, avec un haut degré de cohérence entre les vues et des détails d'apparence riches, surpassant les méthodes actuelles de pointe. De plus, notre technique de génération de textures peut également être appliquée à l'édition de textures tout en préservant l'identité originale. Plus de résultats expérimentaux sont disponibles à l'adresse https://dong-huo.github.io/TexGen/.
Les modèles multimodaux qui traitent conjointement l'audio et le langage offrent un potentiel considérable pour la compréhension audio et sont de plus en plus adoptés dans le domaine musical. En permettant aux utilisateurs d'interroger via du texte et d'obtenir des informations sur un fichier audio donné, ces modèles ont la capacité de faciliter une variété de tâches de compréhension musicale grâce à des interfaces basées sur le langage. Cependant, leur évaluation présente des défis importants, et il reste incertain comment évaluer efficacement leur capacité à interpréter correctement des entrées liées à la musique avec les méthodes actuelles. Motivés par cela, nous introduisons MuChoMusic, un benchmark pour évaluer la compréhension musicale dans les modèles de langage multimodaux axés sur l'audio. MuChoMusic comprend 1 187 questions à choix multiples, toutes validées par des annotateurs humains, portant sur 644 morceaux de musique issus de deux ensembles de données musicales publiquement disponibles, et couvrant une grande variété de genres. Les questions du benchmark sont conçues pour évaluer les connaissances et les capacités de raisonnement à travers plusieurs dimensions qui couvrent des concepts musicaux fondamentaux et leur relation avec des contextes culturels et fonctionnels. Grâce à l'analyse holistique permise par le benchmark, nous évaluons cinq modèles open-source et identifions plusieurs écueils, notamment une dépendance excessive à la modalité langagière, soulignant la nécessité d'une meilleure intégration multimodale. Les données et le code sont open-source.
La capacité des grands modèles de langage génératifs (LLMs) à effectuer un apprentissage en contexte a suscité un grand nombre de recherches sur la manière optimale de formuler des prompts pour diverses tâches de traitement du langage naturel. Dans cet article, nous nous concentrons sur la traduction automatique (MT), une tâche qui a démontré des bénéfices grâce à l'utilisation d'exemples de traduction en contexte. Cependant, aucune étude systématique n'a été publiée sur la meilleure manière de sélectionner ces exemples, et des résultats mitigés ont été rapportés concernant l'utilité d'une sélection basée sur la similarité par rapport à une sélection aléatoire. Nous proposons une étude couvrant plusieurs LLMs et plusieurs stratégies de récupération d'exemples en contexte, en comparant des embeddings de phrases multilingues. Nous couvrons plusieurs directions linguistiques, représentant différents niveaux de ressources linguistiques (de l'anglais vers le français, l'allemand, le swahili et le wolof). Contrairement aux résultats précédemment publiés, nous constatons que la similarité des embeddings de phrases peut améliorer la MT, en particulier pour les directions linguistiques à faibles ressources, et nous discutons de l'équilibre entre la diversité et la qualité du pool de sélection. Nous mettons également en lumière des problèmes potentiels dans l'évaluation de la MT basée sur les LLMs et suggérons un protocole d'évaluation plus approprié, en adaptant la métrique COMET à l'évaluation des LLMs. Le code et les sorties sont librement disponibles à l'adresse https://github.com/ArmelRandy/ICL-MT.
Nous présentons RelBench, un benchmark public pour résoudre des tâches prédictives sur des bases de données relationnelles à l'aide de réseaux de neurones graphiques. RelBench propose des bases de données et des tâches couvrant divers domaines et échelles, et vise à constituer une infrastructure fondamentale pour la recherche future. Nous utilisons RelBench pour mener la première étude exhaustive de l'apprentissage profond relationnel (Relational Deep Learning, RDL) (Fey et al., 2024), qui combine des modèles prédictifs basés sur des réseaux de neurones graphiques avec des modèles tabulaires (profonds) qui extraient des représentations initiales au niveau des entités à partir de tables brutes. Les modèles RDL appris de bout en bout exploitent pleinement le signal prédictif encodé dans les liens clés primaires-étrangères, marquant un changement significatif par rapport au paradigme dominant de l'ingénierie manuelle des caractéristiques combinée à des modèles tabulaires. Pour évaluer rigoureusement RDL par rapport à cet ancien standard de référence, nous menons une étude utilisateur approfondie où un data scientist expérimenté conçoit manuellement des caractéristiques pour chaque tâche. Dans cette étude, RDL apprend des modèles supérieurs tout en réduisant le travail humain nécessaire de plus d'un ordre de grandeur. Cela démontre la puissance de l'apprentissage profond pour résoudre des tâches prédictives sur des bases de données relationnelles, ouvrant de nombreuses nouvelles opportunités de recherche rendues possibles par RelBench.
Quelles caractéristiques latentes sont encodées dans les représentations des modèles de langage (LM) ? Les travaux récents sur l'entraînement d'autoencodeurs épars (SAEs) pour décomposer des caractéristiques interprétables dans les représentations des LM ont montré un potentiel significatif. Cependant, évaluer la qualité de ces SAEs est difficile car nous manquons d'une collection de référence de caractéristiques interprétables que nous attendons que les bons SAEs puissent retrouver. Nous proposons donc de mesurer les progrès dans l'apprentissage de dictionnaires interprétables en travaillant dans le cadre de LM entraînés sur des transcriptions d'échecs et d'Othello. Ces contextes possèdent des collections naturelles de caractéristiques interprétables -- par exemple, "il y a un cavalier en F3" -- que nous exploitons pour créer des métriques supervisées de qualité des SAEs. Pour guider les progrès dans l'apprentissage de dictionnaires interprétables, nous introduisons une nouvelle technique d'entraînement des SAEs, le p-annealing, qui améliore les performances sur les métriques non supervisées existantes ainsi que sur nos nouvelles métriques.