Articles de recherche en IA sélectionnés quotidiennement avec traductions
La compréhension de la littérature scientifique est cruciale pour extraire des informations ciblées et obtenir des insights, contribuant ainsi de manière significative à l'avancement de la découverte scientifique. Malgré le succès remarquable des Grands Modèles de Langage (GML), ils rencontrent des défis dans la compréhension de la littérature scientifique, principalement en raison (1) d'un manque de connaissances scientifiques et (2) d'une méconnaissance des tâches scientifiques spécialisées. Pour développer un GML spécialisé dans la compréhension de la littérature scientifique, nous proposons une stratégie hybride qui intègre un pré-entraînement continu (PEC) et un affinage supervisé (AS), pour infuser simultanément des connaissances du domaine scientifique et améliorer les capacités de suivi des instructions pour des tâches spécifiques au domaine. Dans ce processus, nous identifions deux défis majeurs : (1) la construction de corpus de PEC de haute qualité et (2) la génération d'instructions diverses pour l'AS. Nous relevons ces défis grâce à un pipeline méticuleux, comprenant l'extraction de texte PDF, la correction d'erreurs de contenu, le filtrage de la qualité et la création d'instructions synthétiques. En appliquant cette stratégie, nous présentons une série de GML : SciLitLLM, spécialisé dans la compréhension de la littérature scientifique. Ces modèles démontrent des performances prometteuses sur des benchmarks de compréhension de la littérature scientifique. Nos contributions sont triples : (1) Nous présentons un cadre efficace qui intègre le PEC et l'AS pour adapter les GML à la compréhension de la littérature scientifique, pouvant également être facilement adapté à d'autres domaines. (2) Nous proposons une méthode de synthèse basée sur les GML pour générer des instructions scientifiques diverses et de haute qualité, aboutissant à un nouvel ensemble d'instructions - SciLitIns - pour l'affinage supervisé dans des domaines scientifiques moins représentés. (3) SciLitLLM réalise des améliorations de performances prometteuses sur des benchmarks de compréhension de la littérature scientifique.
Les récentes avancées en matière de personnalisation de texte vers image ont permis une synthèse d'image de haute qualité et contrôlable pour des concepts fournis par l'utilisateur. Cependant, les méthodes existantes peinent toujours à équilibrer la préservation de l'identité avec l'alignement du texte. Notre approche repose sur le fait que la génération d'images alignées sur la consigne nécessite une compréhension sémantique précise de la consigne, ce qui implique de traiter avec précision les interactions entre le nouveau concept et ses jetons de contexte environnants au sein de l'encodeur de texte CLIP. Pour remédier à cela, nous visons à incorporer correctement le nouveau concept dans l'espace d'incorporation d'entrée de l'encodeur de texte, permettant une intégration harmonieuse avec les jetons existants. Nous introduisons la Régularisation de Contexte (CoRe), qui améliore l'apprentissage de l'incorporation de texte du nouveau concept en régularisant ses jetons de contexte dans la consigne. Cela repose sur l'observation que des vecteurs de sortie appropriés de l'encodeur de texte pour les jetons de contexte ne peuvent être obtenus que si l'incorporation de texte du nouveau concept est correctement apprise. CoRe peut être appliqué à des consignes arbitraires sans nécessiter la génération d'images correspondantes, améliorant ainsi la généralisation de l'incorporation de texte apprise. De plus, CoRe peut servir de technique d'optimisation au moment du test pour améliorer davantage les générations pour des consignes spécifiques. Des expériences approfondies démontrent que notre méthode surpasse plusieurs méthodes de référence à la fois en termes de préservation de l'identité et d'alignement du texte. Le code sera rendu publiquement disponible.
Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs' abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations. UrBench datasets and benchmark results will be publicly available at https://opendatalab.github.io/UrBench/.
La synthèse de vue satellite vers vue de rue vise à générer une image réaliste de vue de rue à partir de son image correspondante de vue satellite. Bien que les modèles de diffusion stables aient montré des performances remarquables dans diverses applications de génération d'images, leur dépendance à des entrées de vues similaires pour contrôler la structure ou la texture générée restreint leur application à la tâche difficile de synthèse inter-vues. Dans ce travail, nous proposons CrossViewDiff, un modèle de diffusion inter-vues pour la synthèse de vue satellite vers vue de rue. Pour relever les défis posés par les importantes disparités entre les vues, nous concevons des modules d'estimation de la structure de scène satellite et de mappage de texture inter-vues pour construire les contrôles structurels et texturaux pour la synthèse d'images de vue de rue. Nous concevons en outre un processus de débruitage guidé par un contrôle inter-vues qui intègre les contrôles ci-dessus via un module d'attention inter-vues amélioré. Pour obtenir une évaluation plus complète des résultats de synthèse, nous concevons également une méthode de notation basée sur GPT en complément des métriques d'évaluation standard. Nous explorons également l'effet de différentes sources de données (par exemple, texte, cartes, hauteurs de bâtiments et imagerie satellite multi-temporelle) sur cette tâche. Les résultats sur trois ensembles de données inter-vues publics montrent que CrossViewDiff surpasse l'état de l'art actuel à la fois en termes de métriques d'évaluation standard et basées sur GPT, générant des panoramas de vue de rue de haute qualité avec des structures et des textures plus réalistes à travers des scènes rurales, suburbaines et urbaines. Le code et les modèles de ce travail seront publiés sur https://opendatalab.github.io/CrossViewDiff/.
Les modèles linguistiques à ressources élevées sont souvent insuffisants dans le contexte africain, où il existe un besoin critique de modèles efficaces, accessibles et localement pertinents, même en présence de contraintes significatives en termes de calcul et de données. Cet article présente InkubaLM, un petit modèle linguistique avec 0,4 milliard de paramètres, qui atteint des performances comparables à des modèles avec des comptes de paramètres beaucoup plus importants et des données d'entraînement plus étendues sur des tâches telles que la traduction automatique, les questions-réponses, AfriMMLU et la tâche AfriXnli. Notamment, InkubaLM surpasse de nombreux modèles plus grands dans l'analyse de sentiment et démontre une remarquable cohérence à travers plusieurs langues. Ce travail représente une avancée cruciale en remettant en question le paradigme conventionnel selon lequel les modèles linguistiques efficaces doivent reposer sur des ressources substantielles. Notre modèle et nos ensembles de données sont disponibles publiquement à l'adresse \url{https://huggingface.co/lelapa} pour encourager la recherche et le développement sur les langues à faibles ressources.
Les modèles de transformateurs de diffusion (DiTs) ont fait passer l'architecture réseau des UNets traditionnels aux transformateurs, démontrant des capacités exceptionnelles en génération d'images. Bien que les DiTs aient été largement appliqués aux tâches de génération de vidéos haute définition, leur grande taille de paramètres entrave l'inférence sur les appareils périphériques. La quantification vectorielle (VQ) peut décomposer le poids du modèle en un codebook et des affectations, permettant une quantification de poids extrême et réduisant significativement l'utilisation de la mémoire. Dans cet article, nous proposons VQ4DiT, une méthode de quantification vectorielle post-entraînement rapide pour les DiTs. Nous avons constaté que les méthodes VQ traditionnelles ne calibrent que le codebook sans calibrer les affectations. Cela conduit à ce que des sous-vecteurs de poids soient incorrectement attribués à la même affectation, fournissant des gradients incohérents au codebook et donnant un résultat sous-optimal. Pour relever ce défi, VQ4DiT calcule l'ensemble d'affectations candidat pour chaque sous-vecteur de poids en fonction de la distance euclidienne et reconstruit le sous-vecteur en fonction de la moyenne pondérée. Ensuite, en utilisant la méthode de calibration zéro-donnée et par bloc, l'affectation optimale de l'ensemble est sélectionnée efficacement tout en calibrant le codebook. VQ4DiT quantifie un modèle DiT XL/2 sur un seul GPU NVIDIA A100 en 20 minutes à 5 heures selon les différents réglages de quantification. Les expériences montrent que VQ4DiT établit un nouvel état de l'art en termes de compromis entre la taille du modèle et les performances, quantifiant les poids avec une précision de 2 bits tout en conservant une qualité de génération d'images acceptable.
Les Défis de Reconnaissance des Locuteurs VoxCeleb (VoxSRC) étaient une série de défis et d'ateliers organisés annuellement de 2019 à 2023. Les défis évaluaient principalement les tâches de reconnaissance des locuteurs et de diarisation dans divers contextes, incluant : des données d'entraînement fermées et ouvertes ; ainsi que des entraînements supervisés, auto-supervisés et semi-supervisés pour l'adaptation de domaine. Les défis mettaient également à disposition des ensembles de données d'entraînement et d'évaluation publiquement accessibles pour chaque tâche et contexte, avec de nouveaux ensembles de tests publiés chaque année. Dans cet article, nous proposons une revue de ces défis qui couvre : ce qu'ils ont exploré ; les méthodes développées par les participants aux défis et comment elles ont évolué ; ainsi que l'état actuel du domaine de la vérification des locuteurs et de la diarisation. Nous suivons les progrès de performance sur les cinq éditions du défi sur un ensemble de données d'évaluation commun et fournissons une analyse détaillée de l'impact du focus spécial de chaque année sur la performance des participants. Cet article s'adresse à la fois aux chercheurs qui souhaitent avoir un aperçu du domaine de la reconnaissance des locuteurs et de la diarisation, ainsi qu'aux organisateurs de défis qui souhaitent tirer parti des succès et éviter les erreurs des défis VoxSRC. Nous concluons par une discussion sur les forces actuelles du domaine et les défis ouverts. Page du projet : https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
Les modèles denses multi-vecteurs, tels que ColBERT, se sont avérés très efficaces en matière de recherche d'informations. Le calcul tardif du score d'interaction de ColBERT approxime l'attention conjointe requête-document observée dans les encodeurs croisés tout en maintenant une efficacité d'inférence plus proche des modèles de recherche denses traditionnels, grâce à son architecture bi-encodeur et aux récentes optimisations en matière d'indexation et de recherche. Dans cet article, nous introduisons plusieurs améliorations à l'architecture du modèle ColBERT et au processus de formation, en exploitant des techniques ayant fait leurs preuves dans le paradigme des modèles d'incorporation à vecteur unique plus établis, en particulier celles adaptées aux données multilingues hétérogènes. Notre nouveau modèle, Jina-ColBERT-v2, démontre de solides performances dans une gamme de tâches de recherche en anglais et multilingues, tout en réduisant les besoins de stockage jusqu'à 50 % par rapport aux modèles précédents.
La résumé automatique est une tâche visant à condenser des textes en résumés concis et informatifs. Cet article présente un nouvel ensemble de données conçu pour résumer plusieurs articles scientifiques en une section d'une enquête. Nos contributions sont les suivantes : (1) SurveySum, un nouvel ensemble de données comblant le fossé dans les outils de résumé spécifiques à un domaine ; (2) deux pipelines spécifiques pour résumer des articles scientifiques en une section d'une enquête ; et (3) l'évaluation de ces pipelines à l'aide de plusieurs métriques pour comparer leurs performances. Nos résultats mettent en évidence l'importance des étapes de récupération de haute qualité et l'impact des différentes configurations sur la qualité des résumés générés.
Les images deviennent de plus en plus la monnaie courante pour documenter la biodiversité sur la planète, offrant de nouvelles opportunités pour accélérer les découvertes scientifiques dans le domaine de la biologie des organismes, notamment avec l'avènement des grands modèles vision-langage (VLM). Nous nous demandons si les VLM pré-entraînés peuvent aider les scientifiques à répondre à diverses questions biologiquement pertinentes sans aucun ajustement supplémentaire. Dans cet article, nous évaluons l'efficacité de 12 modèles VLM de pointe dans le domaine de la biologie des organismes en utilisant un ensemble de données novateur, VLM4Bio, composé de 469 000 paires question-réponse impliquant 30 000 images de trois groupes d'organismes : poissons, oiseaux et papillons, couvrant cinq tâches biologiquement pertinentes. Nous explorons également les effets de l'application de techniques de sollicitation et des tests pour la hallucination de raisonnement sur les performances des VLM, apportant un nouvel éclairage sur les capacités des actuels modèles VLM de pointe à répondre à des questions biologiquement pertinentes en utilisant des images. Le code et les ensembles de données pour exécuter toutes les analyses rapportées dans cet article sont disponibles sur https://github.com/sammarfy/VLM4Bio.
La détection et l'attribution des augmentations de température dues au changement climatique sont cruciales pour comprendre le réchauffement planétaire et orienter les stratégies d'adaptation. La complexité de distinguer les signaux climatiques d'origine humaine de la variabilité naturelle a mis à l'épreuve les approches traditionnelles de détection et d'attribution (D&A), qui cherchent à identifier des "empreintes digitales" spécifiques dans les variables de réponse climatique. L'apprentissage profond offre un potentiel pour discerner ces motifs complexes dans de vastes ensembles de données spatiales. Cependant, le manque de protocoles standard a entravé les comparaisons cohérentes entre les études. Nous présentons ClimDetect, un ensemble de données normalisé de plus de 816 000 instantanés climatiques quotidiens, conçu pour améliorer la précision des modèles dans l'identification des signaux de changement climatique. ClimDetect intègre diverses variables d'entrée et cibles utilisées dans des recherches antérieures, garantissant la comparabilité et la cohérence. Nous explorons également l'application des transformateurs de vision (ViT) aux données climatiques, une approche novatrice et modernisante dans ce contexte. Nos données et notre code en libre accès servent de référence pour faire progresser la science du climat grâce à des évaluations de modèles améliorées. ClimDetect est accessible au public via le référentiel de données Huggingface à l'adresse : https://huggingface.co/datasets/ClimDetect/ClimDetect.
Cet article présente CURLoRA, une nouvelle approche pour affiner les grands modèles de langage (LLM) qui exploite la décomposition de matrice CUR dans le contexte de l'Adaptation à Rang Faible (LoRA). Notre méthode aborde deux défis critiques dans l'affinage des LLM : atténuer l'oubli catastrophique lors de l'apprentissage continu et réduire le nombre de paramètres entraînables. Nous proposons une modification unique du processus de décomposition CUR, en utilisant des probabilités inversées pour la sélection des colonnes et des lignes qui agissent comme une régularisation implicite, et en initialisant la matrice U comme une matrice nulle, puis en ne la raffinant que. Nous démontrons à travers des expériences sur plusieurs ensembles de données que CURLoRA surpasse LoRA standard dans l'atténuation de l'oubli catastrophique. Il maintient la stabilité du modèle et ses performances sur différentes tâches tout en réduisant significativement le nombre de paramètres entraînables. Nos résultats montrent que CURLoRA atteint une très bonne précision et stabilité des tâches tout en maintenant les scores de perplexité du modèle de base fixes par rapport à LoRA lors de l'affinage continu, en particulier dans des scénarios avec des données limitées.
Avec l'avancée de l'intelligence artificielle, les technologies d'assistance sont de plus en plus utilisées dans tous les secteurs. L'industrie de la santé ne fait pas exception, avec de nombreuses études menées pour développer des outils d'assistance pour les professionnels de la santé. Les systèmes de diagnostic automatique sont l'un de ces outils bénéfiques qui peuvent aider dans diverses tâches, notamment la collecte d'informations sur les patients, l'analyse des résultats des tests et le diagnostic des patients. Cependant, l'idée de développer des systèmes capables de fournir un diagnostic différentiel a été largement négligée dans la plupart de ces études de recherche. Dans cette étude, nous proposons une approche basée sur les transformers pour fournir des diagnostics différentiels basés sur l'âge, le sexe, les antécédents médicaux et les symptômes d'un patient. Nous utilisons l'ensemble de données DDXPlus, qui fournit des informations de diagnostic différentiel pour les patients basées sur 49 types de maladies. Tout d'abord, nous proposons une méthode pour traiter les données des patients tabulaires de l'ensemble de données et les transformer en rapports de patients pour les rendre adaptés à notre recherche. De plus, nous introduisons deux modules de modification de données pour diversifier les données d'entraînement et améliorer ainsi la robustesse des modèles. Nous abordons la tâche comme un problème de classification multi-étiquettes et menons des expériences approfondies en utilisant quatre modèles de transformers. Tous les modèles ont affiché des résultats prometteurs en atteignant plus de 97% de score F1 sur l'ensemble de test retenu. De plus, nous concevons des tests comportementaux supplémentaires pour obtenir une compréhension plus large des modèles. En particulier, pour l'un de nos cas de test, nous avons préparé un ensemble de tests personnalisé de 100 échantillons avec l'aide d'un médecin. Les résultats sur l'ensemble personnalisé ont montré que nos modules de modification de données proposés ont amélioré les capacités de généralisation du modèle. Nous espérons que nos découvertes fourniront aux futurs chercheurs des informations précieuses et les inspireront à développer des systèmes fiables pour le diagnostic différentiel automatique.
L'architecture transformer a révolutionné la bioinformatique et a stimulé les progrès dans la compréhension et la prédiction des propriétés des biomolécules. Presque toutes les recherches sur les transformateurs de bioséquences à grande échelle se sont concentrées sur un domaine à la fois (mono-omique), généralement les nucléotides ou les peptides. Ces modèles ont connu un succès incroyable dans les tâches ultérieures de chaque domaine et ont réalisé des percées particulièrement remarquables dans les séquences de peptides et la modélisation structurale. Cependant, ces modèles mono-omiques sont naturellement incapables de modéliser des tâches multi-omiques, l'une des plus critiques sur le plan biologique étant les interactions nucléotide-peptide. Nous présentons notre travail sur la formation des premiers modèles fondamentaux multi-omiques nucléotide-peptide. Nous montrons que ces modèles multi-omiques (MOMs) peuvent apprendre des représentations conjointes entre diverses distributions mono-omiques qui sont émergentes et cohérentes avec le Dogme Central de la biologie moléculaire, malgré le fait d'être uniquement formés sur des bioséquences non étiquetées. Nous démontrons en outre que les MOMs peuvent être affinés pour atteindre des résultats de pointe sur les tâches d'interaction peptide-nucléotide, notamment la prédiction du changement d'énergie libre de Gibbs ({\Delta}G) de l'interaction de liaison entre un oligonucléotide donné et un peptide, ainsi que l'effet sur cette interaction de liaison dû aux mutations dans la séquence de l'oligonucléotide ({\Delta}{\Delta}G). De manière remarquable, nous montrons que les transformateurs de bioséquences multi-omiques apprennent de manière émergente des informations structurales utiles sans aucune formation structurale préalable, ce qui nous permet de prédire quels résidus de peptide sont les plus impliqués dans l'interaction de liaison peptide-nucléotide. Enfin, nous apportons des preuves que les modèles de bioséquences multi-omiques ne sont pas inférieurs aux modèles fondamentaux formés sur des distributions mono-omiques, suggérant une approche plus généralisée ou fondamentale pour la construction de ces modèles.
Les méthodes de Fine-Tuning à Paramètres Efficaces (PEFT) ont gagné en popularité et démocratisé l'utilisation des Grands Modèles de Langage (LLMs). Des études récentes ont montré qu'un petit sous-ensemble de poids a un impact significatif sur les performances. Sur la base de cette observation, nous introduisons une nouvelle méthode PEFT, appelée Injection de Bruit Gaussien pour le Fine-Tuning des Poids Saliants (GIFT-SW). Notre méthode met à jour uniquement les colonnes saliantes, tout en injectant du bruit gaussien dans celles qui ne le sont pas. Pour identifier ces colonnes, nous avons développé une métrique de sensibilité généralisée qui étend et unifie les métriques des études précédentes. Des expériences avec les modèles LLaMA démontrent que GIFT-SW surpasse le fine-tuning complet et les méthodes PEFT modernes avec le même budget computationnel. De plus, GIFT-SW offre des avantages pratiques pour restaurer les performances des modèles soumis à une quantification en précision mixte tout en conservant les poids saillants en pleine précision.
En comprimant des récits divers, les LLM vont au-delà de la mémorisation, atteignant l'intelligence en capturant des relations causales généralisables. Cependant, ils souffrent de "lacunes de représentation" locales en raison d'une diversité insuffisante des données d'entraînement, limitant leur utilité dans le monde réel, notamment dans les tâches nécessitant un alignement strict sur des règles. Les méthodes d'alignement traditionnelles reposant sur de lourdes annotations humaines sont inefficaces et non évolutives. Les techniques récentes d'auto-alignement sont également insuffisantes, car elles dépendent souvent de la sélection automatique basée sur des incitations et l'apprentissage basé sur la mémorisation. Pour résoudre ces problèmes, nous introduisons l'Alignement Graphique Itératif (IGA), un algorithme d'alignement basé sur des règles et sans annotation. Un modèle enseignant (VLM) utilise le Prompting Graphique Itératif (IGP) pour créer des graphiques logiques et des réponses de référence. Le modèle étudiant (LLM) identifie les lacunes de connaissances locales en tentant d'aligner ses réponses sur ces références, collaborant avec des modèles assistants pour générer des réponses diverses. Ces réponses alignées sont ensuite utilisées pour un affinage supervisé itératif (SFT). Nos évaluations sur cinq scénarios basés sur des règles démontrent l'efficacité de l'IGP, avec une amélioration de l'alignement de 73,12% dans Claude Sonnet 3.5, et Llama3-8B-Instruct réalisant une amélioration de 86,20%, surpassant Claude Sonnet 3.5 en termes d'alignement basé sur des règles.