ChatPaper.aiChatPaper

ADAM : Une Archive Diversifiée de l'Humanité pour l'Évaluation et l'Amélioration des LLM dans le Raisonnement Biographique

ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

September 26, 2025
papers.authors: Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari
cs.AI

papers.abstract

Nous présentons ADAM (A Diverse Archive of Mankind), un cadre pour évaluer et améliorer les modèles de langage multimodaux de grande envergure (MLLMs) dans le raisonnement biographique. À notre connaissance, il s’agit du premier travail à examiner systématiquement les capacités des LLM dans le domaine des biographies, une dimension critique mais peu explorée des connaissances factuelles. Au cœur de ce projet, AdamDB est un ensemble de données multilingue et multimodal couvrant plus de 4 millions d’individus à travers la géographie, le temps et les professions, tandis qu’AdamBench propose des évaluations structurées cognitivement basées sur la taxonomie de Bloom, couvrant six niveaux de raisonnement en anglais et dans les langues natives. Pour lutter contre les hallucinations, en particulier pour les individus moins connus, nous proposons AdamRAG, un système de génération augmentée par la recherche (RAG) adapté aux contextes biographiques. Les expériences montrent qu’AdamRAG améliore considérablement les modèles open-source et apporte des bénéfices modestes aux modèles closed-source, avec les gains les plus importants sur les raisonnements de niveau inférieur. La popularité influence fortement la précision, et l’apport multimodal via des images faciales offre des améliorations plus faibles et moins cohérentes que la recherche. ADAM établit le premier benchmark et cadre d’évaluation biographique ancré cognitivement, culturellement et multimodalement, favorisant le développement de MLLMs multilingues, précis et résistants aux hallucinations.
English
We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating and improving multimodal large language models (MLLMs) in biographical reasoning. To the best of our knowledge, this is the first work to systematically examine LLM capabilities in biography, a critical yet underexplored dimension of factual knowledge. At its core, AdamDB is a multilingual and multimodal dataset covering over 4 million individuals across geography, time, and profession, while AdamBench provides cognitively structured evaluations based on Bloom's taxonomy, spanning six reasoning levels in both English and native languages. To address hallucinations, particularly for lesser-known individuals, we propose AdamRAG, a retrieval-augmented generation system tailored to biographical contexts. Experiments show that AdamRAG substantially improves open-source models and modestly benefits closed-source ones, with the largest gains on lower-order reasoning. Popularity strongly mediates accuracy, and multimodal input via face images offers smaller, less consistent improvements than retrieval. ADAM establishes the first benchmark and framework for cognitively, culturally, and multimodally grounded biographical evaluation, advancing the development of multilingual, accurate, and hallucination-resistant MLLMs.
PDF02September 30, 2025