ChatPaper.aiChatPaper

ADAM: Ein vielfältiges Archiv der Menschheit zur Bewertung und Verbesserung von LLMs im biografischen Denken

ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

September 26, 2025
papers.authors: Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari
cs.AI

papers.abstract

Wir stellen ADAM (A Diverse Archive of Mankind) vor, ein Framework zur Bewertung und Verbesserung multimodaler großer Sprachmodelle (MLLMs) im Bereich der biografischen Argumentation. Nach unserem besten Wissen ist dies die erste Arbeit, die systematisch die Fähigkeiten von LLMs in Bezug auf Biografien untersucht, eine kritische, aber bisher wenig erforschte Dimension des faktischen Wissens. Im Kern besteht ADAM aus AdamDB, einem mehrsprachigen und multimodalen Datensatz, der über 4 Millionen Personen aus verschiedenen geografischen Regionen, Zeitepochen und Berufsfeldern abdeckt, sowie AdamBench, das kognitiv strukturierte Bewertungen auf Basis der Bloom’schen Taxonomie bietet und sechs Argumentationsniveaus sowohl in Englisch als auch in Muttersprachen umfasst. Um Halluzinationen, insbesondere bei weniger bekannten Personen, zu adressieren, schlagen wir AdamRAG vor, ein retrieval-augmentiertes Generierungssystem, das speziell auf biografische Kontexte zugeschnitten ist. Experimente zeigen, dass AdamRAG Open-Source-Modelle erheblich verbessert und Closed-Source-Modelle in geringerem Maße begünstigt, wobei die größten Fortschritte bei niedrigeren Argumentationsniveaus erzielt werden. Die Bekanntheit einer Person beeinflusst die Genauigkeit stark, und multimodale Eingaben über Gesichtsbilder bieten kleinere und weniger konsistente Verbesserungen als das Retrieval. ADAM etabliert den ersten Benchmark und ein Framework für kognitiv, kulturell und multimodal fundierte biografische Bewertungen und fördert die Entwicklung mehrsprachiger, präziser und halluzinationsresistenter MLLMs.
English
We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating and improving multimodal large language models (MLLMs) in biographical reasoning. To the best of our knowledge, this is the first work to systematically examine LLM capabilities in biography, a critical yet underexplored dimension of factual knowledge. At its core, AdamDB is a multilingual and multimodal dataset covering over 4 million individuals across geography, time, and profession, while AdamBench provides cognitively structured evaluations based on Bloom's taxonomy, spanning six reasoning levels in both English and native languages. To address hallucinations, particularly for lesser-known individuals, we propose AdamRAG, a retrieval-augmented generation system tailored to biographical contexts. Experiments show that AdamRAG substantially improves open-source models and modestly benefits closed-source ones, with the largest gains on lower-order reasoning. Popularity strongly mediates accuracy, and multimodal input via face images offers smaller, less consistent improvements than retrieval. ADAM establishes the first benchmark and framework for cognitively, culturally, and multimodally grounded biographical evaluation, advancing the development of multilingual, accurate, and hallucination-resistant MLLMs.
PDF02September 30, 2025