ChatPaper.aiChatPaper

ADAM: Een Divers Archief van de Mensheid voor het Evalueren en Verbeteren van LLM's in Biografisch Redeneren

ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

September 26, 2025
Auteurs: Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari
cs.AI

Samenvatting

We introduceren ADAM (A Diverse Archive of Mankind), een raamwerk voor het evalueren en verbeteren van multimodale grote taalmodellen (MLLMs) in biografisch redeneren. Voor zover wij weten, is dit het eerste werk dat systematisch de mogelijkheden van LLMs in biografieën onderzoekt, een cruciaal maar onderbelicht aspect van feitelijke kennis. De kern van ADAM bestaat uit AdamDB, een meertalige en multimodale dataset die meer dan 4 miljoen individuen omvat, verspreid over geografie, tijd en beroep, terwijl AdamBench cognitief gestructureerde evaluaties biedt op basis van de taxonomie van Bloom, die zes redeneerniveaus omvat in zowel het Engels als in moedertalen. Om hallucinaties aan te pakken, vooral voor minder bekende individuen, stellen we AdamRAG voor, een retrieval-augmented generatiesysteem dat is toegespitst op biografische contexten. Experimenten tonen aan dat AdamRAG opensource-modellen aanzienlijk verbetert en bescheiden voordelen biedt voor closed-source modellen, met de grootste vooruitgang op lagere redeneerniveaus. Populariteit heeft een sterke invloed op de nauwkeurigheid, en multimodale invoer via gezichtsafbeeldingen biedt kleinere, minder consistente verbeteringen dan retrieval. ADAM stelt de eerste benchmark en het eerste raamwerk vast voor cognitief, cultureel en multimodaal onderbouwde biografische evaluatie, wat de ontwikkeling bevordert van meertalige, nauwkeurige en hallucinatiebestendige MLLMs.
English
We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating and improving multimodal large language models (MLLMs) in biographical reasoning. To the best of our knowledge, this is the first work to systematically examine LLM capabilities in biography, a critical yet underexplored dimension of factual knowledge. At its core, AdamDB is a multilingual and multimodal dataset covering over 4 million individuals across geography, time, and profession, while AdamBench provides cognitively structured evaluations based on Bloom's taxonomy, spanning six reasoning levels in both English and native languages. To address hallucinations, particularly for lesser-known individuals, we propose AdamRAG, a retrieval-augmented generation system tailored to biographical contexts. Experiments show that AdamRAG substantially improves open-source models and modestly benefits closed-source ones, with the largest gains on lower-order reasoning. Popularity strongly mediates accuracy, and multimodal input via face images offers smaller, less consistent improvements than retrieval. ADAM establishes the first benchmark and framework for cognitively, culturally, and multimodally grounded biographical evaluation, advancing the development of multilingual, accurate, and hallucination-resistant MLLMs.
PDF12September 30, 2025