ADAM: Um Arquivo Diversificado da Humanidade para Avaliar e Aprimorar Modelos de Linguagem de Grande Escala no Raciocínio Biográfico
ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning
September 26, 2025
Autores: Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari
cs.AI
Resumo
Apresentamos o ADAM (A Diverse Archive of Mankind), uma estrutura para avaliar e melhorar modelos de linguagem multimodal de grande escala (MLLMs) no raciocínio biográfico. Até onde sabemos, este é o primeiro trabalho a examinar sistematicamente as capacidades de LLMs em biografias, uma dimensão crítica, mas pouco explorada, do conhecimento factual. No núcleo do ADAM, o AdamDB é um conjunto de dados multilíngue e multimodal que abrange mais de 4 milhões de indivíduos em diferentes geografias, períodos históricos e profissões, enquanto o AdamBench oferece avaliações cognitivamente estruturadas baseadas na taxonomia de Bloom, abrangendo seis níveis de raciocínio tanto em inglês quanto em idiomas nativos. Para abordar alucinações, especialmente para indivíduos menos conhecidos, propomos o AdamRAG, um sistema de geração aumentada por recuperação de informações, adaptado para contextos biográficos. Experimentos mostram que o AdamRAG melhora substancialmente os modelos de código aberto e beneficia modestamente os de código fechado, com os maiores ganhos em raciocínios de ordem inferior. A popularidade influencia fortemente a precisão, e a entrada multimodal por meio de imagens faciais oferece melhorias menores e menos consistentes do que a recuperação de informações. O ADAM estabelece o primeiro benchmark e estrutura para avaliação biográfica cognitivamente, culturalmente e multimodalmente fundamentada, avançando o desenvolvimento de MLLMs multilíngues, precisos e resistentes a alucinações.
English
We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating
and improving multimodal large language models (MLLMs) in biographical
reasoning. To the best of our knowledge, this is the first work to
systematically examine LLM capabilities in biography, a critical yet
underexplored dimension of factual knowledge. At its core, AdamDB is a
multilingual and multimodal dataset covering over 4 million individuals across
geography, time, and profession, while AdamBench provides cognitively
structured evaluations based on Bloom's taxonomy, spanning six reasoning levels
in both English and native languages. To address hallucinations, particularly
for lesser-known individuals, we propose AdamRAG, a retrieval-augmented
generation system tailored to biographical contexts. Experiments show that
AdamRAG substantially improves open-source models and modestly benefits
closed-source ones, with the largest gains on lower-order reasoning. Popularity
strongly mediates accuracy, and multimodal input via face images offers
smaller, less consistent improvements than retrieval. ADAM establishes the
first benchmark and framework for cognitively, culturally, and multimodally
grounded biographical evaluation, advancing the development of multilingual,
accurate, and hallucination-resistant MLLMs.