ADAM: Um Arquivo Diversificado da Humanidade para Avaliar e Aprimorar Modelos de Linguagem de Grande Escala no Raciocínio Biográfico

Resumo

Apresentamos o ADAM (A Diverse Archive of Mankind), uma estrutura para avaliar e melhorar modelos de linguagem multimodal de grande escala (MLLMs) no raciocínio biográfico. Até onde sabemos, este é o primeiro trabalho a examinar sistematicamente as capacidades de LLMs em biografias, uma dimensão crítica, mas pouco explorada, do conhecimento factual. No núcleo do ADAM, o AdamDB é um conjunto de dados multilíngue e multimodal que abrange mais de 4 milhões de indivíduos em diferentes geografias, períodos históricos e profissões, enquanto o AdamBench oferece avaliações cognitivamente estruturadas baseadas na taxonomia de Bloom, abrangendo seis níveis de raciocínio tanto em inglês quanto em idiomas nativos. Para abordar alucinações, especialmente para indivíduos menos conhecidos, propomos o AdamRAG, um sistema de geração aumentada por recuperação de informações, adaptado para contextos biográficos. Experimentos mostram que o AdamRAG melhora substancialmente os modelos de código aberto e beneficia modestamente os de código fechado, com os maiores ganhos em raciocínios de ordem inferior. A popularidade influencia fortemente a precisão, e a entrada multimodal por meio de imagens faciais oferece melhorias menores e menos consistentes do que a recuperação de informações. O ADAM estabelece o primeiro benchmark e estrutura para avaliação biográfica cognitivamente, culturalmente e multimodalmente fundamentada, avançando o desenvolvimento de MLLMs multilíngues, precisos e resistentes a alucinações.

English

We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating and improving multimodal large language models (MLLMs) in biographical reasoning. To the best of our knowledge, this is the first work to systematically examine LLM capabilities in biography, a critical yet underexplored dimension of factual knowledge. At its core, AdamDB is a multilingual and multimodal dataset covering over 4 million individuals across geography, time, and profession, while AdamBench provides cognitively structured evaluations based on Bloom's taxonomy, spanning six reasoning levels in both English and native languages. To address hallucinations, particularly for lesser-known individuals, we propose AdamRAG, a retrieval-augmented generation system tailored to biographical contexts. Experiments show that AdamRAG substantially improves open-source models and modestly benefits closed-source ones, with the largest gains on lower-order reasoning. Popularity strongly mediates accuracy, and multimodal input via face images offers smaller, less consistent improvements than retrieval. ADAM establishes the first benchmark and framework for cognitively, culturally, and multimodally grounded biographical evaluation, advancing the development of multilingual, accurate, and hallucination-resistant MLLMs.

ADAM: Um Arquivo Diversificado da Humanidade para Avaliar e Aprimorar Modelos de Linguagem de Grande Escala no Raciocínio Biográfico

ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

Resumo

Support