ADAM: Разнообразный архив человечества для оценки и улучшения языковых моделей в области биографического анализа
ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning
September 26, 2025
Авторы: Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari
cs.AI
Аннотация
Мы представляем ADAM (A Diverse Archive of Mankind) — фреймворк для оценки и улучшения мультимодальных больших языковых моделей (MLLMs) в контексте биографического анализа. Насколько нам известно, это первая работа, которая систематически исследует возможности языковых моделей в области биографий — критически важном, но недостаточно изученном аспекте фактических знаний. Основу ADAM составляет AdamDB — мультиязычный и мультимодальный набор данных, охватывающий более 4 миллионов человек из разных географических регионов, временных периодов и профессий. AdamBench предоставляет когнитивно структурированные оценки, основанные на таксономии Блума, охватывающие шесть уровней рассуждений как на английском, так и на родных языках. Для борьбы с галлюцинациями, особенно в отношении малоизвестных личностей, мы предлагаем AdamRAG — систему генерации, усиленную поиском, адаптированную для биографических контекстов. Эксперименты показывают, что AdamRAG значительно улучшает модели с открытым исходным кодом и умеренно помогает моделям с закрытым исходным кодом, с наибольшим приростом на уровнях базового рассуждения. Популярность сильно влияет на точность, а мультимодальный ввод через изображения лиц обеспечивает меньшие и менее стабильные улучшения по сравнению с поиском. ADAM устанавливает первый эталонный тест и фреймворк для когнитивно, культурно и мультимодально обоснованной биографической оценки, способствуя развитию многоязычных, точных и устойчивых к галлюцинациям MLLMs.
English
We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating
and improving multimodal large language models (MLLMs) in biographical
reasoning. To the best of our knowledge, this is the first work to
systematically examine LLM capabilities in biography, a critical yet
underexplored dimension of factual knowledge. At its core, AdamDB is a
multilingual and multimodal dataset covering over 4 million individuals across
geography, time, and profession, while AdamBench provides cognitively
structured evaluations based on Bloom's taxonomy, spanning six reasoning levels
in both English and native languages. To address hallucinations, particularly
for lesser-known individuals, we propose AdamRAG, a retrieval-augmented
generation system tailored to biographical contexts. Experiments show that
AdamRAG substantially improves open-source models and modestly benefits
closed-source ones, with the largest gains on lower-order reasoning. Popularity
strongly mediates accuracy, and multimodal input via face images offers
smaller, less consistent improvements than retrieval. ADAM establishes the
first benchmark and framework for cognitively, culturally, and multimodally
grounded biographical evaluation, advancing the development of multilingual,
accurate, and hallucination-resistant MLLMs.