PersonaX: Мультимодальные наборы данных с поведенческими характеристиками, выведенными с помощью языковых моделей
PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
September 14, 2025
Авторы: Loka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang
cs.AI
Аннотация
Понимание черт человеческого поведения является ключевым для приложений в области взаимодействия человека с компьютером, вычислительной социальной науки и персонализированных систем искусственного интеллекта. Такое понимание часто требует интеграции нескольких модальностей для выявления тонких паттернов и взаимосвязей. Однако существующие ресурсы редко предоставляют наборы данных, сочетающие поведенческие описания с дополнительными модальностями, такими как атрибуты лица и биографическая информация. Чтобы восполнить этот пробел, мы представляем PersonaX — тщательно отобранную коллекцию мультимодальных наборов данных, предназначенных для всестороннего анализа публичных черт личности. PersonaX состоит из (1) CelebPersona, включающей 9444 публичных фигур из различных профессий, и (2) AthlePersona, охватывающей 4181 профессионального спортсмена из 7 крупных спортивных лиг. Каждый набор данных содержит оценки поведенческих черт, выведенные тремя высокопроизводительными большими языковыми моделями, а также изображения лиц и структурированные биографические характеристики. Мы анализируем PersonaX на двух взаимодополняющих уровнях. Во-первых, мы абстрагируем высокоуровневые оценки черт из текстовых описаний и применяем пять статистических тестов независимости для изучения их взаимосвязей с другими модальностями. Во-вторых, мы представляем новый фреймворк для обучения причинных представлений (CRL), адаптированный для мультимодальных и многомерных данных, с теоретическими гарантиями идентифицируемости. Эксперименты на синтетических и реальных данных демонстрируют эффективность нашего подхода. Объединяя структурированный и неструктурированный анализ, PersonaX закладывает основу для изучения поведенческих черт, выведенных большими языковыми моделями, в сочетании с визуальными и биографическими атрибутами, продвигая мультимодальный анализ черт и причинные рассуждения.
English
Understanding human behavior traits is central to applications in
human-computer interaction, computational social science, and personalized AI
systems. Such understanding often requires integrating multiple modalities to
capture nuanced patterns and relationships. However, existing resources rarely
provide datasets that combine behavioral descriptors with complementary
modalities such as facial attributes and biographical information. To address
this gap, we present PersonaX, a curated collection of multimodal datasets
designed to enable comprehensive analysis of public traits across modalities.
PersonaX consists of (1) CelebPersona, featuring 9444 public figures from
diverse occupations, and (2) AthlePersona, covering 4181 professional athletes
across 7 major sports leagues. Each dataset includes behavioral trait
assessments inferred by three high-performing large language models, alongside
facial imagery and structured biographical features. We analyze PersonaX at two
complementary levels. First, we abstract high-level trait scores from text
descriptions and apply five statistical independence tests to examine their
relationships with other modalities. Second, we introduce a novel causal
representation learning (CRL) framework tailored to multimodal and
multi-measurement data, providing theoretical identifiability guarantees.
Experiments on both synthetic and real-world data demonstrate the effectiveness
of our approach. By unifying structured and unstructured analysis, PersonaX
establishes a foundation for studying LLM-inferred behavioral traits in
conjunction with visual and biographical attributes, advancing multimodal trait
analysis and causal reasoning.