PersonaX: Conjuntos de Dados Multimodais com Traços Comportamentais Inferidos por LLM
PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
September 14, 2025
Autores: Loka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang
cs.AI
Resumo
Compreender os traços comportamentais humanos é fundamental para aplicações em interação humano-computador, ciência social computacional e sistemas de IA personalizados. Tal compreensão frequentemente requer a integração de múltiplas modalidades para capturar padrões e relações sutis. No entanto, os recursos existentes raramente fornecem conjuntos de dados que combinam descritores comportamentais com modalidades complementares, como atributos faciais e informações biográficas. Para preencher essa lacuna, apresentamos o PersonaX, uma coleção curada de conjuntos de dados multimodais projetados para permitir uma análise abrangente de traços públicos em diversas modalidades. O PersonaX consiste em (1) CelebPersona, que apresenta 9444 figuras públicas de diversas ocupações, e (2) AthlePersona, abrangendo 4181 atletas profissionais de 7 grandes ligas esportivas. Cada conjunto de dados inclui avaliações de traços comportamentais inferidos por três modelos de linguagem de grande porte de alto desempenho, juntamente com imagens faciais e características biográficas estruturadas. Analisamos o PersonaX em dois níveis complementares. Primeiro, abstraímos pontuações de traços de alto nível a partir de descrições textuais e aplicamos cinco testes de independência estatística para examinar suas relações com outras modalidades. Segundo, introduzimos uma nova estrutura de aprendizado de representação causal (CRL) adaptada a dados multimodais e de múltiplas medições, fornecendo garantias teóricas de identificabilidade. Experimentos com dados sintéticos e do mundo real demonstram a eficácia de nossa abordagem. Ao unificar análises estruturadas e não estruturadas, o PersonaX estabelece uma base para o estudo de traços comportamentais inferidos por modelos de linguagem de grande porte em conjunto com atributos visuais e biográficos, avançando a análise multimodal de traços e o raciocínio causal.
English
Understanding human behavior traits is central to applications in
human-computer interaction, computational social science, and personalized AI
systems. Such understanding often requires integrating multiple modalities to
capture nuanced patterns and relationships. However, existing resources rarely
provide datasets that combine behavioral descriptors with complementary
modalities such as facial attributes and biographical information. To address
this gap, we present PersonaX, a curated collection of multimodal datasets
designed to enable comprehensive analysis of public traits across modalities.
PersonaX consists of (1) CelebPersona, featuring 9444 public figures from
diverse occupations, and (2) AthlePersona, covering 4181 professional athletes
across 7 major sports leagues. Each dataset includes behavioral trait
assessments inferred by three high-performing large language models, alongside
facial imagery and structured biographical features. We analyze PersonaX at two
complementary levels. First, we abstract high-level trait scores from text
descriptions and apply five statistical independence tests to examine their
relationships with other modalities. Second, we introduce a novel causal
representation learning (CRL) framework tailored to multimodal and
multi-measurement data, providing theoretical identifiability guarantees.
Experiments on both synthetic and real-world data demonstrate the effectiveness
of our approach. By unifying structured and unstructured analysis, PersonaX
establishes a foundation for studying LLM-inferred behavioral traits in
conjunction with visual and biographical attributes, advancing multimodal trait
analysis and causal reasoning.