PersonaX : Ensembles de données multimodales avec des traits comportementaux inférés par des modèles de langage de grande taille
PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
September 14, 2025
papers.authors: Loka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang
cs.AI
papers.abstract
Comprendre les traits comportementaux humains est essentiel pour les applications en interaction homme-machine, en sciences sociales computationnelles et dans les systèmes d'IA personnalisés. Une telle compréhension nécessite souvent l'intégration de multiples modalités pour capturer des schémas et des relations nuancés. Cependant, les ressources existantes fournissent rarement des ensembles de données combinant des descripteurs comportementaux avec des modalités complémentaires telles que les attributs faciaux et les informations biographiques. Pour combler cette lacune, nous présentons PersonaX, une collection soigneusement élaborée de jeux de données multimodaux conçus pour permettre une analyse complète des traits publics à travers différentes modalités. PersonaX se compose de (1) CelebPersona, mettant en vedette 9444 personnalités publiques issues de divers métiers, et (2) AthlePersona, couvrant 4181 athlètes professionnels à travers 7 grandes ligues sportives. Chaque ensemble de données inclut des évaluations de traits comportementaux inférées par trois modèles de langage à grande échelle performants, ainsi que des images faciales et des caractéristiques biographiques structurées. Nous analysons PersonaX à deux niveaux complémentaires. Premièrement, nous abstractions des scores de traits de haut niveau à partir de descriptions textuelles et appliquons cinq tests d'indépendance statistique pour examiner leurs relations avec d'autres modalités. Deuxièmement, nous introduisons un nouveau cadre d'apprentissage de représentation causale (CRL) adapté aux données multimodales et multi-mesures, offrant des garanties théoriques d'identifiabilité. Des expériences sur des données synthétiques et réelles démontrent l'efficacité de notre approche. En unifiant l'analyse structurée et non structurée, PersonaX établit une base pour étudier les traits comportementaux inférés par les LLM en conjonction avec les attributs visuels et biographiques, faisant progresser l'analyse multimodale des traits et le raisonnement causal.
English
Understanding human behavior traits is central to applications in
human-computer interaction, computational social science, and personalized AI
systems. Such understanding often requires integrating multiple modalities to
capture nuanced patterns and relationships. However, existing resources rarely
provide datasets that combine behavioral descriptors with complementary
modalities such as facial attributes and biographical information. To address
this gap, we present PersonaX, a curated collection of multimodal datasets
designed to enable comprehensive analysis of public traits across modalities.
PersonaX consists of (1) CelebPersona, featuring 9444 public figures from
diverse occupations, and (2) AthlePersona, covering 4181 professional athletes
across 7 major sports leagues. Each dataset includes behavioral trait
assessments inferred by three high-performing large language models, alongside
facial imagery and structured biographical features. We analyze PersonaX at two
complementary levels. First, we abstract high-level trait scores from text
descriptions and apply five statistical independence tests to examine their
relationships with other modalities. Second, we introduce a novel causal
representation learning (CRL) framework tailored to multimodal and
multi-measurement data, providing theoretical identifiability guarantees.
Experiments on both synthetic and real-world data demonstrate the effectiveness
of our approach. By unifying structured and unstructured analysis, PersonaX
establishes a foundation for studying LLM-inferred behavioral traits in
conjunction with visual and biographical attributes, advancing multimodal trait
analysis and causal reasoning.