PersonaX: Conjuntos de datos multimodales con rasgos de comportamiento inferidos por LLM
PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
September 14, 2025
Autores: Loka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang
cs.AI
Resumen
Comprender los rasgos del comportamiento humano es fundamental para aplicaciones en la interacción humano-computadora, la ciencia social computacional y los sistemas de IA personalizados. Dicha comprensión a menudo requiere integrar múltiples modalidades para capturar patrones y relaciones matizadas. Sin embargo, los recursos existentes rara vez proporcionan conjuntos de datos que combinen descriptores conductuales con modalidades complementarias, como atributos faciales e información biográfica. Para abordar esta brecha, presentamos PersonaX, una colección curada de conjuntos de datos multimodales diseñados para permitir un análisis exhaustivo de rasgos públicos a través de diversas modalidades. PersonaX consta de (1) CelebPersona, que incluye 9444 figuras públicas de diversas ocupaciones, y (2) AthlePersona, que abarca 4181 atletas profesionales de 7 ligas deportivas principales. Cada conjunto de datos incluye evaluaciones de rasgos conductuales inferidos por tres modelos de lenguaje de alto rendimiento, junto con imágenes faciales y características biográficas estructuradas. Analizamos PersonaX en dos niveles complementarios. Primero, abstraemos puntuaciones de rasgos de alto nivel a partir de descripciones textuales y aplicamos cinco pruebas de independencia estadística para examinar sus relaciones con otras modalidades. Segundo, introducimos un novedoso marco de aprendizaje de representación causal (CRL, por sus siglas en inglés) adaptado a datos multimodales y de múltiples mediciones, proporcionando garantías teóricas de identificabilidad. Los experimentos con datos sintéticos y del mundo real demuestran la efectividad de nuestro enfoque. Al unificar análisis estructurados y no estructurados, PersonaX establece una base para estudiar rasgos conductuales inferidos por modelos de lenguaje en conjunto con atributos visuales y biográficos, avanzando en el análisis multimodal de rasgos y el razonamiento causal.
English
Understanding human behavior traits is central to applications in
human-computer interaction, computational social science, and personalized AI
systems. Such understanding often requires integrating multiple modalities to
capture nuanced patterns and relationships. However, existing resources rarely
provide datasets that combine behavioral descriptors with complementary
modalities such as facial attributes and biographical information. To address
this gap, we present PersonaX, a curated collection of multimodal datasets
designed to enable comprehensive analysis of public traits across modalities.
PersonaX consists of (1) CelebPersona, featuring 9444 public figures from
diverse occupations, and (2) AthlePersona, covering 4181 professional athletes
across 7 major sports leagues. Each dataset includes behavioral trait
assessments inferred by three high-performing large language models, alongside
facial imagery and structured biographical features. We analyze PersonaX at two
complementary levels. First, we abstract high-level trait scores from text
descriptions and apply five statistical independence tests to examine their
relationships with other modalities. Second, we introduce a novel causal
representation learning (CRL) framework tailored to multimodal and
multi-measurement data, providing theoretical identifiability guarantees.
Experiments on both synthetic and real-world data demonstrate the effectiveness
of our approach. By unifying structured and unstructured analysis, PersonaX
establishes a foundation for studying LLM-inferred behavioral traits in
conjunction with visual and biographical attributes, advancing multimodal trait
analysis and causal reasoning.