ChatPaper.aiChatPaper

PersonaX: Multimodale datasets met door LLM afgeleide gedragskenmerken

PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

September 14, 2025
Auteurs: Loka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang
cs.AI

Samenvatting

Het begrijpen van menselijke gedragskenmerken is essentieel voor toepassingen in mens-computerinteractie, computationele sociale wetenschappen en gepersonaliseerde AI-systemen. Zo'n begrip vereist vaak de integratie van meerdere modaliteiten om genuanceerde patronen en relaties vast te leggen. Bestaande bronnen bieden echter zelden datasets die gedragsdescriptoren combineren met aanvullende modaliteiten zoals gezichtskenmerken en biografische informatie. Om deze leemte te vullen, presenteren we PersonaX, een verzameling van zorgvuldig samengestelde multimodale datasets die een uitgebreide analyse van publieke kenmerken over verschillende modaliteiten mogelijk maakt. PersonaX bestaat uit (1) CelebPersona, met 9444 publieke figuren uit diverse beroepen, en (2) AthlePersona, dat 4181 professionele atleten uit 7 grote sportcompetities omvat. Elke dataset bevat gedragskenmerkanalyses die zijn afgeleid door drie hoogpresterende grote taalmodellen, naast gezichtsafbeeldingen en gestructureerde biografische kenmerken. We analyseren PersonaX op twee complementaire niveaus. Ten eerste abstraheren we hoogwaardige kenmerkscores uit tekstbeschrijvingen en passen we vijf statistische onafhankelijkheidstests toe om hun relaties met andere modaliteiten te onderzoeken. Ten tweede introduceren we een nieuw causaal representatieleerframework (CRL) dat is toegesneden op multimodale en multi-meetdata, met theoretische identificeerbaarheidsgaranties. Experimenten op zowel synthetische als real-world data tonen de effectiviteit van onze aanpak aan. Door gestructureerde en ongestructureerde analyse te verenigen, legt PersonaX de basis voor het bestuderen van door LLM afgeleide gedragskenmerken in combinatie met visuele en biografische attributen, wat bijdraagt aan multimodale kenmerkanalyse en causaal redeneren.
English
Understanding human behavior traits is central to applications in human-computer interaction, computational social science, and personalized AI systems. Such understanding often requires integrating multiple modalities to capture nuanced patterns and relationships. However, existing resources rarely provide datasets that combine behavioral descriptors with complementary modalities such as facial attributes and biographical information. To address this gap, we present PersonaX, a curated collection of multimodal datasets designed to enable comprehensive analysis of public traits across modalities. PersonaX consists of (1) CelebPersona, featuring 9444 public figures from diverse occupations, and (2) AthlePersona, covering 4181 professional athletes across 7 major sports leagues. Each dataset includes behavioral trait assessments inferred by three high-performing large language models, alongside facial imagery and structured biographical features. We analyze PersonaX at two complementary levels. First, we abstract high-level trait scores from text descriptions and apply five statistical independence tests to examine their relationships with other modalities. Second, we introduce a novel causal representation learning (CRL) framework tailored to multimodal and multi-measurement data, providing theoretical identifiability guarantees. Experiments on both synthetic and real-world data demonstrate the effectiveness of our approach. By unifying structured and unstructured analysis, PersonaX establishes a foundation for studying LLM-inferred behavioral traits in conjunction with visual and biographical attributes, advancing multimodal trait analysis and causal reasoning.
PDF42September 16, 2025