Allineamento degli Assistenti VLM con la Cognizione Situata Personalizzata
Aligning VLM Assistants with Personalized Situated Cognition
June 1, 2025
Autori: Yongqi Li, Shen Zhou, Xiaohu Li, Xin Miao, Jintao Wen, Mayi Xu, Jianhao Chen, Birong Pan, Hankun Kang, Yuanyuan Zhu, Ming Zhong, Tieyun Qian
cs.AI
Abstract
I modelli visione-linguaggio (VLM) allineati con obiettivi umani generali, come essere innocui e privi di allucinazioni, sono diventati assistenti preziosi per gli esseri umani nella gestione di compiti visivi. Tuttavia, persone con background diversificati hanno cognizioni diverse anche nella stessa situazione. Di conseguenza, possono avere aspettative personalizzate per gli assistenti VLM. Ciò evidenzia l'urgente necessità di allineare gli assistenti VLM con una cognizione situata personalizzata per un'assistenza nel mondo reale. Per studiare questo problema, lo semplifichiamo caratterizzando gli individui in base al concetto sociologico di Insieme di Ruoli (Role-Set). Successivamente, proponiamo di valutare le azioni degli individui per esaminare se l'allineamento personalizzato è stato raggiunto. Inoltre, costruiamo un benchmark denominato PCogAlignBench, che include 18k istanze e 20 individui con diversi Insiemi di Ruoli. Infine, presentiamo un framework chiamato PCogAlign, che costruisce un modello di ricompensa basato su azioni e consapevole della cognizione per l'allineamento personalizzato. I risultati sperimentali e le valutazioni umane dimostrano l'affidabilità del PCogAlignBench e l'efficacia del nostro PCogAlign proposto. Renderemo open-source il benchmark e il codice costruiti all'indirizzo https://github.com/NLPGM/PCogAlign.
English
Vision-language models (VLMs) aligned with general human objectives, such as
being harmless and hallucination-free, have become valuable assistants of
humans in managing visual tasks. However, people with diversified backgrounds
have different cognition even in the same situation. Consequently, they may
have personalized expectations for VLM assistants. This highlights the urgent
need to align VLM assistants with personalized situated cognition for
real-world assistance. To study this problem, we first simplify it by
characterizing individuals based on the sociological concept of Role-Set. Then,
we propose to evaluate the individuals' actions to examine whether the
personalized alignment is achieved. Further, we construct a benchmark named
PCogAlignBench, which includes 18k instances and 20 individuals with different
Role-Sets. Finally, we present a framework called PCogAlign, which constructs a
cognition-aware and action-based reward model for personalized alignment.
Experimental results and human evaluations demonstrate the reliability of the
PCogAlignBench and the effectiveness of our proposed PCogAlign. We will
open-source the constructed benchmark and code at
https://github.com/NLPGM/PCogAlign.