ChatPaper.aiChatPaper

VLM-assistenten afstemmen op gepersonaliseerde gesitueerde cognitie

Aligning VLM Assistants with Personalized Situated Cognition

June 1, 2025
Auteurs: Yongqi Li, Shen Zhou, Xiaohu Li, Xin Miao, Jintao Wen, Mayi Xu, Jianhao Chen, Birong Pan, Hankun Kang, Yuanyuan Zhu, Ming Zhong, Tieyun Qian
cs.AI

Samenvatting

Vision-language modellen (VLMs) die zijn afgestemd op algemene menselijke doelstellingen, zoals het vermijden van schade en hallucinaties, zijn waardevolle assistenten geworden bij het uitvoeren van visuele taken. Mensen met uiteenlopende achtergronden hebben echter verschillende manieren van waarnemen, zelfs in dezelfde situatie. Hierdoor kunnen zij gepersonaliseerde verwachtingen hebben van VLM-assistenten. Dit benadrukt de dringende noodzaak om VLM-assistenten af te stemmen op gepersonaliseerde situatiegebonden waarneming voor real-world ondersteuning. Om dit probleem te bestuderen, vereenvoudigen we het eerst door individuen te karakteriseren op basis van het sociologische concept van Role-Set. Vervolgens stellen we voor om de acties van individuen te evalueren om te onderzoeken of de gepersonaliseerde afstemming is bereikt. Verder construeren we een benchmark genaamd PCogAlignBench, die 18k instanties en 20 individuen met verschillende Role-Sets omvat. Ten slotte presenteren we een raamwerk genaamd PCogAlign, dat een waarnemingsbewust en actiegebaseerd beloningsmodel construeert voor gepersonaliseerde afstemming. Experimentele resultaten en menselijke evaluaties tonen de betrouwbaarheid van de PCogAlignBench en de effectiviteit van ons voorgestelde PCogAlign aan. We zullen de geconstrueerde benchmark en code openbaar maken op https://github.com/NLPGM/PCogAlign.
English
Vision-language models (VLMs) aligned with general human objectives, such as being harmless and hallucination-free, have become valuable assistants of humans in managing visual tasks. However, people with diversified backgrounds have different cognition even in the same situation. Consequently, they may have personalized expectations for VLM assistants. This highlights the urgent need to align VLM assistants with personalized situated cognition for real-world assistance. To study this problem, we first simplify it by characterizing individuals based on the sociological concept of Role-Set. Then, we propose to evaluate the individuals' actions to examine whether the personalized alignment is achieved. Further, we construct a benchmark named PCogAlignBench, which includes 18k instances and 20 individuals with different Role-Sets. Finally, we present a framework called PCogAlign, which constructs a cognition-aware and action-based reward model for personalized alignment. Experimental results and human evaluations demonstrate the reliability of the PCogAlignBench and the effectiveness of our proposed PCogAlign. We will open-source the constructed benchmark and code at https://github.com/NLPGM/PCogAlign.
PDF22June 3, 2025