Alinhando Assistentes de VLM com Cognição Situada Personalizada
Aligning VLM Assistants with Personalized Situated Cognition
June 1, 2025
Autores: Yongqi Li, Shen Zhou, Xiaohu Li, Xin Miao, Jintao Wen, Mayi Xu, Jianhao Chen, Birong Pan, Hankun Kang, Yuanyuan Zhu, Ming Zhong, Tieyun Qian
cs.AI
Resumo
Modelos de visão e linguagem (VLMs) alinhados com objetivos humanos gerais, como ser inofensivo e livre de alucinações, tornaram-se assistentes valiosos para os humanos na execução de tarefas visuais. No entanto, pessoas com diferentes contextos têm cognições distintas, mesmo em situações idênticas. Consequentemente, elas podem ter expectativas personalizadas em relação aos assistentes VLM. Isso destaca a necessidade urgente de alinhar os assistentes VLM com a cognição situada personalizada para auxílio no mundo real. Para estudar esse problema, primeiro o simplificamos caracterizando indivíduos com base no conceito sociológico de Conjunto de Papéis (Role-Set). Em seguida, propomos avaliar as ações dos indivíduos para verificar se o alinhamento personalizado foi alcançado. Além disso, construímos um benchmark chamado PCogAlignBench, que inclui 18 mil instâncias e 20 indivíduos com diferentes Conjuntos de Papéis. Por fim, apresentamos uma estrutura chamada PCogAlign, que constrói um modelo de recompensa baseado em ações e consciente da cognição para o alinhamento personalizado. Resultados experimentais e avaliações humanas demonstram a confiabilidade do PCogAlignBench e a eficácia do nosso PCogAlign proposto. Disponibilizaremos o benchmark e o código em código aberto em https://github.com/NLPGM/PCogAlign.
English
Vision-language models (VLMs) aligned with general human objectives, such as
being harmless and hallucination-free, have become valuable assistants of
humans in managing visual tasks. However, people with diversified backgrounds
have different cognition even in the same situation. Consequently, they may
have personalized expectations for VLM assistants. This highlights the urgent
need to align VLM assistants with personalized situated cognition for
real-world assistance. To study this problem, we first simplify it by
characterizing individuals based on the sociological concept of Role-Set. Then,
we propose to evaluate the individuals' actions to examine whether the
personalized alignment is achieved. Further, we construct a benchmark named
PCogAlignBench, which includes 18k instances and 20 individuals with different
Role-Sets. Finally, we present a framework called PCogAlign, which constructs a
cognition-aware and action-based reward model for personalized alignment.
Experimental results and human evaluations demonstrate the reliability of the
PCogAlignBench and the effectiveness of our proposed PCogAlign. We will
open-source the constructed benchmark and code at
https://github.com/NLPGM/PCogAlign.