Alinhando Assistentes de VLM com Cognição Situada Personalizada

Resumo

Modelos de visão e linguagem (VLMs) alinhados com objetivos humanos gerais, como ser inofensivo e livre de alucinações, tornaram-se assistentes valiosos para os humanos na execução de tarefas visuais. No entanto, pessoas com diferentes contextos têm cognições distintas, mesmo em situações idênticas. Consequentemente, elas podem ter expectativas personalizadas em relação aos assistentes VLM. Isso destaca a necessidade urgente de alinhar os assistentes VLM com a cognição situada personalizada para auxílio no mundo real. Para estudar esse problema, primeiro o simplificamos caracterizando indivíduos com base no conceito sociológico de Conjunto de Papéis (Role-Set). Em seguida, propomos avaliar as ações dos indivíduos para verificar se o alinhamento personalizado foi alcançado. Além disso, construímos um benchmark chamado PCogAlignBench, que inclui 18 mil instâncias e 20 indivíduos com diferentes Conjuntos de Papéis. Por fim, apresentamos uma estrutura chamada PCogAlign, que constrói um modelo de recompensa baseado em ações e consciente da cognição para o alinhamento personalizado. Resultados experimentais e avaliações humanas demonstram a confiabilidade do PCogAlignBench e a eficácia do nosso PCogAlign proposto. Disponibilizaremos o benchmark e o código em código aberto em https://github.com/NLPGM/PCogAlign.

English

Vision-language models (VLMs) aligned with general human objectives, such as being harmless and hallucination-free, have become valuable assistants of humans in managing visual tasks. However, people with diversified backgrounds have different cognition even in the same situation. Consequently, they may have personalized expectations for VLM assistants. This highlights the urgent need to align VLM assistants with personalized situated cognition for real-world assistance. To study this problem, we first simplify it by characterizing individuals based on the sociological concept of Role-Set. Then, we propose to evaluate the individuals' actions to examine whether the personalized alignment is achieved. Further, we construct a benchmark named PCogAlignBench, which includes 18k instances and 20 individuals with different Role-Sets. Finally, we present a framework called PCogAlign, which constructs a cognition-aware and action-based reward model for personalized alignment. Experimental results and human evaluations demonstrate the reliability of the PCogAlignBench and the effectiveness of our proposed PCogAlign. We will open-source the constructed benchmark and code at https://github.com/NLPGM/PCogAlign.

Alinhando Assistentes de VLM com Cognição Situada Personalizada

Aligning VLM Assistants with Personalized Situated Cognition

Resumo

Support