ChatPaper.aiChatPaper

SocialGPT: Solicitando LLMs para Raciocínio sobre Relações Sociais via Otimização de Segmentos Gananciosa

SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization

October 28, 2024
Autores: Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister
cs.AI

Resumo

O raciocínio de relação social tem como objetivo identificar categorias de relação, como amigos, cônjuges e colegas, a partir de imagens. Enquanto os métodos atuais adotam o paradigma de treinar uma rede dedicada de ponta a ponta usando dados de imagem rotulados, eles são limitados em termos de generalização e interpretabilidade. Para lidar com essas questões, apresentamos primeiro um framework simples, porém bem elaborado, chamado {\name}, que combina a capacidade de percepção dos Modelos de Fundação de Visão (VFMs) e a capacidade de raciocínio dos Modelos de Linguagem Grandes (LLMs) dentro de um framework modular, fornecendo uma base sólida para o reconhecimento de relações sociais. Especificamente, instruímos os VFMs a traduzir o conteúdo da imagem em uma história social textual e, em seguida, utilizamos os LLMs para o raciocínio baseado em texto. {\name} introduz princípios de design sistemáticos para adaptar os VFMs e LLMs separadamente e preencher suas lacunas. Sem treinamento adicional do modelo, ele alcança resultados competitivos de zero-shot em duas bases de dados, oferecendo respostas interpretáveis, uma vez que os LLMs podem gerar explicações baseadas em linguagem para as decisões. O processo de design manual de prompts para LLMs na fase de raciocínio é tedioso e um método automatizado de otimização de prompts é desejado. Como essencialmente convertemos uma tarefa de classificação visual em uma tarefa generativa de LLMs, a otimização automática de prompts enfrenta um problema único de otimização de prompts longos. Para lidar com essa questão, propomos ainda a Otimização de Prompt de Segmento Gananciosa (GSPO), que realiza uma busca gananciosa utilizando informações de gradiente no nível de segmento. Resultados experimentais mostram que o GSPO melhora significativamente o desempenho, e nosso método também generaliza para diferentes estilos de imagem. O código está disponível em https://github.com/Mengzibin/SocialGPT.
English
Social relation reasoning aims to identify relation categories such as friends, spouses, and colleagues from images. While current methods adopt the paradigm of training a dedicated network end-to-end using labeled image data, they are limited in terms of generalizability and interpretability. To address these issues, we first present a simple yet well-crafted framework named {\name}, which combines the perception capability of Vision Foundation Models (VFMs) and the reasoning capability of Large Language Models (LLMs) within a modular framework, providing a strong baseline for social relation recognition. Specifically, we instruct VFMs to translate image content into a textual social story, and then utilize LLMs for text-based reasoning. {\name} introduces systematic design principles to adapt VFMs and LLMs separately and bridge their gaps. Without additional model training, it achieves competitive zero-shot results on two databases while offering interpretable answers, as LLMs can generate language-based explanations for the decisions. The manual prompt design process for LLMs at the reasoning phase is tedious and an automated prompt optimization method is desired. As we essentially convert a visual classification task into a generative task of LLMs, automatic prompt optimization encounters a unique long prompt optimization issue. To address this issue, we further propose the Greedy Segment Prompt Optimization (GSPO), which performs a greedy search by utilizing gradient information at the segment level. Experimental results show that GSPO significantly improves performance, and our method also generalizes to different image styles. The code is available at https://github.com/Mengzibin/SocialGPT.

Summary

AI-Generated Summary

PDF193November 16, 2024