ChatPaper.aiChatPaper

SocialGPT: Induciendo a LLMs para el Razonamiento de Relaciones Sociales a través de la Optimización de Segmentos Codiciosa

SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization

October 28, 2024
Autores: Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister
cs.AI

Resumen

El razonamiento sobre relaciones sociales tiene como objetivo identificar categorías de relaciones como amigos, cónyuges y colegas a partir de imágenes. Si bien los métodos actuales adoptan el paradigma de entrenar una red dedicada de extremo a extremo utilizando datos de imágenes etiquetados, están limitados en cuanto a generalización e interpretabilidad. Para abordar estos problemas, primero presentamos un marco simple pero bien elaborado llamado {\name}, que combina la capacidad de percepción de los Modelos de Fundación de Visión (VFMs) y la capacidad de razonamiento de los Modelos de Lenguaje Grandes (LLMs) dentro de un marco modular, proporcionando una base sólida para el reconocimiento de relaciones sociales. Específicamente, instruimos a los VFMs para traducir el contenido de la imagen en una historia social textual, y luego utilizamos los LLMs para el razonamiento basado en texto. {\name} introduce principios de diseño sistemáticos para adaptar los VFMs y LLMs por separado y cerrar sus brechas. Sin entrenamiento adicional del modelo, logra resultados competitivos de cero disparos en dos bases de datos al ofrecer respuestas interpretables, ya que los LLMs pueden generar explicaciones basadas en el lenguaje para las decisiones. El proceso de diseño manual de indicaciones para los LLMs en la fase de razonamiento es tedioso y se desea un método automatizado de optimización de indicaciones. Dado que esencialmente convertimos una tarea de clasificación visual en una tarea generativa de LLMs, la optimización automática de indicaciones se enfrenta a un problema único de optimización de indicaciones largas. Para abordar este problema, proponemos además la Optimización de Indicaciones de Segmento Codicioso (GSPO), que realiza una búsqueda codiciosa utilizando información de gradientes a nivel de segmento. Los resultados experimentales muestran que GSPO mejora significativamente el rendimiento, y nuestro método también se generaliza a diferentes estilos de imágenes. El código está disponible en https://github.com/Mengzibin/SocialGPT.
English
Social relation reasoning aims to identify relation categories such as friends, spouses, and colleagues from images. While current methods adopt the paradigm of training a dedicated network end-to-end using labeled image data, they are limited in terms of generalizability and interpretability. To address these issues, we first present a simple yet well-crafted framework named {\name}, which combines the perception capability of Vision Foundation Models (VFMs) and the reasoning capability of Large Language Models (LLMs) within a modular framework, providing a strong baseline for social relation recognition. Specifically, we instruct VFMs to translate image content into a textual social story, and then utilize LLMs for text-based reasoning. {\name} introduces systematic design principles to adapt VFMs and LLMs separately and bridge their gaps. Without additional model training, it achieves competitive zero-shot results on two databases while offering interpretable answers, as LLMs can generate language-based explanations for the decisions. The manual prompt design process for LLMs at the reasoning phase is tedious and an automated prompt optimization method is desired. As we essentially convert a visual classification task into a generative task of LLMs, automatic prompt optimization encounters a unique long prompt optimization issue. To address this issue, we further propose the Greedy Segment Prompt Optimization (GSPO), which performs a greedy search by utilizing gradient information at the segment level. Experimental results show that GSPO significantly improves performance, and our method also generalizes to different image styles. The code is available at https://github.com/Mengzibin/SocialGPT.

Summary

AI-Generated Summary

PDF193November 16, 2024