ChatPaper.aiChatPaper

SocialGPT: Побуждение LLM для рассуждения о социальных отношениях с помощью жадной оптимизации сегментов

SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization

October 28, 2024
Авторы: Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister
cs.AI

Аннотация

Задача рассуждения о социальных отношениях заключается в определении категорий отношений, таких как друзья, супруги и коллеги, по изображениям. В настоящее время существующие методы принимают парадигму обучения специализированной сети от начала до конца с использованием размеченных изображений, однако они ограничены в обобщаемости и интерпретируемости. Для решения этих проблем мы в первую очередь представляем простую, но тщательно разработанную структуру под названием {\name}, которая объединяет способность восприятия моделей основы зрения (Vision Foundation Models, VFMs) и способность рассуждения крупных языковых моделей (Large Language Models, LLMs) в модульной структуре, обеспечивая прочную базовую линию для распознавания социальных отношений. Конкретно, мы научаем VFMs переводить содержимое изображения в текстовую социальную историю, а затем используем LLMs для рассуждений на основе текста. {\name} вводит систематические принципы проектирования для адаптации VFMs и LLMs отдельно и для преодоления их разрывов. Без дополнительного обучения модели она достигает конкурентоспособных результатов с нулевой точки на двух базах данных, предлагая интерпретируемые ответы, так как LLMs могут генерировать языковые объяснения для принятых решений. Процесс ручного проектирования подсказок для LLMs на этапе рассуждений утомителен, и требуется метод автоматизированной оптимизации подсказок. Поскольку мы по сути преобразуем задачу визуальной классификации в задачу генерации LLMs, автоматическая оптимизация подсказок сталкивается с уникальной проблемой оптимизации длинных подсказок. Для решения этой проблемы мы далее предлагаем жадную оптимизацию сегментов подсказок (Greedy Segment Prompt Optimization, GSPO), которая выполняет жадный поиск, используя информацию о градиенте на уровне сегмента. Экспериментальные результаты показывают, что GSPO значительно улучшает производительность, и наш метод также обобщается на различные стили изображений. Код доступен по адресу https://github.com/Mengzibin/SocialGPT.
English
Social relation reasoning aims to identify relation categories such as friends, spouses, and colleagues from images. While current methods adopt the paradigm of training a dedicated network end-to-end using labeled image data, they are limited in terms of generalizability and interpretability. To address these issues, we first present a simple yet well-crafted framework named {\name}, which combines the perception capability of Vision Foundation Models (VFMs) and the reasoning capability of Large Language Models (LLMs) within a modular framework, providing a strong baseline for social relation recognition. Specifically, we instruct VFMs to translate image content into a textual social story, and then utilize LLMs for text-based reasoning. {\name} introduces systematic design principles to adapt VFMs and LLMs separately and bridge their gaps. Without additional model training, it achieves competitive zero-shot results on two databases while offering interpretable answers, as LLMs can generate language-based explanations for the decisions. The manual prompt design process for LLMs at the reasoning phase is tedious and an automated prompt optimization method is desired. As we essentially convert a visual classification task into a generative task of LLMs, automatic prompt optimization encounters a unique long prompt optimization issue. To address this issue, we further propose the Greedy Segment Prompt Optimization (GSPO), which performs a greedy search by utilizing gradient information at the segment level. Experimental results show that GSPO significantly improves performance, and our method also generalizes to different image styles. The code is available at https://github.com/Mengzibin/SocialGPT.

Summary

AI-Generated Summary

PDF193November 16, 2024