ChatPaper.aiChatPaper

InternChat: 비전 중심 작업을 챗봇 상호작용으로 해결하기 언어를 넘어서

InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

May 9, 2023
저자: Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu Qiao
cs.AI

초록

본 논문에서는 인터랙티브 비주얼 프레임워크인 InternChat(줄여서 iChat)을 소개한다. 이 프레임워크는 ChatGPT와 같은 계획 및 추론 능력을 갖춘 챗봇을 화면 상의 이미지나 비디오를 직접 조작할 수 있도록 하는 포인팅 동작(제스처, 커서 등)과 같은 비언어적 명령과 통합한다. 포인팅 동작은 시각 중심 작업에서 세밀한 제어, 편집 및 시각 콘텐츠 생성이 필요한 경우 더 높은 유연성과 정밀도를 제공할 수 있다. InternChat이라는 이름은 상호작용(Interaction), 비언어적(Nonverbal), 챗봇(Chatbots)을 의미한다. 기존의 순수 언어에 의존하는 인터랙티브 시스템과 달리, 포인팅 명령을 통합함으로써 제안된 iChat은 사용자와 챗봇 간의 커뮤니케이션 효율성과 시각 중심 작업에서의 챗봇 정확도를 크게 향상시킨다. 특히 객체의 수가 2개 이상인 복잡한 시나리오에서 더욱 두드러진 성능을 보인다. 또한, iChat에서는 LLM(Large Language Model)의 제어 능력을 향상시키기 위해 보조 제어 메커니즘을 사용하며, Husky라는 대규모 시각-언어 모델을 고품질의 다중 모달 대화를 위해 미세 조정하였다(이 모델은 ChatGPT-3.5-turbo를 93.89% GPT-4 품질로 감동시킴). 이 연구가 향후 인터랙티브 비주얼 시스템에 대한 새로운 아이디어와 방향을 제시할 수 있기를 바란다. 코드는 https://github.com/OpenGVLab/InternChat에서 확인할 수 있다.
English
We present an interactive visual framework named InternChat, or iChat for short. The framework integrates chatbots that have planning and reasoning capabilities, such as ChatGPT, with non-verbal instructions like pointing movements that enable users to directly manipulate images or videos on the screen. Pointing (including gestures, cursors, etc.) movements can provide more flexibility and precision in performing vision-centric tasks that require fine-grained control, editing, and generation of visual content. The name InternChat stands for interaction, nonverbal, and chatbots. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, the proposed iChat significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios where the number of objects is greater than 2. Additionally, in iChat, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed Husky is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89% GPT-4 Quality). We hope this work can spark new ideas and directions for future interactive visual systems. Welcome to watch the code at https://github.com/OpenGVLab/InternChat.
PDF40December 15, 2024