번역이 포함된 일일 선별된 AI 연구 논문
최근 연구에 따르면, 고품질의 명령어 데이터셋으로 미세 조정(fine-tuning)을 수행한 후, 결과 모델은 다양한 작업을 처리할 수 있는 인상적인 능력을 얻을 수 있음이 입증되었습니다. 그러나 기존의 명령어 데이터 생성 방법은 종종 중복 데이터를 생성하며 데이터 품질에 대한 충분한 제어가 이루어지지 않습니다. 본 논문에서는 명령어 데이터를 4가지 코드 관련 작업으로 분류하여 명령어 튜닝의 일반화를 확장하고, 오픈 소스 코드로부터 다양하고 고품질의 명령어 데이터를 생성하기 위해 LLM 기반의 생성자-판별자(Generator-Discriminator) 데이터 처리 프레임워크를 제안합니다. 이를 통해, 명령어 튜닝의 효과를 증대하고 미세 조정된 모델의 일반화 능력을 향상시키기 위해 4가지 보편적인 코드 관련 작업에 걸쳐 20,000개의 명령어 인스턴스로 구성된 CodeOcean 데이터셋을 소개합니다. 또한, Widespread And Versatile Enhanced instruction tuning을 적용한 미세 조정된 Code LLM인 WaveCoder를 제시합니다. 이 모델은 코드 언어 모델(LLM)의 명령어 튜닝을 강화하기 위해 특별히 설계되었습니다. 우리의 실험 결과, WaveCoder 모델은 동일한 수준의 미세 조정 규모에서 다른 오픈 소스 모델들보다 다양한 코드 관련 작업에서 더 우수한 일반화 능력을 보여주었습니다. 또한, WaveCoder는 이전의 코드 생성 작업에서 높은 효율성을 나타냈습니다. 따라서 본 논문은 명령어 데이터 생성 및 미세 조정 모델 분야에 중요한 기여를 하며, 코드 관련 작업의 성능을 향상시키기 위한 새로운 통찰과 도구를 제공합니다.
대규모 언어 모델(LLM)의 기하급수적인 성장은 다중 모드 AGI 시스템에 대한 수많은 가능성을 열어주었습니다. 그러나 다중 모드 AGI의 중요한 요소인 비전 및 비전-언어 기반 모델의 발전은 LLM의 속도를 따라가지 못하고 있습니다. 본 연구에서는 비전 기반 모델을 60억 개의 파라미터로 확장하고, 다양한 출처의 웹 규모 이미지-텍스트 데이터를 사용하여 이를 대규모 언어 모델과 점진적으로 정렬하는 대규모 비전-언어 기반 모델(InternVL)을 설계했습니다. 이 모델은 이미지 수준 또는 픽셀 수준 인식과 같은 시각 인식 작업, 제로샷 이미지/비디오 분류, 제로샷 이미지/비디오-텍스트 검색과 같은 비전-언어 작업, 그리고 LLM과 연결하여 다중 모드 대화 시스템을 생성하는 등 다양한 작업에 광범위하게 적용될 수 있으며 최첨단 성능을 달성할 수 있습니다. 우리의 연구가 다중 모드 대규모 모델의 발전에 기여할 수 있기를 바랍니다. 코드와 모델은 https://github.com/OpenGVLab/InternVL에서 확인할 수 있습니다.
인간으로서 우리는 끊임없이 동료들과 상호작용하며 자연어 형태의 피드백을 받습니다. 이러한 언어적 피드백은 우리가 자신의 행동을 반성하고, 적절한 행동을 유지하며, 실수를 바로잡을 수 있게 해줍니다. 여기서 자연스럽게 제기되는 질문은, 이러한 언어적 피드백을 활용하여 대규모 언어 모델(LLM)을 조정할 수 있을까 하는 것입니다. 기존 연구들이 보상이나 선호도 데이터를 통해 LLM을 조정한 것과 달리, 본 연구는 언어적 피드백(즉, 판단)을 통해 LLM을 조정하는 첫 번째 체계적인 탐구를 제시합니다. 우리는 먼저 판단을 통해 LLM을 조정하기 위해 적응 가능한 잠재적 방법들에 대한 심층적인 조사를 시작했으며, 이러한 방법들이 판단을 완전히 활용하지 못한다는 점을 발견했습니다. 판단을 보다 효과적으로 활용하기 위해, 우리는 판단을 기반으로 세밀한 부적절한 내용 탐지 및 수정을 가능하게 하는 새로운 프레임워크인 Contrastive Unlikelihood Training(CUT)을 제안합니다. 오프라인 조정 결과에 따르면, 단 1317개의 기성 판단 데이터만으로도 CUT(LLaMA2-13b)은 175B DaVinci003을 능가하고 AlpacaEval에서 최고의 기준선을 52.34점 차이로 앞섰습니다. 온라인 조정 결과는 CUT이 모델 특화 판단 데이터를 사용하여 반복적인 방식으로 LLM(LLaMA2-chat-13b)을 조정할 수 있으며, AlpacaEval에서 81.09점에서 91.36점으로 꾸준한 성능 향상을 보여준다는 것을 입증했습니다. 우리의 분석은 더 나아가, 판단이 LLM 조정에 있어 보상보다 더 큰 잠재력을 보이며, 향후 연구가 필요하다는 점을 시사합니다.
인간은 시각적 지각(Visual Perception)이라는 놀라운 능력을 가지고 있습니다. 이는 보이는 것을 보고 이해하며, 이를 통해 시각적 세계를 이해하고 추론하는 능력입니다. 최근 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLM)은 시각 질의응답, 이미지 캡셔닝, 시각적 추론, 이미지 생성 등 다양한 시각-언어 작업에서 인상적인 성능을 달성했습니다. 그러나 주어진 이미지에서 개체를 식별하거나 세는(지각하는) 작업을 요청받으면, 기존의 MLLM 시스템은 실패합니다. 정확한 지각과 추론을 위한 MLLM 시스템 개발을 목표로, 우리는 멀티모달 LLM을 위한 지각의 눈으로서 다용도 시각 인코더(Versatile vision enCoders, VCoder)를 사용할 것을 제안합니다. 우리는 VCoder에 세그멘테이션 또는 깊이 맵과 같은 지각 모달리티를 입력하여 MLLM의 지각 능력을 향상시킵니다. 둘째, 우리는 COCO의 이미지와 기존의 시각 지각 모델의 출력을 활용하여, 객체 지각 작업에서 MLLM을 훈련하고 평가하기 위한 COCO 세그멘테이션 텍스트(COCO Segmentation Text, COST) 데이터셋을 생성합니다. 셋째, 우리는 COST 데이터셋에서 MLLM의 객체 지각 능력을 평가하기 위한 메트릭을 소개합니다. 마지막으로, 우리는 VCoder가 GPT-4V를 포함한 기존의 멀티모달 LLM보다 향상된 객체 수준의 지각 능력을 입증하는 광범위한 실험 결과를 제공합니다. 우리는 연구를 촉진하기 위해 데이터셋, 코드, 모델을 오픈소스로 공개합니다. 코드는 https://github.com/SHI-Labs/VCoder에서 확인할 수 있습니다.
인공지능(AI) 에이전트를 생성하는 핵심 방법 중 하나는 강화학습(Reinforcement Learning, RL)입니다. 그러나 지각을 행동에 직접 매핑하는 독립적인 RL 정책을 구축하는 것은 여러 과제에 걸친 일반성 부족과 대량의 훈련 데이터 필요성 등 심각한 문제에 직면합니다. 주요 원인은 정책을 설계할 때 지각-행동 주기에 사전 정보를 효과적으로 통합할 수 없다는 점입니다. 대규모 언어 모델(Large Language Models, LLMs)은 AI 에이전트에 도메인 간 지식을 통합하는 근본적인 방법으로 등장했지만, 특정 의사결정 문제에 대한 학습과 적응 능력이 부족합니다. 본 논문은 AI 에이전트의 정책에 구조화된 추론을 통합하고 학습하기 위한 일반적인 프레임워크 모델을 제시합니다. 우리의 방법론은 인간 뇌에서 발견되는 모듈성에서 영감을 받았습니다. 이 프레임워크는 내재적 및 외재적 함수 구성을 활용하여 추론 구조에 대한 기존 이해를 추가합니다. 또한 인지 과정의 모듈 구조와 일치하도록 각 모듈 또는 함수 내부에서 모델을 학습할 수 있는 적응 능력을 제공합니다. 우리는 이 프레임워크를 심층적으로 설명하고 다른 AI 파이프라인 및 기존 프레임워크와 비교합니다. 본 논문은 우리의 방법의 효과를 보여주는 실험을 포함한 실제 응용 사례를 탐구합니다. 연구 결과는 조직화된 추론과 사전 지식이 내장된 경우 AI 에이전트의 성능과 적응력이 훨씬 더 우수함을 나타냅니다. 이는 더 견고하고 일반적인 AI 에이전트 시스템으로의 길을 열어줍니다.
자연어 처리 분야의 최신 발전으로서, 대형 언어 모델(LLM)은 많은 실제 작업에서 인간 수준의 언어 이해 및 생성 능력을 달성했으며, 심지어 인공 일반 지능(AGI)으로 가는 잠재적 경로로 간주되기도 합니다. LLM 연구를 더욱 촉진하기 위해, Llama 2와 Falcon과 같은 많은 오픈소스 LLM이 최근 제안되었으며, 이들은 독점 모델과 비슷한 성능을 보여주고 있습니다. 그러나 이러한 모델들은 주로 영어 시나리오를 위해 설계되었으며, 중국어 환경에서는 낮은 성능을 보입니다. 본 기술 보고서에서는 300억 개의 파라미터를 가진 YAYI 2를 제안합니다. YAYI 2는 사전 학습 데이터 처리 파이프라인을 통해 필터링된 2.65조 개의 토큰으로 구성된 다국어 코퍼스에서 처음부터 사전 학습되었습니다. 기본 모델은 수백만 개의 지시사항을 통한 지도 미세 조정과 인간 피드백을 통한 강화 학습을 통해 인간의 가치와 정렬되었습니다. MMLU 및 CMMLU와 같은 다양한 벤치마크에서 수행된 광범위한 실험은 제안된 YAYI 2가 유사한 규모의 다른 오픈소스 모델들을 능가한다는 것을 일관되게 입증합니다.
언어 모델 공격은 일반적으로 두 가지 극단적인 위협 모델 중 하나를 가정합니다: 모델 가중치에 대한 완전한 화이트박스 접근 또는 텍스트 생성 API로 제한된 블랙박스 접근. 그러나 실제 세계의 API는 종종 단순한 텍스트 생성 이상으로 더 유연합니다: 이러한 API는 새로운 위협 벡터로 이어지는 "그레이박스" 접근을 노출시킵니다. 이를 탐구하기 위해, 우리는 GPT-4 API에서 노출된 세 가지 새로운 기능(파인튜닝, 함수 호출, 지식 검색)을 레드팀했습니다. 우리는 15개의 유해한 예제 또는 100개의 무해한 예제만으로 모델을 파인튜닝하는 것이 GPT-4의 핵심 안전장치를 제거하여 다양한 유해한 출력을 가능하게 한다는 것을 발견했습니다. 더 나아가, GPT-4 어시스턴트가 함수 호출 스키마를 쉽게 누출시키고 임의의 함수 호출을 실행하도록 만들 수 있다는 것을 발견했습니다. 마지막으로, 지식 검색이 검색 문서에 명령을 주입함으로써 탈취될 수 있다는 것을 발견했습니다. 이러한 취약점은 API에 노출된 기능에 추가되는 모든 것이 새로운 취약점을 생성할 수 있음을 강조합니다.
단일 뷰에서의 3D 재구성은 단안 시각 단서로 인한 모호성과 가려진 영역에 대한 정보 부족으로 인해 어려운 과제입니다. 뷰 합성과 3D 재구성을 위해 널리 사용되는 신경 방사 필드(NeRF)는 일반적으로 다중 뷰 이미지에 의존합니다. NeRF를 사용한 단일 뷰 3D 재구성을 위한 기존 방법들은 가려진 영역의 뷰를 상상하기 위해 데이터 사전 정보에 의존하거나, RGB 카메라로 관찰된 그림자를 활용하는데, 이는 주변 조명과 낮은 알베도 배경에서는 감지하기 어렵습니다. 우리는 이러한 한계를 극복하기 위해 단일 광자 계수 다이오드(SPAD)로 캡처된 시간 비행(ToF) 데이터를 사용할 것을 제안합니다. 우리의 방법은 NeRF를 사용하여 두 번 반사된 광학 경로를 모델링하고, 라이다의 과도 데이터를 지도 신호로 활용합니다. NeRF와 라이다로 측정된 두 번 반사된 빛의 장점을 결합함으로써, 데이터 사전 정보나 통제된 주변 조명, 장면 알베도에 의존하지 않고도 가시 및 가려진 기하학을 재구성할 수 있음을 보여줍니다. 또한, 센서의 공간 및 시간 해상도에 대한 실제적 제약 하에서도 개선된 일반화 성능을 입증합니다. 우리는 단일 광자 라이다가 휴대폰, 태블릿, 헤드셋과 같은 소비자 기기에 보편화됨에 따라 우리의 방법이 유망한 방향이라고 믿습니다.
CLIP은 수많은 시각-언어 애플리케이션의 기반 모델임에도 불구하고, 심각한 텍스트 인식 편향을 보입니다. 이러한 편향은 CLIP 모델이 이미지 내에 포함된 시각적 텍스트를 '앵무새처럼 따라하는(Parrot)' 반면, 진정한 시각적 의미를 무시하도록 만듭니다. 우리는 가장 널리 사용되는 이미지-텍스트 데이터셋인 LAION-2B에서 캡션들도 이미지에 포함된 텍스트를 빽빽이 따라하는(spell) 현상을 발견했습니다. 우리의 분석에 따르면, 약 50%의 이미지가 시각적 텍스트 콘텐츠를 포함하고 있으며, 이들 캡션의 90%가 다소간 시각적 텍스트를 따라하는 것으로 나타났습니다. 이러한 관찰을 바탕으로, 우리는 다양한 버전의 CLIP 모델을 철저히 검토하고, 이러한 모델들이 LAION 스타일의 이미지-텍스트 유사성을 측정할 때 시각적 텍스트가 지배적인 요소임을 확인했습니다. 이러한 앵무새 캡션들이 텍스트 인식 편향을 형성하는지 여부를 검토하기 위해, 우리는 다양한 앵무새 캡션 중심 기준으로 선별된 LAION 하위 집합을 사용하여 일련의 CLIP 모델을 학습시켰습니다. 우리는 앵무새 캡션으로 학습하면 이러한 편향이 쉽게 형성되지만, CLIP 모델에서 기대되는 시각-언어 표현 학습에 해를 끼친다는 것을 보여줍니다. 이는 CLIP과 유사한 모델의 설계나 CLIP 점수 필터링에 기반한 기존의 이미지-텍스트 데이터셋 구축 파이프라인을 재검토하는 것이 시급함을 시사합니다.
텍스트-이미지(T2I) 확산 모델의 대중화로 인해 텍스트 설명에서 고품질 이미지를 생성할 수 있게 되었습니다. 그러나 참조 시각적 속성을 포함한 다양한 맞춤형 이미지를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구는 보다 추상적인 개념 또는 범주 수준에서 T2I 확산 모델을 개인화하는 데 초점을 맞추며, 참조 이미지 집합에서 공통점을 적응시키면서도 충분한 변형을 가진 새로운 인스턴스를 생성합니다. 우리는 사전 훈련된 T2I 확산 모델이 소프트 프롬프트 집합을 학습할 수 있도록 하는 솔루션을 제안하며, 학습된 분포에서 프롬프트를 샘플링하여 새로운 이미지를 생성할 수 있게 합니다. 이러한 프롬프트는 텍스트 기반 편집 기능을 제공하며, 여러 분포 간의 변형과 혼합을 제어하는 데 추가적인 유연성을 제공합니다. 또한, 학습된 프롬프트 분포가 텍스트-3D와 같은 다른 작업에 적용 가능함을 보여줍니다. 마지막으로, 자동 평가와 인간 평가를 포함한 정량적 분석을 통해 우리의 접근 방식의 효과성을 입증합니다. 프로젝트 웹사이트: https://briannlongzhao.github.io/DreamDistribution
우리는 단일 이미지 기반 제로샷 3D 형태 복원 문제를 연구한다. 최근 연구들은 3D 자산의 생성 모델링을 통해 제로샷 형태 복원을 학습하지만, 이러한 모델들은 학습 및 추론 시 계산 비용이 높다. 반면, 이 문제에 대한 전통적인 접근 방식은 회귀 기반으로, 결정론적 모델을 훈련시켜 객체 형태를 직접 회귀한다. 이러한 회귀 방법은 생성 방법보다 훨씬 높은 계산 효율성을 갖는다. 이는 자연스럽게 다음과 같은 질문을 제기한다: 고성능을 위해 생성 모델링이 필요한가, 아니면 회귀 기반 접근 방식이 여전히 경쟁력이 있는가? 이를 답하기 위해, 우리는 이 분야의 수렴된 연구 결과와 새로운 통찰을 바탕으로 ZeroShape라는 강력한 회귀 기반 모델을 설계한다. 또한, 세 가지 다른 실제 3D 데이터셋의 객체로 구성된 대규모 실제 평가 벤치마크를 구축한다. 이 평가 벤치마크는 기존 연구들이 모델을 정량적으로 평가하는 데 사용한 것보다 더 다양하고 규모가 크며, 우리 분야의 평가 변동성을 줄이는 것을 목표로 한다. 우리는 ZeroShape가 최신 방법들을 능가하는 성능을 달성할 뿐만 아니라, 훨씬 높은 계산 및 데이터 효율성을 보여줌을 입증한다.
약어 확장은 입력량을 줄이고 언어 모델을 사용해 확장 제안을 함으로써 의사소통 속도를 높이는 전략입니다. 본 연구에서는 특히 사용자 데이터가 적은 경우(~1000개 샘플) 이전 대화를 기반으로 대형 언어 모델(LLM)의 제안을 개인화하여 예측의 관련성을 높이는 방법을 살펴봅니다. 구체적으로, 약어 입력에 대한 확장 텍스트 제안을 위해 미세 조정(fine-tuning), 프롬프트 조정(prompt-tuning), 그리고 검색 강화 생성(retrieval augmented generation)을 비교합니다. ALS 환자 실 사용자를 대상으로 배포된 80억 파라미터 LLM 사례 연구와 영화 캐릭터 개인화 실험 결과는 다음과 같습니다: (1) 일부 시나리오에서는 개인화가 필요할 수 있으며, 프롬프트 조정이 이러한 경우에 잘 일반화됨, (2) 도메인 내 데이터(600개 샘플만으로도)에 대한 미세 조정은 여전히 일부 개선을 보이지만, (3) 검색 강화 소수 샷 선택(few-shot selection)이 미세 조정을 능가함, (4) 파라미터 효율적 조정은 효율적이고 확장 가능한 개인화를 가능하게 함. 또한 프롬프트 조정의 경우, 학습된 "소프트 프롬프트"를 사용자 관련 개념 토큰으로 초기화하면 무작위 초기화보다 정확도가 높아짐을 발견했습니다.
대규모 생성형 AI 모델의 발전이 텍스트(1D) 생성에서 이미지(2D) 및 비디오(3D) 생성으로 확장됨에 따라, 공간적 및 시간적 정보를 처리하는 것은 품질, 성능 및 효율성 측면에서 독특한 도전 과제를 제시합니다. 본 연구는 다중 모달 텍스트-이미지(TTI) 및 텍스트-비디오(TTV) 생성 모델을 위한 새로운 시스템 설계 공간을 이해하기 위한 첫 번째 작업을 소개합니다. 현재 모델 아키텍처 설계는 크게 Diffusion 기반과 Transformer 기반 모델로 나뉩니다. 8개의 대표적인 TTI/TTV 모델에 대한 체계적인 성능 특성 분석 결과, Flash Attention과 같은 최신 최적화 기술을 적용한 후, Diffusion 기반 TTI 모델의 경우 Convolution이 실행 시간의 최대 44%를 차지하는 반면, Transformer 기반 모델에서는 Linear 레이어가 실행 시간의 최대 49%를 소비하는 것으로 나타났습니다. 또한, Diffusion 기반 TTI 모델은 LLM 추론의 Prefill 단계와 유사하며, Flash Attention으로부터 Transformer 기반 TTI 모델(Decode 단계와 유사)보다 1.1-2.5배 더 큰 속도 향상을 얻는 것으로 관찰되었습니다. LLM을 위해 설계된 최적화 기법이 TTI/TTV 모델에 직접 적용되지 않기 때문에, 이러한 워크로드를 철저히 분석하여 새로운 최적화 기회에 대한 통찰을 얻어야 합니다. 이를 위해, TTI/TTV 모델의 맥락에서 시퀀스 길이를 정의하고, Diffusion 모델 추론에서 시퀀스 길이가 최대 4배까지 변할 수 있음을 관찰했습니다. 또한, TTV 워크로드의 시간적 측면이 독특한 시스템 병목 현상을 유발하며, Temporal Attention이 전체 Attention 시간의 60% 이상을 차지하는 것으로 나타났습니다. 전반적으로, 본 연구의 심층적인 시스템 성능 특성 분석은 신흥 TTI/TTV 워크로드를 위한 효율적이고 배포 가능한 시스템 설계를 위한 중요한 첫걸음입니다.
물체의 질량과 같은 물리적 특성은 우리가 손으로 물체를 조작하는 방식에 상당한 영향을 미칩니다. 놀랍게도, 이러한 측면은 지금까지 3D 모션 합성에 관한 기존 연구에서 간과되어 왔습니다. 본 연구는 합성된 3D 손과 물체의 모션의 자연스러움을 개선하기 위해, 질량 조건화 3D 손 및 물체 모션 합성 접근법인 MACS를 최초로 제안합니다. 우리의 접근법은 캐스케이드 확산 모델을 기반으로 하며, 물체의 질량과 상호작용 유형에 따라 그럴듯하게 조정되는 상호작용을 생성합니다. MACS는 또한 수동으로 그린 3D 물체 궤적을 입력으로 받아 물체의 질량에 조건화된 자연스러운 3D 손 모션을 합성합니다. 이러한 유연성 덕분에 MACS는 ML 작업을 위한 합성 훈련 데이터 생성, 그래픽 워크플로우를 위한 빠른 손 애니메이션, 컴퓨터 게임을 위한 캐릭터 상호작용 생성 등 다양한 다운스트림 애플리케이션에 사용될 수 있습니다. 실험을 통해 우리는 소규모 데이터셋만으로도 MACS가 훈련 중에 보지 못한 보간 및 외삽된 물체 질량에 대해 합리적으로 일반화할 수 있음을 보여줍니다. 또한, MACS는 우리의 표면 접촉 합성 모델 ConNet이 생성한 질량 조건화 접촉 레이블 덕분에 보지 못한 물체에 대해 중간 정도의 일반화 능력을 보입니다. 우리의 포괄적인 사용자 연구는 합성된 3D 손-물체 상호작용이 매우 그럴듯하고 현실적임을 확인시켜 줍니다.
본 논문은 오픈소스 기반 모델을 토대로 자산 관리 산업을 위해 특별히 설계된 100억 수준의 대규모 언어 모델 "Shai"를 소개한다. 타겟팅된 코퍼스를 활용한 지속적인 사전 학습과 미세 조정을 통해, Shai는 해당 도메인과 관련된 작업에서 향상된 성능을 보이며, 기준 모델들을 능가한다. 우리의 연구는 전문 자격 시험, 맞춤형 작업, 개방형 질문 응답, 그리고 안전성 평가를 통합한 혁신적인 평가 프레임워크 개발을 포함하여, Shai의 능력을 종합적으로 평가한다. 또한, GPT-4와 같은 대규모 언어 모델을 자산 관리 성능 평가에 활용할 때의 도전과 함의를 논의하며, 자동화된 평가와 인간의 판단을 결합할 것을 제안한다. Shai의 개발은 금융 분야에서 100억 수준 대규모 언어 모델의 잠재력과 다양성을 보여주며, 뛰어난 성능과 적당한 계산 요구 사항을 통해, 산업 동료들이 유사한 노력에 도움을 줄 수 있는 실용적인 통찰과 방법론을 제공하고자 한다.
최근 연구자들은 대형 언어 모델(LLM)의 비디오 처리 능력을 조사하기 위해 여러 비디오 LLM 모델을 제안했습니다. 그러나 LLM의 비디오 그라운딩(VG) 처리 능력은 여전히 문헌에서 명확히 밝혀지지 않았으며 탐구되지 않은 상태입니다. 비디오 그라운딩은 주어진 텍스트 쿼리와 일치하는 비디오 내의 시간적 순간의 시작 및 종료 타임스탬프를 정확히 찾아내야 하는 중요한 시간 관련 비디오 작업입니다. 이러한 공백을 메우기 위해, 본 논문에서는 비디오 그라운딩 작업에서 다양한 LLM의 성능을 체계적으로 평가하는 LLM4VG 벤치마크를 제안합니다. 우리가 제안한 LLM4VG를 기반으로, 두 그룹의 비디오 LLM 모델을 비디오 그라운딩에서 검토하기 위한 광범위한 실험을 설계했습니다: (i) 텍스트-비디오 쌍으로 학습된 비디오 LLM(VidLLM), 그리고 (ii) 사전 학습된 시각적 설명 모델(예: 비디오/이미지 캡셔닝 모델)과 결합된 LLM. 우리는 VG 지시와 다양한 종류의 생성기로부터의 설명을 통합하기 위한 프롬프트 방법을 제안합니다. 여기에는 직접적인 시각적 설명을 위한 캡션 기반 생성기와 정보 강화를 위한 VQA 기반 생성기가 포함됩니다. 또한 다양한 VidLLM의 종합적인 비교를 제공하고, 시각 모델, LLM, 프롬프트 설계 등의 다양한 선택의 영향을 탐구합니다. 우리의 실험적 평가는 두 가지 결론을 도출합니다: (i) 기존의 VidLLM은 만족스러운 비디오 그라운딩 성능을 달성하기에는 아직 멀었으며, 이러한 모델을 더욱 세밀하게 조정하기 위해 더 많은 시간 관련 비디오 작업이 포함되어야 한다는 것, 그리고 (ii) LLM과 시각 모델의 결합은 비디오 그라운딩에 대한 초기 능력을 보여주며, 더 신뢰할 수 있는 모델과 프롬프트 지시의 추가적인 지도를 통해 개선의 상당한 잠재력을 가지고 있다는 것입니다.