번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델의 발전은 연구자들 사이에서 이러한 모델의 내재적 추론 및 문제 해결 능력을 이해하려는 폭넓은 관심을 불러일으켰다. 이러한 능력을 밝히기 위한 상당한 연구가 진행되고 있음에도 불구하고, 이러한 모델의 도덕적 발달과 판단에 대한 이해에는 여전히 상당한 격차가 존재한다. 현재 이러한 모델의 윤리적 추론 능력을 평가하는 접근 방식은 분류 작업으로 간주되며, 지나친 단순화로 인해 수많은 부정확성을 야기한다. 본 연구에서는 인간 심리학과 인공지능이라는 두 개의 상이한 분야를 연결함으로써 심리학적 연관성을 구축하였다. 우리는 심리측정 평가 도구인 'Defining Issues Test'를 활용하여 모델의 도덕적 일관성과 콜버그의 도덕적 발달 단계를 기준으로 윤리적 추론 능력을 평가할 수 있는 효과적인 평가 프레임워크를 제안하였다.
최근 텍스트-투-비디오(T2V) 생성 방법이 상당한 발전을 이루었음에도 불구하고, 대부분의 연구는 단일 배경과 단일 이벤트로 구성된 짧은 비디오 클립(즉, 단일 장면 비디오)을 생성하는 데 초점을 맞추고 있다. 한편, 최근의 대형 언어 모델(LLMs)은 레이아웃과 프로그램을 생성하여 이미지 생성 모델과 같은 하위 시각적 모듈을 제어하는 능력을 입증하였다. 이는 중요한 질문을 제기한다: 이러한 LLMs에 내재된 지식을 활용하여 시간적 일관성을 가진 긴 비디오를 생성할 수 있을까? 본 논문에서는 LLMs의 지식을 활용하여 비디오 콘텐츠 계획과 기반 비디오 생성을 위한 일관된 다중 장면 비디오 생성 프레임워크인 VideoDirectorGPT를 제안한다. 구체적으로, 단일 텍스트 프롬프트가 주어지면, 우리는 비디오 플래너 LLM(GPT-4)을 통해 이를 '비디오 계획'으로 확장한다. 이는 장면 설명, 각각의 레이아웃을 가진 엔티티, 각 장면의 배경, 그리고 엔티티와 배경의 일관성 그룹화를 생성하는 과정을 포함한다. 다음으로, 비디오 플래너의 출력을 기반으로, 우리의 비디오 생성기인 Layout2Vid는 공간적 레이아웃을 명시적으로 제어할 수 있으며, 이미지 수준의 주석만으로 훈련되었음에도 불구하고 장면 간 엔티티/배경의 시간적 일관성을 유지할 수 있다. 우리의 실험은 VideoDirectorGPT 프레임워크가 단일 및 다중 장면 비디오 생성에서 레이아웃과 움직임 제어를 크게 개선하고, 장면 간 시각적 일관성을 가진 다중 장면 비디오를 생성할 수 있음을 보여준다. 또한, 이 프레임워크는 오픈 도메인 단일 장면 T2V 생성에서 최신 기술(SOTA)과 경쟁력 있는 성능을 달성한다. 우리는 또한 이 프레임워크가 레이아웃 안내의 강도를 동적으로 제어할 수 있고, 사용자가 제공한 이미지로 비디오를 생성할 수도 있음을 보여준다. 우리는 이 프레임워크가 LLMs의 계획 능력을 일관된 긴 비디오 생성에 더 잘 통합하는 미래의 연구에 영감을 줄 수 있기를 바란다.
대규모 다중모달 모델(LMM)은 다양한 모달리티를 기반으로 구축되며, 두 모달리티 간의 불일치는 "환각(hallucination)"을 초래할 수 있습니다. 이는 맥락 내 다중모달 정보에 기반하지 않은 텍스트 출력을 생성하는 문제입니다. 이러한 다중모달 불일치 문제를 해결하기 위해, 우리는 텍스트 도메인에서의 인간 피드백 강화 학습(RLHF)을 시각-언어 정렬 작업에 적용합니다. 여기서 인간 평가자는 두 응답을 비교하여 더 많은 환각이 포함된 응답을 지적하고, 시각-언어 모델은 시뮬레이션된 인간 보상을 극대화하도록 훈련됩니다. 우리는 사실 정보(예: 이미지 캡션 및 실제 다중 선택 옵션)를 보상 모델에 추가하여 RLHF의 보상 해킹 현상을 완화하고 성능을 더욱 향상시키는 새로운 정렬 알고리즘인 Factually Augmented RLHF를 제안합니다. 또한, GPT-4로 생성된 훈련 데이터(시각 명령 튜닝용)를 이전에 사용 가능했던 인간이 작성한 이미지-텍스트 쌍으로 보강하여 모델의 일반적인 능력을 향상시킵니다. 제안된 접근법을 실제 시나리오에서 평가하기 위해, 우리는 환각을 특히 강하게 처벌하는 새로운 평가 벤치마크인 MMHAL-BENCH를 개발합니다. RLHF로 훈련된 첫 번째 LMM으로서, 우리의 접근법은 LLaVA-Bench 데이터셋에서 텍스트 전용 GPT-4의 94% 성능 수준(이전 최고 방법은 87% 수준에 머물렀음)을 달성하고, MMHAL-BENCH에서 다른 기준선 대비 60%의 성능 향상을 보입니다. 우리는 코드, 모델, 데이터를 https://llava-rlhf.github.io에서 공개합니다.
기존의 대부분의 다중 모달 모델들은 다중 이미지 및 다중 라운드 대화에서 이미지와 텍스트 입력이 교차되는 상황을 능숙하게 처리하지 못함으로써 제약을 받고 있으며, 이는 훈련을 위한 자원 할당과 데이터 접근성에 상당한 영향을 미쳐 다양한 상호작용 영역에서의 적응성과 확장성을 저해하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델(LLMs)을 최적화하고 다중 모달 기능을 통합하는 데 초점을 맞춘 DeepSpeed-VisualChat 프레임워크를 제안합니다. 이 프레임워크는 특히 교차 입력을 처리하는 대규모 시각 및 언어 모델의 능력을 향상시키는 데 주력합니다. 우리의 프레임워크는 (1) 다중 라운드 및 다중 이미지 대화를 위한 오픈 소스 지원, (2) 혁신적인 다중 모달 인과적 주의 메커니즘 도입, (3) 기존 데이터셋에 대한 데이터 혼합 기술 활용을 통해 다중 라운드 및 다중 이미지 대화에서 원활한 상호작용을 보장한다는 점에서 주목할 만합니다. 기존 프레임워크와 비교하여, DeepSpeed-VisualChat은 70B 파라미터 규모의 언어 모델까지 우수한 확장성을 보여주며, 이는 다중 모달 언어 모델 분야에서의 중요한 진전을 나타내고 향후 탐구를 위한 견고한 기반을 마련합니다.
대규모 Transformer 기반 모델을 훈련한 팀들은 작은 규모에서 동일한 하이퍼파라미터로 훈련할 때는 나타나지 않던 불안정성이 대규모에서 발생한다고 보고했다. 이러한 불안정성의 원인은 과학적 관심사이지만, 이를 재현하는 데 필요한 자원의 양으로 인해 조사가 어려웠다. 본 연구에서는 작은 규모에서 훈련 안정성과 불안정성을 재현하고 연구할 방법을 모색한다. 먼저, 이전 연구에서 설명된 두 가지 훈련 불안정성 원인에 초점을 맞춘다: 어텐션 레이어에서 로짓의 증가(Dehghani et al., 2023)와 출력 로짓이 로그 확률에서 벗어나는 현상(Chowdhery et al., 2022). 학습률과 손실 간의 관계를 다양한 규모에서 측정함으로써, 이러한 불안정성이 높은 학습률로 작은 모델을 훈련할 때도 나타나며, 대규모에서 사용된 완화 기법이 이 영역에서도 동일하게 효과적임을 보인다. 이는 다른 알려진 최적화기 및 모델 개입이 최종 손실의 학습률 변화에 대한 민감도에 어느 정도 영향을 미치는지 조사하도록 이끈다. 이를 위해 워밍업, 가중치 감쇠, muParam(Yang et al., 2022)과 같은 방법을 연구하고, 학습률 변동의 크기에 걸쳐 유사한 손실을 달성하는 작은 모델을 훈련하기 위해 기법들을 결합한다. 마지막으로, 모델 활성화 및 그래디언트 노름의 스케일링 행동을 검토함으로써 불안정성이 발생하기 전에 예측할 수 있는 두 가지 사례를 연구하여 탐구를 마무리한다.
대규모 언어 모델(LLMs)은 피드백을 기반으로 출력을 반복적으로 개선하고 수정함으로써 다양한 작업에서 정확도를 향상시킬 수 있다. 우리는 이러한 수정 과정에서 오류가 발생할 수 있으며, 이 경우 이전 결과로 되돌리는 것이 더 나을 수 있음을 관찰했다. 또한, 수정은 일반적으로 동질적이다: 초기 답변을 생성한 것과 동일한 추론 방법을 사용하므로 오류를 수정하지 못할 수 있다. 이 분야의 탐구를 가능하게 하기 위해, 우리는 수정을 통한 추론을 위한 모듈식 프레임워크인 SCREWS를 제시한다. SCREWS는 샘플링(Sampling), 조건부 재샘플링(Conditional Resampling), 선택(Selection)이라는 세 가지 주요 모듈로 구성되며, 각 모듈은 작업별로 수동 선택 가능한 하위 모듈로 이루어져 있다. 우리는 SCREWS가 여러 기존 접근법을 공통 프레임워크 아래 통합할 뿐만 아니라, 개선된 추론 체인을 식별하기 위한 여러 새로운 전략을 발견할 수 있음을 보여준다. 우리는 이 프레임워크를 최신 LLMs(ChatGPT 및 GPT-4)를 사용하여 다양한 추론 작업(산술 단어 문제, 다중 홉 질의응답, 코드 디버깅)에 대해 평가하고, 각 작업에 유용한 새로운 추론 전략을 발견했다. 이질적인 수정 전략과 원본 및 수정된 후보 간의 선택이 중요함이 입증되었다.
최근 대형 언어 모델(LLM)의 언어 모델링 및 창발적 능력에 대한 발전은 이를 자연어 생성 품질의 참조 없는 평가자로서, 그리고 인간 평가의 유능한 대안으로서 유망하게 만들고 있다. 그러나 폐쇄 소스 또는 호스팅 및 튜닝에 필요한 높은 계산 요구로 인해, 기성 LLM 기반 평가자를 더 나은 인간 정렬을 위해 추가로 보정하는 실천이 부족한 상황이다. 본 연구에서는 인간 선호도에 맞춰 LLM 기반 평가자를 자동으로 보정하고 정렬하기 위한 다단계, 경사 없는 접근 방식인 AutoCalibrate를 제안한다. 인간 선호도를 명시적으로 모델링하는 대신, 우리는 먼저 이를 인간 라벨 집합 내에 암묵적으로 포함시킨다. 그런 다음, 언어 모델 자체가 다양한 소수 샷 예제에 대한 컨텍스트 내 학습을 활용하여 초기 점수 기준 집합을 작성한다. 이 기준 집합을 더욱 보정하기 위해, 최고 성능을 보이는 기준을 선택하고 자기 정제를 통해 재작성한다. 여러 텍스트 품질 평가 데이터셋에 대한 실험을 통해 보정을 통해 전문가 평가와의 상관 관계가 크게 개선됨을 보여준다. 우리의 포괄적인 질적 분석은 효과적인 점수 기준의 본질에 대한 통찰력 있는 직관과 관찰을 전달한다.
긴 동영상을 챕터로 분할하면 사용자가 관심 있는 정보로 빠르게 이동할 수 있습니다. 이 중요한 주제는 공개된 데이터셋의 부족으로 인해 충분히 연구되지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 총 817,000개의 사용자 챕터링된 동영상과 700만 개의 챕터를 포함한 VidChapters-7M 데이터셋을 제안합니다. VidChapters-7M은 온라인 동영상에서 사용자가 주석을 단 챕터를 스크랩하여 확장 가능한 방식으로 자동 생성되며, 추가적인 수동 주석이 필요하지 않습니다. 우리는 이 데이터를 기반으로 다음과 같은 세 가지 작업을 소개합니다. 첫째, 동영상 챕터 생성 작업은 동영상을 시간적으로 분할하고 각 세그먼트에 대한 챕터 제목을 생성하는 것으로 구성됩니다. 이 문제를 더 깊이 분석하기 위해, 우리는 이 작업의 두 가지 변형도 정의합니다: 실제 경계가 주어진 동영상 챕터 생성(주석이 달린 동영상 세그먼트가 주어졌을 때 챕터 제목을 생성하는 작업)과 챕터 그라운딩(주석이 달린 제목이 주어졌을 때 챕터를 시간적으로 찾는 작업). 우리는 이 세 가지 작업에 대해 간단한 베이스라인과 최신 동영상-언어 모델을 벤치마킹합니다. 또한 VidChapters-7M으로 사전 학습을 하면 제로샷 및 파인튜닝 설정에서 밀집 동영상 캡셔닝 작업으로 잘 전이되며, YouCook2 및 ViTT 벤치마크에서 최신 기술을 크게 개선함을 보여줍니다. 마지막으로, 우리의 실험은 다운스트림 성능이 사전 학습 데이터셋의 크기에 따라 잘 확장됨을 보여줍니다. 우리의 데이터셋, 코드 및 모델은 https://antoyang.github.io/vidchapters.html에서 공개적으로 이용 가능합니다.