번역이 포함된 일일 선별된 AI 연구 논문
대형 비디오-언어 모델(LVLMs)의 비디오 이해와 텍스트-투-비디오 모델(T2VMs)의 비디오 생성을 촉진하기 위해 ShareGPT4Video 시리즈를 소개합니다. 이 시리즈는 다음과 같이 구성됩니다: 1) ShareGPT4Video, 다양한 길이와 출처의 비디오에 대해 GPT4V로 주석 처리된 40K개의 밀집 캡션으로, 신중하게 설계된 데이터 필터링 및 주석 전략을 통해 개발되었습니다. 2) ShareCaptioner-Video, 임의의 비디오에 대해 효율적이고 능력 있는 캡션 생성 모델로, 4.8M개의 고품질 미적 비디오가 이 모델로 주석 처리되었습니다. 3) ShareGPT4Video-8B, 세 가지 진보된 비디오 벤치마크에서 SOTA 성능을 달성한 간단하지만 탁월한 LVLM입니다. 이를 달성하기 위해, 확장성이 없는 비용이 많이 드는 인간 주석자를 제외하고, GPT4V를 사용하여 단순한 다중 프레임 또는 프레임 연결 입력 전략으로 비디오에 캡션을 달면 덜 상세하고 때로는 시간적으로 혼란스러운 결과가 나온다는 것을 발견했습니다. 고품질 비디오 캡션 전략 설계의 도전 과제는 세 가지 측면에 있다고 주장합니다: 1) 프레임 간 정확한 시간적 변화 이해. 2) 프레임 내 상세한 내용 설명. 3) 임의 길이 비디오에 대한 프레임 수 확장성. 이를 위해, 임의의 해상도, 종횡비 및 길이의 비디오에 대해 안정적이고 확장 가능하며 효율적인 캡션 생성을 위한 차별화된 비디오 캡션 전략을 세심하게 설계했습니다. 이를 기반으로, 다양한 범주의 40K개의 고품질 비디오를 포함하는 ShareGPT4Video를 구축했으며, 결과 캡션은 풍부한 세계 지식, 객체 속성, 카메라 움직임 및 중요한 이벤트의 상세하고 정확한 시간적 설명을 포함합니다. ShareGPT4Video를 기반으로, 임의의 비디오에 대해 효율적으로 고품질 캡션을 생성할 수 있는 우수한 캡션 생성기인 ShareCaptioner-Video를 추가로 개발했습니다...
디퓨전 기반 이미지 생성 모델은 최근 몇 년 동안 고품질 콘텐츠를 합성할 수 있는 능력을 보여주며 큰 성공을 거두었습니다. 그러나 이러한 모델은 엄청난 수의 파라미터를 포함하고 있어 모델 크기가 매우 커지는 문제가 있습니다. 이를 저장하고 전송하는 것은 다양한 애플리케이션, 특히 리소스가 제한된 장치에서 실행되는 애플리케이션의 주요 병목 현상으로 작용합니다. 본 연구에서는 Stable Diffusion v1.5의 UNet을 1.99비트로 양자화하는 새로운 가중치 양자화 방법을 개발하여, 원본 모델보다 7.9배 더 작은 크기의 모델을 구현하면서도 더 나은 생성 품질을 달성했습니다. 우리의 접근 방식은 각 계층에 최적의 비트를 할당하고, 양자화된 모델의 성능을 향상시키기 위해 초기화하며, 양자화 오류를 극적으로 줄이기 위해 훈련 전략을 개선하는 등 여러 가지 새로운 기술을 포함합니다. 또한, 다양한 벤치마크 데이터셋과 인간 평가를 통해 양자화된 모델의 우수한 생성 품질을 입증했습니다.
최근, 직접 선호도 최적화(Direct Preference Optimization, DPO)는 대규모 언어 모델(LLMs)을 인간의 선호도에 맞추는 데 성공한 것을 넘어, 텍스트-이미지 확산 모델을 인간의 선호도에 맞추는 데까지 그 성과를 확장하고 있습니다. 기존의 대부분의 DPO 방법들은 모든 확산 단계가 최종 생성된 이미지와 일관된 선호도 순서를 가진다고 가정하지만, 우리는 이러한 가정이 각 단계별 디노이징 성능을 간과하며, 선호도 레이블이 각 단계의 기여에 맞게 조정되어야 한다고 주장합니다. 이러한 한계를 해결하기 위해, 우리는 단계별 선호도 최적화(Step-aware Preference Optimization, SPO)라는 새로운 사후 훈련 접근 방식을 제안합니다. SPO는 각 단계의 디노이징 성능을 독립적으로 평가하고 조정하며, 단계별 선호도 모델과 단계별 리샘플러를 사용하여 정확한 단계별 지도를 보장합니다. 구체적으로, 각 디노이징 단계에서 우리는 이미지 풀을 샘플링하고 적절한 승-패 쌍을 찾으며, 가장 중요한 것은 풀에서 단일 이미지를 무작위로 선택하여 다음 디노이징 단계를 초기화하는 것입니다. 이 단계별 리샘플러 프로세스는 다음 승-패 이미지 쌍이 동일한 이미지에서 나오도록 하여, 승-패 비교가 이전 단계와 독립적이게 만듭니다. 각 단계의 선호도를 평가하기 위해, 우리는 노이즈가 있는 이미지와 깨끗한 이미지 모두에 적용 가능한 별도의 단계별 선호도 모델을 훈련합니다. Stable Diffusion v1.5와 SDXL을 사용한 실험에서 SPO는 복잡하고 상세한 프롬프트에 맞춰 생성된 이미지를 정렬하고 미학적 품질을 향상시키는 데 있어 최신 Diffusion-DPO를 크게 능가하며, 훈련 효율성에서도 20배 이상 빠른 성과를 보였습니다. 코드와 모델: https://rockeycoss.github.io/spo.github.io/
우리는 대규모 언어 모델(LLM)의 정확성, 효율성 및 견고성을 향상시키기 위한 새로운 다목적 사고 증강 추론 접근법인 Buffer of Thoughts (BoT)를 소개합니다. 구체적으로, 우리는 다양한 작업에서 문제 해결 과정을 통해 추출된 정보가 풍부한 고차원 사고, 즉 사고 템플릿(thought-template)을 저장하기 위한 메타 버퍼(meta-buffer)를 제안합니다. 이후 각 문제에 대해 관련된 사고 템플릿을 검색하고, 이를 특정 추론 구조로 적응적으로 인스턴스화하여 효율적인 추론을 수행합니다. 확장성과 안정성을 보장하기 위해, 우리는 메타 버퍼의 용량을 더 많은 작업이 해결됨에 따라 강화하기 위해 버퍼 관리자(buffer-manager)를 동적으로 업데이트하는 방안을 추가로 제안합니다. 우리는 10개의 도전적인 추론 집중 작업에 대한 광범위한 실험을 수행하였으며, 이전의 최신 기술(SOTA) 방법 대비 상당한 성능 향상을 달성했습니다: Game of 24에서 11%, Geometric Shapes에서 20%, Checkmate-in-One에서 51%의 성능 향상을 보였습니다. 추가 분석을 통해 우리의 BoT가 우수한 일반화 능력과 모델 견고성을 보여주는 동시에, 다중 쿼리 프롬프팅 방법(예: tree/graph of thoughts) 대비 평균 12%의 비용만을 요구함을 입증했습니다. 특히, Llama3-8B+BoT가 Llama3-70B 모델을 능가할 잠재력이 있음을 발견했습니다. 우리의 프로젝트는 https://github.com/YangLing0818/buffer-of-thought-llm에서 확인할 수 있습니다.
디퓨전 기반 비디오 생성 모델은 반복적인 노이즈 제거 과정을 통해 높은 충실도의 비디오를 얻는 데 있어서 놀라운 성공을 거두었습니다. 그러나 이러한 모델들은 샘플링 과정에서 여러 번의 노이즈 제거 단계를 필요로 하기 때문에 높은 계산 비용이 발생합니다. 본 연구에서는 사전 훈련된 비디오 디퓨전 모델을 적대적 학습을 통해 미세 조정하여 단일 단계 비디오 생성 모델을 얻는 새로운 접근 방식을 제안합니다. 우리는 적대적 학습을 통해 다단계 비디오 디퓨전 모델, 즉 Stable Video Diffusion(SVD)이 단일 순방향 패스로 고품질 비디오를 합성할 수 있도록 훈련될 수 있으며, 이를 통해 비디오 데이터의 시간적 및 공간적 의존성을 모두 포착할 수 있음을 보여줍니다. 광범위한 실험을 통해 우리의 방법이 노이즈 제거 과정에서의 계산 오버헤드를 크게 줄이면서도(즉, SVD와 비교하여 약 23배, 기존 연구와 비교하여 6배의 속도 향상과 더 나은 생성 품질) 경쟁력 있는 비디오 생성 품질을 달성함을 입증하였으며, 이를 통해 실시간 비디오 합성 및 편집의 길을 열었습니다. 더 많은 시각화 결과는 https://snap-research.github.io/SF-V에서 공개되어 있습니다.
디퓨전 모델은 텍스트-투-비디오(T2V) 생성 분야에서 큰 성공을 거두었습니다. 그러나 기존 방법들은 다중 객체나 객체 수의 동적 변화를 포함하는 복잡한(긴) 비디오 생성 시나리오를 다룰 때 어려움에 직면할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 구성적 T2V 생성을 가능하게 하는 새로운 프레임워크인 VideoTetris를 제안합니다. 구체적으로, 우리는 공간적 및 시간적으로 디노이징 네트워크의 어텐션 맵을 조작하고 구성함으로써 복잡한 텍스트 의미를 정확히 따르는 시공간 구성적 디퓨전을 제안합니다. 또한, 우리는 모션 역학과 프롬프트 이해를 향상시키기 위한 강화된 비디오 데이터 전처리와 자동 회귀적 비디오 생성의 일관성을 개선하기 위한 새로운 참조 프레임 어텐션 메커니즘을 제안합니다. 광범위한 실험을 통해 우리의 VideoTetris가 구성적 T2V 생성에서 인상적인 질적 및 양적 결과를 달성함을 입증합니다. 코드는 https://github.com/YangLing0818/VideoTetris에서 확인할 수 있습니다.
다양한 작업을 처리하고 다양한 환경에서 스스로 진화할 수 있는 일반화된 에이전트를 구축하는 것은 AI 커뮤니티의 장기적인 목표입니다. 대규모 언어 모델(LLM)은 이러한 에이전트를 구축하기 위한 유망한 기반으로 간주되며, 이는 LLM의 일반화된 능력 때문입니다. 현재의 접근 방식은 LLM 기반 에이전트가 전문가가 제공한 궤적을 단계별로 모방하도록 하여 인간의 감독이 필요하며, 이는 확장이 어렵고 환경 탐색을 제한합니다. 또는 에이전트가 고립된 환경에서 탐색하고 학습하도록 하여 일반화 능력이 제한된 전문가형 에이전트를 만듭니다. 본 논문에서는 자기 진화 능력을 갖춘 일반화된 LLM 기반 에이전트를 구축하기 위한 첫 걸음을 내딛습니다. 우리는 세 가지 핵심 요소를 식별했습니다: 1) 에이전트 탐색 및 학습을 위한 다양한 환경, 2) 에이전트에 기본 능력과 사전 지식을 제공하기 위한 궤적 집합, 3) 효과적이고 확장 가능한 진화 방법. 우리는 AgentGym이라는 새로운 프레임워크를 제안하며, 이는 광범위하고 실시간이며 통일된 형식의 동시적 에이전트 탐색을 위한 다양한 환경과 작업을 특징으로 합니다. AgentGym은 또한 확장된 지침, 벤치마크 스위트, 그리고 다양한 환경에서의 고품질 궤적을 포함하는 데이터베이스를 포함합니다. 다음으로, 우리는 AgentEvol이라는 새로운 방법을 제안하여 이전에 본 적 없는 데이터를 넘어 작업과 환경에서 에이전트의 자기 진화 잠재력을 탐구합니다. 실험 결과는 진화된 에이전트가 SOTA 모델과 비슷한 결과를 달성할 수 있음을 보여줍니다. 우리는 AgentGym 스위트를 공개하며, 여기에는 플랫폼, 데이터셋, 벤치마크, 체크포인트, 그리고 알고리즘 구현이 포함됩니다. AgentGym 스위트는 https://github.com/WooooDyy/AgentGym에서 이용 가능합니다.
텍스트 기반 이미지 생성은 텍스트 설명으로부터 시각적 콘텐츠를 창조할 수 있게 합니다. 그러나 특정 시각적 개념은 언어만으로는 효과적으로 전달하기 어렵습니다. 이로 인해 IP-Adapter와 같은 방법을 통해 CLIP 이미지 임베딩 공간을 더 시각적 작업에 활용하려는 관심이 다시 부각되고 있습니다. 흥미롭게도, CLIP 이미지 임베딩 공간은 의미론적으로 의미 있는 것으로 나타났으며, 이 공간 내에서의 선형 연산은 의미론적으로 의미 있는 결과를 생성합니다. 그러나 이러한 연산의 구체적인 의미는 이미지에 따라 예측 불가능하게 달라질 수 있습니다. 이러한 잠재력을 활용하기 위해, 우리는 CLIP 이미지 임베딩에 직접 특정 의미론적 연산자를 학습시키는 프레임워크인 pOps를 소개합니다. 각 pOps 연산자는 사전 학습된 Diffusion Prior 모델을 기반으로 구축됩니다. Diffusion Prior 모델은 원래 텍스트 임베딩과 이미지 임베딩 간의 매핑을 위해 학습되었지만, 우리는 새로운 입력 조건을 수용하도록 조정될 수 있으며, 이를 통해 diffusion 연산자를 생성할 수 있음을 보여줍니다. 이미지 임베딩에 직접 작업하는 것은 의미론적 연산을 학습하는 능력을 향상시킬 뿐만 아니라, 필요할 때 텍스트 CLIP 손실을 추가적인 감독으로 직접 사용할 수 있게 합니다. 우리는 pOps가 다양한 의미론적 의미를 가진 사진에서 영감을 받은 연산자를 학습하는 데 사용될 수 있음을 보여주며, 제안된 접근 방식의 의미론적 다양성과 잠재력을 강조합니다.
최근 몇 년 동안 인터넷 규모의 데이터를 기반으로 파운데이션 모델을 학습시킴으로써 AI 시스템의 전반적인 역량이 엄청나게 증가했습니다. 그럼에도 불구하고, 끝없이 스스로 개선되는 개방형 AI의 창조는 여전히 달성하기 어려운 목표로 남아 있습니다. 이 포지션 페이퍼에서 우리는 인간 관찰자의 관점에서 AI 시스템의 개방형 특성을 달성하기 위한 요소들이 이제 마련되었다고 주장합니다. 더 나아가, 우리는 이러한 개방형 특성이 인공 초지능(ASI)의 필수적인 속성이라고 주장합니다. 우리는 먼저 새로움과 학습 가능성이라는 렌즈를 통해 개방형 특성에 대한 구체적인 형식적 정의를 제시합니다. 그런 다음 파운데이션 모델 위에 구축된 개방형 시스템을 통해 인간과 관련된 새로운 발견을 할 수 있는 ASI로 가는 길을 설명합니다. 마지막으로, 일반적인 역량을 가진 개방형 AI의 안전성에 대한 함의를 검토합니다. 우리는 개방형 파운데이션 모델이 가까운 미래에 점점 더 비옥하고 안전성 측면에서 중요한 연구 분야로 자리 잡을 것으로 기대합니다.