번역이 포함된 일일 선별된 AI 연구 논문
우리는 OpenAI의 ChatGPT나 Google의 PaLM-2와 같은 블랙박스 생산 언어 모델로부터 정확하고 중요한 정보를 추출하는 최초의 모델 도용 공격을 소개합니다. 구체적으로, 우리의 공격은 일반적인 API 접근을 통해 트랜스포머 모델의 임베딩 투영 레이어(대칭성까지)를 복구합니다. 20달러 미만의 비용으로, 우리는 OpenAI의 Ada와 Babbage 언어 모델의 전체 투영 행렬을 추출합니다. 이를 통해 우리는 처음으로 이러한 블랙박스 모델이 각각 1024와 2048의 은닉 차원을 가지고 있음을 확인했습니다. 또한, 우리는 gpt-3.5-turbo 모델의 정확한 은닉 차원 크기를 복구했으며, 전체 투영 행렬을 복구하는 데 2,000달러 미만의 쿼리 비용이 소요될 것으로 추정했습니다. 마지막으로, 잠재적인 방어 및 완화 방안을 제시하고, 우리의 공격을 확장할 수 있는 미래 연구의 함의에 대해 논의합니다.
대규모 언어 모델의 최근 발전은 그들이 활용하는 방대한 수의 파라미터로 인해 뛰어난 능력을 발휘하며 세상에 엄청난 가치를 가져다주었습니다. 그러나 현재 최대 80GB의 메모리 용량을 가진 가장 고성능의 GPU조차도 확률적 경사 하강법 기반 최적화를 수행할 때 이러한 방대한 파라미터와 관련된 최적화 상태를 수용하기에는 턱없이 부족합니다. 이러한 거대 모델을 호스팅하기 위한 한 가지 접근 방식은 여러 GPU의 장치 메모리를 집계하는 것입니다. 그러나 이 방법은 대부분의 학술 연구자들에게는 비용이 너무 많이 들어, 고성능 GPU 서버를 구입하기 위한 예산이 항상 제한적입니다. 본 논문에서는 대부분의 AI 연구자들이 접근할 수 있는 일반 서버의 단일, 심지어 저사양 GPU에서 거대 모델 미세 조정에 초점을 맞춥니다. 이러한 시나리오에서 최첨단 작업인 ZeRO-Infinity는 일반 서버에서 실행할 때 두 가지 심각한 문제를 겪습니다: 1) 비효율적인 스와핑으로 인한 낮은 GPU 활용률, 그리고 2) CPU 메모리 용량으로 인한 제한된 학습 가능 모델 크기입니다. 근본적인 이유는 ZeRO-Infinity가 고성능 GPU 서버에서 실행되도록 최적화되어 있기 때문입니다. 이를 위해, 저사양 GPU와 제한된 CPU 메모리 용량을 가진 저사양 서버에서 효율적인 100B 거대 모델 미세 조정을 가능하게 하는 저비용 학습 프레임워크인 Fuyou를 제시합니다. 핵심 아이디어는 SSD-CPU 통신을 최적화 차원으로 추가하여 체계적인 접근 방식으로 계산과 데이터 스와핑을 신중하게 공동 최적화하여 GPU 활용률을 극대화하는 것입니다. 실험 결과는 1) Fuyou가 소비자용 GPU RTX 4090에서 175B GPT-3을 높은 GPU 활용률로 미세 조정할 수 있는 반면, ZeRO-Infinity는 미세 조정에 실패한다는 것, 그리고 2) 작은 GPT-3 13B 모델을 학습할 때 Fuyou가 RTX 4090 GPU에서 156 TFLOPS를 달성하는 반면, ZeRO-Infinity는 단지 45 TFLOPS만 달성한다는 것을 보여줍니다.
비디오 이해에서의 지역적 중복성과 전역적 의존성이라는 이중 과제를 해결하기 위해, 본 연구는 Mamba를 비디오 도메인에 혁신적으로 적용합니다. 제안된 VideoMamba는 기존의 3D 합성곱 신경망과 비디오 트랜스포머의 한계를 극복합니다. 선형 복잡도 연산자를 통해 효율적인 장기 모델링이 가능하며, 이는 고해상도 장기 비디오 이해에 필수적입니다. 광범위한 평가를 통해 VideoMamba의 네 가지 핵심 능력이 밝혀졌습니다: (1) 새로운 자기 증류 기술 덕분에 방대한 데이터셋 사전 학습 없이도 시각적 도메인에서의 확장성; (2) 미세한 동작 차이에도 단기 행동 인식을 위한 민감성; (3) 전통적인 특징 기반 모델을 크게 앞서는 장기 비디오 이해에서의 우수성; (4) 다중 모달리티와의 호환성으로, 다중 모달 컨텍스트에서의 견고성을 입증합니다. 이러한 독보적인 장점을 통해 VideoMamba는 비디오 이해를 위한 새로운 벤치마크를 설정하며, 포괄적인 비디오 이해를 위한 확장 가능하고 효율적인 솔루션을 제공합니다. 모든 코드와 모델은 https://github.com/OpenGVLab/VideoMamba에서 확인할 수 있습니다.
최근 자동 3D 생성 기술이 폭넓은 관심을 받고 있습니다. 최신 방법들은 생성 속도를 크게 향상시켰지만, 모델 용량이나 3D 데이터의 한계로 인해 일반적으로 덜 세부적인 객체를 생성합니다. 비디오 확산 모델(video diffusion models)의 최근 발전에 영감을 받아, 우리는 사전 학습된 비디오 확산 모델의 세계 시뮬레이션 능력을 활용하여 3D 생성을 촉진하는 V3D를 소개합니다. 비디오 확산 모델이 3D 세계를 인지할 수 있는 잠재력을 최대한 발휘하기 위해, 우리는 기하학적 일관성 사전(geometrical consistency prior)을 도입하고 비디오 확산 모델을 다중 뷰 일관성(multi-view consistent) 3D 생성기로 확장합니다. 이를 통해 최첨단 비디오 확산 모델을 미세 조정하여 단일 이미지를 기반으로 객체를 둘러싼 360도 궤도 프레임을 생성할 수 있습니다. 우리가 맞춤화한 재구성 파이프라인을 사용하면 3분 이내에 고품질 메시(mesh) 또는 3D 가우시안(3D Gaussians)을 생성할 수 있습니다. 또한, 우리의 방법은 희소 입력 뷰(sparse input views)로 카메라 경로를 정밀하게 제어하며 장면 수준의 새로운 뷰 합성(scene-level novel view synthesis)으로 확장될 수 있습니다. 광범위한 실험을 통해 제안된 접근 방식이 특히 생성 품질과 다중 뷰 일관성 측면에서 우수한 성능을 보임을 입증했습니다. 우리의 코드는 https://github.com/heheyas/V3D에서 확인할 수 있습니다.
본 연구에서는 LLaVA-1.5, QwenVL-Chat, Video-LLaVA와 같은 주요 대형 시각-언어 모델(LVLMs)에서 비효율적인 어텐션 현상을 확인했습니다. 특히, 이러한 모델의 깊은 층에서 시각 토큰에 대한 어텐션 계산이 극도로 비효율적이라는 것을 발견했으며, 이는 텍스트 데이터 처리에 비해 더 희소한 접근 방식이 필요함을 시사합니다. 이를 위해, 우리는 초기 층에서 적응형 어텐션 패턴을 학습하고 후속 층에서 시각 토큰을 제거함으로써 계산 효율성을 최적화하도록 설계된 다용도 플러그 앤 플레이 방법인 FastV를 소개합니다. 평가 결과, FastV는 다양한 이미지 및 비디오 이해 작업에서 성능 저하 없이 계산 비용을 극적으로 줄일 수 있음을 보여주었습니다(예: LLaVA-1.5-13B의 경우 FLOPs 45% 감소). FastV의 계산 효율성과 성능 간의 균형은 높은 수준으로 맞춤 설정이 가능하며 파레토 효율적입니다. 이는 13B 파라미터 모델의 FLOPs를 7B 파라미터 모델의 예산보다 낮게 압축하면서도 우수한 성능을 유지할 수 있습니다. 우리는 FastV가 LVLMs를 에지 디바이스 및 상용 모델에 배포하는 데 실용적인 가치가 있다고 믿습니다. 코드는 https://github.com/pkunlp-icler/FastV에서 공개되었습니다.
우리는 딥러닝의 등장 이후 언어 모델 사전 학습 알고리즘의 개선 속도를 조사했습니다. 2012년부터 2023년까지 Wikitext와 Penn Treebank에서 수행된 200개 이상의 언어 모델 평가 데이터셋을 사용하여, 특정 성능 임계값에 도달하는 데 필요한 계산량이 약 8개월마다 절반으로 줄어들었음을 발견했습니다. 이때 95% 신뢰 구간은 약 5개월에서 14개월로, 이는 무어의 법칙에 따른 하드웨어 성능 향상보다 훨씬 빠른 속도입니다. 우리는 확장 법칙을 보완하여 알고리즘의 진전을 정량화하고, 모델 규모 확장과 훈련 알고리즘 혁신의 상대적 기여도를 측정했습니다. 트랜스포머와 같은 새로운 아키텍처의 개발과 알고리즘의 급속한 발전에도 불구하고, 우리의 분석은 이 기간 동안 전체 성능 향상에 계산량 증가가 더 큰 기여를 했음을 보여줍니다. 노이즈가 있는 벤치마크 데이터로 인해 제한적이지만, 우리의 분석은 언어 모델링의 빠른 진전을 정량화하며, 계산량과 알고리즘이 각각 기여한 상대적 역할을 밝혀냈습니다.
Sora의 등장은 텍스트-투-비디오 확산 모델에 새로운 시대를 열며, 비디오 생성과 잠재적 응용 분야에서 상당한 진전을 가져왔습니다. 그러나 Sora를 비롯한 다른 텍스트-투-비디오 확산 모델들은 프롬프트에 크게 의존하며, 텍스트-투-비디오 프롬프트 연구를 위한 공개 데이터셋은 아직 존재하지 않습니다. 본 논문에서는 실제 사용자로부터 수집된 167만 개의 고유한 텍스트-투-비디오 프롬프트로 구성된 최초의 대규모 데이터셋인 VidProM을 소개합니다. 또한, 이 데이터셋에는 4개의 최첨단 확산 모델로 생성된 669만 개의 비디오와 관련 데이터가 포함되어 있습니다. 우리는 이 대규모 데이터셋의 구축 과정을 처음으로 보여주며, 이는 시간과 비용이 많이 드는 작업임을 입증합니다. 이후, 제안된 VidProM이 이미지 생성을 위한 대규모 프롬프트 갤러리 데이터셋인 DiffusionDB와 어떻게 다른지 설명합니다. 이러한 프롬프트 분석을 바탕으로, 텍스트-투-비디오 생성을 위해 특별히 설계된 새로운 프롬프트 데이터셋의 필요성을 확인하고, 실제 사용자들이 비디오를 생성할 때의 선호도를 파악합니다. 우리의 대규모이고 다양한 데이터셋은 또한 많은 흥미로운 새로운 연구 분야를 영감으로 제공합니다. 예를 들어, 더 나은, 더 효율적이고 안전한 텍스트-투-비디오 확산 모델을 개발하기 위해, 텍스트-투-비디오 프롬프트 엔지니어링, 효율적인 비디오 생성, 그리고 확산 모델을 위한 비디오 복제 탐지 등의 연구를 제안합니다. 우리는 수집된 데이터셋 VidProM을 CC-BY-NC 4.0 라이선스 하에 GitHub와 Hugging Face에 공개합니다.
디퓨전 모델은 상대적으로 학습이 쉽지만 샘플 생성에 많은 단계가 필요합니다. 반면, 일관성 모델(Consistency Models)은 학습이 훨씬 어렵지만 단일 단계로 샘플을 생성할 수 있습니다. 본 논문에서는 **다단계 일관성 모델(Multistep Consistency Models)**을 제안합니다. 이는 일관성 모델(Song et al., 2023)과 TRACT(Berthelot et al., 2023)을 통합한 것으로, 일관성 모델과 디퓨전 모델 사이를 보간할 수 있습니다. 즉, 샘플링 속도와 샘플링 품질 간의 균형을 조절할 수 있습니다. 구체적으로, 1단계 일관성 모델은 기존의 일관성 모델과 동일하며, 무한대 단계(∞-step) 일관성 모델은 디퓨전 모델에 해당함을 보여줍니다. 다단계 일관성 모델은 실제로 매우 효과적으로 작동합니다. 샘플링 단계를 단일 단계에서 2~8단계로 늘림으로써, 더 높은 품질의 샘플을 생성하는 모델을 더 쉽게 학습할 수 있으며, 샘플링 속도 이점도 상당 부분 유지할 수 있습니다. 주목할 만한 결과로는, 일관성 증류(consistency distillation)를 통해 8단계에서 Imagenet 64에서 1.4 FID, Imagenet 128에서 2.1 FID를 달성했습니다. 또한, 본 방법이 텍스트-이미지 디퓨전 모델로 확장 가능하며, 원본 모델의 품질에 매우 근접한 샘플을 생성할 수 있음을 보여줍니다.
주제 기반 생성은 텍스트-이미지 생성의 개인화 능력으로 인해 최근 상당한 관심을 받고 있습니다. 일반적인 연구들은 새로운 주제의 고유 속성을 학습하는 데 초점을 맞추고 있습니다. 그러나 중요한 사실은 주제가 고립된 새로운 개념이 아니라 사전 훈련된 모델의 특정 범주에 대한 특수화여야 한다는 점이 제대로 고려되지 않았다는 것입니다. 이로 인해 주제가 해당 범주의 속성을 포괄적으로 상속하지 못해 속성 관련 생성이 제대로 이루어지지 않는 문제가 발생합니다. 본 논문에서는 객체 지향 프로그래밍에서 영감을 받아 주제를 해당 의미 범주를 기반 클래스로 하는 파생 클래스로 모델링합니다. 이러한 모델링을 통해 주제는 사용자가 제공한 예시로부터 고유 속성을 학습하면서도 범주로부터 공개 속성을 상속받을 수 있습니다. 구체적으로, 우리는 플러그 앤 플레이 방식인 Subject-Derived 정규화(SuDe)를 제안합니다. SuDe는 주제 기반 생성 이미지가 주제의 범주에 의미적으로 속하도록 제약함으로써 기반-파생 클래스 모델링을 구성합니다. 세 가지 베이스라인과 두 가지 백본을 사용한 다양한 주제에 대한 광범위한 실험 결과, 우리의 SuDe가 주제 충실도를 유지하면서도 창의적인 속성 관련 생성을 가능하게 함을 보여줍니다. 코드는 FaceChain(https://github.com/modelscope/facechain)에서 곧 공개될 예정입니다.