번역이 포함된 일일 선별된 AI 연구 논문
인간 피드백으로부터의 강화 학습 (RLHF)은 대규모 언어 모델을 인간의 선호에 맞추는 데 중요한 접근법으로 등장했으며, Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO), REINFORCE Leave One-Out (RLOO), ReMax 및 Group Relative Policy Optimization (GRPO)와 같은 방법을 통해 빠른 알고리즘적 진화를 경험했습니다. 우리는 고전적인 REINFORCE 알고리즘의 향상된 변형인 REINFORCE++를 제시합니다. 이는 PPO에서의 주요 최적화 기술을 통합하면서 비평가 네트워크의 필요성을 제거합니다. REINFORCE++는 세 가지 주요 목표를 달성합니다: (1) 간단함, (2) 향상된 훈련 안정성, (3) 감소된 계산 부담. 광범위한 경험적 평가를 통해, 우리는 REINFORCE++가 GRPO보다 우수한 안정성을 보이고 PPO보다 더 큰 계산 효율성을 달성하면서 비슷한 성능을 유지한다는 것을 입증합니다. 구현은 https://github.com/OpenRLHF/OpenRLHF에서 사용할 수 있습니다.
물리적 AI는 디지털로 먼저 훈련되어야 합니다. 자신의 디지털 쌍둥이인 정책 모델과 세계의 디지털 쌍둥이인 세계 모델이 필요합니다. 본 논문에서는 개발자가 물리적 AI 설정을 위해 사용자 정의 세계 모델을 구축하는 데 도움이 되는 Cosmos World Foundation Model Platform을 제안합니다. 우리는 세계 기초 모델을 일반 목적의 세계 모델로 위치시키고, 하류 응용 프로그램을 위해 사용자 정의 세계 모델로 세밀하게 조정할 수 있는 것으로 합니다. 우리의 플랫폼은 비디오 큐레이션 파이프라인, 사전 훈련된 세계 기초 모델, 사전 훈련된 세계 기초 모델의 사후 훈련 예제 및 비디오 토크나이저를 다룹니다. 물리적 AI 빌더가 우리 사회의 가장 중요한 문제를 해결하는 데 도움을 주기 위해 우리의 플랫폼을 오픈 소스로 제공하고 우리의 모델을 오픈 가중치로 제공하며 허용되는 라이선스를 통해 https://github.com/NVIDIA/Cosmos에서 사용할 수 있습니다.
실시간 대규모 다중 모달 모델(LMM)인 GPT-4o와 같은 모델의 등장은 효율적인 LMM에 대한 상당한 관심을 불러일으켰다. LMM 프레임워크는 일반적으로 시각 입력을 시각 토큰(연속적인 표현)으로 인코딩하고 이를 텍스트 지침과 함께 대형 언어 모델(LLM)의 맥락에 통합한다. 여기서 대규모 매개변수와 다수의 맥락 토큰(주로 시각 토큰)은 상당한 계산 오버헤드를 야기한다. 효율적인 LMM에 대한 이전 노력은 주로 LLM 백본을 작은 모델로 교체하는 데 초점을 맞추었으나 토큰 양이라는 중요한 문제를 간과했다. 본 논문에서는 시각 토큰을 최소화한 효율적인 LMM인 LLaVA-Mini를 소개한다. 시각 정보를 보존하면서 시각 토큰의 압축 비율을 높이기 위해 먼저 LMM이 시각 토큰을 어떻게 이해하는지 분석하고 대부분의 시각 토큰이 LLM 백본의 초기 레이어에서 주로 시각 정보를 텍스트 토큰으로 융합하는 데 중요한 역할을 한다는 사실을 발견했다. 이 발견을 기반으로 LLaVA-Mini는 시각 정보를 텍스트 토큰에 미리 융합하는 모달리티 사전 융합을 도입하여 LLM 백본에 공급되는 시각 토큰을 하나로 극도로 압축할 수 있도록 한다. LLaVA-Mini는 이미지, 고해상도 이미지 및 비디오의 이해를 효율적으로 지원할 수 있는 통합형 대규모 다중 모달 모델이다. 11개의 이미지 기반 벤치마크와 7개의 비디오 기반 벤치마크를 통한 실험 결과, LLaVA-Mini는 576개의 시각 토큰 대신 1개의 시각 토큰으로 LLaVA-v1.5를 능가함을 입증했다. 효율성 분석 결과, LLaVA-Mini는 FLOP를 77% 줄일 수 있으며, GPU 하드웨어에서 40밀리초 이내의 저지연 응답을 제공하며, 24GB 메모리를 갖춘 GPU 하드웨어에서 10,000프레임 이상의 비디오를 처리할 수 있다.
본 연구는 이미지와 비디오에 대한 밀도 있는 그라운드 이해를 위한 최초의 통합 모델인 Sa2VA를 제안합니다. 기존의 다중 모달 대형 언어 모델과 달리, 종종 특정 모달리티와 작업에 제한된 모델들과는 달리, Sa2VA는 참조 분할 및 대화를 포함한 다양한 이미지 및 비디오 작업을 지원하며, 최소한의 원샷 지시 조정을 통해 이를 실현합니다. Sa2VA는 기본 비디오 분할 모델인 SAM-2와 고급 비전-언어 모델인 LLaVA를 결합하고, 텍스트, 이미지 및 비디오를 공유된 LLM 토큰 공간으로 통합합니다. LLM을 사용하여 Sa2VA는 SAM-2를 안내하는 지시 토큰을 생성하여 정확한 마스크를 생성하며, 정적 및 동적 시각적 콘텐츠의 그라운드된 다중 모달 이해를 가능하게 합니다. 더불어, 본 연구에서는 복잡한 비디오 장면에서 72,000개 이상의 객체 표현을 포함하는 Ref-SAV 자동 레이블 데이터셋을 소개하여 모델 성능을 향상시킵니다. 또한, 복잡한 환경에서 참조 비디오 객체 분할을 벤치마킹하기 위해 Ref-SAV 데이터셋에서 2,000개의 비디오 객체를 수동으로 유효성을 검사합니다. 실험 결과, Sa2VA는 여러 작업에서 최첨단 성능을 달성하며, 특히 참조 비디오 객체 분할에서 뛰어난 성과를 보여 복잡한 현실 세계 응용 가능성을 강조합니다.
최근 몇 년간 비전 언어 모델(VLMs)은 비디오 이해 분야에서 중요한 발전을 이루었습니다. 그러나 핵심 능력 중 하나인 세밀한 동작 이해는 현재의 벤치마크에서 충분히 탐구되지 않은 상태입니다. 이러한 공백을 해결하기 위해 우리는 세밀한 동작 이해를 평가하기 위해 설계된 포괄적인 평가 벤치마크인 MotionBench를 제안합니다. MotionBench는 모델의 동작 수준 인식을 여섯 가지 주요 동작 지향 질문 유형을 통해 평가하며, 실제 세계 비디오 콘텐츠의 넓은 대표성을 보장하기 위해 다양한 소스에서 수집한 데이터를 포함합니다. 실험 결과는 기존 VLMs가 세밀한 동작을 이해하는 데 성능이 저조함을 보여줍니다. LLM의 제한된 시퀀스 길이 내에서 세밀한 동작을 인식하는 VLM의 능력을 향상시키기 위해, 비디오 특징 압축에 최적화된 VLM 아키텍처를 검토하고 효율적인 Through-Encoder (TE) 퓨전 방법을 제안하는 포괄적인 실험을 수행합니다. 실험 결과는 더 높은 프레임 속도 입력과 TE 퓨전이 동작 이해를 향상시키지만, 여전히 큰 향상의 여지가 있음을 보여줍니다. 우리의 벤치마크는 더 강력한 비디오 이해 모델의 개발을 이끄는 데 목표를 두며, 세밀한 동작 이해의 중요성을 강조합니다. 프로젝트 페이지: https://motion-bench.github.io.
확산 모델은 텍스트 프롬프트나 이미지에서 고품질 비디오를 생성하는 데 놀라운 성능을 보여주었습니다. 그러나 카메라 조작이나 콘텐츠 편집과 같은 비디오 생성 프로세스에 대한 정밀한 제어는 여전히 중요한 과제입니다. 제어된 비디오 생성을 위한 기존 방법은 일반적으로 단일 제어 유형으로 제한되어 있어 다양한 제어 요구를 처리할 유연성이 부족합니다. 본 논문에서는 다중 비디오 제어 작업을 지원하는 혁신적인 접근 방식인 Diffusion as Shader (DaS)를 소개합니다. 우리의 주요 통찰력은 다양한 비디오 제어를 달성하기 위해서는 비디오가 본질적으로 동적 3D 콘텐츠의 2D 렌더링이기 때문에 3D 제어 신호를 활용해야 한다는 것입니다. 이전 방법이 2D 제어 신호로 제한되었다면, DaS는 제어 입력으로 3D 추적 비디오를 활용하여 비디오 확산 프로세스를 본질적으로 3D 인식으로 만듭니다. 이 혁신은 DaS가 단순히 3D 추적 비디오를 조작함으로써 다양한 비디오 제어를 달성할 수 있게 합니다. 3D 추적 비디오를 사용하는 또 다른 장점은 프레임을 효과적으로 연결하여 생성된 비디오의 시간적 일관성을 크게 향상시킬 수 있다는 것입니다. 8개의 H800 GPU에서 3일간 미세 조정을 통해 10,000개 미만의 비디오를 사용하여 DaS는 메쉬-비디오 생성, 카메라 제어, 모션 전송 및 객체 조작을 포함한 다양한 작업에서 강력한 제어 능력을 보여줍니다.
문서로부터 발표 자료를 자동으로 생성하는 것은 내용 품질, 시각적 디자인, 그리고 구조적 일관성을 균형 있게 유지해야 하는 어려운 작업입니다. 기존 방법들은 주로 내용 품질을 개선하고 평가하는 데 초점을 맞추었으며 종종 시각적 디자인과 구조적 일관성을 간과하여 실용성을 제한합니다. 이러한 한계를 극복하기 위해 우리는 인간의 작업 흐름에서 영감을 받은 두 단계의 편집 기반 접근을 통해 발표 자료 생성을 체계적으로 개선하는 PPTAgent를 제안합니다. PPTAgent는 먼저 기준 발표 자료를 분석하여 그들의 구조적 패턴과 내용 스키마를 이해한 후 일관성과 조정을 보장하기 위해 아웃라인을 작성하고 코드 작업을 통해 슬라이드를 생성합니다. 생성된 발표 자료의 품질을 체계적으로 평가하기 위해 우리는 Content, Design, 그리고 Coherence 세 가지 차원을 통해 발표 자료를 평가하는 평가 프레임워크인 PPTEval을 소개합니다. 실험 결과, PPTAgent가 세 가지 차원 모두에서 기존의 전통적인 자동 발표 자료 생성 방법을 크게 능가함을 보여줍니다. 코드와 데이터는 https://github.com/icip-cas/PPTAgent에서 확인할 수 있습니다.
최근에는 이미지, 텍스트 및 음성에 걸쳐 이해와 생성에서 옴니모달 학습의 최신 발전이 소유 모델 내에서 주로 이루어졌습니다. 옴니모단 데이터셋의 한정 및 실시간 감정 음성 생성과 관련된 과제들이 오픈 소스 진행을 방해해왔습니다. 이러한 문제를 해결하기 위해 우리는 오픈오미니라는 두 단계 훈련 방법을 제안합니다. 이 방법은 옴니모달 정렬과 음성 생성을 결합하여 최첨단 옴니모달 대형 언어 모델을 개발합니다. 정렬 단계에서 사전 훈련된 음성 모델이 텍스트-이미지 작업에서 더 훈련되어 비전에서 음성으로 (거의) 제로샷 방식으로 일반화되어, 삼 모달 데이터셋에서 훈련된 모델을 능가합니다. 음성 생성 단계에서 가벼운 디코더가 음성 작업 및 선호 학습을 통해 실시간 감정 음성을 용이하게 합니다. 실험 결과는 오픈오미니가 일관되게 옴니모달, 비전-언어 및 음성-언어 평가에서 개선되어 자연스럽고 감정 풍부한 대화와 실시간 감정 음성 생성을 가능하게 한다는 것을 보여줍니다.
과학 연구 패러다임은 인공 지능(AI)의 발전으로 깊은 변화를 겪고 있습니다. 최근 연구들은 다양한 AI 보조 연구 방법이 데이터 분석을 개선하고 계산을 가속화하며 새로운 아이디어 생성을 촉진함으로써 연구 효율성을 크게 향상시킬 수 있다는 것을 입증하고 있습니다. 궁극적인 목표인 자동 과학 연구로 나아가기 위해 본 논문에서는 Dolphin을 제안합니다. Dolphin은 인간 과학 연구 전 과정을 구축하기 위한 최초의 폐쇄 루프 오픈엔드 자동 연구 프레임워크입니다. Dolphin은 연구 아이디어를 생성하고 실험을 수행하며 실험 결과로부터 피드백을 받아 더 높은 품질의 아이디어를 생성할 수 있습니다. 구체적으로, Dolphin은 먼저 주제 및 작업 속성에 따라 순위가 매겨진 관련 논문을 기반으로 새로운 아이디어를 생성합니다. 그런 다음 코드는 예외-추적-가이드 로컬 코드 구조를 사용하여 자동으로 생성되고 디버깅됩니다. 마지막으로 Dolphin은 각 아이디어의 결과를 자동으로 분석하고 결과를 다음 라운드의 아이디어 생성에 피드백합니다. 다양한 주제의 벤치마크 데이터셋에서 실험을 수행한 결과, Dolphin은 지속적으로 새로운 아이디어를 생성하고 루프에서 실험을 완료할 수 있음을 보여줍니다. Dolphin은 2D 이미지 분류 및 3D 포인트 분류와 같은 일부 작업에서 최첨단 기술과 비교 가능한 방법을 자동으로 제안할 수 있다는 점을 강조합니다.
우리는 신원 보존 비디오를 생성하는 Magic Mirror라는 프레임워크를 제시합니다. 이 프레임워크는 시네마틱 수준의 품질과 동적 움직임을 갖춘 비디오를 생성합니다. 최근 비디오 확산 모델의 발전은 텍스트에서 비디오로의 생성에서 인상적인 능력을 보여주었지만, 자연스러운 움직임을 만들면서 일관된 신원을 유지하는 것은 여전히 어려운 문제입니다. 이전 방법들은 특정 인물에 대한 미세 조정이 필요하거나 신원 보존과 움직임 다양성 사이의 균형을 유지하기 어려웠습니다. Video Diffusion Transformers를 기반으로 한 우리의 방법은 세 가지 주요 구성 요소를 도입합니다: (1) 신원과 구조적 특징을 모두 캡처하는 이중 분기 얼굴 특징 추출기, (2) 효율적인 신원 통합을 위한 Conditioned Adaptive Normalization이 있는 가벼운 교차 모달 어댑터, 그리고 (3) 비디오 데이터와 합성 신원 쌍을 결합하는 두 단계 학습 전략. 광범위한 실험 결과, Magic Mirror가 신원 일관성과 자연스러운 움직임을 효과적으로 균형있게 유지하며, 기존 방법들을 여러 측면에서 능가하면서 추가적인 최소 매개변수가 필요합니다. 코드와 모델은 다음에서 공개적으로 제공될 예정입니다: https://github.com/dvlab-research/MagicMirror/
3D 가우시안 스플래팅 (3DGS)은 장면 표현 및 신경 렌더링에서 중요한 발전을 이루어 왔으며, 역동적인 장면에 적응하기 위해 집중적인 노력이 기울여졌습니다. 현존하는 방법들은 높은 렌더링 품질과 속도를 제공하지만, 저장 요구 사항과 복잡한 현실 세계의 움직임을 표현하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 우리는 MoDecGS를 제안합니다. 이는 복잡한 움직임이 포함된 어려운 상황에서 새로운 시점을 재구성하기 위한 메모리 효율적인 가우시안 스플래팅 프레임워크로 설계되었습니다. 우리는 GlobaltoLocal Motion Decomposition (GLMD)을 소개하여 동적 움직임을 효과적으로 캡처합니다. 이 방법은 Global Canonical Scaffolds (Global CS)와 Local Canonical Scaffolds (Local CS)를 활용하여 정적 Scaffold 표현을 동적 비디오 재구성으로 확장합니다. Global CS에 대해 우리는 Global Anchor Deformation (GAD)를 제안하여 복잡한 움직임을 따라 전역적인 동적을 효율적으로 표현합니다. 다음으로, Local CS의 Local Gaussian Deformation (LGD)을 통해 지역 움직임을 세밀하게 조정합니다. 더불어, 우리는 Temporal Interval Adjustment (TIA)를 소개하여 각 Local CS의 시간적 커버리지를 자동으로 제어하며, MoDecGS가 지정된 시간 세그먼트 수에 기반하여 최적의 간격 할당을 찾을 수 있도록 합니다. 철저한 평가 결과, MoDecGS가 실제 동적 비디오로부터 동적 3D 가우시안에 대해 최첨단 방법에 비해 모델 크기를 평균 70% 줄였으며 렌더링 품질을 유지하거나 향상시켰음을 보여줍니다.
인간 피드백으로부터의 강화 학습 (RLHF)은 언어 모델(LMs)을 인간의 선호와 조율하는 데 널리 사용되어 왔습니다. 이전 RLHF 연구들은 일반적으로 밴딧(bandit) 공식을 채택했는데, 이는 직관적이지만 LM 생성의 순차적 성질을 무시하고 희소 보상 문제에 시달릴 수 있습니다. 최근 연구들은 각 토큰을 하나의 행동으로 취급하는 밀도 높은 토큰 수준의 RLHF를 제안하고 있지만, 이는 적절한 보상 할당에 지나치게 섬세할 수 있습니다. 본 논문에서는 단어의 짧은 시퀀스에 걸쳐 이어지는 의미적으로 완전한 텍스트 세그먼트에 보상을 할당하는 세그먼트 수준 보상 모델을 훈련하고 활용함으로써 양쪽의 장점을 취하려 합니다. 보상 학습을 위해 우리의 방법은 동적 텍스트 세그멘테이션을 허용하고 표준 시퀀스 선호 데이터셋과 호환됩니다. 세그먼트 보상에 대한 효과적인 RL 기반 LM 훈련을 위해 우리는 고전적인 스칼라 밴딧 보상 정규화기를 위치 인식 정규화 함수로 일반화하고 세그먼트 보상을 보다 밀집시키기 위해 선형 보상을 보간합니다. 이러한 설계를 통해 우리의 방법은 LM 정책에 대한 세 가지 인기 있는 RLHF 벤치마크인 AlpacaEval 2.0, Arena-Hard, MT-Bench에서 경쟁력 있는 성과를 보입니다. 추가적으로 우리의 방법을 더 자세히 설명하기 위해 제거 연구가 수행되었습니다.
Transformer 구조를 수정하는 접근 방식을 제시합니다. 이는 그래프 인식 관계 추론을 어텐션 메커니즘에 통합하여 그래프 신경망과 언어 모델링 개념을 통합한 것입니다. 어텐션과 그래프 이론 사이의 내재적 연결을 기반으로, Transformer의 어텐션 메커니즘을 그래프 작업으로 재구성하고 그래프 인식 동형 어텐션(Graph-Aware Isomorphic Attention)을 제안합니다. 이 방법은 Graph Isomorphism Networks (GIN) 및 Principal Neighborhood Aggregation (PNA)과 같은 고급 그래프 모델링 전략을 활용하여 관계 구조의 표현을 풍부하게 합니다. 저희의 접근 방식은 복잡한 종속성을 포착하고 일반화를 향상시키며, 일반화 갭을 줄이고 학습 성능을 향상시키는 것으로 입증됩니다. 더불어, 그래프 인식 어텐션 개념을 확장하여 Sparse GIN-Attention을 소개하여 희소 GIN을 활용하는 세밀한 조정 방법을 제안합니다. 어텐션 행렬을 희소 인접 그래프로 해석함으로써, 이 기술은 사전 훈련된 기본 모델의 적응성을 향상시키고 최소한의 계산 부담으로 그래프 인식 능력을 부여합니다. Sparse GIN-Attention 세밀한 조정은 저랭크 적응 (LoRA)과 같은 대안 방법과 비교하여 개선된 훈련 역학과 더 나은 일반화를 달성합니다. 전통적인 어텐션 메커니즘 내의 잠재적 그래프와 같은 구조에 대해 논의하며, Transformer를 관계 추론을 위한 계층적 GIN 모델로 발전시킴으로써 새로운 시각을 제시합니다. 이 관점은 기초 모델 개발에 대한 깊은 영향을 제안하며, 지역 및 전역 종속성에 동적으로 적응할 수 있는 아키텍처의 설계를 가능하게 합니다. 생물정보학, 재료과학, 언어 모델링 및 그 이상의 응용 분야에서 관계 및 순차 데이터 모델링의 통합으로 이어지는 이러한 전략은 해석 가능하고 일반화 가능한 모델링 전략을 위한 무대를 마련합니다.
우리는 동일한 사람의 얼굴 표정 단위 (AU)의 상대적 변화를 제어함으로써 얼굴 표정 편집 문제에 대응합니다. 이를 통해 우리는 그 특정 인물의 표정을 세밀하고 연속적이며 해석 가능한 방식으로 편집할 수 있게 되었습니다. 이 과정에서 그들의 신원, 자세, 배경 및 상세한 얼굴 속성을 보존할 수 있습니다. 우리가 MagicFace라고 명명한 모델의 핵심은 AU 변화에 의존하는 확산 모델과 ID 인코더로, 높은 일관성의 얼굴 세부 사항을 보존합니다. 특히, 입력 신원과 함께 얼굴 세부 사항을 보존하기 위해 사전 훈련된 Stable-Diffusion 모델의 능력을 활용하고, 외관 특징을 자기 주의를 통해 통합하는 ID 인코더를 설계했습니다. 배경과 자세의 일관성을 유지하기 위해 대상의 현재 배경과 자세를 모델에 명시적으로 알리는 효율적인 속성 컨트롤러를 도입했습니다. AU 변화를 노이즈 제거 UNet에 주입함으로써, 우리의 모델은 다양한 AU 조합을 사용하여 임의의 신원을 활성화할 수 있으며, 다른 얼굴 표정 편집 작업과 비교하여 고품질의 표정 편집 결과를 제공합니다. 코드는 https://github.com/weimengting/MagicFace에서 공개적으로 이용 가능합니다.
텍스트 안내 이미지 대 이미지 확산 모델은 텍스트 프롬프트를 기반으로 이미지를 번역하는 데 뛰어나며, 정확하고 창의적인 시각적 수정을 가능하게 합니다. 그러나 이러한 강력한 기술은 잘못 사용될 수 있어 잘못된 정보 전파, 저작권 침해, 그리고 콘텐츠 추적 회피에 이용될 수 있습니다. 이로 인해 우리는 주어진 번역된 쿼리의 원본 이미지를 검색하는 것을 목표로 하는 텍스트 안내 이미지 대 이미지 확산 모델 (ID^2)의 과제를 소개합니다. ID^2에 대한 직접적인 해결책은 쿼리와 참조 이미지에서 특징을 추출하고 비교하기 위해 전문화된 심층 임베딩 모델을 훈련시키는 것을 포함합니다. 그러나 서로 다른 확산 모델에서 생성된 세대 간의 시각적 불일치로 인해 이 유사성 기반 접근 방식은 한 모델의 이미지로 훈련하고 다른 모델의 이미지로 테스트할 때 실패하여 실제 응용 프로그램에서의 효과를 제한합니다. 제안된 ID^2 작업의 이러한 도전을 해결하기 위해 우리는 일반화를 강조하는 첫 번째 데이터셋과 이론적으로 보장된 방법을 제공합니다. 선별된 데이터셋인 OriPID에는 풍부한 원본과 안내 프롬프트가 포함되어 있으며, 다양한 확산 모델을 통해 잠재적인 IDentification 모델을 훈련하고 테스트하는 데 사용할 수 있습니다. 방법 섹션에서는 먼저 생성된 샘플의 사전 훈련된 변이형 오토인코더 (VAE) 임베딩 간의 거리를 최소화하는 선형 변환의 존재를 증명합니다. 이후, 이러한 간단한 선형 변환을 서로 다른 확산 모델에 걸쳐 일반화할 수 있다는 것을 입증합니다. 실험 결과는 제안된 방법이 유사성 기반 방법보다 (+31.6% mAP) 훨씬 뛰어난 일반화 성능을 달성한다는 것을 보여줍니다. 일반화 설계를 갖춘 방법조차도 능가합니다.