번역이 포함된 일일 선별된 AI 연구 논문
현대 인공지능(AI) 시스템은 파운데이션 모델에 의해 구동됩니다. 이 논문은 Llama 3라는 새로운 파운데이션 모델 세트를 소개합니다. Llama 3는 다국어 지원, 코딩, 추론, 도구 사용을 기본적으로 지원하는 언어 모델 군입니다. 우리의 가장 큰 모델은 405B 매개변수를 가진 밀집 트랜스포머로, 최대 128K 토큰의 컨텍스트 윈도우를 지원합니다. 이 논문은 Llama 3에 대한 광범위한 실험적 평가를 제시합니다. Llama 3는 다양한 작업에서 GPT-4와 같은 선두 언어 모델과 비슷한 품질을 제공하는 것으로 나타났습니다. 우리는 405B 매개변수 언어 모델의 사전 학습 및 사후 학습 버전과 입력 및 출력 안전을 위한 Llama Guard 3 모델을 공개합니다. 또한, 이 논문은 이미지, 비디오, 음성 기능을 Llama 3에 통합한 실험 결과를 제시합니다. 우리는 이러한 접근 방식이 이미지, 비디오, 음성 인식 작업에서 최신 기술과 경쟁적으로 수행되는 것을 관찰했습니다. 결과 모델은 아직 개발 중이므로 널리 공개되지 않습니다.
최근 Diffusion Transformer(DiT)의 발전은 고품질 비디오 콘텐츠 생성에서 뛰어난 능력을 입증했습니다. 그러나 트랜스포머 기반 확산 모델이 제어 가능한 동작을 가진 비디오를 효과적으로 생성할 수 있는 잠재력은 아직 충분히 탐구되지 않은 분야입니다. 본 논문은 텍스트, 시각적 정보, 궤적 조건을 동시에 통합하여 비디오를 생성하는 최초의 궤적 지향 DiT 프레임워크인 Tora를 소개합니다. 구체적으로, Tora는 Trajectory Extractor(TE), Spatial-Temporal DiT, 그리고 Motion-guidance Fuser(MGF)로 구성됩니다. TE는 3D 비디오 압축 네트워크를 사용하여 임의의 궤적을 계층적 시공간 동작 패치로 인코딩합니다. MGF는 이 동작 패치를 DiT 블록에 통합하여 궤적을 따르는 일관된 비디오를 생성합니다. 우리의 설계는 DiT의 확장성과 완벽하게 조화를 이루며, 다양한 지속 시간, 화면 비율, 해상도로 비디오 콘텐츠의 동적 요소를 정밀하게 제어할 수 있도록 합니다. 광범위한 실험을 통해 Tora가 높은 동작 충실도를 달성하는 동시에 물리적 세계의 움직임을 세심하게 시뮬레이션하는 데 탁월함을 입증했습니다. 자세한 내용은 https://ali-videoai.github.io/tora_video에서 확인할 수 있습니다.
우리는 혼합 모달리티 초기 융합 언어 모델의 사전 학습을 위해 설계된 새로운 모달리티 인식 전문가 혼합(MoMa) 아키텍처를 소개합니다. MoMa는 이미지와 텍스트를 임의의 순서로 처리하기 위해 전문가 모듈을 모달리티별 그룹으로 나눕니다. 이러한 그룹은 지정된 토큰만을 독점적으로 처리하면서 각 그룹 내에서 학습된 라우팅을 사용하여 의미론적으로 정보화된 적응성을 유지합니다. 우리의 실험 결과는 이러한 모달리티별 파라미터 할당을 통해 상당한 사전 학습 효율성 향상을 보여줍니다. 1조 토큰의 학습 예산 하에서, 4개의 텍스트 전문가와 4개의 이미지 전문가를 갖춘 MoMa 1.4B 모델은 사전 학습 손실 기준으로 계산적으로 동등한 밀집 베이스라인 대비 전반적으로 3.7배, 텍스트 처리에서 2.6배, 이미지 처리에서 5.2배의 FLOPs 절감을 달성합니다. 이는 8개의 혼합 모달리티 전문가를 사용한 표준 전문가 선택 MoE가 달성한 전반적 FLOPs 절감 3배(텍스트: 3배, 이미지: 2.8배)를 능가합니다. MoMa를 깊이 혼합(MoD)과 결합하면 사전 학습 FLOPs 절감이 전반적으로 4.2배(텍스트: 3.4배, 이미지: 5.3배)로 더욱 개선되지만, 라우터 정확도에 대한 민감도가 증가하여 인과 추론 성능이 저하됩니다. 이러한 결과는 MoMa가 혼합 모달리티 초기 융합 언어 모델 사전 학습의 효율성을 크게 향상시킬 잠재력을 보여주며, 더욱 자원 효율적이고 강력한 다중 모달 AI 시스템을 위한 길을 열어줍니다.
본 논문에서는 고품질이면서 인간과 유사한 동시 통역(SiST) 시스템인 Cross Language Agent -- Simultaneous Interpretation(CLASI)를 소개한다. 전문 인간 통역사에서 영감을 받아, 우리는 번역 품질과 지연 시간 사이의 균형을 맞추기 위해 새로운 데이터 기반 읽기-쓰기 전략을 활용한다. 도메인 내 전문 용어 번역의 어려움을 해결하기 위해, CLASI는 다중 모드 검색 모듈을 사용하여 관련 정보를 획득하고 이를 번역에 활용한다. 대형 언어 모델(LLMs)의 지원을 받아, 우리의 접근 방식은 입력 오디오, 역사적 맥락, 그리고 검색된 정보를 고려하여 오류 허용 번역을 생성할 수 있다. 실험 결과는 우리 시스템이 다른 시스템들을 상당한 차이로 능가함을 보여준다. 전문 인간 통역사와 일치하게, 우리는 CLASI를 더 나은 인간 평가 지표인 유효 정보 비율(VIP)로 평가하며, 이는 청중에게 성공적으로 전달될 수 있는 정보의 양을 측정한다. 실제 시나리오에서, 연설이 종종 불완전하고 비공식적이며 불명확한 경우, CLASI는 중국어-영어와 영어-중국어 번역 방향에서 각각 81.3%와 78.0%의 VIP를 달성한다. 반면, 최신 상용 또는 오픈소스 시스템은 각각 35.4%와 41.6%만을 달성한다. 다른 시스템들이 13% 미만의 VIP를 달성하는 극도로 어려운 데이터셋에서도, CLASI는 여전히 70%의 VIP를 달성할 수 있다.
우리는 Gemma2를 기반으로 구축된 LLM 기반의 포괄적인 안전 콘텐츠 조정 모델 제품군인 ShieldGemma를 소개합니다. 이 모델들은 사용자 입력과 LLM 생성 출력 모두에서 주요 유해 유형(성적 콘텐츠, 위험한 콘텐츠, 괴롭힘, 혐오 발언)에 대한 강력하고 최신의 안전 위험 예측을 제공합니다. 공개 및 내부 벤치마크를 통해 평가한 결과, Llama Guard(공개 벤치마크에서 +10.8% AU-PRC) 및 WildCard(+4.3%)와 같은 기존 모델 대비 우수한 성능을 입증했습니다. 또한, 다양한 안전 관련 작업 및 그 이상에 적응 가능한 새로운 LLM 기반 데이터 큐레이션 파이프라인을 제시합니다. 주로 합성 데이터로 훈련된 모델의 강력한 일반화 성능을 보여주었습니다. ShieldGemma를 공개함으로써, 연구 커뮤니티에 유용한 자원을 제공하고, LLM 안전성을 발전시키며 개발자들이 더 효과적인 콘텐츠 조정 솔루션을 만들 수 있도록 지원합니다.
제1회 데이터 오염 워크숍(CONDA 2024)은 자연어 처리에서의 데이터 오염과 관련된 모든 측면에 초점을 맞추고 있습니다. 여기서 데이터 오염은 평가 데이터가 대규모 모델을 훈련하는 데 사용된 사전 학습 코퍼스에 포함되어 평가 결과를 훼손하는 상황을 의미합니다. 이 워크숍은 현재 사용 가능한 데이터셋과 모델에서의 데이터 오염 증거를 수집하기 위한 공유 과제를 주최했습니다. 이 공유 과제와 관련 데이터베이스의 목표는 커뮤니티가 문제의 범위를 이해하고, 알려진 오염된 자원에 대한 평가 결과를 보고하지 않도록 연구자들을 지원하는 것입니다. 공유 과제는 GitHub 풀 리퀘스트를 통해 커뮤니티의 기여를 받아 구조화된 중앙 집중식 공개 데이터베이스를 제공합니다. 이 첫 번째 컴파일 논문은 총 23명의 기여자로부터 91개의 오염된 소스에 대해 보고된 566개의 항목을 기반으로 작성되었습니다. 개별 오염 사건의 세부 사항은 플랫폼에서 확인할 수 있습니다. 이 플랫폼은 커뮤니티의 기여를 받아 계속 운영 중입니다.
오디오-비주얼 시맨틱 세그멘테이션(AVSS)은 비디오에서 소리 내는 객체를 음향적 단서를 통해 분할하고 분류하는 것을 목표로 합니다. 그러나 대부분의 접근 방식은 닫힌 집합(close-set) 가정 하에서 작동하며, 훈련 데이터에서 미리 정의된 범주만을 식별할 뿐 실제 응용에서 새로운 범주를 탐지하는 일반화 능력이 부족합니다. 본 논문에서는 새로운 과제인 오픈-보컬러리 오디오-비주얼 시맨틱 세그멘테이션을 소개합니다. 이는 AVSS 과제를 주석된 레이블 공간을 넘어 오픈-월드 시나리오로 확장한 것으로, 훈련 중에 본 적도 들은 적도 없는 모든 범주를 인식해야 하는 더욱 도전적인 과제입니다. 또한, 우리는 첫 번째 오픈-보컬러리 AVSS 프레임워크인 OV-AVSS를 제안합니다. 이 프레임워크는 주로 두 부분으로 구성됩니다: 1) 모든 잠재적 소리 내는 객체를 찾기 위해 오디오-비주얼 융합을 수행하는 범용 음원 위치 탐지 모듈과 2) 대규모 사전 훈련된 비전-언어 모델의 사전 지식을 활용하여 범주를 예측하는 오픈-보컬러리 분류 모듈입니다. 오픈-보컬러리 AVSS를 적절히 평가하기 위해, 우리는 AVSBench-시맨틱 벤치마크를 기반으로 제로-샷 훈련 및 테스트 하위 집합을 분할하여 AVSBench-OV를 구성했습니다. 광범위한 실험을 통해 우리 모델이 모든 범주에서 강력한 세그멘테이션 및 제로-샷 일반화 능력을 보여줌을 입증했습니다. AVSBench-OV 데이터셋에서 OV-AVSS는 기본 범주에서 55.43% mIoU, 새로운 범주에서 29.14% mIoU를 달성하며, 최신 제로-샷 방법을 41.88%/20.61%, 오픈-보컬러리 방법을 10.2%/11.6% 능가했습니다. 코드는 https://github.com/ruohaoguo/ovavss에서 확인할 수 있습니다.
우리는 학습 기반 제어를 위한 신뢰할 수 있고 저비용의 중간 규모 휴머노이드 연구 플랫폼인 Berkeley Humanoid를 소개합니다. 이 경량화된 자체 제작 로봇은 낮은 시뮬레이션 복잡도, 인간형 동작, 그리고 낙상에 대한 높은 신뢰성을 갖춘 학습 알고리즘을 위해 특별히 설계되었습니다. 이 로봇의 좁은 시뮬레이션-현실 간극은 가벼운 도메인 랜덤화를 사용한 간단한 강화 학습 컨트롤러를 통해 야외 환경의 다양한 지형에서 민첩하고 견고한 이동을 가능하게 합니다. 또한, 우리는 로봇이 수백 미터를 주행하고, 가파른 비포장 길을 걷고, 단일 및 이중 다리로 점프하는 것을 시연하여 동적 보행에서의 높은 성능을 입증합니다. 전방위 이동이 가능하고 컴팩트한 설정으로 큰 외란을 견딜 수 있는 이 시스템은 학습 기반 휴머노이드 시스템의 확장 가능한 시뮬레이션-현실 배포를 목표로 합니다. 자세한 내용은 http://berkeley-humanoid.com을 참조하십시오.
얼굴 표정과 손동작은 우리의 감정을 표현하고 세상과 상호작용하기 위해 필수적입니다. 그러나 캐주얼하게 촬영된 비디오로부터 모델링된 대부분의 3D 인간 아바타는 얼굴 표정과 손동작 없이 신체 동작만을 지원합니다. 본 연구에서는 짧은 단안 비디오로부터 학습된 표현력 있는 전신 3D 인간 아바타인 ExAvatar를 제시합니다. 우리는 ExAvatar를 전신 파라메트릭 메쉬 모델(SMPL-X)과 3D 가우시안 스플래팅(3DGS)의 조합으로 설계했습니다. 주요 도전 과제는 1) 비디오 내 얼굴 표정과 자세의 다양성 부족과 2) 3D 스캔 및 RGBD 이미지와 같은 3D 관측 데이터의 부재입니다. 비디오 내 다양성 부족은 새로운 얼굴 표정과 자세를 가진 애니메이션을 생성하는 것을 어렵게 만듭니다. 또한, 3D 관측 데이터의 부재는 비디오에서 관찰되지 않은 신체 부위에서 상당한 모호성을 초래할 수 있으며, 이는 새로운 동작에서 눈에 띄는 아티팩트를 유발할 수 있습니다. 이를 해결하기 위해 우리는 메쉬와 3D 가우시안의 하이브리드 표현을 도입했습니다. 우리의 하이브리드 표현은 각 3D 가우시안을 SMPL-X의 메쉬 토폴로지를 따르는 사전 정의된 연결 정보(즉, 삼각형 면)를 가진 표면의 정점으로 취급합니다. 이를 통해 ExAvatar는 SMPL-X의 얼굴 표정 공간에 의해 구동되어 새로운 얼굴 표정으로 애니메이션 가능하게 만듭니다. 또한, 연결 기반 정규화를 사용하여 새로운 얼굴 표정과 자세에서의 아티팩트를 크게 줄입니다.
저자 익명화는 텍스트 내 저자의 정체성을 숨기기 위해 글쓰기 스타일, 어휘, 구문 및 기타 언어적 특징을 변경하는 것을 목표로 합니다. 이러한 변경은 프라이버시와 유용성 사이의 균형을 맞추어야 합니다. 강력한 익명화 기술은 저자의 정체성을 효과적으로 숨길 수 있지만, 종종 텍스트의 품질과 의도된 목적에 대한 유용성을 저하시킵니다. 반대로, 높은 유용성을 유지하는 것은 프라이버시를 충분히 보호하지 못해 공격자가 저자를 식별하기 쉬워지는 경향이 있습니다. 따라서 이 두 상충되는 목표 사이의 최적의 균형을 달성하는 것이 중요합니다. 본 논문에서는 TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization을 제안합니다. 이는 다운스트림 유용성을 고려하여 전체 텍스트를 재생성함으로써 프라이버시-유용성 균형을 최적화하는 새로운 비지도 저자 익명화 방법입니다. 우리의 접근 방식은 작은 언어 모델에 대한 미세 조정 패러다임으로서 정책 최적화를 활용하여 저자 정체성과 다운스트림 작업 유용성을 보존하면서 텍스트를 재작성합니다. 우리의 접근 방식이 공격자의 정확도를 크게 줄이면서 유용성을 유지한다는 것을 보여줍니다. 우리는 코드와 모델을 공개적으로 제공합니다.
현재의 시각적 기반 모델들은 순수하게 비정형 2D 데이터로만 학습되어, 객체와 장면의 3D 구조에 대한 이해가 제한적입니다. 본 연구에서는 3D 인식 데이터를 활용한 미세 조정(fine-tuning)이 새롭게 등장하는 의미론적 특징(semantic features)의 품질을 향상시킨다는 것을 보여줍니다. 우리는 의미론적 2D 특징을 효율적인 3D 가우시안 표현(Gaussian representation)으로 변환하는 방법을 설계하여, 이를 임의의 시점에서 재렌더링할 수 있도록 했습니다. 렌더링된 3D 인식 특징을 사용하여, 이러한 3D 인식을 2D 기반 모델로 전달하는 미세 조정 전략을 설계했습니다. 이러한 방식으로 미세 조정된 모델은 단순한 선형 탐색(linear probing)을 통해 의미론적 분할(semantic segmentation) 및 깊이 추정(depth estimation)과 같은 하위 작업의 성능을 즉각적으로 개선하는 특징을 생성함을 입증했습니다. 특히, 단일 실내 데이터셋에서 미세 조정되었음에도 불구하고, 이러한 개선은 다양한 실내 데이터셋과 도메인 외(out-of-domain) 데이터셋으로도 전이 가능했습니다. 우리는 이 연구가 2D 기반 모델을 학습할 때 3D 인식을 주입하는 것을 고려하도록 커뮤니티를 독려하기를 바랍니다. 프로젝트 페이지: https://ywyue.github.io/FiT3D.
비디오 생성을 위해 사전 학습된 이미지 확산 모델에 시간적 차원을 통합하는 것은 일반적인 접근 방식입니다. 그러나 이 방법은 계산적으로 부담이 크며 대규모 비디오 데이터셋을 필요로 합니다. 더 중요한 것은, 이미지와 비디오 데이터셋 간의 이질성으로 인해 이미지 전문성이 심각하게 손실되는 경우가 많다는 점입니다. 최근에는 이미지 확산 모델에서 직접 비디오 스니펫을 추출하려는 시도가 이러한 문제를 어느 정도 완화했습니다. 그럼에도 불구하고, 이러한 방법들은 단순한 움직임만을 가진 짧은 비디오 클립만 생성할 수 있으며, 미세한 동작이나 비정형 변형을 포착하지 못합니다. 본 논문에서는 Stable Diffusion과 같은 기존 이미지 합성 방법에서 별도의 학습이나 최적화 없이도 고품질 비디오 클립을 직접 샘플링할 수 있는 새로운 Zero-Shot 비디오 샘플링 알고리즘인 ZS^2를 제안합니다. 구체적으로, ZS^2는 의존성 노이즈 모델과 시간적 모멘텀 어텐션을 활용하여 각각 콘텐츠 일관성과 애니메이션 일관성을 보장합니다. 이러한 능력 덕분에 조건부 및 맥락 특화 비디오 생성, 지시 기반 비디오 편집과 같은 관련 작업에서 뛰어난 성능을 발휘할 수 있습니다. 실험 결과, ZS^2는 제로샷 비디오 생성에서 최첨단 성능을 달성하며, 때로는 최근의 지도 학습 방법을 능가하기도 합니다. 홈페이지: https://densechen.github.io/zss/.
신경 필드(Neural Fields)는 의미론, 기하학, 동역학 등을 추론하는 3D 시각 세계를 이해하는 능력 덕분에 컴퓨터 비전과 로보틱스 분야에서 뛰어난 성과를 보여줍니다. 신경 필드가 2D 이미지로부터 3D 장면을 밀집하게 표현할 수 있는 능력을 고려할 때, 우리는 다음과 같은 질문을 던집니다: 마스크드 오토인코더를 사용하여 포즈가 지정된 RGB 이미지로부터 효과적인 3D 표현을 생성하기 위해 신경 필드의 자기 지도 사전 학습을 확장할 수 있을까요? 트랜스포머를 새로운 데이터 모달리티로 확장한 놀라운 성공에 힘입어, 우리는 NeRF의 독특한 공식화에 적합하도록 표준 3D Vision Transformer를 사용합니다. 우리는 NeRF의 볼륨 그리드를 트랜스포머의 밀집 입력으로 활용하며, 이는 정보 밀도가 불균일하고 표현이 불규칙할 수 있는 포인트 클라우드와 같은 다른 3D 표현과 대조됩니다. NeRF와 같은 암묵적 표현에 마스크드 오토인코더를 적용하는 어려움 때문에, 우리는 카메라 궤적을 사용하여 샘플링함으로써 도메인 간 장면을 정규화하는 명시적 표현을 추출하는 방법을 선택합니다. 우리의 목표는 NeRF의 복사도와 밀도 그리드에서 무작위 패치를 마스킹하고 표준 3D Swin Transformer를 사용하여 마스킹된 패치를 재구성함으로써 달성할 수 있습니다. 이를 통해 모델은 전체 장면의 의미론적 및 공간적 구조를 학습할 수 있습니다. 우리는 제안한 포즈가 지정된 RGB 데이터 세트에서 총 180만 장 이상의 이미지를 사용하여 이 표현을 대규모로 사전 학습합니다. 사전 학습이 완료되면, 인코더는 효과적인 3D 전이 학습에 사용됩니다. 우리의 새로운 자기 지도 사전 학습 방법인 NeRF-MAE는 NeRF를 위해 확장성이 뛰어나며 다양한 도전적인 3D 작업에서 성능을 향상시킵니다. 레이블이 없는 포즈가 지정된 2D 데이터를 사전 학습에 활용함으로써, NeRF-MAE는 Front3D 및 ScanNet 데이터셋에서 자기 지도 3D 사전 학습 및 NeRF 장면 이해 베이스라인을 크게 능가하며, 3D 객체 탐지에서 AP50 기준 20% 이상, AP25 기준 8%의 절대적 성능 향상을 보여줍니다.