번역이 포함된 일일 선별된 AI 연구 논문
우리는 기본 대형 언어 모델(LLM)을 간단하면서도 효율적이고 효과적으로 확장할 수 있는 새로운 기법인 깊이 업스케일링(DUS)을 소개한다. 전문가 혼합(MoE)과 달리 DUS는 학습과 추론 과정에서 복잡한 변경을 요구하지 않는다. DUS를 활용하여 우리는 107억 개의 파라미터를 가진 대형 언어 모델인 SOLAR 10.7B를 구축했으며, 다양한 자연어 처리(NLP) 작업에서 우수한 성능을 입증했다. 비교 평가 결과, SOLAR 10.7B는 Llama 2와 Mistral 7B와 같은 기존의 오픈소스 사전 학습된 LLM들을 능가하는 것으로 나타났다. 또한, 우리는 명령어 수행 능력을 위해 미세 조정된 변형 모델인 SOLAR 10.7B-Instruct를 제시하며, 이는 Mixtral-8x7B를 능가하는 성능을 보였다. SOLAR 10.7B는 Apache 2.0 라이선스 하에 공개되어, LLM 분야에서의 광범위한 접근성과 활용을 촉진한다.
본 논문은 대규모 언어 모델을 쿼리하고 프롬프트하는 과정을 간소화하기 위해 설계된 26가지 지침 원칙을 소개합니다. 우리의 목표는 다양한 규모의 대규모 언어 모델에 대한 질문을 구성하는 기본 개념을 단순화하고, 이들의 능력을 검토하며, 서로 다른 프롬프트를 입력했을 때 다양한 규모의 대규모 언어 모델의 행동에 대한 사용자의 이해를 향상시키는 것입니다. LLaMA-1/2 (7B, 13B 및 70B), GPT-3.5/4에 대한 광범위한 실험을 통해 제안된 원칙들이 지침 및 프롬프트 설계에 미치는 효과를 검증하였습니다. 이 연구가 대규모 언어 모델의 프롬프트 작업에 종사하는 연구자들에게 더 나은 가이드를 제공하기를 바랍니다. 프로젝트 페이지는 https://github.com/VILA-Lab/ATLAS에서 확인할 수 있습니다.
AI 에이전트와 메타버스의 등장으로 맞춤형이고 표현력이 풍부한 3D 캐릭터에 대한 수요가 증가하고 있지만, 기존 컴퓨터 그래픽 도구를 사용하여 3D 캐릭터를 만드는 것은 복잡하고 시간이 많이 소요되는 작업입니다. 이러한 문제를 해결하기 위해, 우리는 텍스트 설명으로부터 생생한 3D 아바타를 생성하는 사용자 친화적인 프레임워크인 Make-A-Character(Mach)를 제안합니다. 이 프레임워크는 대규모 언어 및 비전 모델의 힘을 활용하여 텍스트 의도 이해와 중간 이미지 생성을 수행한 후, 인간 중심의 시각적 인지 및 3D 생성 모듈을 거칩니다. 우리의 시스템은 사용자가 기대에 부합하는 제어 가능하고 현실적이며 완전히 구현된 3D 캐릭터를 2분 이내에 손쉽게 제작할 수 있도록 직관적인 접근 방식을 제공하며, 동적 표현력을 위해 기존 CG 파이프라인과의 쉬운 통합도 가능하게 합니다. 더 자세한 정보는 프로젝트 페이지(https://human3daigc.github.io/MACH/)를 방문해 주세요.
참조 기반 객체 분할 작업들, 즉 참조 이미지 분할(Referring Image Segmentation, RIS), 소수 샷 이미지 분할(Few-Shot Image Segmentation, FSS), 참조 비디오 객체 분할(Referring Video Object Segmentation, RVOS), 그리고 비디오 객체 분할(Video Object Segmentation, VOS)은 언어 또는 주석이 달린 마스크를 참조로 사용하여 특정 객체를 분할하는 것을 목표로 합니다. 각 분야에서 상당한 진전이 있었음에도 불구하고, 현재의 방법들은 작업별로 특화되어 설계되고 다양한 방향으로 발전되어 왔으며, 이는 이러한 작업들에 대한 다중 작업 능력의 활성화를 방해하고 있습니다. 본 연구에서는 이러한 분열된 상황을 종결하고, 단일 아키텍처로 네 가지 참조 기반 객체 분할 작업을 통합하는 UniRef++를 제안합니다. 우리의 접근 방식의 핵심은 제안된 UniFusion 모듈로, 이 모듈은 지정된 참조에 따라 다양한 작업을 처리하기 위한 다중 방식 융합을 수행합니다. 그리고 인스턴스 수준 분할을 달성하기 위해 통합된 Transformer 아키텍처를 채택합니다. 이러한 통합 설계를 통해 UniRef++는 다양한 벤치마크에서 공동으로 학습될 수 있으며, 런타임에 해당 참조를 지정함으로써 유연하게 여러 작업을 완료할 수 있습니다. 우리는 다양한 벤치마크에서 통합 모델을 평가합니다. 광범위한 실험 결과는 제안된 UniRef++가 RIS와 RVOS에서 최첨단 성능을 달성하고, 매개변수 공유 네트워크를 통해 FSS와 VOS에서도 경쟁력 있는 성능을 보여줌을 나타냅니다. 또한, 제안된 UniFusion 모듈이 현재의 고급 기초 모델인 SAM에 쉽게 통합될 수 있으며, 매개변수 효율적인 미세 조정을 통해 만족스러운 결과를 얻을 수 있음을 보여줍니다. 코드와 모델은 https://github.com/FoundationVision/UniRef에서 확인할 수 있습니다.
다중모달 대형 언어 모델(MLLMs)의 급속히 진화하는 분야는 인공지능에서 언어와 시각 처리의 통합을 선도하고 있습니다. 본 논문은 Google의 Gemini와 OpenAI의 GPT-4V(ision)라는 두 가지 선구적인 모델에 대한 심층적인 비교 연구를 제시합니다. 우리의 연구는 시각-언어 능력, 인간과의 상호작용, 시간적 이해력, 그리고 지능 및 감성 지수 평가와 같은 주요 차원에서 두 모델을 다각적으로 평가합니다. 우리의 분석의 핵심은 각 모델의 독특한 시각 이해 능력을 탐구합니다. 다양한 산업 응용 시나리오에서의 성능을 평가하기 위해 일련의 구조화된 실험을 수행하여 실용적 유용성에 대한 포괄적인 관점을 제공합니다. 직접적인 성능 비교뿐만 아니라 프롬프트와 시나리오 조정을 포함하여 균형 잡히고 공정한 분석을 보장합니다. 우리의 연구 결과는 두 모델의 독특한 강점과 특성을 밝혀냅니다. GPT-4V는 응답의 정확성과 간결함으로 두드러지는 반면, Gemini는 관련 이미지와 링크를 동반한 상세하고 포괄적인 답변에서 뛰어납니다. 이러한 이해는 Gemini와 GPT-4V의 비교적 장점을 밝힐 뿐만 아니라 다중모달 기반 모델의 진화하는 풍경을 강조하며, 이 분야의 미래 발전을 위한 길을 열어줍니다. 비교 후, 우리는 두 모델을 결합하여 더 나은 결과를 달성하려고 시도했습니다. 마지막으로, GPT-4V와 Gemini 팀에게 이 분야의 선구적인 공헌에 대해 깊은 감사를 표합니다. 또한 Yang et al.의 'Dawn'에 제시된 포괄적인 질적 분석에도 감사의 말씀을 전합니다. 이 작업은 광범위한 이미지 샘플, 프롬프트, GPT-4V 관련 결과를 제공하여 우리의 분석에 기초를 마련했습니다.
오디오는 우리 삶의 필수적인 부분이지만, 이를 생성하는 데는 전문 지식이 필요하며 시간이 많이 소요됩니다. 연구 커뮤니티는 지난 한 해 동안 더 강력한 생성 모델을 도입하고 데이터를 확장함으로써 단일 모달리티(음성, 소리, 음악)에 대한 대규모 오디오 생성 모델의 성능을 크게 향상시켰습니다. 그러나 이러한 모델들은 여러 측면에서 제어 가능성이 부족합니다: 음성 생성 모델은 텍스트 설명을 기반으로 새로운 스타일을 합성할 수 없으며, 야외 환경과 같은 도메인 범위가 제한적입니다; 소리 생성 모델은 "사람이 말하는 소리"와 같은 거친 수준의 설명만을 제공하며, 중얼거리는 인간의 목소리만 생성할 수 있습니다. 본 논문은 다양한 오디오 모달리티를 생성할 수 있는 플로우 매칭 기반의 통합 모델인 Audiobox를 소개합니다. 우리는 제어 가능성을 강화하고 음성 및 소리 생성 패러다임을 통합하기 위해 설명 기반 및 예제 기반 프롬프트를 설계했습니다. 음성을 생성할 때, 텍스트, 보컬 및 기타 오디오 스타일을 독립적으로 제어할 수 있도록 했습니다. 제한된 라벨로 모델의 일반화를 개선하기 위해, 대량의 라벨 없는 오디오에 대해 자기 지도 학습 방식의 인필링 목적 함수를 적용하여 사전 학습을 진행했습니다. Audiobox는 음성 및 소리 생성에서 새로운 벤치마크를 설정했습니다(제로샷 TTS에서 Librispeech 기준 0.745 유사도; 텍스트-투-사운드에서 AudioCaps 기준 0.77 FAD). 또한 새로운 보컬 및 음향 스타일로 오디오를 생성하는 새로운 방법을 개척했습니다. 우리는 Bespoke Solvers를 통합하여, 여러 작업에서 성능 저하 없이 플로우 매칭의 기본 ODE 솔버 대비 25배 이상 빠른 생성을 가능하게 했습니다. 데모는 https://audiobox.metademolab.com/에서 확인할 수 있습니다.
인간은 3차원 세계에서 살며 자연어를 사용하여 3D 장면과 상호작용합니다. 최근 3D 공간에서의 개방형 언어 질의를 지원하기 위한 3D 언어 필드 모델링이 점점 더 주목받고 있습니다. 본 논문은 LangSplat을 소개하며, 이는 3D 공간 내에서 정확하고 효율적인 개방형 어휘 질의를 가능하게 하는 3D 언어 필드를 구축합니다. 기존의 NeRF 모델에 CLIP 언어 임베딩을 적용하는 방법과 달리, LangSplat은 CLIP에서 추출된 언어 특징을 인코딩한 3D 가우시안 집합을 사용하여 언어 필드를 표현함으로써 이 분야를 발전시킵니다. 언어 특징을 렌더링하기 위해 타일 기반 스플래팅 기법을 사용함으로써, NeRF에 내재된 고비용 렌더링 프로세스를 회피합니다. LangSplat은 CLIP 임베딩을 직접 학습하는 대신, 먼저 장면별 언어 오토인코더를 학습한 후 장면 특정 잠재 공간에서 언어 특징을 학습함으로써 명시적 모델링이 요구하는 상당한 메모리 부담을 완화합니다. 기존 방법들은 객체 간 명확한 경계를 구분하지 못하는 부정확하고 모호한 3D 언어 필드에 어려움을 겪습니다. 우리는 이 문제를 심층적으로 분석하고 SAM을 사용하여 계층적 의미를 학습함으로써 다양한 스케일에서 언어 필드를 광범위하게 질의할 필요와 DINO 특징의 정규화를 제거하는 방안을 제안합니다. 개방형 어휘 3D 객체 위치 지정 및 의미론적 분할에 대한 광범위한 실험을 통해 LangSplat이 이전의 최첨단 방법인 LERF를 큰 차이로 능가함을 입증합니다. 특히, LangSplat은 매우 효율적이며, 1440x1080 해상도에서 LERF 대비 {\speed}배의 속도 향상을 달성합니다. 독자 여러분께서는 https://langsplat.github.io에서 저희의 비디오 결과를 확인하시길 강력히 권장합니다.
디퓨전 기반 텍스트-투-비디오 생성은 지난해 큰 진전을 이루었지만 여전히 텍스트-투-이미지 생성에 비해 뒤처지고 있습니다. 주요 이유 중 하나는 비디오 캡셔닝의 높은 비용을 고려할 때 공개적으로 이용 가능한 데이터의 규모가 제한적이라는 점입니다(예: WebVid10M의 1천만 개 비디오-텍스트 쌍 vs. LAION의 50억 개 이미지-텍스트 쌍). 대신, YouTube와 같은 비디오 플랫폼에서 라벨이 없는 클립을 수집하는 것이 훨씬 더 쉬울 수 있습니다. 이를 바탕으로, 우리는 텍스트가 없는 비디오로 직접 학습할 수 있는 새로운 텍스트-투-비디오 생성 프레임워크인 TF-T2V를 제안합니다. 이 프레임워크의 핵심 아이디어는 텍스트 디코딩 과정과 시간적 모델링 과정을 분리하는 것입니다. 이를 위해 콘텐츠 브랜치와 모션 브랜치를 도입하고, 이 둘을 가중치를 공유하며 공동으로 최적화합니다. 이러한 파이프라인을 따라, 우리는 텍스트가 없는 비디오를 무작위로 수집하여 학습 데이터셋의 규모를 두 배로 늘렸을 때(즉, 비디오만 있는 WebVid10M) 성능이 향상되는 것을 확인했습니다(FID가 9.67에서 8.19로, FVD가 484에서 441로 감소). 이는 우리의 접근 방식의 확장성을 보여줍니다. 또한, 일부 텍스트 라벨을 다시 도입하여 학습했을 때 모델의 성능이 지속적으로 향상되는 것도 발견했습니다(FID가 8.19에서 7.64로, FVD가 441에서 366으로 감소). 마지막으로, 우리는 기본 텍스트-투-비디오 생성과 조합적 비디오 합성 패러다임 모두에서 우리의 아이디어의 효과성과 일반화 가능성을 검증했습니다. 코드와 모델은 https://tf-t2v.github.io/에서 공개될 예정입니다.
단일 이미지 3D 생성 분야의 최근 발전은 인터넷 규모의 이미지로 사전 학습된 대규모 확산 모델의 3D 사전 지식을 활용한 다중 뷰 일관성의 중요성을 강조하고 있습니다. 그러나 2D 이미지를 3D 콘텐츠로 변환하는 과정에서 발생할 수 있는 다양한 잠재적 형태로 인해 새로운 뷰의 다양성 측면은 연구 환경에서 충분히 탐구되지 못했습니다. 본 연구에서는 일관성과 다양성이라는 두 가지 측면을 동시에 해결함으로써 이러한 연구 격차를 해소하고자 합니다. 그러나 이 두 가지 측면 간의 균형을 맞추는 것은 본질적인 상충 관계로 인해 상당한 도전 과제로 남아 있습니다. 이 연구에서는 단일 이미지 3D 생성에서 일관성과 다양성이라는 두 가지 복잡한 측면을 분해하는 데 능숙한 간단하면서도 효과적인 확산 샘플링 기법인 HarmonyView를 소개합니다. 이 접근법은 샘플링 과정 내에서 이 두 가지 중요한 차원을 더욱 세밀하게 탐구할 수 있는 길을 열어줍니다. 또한, 생성된 뷰의 다양성을 종합적으로 평가하기 위해 CLIP 이미지 및 텍스트 인코더를 기반으로 한 새로운 평가 지표를 제안하며, 이는 인간 평가자의 판단과 밀접하게 일치합니다. 실험에서 HarmonyView는 일관성과 다양성 모두에서 윈윈 시나리오를 보여주며 조화로운 균형을 달성했습니다.
텍스트-이미지 생성을 위해 상용 및 오픈소스 확산 모델(DMs)이 널리 사용되면서, 원치 않는 행동을 방지하기 위한 위험 완화 조치가 요구되고 있습니다. 학계에서 기존에 제안된 개념 삭제 방법들은 모두 전체 파라미터 또는 사양 기반 미세 조정에 기반을 두고 있으며, 여기서 다음과 같은 문제점들이 관찰되었습니다: 1) 생성 결과의 침식적 변화: 목표 개념 제거 과정에서 발생하는 파라미터 드리프트는 모든 생성 결과에 변화와 잠재적 변형을 초래하며, 특히 다중 개념 삭제 시 다른 개념들도 다양한 정도로 침식되는 현상이 더욱 두드러집니다. 2) 전이 불가능성 및 배포 비효율성: 기존의 모델 특정적 삭제 방식은 개념들의 유연한 조합을 방해하고, 다른 모델로의 학습 없는 전이를 어렵게 하여 배포 시나리오가 증가함에 따라 비용이 선형적으로 증가하는 문제를 야기합니다. 이러한 문제를 해결하기 위해, 우리는 비침습적이고 정확하며 사용자 정의 가능하며 전이 가능한 개념 삭제를 달성하기 위해 1차원 어댑터를 기반으로 한 삭제 프레임워크를 설계했습니다. 이 프레임워크는 다양한 삭제 응용 프로그램에서 대부분의 DMs로부터 다중 개념을 한 번에 삭제할 수 있도록 합니다. 개념-반투과 구조는 Membrane(SPM)으로서 어떤 DM에도 주입되어 목표 삭제를 학습하며, 동시에 새로운 Latent Anchoring 미세 조정 전략을 통해 변화와 침식 현상을 효과적으로 완화합니다. 일단 학습된 SPM은 특별한 재조정 없이도 다른 DMs에 플러그 앤 플레이 방식으로 유연하게 결합될 수 있어, 다양한 시나리오에 적시적이고 효율적으로 적응할 수 있습니다. 생성 과정에서 우리의 Facilitated Transport 메커니즘은 각 SPM의 투과성을 동적으로 조절하여 다양한 입력 프롬프트에 반응함으로써, 다른 개념에 미치는 영향을 더욱 최소화합니다. 약 40개의 개념, 7개의 DMs, 그리고 4개의 삭제 응용 프로그램에 걸친 정량적 및 정성적 결과들은 SPM의 우수한 삭제 성능을 입증했습니다. 우리의 코드와 사전 조정된 SPM들은 프로젝트 페이지 https://lyumengyao.github.io/projects/spm에서 공개될 예정입니다.
대규모 언어 모델(LLMs)은 프롬프트 엔지니어링을 통해 문맥 학습 능력이 점차 발전하고 있습니다. 최근 대규모 생성 모델의 진보는 실제 언어 응용 분야에서의 활용을 더욱 확장시켰습니다. 그러나 자연어 이해와 질문 응답에서 LLMs의 일반화 능력과 사실성 향상이라는 중요한 과제는 아직 충분히 탐구되지 않았습니다. 기존의 문맥 학습 연구는 사용자의 특정 지시와 품질 기대에 부응하고 원치 않는 출력을 피하도록 모델을 개선하는 데 초점을 맞추었지만, 추론 단계에서 LLMs의 문맥 학습을 개선하기 위해 작업 특화 미세 조정 언어 모델(SLMs)을 활용하는 연구는 거의 이루어지지 않았습니다. 우리의 주요 기여는 LLMs의 신뢰성을 향상시키는 간단하지만 효과적인 프레임워크를 구축한 것으로, 이는 1) 분포 외 데이터를 일반화하고, 2) LLMs가 판별 모델로부터 어떻게 이점을 얻는지를 명확히 하며, 3) 생성 작업에서의 환각 현상을 최소화합니다. 우리가 제안한 플러그인 방식을 사용하여 Llama 2와 ChatGPT의 개선된 버전은 원본 버전보다 일반화 능력과 사실성 면에서 우수한 성능을 보였습니다. 우리는 9가지 다양한 작업에 걸쳐 16개의 정제된 데이터셋, 프롬프트, 모델 체크포인트, 그리고 LLM 출력을 포함한 포괄적인 리소스 세트를 제공합니다. 우리의 실증적 분석은 판별 모델을 LLMs에 통합하는 이점을 밝히고, 우리의 방법론이 더 신뢰할 수 있는 LLMs를 조성하는 데 있어 잠재력을 강조합니다.
단일 뷰 비디오로부터 인간 신체를 재구성하는 것은 가상 현실 분야에서 중요한 역할을 합니다. 특히, 높은 충실도의 3D 디지털 인간을 빠르게 재구성하면서 동시에 실시간 렌더링과 상호작용을 보장해야 하는 일반적인 응용 시나리오가 있습니다. 기존 방법들은 이러한 두 가지 요구 사항을 모두 충족시키는 데 어려움을 겪습니다. 본 논문에서는 Human101이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 1-view 비디오로부터 고품질의 동적 3D 인간 재구성을 생성하는 데 능숙하며, 3D 가우시안을 100초 내에 학습하고 100+ FPS로 렌더링할 수 있습니다. 우리의 방법은 3D 가우시안 스플래팅의 강점을 활용하여 3D 인간을 명시적이고 효율적으로 표현합니다. 기존의 NeRF 기반 파이프라인과 달리, Human101은 인간 중심의 전방향 가우시안 애니메이션 방법을 독창적으로 적용하여 3D 가우시안의 매개변수를 변형함으로써 렌더링 속도를 향상시킵니다(즉, 1024 해상도 이미지를 60+ FPS로, 512 해상도 이미지를 100+ FPS로 렌더링). 실험 결과는 우리의 접근 방식이 현재의 방법들을 크게 능가하며, 초당 프레임 수가 최대 10배 증가하고 렌더링 품질이 비슷하거나 더 우수함을 보여줍니다. 코드와 데모는 https://github.com/longxiang-ai/Human101에서 공개될 예정입니다.