번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)을 하위 작업에 적응시키기 위해서는 효율적인 미세 조정이 필수적입니다. 그러나 이러한 방법들을 다양한 모델에 구현하려면 상당한 노력이 필요합니다. 우리는 LlamaFactory를 소개합니다. 이는 최첨단 효율적 학습 방법들을 통합한 통합 프레임워크로, 내장된 웹 UI인 LlamaBoard를 통해 코딩 없이도 100개 이상의 LLM을 유연하게 미세 조정할 수 있게 해줍니다. 우리는 언어 모델링 및 텍스트 생성 작업에서 이 프레임워크의 효율성과 효과를 실증적으로 검증했습니다. 이 프레임워크는 https://github.com/hiyouga/LLaMA-Factory에서 공개되었으며, 이미 13,000개 이상의 스타와 1,600개의 포크를 받았습니다.
Sora는 사회 전반에 걸쳐 큰 주목을 받은 최초의 대규모 범용 비디오 생성 모델입니다. OpenAI가 2024년 2월에 출시한 이후, Sora의 성능이나 다양한 비디오 생성 작업을 지원하는 능력에 필적할 만한 다른 비디오 생성 모델은 아직 등장하지 않았습니다. 또한, 완전히 공개된 비디오 생성 모델은 극소수에 불과하며, 대부분은 클로즈드 소스 상태입니다. 이러한 격차를 해소하기 위해, 본 논문은 Sora가 보여준 범용 비디오 생성을 모방하기 위해 여러 고급 시각 AI 에이전트를 통합한 새로운 다중 에이전트 프레임워크인 Mora를 제안합니다. 특히, Mora는 여러 시각 에이전트를 활용하여 (1) 텍스트-투-비디오 생성, (2) 텍스트 조건부 이미지-투-비디오 생성, (3) 생성된 비디오 확장, (4) 비디오-투-비디오 편집, (5) 비디오 연결, (6) 디지털 세계 시뮬레이션과 같은 다양한 작업에서 Sora의 비디오 생성 능력을 성공적으로 모방할 수 있습니다. 우리의 광범위한 실험 결과는 Mora가 다양한 작업에서 Sora에 근접한 성능을 달성함을 보여줍니다. 그러나 전반적으로 평가했을 때, 우리의 작업과 Sora 사이에는 명백한 성능 격차가 존재합니다. 요약하자면, 우리는 이 프로젝트가 협력적인 AI 에이전트를 통해 비디오 생성의 미래 방향을 이끌어갈 수 있기를 바랍니다.
우리는 강력한 파운데이션 모델의 자동 생성에 진화 알고리즘을 적용한 새로운 접근법을 소개한다. 모델 병합은 비용 효율성으로 인해 대형 언어 모델(LLM) 개발에 유망한 방법으로 부상했지만, 현재는 인간의 직관과 도메인 지식에 의존하고 있어 그 잠재력이 제한적이다. 본 연구에서는 이러한 한계를 극복하기 위해 다양한 오픈소스 모델의 효과적인 조합을 자동으로 발견하고, 추가적인 대규모 학습 데이터나 컴퓨팅 자원 없이도 이들의 집단 지능을 활용하는 진화적 접근법을 제안한다. 우리의 접근법은 파라미터 공간과 데이터 흐름 공간 모두에서 작동하여 개별 모델의 가중치 이상의 최적화를 가능하게 한다. 이 접근법은 심지어 도메인 간 병합도 가능하게 하여, 수학 추론 능력을 갖춘 일본어 LLM과 같은 모델을 생성할 수 있다. 놀랍게도, 우리의 일본어 수학 LLM은 다양한 일본어 LLM 벤치마크에서 최첨단 성능을 달성했으며, 해당 작업에 명시적으로 훈련되지 않았음에도 불구하고 훨씬 더 많은 파라미터를 가진 모델들을 능가했다. 또한, 우리의 접근법을 통해 생성된 문화 인식 일본어 시각 언어 모델(VLM)은 일본 문화 특화 콘텐츠를 설명하는 데 있어 이전의 일본어 VLM들을 능가하며 그 효과를 입증했다. 이 연구는 오픈소스 커뮤니티에 새로운 최첨단 모델을 기여할 뿐만 아니라, 자동화된 모델 구성에 대한 새로운 패러다임을 제시함으로써 파운데이션 모델 개발을 위한 대체적이고 효율적인 접근법을 탐구할 수 있는 길을 열어준다.
우리는 SceneScript를 소개합니다. 이 방법은 자동회귀적 토큰 기반 접근법을 사용하여 전체 장면 모델을 구조화된 언어 명령어의 시퀀스로 직접 생성합니다. 우리가 제안한 장면 표현 방식은 트랜스포머와 대형 언어 모델(LLM)의 최근 성공에서 영감을 받았으며, 기존의 메시, 복셀 그리드, 포인트 클라우드 또는 방사 필드로 장면을 표현하는 전통적인 방법과는 차별화됩니다. 우리의 방법은 장면 언어 인코더-디코더 아키텍처를 사용하여 인코딩된 시각 데이터로부터 직접 구조화된 언어 명령어 집합을 추론합니다. SceneScript를 학습시키기 위해, 우리는 10만 개의 고품질 실내 장면으로 구성된 Aria Synthetic Environments라는 대규모 합성 데이터셋을 생성하고 공개합니다. 이 데이터셋은 포토리얼리스틱한 에고센트릭 장면 워크스루 렌더링과 정확한 실측 데이터를 포함합니다. 우리의 방법은 건축 레이아웃 추정에서 최첨단 결과를 보여주며, 3D 객체 탐지에서도 경쟁력 있는 결과를 달성합니다. 마지막으로, 우리는 SceneScript의 장점 중 하나인 구조화된 언어에 간단한 추가를 통해 새로운 명령어에 쉽게 적응할 수 있는 능력을 탐구하며, 이를 통해 대략적인 3D 객체 부품 재구성과 같은 작업을 예시로 보여줍니다.
비전 모델의 크기를 확장하는 것은 더 강력한 시각적 표현을 얻기 위한 사실상의 표준이 되어 왔습니다. 본 연구에서는 더 큰 비전 모델이 필요하지 않은 시점에 대해 논의합니다. 먼저, 우리는 Scaling on Scales(S^2)의 힘을 보여줍니다. 이 방법은 사전 학습되고 고정된 더 작은 비전 모델(예: ViT-B 또는 ViT-L)을 여러 이미지 스케일에 걸쳐 실행함으로써 더 큰 모델(예: ViT-H 또는 ViT-G)을 분류, 세그멘테이션, 깊이 추정, 멀티모달 LLM(MLLM) 벤치마크 및 로봇 조작에서 능가할 수 있음을 입증합니다. 특히, S^2는 V* 벤치마크에서 MLLM의 세부 이해에 있어 GPT-4V와 같은 모델을 능가하는 최첨단 성능을 달성합니다. 우리는 S^2가 모델 크기 확장에 비해 선호되는 접근 방식이 되는 조건을 검토합니다. 더 큰 모델은 어려운 예제에서 더 나은 일반화 능력을 갖는 장점이 있지만, 우리는 더 큰 비전 모델의 특징이 다중 스케일의 더 작은 모델에 의해 잘 근사될 수 있음을 보여줍니다. 이는 현재의 대규모 사전 학습 모델이 학습한 표현의 대부분, 혹은 전부가 다중 스케일의 더 작은 모델에서도 얻을 수 있음을 시사합니다. 우리의 결과는 다중 스케일의 더 작은 모델이 더 큰 모델과 비슷한 학습 능력을 가지며, S^2를 사용해 더 작은 모델을 사전 학습하면 더 큰 모델의 장점을 따라잡거나 심지어 능가할 수 있음을 보여줍니다. 우리는 S^2를 단 한 줄의 코드로 어떤 비전 모델에든 적용할 수 있는 Python 패키지를 공개합니다: https://github.com/bfshi/scaling_on_scales.
개인화된 초상화 생성에 Stable Diffusion을 활용하는 것은 사용자가 특정 프롬프트를 기반으로 고품질의 맞춤형 캐릭터 아바타를 생성할 수 있게 해주는 강력하고 주목할 만한 도구로 부상했습니다. 그러나 기존의 개인화 방법들은 테스트 시점 미세 조정, 다중 입력 이미지 요구, 정체성 보존의 낮은 수준, 그리고 생성 결과의 제한된 다양성과 같은 문제에 직면해 있습니다. 이러한 문제를 극복하기 위해, 우리는 단일 얼굴 이미지로부터 개인화된 이미지 생성에서 다양성과 정체성 보존을 향상시키는 튜닝이 필요 없는 접근 방식인 IDAdapter를 소개합니다. IDAdapter는 텍스트 및 시각적 주입과 얼굴 정체성 손실을 결합하여 생성 과정에 개인화된 개념을 통합합니다. 학습 단계에서, 우리는 특정 정체성의 다중 참조 이미지로부터 혼합된 특징을 통합하여 정체성 관련 콘텐츠 세부 사항을 풍부하게 하고, 이전 작업들에 비해 더 다양한 스타일, 표정, 각도의 이미지를 생성하도록 모델을 안내합니다. 광범위한 평가를 통해 우리의 방법이 생성된 이미지에서 다양성과 정체성 충실도를 모두 달성하는 효과를 입증합니다.
보상 모델(RMs)은 사전 학습된 모델을 인간의 선호에 맞추기 위한 RLHF(Reinforcement Learning from Human Feedback)의 성공에 있어 핵심적인 역할을 합니다. 그러나 이러한 보상 모델의 평가에 초점을 맞춘 연구는 상대적으로 적었습니다. 보상 모델을 평가하는 것은 언어 모델 정렬에 사용되는 불투명한 기술을 이해하고, 그 안에 내재된 가치를 파악할 수 있는 기회를 제공합니다. 현재까지 능력, 훈련 방법 또는 오픈소스 보상 모델에 대한 설명은 매우 드뭅니다. 본 논문에서는 보상 모델에 대한 과학적 이해를 증진시키기 위해 평가용 벤치마크 데이터셋과 코드베이스인 RewardBench를 소개합니다. RewardBench 데이터셋은 채팅, 추론, 안전성에 걸친 프롬프트-승리-패배 삼중항으로 구성되어 있으며, 보상 모델이 도전적이고 구조화된 분포 외 쿼리에서 어떻게 수행되는지 벤치마킹합니다. 우리는 미묘하지만 검증 가능한 이유(예: 버그, 잘못된 사실)로 한 답변이 다른 답변보다 선호되어야 하는 보상 모델을 위한 특정 비교 데이터셋을 생성했습니다. RewardBench 리더보드에서는 분류기의 직접적인 MLE 훈련과 Direct Preference Optimization(DPO)의 암묵적 보상 모델링과 같은 다양한 방법으로 훈련된 보상 모델을 다양한 데이터셋에서 평가합니다. 우리는 다양한 보상 모델의 거부 성향, 추론 한계, 지시 따르기 부족 등에 대한 많은 발견을 제시하여 RLHF 프로세스에 대한 더 나은 이해를 도모합니다.
최근의 연구 결과에 따르면, 멀티모달 대형 언어 모델(MLLM)의 규모를 확장하는 것이 다운스트림 멀티모달 작업에서의 성능을 효과적으로 향상시킨다는 것이 밝혀졌습니다. 현재 주류인 MLLM 패러다임(예: LLaVA)은 정적 시각-언어 매퍼를 사용하여 시각적 특징을 텍스트와 유사한 토큰으로 변환함으로써, 정적 LLM이 시각적 정보를 이해할 수 있는 능력을 시각적 지침 튜닝을 통해 개발할 수 있도록 합니다. 이러한 접근법은 유망하지만, 정적 튜닝 전략(정적 튜닝은 정적 파라미터로 훈련된 모델을 의미함)은 동일한 파라미터를 공유함으로써 다양한 다운스트림 멀티모달 작업에서의 성능을 제한할 수 있습니다. 이를 고려하여, 우리는 HyperLLaVA를 소개합니다. 이는 프로젝터와 LLM 파라미터를 적응적으로 튜닝하며, 각각 동적 시각 전문가와 언어 전문가와 결합됩니다. 이러한 전문가들은 HyperNetworks에서 파생되며, 시각적 및 언어적 지도를 통해 적응적 파라미터 변화를 생성하여, 두 단계의 훈련 과정에서 동적 프로젝터와 LLM 모델링을 가능하게 합니다. 우리의 실험 결과는 우리의 솔루션이 기존 MLLM 벤치마크(MME, MMBench, SEED-Bench, LLaVA-Bench 등)에서 LLaVA를 크게 능가함을 보여줍니다. 우리의 프로젝트는 https://github.com/DCDmllm/HyperLLaVA에서 확인할 수 있습니다.
최근 뷰 합성과 실시간 렌더링 분야에서의 발전은 인상적인 렌더링 속도로 사진처럼 사실적인 품질을 달성했습니다. Radiance Field 기반 방법들은 야외 촬영이나 대규모 장면과 같은 도전적인 시나리오에서 최첨단 품질을 달성하지만, 부피 렌더링과 관련된 과도한 계산 요구량으로 인해 어려움을 겪는 경우가 많습니다. 반면, Gaussian Splatting 기반 방법들은 래스터화에 의존하며 자연스럽게 실시간 렌더링을 달성하지만, 더 도전적인 장면에서는 취약한 최적화 휴리스틱으로 인해 성능이 저하됩니다. 본 연구에서는 복잡한 장면의 견고한 실시간 렌더링을 위한 경량화된 방법인 RadSplat을 제안합니다. 우리의 주요 기여는 세 가지입니다. 첫째, Radiance Field를 사전 정보 및 감독 신호로 사용하여 포인트 기반 장면 표현을 최적화함으로써 품질을 개선하고 더 견고한 최적화를 달성했습니다. 둘째, 고품질을 유지하면서 전체 포인트 수를 줄이는 새로운 가지치기 기법을 개발하여 더 작고 간결한 장면 표현과 더 빠른 추론 속도를 이끌어냈습니다. 마지막으로, 렌더링을 더욱 가속화하고 주택 크기의 더 큰 장면으로 확장할 수 있는 새로운 테스트 시간 필터링 접근 방식을 제안했습니다. 우리의 방법은 900 FPS 이상의 속도로 복잡한 촬영 장면의 최첨단 합성을 가능하게 한다는 것을 발견했습니다.
확산 모델은 특히 트랜스포머 기반 구조 내에서 확장성과 이차 복잡성 문제로 오랫동안 어려움을 겪어왔습니다. 본 연구에서는 Mamba라는 상태-공간 모델의 장기 시퀀스 모델링 능력을 활용하여 시각 데이터 생성에 대한 적용 가능성을 확장하고자 합니다. 먼저, 현재 대부분의 Mamba 기반 비전 방법에서 간과된 중요한 문제, 즉 Mamba의 스캔 방식에서 공간 연속성을 고려하지 않았다는 점을 확인했습니다. 둘째, 이러한 통찰을 바탕으로 Zigzag Mamba라는 간단하고 플러그 앤 플레이 방식이며 매개변수가 없는 방법을 소개합니다. 이 방법은 Mamba 기반 베이스라인을 능가하며 트랜스포머 기반 베이스라인 대비 향상된 속도와 메모리 활용도를 보여줍니다. 마지막으로, Zigzag Mamba를 Stochastic Interpolant 프레임워크와 통합하여 FacesHQ 1024×1024, UCF101, MultiModal-CelebA-HQ, MS COCO 256×256과 같은 고해상도 시각 데이터셋에서 모델의 확장성을 조사합니다. 코드는 https://taohu.me/zigma/에서 공개될 예정입니다.
단안 깊이 추정은 다양한 하위 시각 작업과 응용 분야에서 중요한 역할을 합니다. 현재 이 문제에 대한 판별적 접근법은 흐릿한 아티팩트로 인해 제한적이며, 최신 생성적 방법은 SDE 특성으로 인해 느린 샘플링 속도를 보입니다. 우리는 노이즈에서 시작하는 대신 입력 이미지에서 깊이 맵으로의 직접적인 매핑을 탐구합니다. 이를 위해 플로우 매칭을 효과적으로 활용할 수 있음을 관찰했습니다. 플로우 매칭은 솔루션 공간을 통한 직선 궤적을 제공하여 효율성과 높은 품질을 보장하기 때문입니다. 우리의 연구는 사전 훈련된 이미지 확산 모델이 플로우 매칭 깊이 모델에 대한 적절한 사전 지식으로 작용할 수 있음을 보여줍니다. 이를 통해 합성 데이터만으로 효율적으로 훈련하여 실제 이미지에 일반화할 수 있습니다. 또한 보조 표면 법선 손실이 깊이 추정을 더욱 개선하는 것을 발견했습니다. 우리의 접근법은 생성적 특성을 가지고 있기 때문에, 모델은 깊이 추정의 신뢰도를 안정적으로 예측합니다. 복잡한 자연 장면에 대한 표준 벤치마크에서, 우리의 경량 접근법은 적은 양의 합성 데이터로만 훈련되었음에도 불구하고 유리한 낮은 계산 비용으로 최신 성능을 보여줍니다.
우리는 대략적으로 편집된 이미지를 입력으로 받아, 지정된 레이아웃을 따르는 사실적인 출력을 합성하는 생성 모델을 제안합니다. 우리의 방법은 원본 이미지에서 세부적인 디테일을 전달하고, 그 부분들의 정체성을 유지합니다. 동시에, 새로운 레이아웃에 의해 정의된 조명과 맥락에 맞게 이를 적응시킵니다. 우리의 핵심 통찰은 비디오가 이 작업을 위한 강력한 감독 소스라는 점입니다: 객체와 카메라 움직임은 시점, 조명, 물리적 상호작용에 따라 세상이 어떻게 변하는지에 대한 다양한 관찰을 제공합니다. 우리는 각 샘플이 동일한 비디오에서 무작위로 선택된 시간 간격으로 추출된 소스 프레임과 타겟 프레임 쌍으로 구성된 이미지 데이터셋을 구축합니다. 우리는 예상되는 테스트 시점의 사용자 편집을 모방하는 두 가지 모션 모델을 사용하여 소스 프레임을 타겟 프레임 쪽으로 왜곡합니다. 우리는 사전 훈련된 확산 모델에서 시작하여 왜곡된 이미지를 실제 정답으로 변환하도록 모델을 감독합니다. 우리의 모델 설계는 사용자가 지정한 레이아웃을 밀접히 따르면서도 소스 프레임에서 생성된 이미지로의 세부 디테일 전달을 명시적으로 가능하게 합니다. 우리는 간단한 세그멘테이션과 2D 조작을 사용하여 사용자 입력에 충실한 사실적인 편집을 합성할 수 있음을 보여주며, 조명 조화 및 편집된 객체 간의 물리적 상호작용과 같은 2차 효과를 해결합니다.
대규모 언어 모델(LLMs)은 놀라운 실패 사례를 보입니다: "A는 B라는 특징을 가진다"와 같은 데이터로 학습했을 때, "B는 A의 특징이다"와 같은 역방향 일반화를 수행하지 못하는데, 이를 '역전 저주(Reversal Curse)'라고 부릅니다. 수조 개의 토큰으로 학습하더라도, 이 문제는 지프의 법칙(Zipf's law) 때문에 여전히 발생합니다. 따라서 인터넷 전체를 학습 데이터로 사용하더라도 마찬가지입니다. 본 연구에서는 '역방향 학습(reverse training)'이라는 대안적인 학습 방식을 제안합니다. 이 방식에서는 모든 단어를 두 번 사용함으로써 사용 가능한 토큰의 양을 두 배로 늘립니다. LLM은 학습 문자열을 역방향으로 뒤집되, 엔티티와 같은 특정 부분 문자열은 그대로 유지한 상태로 정방향과 역방향 모두에서 학습됩니다. 우리는 데이터 매칭된 역방향 학습 모델이 표준 작업에서 표준 모델보다 우수한 성능을 보이며, 계산 매칭된 역방향 학습 모델이 역전 작업에서 훨씬 더 뛰어난 성능을 제공함으로써 역전 저주 문제를 해결하는 데 도움을 준다는 것을 보여줍니다.
비디오 아웃페인팅은 입력 비디오의 뷰포트 외부에 비디오 콘텐츠를 생성하면서 프레임 간 및 프레임 내 일관성을 유지하는 것을 목표로 하는 도전적인 작업입니다. 기존 방법들은 생성 품질이나 유연성 측면에서 부족함을 보였습니다. 우리는 MOTIA(Mastering Video Outpainting Through Input-Specific Adaptation)를 소개합니다. 이는 확산 기반 파이프라인으로, 소스 비디오의 고유한 데이터 특정 패턴과 이미지/비디오 생성 사전 지식을 활용하여 효과적인 아웃페인팅을 수행합니다. MOTIA는 두 가지 주요 단계로 구성됩니다: 입력 특정 적응 단계와 패턴 인식 아웃페인팅 단계. 입력 특정 적응 단계는 단일 샷 소스 비디오에 대해 효율적이고 효과적인 가짜 아웃페인팅 학습을 수행합니다. 이 과정은 모델이 소스 비디오 내의 패턴을 식별하고 학습하도록 유도하며, 표준 생성 과정과 아웃페인팅 간의 격차를 줄이는 데 기여합니다. 이후의 패턴 인식 아웃페인팅 단계는 이러한 학습된 패턴을 일반화하여 아웃페인팅 결과를 생성하는 데 전념합니다. 확산 모델의 생성 사전 지식과 소스 비디오에서 획득한 비디오 패턴을 더 잘 활용하기 위해 공간 인식 삽입 및 노이즈 이동과 같은 추가 전략이 제안됩니다. 광범위한 평가를 통해 MOTIA의 우수성이 입증되었으며, 널리 인정받는 벤치마크에서 기존의 최신 방법들을 능가하는 성과를 보였습니다. 특히, 이러한 발전은 과도한 작업 특정 튜닝 없이도 달성되었습니다.
텍스트-투-비디오(T2V) 합성 분야에서 엄청난 진전이 있었음에도 불구하고, 오픈소스 T2V 확산 모델은 동적으로 변화하고 진화하는 콘텐츠를 가진 더 긴 비디오를 생성하는 데 어려움을 겪고 있습니다. 이러한 모델들은 준정적(quasi-static) 비디오를 합성하는 경향이 있어, 텍스트 프롬프트에 내포된 시간에 따른 시각적 변화를 무시합니다. 동시에, 더 길고 동적인 비디오 합성을 가능하게 하기 위해 이러한 모델을 확장하는 것은 종종 계산적으로 불가능에 가깝습니다. 이러한 문제를 해결하기 위해, 우리는 생성적 시간 간호(Generative Temporal Nursing, GTN)라는 개념을 소개합니다. GTN은 추론 과정 중에 생성 과정을 실시간으로 변경하여 시간적 역학에 대한 제어를 개선하고 더 긴 비디오 생성을 가능하게 하는 것을 목표로 합니다. 우리는 GTN을 위한 방법으로 VSTAR를 제안하며, 이는 두 가지 핵심 요소로 구성됩니다: 1) 비디오 시놉시스 프롬프팅(Video Synopsis Prompting, VSP) - 원본 단일 프롬프트를 기반으로 LLM을 활용하여 비디오 시놉시스를 자동으로 생성함으로써 더 긴 비디오의 다양한 시각적 상태에 대한 정확한 텍스트 가이드를 제공하고, 2) 시간적 주의 규제(Temporal Attention Regularization, TAR) - 사전 훈련된 T2V 확산 모델의 시간적 주의 단위를 개선하기 위한 규제 기법으로, 비디오 역학에 대한 제어를 가능하게 합니다. 우리는 실험을 통해 제안된 접근 방식이 기존의 오픈소스 T2V 모델보다 더 길고 시각적으로 매력적인 비디오를 생성하는 데 있어 우수성을 입증합니다. 또한, VSTAR 적용 여부에 따른 시간적 주의 맵을 분석하여, 시간에 따른 원하는 시각적 변화를 무시하는 문제를 완화하기 위해 우리의 방법을 적용하는 것의 중요성을 보여줍니다.
언어 모델(LMs)은 다양한 분야에 큰 영향을 미쳤습니다. 그러나 3D 분자 구조를 이해하는 데 있어 본질적인 한계로 인해 생물 분자 영역에서의 잠재력이 상당히 제한되어 왔습니다. 이러한 격차를 해소하기 위해 우리는 3D 분자-텍스트 해석에 초점을 맞추고, 3D-MoLM: 3D 분자 언어 모델링을 제안합니다. 구체적으로, 3D-MoLM은 언어 모델에 3D 분자 인코더를 장착함으로써 3D 분자를 해석하고 분석할 수 있도록 합니다. 이 통합은 3D 분자 인코더의 표현 공간과 언어 모델의 입력 공간을 연결하는 3D 분자-텍스트 프로젝터를 통해 이루어집니다. 또한, 3D-MoLM의 교차 모달 분자 이해 및 명령어 수행 능력을 향상시키기 위해, 우리는 3D 분자 중심의 명령어 튜닝 데이터셋인 3D-MoIT를 신중하게 구축했습니다. 3D 분자-텍스트 정렬과 3D 분자 중심의 명령어 튜닝을 통해, 3D-MoLM은 3D 분자 인코더와 언어 모델의 통합을 이루어냅니다. 이는 분자-텍스트 검색, 분자 캡셔닝, 그리고 특히 3D 의존적 특성에 초점을 맞춘 더 도전적인 개방형 텍스트 분자 QA 작업을 포함한 다운스트림 작업에서 기존 베이스라인을 크게 능가합니다.
3D 생성 분야는 상당한 발전을 이루었지만, 단일 이미지로부터 고품질의 3D 자산을 효율적으로 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 3D 모델을 컴팩트한 트라이플레인(triplane) 잠재 공간으로 인코딩하여 3D 기하학적 구조와 텍스처 정보를 효과적으로 압축하는 트라이플레인 오토인코더를 제안합니다. 오토인코더 프레임워크 내에서, 저해상도 잠재 표현을 사용하여 고해상도 3D 특징 볼륨으로부터 특징을 쿼리하는 3D 인식 교차 주의 메커니즘을 도입함으로써 잠재 공간의 표현 능력을 향상시켰습니다. 이후, 이렇게 개선된 잠재 공간에서 확산 모델을 학습시킵니다. 단순히 이미지 임베딩에만 의존하여 3D를 생성하는 기존 방식과 달리, 우리가 제안한 방법은 이미지 임베딩과 형태 임베딩을 동시에 조건으로 활용할 것을 주장합니다. 구체적으로, 형태 임베딩은 이미지 임베딩을 조건으로 하는 확산 사전 모델을 통해 추정됩니다. 포괄적인 실험을 통해, 우리의 방법이 최신 알고리즘들을 능가하며 더 적은 학습 데이터와 시간으로도 우수한 성능을 달성함을 입증했습니다. 우리의 접근 방식은 단일 A100 GPU에서 단 7초 만에 고품질의 3D 자산을 생성할 수 있게 합니다.
새로운 AI 시스템이 초래할 위험을 이해하기 위해서는 그 시스템이 할 수 있는 것과 할 수 없는 것을 이해해야 합니다. 선행 연구를 바탕으로, 우리는 새로운 "위험한 능력" 평가 프로그램을 도입하고 이를 Gemini 1.0 모델에 시범 적용했습니다. 우리의 평가는 네 가지 영역을 다룹니다: (1) 설득과 기만; (2) 사이버 보안; (3) 자기 확산; 그리고 (4) 자기 추론. 평가한 모델에서 강력한 위험한 능력의 증거는 발견하지 못했지만, 초기 경고 신호를 표시했습니다. 우리의 목표는 미래 모델을 대비하여 위험한 능력 평가의 엄밀한 과학을 발전시키는 데 기여하는 것입니다.