번역이 포함된 일일 선별된 AI 연구 논문
사전 학습된 언어 모델은 여러 AI 애플리케이션의 기반이 되지만, 그 훈련에 드는 높은 계산 비용으로 인해 접근성이 제한됩니다. BLOOM와 StarCoder와 같은 프로젝트는 협력적인 커뮤니티 개발을 위해 사전 학습된 모델에 대한 접근을 민주화하려는 목표를 가지고 있습니다. 그러나 이러한 기존 모델들은 여러 가지 도전에 직면해 있습니다: 제한된 다국어 능력, 지속적인 사전 학습으로 인한 치명적 망각(catastrophic forgetting), 처음부터 사전 학습하는 데 드는 높은 계산 비용, 그리고 AI 안전 및 개발 법규 준수 등이 그것입니다. 본 논문은 영어, 핀란드어, 힌디어, 일본어, 베트남어 및 코드를 포함하여 훈련된 150억 개의 파라미터를 가진 다국어 오픈소스 모델인 Aurora-M을 소개합니다. StarCoderPlus에서 추가로 4,350억 개의 토큰을 지속적으로 사전 학습하여 총 훈련 토큰 수가 2조 개를 넘었습니다. Aurora-M은 인간이 검토한 안전 지침에 맞춰 미세 조정된 최초의 오픈소스 다국어 모델로, 전통적인 레드 팀링(red-teaming) 고려사항뿐만 아니라 바이든-해리스 행정명령에서 명시된 안전하고 신뢰할 수 있는 인공지능 개발 및 사용에 대한 특정 우려사항과도 일치하도록 개발되었습니다. Aurora-M은 다양한 작업과 언어에 걸쳐 엄격하게 평가되었으며, 치명적 망각에 대한 견고함을 보여주고 다국어 환경에서 특히 안전 평가에서 대안들을 능가하는 성능을 입증했습니다. 책임 있는 오픈소스 대형 언어 모델(LLM) 개발을 촉진하기 위해 Aurora-M과 그 변형 모델들은 https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 에 공개되었습니다.
현재 텍스트-이미지(T2I) 모델의 주요 단점 중 하나는 텍스트 프롬프트에 명시된 공간 관계를 충실히 따르는 이미지를 일관적으로 생성하지 못한다는 점입니다. 본 논문에서는 이러한 한계를 포괄적으로 조사하는 동시에 최첨단 성능을 달성하는 데이터셋과 방법을 개발합니다. 먼저, 현재의 시각-언어 데이터셋이 공간 관계를 충분히 잘 표현하지 못한다는 점을 발견했습니다. 이러한 병목 현상을 해결하기 위해 널리 사용되는 4개의 시각 데이터셋에서 600만 장의 이미지를 재캡션하여 최초의 공간 중심 대규모 데이터셋인 SPRIGHT를 구축했습니다. 3단계 평가 및 분석 파이프라인을 통해 SPRIGHT가 기존 데이터셋 대비 공간 관계를 훨씬 더 잘 포착한다는 것을 확인했습니다. SPRIGHT의 약 0.25%만 활용하여 공간적으로 정확한 이미지 생성에서 22%의 개선을 달성했으며, FID와 CMMD 점수도 향상시켰습니다. 둘째로, 많은 수의 객체를 포함한 이미지로 학습할 경우 공간 일관성이 크게 개선된다는 점을 발견했습니다. 특히, 500장 미만의 이미지로 미세 조정하여 T2I-CompBench에서 0.2133의 공간 점수로 최첨단 성능을 달성했습니다. 마지막으로, 일련의 통제 실험과 어블레이션을 통해 텍스트-이미지 모델의 공간 일관성에 영향을 미치는 요인에 대한 이해를 높일 수 있는 여러 발견을 문서화했습니다. 본 연구는 이 분야의 추가 연구를 촉진하기 위해 데이터셋과 모델을 공개합니다.
텍스트 프롬프트나 단일 이미지로부터 3D 콘텐츠를 생성하는 기술은 최근 품질과 속도 면에서 놀라운 발전을 이루었습니다. 이 분야의 주요 패러다임 중 하나는 일관된 다중 뷰 이미지를 생성한 후 희소 뷰 재구성을 수행하는 것입니다. 그러나 메시 표현을 직접 변형하여 목표 토폴로지에 접근하는 것이 어렵기 때문에, 대부분의 방법론은 희소 뷰 재구성 과정에서 NeRF와 같은 암묵적 표현을 학습하고, 후처리 추출을 통해 목표 메시를 획득합니다. 암묵적 표현은 풍부한 3D 정보를 효과적으로 모델링할 수 있지만, 일반적으로 학습에 긴 수렴 시간이 필요합니다. 또한, 암묵적 필드에서의 후처리 추출 작업은 원치 않는 시각적 결함을 유발하기도 합니다. 본 논문에서는 목표 메시를 종단간 방식으로 재구성하는 새로운 단일 이미지-3D 생성 프레임워크인 FlexiDreamer를 제안합니다. FlexiCubes라는 유연한 그래디언트 기반 추출 방식을 활용함으로써, 우리의 방법은 후처리로 인한 결함을 피하고 목표 메시를 직접 획득할 수 있도록 합니다. 더불어, FlexiCubes의 암묵적 필드에 점진적으로 활성화되는 다중 해상도 해시 그리드 인코딩 방식을 도입하여, 단계별 최적화를 위한 기하학적 세부 사항을 효과적으로 포착할 수 있도록 합니다. 특히, FlexiDreamer는 단일 NVIDIA A100 GPU에서 단일 뷰 이미지로부터 밀집 3D 구조를 약 1분 만에 복원하며, 이전 방법론들을 큰 차이로 능가합니다.
사용자가 지정한 조건에서 3D 장면을 생성하는 것은 3D 애플리케이션의 제작 부담을 줄이는 유망한 방법을 제공합니다. 기존 연구에서는 제한된 제어 조건으로 인해 원하는 장면을 구현하기 위해 상당한 노력이 필요했습니다. 우리는 부분 이미지, 평면도로 표현된 레이아웃 정보, 그리고 텍스트 프롬프트를 사용하여 다중 모달 조건 하에서 3D 장면을 제어하고 생성하는 방법을 제안합니다. 이러한 조건들을 결합하여 3D 장면을 생성하는 데에는 다음과 같은 주요 어려움이 있습니다: (1) 대규모 데이터셋의 생성, (2) 다중 모달 조건 간 상호작용의 반영, (3) 레이아웃 조건의 도메인 의존성. 우리는 3D 장면 생성 과정을 주어진 조건에서 2D 이미지 생성과 2D 이미지에서 3D 장면 생성으로 분해합니다. 2D 이미지 생성은 부분 이미지와 레이아웃으로 구성된 소규모 인공 데이터셋을 사용하여 사전 훈련된 텍스트-이미지 모델을 미세 조정함으로써 달성되며, 3D 장면 생성은 레이아웃 조건 하의 깊이 추정과 신경 방사 필드(NeRF)를 통해 이루어져 대규모 데이터셋 생성의 필요성을 피합니다. 360도 이미지를 사용한 공간 정보의 공통 표현 방식은 다중 모달 조건 간 상호작용을 고려할 수 있게 하고 레이아웃 제어의 도메인 의존성을 줄입니다. 실험 결과는 제안된 방법이 실내에서 실외에 이르기까지 다양한 도메인에서 다중 모달 조건에 따라 3D 장면을 생성할 수 있음을 정성적 및 정량적으로 입증했습니다.
생성 모델은 현재 그래픽 디자이너와 예술가들 사이에서 널리 사용되고 있습니다. 선행 연구에 따르면, 이러한 모델들은 생성 과정에서 훈련 데이터의 내용을 기억하고 종종 복제하는 것으로 나타났습니다. 따라서 이러한 모델의 보급이 증가함에 따라, 생성된 이미지를 전문적인 목적으로 사용하기 전마다 해당 이미지의 특성이 특정 훈련 데이터에 기인한 것인지를 판단하기 위해 데이터베이스 검색을 수행하는 것이 중요해졌습니다. 이를 위한 기존 도구들은 유사한 의미론적 내용을 가진 이미지를 검색하는 데 초점을 맞추고 있습니다. 한편, 많은 예술가들은 텍스트-이미지 모델에서의 스타일 복제 문제에 관심을 가지고 있습니다. 우리는 이미지에서 스타일 디스크립터를 이해하고 추출하기 위한 프레임워크를 제시합니다. 우리의 프레임워크는 스타일이 색상, 질감, 형태 등을 포함하되 이에 국한되지 않는 복잡하면서도 의미 있는 요소들의 상호작용을 포착하는 이미지의 주관적 속성이라는 통찰을 바탕으로 새롭게 구축된 데이터셋을 포함합니다. 또한, 우리는 텍스트-이미지 모델의 훈련 데이터셋에 사용된 이미지들에 생성된 이미지의 스타일을 귀속시킬 수 있는 스타일 디스크립터를 추출하는 방법을 제안합니다. 다양한 스타일 검색 작업에서 유망한 결과를 보여주며, Stable Diffusion 모델에서의 스타일 귀속 및 매칭을 정량적 및 정성적으로 분석합니다. 코드와 관련 자료는 https://github.com/learn2phoenix/CSD에서 확인할 수 있습니다.
우리는 고화질 인간 이미지 생성을 위해 특화된 텍스트-이미지 기반 모델인 CosmicMan을 소개한다. 현재의 범용 기반 모델들이 인간 이미지 생성에서 낮은 품질과 텍스트-이미지 정렬 문제에 갇혀 있는 반면, CosmicMan은 세밀한 외모, 합리적인 구조, 그리고 상세한 밀집 설명과 함께 정확한 텍스트-이미지 정렬을 통해 사실적인 인간 이미지를 생성할 수 있다. CosmicMan의 성공 핵심은 데이터와 모델에 대한 새로운 통찰과 관점에 있다: (1) 데이터 품질과 확장 가능한 데이터 생산 프로세스가 훈련된 모델의 최종 결과에 필수적임을 발견했다. 따라서, 우리는 시간이 지남에 따라 정확하면서도 비용 효율적인 주석을 통해 고품질 데이터를 지속적으로 생산하는 데이터 생산 패러다임인 'Annotate Anyone'을 제안한다. 이를 기반으로, 우리는 평균 해상도 1488x1255의 600만 장의 고품질 실제 인간 이미지와 다양한 세분화 수준에서 도출된 1억 1500만 개의 속성으로 구성된 정확한 텍스트 주석이 첨부된 대규모 데이터셋인 CosmicMan-HQ 1.0을 구축했다. (2) 인간을 위한 텍스트-이미지 기반 모델은 실용적이어야 한다고 주장한다. 즉, 하위 작업에 쉽게 통합되면서도 고품질 인간 이미지를 효과적으로 생성할 수 있어야 한다. 따라서, 우리는 밀집 텍스트 설명과 이미지 픽셀 간의 관계를 분해된 방식으로 모델링하고, Decomposed-Attention-Refocusing(Daring) 훈련 프레임워크를 제안한다. 이는 기존 텍스트-이미지 확산 모델의 교차 주석 특징을 원활하게 분해하고, 추가 모듈 없이 주석 재집중을 강제한다. Daring을 통해, 우리는 연속적인 텍스트 공간을 인간 신체 구조와 일치하는 여러 기본 그룹으로 명시적으로 분리하는 것이 정렬 문제를 쉽게 해결하는 열쇠임을 보여준다.
밀집 비디오 캡셔닝(비디오 내 시간적으로 국한된 캡션 예측)을 위한 이상적인 모델은 긴 입력 비디오를 처리할 수 있고, 풍부하고 상세한 텍스트 설명을 예측하며, 전체 비디오를 처리하기 전에 출력을 생성할 수 있어야 합니다. 그러나 현재 최첨단 모델들은 고정된 수의 다운샘플링된 프레임을 처리하고, 전체 비디오를 본 후에 단일 전체 예측을 수행합니다. 우리는 두 가지 새로운 구성 요소로 이루어진 스트리밍 밀집 비디오 캡셔닝 모델을 제안합니다: 첫째, 들어오는 토큰을 클러스터링하는 새로운 메모리 모듈을 제안하여 메모리 크기가 고정된 상태에서 임의로 긴 비디오를 처리할 수 있습니다. 둘째, 전체 비디오가 처리되기 전에 예측을 할 수 있게 해주는 스트리밍 디코딩 알고리즘을 개발했습니다. 우리의 모델은 이러한 스트리밍 능력을 달성하고, 세 가지 밀집 비디오 캡셔닝 벤치마크(ActivityNet, YouCook2, ViTT)에서 최첨단 기술을 크게 개선했습니다. 우리의 코드는 https://github.com/google-research/scenic에서 공개되었습니다.
우리는 이미지 생성 모델에 제어 기능을 추가하기 위한 새로운 방법인 Condition-Aware Neural Network(CAN)을 제안합니다. 기존의 조건부 제어 방법과 병행하여, CAN은 신경망의 가중치를 동적으로 조작함으로써 이미지 생성 과정을 제어합니다. 이는 입력 조건에 기반하여 컨볼루션/선형 레이어를 위한 조건부 가중치를 생성하는 조건 인식 가중치 생성 모듈을 도입함으로써 달성됩니다. 우리는 CAN을 ImageNet에서의 클래스 조건부 이미지 생성과 COCO에서의 텍스트-이미지 생성에 대해 테스트했습니다. CAN은 DiT와 UViT를 포함한 디퓨전 트랜스포머 모델에서 지속적으로 상당한 개선을 제공합니다. 특히, EfficientViT와 결합된 CAN(CaT)은 ImageNet 512x512에서 2.78 FID를 달성하며, DiT-XL/2를 능가하면서 샘플링 단계당 52배 적은 MACs를 요구합니다.
직접 선호도 최적화(Direct Preference Optimization, DPO)와 같은 선호도 모델링 기법은 대규모 언어 모델(LLM)의 일반화 능력을 향상시키는 데 효과적인 것으로 입증되었습니다. 그러나 비디오 명령 수행과 관련된 작업에서는, 특히 생성된 응답에서의 환각(hallucination)을 탐지하는 데 있어 유익한 피드백을 제공하는 것이 여전히 큰 과제로 남아 있습니다. 기존 연구에서는 대규모 다중 모달 모델(LMM)을 보상 모델로 활용하여 선호도 모델링을 안내하는 방법을 탐구했지만, 해당 비디오와 비교하여 생성된 응답의 사실성을 정확히 평가하는 능력은 아직 확실히 입증되지 않았습니다. 본 논문은 비디오 콘텐츠의 대리자로서 상세한 비디오 캡션을 활용하는 새로운 프레임워크를 소개하며, 이를 통해 언어 모델이 비디오 질의응답(QA) 예측에 대한 점수 매김을 위한 지원 증거로 이 정보를 통합할 수 있게 합니다. 우리의 접근 방식은 비디오 프레임을 직접 입력으로 받는 OpenAI GPT-4V 모델의 보상 메커니즘과 강력한 일치를 보여줍니다. 또한, DPO를 통해 이 맞춤형 보상을 적용함으로써 비디오 QA 작업에서 비디오 LMM의 성능이 크게 향상됨을 입증합니다.
최근 대규모 언어 모델(LLM)의 발전은 자연어 처리 분야에 혁신을 가져왔으며, 점차 다중 모달 인식 및 생성으로 그 범위를 확장하고 있습니다. 그러나 LLM에 청각 능력을 효과적으로 통합하는 것은 다양한 맥락에서의 일반화와 복잡한 청각 작업 수행과 관련하여 상당한 도전 과제를 제시합니다. 본 연구에서는 듀얼 인코더와 프롬프트 인식 LoRA 가중치 어댑터를 갖춘 강력하고 적응력 있는 음성 대규모 언어 모델인 WavLLM을 소개하며, 이를 두 단계의 커리큘럼 학습 접근법으로 최적화했습니다. 듀얼 인코더를 활용하여 우리는 다양한 유형의 음성 정보를 분리하여, Whisper 인코더로 음성의 의미적 내용을 처리하고, WavLM 인코더로 화자의 고유한 특성을 포착합니다. 커리큘럼 학습 프레임워크 내에서 WavLLM은 먼저 혼합된 기본 단일 작업에 대한 최적화를 통해 기초 능력을 구축한 후, 기본 작업의 조합과 같은 더 복잡한 작업에 대한 고급 다중 작업 훈련을 수행합니다. 다양한 작업과 지시에 대한 유연성과 준수를 강화하기 위해, 두 번째 고급 다중 작업 훈련 단계에서 프롬프트 인식 LoRA 가중치 어댑터가 도입되었습니다. 우리는 제안된 모델을 ASR, ST, SV, ER과 같은 보편적인 음성 벤치마크 작업에 대해 검증하고, SQA를 위한 Gaokao 영어 듣기 이해 세트 및 음성 Chain-of-Thought(CoT) 평가 세트와 같은 특수 데이터셋에도 적용했습니다. 실험 결과, 제안된 모델은 동일한 모델 크기에서 다양한 음성 작업에서 최첨단 성능을 달성하며, CoT 접근법을 사용하여 복잡한 작업을 실행하는 데 있어 강력한 일반화 능력을 보여줍니다. 또한, 우리의 모델은 특수 훈련 없이도 Gaokao 작업을 성공적으로 완료합니다. 코드, 모델, 오디오 및 Gaokao 평가 세트는 aka.ms/wavllm에서 확인할 수 있습니다.
시각적으로 풍부한 문서(VRD)는 시각적 특징과 언어적 단서를 함께 활용하여 정보를 전달합니다. 문서에서 명명된 개체를 식별하는 맞춤형 추출기를 훈련시키기 위해서는 해당 문서 유형의 다량의 인스턴스가 텍스트 및 시각적 양식으로 주석 처리되어 있어야 합니다. 이는 기업 시나리오에서 비용이 많이 드는 병목 현상으로, 수천 가지의 다양한 문서 유형에 대해 확장 가능한 방식으로 맞춤형 추출기를 훈련시키고자 할 때 특히 문제가 됩니다. 대상 문서 유형의 레이블이 없는 인스턴스로 추출기 모델을 사전 훈련한 후, 인간이 레이블을 단 인스턴스로 미세 조정하는 방식은 이러한 시나리오에서 작동하지 않는데, 이는 추출기에 할당된 최대 허용 훈련 시간을 초과하기 때문입니다. 본 논문에서는 이러한 시나리오를 해결하기 위해 Noise-Aware Training(NAT) 방법을 제안합니다. NAT는 비용이 많이 드는 인간이 레이블을 단 문서를 획득하는 대신, 약하게 레이블이 달린 문서를 활용하여 확장 가능한 방식으로 추출기를 훈련시킵니다. 노이즈가 있는 약한 레이블 샘플로 인해 모델의 품질이 저하되는 것을 방지하기 위해, NAT는 각 훈련 샘플의 신뢰도를 추정하고 이를 훈련 중 불확실성 측정치로 통합합니다. 우리는 NAT를 사용하여 여러 최신 추출기 모델을 훈련시켰습니다. 공개된 데이터셋과 내부 데이터셋에 대한 실험 결과, NAT로 훈련된 모델은 성능 면에서 강력할 뿐만 아니라(매크로 F1 점수 기준 전이 학습 베이스라인을 최대 6%까지 능가), 레이블 효율성도 더 높았습니다(비슷한 성능을 얻기 위해 필요한 인간의 노력을 최대 73%까지 줄임).
대형 언어 모델(LLM)은 텍스트 이해 및 생성에서 인상적인 능력을 보여주며, 이를 바탕으로 비디오 수준에서 인간-AI 상호작용을 촉진하기 위한 비디오 LLM 연구가 활발히 진행되고 있습니다. 그러나 비디오 기반 대화 시스템에서 비디오를 효과적으로 인코딩하고 이해하는 방법은 여전히 해결해야 할 과제로 남아 있습니다. 본 논문에서는 간단하지만 아직 탐구되지 않은 질문을 연구합니다: 모든 시공간 토큰을 LLM에 입력함으로써 비디오 시퀀스 모델링 작업을 LLM에 위임할 수 있을까요? 놀랍게도, 이 간단한 접근 방식은 비디오 이해에서 상당한 개선을 가져옵니다. 이를 바탕으로, 우리는 LLM 내부에서 시공간 시퀀스 모델링을 수행하는 효과적인 비디오-LLM 베이스라인인 ST-LLM을 제안합니다. 더 나아가, LLM 내에서 압축되지 않은 비디오 토큰으로 인한 오버헤드와 안정성 문제를 해결하기 위해 맞춤형 훈련 목표를 가진 동적 마스킹 전략을 개발했습니다. 특히 긴 비디오의 경우, 효율성과 효과성을 균형 있게 유지하기 위해 전역-지역 입력 모듈을 설계했습니다. 결과적으로, 우리는 효율성과 안정성을 유지하면서 LLM을 활용하여 능숙한 시공간 모델링을 수행합니다. 광범위한 실험 결과는 우리 방법의 효과성을 입증합니다. 더 간결한 모델과 훈련 파이프라인을 통해, ST-LLM은 VideoChatGPT-Bench와 MVBench에서 새로운 최첨단 결과를 달성했습니다. 코드는 https://github.com/TencentARC/ST-LLM에서 확인할 수 있습니다.