번역이 포함된 일일 선별된 AI 연구 논문
본 보고서는 우리의 대규모 언어 모델 및 대규모 멀티모달 모델의 최신 추가인 Qwen2 시리즈를 소개합니다. 우리는 0.5에서 720억 개의 파라미터 범위를 아우르는 기본 및 지시 튜닝 언어 모델의 포괄적인 세트를 공개하며, 여기에는 밀집 모델과 Mixture-of-Experts 모델이 포함됩니다. Qwen2는 이전 버전인 Qwen1.5를 포함한 대부분의 기존 오픈 가중치 모델을 능가하며, 언어 이해, 생성, 다국어 능력, 코딩, 수학, 추론 등 다양한 벤치마크에서 독점 모델과 경쟁력 있는 성능을 보여줍니다. 플래그십 모델인 Qwen2-72B는 뛰어난 성능을 보여줍니다: 기본 언어 모델로서 MMLU에서 84.2, GPQA에서 37.9, HumanEval에서 64.6, GSM8K에서 89.5, BBH에서 82.4를 기록했습니다. 지시 튜닝 버전인 Qwen2-72B-Instruct는 MT-Bench에서 9.1, Arena-Hard에서 48.1, LiveCodeBench에서 35.7을 달성했습니다. 또한 Qwen2는 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 약 30개 언어에 능숙한 강력한 다국어 능력을 보여주며, 그 다양성과 글로벌 접근성을 강조합니다. 커뮤니티 혁신과 접근성을 촉진하기 위해 우리는 Qwen2 모델 가중치를 Hugging Face1와 ModelScope2에 공개했으며, GitHub3에는 예제 코드를 포함한 보조 자료를 제공했습니다. 이러한 플랫폼에는 양자화, 미세 조정, 배포를 위한 리소스도 포함되어 있어 다양한 애플리케이션과 연구 활동을 용이하게 합니다.
대규모 언어 모델(LLMs)은 자연어 이해 및 생성에서 뛰어난 능력을 보여줍니다. 그러나 이러한 모델들은 의도치 않게 개인 정보를 암기할 수 있어, 상당한 프라이버시 위험을 초래할 수 있습니다. 본 연구는 LLMs가 특정 개인의 개인 데이터를 보호할 수 있도록 하면서도 완전한 재학습이 필요 없는 방법을 다룹니다. 우리는 실제 시나리오에서 개인 데이터 보호를 위한 머신 언러닝(MU) 방법을 평가하기 위해 위키피디아의 2,492명의 개인과 관련된 질의응답(QA) 쌍으로 구성된 \return(Real-world pErsonal daTa UnleaRNing) 데이터셋을 제안합니다. 또한, 프라이버시 보호를 위한 이름 인식 언러닝 프레임워크(Name-Aware Unlearning Framework, NAUF)를 소개합니다. 이 프레임워크는 모델이 특정 개인의 정보를 보호해야 함을 학습하면서도, 다른 관련 없는 개인과 관련된 질문에 대한 답변 능력을 유지할 수 있도록 합니다. 우리의 광범위한 실험 결과, NAUF는 최고의 베이스라인 방법을 5.65점 앞서는 최첨단 평균 언러닝 점수를 달성하며, 목표 개인의 개인 데이터를 효과적으로 보호하면서도 모델의 일반적인 능력을 유지함을 입증했습니다.
최근 연구들은 Embodied AI 분야에서의 스케일링 법칙을 탐구하고 있습니다. 실세계 데이터 수집의 막대한 비용을 고려할 때, 우리는 시뮬레이션-투-리얼(Sim2Real) 패러다임이 embodied 모델 학습의 규모 확장에 있어 중요한 단계라고 믿습니다. 본 논문은 다양한 로봇을 위해 설계된 최초의 시뮬레이션된 상호작용형 3D 사회인 프로젝트 GRUtopia를 소개합니다. 이 프로젝트는 다음과 같은 몇 가지 발전을 특징으로 합니다: (a) 장면 데이터셋인 GRScenes는 10만 개의 상호작용 가능하고 세밀하게 주석이 달린 장면을 포함하며, 이를 자유롭게 조합하여 도시 규모의 환경을 구성할 수 있습니다. 주로 가정 환경에 초점을 맞춘 기존 연구와 달리, GRScenes는 89개의 다양한 장면 카테고리를 다루어, 일반 로봇이 초기 배치될 서비스 지향 환경의 격차를 메웁니다. (b) GRResidents는 대형 언어 모델(LLM) 기반의 NPC(Non-Player Character) 시스템으로, 사회적 상호작용, 작업 생성 및 작업 할당을 담당하여 embodied AI 애플리케이션을 위한 사회적 시나리오를 시뮬레이션합니다. (c) 벤치마크인 GRBench은 다양한 로봇을 지원하지만, 주 에이전트로서 다리형 로봇에 초점을 맞추고, 객체 이동-탐색, 사회적 이동-탐색, 이동-조작과 같은 중간 수준의 도전적인 과제를 제시합니다. 우리는 이 작업이 이 분야에서 고품질 데이터의 부족을 완화하고, Embodied AI 연구에 대한 보다 포괄적인 평가를 제공할 수 있기를 바랍니다. 이 프로젝트는 https://github.com/OpenRobotLab/GRUtopia에서 확인할 수 있습니다.
현재 대규모 언어 모델(LLM) 평가는 비결정론적 요소를 간과하는 경우가 많으며, 일반적으로 각 예제에 대해 단일 출력에 초점을 맞춥니다. 이는 실제 응용 프로그램에서의 LLM 성능 변동성을 이해하는 데 한계를 초래합니다. 본 연구는 이러한 문제를 해결하기 위해 탐욕적 디코딩과 샘플링 간의 성능 차이에 대한 핵심 질문을 탐구하고, 비결정론적 요소에 대한 벤치마크의 일관성을 확인하며, 고유한 모델 동작을 조사합니다. 광범위한 실험을 통해 우리는 대부분의 평가된 작업에서 탐욕적 디코딩이 일반적으로 샘플링 방법보다 우수한 성능을 보인다는 것을 관찰했습니다. 또한, 다양한 LLM 크기와 정렬 방법에 걸쳐 일관된 성능을 관찰했으며, 정렬이 샘플링 분산을 줄일 수 있다는 점을 확인했습니다. 더 나아가, 우리의 best-of-N 샘플링 접근법은 더 작은 LLM이 GPT-4-Turbo와 같은 더 큰 모델을 능가하거나 동등한 성능을 낼 수 있음을 보여주며, 작은 LLM의 잠재력을 강조합니다. 이 연구는 LLM 평가에서 비결정론적 요소를 고려하는 것의 중요성을 보여주고, 향후 LLM 개발 및 평가를 위한 통찰을 제공합니다.
우리는 희소 활성화 대규모 언어 모델(LLM)을 훈련시키기 위한 간단하면서도 효과적인 접근법인 Q-Sparse를 소개합니다. Q-Sparse는 LLM의 활성화를 완전히 희소화하여 추론 시 상당한 효율성 향상을 가져올 수 있습니다. 이는 활성화에 top-K 희소화를 적용하고 훈련 시 straight-through-estimator를 사용함으로써 달성됩니다. 이 연구의 주요 결과는 다음과 같습니다: (1) Q-Sparse는 기준 LLM과 비슷한 결과를 달성하면서도 추론 시간에 훨씬 더 효율적입니다; (2) 희소 활성화 LLM을 위한 추론 최적화 스케일링 법칙을 제시합니다; (3) Q-Sparse는 처음부터 훈련, 기존 LLM의 추가 훈련, 미세 조정 등 다양한 설정에서 효과적입니다; (4) Q-Sparse는 완전 정밀도와 1비트 LLM(예: BitNet b1.58) 모두에서 작동합니다. 특히, BitNet b1.58과 Q-Sparse(모듈형 전문가 시스템(MoE)과 결합 가능)의 시너지는 미래 LLM의 비용 및 에너지 소비를 포함한 효율성을 혁신할 수 있는 초석과 명확한 경로를 제공합니다.
대규모 언어 모델(LLM)이 발전함에 따라, 인간 평가의 높은 비용으로 인해 그들의 출력을 신뢰할 수 있게 평가하는 것이 점점 더 어려워지고 있습니다. 더 나은 LLM 자동 평가기를 개발하기 위해, 우리는 FLAMe(Foundational Large Autorater Models)이라는 모델군을 소개합니다. FLAMe은 500만 개 이상의 인간 평가로 구성된 100개 이상의 다양한 품질 평가 작업에 대해 훈련되었으며, 이 데이터는 이전 연구에서 공개된 인간 평가를 기반으로 정리되고 표준화되었습니다. FLAMe은 다양한 보류된 작업에 대한 일반화 능력을 크게 향상시켜, GPT-4 및 Claude-3와 같은 독점 데이터로 훈련된 LLM을 많은 작업에서 능가합니다. 우리는 FLAMe이 추가적인 하위 작업 미세 조정을 위한 강력한 출발점으로도 사용될 수 있음을 보여주며, 보상 모델링 평가를 사례 연구로 사용했습니다(FLAMe-RM). 특히, RewardBench에서 우리의 FLAMe-RM-24B 모델(정확도 87.8%)은 허가된 라이선스 데이터로만 훈련된 최고 성능의 생성 모델로, GPT-4-0125(85.9%) 및 GPT-4o(84.7%)를 모두 능가합니다. 또한, 우리는 보상 모델링 평가를 위해 FLAMe 다중 작업 혼합을 최적화하기 위한 새로운 tail-patch 미세 조정 전략을 사용하여 더 계산 효율적인 접근 방식을 탐구했습니다(FLAMe-Opt-RM). 이 접근 방식은 경쟁력 있는 RewardBench 성능을 제공하면서도 약 25배 적은 훈련 데이터 포인트를 요구합니다. 전반적으로, 우리의 FLAMe 변종은 12개의 자동 평가기 평가 벤치마크 중 8개에서 고려된 모든 인기 있는 독점 LLM-as-a-Judge 모델을 능가하며, 이는 RewardBench 및 LLM-AggreFact를 포함한 53개의 품질 평가 작업을 포괄합니다. 마지막으로, 우리의 분석은 FLAMe이 CoBBLEr 자동 평가기 편향 벤치마크에서 이러한 LLM-as-a-Judge 모델보다 훨씬 덜 편향적이며, 코드 생성을 위한 고품질 응답을 효과적으로 식별함을 보여줍니다.
텍스트 설명에서 이미지를 생성하는 것만큼이나 쉽게, 단 하나의 원하는 행동 시연만을 프롬프트로 사용하여 에이전트를 위한 제어 정책을 생성할 수 있을까요? 본 논문에서는 조건부 확산 모델의 힘을 활용하여 행동에서 정책으로의 생성을 가능하게 하는 새로운 정책 매개변수 생성기인 Make-An-Agent를 소개합니다. 궤적 정보를 인코딩한 행동 임베딩의 지도를 받아, 우리의 정책 생성기는 잠재 매개변수 표현을 합성하며, 이는 이후 정책 네트워크로 디코딩될 수 있습니다. 정책 네트워크 체크포인트와 그에 해당하는 궤적 데이터를 기반으로 훈련된 우리의 생성 모델은 여러 작업에서 뛰어난 다양성과 확장성을 보여주며, 소수의 시연만을 입력으로 받아 보이지 않는 작업에서도 잘 작동하는 정책을 출력하는 강력한 일반화 능력을 가지고 있습니다. 우리는 다양한 목표, 행동, 심지어 다른 로봇 매니퓰레이터에 걸친 다양한 도메인과 작업에서 그 효율성과 효과를 입증합니다. 시뮬레이션을 넘어, 우리는 Make-An-Agent에 의해 생성된 정책을 실제 로봇에 직접 배포하여 이동 작업을 수행합니다.
텍스트-이미지 확산 모델은 이미지 합성 분야에서 최첨단 성과를 달성한 것으로 입증되었지만, 다운스트림 애플리케이션에서의 효과성은 아직 입증되지 않았습니다. 기존 연구에서는 제한된 실제 데이터 접근 상황에서 이미지 분류기 훈련을 위한 데이터를 생성하는 방법을 제안했습니다. 그러나 이러한 방법들은 분포 내 이미지를 생성하거나 세밀한 특징을 묘사하는 데 어려움을 겪어, 합성 데이터셋으로 훈련된 분류 모델의 일반화를 방해했습니다. 우리는 DataDream을 제안합니다. 이는 대상 클래스의 소수 샘플 예제를 기반으로 실제 데이터 분포를 더 충실히 반영하는 분류 데이터셋을 합성하기 위한 프레임워크입니다. DataDream은 소수의 실제 이미지에 대해 이미지 생성 모델의 LoRA 가중치를 미세 조정한 후, 조정된 모델을 사용하여 훈련 데이터를 생성합니다. 그런 다음 합성 데이터를 사용하여 CLIP의 LoRA 가중치를 미세 조정하여 다양한 데이터셋에서 이전 접근법보다 향상된 다운스트림 이미지 분류 성능을 달성합니다. 우리는 광범위한 실험을 통해 DataDream의 효능을 입증하며, 10개 데이터셋 중 7개에서 소수 샘플 데이터를 사용한 최첨단 분류 정확도를 능가하고, 나머지 3개에서도 경쟁력 있는 성능을 보여줍니다. 또한, 실제 샘플 수와 생성된 이미지 수, 미세 조정 컴퓨팅 리소스 등 다양한 요소가 모델 성능에 미치는 영향에 대한 통찰을 제공합니다. 코드는 https://github.com/ExplainableML/DataDream에서 확인할 수 있습니다.
비디오-투-오디오(V2A) 생성은 시각적 비디오 특징만을 활용하여 장면과 일치하는 그럴듯한 소리를 렌더링합니다. 특히, 생성된 소리의 시작점은 시각적 동작과 일치해야 하며, 그렇지 않으면 부자연스러운 동기화 문제가 발생합니다. 최근 연구들은 정지 이미지와 비디오 특징을 기반으로 소리 생성기를 점진적으로 발전시키는 방향을 탐구해 왔는데, 이는 주로 품질과 의미적 일치에 초점을 맞추면서 동기화를 무시하거나, 일부 품질을 희생하여 동기화 개선에만 집중하는 방식이었습니다. 본 연구에서는 MaskVAT이라는 V2A 생성 모델을 제안합니다. 이 모델은 풀 밴드 고품질 일반 오디오 코덱과 시퀀스-투-시퀀스 마스크 생성 모델을 연결합니다. 이러한 조합을 통해 고품질 오디오, 의미적 일치, 그리고 시간적 동기화를 동시에 모델링할 수 있습니다. 우리의 결과는 고품질 코덱을 적절한 사전 학습된 오디오-비주얼 특징과 시퀀스-투-시퀀스 병렬 구조와 결합함으로써, 한편으로는 높은 동기화 결과를 얻을 수 있음을 보여줍니다. 동시에 비코덱 생성 오디오 모델의 최신 기술과도 경쟁력을 유지합니다. 샘플 비디오와 생성된 오디오는 https://maskvat.github.io에서 확인할 수 있습니다.
다운스트림 제어 작업을 지원하기 위해 설계된 새로운 비디오 예측 모델 패밀리를 소개합니다. 이 모델들을 비디오 점유 모델(Video Occupancy Models, VOCs)이라고 명명합니다. VOCs는 컴팩트한 잠재 공간에서 작동하여 개별 픽셀에 대한 예측을 할 필요가 없습니다. 기존의 잠재 공간 세계 모델과 달리, VOCs는 단일 단계에서 미래 상태의 할인 분포를 직접 예측함으로써 다단계 롤아웃의 필요성을 없앱니다. 이러한 두 가지 특성이 다운스트림 제어에 사용할 비디오 예측 모델을 구축할 때 유리함을 보여줍니다. 코드는 https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}에서 확인할 수 있습니다.
데이터 과학 및 엔지니어링 워크플로우는 BigQuery, dbt, Airbyte와 같은 도구를 사용하여 웨어하우징부터 오케스트레이션에 이르기까지 여러 단계에 걸쳐 진행됩니다. 비전 언어 모델(VLMs)이 멀티모달 이해와 코드 생성 분야에서 발전함에 따라, VLM 기반 에이전트가 SQL 쿼리, Python 코드, GUI 작업을 생성하여 이러한 워크플로우를 자동화할 가능성이 있습니다. 이러한 자동화는 전문가의 생산성을 향상시키는 동시에 대규모 데이터 분석에 대한 접근성을 민주화할 수 있습니다. 본 논문에서는 전문 데이터 과학 및 엔지니어링 워크플로우에 초점을 맞춘 최초의 멀티모달 에이전트 벤치마크인 Spider2-V를 소개합니다. 이 벤치마크는 실제 컴퓨터 환경에서의 494개의 실질적인 작업과 20개의 기업 수준 전문 애플리케이션을 포함합니다. 이러한 작업들은 실제 사용 사례에서 도출되었으며, 멀티모달 에이전트가 코드 작성과 기업 데이터 소프트웨어 시스템의 GUI 관리를 통해 데이터 관련 작업을 수행하는 능력을 평가합니다. 현실적인 시뮬레이션과 평가의 간편함을 균형 있게 유지하기 위해, 우리는 작업 설정을 위한 자동 구성 개발과 각 작업에 대한 평가 지표를 신중하게 설계하는 데 상당한 노력을 기울였습니다. 또한, 멀티모달 에이전트에 이러한 기업 데이터 소프트웨어 시스템의 포괄적인 문서를 제공합니다. 우리의 실증적 평가 결과, 기존의 최첨단 LLM/VLM 기반 에이전트는 전체 데이터 워크플로우를 안정적으로 자동화하지 못했습니다(14.0% 성공률). 단계별 지침이 제공되더라도, 이러한 에이전트는 세밀하고 지식 집약적인 GUI 작업(16.2%)과 원격 클라우드 호스팅 작업 공간(10.6%)이 필요한 작업에서 여전히 낮은 성능을 보였습니다. 우리는 Spider2-V가 자율적인 멀티모달 에이전트가 데이터 과학 및 엔지니어링 워크플로우 자동화를 혁신하는 데 길을 열어주기를 바랍니다. 우리의 코드와 데이터는 https://spider2-v.github.io에서 확인할 수 있습니다.
최첨단 대형 언어 모델(LLMs)과 LLM 기반 시스템이 다양한 학문 분야에서 과학적 발견을 빠르게 가속화할 잠재력을 가지고 있다는 점에 대해 광범위한 낙관론이 존재합니다. 현재, 교과서 스타일의 과학 문제에 대한 LLM의 지식과 추론 능력을 측정하기 위한 많은 벤치마크가 존재하지만, 문헌 검색, 프로토콜 계획, 데이터 분석 등 과학 연구에 필요한 실질적인 작업에서 언어 모델의 성능을 평가하기 위해 설계된 벤치마크는 거의 없습니다. 이러한 벤치마크를 구축하기 위한 한 걸음으로, 우리는 Language Agent Biology Benchmark(LAB-Bench)를 소개합니다. 이는 2,400개 이상의 객관식 문제로 구성된 광범위한 데이터셋으로, 문헌에 대한 기억과 추론, 그림 해석, 데이터베이스 접근 및 탐색, DNA 및 단백질 서열의 이해와 조작 등 실질적인 생물학 연구 능력을 평가하기 위해 설계되었습니다. 중요한 점은, 이전의 과학 벤치마크와 달리, 더 어려운 LAB-Bench 작업에서 일관되게 높은 점수를 달성할 수 있는 AI 시스템이 문헌 검색 및 분자 클로닝과 같은 분야에서 연구자들에게 유용한 보조 도구로 활용될 것으로 기대된다는 것입니다. 최첨단 언어 모델의 과학적 작업 능력을 초기 평가하기 위해, 우리는 여러 모델의 성능을 측정하고 인간 전문 생물학 연구자들과의 결과를 비교하여 보고합니다. 우리는 LAB-Bench를 지속적으로 업데이트하고 확장할 예정이며, 이는 자동화된 연구 시스템 개발에 유용한 도구로 활용될 것으로 기대합니다. LAB-Bench의 공개 서브셋은 다음 URL에서 사용할 수 있습니다: https://huggingface.co/datasets/futurehouse/lab-bench
파라미터 효율적 전이 학습(PETL)은 대규모 사전 학습 모델을 하위 작업에 적응시키기 위한 활발한 연구 분야로 부상하며, 미세 조정 과정에서의 메모리 문제를 해결하면서도 학습 가능한 파라미터 수를 크게 줄이는 방법으로 주목받고 있습니다. 이를 해결하기 위해 메모리 효율적 시리즈(METL)는 대형 백본을 통해 그래디언트를 역전파하지 않는 방식을 채택합니다. 그러나 이 방법은 고정된 중간 출력에만 의존함으로써 사전 학습 모델의 사전 지식을 충분히 탐색하지 못하는 한계가 있습니다. 또한, 계층 간 특징 간의 의존성과 중복성이 자주 간과되어 더욱 구별력 있는 표현이 묻히고, 기존 PETL 방법 대비 성능 격차가 발생합니다. 따라서 우리는 자원이 제한된 시나리오를 위해 SHERL이라는 혁신적인 METL 전략을 제안합니다. 이는 전체 적응 과정을 두 개의 연속적이고 상호 보완적인 프로세스로 분리합니다. 초기 경로에서는 중복 방지 작업을 통해 중간 출력을 통합하여 후속 상호작용에 대한 호환성을 향상시키고, 후기 경로에서는 최소한의 후기 사전 학습 계층을 활용하여 메모리 오버헤드의 최대 수요를 완화하고, 이러한 유연한 특징을 새로운 도메인에 더 적응적이고 강력한 표현으로 조정합니다. 시각 및 언어 작업과 언어 전용 작업에 대한 광범위한 실험 결과, SHERL은 파라미터 효율적 기술과 메모리 효율적 기술의 장점을 결합하여 다양한 아키텍처에서 동등하거나 더 나은 성능을 보이면서도 미세 조정 중 더 낮은 메모리를 사용함을 확인했습니다. 우리의 코드는 https://github.com/Paranioar/SHERL에서 공개되어 있습니다.
상호 강화 효과(Mutual Reinforcement Effect, MRE)는 정보 추출 및 멀티태스킹 연구 분야에서 유망한 방향성을 제시합니다. 그러나 MRE 혼합 데이터셋이 일본어로만 제공되어 왔기 때문에 전 세계 연구 커뮤니티의 포괄적인 탐구가 제한되어 왔습니다. 이러한 한계를 해결하기 위해, 우리는 영어, 일본어, 중국어로 구성된 21개의 하위 데이터셋을 포함한 다국어 MRE 혼합 데이터셋(Multilingual MRE mix dataset, MMM)을 소개합니다. 본 논문에서는 또한 대형 언어 모델(Large Language Models, LLMs)을 활용한 데이터셋 번역 방법을 제안하며, 이를 통해 원본 일본어 데이터셋의 번역에 필요한 수동 주석 시간을 크게 단축했습니다. 더불어, 우리는 개방형 도메인 개체명 인식(Named Entity Recognition, NER) 및 문장 분류 작업을 추가하여 데이터셋을 풍부하게 확장했습니다. 이 확장된 데이터셋을 활용하여, 우리는 개방형 정보 추출 대형 언어 모델(Open-domain Information Extraction Large Language Model, OIELLM)을 훈련하기 위한 통합 입력-출력 프레임워크를 개발했습니다. OIELLM 모델은 새로운 MMM 데이터셋을 효과적으로 처리할 수 있는 능력을 보여주며, 성능 면에서 상당한 개선을 달성했습니다.
현재 배포된 대부분의 대규모 언어 모델(LLM)은 지속적인 훈련 또는 추가적인 파인튜닝을 거칩니다. 이와 대조적으로, LLM의 내부 메커니즘에 대한 대부분의 연구는 특정 시점(사전 훈련 종료 시점)의 모델에 초점을 맞추고 있어, 이러한 연구 결과가 실제 환경에서도 일반화될 수 있는지에 대한 의문을 제기합니다. 시간에 따른 메커니즘을 연구한 기존 연구들은 인코더 전용 모델이나 간단한 모델에 집중되어 있으며, 이는 대부분의 배포된 모델과 크게 다릅니다. 본 연구에서는 디코더 전용 LLM에서 7000만에서 28억 개의 파라미터를 가진 모델들을 대상으로, 3000억 개의 토큰에 걸친 훈련 과정에서 모델 메커니즘(회로로 개념화됨)이 어떻게 등장하고 진화하는지 추적합니다. 우리는 과제 능력과 이를 지원하는 기능적 구성 요소들이 규모에 관계없이 비슷한 토큰 수에서 일관되게 등장함을 발견했습니다. 더욱이, 이러한 구성 요소들이 시간이 지남에 따라 다른 어텐션 헤드에 의해 구현될 수 있지만, 그들이 구현하는 전체 알고리즘은 유지됩니다. 놀랍게도, 이러한 알고리즘과 관련된 구성 요소의 유형들은 모델 규모에 걸쳐 복제될 수 있습니다. 이러한 결과는 사전 훈련 종료 시점의 소규모 모델에서 수행된 회로 분석이 추가적인 사전 훈련 이후와 모델 규모에 걸쳐 여전히 적용 가능한 통찰력을 제공할 수 있음을 시사합니다.
합성된 비디오의 품질을 향상시키기 위해 현재 널리 사용되는 방법 중 하나는 전문가 수준의 디퓨전 모델을 재학습한 후 노이즈 추가-제거 과정을 통해 개선하는 것입니다. 그러나 상당한 학습 비용에도 불구하고, 원본 비디오와 개선된 비디오 간의 콘텐츠 일관성을 유지하는 것은 여전히 주요 과제로 남아 있습니다. 이러한 과제를 해결하기 위해, 우리는 시각적 품질과 콘텐츠 일관성을 모두 고려한 새로운 공식을 제안합니다. 콘텐츠 일관성은 입력의 구조를 유지하는 새로운 손실 함수를 통해 보장되며, 시각적 품질은 사전 학습된 디퓨전 모델의 노이즈 제거 과정을 활용하여 개선됩니다. 이렇게 공식화된 최적화 문제를 해결하기 위해, 우리는 Noise Calibration이라고 명명된 플러그 앤 플레이 노이즈 최적화 전략을 개발했습니다. 초기 무작위 노이즈를 몇 번의 반복을 통해 개선함으로써, 원본 비디오의 콘텐츠를 크게 보존할 수 있으며, 개선 효과도 상당히 향상되었음을 확인할 수 있습니다. 광범위한 실험을 통해 제안된 방법의 효과성이 입증되었습니다.