번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델 시대에서, 전문가 혼합(Mixture-of-Experts, MoE)은 모델 파라미터를 확장할 때 계산 비용을 관리하기 위한 유망한 아키텍처입니다. 그러나 GShard와 같은 기존의 MoE 아키텍처는 N명의 전문가 중 상위 K명을 활성화하는 방식으로, 각 전문가가 중복되지 않고 집중된 지식을 습득하는 전문가 전문화를 보장하는 데 어려움을 겪습니다. 이에 대응하여, 우리는 궁극적인 전문가 전문화를 목표로 DeepSeekMoE 아키텍처를 제안합니다. 이 아키텍처는 두 가지 주요 전략을 포함합니다: (1) 전문가를 mN명으로 세분화하고 그 중 mK명을 활성화하여, 활성화된 전문가의 조합을 더 유연하게 만드는 것; (2) K_s명의 전문가를 공유 전문가로 분리하여 공통 지식을 포착하고 라우팅된 전문가 간의 중복을 완화하는 것. 20억 개의 파라미터로 시작하여, 우리는 DeepSeekMoE 20억이 전문가 파라미터와 계산량이 1.5배인 GShard 29억과 비슷한 성능을 달성함을 보여줍니다. 또한, DeepSeekMoE 20억은 동일한 총 파라미터 수를 가진 밀집 모델의 성능에 거의 근접하며, 이는 MoE 모델의 상한선을 설정합니다. 이후, DeepSeekMoE를 160억 개의 파라미터로 확장하여 LLaMA2 70억과 비슷한 성능을 달성하며, 계산량의 약 40%만 사용함을 보여줍니다. 더 나아가, DeepSeekMoE를 1450억 개의 파라미터로 확장하려는 우리의 초기 노력은 GShard 아키텍처에 비해 상당한 이점을 일관되게 검증하며, DeepSeek 670억과 비슷한 성능을 달성하면서 계산량의 28.5%(심지어 18.2%)만 사용함을 보여줍니다.
콘텐츠 제작자들은 종종 기존 텍스트-이미지 모델의 한계를 넘어서는 개인화된 주제를 사용하여 맞춤형 이미지를 만들고자 합니다. 또한, 결과 이미지가 특정 장소, 스타일, 분위기 등을 포함하길 원할 수 있습니다. 기존의 개인화 방법들은 개인화 능력이나 복잡한 텍스트 프롬프트와의 정렬을 저해할 수 있습니다. 이러한 절충은 사용자 프롬프트의 충족과 주제 충실도를 방해할 수 있습니다. 우리는 이러한 문제를 해결하기 위해 단일 프롬프트에 초점을 맞춘 새로운 개인화 방법을 제안합니다. 우리는 이 접근법을 프롬프트 정렬 개인화(prompt-aligned personalization)라고 명명합니다. 이 방법은 제한적으로 보일 수 있지만, 텍스트 정렬을 개선하여 현재 기술로는 도전적일 수 있는 복잡하고 정교한 프롬프트를 가진 이미지 생성에 탁월한 성과를 보입니다. 특히, 우리의 방법은 추가적인 점수 증류 샘플링(score distillation sampling) 항목을 사용하여 개인화된 모델이 목표 프롬프트와 정렬되도록 유지합니다. 우리는 이 방법의 다중 및 단일 샷 설정에서의 다양성을 입증하고, 여러 주제를 조합하거나 예술 작품과 같은 참조 이미지에서 영감을 얻을 수 있음을 추가로 보여줍니다. 우리는 제안한 접근법을 기존 베이스라인 및 최신 기술과 정량적 및 정성적으로 비교합니다.
인간 피드백을 통한 강화 학습(Reinforcement Learning from Human Feedback, RLHF)은 언어 모델을 인간의 가치와 의도에 맞추는 데 있어 핵심 기술로 자리 잡았으며, 이를 통해 모델이 더 유용하고 안전한 응답을 생성할 수 있게 되었습니다. 보상 모델은 인간의 선호도를 대리하여 강화 학습 최적화를 이끌기 위해 훈련됩니다. 보상 모델이 높은 성능을 달성하는 데 있어 중심적인 역할을 하는 것으로 여겨지지만, 실제 응용에서는 다음과 같은 문제에 직면합니다: (1) 데이터셋 내의 잘못된 또는 모호한 선호도 쌍은 보상 모델이 인간의 의도를 정확히 파악하는 데 방해가 될 수 있습니다. (2) 특정 분포의 데이터로 훈련된 보상 모델은 해당 분포를 벗어난 예제에 대해 일반화하기 어려우며, 반복적인 RLHF 훈련에는 적합하지 않습니다. 이 보고서에서는 이러한 두 가지 문제를 해결하고자 합니다. (1) 데이터 관점에서, 우리는 다중 보상 모델의 투표 메커니즘을 기반으로 데이터 내 선호도의 강도를 측정하는 방법을 제안합니다. 실험 결과는 선호도 강도가 다른 데이터가 보상 모델 성능에 미치는 영향이 다르다는 것을 확인시켜 줍니다. 우리는 데이터셋 내 잘못된 또는 모호한 선호도의 영향을 완화하고 고품질 선호도 데이터를 최대한 활용하기 위한 일련의 새로운 방법을 소개합니다. (2) 알고리즘적 관점에서, 우리는 대조 학습(contrastive learning)을 도입하여 보상 모델이 선택된 응답과 거부된 응답을 구분하는 능력을 강화함으로써 모델의 일반화 성능을 개선합니다. 더 나아가, 메타 학습(meta-learning)을 활용하여 보상 모델이 분포 외(out-of-distribution) 샘플에서도 미묘한 차이를 구분할 수 있는 능력을 유지하도록 하며, 이 접근법은 반복적인 RLHF 최적화에 활용될 수 있습니다.
포인트 기반 광도 필드 렌더링은 새로운 시점 합성에서 인상적인 결과를 보여주며, 렌더링 품질과 계산 효율성의 매력적인 조합을 제공합니다. 그러나 이 분야의 최신 접근법들도 단점이 없지는 않습니다. 3D 가우시안 스플래팅[Kerbl and Kopanas et al. 2023]은 매우 디테일한 장면을 렌더링할 때 흐림 현상과 구름 같은 아티팩트로 인해 어려움을 겪습니다. 반면, ADOP[Rückert et al. 2022]는 더 선명한 이미지를 처리할 수 있지만, 신경망 재구성 네트워크가 성능을 저하시키고, 시간적 불안정성을 겪으며, 포인트 클라우드의 큰 간격을 효과적으로 해결하지 못합니다. 이 논문에서 우리는 가우시안 스플래팅과 ADOP의 아이디어를 결합한 TRIPS(Trilinear Point Splatting) 접근법을 제시합니다. 우리의 새로운 기술의 기본 개념은 투영된 포인트 크기에 따라 결정된 스크린 공간 이미지 피라미드로 포인트를 래스터화하는 것입니다. 이 접근법은 단일 삼선형 쓰기를 사용하여 임의로 큰 포인트를 렌더링할 수 있게 합니다. 그런 다음 경량 신경망을 사용하여 스플래트 해상도를 넘어서는 디테일을 포함한 구멍 없는 이미지를 재구성합니다. 중요한 것은, 우리의 렌더링 파이프라인이 완전히 미분 가능하여 포인트 크기와 위치 모두를 자동으로 최적화할 수 있다는 점입니다. 우리의 평가 결과, TRIPS는 기존의 최신 방법들을 렌더링 품질 측면에서 능가하면서도 일반적으로 사용 가능한 하드웨어에서 실시간 프레임 속도인 초당 60프레임을 유지합니다. 이 성능은 복잡한 기하학, 광활한 풍경, 자동 노출 영상과 같은 도전적인 시나리오에서도 확장됩니다.
최근 연구들은 품질 보상을 활용한 강화 학습(RL)이 텍스트-이미지(T2I) 생성에서 생성된 이미지의 품질을 향상시킬 수 있음을 보여주었습니다. 그러나 여러 보상을 단순히 통합하는 경우 특정 지표에서는 과도한 최적화가 발생하고 다른 지표에서는 성능 저하가 발생할 수 있으며, 최적의 가중치를 수동으로 찾는 것은 어려운 과제입니다. T2I 생성을 위한 RL에서 여러 보상을 공동으로 최적화하는 효과적인 전략은 매우 요구됩니다. 본 논문은 T2I 생성을 위한 새로운 다중 보상 RL 프레임워크인 Parrot을 소개합니다. Parrot은 배치 단위 파레토 최적 선택을 통해 T2I 생성의 RL 최적화 과정에서 다양한 보상 간의 최적 균형을 자동으로 식별합니다. 또한, Parrot은 T2I 모델과 프롬프트 확장 네트워크를 공동으로 최적화하는 접근 방식을 채택하여, 품질을 고려한 텍스트 프롬프트 생성을 촉진함으로써 최종 이미지 품질을 더욱 향상시킵니다. 프롬프트 확장으로 인해 원본 사용자 프롬프트가 잊히는 치명적인 문제를 방지하기 위해, 추론 시점에 원본 프롬프트 중심 가이던스를 도입하여 생성된 이미지가 사용자 입력에 충실하도록 보장합니다. 광범위한 실험과 사용자 연구를 통해 Parrot이 미학, 인간 선호도, 이미지 감정, 텍스트-이미지 정렬 등 다양한 품질 기준에서 여러 베이스라인 방법들을 능가함을 입증하였습니다.
대규모 언어 모델(LLM)의 은닉 표현에 인코딩된 정보를 검사함으로써 모델의 행동을 설명하고 인간의 가치와의 일치 여부를 검증할 수 있습니다. LLM이 인간이 이해할 수 있는 텍스트를 생성하는 능력을 고려할 때, 우리는 모델 자체를 활용하여 그 내부 표현을 자연어로 설명하는 방법을 제안합니다. 우리는 '패치스코프(Patchscopes)'라는 프레임워크를 소개하고, 이를 통해 LLM의 계산에 관한 다양한 연구 질문에 답할 수 있는 방법을 보여줍니다. 우리는 표현을 어휘 공간에 투영하고 LLM 계산에 개입하는 기존의 해석 가능성 방법들이 이 프레임워크의 특수한 사례로 간주될 수 있음을 보여줍니다. 또한, 초기 레이어 검사 실패나 표현력 부족과 같은 기존 방법의 단점들은 패치스코프를 통해 완화될 수 있습니다. 패치스코프는 기존 검사 기술을 통합하는 것을 넘어, 더 강력한 모델을 사용하여 더 작은 모델의 표현을 설명하거나, 다중 단계 추론에서의 자기 수정과 같은 새로운 응용 가능성을 열어줍니다.
웹의 방대한 데이터 코퍼스로 훈련된 대규모 언어 모델은 민감하거나 개인적인 데이터를 암기하고 재생산할 수 있어 법적 및 윤리적 문제를 제기합니다. 이러한 문제를 해결하기 위해, 훈련 후 개인 데이터를 보호하는 방법으로 언러닝(unlearning), 즉 모델이 훈련 데이터에 존재하는 정보를 잊도록 조정하는 기법이 제안되었습니다. 여러 언러닝 방법이 존재하지만, 이러한 방법들이 잊혀야 할 데이터가 처음부터 학습되지 않은 모델과 동등한 결과를 내는지 여부는 명확하지 않습니다. 이 문제를 해결하기 위해, 우리는 언러닝에 대한 이해를 심화시키기 위한 벤치마크로 TOFU(Task of Fictitious Unlearning)를 제안합니다. 우리는 20개의 질문-답변 쌍으로 구성된 200개의 다양한 가상 저자 프로필 데이터셋과, 언러닝 대상으로 사용되는 이 프로필의 하위 집합인 '잊기 세트(forget set)'를 제공합니다. 또한, 언러닝 효과를 종합적으로 평가할 수 있는 메트릭 세트를 구성하고, 기존 언러닝 알고리즘의 베이스라인 결과를 제시합니다. 중요한 점은, 우리가 고려한 모든 베이스라인이 효과적인 언러닝을 보여주지 못했다는 것입니다. 이는 모델이 잊기 세트 데이터를 전혀 훈련받지 않은 것처럼 진정으로 행동하도록 조정하는 효과적인 언러닝 접근법 개발을 위한 지속적인 노력이 필요함을 시사합니다.
의학의 핵심에는 의사와 환자 간의 대화가 자리 잡고 있으며, 숙련된 병력 청취는 정확한 진단, 효과적인 치료, 그리고 지속적인 신뢰를 위한 길을 열어줍니다. 진단 대화가 가능한 인공지능(AI) 시스템은 의료 접근성, 일관성, 그리고 치료의 질을 향상시킬 수 있습니다. 그러나 임상의의 전문성을 모방하는 것은 여전히 해결해야 할 중대한 과제입니다. 본 연구에서는 진단 대화에 최적화된 대형 언어 모델(LLM) 기반 AI 시스템인 AMIE(Articulate Medical Intelligence Explorer)를 소개합니다. AMIE는 다양한 질환, 전문 분야, 그리고 상황에서 학습을 확장하기 위해 자동화된 피드백 메커니즘을 갖춘 새로운 자기 주도적 시뮬레이션 환경을 사용합니다. 우리는 병력 청취, 진단 정확도, 치료 추론, 의사소통 기술, 그리고 공감 능력을 포함한 임상적으로 의미 있는 성능 축을 평가하기 위한 프레임워크를 설계했습니다. AMIE의 성능을 객관적 구조화된 임상 시험(OSCE) 스타일의 검증된 환자 배우와의 텍스트 기반 상담에서 1차 진료 의사(PCP)와 비교하기 위해 무작위 이중 맹검 교차 연구를 진행했습니다. 이 연구에는 캐나다, 영국, 그리고 인도의 임상 제공자로부터 수집된 149개의 사례 시나리오, AMIE와 비교를 위한 20명의 PCP, 그리고 전문 의사와 환자 배우의 평가가 포함되었습니다. AMIE는 전문 의사 평가에서 32개 축 중 28개에서, 환자 배우 평가에서 26개 축 중 24개에서 더 높은 진단 정확도와 우수한 성능을 보였습니다. 우리의 연구에는 몇 가지 한계가 있으며, 적절한 주의를 기울여 해석해야 합니다. 임상의들은 익숙하지 않은 동기화된 텍스트 채팅으로 제한되었으며, 이는 대규모 LLM-환자 상호작용을 가능하게 하지만 일반적인 임상 실습을 대표하지는 않습니다. AMIE가 실제 환경에 적용되기 위해서는 추가 연구가 필요하지만, 이 결과는 대화형 진단 AI를 향한 중요한 이정표를 나타냅니다.
멀티모달 대형 언어 모델은 다양한 모달리티에서의 여러 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 기존의 멀티모달 모델은 주로 각 모달리티 내의 전역 정보를 포착하는 데 중점을 두면서, 모달리티 간의 지역 정보를 인식하는 중요성을 간과하고 있습니다. 결과적으로, 이러한 모델은 입력 데이터의 세부 사항을 효과적으로 이해하는 능력이 부족하여, 더 미묘한 이해를 요구하는 작업에서의 성능이 제한됩니다. 이러한 한계를 해결하기 위해, 여러 모달리티에 걸친 세부적인 이해를 가능하게 하는 모델을 개발할 필요가 있습니다. 이를 통해 다양한 작업에 대한 적용 가능성을 향상시킬 수 있습니다. 본 논문에서는 언어 강화 멀티모달 그라운딩 모델인 LEGO를 제안합니다. 다른 멀티모달 모델과 마찬가지로 전역 정보를 포착하는 것 이상으로, 제안된 모델은 입력 내의 지역 정보에 대한 세부적인 이해를 요구하는 작업에서 탁월한 성능을 보입니다. 이 모델은 이미지 내의 특정 영역이나 비디오 내의 특정 순간을 정확하게 식별하고 위치를 파악할 수 있습니다. 이러한 목표를 달성하기 위해, 우리는 다양한 데이터셋 구축 파이프라인을 설계하여 모델 학습을 위한 멀티모달, 다중 세분성 데이터셋을 생성했습니다. 모델의 코드, 데이터셋, 데모는 https://github.com/lzw-lzw/LEGO에서 확인할 수 있습니다.
확산 기반 비디오 편집은 인상적인 품질에 도달했으며, 텍스트 편집 프롬프트에 따라 주어진 비디오 입력의 전역 스타일, 지역 구조 및 속성을 변환할 수 있습니다. 그러나 이러한 솔루션은 일반적으로 시간적으로 일관된 프레임을 생성하기 위해 확산 역전파 및/또는 프레임 간 주의 메커니즘의 형태로 많은 메모리와 계산 비용을 발생시킵니다. 본 논문에서는 이러한 비효율성을 분석하고, 품질을 유지하면서도 상당한 속도 향상을 가능하게 하는 간단하지만 효과적인 수정 사항을 제안합니다. 더 나아가, 우리는 Object-Centric Diffusion(OCD)을 도입하여 지연 시간을 더욱 줄이기 위해 시각적 품질에 있어 더 중요한 전경 편집 영역에 계산을 더 집중시킵니다. 이를 위해 두 가지 새로운 제안을 합니다: i) Object-Centric Sampling은 주요 영역과 배경에 소요되는 확산 단계를 분리하여 모델의 대부분의 용량을 전자에 할당하고, ii) Object-Centric 3D Token Merging은 중요하지 않은 배경 영역에서 중복 토큰을 융합하여 프레임 간 주의 메커니즘의 비용을 줄입니다. 두 기술 모두 재학습 없이 주어진 비디오 편집 모델에 바로 적용할 수 있으며, 메모리와 계산 비용을 크게 줄일 수 있습니다. 우리는 역전파 기반 및 제어 신호 기반 편집 파이프라인에서 제안 사항을 평가하고, 유사한 합성 품질을 유지하면서 최대 10배의 지연 시간 감소를 보여줍니다.
동적 신시점 합성(dynamic novel view synthesis)은 비디오 내 시각적 콘텐츠의 시간적 변화를 포착하는 것을 목표로 합니다. 기존 방법들은 특히 카메라 포즈가 알려지지 않았거나 물체의 움직임에 비해 제한된 상황에서 움직임과 구조를 구분하는 데 어려움을 겪습니다. 또한, 참조 이미지로부터의 정보만으로는 주어진 비디오에서 가려지거나 부분적으로 관찰된 보이지 않는 영역을 예측하는 것이 매우 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 먼저 사전 학습된 RGB-D 확산 모델을 비디오 프레임에 맞춰 커스터마이징 기법을 사용하여 미세 조정합니다. 그런 다음, 미세 조정된 모델에서 동적 및 정적 신경 방사 필드(NeRF) 구성 요소를 모두 포함하는 4D 표현으로 지식을 추출합니다. 제안된 파이프라인은 장면의 정체성을 유지하면서 기하학적 일관성을 달성합니다. 우리는 제안된 방법의 효용성을 정성적 및 정량적으로 평가하기 위해 철저한 실험을 수행합니다. 실험 결과는 우리의 접근 방식이 어려운 사례에서도 견고성과 유용성을 보여주며, 동적 신시점 합성 분야를 더욱 발전시킴을 입증합니다.
웹상의 콘텐츠가 종종 여러 언어로 번역되며, 이러한 다중 언어 번역의 낮은 품질은 기계 번역(MT)을 통해 생성되었을 가능성이 높음을 보여줍니다. 다중 언어 병렬 기계 생성 콘텐츠는 저자원 언어에서의 번역을 주도할 뿐만 아니라, 해당 언어의 전체 웹 콘텐츠 중 상당 부분을 차지합니다. 또한, 다중 언어로 번역되는 콘텐츠 유형에 대한 선택 편향의 증거를 발견했는데, 이는 저품질 영어 콘텐츠가 기계 번역을 통해 다수의 저자원 언어로 대량 번역되는 현상과 일치합니다. 본 연구는 웹에서 수집된 단일 언어 및 이중 언어 데이터를 사용하여 다국어 대형 언어 모델과 같은 모델을 훈련하는 것에 대한 심각한 우려를 제기합니다.
본 논문은 대규모 언어 모델(LLM) 기반 기계 번역(MT)에서의 두 가지 과제를 해결하기 위해 대조 정렬 지시(AlignInstruct)를 소개한다. 첫 번째 과제는 이전에 다루지 않았던 새로운 언어로의 지원 범위 확장이며, 두 번째 과제는 저자원 언어에서의 데이터 부족 문제이다. MT 지시(MTInstruct)를 통한 모델 미세 조정은 첫 번째 과제에 대한 직관적인 접근법이다. 그러나 MTInstruct는 두 번째 과제에 내재된 약한 교차 언어 신호로 인해 한계가 있다. AlignInstruct는 통계적 단어 정렬을 통해 구축된 교차 언어 판별기를 사용하여 교차 언어 감독을 강조한다. BLOOMZ 모델(1b1, 3b, 7b1)을 최대 24개의 새로운 언어로 미세 조정한 결과는 다음과 같다: (1) LLM은 MTInstruct를 사용하여 새로운 언어를 효과적으로 번역할 수 있다; (2) AlignInstruct는 영어를 포함한 48개 번역 방향에서 일관된 번역 품질 개선을 이끌었다; (3) 판별기 기반 지시는 생성적 대안보다 교차 언어 지시로서 더 우수한 성능을 보였다; (4) AlignInstruct는 30개의 제로샷 방향에서 성능을 향상시켰다.