번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)은 최근 몇 년 동안 다양한 작업에서 전례 없는 성능을 달성하며 큰 진전을 이루었습니다. 그러나 상업적 이익으로 인해 GPT, Gemini, Claude와 같은 가장 경쟁력 있는 모델들은 학습 세부 사항을 공개하지 않은 채 독점 인터페이스 뒤에 숨겨져 있습니다. 최근에는 LLaMA-3와 같은 여러 강력한 LLM이 오픈소스로 공개되어 기존의 폐쇄형 LLM과 견줄 만한 성능을 보여주고 있습니다. 그러나 모델의 가중치만 제공되며 중간 체크포인트, 사전 학습 코퍼스, 학습 코드 등 대부분의 세부 사항은 공개되지 않고 있습니다. LLM의 투명성을 높이기 위해 연구 커뮤니티는 Pythia, Amber, OLMo와 같은 진정한 오픈소스 LLM을 공개하며, 사전 학습 코퍼스와 학습 코드 등 더 많은 세부 사항을 제공하고 있습니다. 이러한 모델들은 대형 모델의 강점, 약점, 편향 및 위험을 포함한 과학적 연구를 크게 진전시켰습니다. 그러나 우리는 기존의 진정한 오픈소스 LLM이 추론, 지식, 코딩 작업에서 유사한 크기의 최신 LLM에 비해 여전히 열등하다는 점을 관찰했습니다. 이를 위해 우리는 4.5T의 고품질 토큰으로 처음부터 학습된 70억 개의 매개변수를 가진 고성능 및 투명한 이중 언어 모델인 MAP-Neo를 오픈소스로 공개합니다. 우리의 MAP-Neo는 기존의 최신 LLM과 비교할 만한 성능을 가진 최초의 완전 오픈소스 이중 언어 LLM입니다. 또한, 우리는 MAP-Neo를 재현하기 위한 모든 세부 사항을 오픈소스로 공개하며, 정제된 사전 학습 코퍼스, 데이터 정제 파이프라인, 체크포인트, 최적화된 학습/평가 프레임워크를 제공합니다. 마지막으로, 우리의 MAP-Neo가 오픈 연구 커뮤니티를 강화하고 더 많은 혁신과 창의성을 불러일으켜 LLM의 추가 개선을 촉진하기를 바랍니다.
선호 최적화, 특히 인간 피드백을 통한 강화 학습(RLHF)을 통해 대규모 언어 모델(LLMs)이 인간의 의도에 부합하도록 조정하는 데 상당한 성공을 거두었습니다. 고정된 데이터셋을 사용한 오프라인 정렬과 달리, 모델 생성물에 대한 인간 또는 AI의 온라인 피드백 수집은 일반적으로 반복적인 과정을 통해 더 능력 있는 보상 모델과 더 잘 정렬된 LLMs를 이끌어냅니다. 그러나 전역적으로 정확한 보상 모델을 달성하기 위해서는 자연어의 광활한 공간을 아우르는 다양한 응답을 생성하기 위한 체계적인 탐색이 필요합니다. 표준 보상 극대화 LLMs에서의 무작위 샘플링만으로는 이 요구를 충족시키기에 부족합니다. 이 문제를 해결하기 위해, 우리는 잠재적으로 높은 보상을 받을 수 있는 응답에 낙관적으로 편향된 이중 목적 함수를 제안하여 분포 외 영역을 적극적으로 탐색합니다. 재매개변수화된 보상 함수로 내부 문제를 해결함으로써, Self-Exploring Language Models(SELM)이라는 알고리즘은 별도의 보상 모델(RM) 없이도 간단한 목적 함수로 LLM을 반복적으로 업데이트합니다. 직접 선호 최적화(DPO)와 비교했을 때, SELM 목적 함수는 보이지 않는 외삽에 대한 무분별한 선호를 줄이고 탐색 효율성을 향상시킵니다. 우리의 실험 결과는 Zephyr-7B-SFT 및 Llama-3-8B-Instruct 모델에 미세 조정했을 때, SELM이 MT-Bench 및 AlpacaEval 2.0과 같은 지시 따르기 벤치마크뿐만 아니라 다양한 설정에서의 표준 학술 벤치마크에서 성능을 크게 향상시킨다는 것을 보여줍니다. 우리의 코드와 모델은 https://github.com/shenao-zhang/SELM에서 확인할 수 있습니다.
디퓨전 기반 텍스트-투-비디오(T2V) 모델은 상당한 성공을 거두었지만, 반복적인 샘플링 과정의 느린 속도로 인해 여전히 제약을 받고 있습니다. 이러한 문제를 해결하기 위해 빠른 추론을 가능하게 하는 일관성 모델(consistency model)이 제안되었으나, 샘플 품질이 저하되는 단점이 있었습니다. 본 연구에서는 비디오 일관성 모델(VCM)의 품질 병목 현상을 극복하여 빠르면서도 고품질의 비디오 생성을 달성하고자 합니다. 이를 위해 사전 학습된 T2V 모델의 일관성 증류(CD) 과정에 미분 가능한 보상 모델들의 피드백을 통합한 T2V-Turbo를 소개합니다. 특히, CD 손실 계산에서 자연스럽게 발생하는 단일 단계 생성과 관련된 보상을 직접 최적화함으로써, 반복적 샘플링 과정을 통해 역전파 그래디언트를 계산할 때 발생하는 메모리 제약을 효과적으로 우회합니다. 놀랍게도, T2V-Turbo의 4단계 생성은 VBench에서 가장 높은 총점을 기록하며, Gen-2와 Pika를 능가했습니다. 추가적으로 인간 평가를 통해 결과를 검증한 결과, T2V-Turbo의 4단계 생성이 교사 모델의 50단계 DDIM 샘플보다 선호되는 것으로 나타났으며, 이는 10배 이상의 가속화를 달성하면서도 비디오 생성 품질을 개선한 것을 의미합니다.
본 논문은 대규모 언어 모델(LLM)이 고차원적 마음 이론(Theory of Mind, ToM), 즉 인간이 여러 정신적·감정적 상태를 재귀적으로 추론하는 능력(예: 나는 네가 그녀가 알고 있다고 믿는다고 생각한다)을 어느 정도까지 발전시켰는지를 검토한다. 이 연구는 기존 연구를 바탕으로, 손으로 작성한 테스트 세트인 '다차원 마음 이론 Q&A(Multi-Order Theory of Mind Q&A)'를 도입하고 이를 사용하여 다섯 가지 LLM의 성능을 새로 수집한 성인 기준과 비교한다. 연구 결과, GPT-4와 Flan-PaLM은 전반적인 ToM 과제에서 성인 수준 또는 성인에 근접한 성능을 보였으며, GPT-4는 6차 추론에서 성인 성능을 초과했다. 이 결과는 ToM 능력의 실현에 있어 모델 크기와 미세 조정 간의 상호작용이 있음을 시사하며, 최고 성능의 LLM이 일반화된 ToM 능력을 발전시켰음을 보여준다. 고차원적 ToM이 다양한 협력적·경쟁적 인간 행동에서 중요한 역할을 한다는 점을 고려할 때, 이러한 발견은 사용자 중심 LLM 애플리케이션에 중요한 시사점을 제공한다.
대형 언어 모델(LLM)의 정렬(alignment)을 위한 주요 프레임워크는 인간 피드백을 통한 강화 학습이든 직접 선호 최적화이든, 선호 데이터로부터 학습하는 것입니다. 이는 각 요소가 프롬프트, 두 개의 독립적인 응답(프롬프트의 완성), 그리고 두 독립적 응답 간의 인간 선호도로 구성된 사중항(quadruplet) 데이터셋을 구축하는 것을 포함하며, 이를 통해 선호되는 응답과 비선호되는 응답을 도출합니다. 이러한 데이터는 일반적으로 희귀하고 수집 비용이 높습니다. 반면, 각 요소가 프롬프트, 응답, 그리고 인간 피드백으로 구성된 단일 궤적(single-trajectory) 데이터셋은 자연스럽게 더 풍부합니다. 이러한 데이터셋의 전형적인 예는 사용자의 프롬프트에 대한 LLM의 응답과 이에 대한 사용자의 피드백(예: 좋아요/싫어요)입니다. 따라서 본 연구에서는 쌍별 선호도(pairwise preference)가 필요 없는 프레임워크 및 관련 알고리즘으로 DRO(Direct Reward Optimization)를 제안합니다. DRO는 다양한 방식으로 구현할 수 있는 간단한 평균 제곱 오차 목적 함수를 사용합니다. 우리는 T5 인코더-디코더 언어 모델을 사용하여 실증적으로 연구 결과를 검증하고, DRO가 Kahneman-Tversky 최적화(KTO)와 같은 선택된 기준선(baseline) 대비 성능을 보임을 입증합니다. 이를 통해 DRO가 단일 궤적 정책 최적화를 위한 간단하면서도 실증적으로 설득력 있는 방법임을 확인합니다.
대형 언어 모델(LLMs)은 종종 환각(hallucination)을 일으키고 생성 결과에 대한 출처를 제공하는 능력이 부족합니다. kNN-LM과 같은 반파라메트릭 언어 모델은 이러한 한계를 해결하기 위해 비파라메트릭 데이터 저장소에서 가장 가까운 이웃 매칭을 사용하여 주어진 프롬프트에 대한 언어 모델의 출력을 개선합니다. 그러나 이러한 모델은 종종 느린 추론 속도를 보이고 비유창한 텍스트를 생성합니다. 본 논문에서는 임의 길이의 실제 텍스트 스팬을 언어 모델 생성에 통합하고 그 출처를 제공할 수 있는 새로운 반파라메트릭 언어 모델링 접근 방식인 Nearest Neighbor Speculative Decoding(NEST)를 소개합니다. NEST는 각 추론 단계에서 토큰 수준 검색을 수행하여 반파라메트릭 혼합 분포를 계산하고 코퍼스 내에서 유망한 스팬 연속을 식별합니다. 그런 다음 검색된 스팬의 접두사를 수락하거나 새로운 토큰을 생성하는 근사 스펙티브 디코딩 절차를 사용합니다. NEST는 다양한 지식 집약적 작업에서 기본 언어 모델의 생성 품질과 출처 제공률을 크게 향상시키며, 기존의 kNN-LM 방법을 능가하고 컨텍스트 내 검색 증강과 경쟁적으로 수행합니다. 또한 NEST는 생성 속도를 크게 개선하여 Llama-2-Chat 70B에 적용할 경우 추론 시간에서 1.8배의 속도 향상을 달성합니다.
본 논문은 고성능 결과를 위해 트랜스포머 아키텍처의 힘을 활용한 비디오 생성의 고급 방법인 EasyAnimate를 소개합니다. 우리는 원래 2D 이미지 합성을 위해 설계된 DiT 프레임워크를 확장하여 모션 모듈 블록을 통합함으로써 3D 비디오 생성의 복잡성을 수용했습니다. 이 모듈은 시간적 동역학을 포착하여 일관된 프레임과 원활한 모션 전환을 보장하는 데 사용됩니다. 모션 모듈은 다양한 DiT 베이스라인 방법에 적용되어 다양한 스타일의 비디오를 생성할 수 있습니다. 또한, 학습 및 추론 단계에서 다양한 프레임 속도와 해상도의 비디오를 생성할 수 있으며, 이미지와 비디오 모두에 적합합니다. 더불어, 우리는 시간 축을 압축하여 장시간 비디오 생성을 용이하게 하는 새로운 접근법인 슬라이스 VAE를 소개합니다. 현재 EasyAnimate는 144프레임의 비디오를 생성할 수 있는 능력을 보여줍니다. 우리는 데이터 전처리, VAE 학습, DiT 모델 학습(베이스라인 모델 및 LoRA 모델), 그리고 엔드투엔드 비디오 추론을 포함한 DiT 기반의 비디오 생성을 위한 종합적인 생태계를 제공합니다. 코드는 https://github.com/aigc-apps/EasyAnimate에서 확인할 수 있습니다. 우리는 지속적으로 이 방법의 성능을 향상시키기 위해 노력하고 있습니다.
여러 생성형 기반 모델, 특히 서로 다른 양식(modality)으로 훈련된 모델들을 통합하여 단순한 합 이상의 성능을 달성하는 것은 상당한 도전 과제를 안고 있습니다. 두 가지 주요 장벽은 정렬된 데이터의 가용성(서로 다른 양식에서 유사한 의미를 지니지만 다르게 표현된 개념들)과, 원래의 단일 양식 능력을 저해하지 않으면서 교차 도메인 생성 작업에서 단일 양식 표현을 효과적으로 활용하는 것입니다. 이러한 문제를 해결하기 위해, 우리는 Zipper라는 다중 타워 디코더 아키텍처를 제안합니다. 이 아키텍처는 독립적으로 사전 훈련된 단일 양식 디코더들을 교차 주의(cross-attention)를 통해 유연하게 조합하여 다중 양식 생성 모델을 구성합니다. 음성과 텍스트 양식을 융합한 실험에서, 우리는 제안된 아키텍처가 정렬된 텍스트-음성 데이터가 제한된 시나리오에서도 매우 경쟁력 있는 성능을 보임을 입증했습니다. 또한, 우리 모델이 해당 양식 타워(예: 텍스트)를 고정함으로써 단일 양식(예: 텍스트-텍스트 생성) 생성 성능을 선택적으로 유지할 수 있는 유연성을 보여줍니다. 출력 양식이 텍스트인 자동 음성 인식(ASR)과 같은 교차 양식 작업에서는 텍스트 백본을 고정해도 성능 저하가 미미함을 확인했습니다. 출력 양식이 음성인 텍스트-음성 생성(TTS)과 같은 교차 양식 작업에서는 사전 훈련된 음성 백본을 사용할 때 기준선보다 우수한 성능을 보임을 입증했습니다.
고해상도의 디지털 인간 머리 모델을 생성하는 것은 가상 요소를 우리의 일상생활에 더욱 통합하기 위한 중요한 단계입니다. 이러한 아바타를 구축하는 것은 사진과 같은 현실감과 실시간 렌더링 성능에 대한 높은 요구로 인해 어려운 연구 과제입니다. 본 연구에서는 다중 시점 비디오 기록을 기반으로 고해상도이고 제어 가능한 아바타를 생성하기 위한 데이터 기반 접근 방식인 Neural Parametric Gaussian Avatars(NPGA)를 제안합니다. 우리는 고효율 렌더링과 포인트 클라우드의 위상적 유연성을 계승하기 위해 3D Gaussian Splatting을 중심으로 방법론을 구축했습니다. 기존 연구와 달리, 우리는 메시 기반 3DMM 대신 신경망 파라미터 헤드 모델(NPHM)의 풍부한 표현 공간에 아바타의 동적 특성을 조건화합니다. 이를 위해, 우리는 기본 NPHM의 역방향 변형 필드를 래스터화 기반 렌더링과 호환되는 순방향 변형으로 정제합니다. 나머지 미세한 표현 의존적 세부 사항은 다중 시점 비디오로부터 학습됩니다. 아바타의 표현 능력을 높이기 위해, 우리는 동적 행동을 제어하는 프리미티브별 잠재 특징을 사용하여 정규화된 가우시안 포인트 클라우드를 확장합니다. 이러한 증가된 동적 표현성을 규제하기 위해, 우리는 잠재 특징과 예측된 동적 특성에 라플라시안 항을 제안합니다. 우리는 공개된 NeRSemble 데이터셋에서 우리의 방법을 평가하며, NPGA가 자체 재연 작업에서 이전 최첨단 아바타보다 2.6 PSNR로 크게 우수함을 입증했습니다. 또한, 실제 단안 비디오로부터 정확한 애니메이션 능력을 보여줍니다.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호에 맞추는 데 있어 큰 가능성을 보여주고 있습니다. 선호 데이터의 가용성에 따라 온라인 및 오프라인 RLHF는 활발히 연구되고 있는 분야입니다. 주요 병목 현상은 선호 데이터가 어떻게 수집되었는지에 관계없이, RLHF를 위해 선호 데이터로부터 학습된 보상 함수에 불확실성 추정을 어떻게 통합할지 이해하는 것입니다. 불확실성 하에서의 낙관주의 또는 비관주의 원칙은 표준 강화 학습(RL)에서 잘 정립되어 있지만, 대규모 언어 모델에 적합하며 이론적으로 타당한 형태는 아직 제공되지 않았습니다. 이는 임의의 정책 파라미터화 하에서 신뢰 구간을 구성하는 표준 기법이 다루기 어렵기 때문입니다. 본 논문에서는 온라인 및 오프라인 RLHF를 통합하는 접근 방식인 가치 유도 선호 최적화(VPO)를 소개합니다. VPO는 보상 함수의 최대 가능도 추정치를 해당 가치 함수로 정규화하며, 낙관주의 또는 비관주의를 선택했는지를 나타내는 부호로 조절됩니다. VPO는 또한 암묵적 보상 모델링을 통해 정책을 직접 최적화하므로, 직접 선호 최적화와 유사한 더 간단한 RLHF 파이프라인을 공유합니다. VPO의 이론적 보장은 온라인 및 오프라인 설정 모두에서 제공되며, 표준 RL의 속도와 일치합니다. 또한, 텍스트 요약 및 대화 실험을 통해 VPO의 실용성과 효과성을 검증하였습니다.
사운드 콘텐츠는 비디오 게임, 음악, 영화와 같은 멀티미디어 작품에서 필수적인 요소입니다. 최근의 고품질 확산 기반 사운드 생성 모델은 창작자들에게 유용한 도구로 활용될 수 있습니다. 그러나 이러한 모델들은 고품질의 사운드를 생성함에도 불구하고, 종종 느린 추론 속도로 인해 문제가 발생합니다. 이러한 단점은 창작자들에게 부담을 주는데, 이들은 일반적으로 자신의 예술적 의도에 맞게 사운드를 시행착오를 통해 다듬어야 하기 때문입니다. 이 문제를 해결하기 위해, 우리는 Sound Consistency Trajectory Models (SoundCTM)을 소개합니다. 우리의 모델은 고품질의 1단계 사운드 생성과 다단계 생성을 통한 우수한 사운드 품질 사이에서 유연한 전환을 가능하게 합니다. 이를 통해 창작자들은 초기에 1단계 샘플로 사운드를 제어한 후, 다단계 생성을 통해 다듬을 수 있습니다. CTM은 기본적으로 유연한 1단계 및 다단계 생성을 달성하지만, 그 인상적인 성능은 추가로 사전 훈련된 특징 추출기와 적대적 손실에 크게 의존하며, 이는 훈련 비용이 많이 들고 다른 도메인에서는 항상 사용 가능하지 않습니다. 따라서 우리는 CTM의 훈련 프레임워크를 재구성하고, 교사 네트워크를 활용하여 증류 손실을 위한 새로운 특징 거리를 도입했습니다. 또한, 분류자 없는 가이드 궤적을 증류하는 동안, 조건부 및 무조건부 학생 모델을 동시에 훈련하고 추론 중에 이들 모델 간의 보간을 수행합니다. 우리는 또한 SoundCTM의 유연한 샘플링 능력을 활용하여 훈련 없이 제어 가능한 프레임워크를 제안합니다. SoundCTM은 추가적인 오프더셰프 네트워크를 사용하지 않고도 유망한 1단계 및 다단계 실시간 사운드 생성을 동시에 달성합니다. 더 나아가, 우리는 SoundCTM이 훈련 없이도 제어 가능한 사운드 생성을 수행할 수 있는 능력을 입증합니다.
기존의 확산 기반 텍스트-3D 생성 방법은 주로 시각적으로 사실적인 형태와 외관을 만드는 데 초점을 맞추며, 하위 작업에 필요한 물리적 제약 조건을 종종 간과합니다. 생성된 모델은 물리 기반 시뮬레이션에 배치되거나 3D 프린팅될 때 균형을 유지하지 못하는 경우가 많습니다. 이러한 균형은 인터랙티브 게임, 구체화된 AI, 로보틱스와 같은 분야에서 사용자 설계 의도를 충족시키기 위해 안정적인 모델이 필요한 경우에 매우 중요합니다. 또한, 안정적인 모델은 가정 장식용 피규어와 같은 3D 프린팅된 물체가 추가 지지대 없이 스스로 서 있을 수 있도록 보장합니다. 이러한 격차를 메우기 위해, 우리는 Atlas3D를 소개합니다. Atlas3D는 기존의 Score Distillation Sampling (SDS) 기반 텍스트-3D 도구를 강화하는 자동적이고 구현이 쉬운 방법입니다. Atlas3D는 중력, 접촉, 마찰과 같은 물리적 안정성 법칙을 준수하는 자립형 3D 모델의 생성을 보장합니다. 우리의 접근 방식은 새로운 미분 가능 시뮬레이션 기반 손실 함수와 물리적으로 영감을 받은 정규화를 결합하여, 기존 프레임워크의 개선 또는 후처리 모듈로 사용됩니다. 우리는 광범위한 생성 작업을 통해 Atlas3D의 효능을 검증하고, 시뮬레이션 및 실제 환경에서 생성된 3D 모델의 유효성을 확인합니다.