번역이 포함된 일일 선별된 AI 연구 논문
우리는 가우시안 스플랫(Gaussian splat)으로 렌더링된 인간 신체를 위한 최초의 3D 제어 가능 모델인 Drivable 3D Gaussian Avatars(D3GA)를 소개합니다. 현재의 사실적인 드라이버블 아바타는 학습 중 정확한 3D 등록, 테스트 중 밀집된 입력 이미지, 또는 둘 다를 필요로 합니다. 신경 방사 필드(Neural Radiance Fields) 기반의 아바타는 텔레프레즌스(telepresence) 애플리케이션에 사용하기에는 지나치게 느린 경향이 있습니다. 본 연구는 최근 제시된 3D 가우시안 스플랫팅(3DGS) 기술을 사용하여 밀집된 보정된 다중 뷰 비디오를 입력으로 실시간 프레임 속도로 사실적인 인간을 렌더링합니다. 이러한 기본 요소를 변형하기 위해 일반적으로 사용되는 선형 블렌드 스키닝(Linear Blend Skinning, LBS) 포인트 변형 방법을 벗어나 고전적인 볼륨 변형 방법인 케이지 변형(cage deformations)을 사용합니다. 더 작은 크기를 고려하여, 우리는 통신 애플리케이션에 더 적합한 관절 각도와 키포인트로 이러한 변형을 구동합니다. 다양한 체형, 의상 및 동작을 가진 9명의 실험 대상에 대한 실험에서 동일한 학습 및 테스트 데이터를 사용할 때 최신 방법보다 더 높은 품질의 결과를 얻었습니다.
단일 입력 이미지로부터 일관된 고해상도 외관을 가진 사람의 360도 뷰를 생성하는 접근 방식을 제시합니다. NeRF 및 그 변형 모델들은 일반적으로 다양한 시점에서 촬영된 비디오나 이미지를 필요로 합니다. 단안 입력을 사용하는 대부분의 기존 접근법은 지도 학습을 위한 실측 3D 스캔에 의존하거나 3D 일관성이 부족합니다. 최근 3D 생성 모델들은 3D 일관성을 갖춘 인간 디지털화의 가능성을 보여주지만, 이러한 접근법들은 다양한 의상 외관에 대해 잘 일반화되지 않으며 결과물이 사실적이지 못합니다. 기존 연구와 달리, 우리는 일반적인 이미지 합성 작업을 위해 사전 학습된 고용량 2D 확산 모델을 의상을 입은 인간의 외관 사전 지식으로 활용합니다. 입력된 사람의 정체성을 유지하면서 더 나은 3D 일관성을 달성하기 위해, 실루엣과 표면 법선에 기반한 형태 가이드 확산을 통해 누락된 영역을 채우며 입력 이미지 속 인간의 다중 뷰를 점진적으로 합성합니다. 그런 다음, 이러한 합성된 다중 뷰 이미지를 역렌더링을 통해 융합하여 주어진 사람의 완전히 텍스처링된 고해상도 3D 메시를 얻습니다. 실험 결과, 우리의 접근법은 기존 방법들을 능가하며 단일 이미지로부터 복잡한 텍스처를 가진 다양한 의상을 입은 인간의 사실적인 360도 합성을 달성함을 보여줍니다.
우리는 트랜스포머 기반의 3D 대형 재구성 모델을 사용하여 다중 뷰 디퓨전을 잡음 제거하는 새로운 3D 생성 접근법인 DMV3D를 제안합니다. 우리의 재구성 모델은 트라이플레인 NeRF 표현을 통합하고 있으며, NeRF 재구성 및 렌더링을 통해 잡음이 있는 다중 뷰 이미지를 잡음 제거할 수 있어 단일 A100 GPU에서 약 30초 내에 단일 단계 3D 생성을 달성합니다. 우리는 DMV3D를 대규모 다중 뷰 이미지 데이터셋에서 매우 다양한 객체를 대상으로 3D 자산에 접근하지 않고도 이미지 재구성 손실만을 사용하여 학습시켰습니다. 우리는 보이지 않는 객체 부분에 대한 확률적 모델링이 필요한 단일 이미지 재구성 문제에서 선명한 질감을 가진 다양한 재구성을 생성하는 최첨단 결과를 보여줍니다. 또한, 이전의 3D 디퓨전 모델을 능가하는 고품질의 텍스트-투-3D 생성 결과를 보여줍니다. 우리의 프로젝트 웹사이트는 https://justimyhxu.github.io/projects/dmv3d/ 에 있습니다.
오디오 디퓨전 모델은 다양한 소리를 합성할 수 있습니다. 기존 모델들은 주로 잠재 공간에서 작동하며, 파형을 재구성하기 위해 단계적 위상 복구 모듈을 사용합니다. 이는 고충실도 오디오를 생성할 때 어려움을 야기합니다. 본 논문에서는 명료화된 디퓨전 모델(EDM) 프레임워크 하에서 스펙트로그램 영역에서 작동하는 디퓨전 기반 생성 모델인 EDMSound를 제안합니다. 효율적인 결정론적 샘플러와 결합하여, 단 10단계만으로도 최상위 기준선과 유사한 프레셰 오디오 거리(FAD) 점수를 달성했으며, DCASE2023 폴리 사운드 생성 벤치마크에서 50단계로 최첨단 성능에 도달했습니다. 또한, 디퓨전 기반 오디오 생성 모델이 훈련 데이터와 높은 지각적 유사성을 가진 샘플을 생성하는 경향이 있다는 잠재적 문제를 밝혔습니다. 프로젝트 페이지: https://agentcooper2002.github.io/EDMSound/
대화 기반 롤플레잉 게임(RPG)은 강력한 스토리텔링을 필요로 합니다. 이러한 게임의 내러티브는 수년에 걸쳐 작성될 수 있으며, 일반적으로 대규모 창작 팀이 참여합니다. 본 연구에서는 대규모 생성 텍스트 모델이 이 과정을 지원할 수 있는 잠재력을 보여줍니다. GRIM은 게임을 위한 그래프 기반 인터랙티브 내러티브 시각화 시스템 프로토타입으로, 디자이너가 제공한 상위 수준의 내러티브 설명과 제약 조건에 맞는 분기형 스토리라인을 포함한 풍부한 내러티브 그래프를 생성합니다. 게임 디자이너는 원래 내러티브와 제약 조건 내에서 편집에 맞는 새로운 하위 그래프를 자동으로 생성하여 그래프를 인터랙티브하게 편집할 수 있습니다. 우리는 GRIM을 GPT-4와 함께 사용하여 다양한 맥락적 제약 조건을 가진 네 가지 잘 알려진 이야기에 대한 분기형 내러티브를 생성하는 사례를 보여줍니다.
대규모 언어 모델(LLM)의 상호보완적 잠재력은 기성 LLM들이 다양한 도메인과 작업에 걸쳐 이질적인 전문성을 가지고 있기 때문에, 여러 LLM을 앙상블하면 일관되게 더 나은 성능을 달성할 수 있다는 가정에 기반합니다. 기존의 LLM 앙상블 방법은 주로 출력에 대한 보상 모델 순위 매기기에 초점을 맞추어 상당한 계산 오버헤드를 초래합니다. 이 문제를 해결하기 위해, 우리는 LLM의 상호보완적 잠재력을 재검토하고, 기성 보상 모델을 사용하여 잠재적인 전문성을 발굴함으로써 이를 더욱 구체화합니다. 우리는 Zooter를 제안하는데, 이는 학습 쿼리에 대한 보상을 증류하여 각 쿼리를 해당 전문성을 가진 LLM에 정확히 분배할 수 있는 라우팅 함수를 훈련시키는 보안-가이드 라우팅 방법입니다. 또한, 보상을 은색 감독으로 사용할 때 발생하는 불확실성으로 인한 노이즈를 완화하기 위해 태그 기반 레이블 강화를 통합했습니다. Zooter는 추론 과정에서 계산 효율성을 보여주는데, 이는 보상 모델 순위 매기기 방법과 비교하여 라우팅 함수의 미미한 계산 오버헤드만을 도입하기 때문입니다. 우리는 Zooter를 다양한 도메인과 작업에 걸친 26개의 하위 집합으로 구성된 포괄적인 벤치마크 컬렉션에서 평가했습니다. Zooter는 평균적으로 최고의 단일 모델을 능가했으며, 44%의 작업에서 1위를 차지하여 여러 보상 모델 순위 매기기 방법을 능가하는 성과를 보였습니다.
이벤트의 역학을 정확하게 모델링하는 언어 기술은 상식 추론을 수행해야 합니다. 기존의 상식 추론 평가 연구는 주로 일상적인 상황에 대한 추론에 초점을 맞추고 있습니다. 대신, 비정상적이고 예상치 못하며 발생 가능성이 낮은 상황을 모델링하는 능력을 조사하기 위해, 우리는 비상식적 귀납 추론(uncommonsense abductive reasoning) 작업을 탐구합니다. 이 작업은 예상치 못한 결과가 포함된 맥락이 주어졌을 때, 그 결과를 더 그럴듯하게 만드는 자연어 설명을 귀납적으로 생성하는 것을 요구합니다. 이를 위해, 우리는 UNcommonsense라는 새로운 영어 코퍼스를 구축하고 공개합니다. 우리는 인간 설명자와 최고 성능의 대형 언어 모델 간의 성능 차이를 분석하며, 모델이 강화된 인간 작성 설명이 특이성과 다양성 사이의 균형을 맞추어 가장 높은 품질을 달성함을 발견합니다. 마지막으로, 우리는 이 작업에 대해 개방적이고 접근 가능한 언어 모델을 훈련하기 위해 여러 온라인 모방 학습 알고리즘을 실험합니다. 인간 평가자에 의해 판단된 일반적 및 비상식적 귀납 추론에서, 이러한 방법들은 기본 지도 미세 조정 접근법과 비교했을 때 일관되게 손실률을 감소시킵니다.
파라미터 효율적 튜닝(Parameter Efficient Tuning)은 대규모 언어 모델을 다운스트림 작업에 적응시키기 위한 주요 접근법으로 자리 잡아 왔다. 대부분의 기존 연구는 모든 파라미터가 특정 작업에 적응하도록 설계된 밀집 학습 가능 파라미터를 추가하는 방식을 고려해 왔다. 그러나 우리는 LoRA(Low Rank Adaptation)의 예를 통해 더 많은 학습 가능 파라미터를 도입하는 것이 효과적이지 않다는 것을 실증적으로 발견했다. 이에 동기를 받아 우리는 "희소" 계산의 중요성을 탐구하고 SiRA(Sparse Mixture of Low Rank Adaptation)를 제안한다. SiRA는 희소 전문가 혼합(Sparse Mixture of Experts, SMoE)을 활용하여 LoRA의 성능을 향상시킨다. 구체적으로, SiRA는 각 전문가가 처리할 수 있는 최대 토큰 수를 제한하는 용량 한계와 함께 상위 k개 전문가 라우팅을 강제한다. 또한, 우리는 게이팅 네트워크 위에 새로운 간단한 전문가 드롭아웃을 제안하여 과적합 문제를 줄인다. 다양한 실험을 통해, SiRA가 단일 작업 및 다중 작업 설정에서 LoRA와 다른 전문가 혼합 접근법보다 더 나은 성능을 보임을 검증한다.
강력한 대형 언어 모델(LLM)의 발전은 글쓰기 보조 도구의 개발을 촉진하여 작문과 커뮤니케이션의 질과 효율성을 크게 향상시킬 가능성을 열었습니다. 그러나 효과적인 지원을 방해하는 주요 장벽은 LLM 출력이 저자의 커뮤니케이션 스타일과 전문 지식에 맞춰 개인화되지 않는다는 점입니다. 본 논문에서는 이러한 문제를 해결하기 위해 PEARL을 제안합니다. PEARL은 생성 보정된 검색기로 개인화된 검색 강화 LLM 글쓰기 보조 도구입니다. 우리의 검색기는 사용자 요청에 대해 LLM 생성물을 최적으로 개인화할 가능성이 높은 과거 사용자 작성 문서를 선택하도록 훈련되었습니다. 검색기 훈련을 위해 두 가지 주요 혁신을 제안합니다: 1) 개인화가 유익할 가능성이 높은 사용자 요청과 그에 필요한 문서를 식별하는 훈련 데이터 선택 방법; 2) 문서의 개인화 생성에 대한 이점을 정확히 추적하도록 보장하는 스케일 보정 KL-발산 목적 함수입니다. 우리는 PEARL이 직장 내 소셜 미디어 게시물과 Reddit 댓글 생성에서 개인화된 효과를 발휘함을 입증합니다. 마지막으로, 생성 보정된 검색기가 성능 예측기로도 활용될 수 있으며 LLM 체인을 통해 저품질 생성물을 추가로 개선할 수 있는 잠재력을 보여줍니다.
트랜스포머 기반 대형 언어 모델의 최근 발전은 자연어 생성 분야에서 큰 진전을 이루었습니다. 그러나 K개의 토큰을 디코딩하기 위해, 자기회귀 모델은 K번의 순차적 순방향 패스가 필요하며, 이는 대형 언어 모델의 성능 병목 현상이 될 수 있습니다. 많은 비자기회귀(NAR) 연구들이 이러한 순차성 병목 현상을 해결하기 위해 노력하고 있지만, 대부분이 지도 학습 벤치마크에서 전용 아키텍처에 초점을 맞추고 있습니다. 본 연구에서는 비자기회귀 T5 모델을 위한 비지도 사전 학습을 언롤드 디노이징을 통해 연구하고, SQuAD 질문 생성 및 XSum과 같은 하류 생성 작업에서 최첨단(SoTA) 결과를 보여주었습니다.
사용자 신뢰를 유지하기 위해 대규모 언어 모델(LLM)은 잘못된 예시에서 낮은 신뢰도를 표시하여 사용자를 오도하지 않아야 한다. 이러한 모델의 신뢰도를 추정하는 표준적인 접근 방식은 소프트맥스 확률을 사용하는 것이지만, 2023년 11월 기준으로 GPT-4 및 Claude-v1.3과 같은 최신 LLM은 이러한 확률에 대한 접근을 제공하지 않는다. 우리는 먼저 언어적으로 신뢰도를 유도하는 방법을 연구했다. 즉, LLM에게 답변에 대한 자신의 신뢰도를 묻는 방식으로, 이는 합리적인 성능(12개의 질문-답변 데이터셋에 대해 GPT-4에서 평균 80.5% AUC, 무작위 기준선보다 7% 높음)을 보였지만 개선의 여지가 있었다. 그런 다음 대리 신뢰도 모델을 사용하여 접근 방식을 탐구했다. 이는 확률을 가지고 있는 모델을 사용하여 원래 모델의 특정 질문에 대한 신뢰도를 평가하는 방법이다. 놀랍게도, 이러한 확률이 다른 종종 더 약한 모델에서 나오더라도, 이 방법은 12개 데이터셋 중 9개에서 언어적 신뢰도보다 더 높은 AUC를 보였다. 언어적 신뢰도와 대리 모델 확률을 결합한 우리의 최적의 방법은 12개 데이터셋 모두에서 최신의 신뢰도 추정치를 제공한다(GPT-4에서 평균 84.6% AUC).
대형 언어 모델(LLMs)은 자연어 처리 분야에 혁신적인 시대를 열며 텍스트 이해 및 생성과 관련된 작업에서 탁월한 성과를 보여주고 있습니다. 그러나 혼란스러운 맥락(예: 긴 관련 없는 맥락이 아닌 방해 요소)에 직면할 때 어려움을 겪으며, 이러한 혼란스러운 맥락 내에서 특정 세부 사항을 의도치 않게 누락시키는 경우가 있습니다. 이러한 문제에 대응하기 위해, 우리는 인간의 인지 과정에서 영감을 받은 "생각의 실"(Thread of Thought, ThoT) 전략을 소개합니다. ThoT는 확장된 맥락을 체계적으로 분할하고 분석하면서 관련 정보를 능숙하게 선택합니다. 이 전략은 다양한 LLMs 및 프롬프트 기법과 원활하게 통합될 수 있는 다용도의 "플러그 앤 플레이" 모듈로 작동합니다. 실험에서는 PopQA 및 EntityQ 데이터셋과 우리가 수집한 다중 턴 대화 응답 데이터셋(Multi-Turn Conversation Response dataset, MTCR)을 활용하여 ThoT가 다른 프롬프트 기법에 비해 추론 성능을 크게 향상시킨다는 것을 입증합니다.
대규모 언어 모델(LLM)을 평가하는 것은 자연어 이해의 복잡성과 높은 수준의 추론에 대한 기대를 고려할 때 복잡한 작업입니다. 전통적인 평가 방식은 일반적으로 인간 기반, 모델 기반 또는 자동 지표 기반 패러다임에 의존하며, 각각 고유한 장단점을 가지고 있습니다. 우리는 "Fusion-Eval"이라는 시스템을 소개합니다. 이 시스템은 LLM을 직접 평가에만 사용하는 것이 아니라 다양한 평가자의 통찰력을 능숙하게 통합하는 데 활용합니다. 이를 통해 Fusion-Eval은 유연성을 갖추고 다양한 작업에 효과적으로 적용할 수 있으며, 여러 참조를 최적으로 활용할 수 있습니다. SummEval 데이터셋에서의 테스트에서 Fusion-Eval은 0.96의 스피어만 상관관계를 달성하여 다른 평가자들을 능가했습니다. Fusion-Eval의 성공은 LLM이 인간의 관점과 밀접하게 일치하는 평가를 생성할 수 있는 잠재력을 강조하며, LLM 평가 분야에서 새로운 기준을 제시합니다.