번역이 포함된 일일 선별된 AI 연구 논문
우리는 코드 생성을 위한 완전 오픈소스(코드, 가중치, 데이터) 대규모 언어 모델(LLM) 시리즈인 Magicoder를 소개합니다. Magicoder는 7B 파라미터 이하의 규모로도 최고 수준의 코드 모델과의 격차를 크게 좁혔습니다. Magicoder 모델은 OSS-Instruct라는 혁신적인 접근법을 통해 75K의 합성 명령어 데이터로 학습되었으며, 이는 오픈소스 코드 스니펫을 활용하여 고품질의 코드 명령어 데이터를 생성하는 방법입니다. 우리의 주요 동기는 LLM이 생성한 합성 데이터의 내재적 편향을 완화하고, 더 다양하고 현실적이며 제어 가능한 데이터 생성을 위해 풍부한 오픈소스 참조 자료를 활용하는 것입니다. OSS-Instruct와 Evol-Instruct와 같은 다른 데이터 생성 방법의 직교성은 우리가 향상된 MagicoderS를 구축할 수 있게 합니다. Magicoder와 MagicoderS 모두 Python 텍스트-코드 생성, 다국어 코딩, 데이터 과학 프로그램 완성 등 다양한 코딩 벤치마크에서 유사하거나 더 큰 규모의 최첨단 코드 모델을 크게 능가합니다. 특히, CodeLlama 기반의 MagicoderS-CL-7B는 HumanEval+에서 유명한 ChatGPT를 능가하기도 했습니다(66.5 vs. 65.9 in pass@1). 전반적으로, OSS-Instruct는 풍부한 오픈소스 참조 자료를 활용한 낮은 편향과 고품질의 명령어 튜닝을 위한 새로운 방향을 제시합니다.
텍스트-투-비디오 확산 모델은 비디오 생성 분야에서 상당한 진전을 이루었습니다. 그러나 이러한 모델을 맞춤형 동작을 가진 비디오를 생성하도록 사용자 정의하는 것은 상당한 과제로 남아 있습니다. 특히, (a) 대상 비디오의 동작을 정확하게 재현하고, (b) 다양한 시각적 변형을 생성하는 데 어려움을 겪습니다. 예를 들어, 정적 이미지 사용자 정의 방법을 비디오에 직접 확장하는 경우, 외관과 동작 데이터 간의 복잡한 상호작용이 발생할 수 있습니다. 이를 해결하기 위해, 본 연구에서는 비디오 확산 모델 내의 시간적 주의 계층을 조정하기 위해 설계된 새로운 원샷 튜닝 접근법인 비디오 동작 사용자 정의(Video Motion Customization, VMC) 프레임워크를 제안합니다. 우리의 접근법은 연속 프레임 간의 잔차 벡터를 동작 참조로 사용하는 새로운 동작 증류 목표를 도입합니다. 이 확산 과정은 저주파 동작 궤적을 보존하면서 이미지 공간에서 고주파 동작과 무관한 노이즈를 완화합니다. 우리는 다양한 실제 동작과 상황에서 최신 비디오 생성 모델과 비교하여 우리의 방법을 검증합니다. 우리의 코드, 데이터 및 프로젝트 데모는 https://video-motion-customization.github.io에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 정렬 조정 과정은 일반적으로 지도 미세 조정(SFT)을 통한 명령 학습과 인간 피드백 강화 학습(RLHF)을 통한 선호 조정을 포함한다. 최근 연구인 LIMA(Zhou et al. 2023)는 단 1,000개의 예제를 사용한 SFT만으로도 상당한 정렬 성능을 달성할 수 있음을 보여주며, 정렬 조정의 효과가 "표면적"일 가능성을 시사한다. 이는 정렬 조정이 기본 LLM을 어떻게 정확히 변형시키는지에 대한 의문을 제기한다. 우리는 기본 LLM과 정렬 조정된 버전 간의 토큰 분포 변화를 분석하여 정렬 조정의 효과를 조사한다. 연구 결과, 기본 LLM과 정렬 조정된 버전은 대부분의 토큰 위치에서 디코딩 시 거의 동일한 성능을 보인다. 대부분의 분포 변화는 스타일리시한 토큰에서 발생한다. 이러한 직접적인 증거는 LIMA가 제안한 표면적 정렬 가설을 강력히 지지한다. 이러한 발견을 바탕으로, 우리는 SFT나 RLHF 없이 기본 LLM을 얼마나 효과적으로 정렬할 수 있는지라는 연구 질문을 제기하며 LLM 정렬을 재고한다. 이를 해결하기 위해 우리는 간단한 조정 없는 정렬 방법인 URIAL을 소개한다. URIAL은 기본 LLM을 활용한 문맥 학습(ICL)만으로 효과적인 정렬을 달성하며, 단 세 개의 일관된 스타일리시한 예제와 시스템 프롬프트만을 필요로 한다. 우리는 다양한 예제 세트인 JUST-EVAL-INSTRUCT에 대해 세밀하고 해석 가능한 평가를 수행한다. 결과는 URIAL을 적용한 기본 LLM이 SFT 또는 SFT+RLHF로 정렬된 LLM의 성능을 따라잡거나 능가할 수 있음을 보여준다. 우리는 전략적인 프롬프트와 ICL을 통해 조정 없는 정렬 방법과 조정 기반 정렬 방법 간의 격차를 크게 줄일 수 있음을 보여준다. 정렬 조정의 표면적 특성에 대한 우리의 발견과 URIAL의 결과는 정렬에 대한 더 깊은 분석과 이론적 이해가 향후 LLM 연구에 중요함을 시사한다.
본 연구는 주체의 정체성을 유지하면서 개성 있는 스타일을 더하는 이미지 생성의 흥미로운 과제인 정체성 보존 이미지 합성을 탐구합니다. Textual Inversion과 DreamBooth와 같은 전통적인 방법들은 맞춤형 이미지 생성에서 진전을 이루었지만, 상당한 단점을 가지고 있습니다. 이에는 세밀한 조정을 위한 광범위한 자원과 시간이 필요하며, 여러 참조 이미지가 요구된다는 점이 포함됩니다. 이러한 문제를 극복하기 위해, 본 연구는 특히 인간 이미지에 초점을 맞춘 정체성 보존 합성을 위한 새로운 접근 방식을 소개합니다. 우리의 모델은 직접적인 피드포워드 메커니즘을 활용하여 집중적인 세밀한 조정의 필요성을 피함으로써 빠르고 효율적인 이미지 생성을 가능하게 합니다. 우리의 혁신의 핵심은 스타일화된 이미지, 얼굴 이미지, 텍스트 프롬프트를 결합하여 이미지 생성 과정을 안내하는 하이브리드 가이던스 프레임워크입니다. 이 독특한 조합은 우리의 모델이 예술적인 초상화와 정체성 혼합 이미지와 같은 다양한 응용 프로그램을 생성할 수 있게 합니다. 질적 및 양적 평가를 포함한 실험 결과는 우리의 방법이 기존의 베이스라인 모델과 이전 연구들보다 우수함을 보여주며, 특히 놀라운 효율성과 높은 충실도로 주체의 정체성을 보존하는 능력에서 두드러집니다.
디퓨전 모델은 최근 놀라운 생성 능력으로 인해 이미지 합성 분야에서 전례 없는 관심을 받고 있습니다. 그러나 이러한 모델은 주로 순차적인 노이즈 제거 과정과 방대한 모델 크기로 인해 상당한 계산 비용을 초래하는 경우가 많습니다. 기존의 디퓨전 모델 압축 방법은 일반적으로 광범위한 재훈련을 필요로 하여 비용과 실행 가능성 측면에서 어려움을 겪습니다. 본 논문에서는 모델 아키텍처 관점에서 디퓨전 모델을 가속화하는 새로운 훈련 불필요 패러다임인 DeepCache를 소개합니다. DeepCache는 디퓨전 모델의 순차적 노이즈 제거 단계에서 관찰되는 시간적 중복성을 활용하여, 인접한 노이즈 제거 단계 간의 특징을 캐싱하고 검색함으로써 불필요한 계산을 줄입니다. U-Net의 특성을 활용하여 고수준 특징은 재사용하고 저수준 특징은 매우 저렴한 방식으로 업데이트합니다. 이 혁신적인 전략은 Stable Diffusion v1.5에서 CLIP Score가 단 0.05 감소한 상태에서 2.3배의 속도 향상을, LDM-4-G에서는 ImageNet에서 FID가 0.22 약간 감소한 상태에서 4.1배의 속도 향상을 가능하게 합니다. 우리의 실험은 또한 DeepCache가 재훈련을 필요로 하는 기존의 가지치기 및 지식 증류 방법을 능가하며, 현재의 샘플링 기술과도 호환됨을 보여줍니다. 더 나아가, 동일한 처리량 하에서 DeepCache는 DDIM 또는 PLMS와 비교하여 유사하거나 약간 개선된 결과를 효과적으로 달성함을 확인했습니다. 코드는 https://github.com/horseee/DeepCache에서 확인할 수 있습니다.
현재의 확산 기반 비디오 편집은 주로 다양한 밀집 대응 관계를 활용하여 시간적 일관성과 움직임 정렬을 보장하는 구조 보존 편집에 초점을 맞추고 있습니다. 그러나 이러한 접근 방식은 대상 편집이 형태 변화를 포함할 경우 종종 비효율적입니다. 형태 변화를 수반하는 비디오 편집을 시작하기 위해, 본 연구에서는 소스 비디오의 주요 주체를 고유한 정체성과 잠재적으로 다른 형태를 가진 대상 주체로 교체하는 맞춤형 비디오 주체 교체를 탐구합니다. 밀집 대응 관계에 의존하는 기존 방법과 달리, 우리는 주체의 움직임 궤적을 정렬하고 형태를 수정하기 위해 소수의 의미론적 포인트만 필요하다는 관찰에서 영감을 받아 의미론적 포인트 대응 관계를 활용하는 VideoSwap 프레임워크를 소개합니다. 또한 다양한 의미론적 포인트 대응 관계를 해결하기 위해 사용자 포인트 상호작용(예: 포인트 제거 및 포인트 드래그)을 도입합니다. 광범위한 실험을 통해 다양한 실제 비디오에서 최신 수준의 비디오 주체 교체 결과를 입증합니다.
우리는 Segment Anything Model(SAM)에 지역 캡션 생성 능력을 효율적으로 부여하는 방법을 제안한다. SAM은 무엇이든 세그멘테이션할 수 있는 강력한 일반화 능력을 보여주지만, 의미 이해 측면에서는 부족한 점이 있다. 경량화된 쿼리 기반 특징 혼합기를 도입함으로써, 지역 특정 특징을 언어 모델의 임베딩 공간과 정렬하여 이후 캡션 생성을 가능하게 한다. 학습 가능한 매개변수의 수가 적기 때문에(일반적으로 수천만 개 수준), 계산 비용, 메모리 사용량, 통신 대역폭이 적게 소모되어 빠르고 확장 가능한 학습이 가능하다. 지역 캡션 데이터의 부족 문제를 해결하기 위해, 먼저 객체 탐지 및 세그멘테이션 작업에서 모델을 사전 학습하는 방법을 제안한다. 이 단계를 약한 감독 사전 학습이라고 부르는데, 사전 학습 데이터에는 전체 문장 설명 대신 카테고리 이름만 포함되기 때문이다. 약한 감독 사전 학습을 통해 공개된 많은 객체 탐지 및 세그멘테이션 데이터셋을 활용할 수 있다. 우리는 광범위한 실험을 통해 제안 방법의 우수성을 입증하고 각 설계 선택을 검증한다. 이 작업은 지역 캡셔닝 데이터를 확장하기 위한 디딤돌 역할을 하며, SAM에 지역 의미를 추가하는 효율적인 방법을 탐구하는 데 빛을 비춘다. 프로젝트 페이지와 관련 코드는 다음 링크에서 확인할 수 있다: https://xk-huang.github.io/segment-caption-anything/.
텍스트-투-비디오 생성 분야의 최근 발전에도 불구하고, 기존 연구들은 일반적으로 합성된 비디오에서 공간적 내용만이 텍스트에 의해 제어되고 시간적 움직임은 제어되지 않는 문제를 간과해 왔다. 이러한 도전에 직면하여, 본 연구는 사용자가 관심 있는 이미지를 텍스트 설명으로 애니메이션화할 수 있는 실용적인 시스템인 LivePhoto를 제안한다. 먼저, 잘 학습된 텍스트-투-이미지 생성기(예: Stable Diffusion)가 이미지를 추가 입력으로 받아들일 수 있도록 강력한 베이스라인을 구축한다. 그런 다음, 개선된 생성기에 시간적 모델링을 위한 모션 모듈을 장착하고 텍스트와 움직임을 더 잘 연결하기 위해 신중하게 설계된 훈련 파이프라인을 제안한다. 특히, (1) 텍스트가 움직임을 대략적으로만 설명할 수 있고(예: 이동 속도와 무관하게), (2) 텍스트가 내용과 움직임 설명을 모두 포함할 수 있다는 사실을 고려하여, 텍스트-투-모션 매핑의 모호성을 줄이기 위해 모션 강도 추정 모듈과 텍스트 재가중 모듈을 도입한다. 실험 결과는 우리의 접근법이 동작, 카메라 이동, 심지어는 빈 공간에서 새로운 내용을 창조하는 것(예: 빈 유리잔에 물을 붓는 것)과 같은 움직임 관련 텍스트 지시를 비디오로 잘 디코딩할 수 있음을 보여준다. 흥미롭게도, 제안된 강도 학습 메커니즘 덕분에, 우리 시스템은 사용자에게 비디오 맞춤화를 위한 텍스트 외에 추가적인 제어 신호(즉, 모션 강도)를 제공한다.
인간 피드백을 통한 강화 학습(Reinforcement Learning from Human Feedback, RLHF)은 대규모 언어 모델(Large Language Models, LLMs)을 인간의 선호도에 맞추기 위한 주요 패러다임으로 부상했다. 일반적으로 RLHF는 사전 학습된 LLM이 생성한 텍스트 쌍 간의 선호도로 표현된 인간 피드백으로부터 보상 모델을 학습하는 초기 단계를 포함한다. 이후, 강화 학습 알고리즘을 통해 보상 모델을 최대화하도록 LLM의 정책을 미세 조정한다. 그러나 현재의 보상 모델은 인간 선호도의 풍부함을 완전히 표현하지 못하고 샘플링 분포에 의존한다는 본질적인 한계를 지닌다. 본 연구에서는 쌍별 인간 피드백을 활용하여 LLM을 미세 조정하기 위한 대안적인 파이프라인을 제안한다. 우리의 접근법은 프롬프트가 주어졌을 때 두 입력을 조건으로 하는 선호 모델을 초기에 학습한 후, 경쟁 정책이 생성한 응답보다 선호되는 응답을 일관되게 생성하는 정책을 추구함으로써 이 선호 모델의 내쉬 균형(Nash equilibrium)을 정의한다. 우리는 이 접근법을 인간 피드백을 통한 내쉬 학습(Nash Learning from Human Feedback, NLHF)이라 명명한다. 표 형식의 정책 표현을 맥락에서, 우리는 미러 디센트(mirror descent) 원칙에 기반한 새로운 알고리즘 솔루션인 Nash-MD를 제시한다. 이 알고리즘은 정책의 시퀀스를 생성하며, 마지막 반복은 정규화된 내쉬 균형으로 수렴한다. 또한, 우리는 정책의 파라미터적 표현을 탐구하고 딥러닝 아키텍처를 위한 경사 하강법 알고리즘을 소개한다. 우리의 접근법의 효과를 입증하기 위해, 텍스트 요약 작업을 위한 LLM 미세 조정과 관련된 실험 결과를 제시한다. 우리는 NLHF가 인간 선호도에 맞춰 LLM을 정렬하는 분야를 발전시킬 잠재력을 지닌 선호 학습 및 정책 최적화를 위한 매력적인 방안을 제공한다고 믿는다.
두 이미지 집합은 어떻게 다른가? 집합 수준의 차이를 파악하는 것은 모델의 동작을 이해하고 데이터셋을 분석하는 데 있어 핵심적이지만, 수천 장의 이미지를 수동으로 살펴보는 것은 비현실적이다. 이러한 발견 과정을 돕기 위해, 우리는 두 이미지 집합 간의 차이를 자동으로 설명하는 작업을 탐구하며, 이를 '집합 차이 캡션 생성(Set Difference Captioning)'이라고 명명한다. 이 작업은 이미지 집합 D_A와 D_B를 입력으로 받아, D_A에서 더 자주 참인 설명을 출력한다. 우리는 먼저 이미지 집합에서 후보 차이 설명을 제안하고, 이 후보들이 두 집합을 얼마나 잘 구별하는지 확인하여 재순위를 매기는 두 단계 접근법을 제시한다. 우리는 VisDiff를 소개하는데, 이는 먼저 이미지에 캡션을 생성하고 언어 모델을 통해 후보 설명을 제안한 다음, CLIP을 사용하여 이러한 설명을 재순위 매긴다. VisDiff를 평가하기 위해, 우리는 187개의 짝을 이룬 이미지 집합과 실제 차이 설명을 포함한 VisDiffBench 데이터셋을 수집한다. 우리는 VisDiff를 다양한 영역에 적용했는데, 예를 들어 데이터셋 비교(예: ImageNet vs. ImageNetV2), 분류 모델 비교(예: 제로샷 CLIP vs. 지도 학습 ResNet), 모델 실패 모드 요약(지도 학습 ResNet), 생성 모델 간 차이 특성화(예: StableDiffusionV1과 V2), 그리고 이미지가 기억에 남는 이유를 발견하는 데 사용했다. VisDiff를 사용함으로써, 우리는 데이터셋과 모델에서 흥미롭고 이전에 알려지지 않은 차이점을 발견할 수 있었으며, 이는 미묘한 통찰력을 드러내는 데 있어 VisDiff의 유용성을 입증한다.
강력한 표현력과 높은 샘플 품질을 갖춘 확산 모델은 다양한 분야에서 많은 새로운 응용 프로그램과 사용 사례를 가능하게 하였다. 샘플 생성의 경우, 이러한 모델은 반복적인 노이즈 제거를 통해 이미지를 생성하는 노이즈 제거 신경망에 의존한다. 그러나 노이즈 제거 네트워크 아키텍처의 역할은 대부분의 연구가 컨볼루션 잔차 U-Net에 의존하면서 충분히 연구되지 않았다. 본 논문에서는 확산 기반 생성 학습에서 비전 트랜스포머의 효과를 연구한다. 구체적으로, 우리는 U-형태의 인코더와 디코더로 구성된 하이브리드 계층적 아키텍처를 갖춘 새로운 모델인 Diffusion Vision Transformers (DiffiT)를 제안한다. 우리는 노이즈 제거 과정의 다양한 단계에서 어텐션 레이어가 효율적으로 그 행동을 조정할 수 있도록 하는 새로운 시간 의존적 자기 어텐션 모듈을 소개한다. 또한, 고해상도 이미지 생성을 위해 제안된 자기 어텐션 레이어를 갖춘 트랜스포머 모델로 구성된 잠재적 DiffiT를 소개한다. 우리의 결과는 DiffiT가 놀라울 정도로 고품질 이미지 생성에 효과적이며, 다양한 클래스 조건부 및 무조건 합성 작업에서 최첨단(SOTA) 벤치마크를 달성함을 보여준다. 잠재 공간에서 DiffiT는 ImageNet-256 데이터셋에서 1.73의 새로운 SOTA FID 점수를 달성한다. 저장소: https://github.com/NVlabs/DiffiT
대규모 언어 모델(LLM) 기반의 리스트와이즈 리랭커(Listwise Reranker)는 제로샷(Zero-shot) 방식에서 최첨단 기술로 평가받고 있다. 그러나 현재 이 방향의 연구들은 모두 GPT 모델에 의존하고 있어 과학적 재현성 측면에서 단일 실패 지점으로 작용하고 있다. 더욱이, 현재의 연구 결과가 GPT 모델에만 적용되고 일반적인 LLM에는 해당되지 않을 수 있다는 우려를 제기한다. 본 연구에서는 이러한 전제 조건을 제거하고, GPT에 대한 어떠한 형태의 의존성 없이도 효과적인 리스트와이즈 리랭커를 최초로 구축하였다. 본문 검색 실험 결과, 우리의 최고 성능 리스트와이즈 리랭커는 GPT-3.5 기반 리랭커를 13% 능가하며, GPT-4 기반 리랭커의 97% 효과성을 달성하였다. 또한, 기존의 훈련 데이터셋이 포인트와이즈(Pointwise) 랭킹을 위해 명시적으로 구축된 것임을 확인하였고, 이러한 데이터셋이 리스트와이즈 리랭커 구축에는 부적합함을 보였다. 대신, 고품질의 리스트와이즈 랭킹 데이터가 필수적이며 중요하다는 점을 확인하였고, 이를 위해 인간 주석이 포함된 리스트와이즈 데이터 리소스 구축에 대한 추가 연구가 필요함을 제안한다.
최근 대규모 다중 모달 모델(Large Multi-Modal Models, LMMs)의 상당한 발전과 함께, 시각적 채팅에서의 그라운딩 능력의 중요성이 점차 부각되고 있다. LMMs가 그라운딩을 지원할 수 있도록 최근 여러 노력이 있었음에도 불구하고, 그라운딩과 채팅 능력은 일반적으로 분리되어 있으며, 그라운딩을 요청받을 때 채팅 성능이 급격히 저하된다. 이 문제는 그라운딩된 시각적 채팅(Grounded Visual Chat, GVC)을 위한 데이터셋의 부재에서 기인한다. 기존의 그라운딩 데이터셋은 짧은 캡션만을 포함하고 있다. 이 문제를 해결하기 위해, 우리는 그라운딩과 채팅 능력을 결합할 수 있는 GVC 데이터를 생성하였다. GVC 능력을 더 잘 평가하기 위해, 우리는 Grounding-Bench라는 벤치마크를 도입하였다. 또한, 세그멘테이션 모델과 언어 모델을 연결함으로써 GVC 및 다양한 유형의 시각적 프롬프트를 지원할 수 있는 모델 설계를 제안하였다. 실험 결과는 우리의 모델이 Grounding-Bench에서 다른 LMMs를 능가함을 보여준다. 더 나아가, 우리의 모델은 RefCOCO/+/g 및 Flickr30K Entities와 같은 클래식 그라운딩 벤치마크에서도 경쟁력 있는 성능을 달성한다. 우리의 코드는 https://github.com/UX-Decoder/LLaVA-Grounding 에 공개될 예정이다.
실시간 캐릭터의 새로운 시점 합성을 위한 GPS-Gaussian이라는 새로운 접근 방식을 제안합니다. 본 방법은 희소 시점 카메라 설정에서 2K 해상도 렌더링을 가능하게 합니다. 기존의 Gaussian Splatting이나 신경망 암묵적 렌더링 방법들이 각 대상별 최적화를 필요로 하는 것과 달리, 우리는 소스 뷰에 정의된 Gaussian 파라미터 맵을 도입하여 별도의 미세 조정이나 최적화 없이 즉각적인 새로운 시점 합성을 위한 Gaussian Splatting 속성을 직접 회귀합니다. 이를 위해, 우리는 대량의 인간 스캔 데이터를 기반으로 Gaussian 파라미터 회귀 모듈을 깊이 추정 모듈과 함께 공동으로 학습시켜 2D 파라미터 맵을 3D 공간으로 변환합니다. 제안된 프레임워크는 완전히 미분 가능하며, 여러 데이터셋에 대한 실험 결과 우리의 방법이 최신 기술을 능가하는 동시에 뛰어난 렌더링 속도를 달성함을 보여줍니다.
본 논문에서는 객체 인식을 다음 토큰 예측 문제로 재구성하는 접근법을 제시한다. 이 아이디어는 이미지 임베딩으로부터 텍스트 토큰을 자동 회귀적으로 예측하여 레이블을 형성하는 언어 디코더를 적용하는 것이다. 이 예측 과정을 자동 회귀에 기반하게 하기 위해, 디코더에 비인과적 어텐션 마스크를 사용자 정의하여 두 가지 주요 특징을 통합하였다: 서로 다른 레이블의 토큰을 독립적으로 모델링하는 것과 이미지 토큰을 접두사로 취급하는 것이다. 이 마스킹 메커니즘은 효율적인 방법인 원샷 샘플링을 가능하게 하여, 추론 과정에서 다중 레이블의 토큰을 병렬로 샘플링하고 생성된 레이블을 확률에 따라 순위를 매길 수 있도록 한다. 효율성을 더욱 향상시키기 위해, 사전 훈련된 언어 모델의 중간 블록을 단순히 제거함으로써 간결한 디코더를 구성하는 전략을 제안한다. 이 접근법은 전체 모델의 성능을 유지하면서도 훨씬 더 효율적인 디코더를 제공한다. 코드는 https://github.com/kaiyuyue/nxtp에서 확인할 수 있다.
텍스트-투-비디오 생성은 유망한 결과를 보여주고 있다. 그러나 자연어만을 입력으로 사용함에 따라 사용자들은 모델의 출력을 정밀하게 제어하기 위한 상세한 정보를 제공하는 데 어려움을 겪는 경우가 많다. 본 연구에서는 세부적인 제어를 달성하기 위해 미세 조정 가능한 비디오 생성(FACTOR)을 제안한다. 구체적으로, FACTOR는 텍스트 프롬프트와 함께 객체의 외형과 위치 및 카테고리를 포함한 컨텍스트를 제어하는 것을 목표로 한다. 세부적인 제어를 달성하기 위해, 우리는 기존의 텍스트-투-비디오 모델에 제어 신호를 통합적으로 주입하는 통합 프레임워크를 제안한다. 우리의 모델은 공통 인코더와 적응형 교차 주의 계층으로 구성된다. 인코더와 삽입된 계층을 최적화함으로써, 모델이 텍스트 프롬프트와 미세 조정 제어 모두에 맞춰 비디오를 생성하도록 적응시킨다. 에지 맵과 같은 밀집 제어 신호에 의존하는 기존 방법들과 비교하여, 우리는 객체 수준의 미세 조정 제어를 가능하게 하는 더 직관적이고 사용자 친화적인 인터페이스를 제공한다. 우리의 방법은 파인튜닝 없이도 객체 외형의 제어 가능성을 달성함으로써 사용자별 최적화 노력을 줄인다. 표준 벤치마크 데이터셋과 사용자 제공 입력에 대한 광범위한 실험을 통해, 우리의 모델이 경쟁력 있는 베이스라인 대비 제어 가능성 지표에서 70%의 개선을 달성함을 검증하였다.
본 논문에서는 유한 어휘 집합에서의 이산적 토큰 대신 실수 값을 갖는 벡터 시퀀스를 생성하는 생성적 무한 어휘 트랜스포머(Generative Infinite-Vocabulary Transformers, GIVT)를 소개한다. 이를 위해 디코더 전용 트랜스포머에 두 가지 간단한 수정을 제안한다: 1) 입력 단계에서 유한 어휘 조회 테이블을 입력 벡터의 선형 투영으로 대체하고, 2) 출력 단계에서 범주형 분포로 매핑되던 로짓 예측을 다변량 가우시안 혼합 모델의 파라미터 예측으로 대체한다. VQ-GAN과 MaskGIT의 이미지 생성 패러다임에서 트랜스포머가 VQ-VAE의 이산적 잠재 시퀀스를 모델링하는 방식에서 영감을 받아, GIVT는 VAE의 양자화되지 않은 실수 값 잠재 시퀀스를 모델링하는 데 사용된다. GIVT를 반복적 마스크 모델링을 통한 클래스 조건부 이미지 생성에 적용할 때, MaskGIT와 경쟁력 있는 결과를 보이며, 특히 인과적 모델링에서는 VQ-GAN과 MaskGIT를 모두 능가하는 성능을 보인다. 마지막으로, UViM 프레임워크의 VAE 기반 변형을 통해 파노픽 세그멘테이션과 깊이 추정에 적용할 때 이미지 생성 외의 영역에서도 경쟁력 있는 결과를 얻는다.
실세계 비디오로부터의 새로운 시점 합성은 장면의 동적 변화와 시차 부족과 같은 문제로 인해 어려운 과제이다. 기존의 방법들은 암묵적 신경 방사장(neural radiance fields)을 사용하여 유망한 결과를 보여주었지만, 학습과 렌더링 속도가 느리다는 단점이 있다. 본 논문은 단안 비디오로부터 고품질의 새로운 시점을 효율적으로 합성하기 위해 명시적 비디오 표현을 재검토한다. 우리는 정적 및 동적 비디오 콘텐츠를 별도로 처리한다. 구체적으로, 시간적으로 일관된 새로운 비디오를 합성하기 위해 확장된 평면 기반 장면 표현을 사용하여 전역 정적 장면 모델을 구축한다. 우리의 평면 기반 장면 표현은 구면 조화 함수(spherical harmonics)와 변위 맵(displacement maps)을 추가하여 시점 의존적 효과를 포착하고 비평면 복잡 표면 기하를 모델링한다. 동적 콘텐츠는 효율성을 위해 프레임별 포인트 클라우드로 표현하기로 한다. 이러한 표현은 일관성 문제가 발생하기 쉽지만, 움직임으로 인해 미세한 시간적 불일치는 지각적으로 가려진다. 우리는 이러한 하이브리드 비디오 표현을 빠르게 추정하고 실시간으로 새로운 시점을 렌더링하는 방법을 개발한다. 실험 결과, 우리의 방법은 실세계 비디오로부터 최신 기술과 비슷한 품질의 새로운 시점을 렌더링할 수 있으며, 학습 속도는 100배 빠르고 실시간 렌더링이 가능함을 보여준다.
대규모 텍스트-이미지(T2I) 모델은 텍스트 프롬프트에서 시각적으로 매력적인 출력물을 생성하며 창의적 분야에서 빠르게 주목받고 있다. 그러나 이러한 모델을 제어하여 일관된 스타일을 보장하는 것은 여전히 어려운 과제로, 기존 방법들은 콘텐츠와 스타일을 분리하기 위해 미세 조정과 수동 개입을 필요로 한다. 본 논문에서는 생성된 이미지 시리즈 간의 스타일 정렬을 확립하기 위한 새로운 기법인 StyleAligned를 소개한다. 확산 과정 중 최소한의 '주의 공유(attention sharing)'를 활용함으로써, 우리의 방법은 T2I 모델 내에서 이미지 간의 스타일 일관성을 유지한다. 이 접근법은 간단한 역변환 작업을 통해 참조 스타일을 사용하여 스타일 일관성을 가진 이미지를 생성할 수 있게 한다. 다양한 스타일과 텍스트 프롬프트에 걸친 우리 방법의 평가는 고품질 합성과 충실도를 보여주며, 다양한 입력에 걸쳐 일관된 스타일을 달성하는 데 있어 그 효과성을 강조한다.
기존의 3D 콘텐츠 제작 도구는 사용자에게 장면의 기하학적 구조, 외관, 움직임, 카메라 경로 등을 직접 제어할 수 있는 능력을 제공함으로써 그들의 상상력을 현실로 구현할 수 있게 합니다. 그러나 컴퓨터 생성 비디오를 만드는 것은 지루한 수작업 과정이며, 이는 최근 등장한 텍스트-투-비디오 확산 모델을 통해 자동화될 수 있습니다. 비록 큰 잠재력을 가지고 있지만, 비디오 확산 모델은 제어가 어려워 사용자가 자신의 창의성을 발휘하기보다는 오히려 방해받는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 동적 3D 메시의 제어 가능성과 최신 확산 모델의 표현력 및 편집 가능성을 결합한 새로운 접근 방식을 제시합니다. 이를 위해, 우리의 접근 방식은 애니메이션화된 저해상도 렌더링 메시를 입력으로 받아, 동적 메시에서 얻은 실제 대응 정보를 사전 훈련된 텍스트-투-이미지 생성 모델의 다양한 단계에 주입하여 고품질이고 시간적으로 일관된 프레임을 출력합니다. 우리는 리깅된 에셋을 애니메이션화하거나 카메라 경로를 변경하여 움직임을 얻을 수 있는 다양한 예제를 통해 이 접근 방식을 시연합니다.
텍스트-3D 생성 분야에서 2D 확산 모델을 점수 증류 샘플링(SDS)을 통해 활용하는 경우, 본질적으로 노이즈가 많은 SDS 손실로 인해 흐릿한 외관과 다면체 기하학적 구조와 같은 문제가 자주 발생한다. 우리의 분석은 이러한 문제의 핵심이 2D 확산 과정의 노이즈 수준, 확산 네트워크의 구조, 그리고 3D 모델 표현 간의 상호작용에 있음을 밝혀냈다. 이러한 한계를 극복하기 위해, 우리는 세 가지 발전을 통합한 방법론인 StableDreamer를 제안한다. 첫째, InstructNeRF2NeRF에서 영감을 받아 SDS 생성 사전과 단순한 지도 L2 재구성 손실의 동등성을 공식화하였다. 이 발견은 SDS를 디버깅하는 새로운 도구를 제공하며, 이를 통해 시간에 따라 감소하는 노이즈 수준이 다면체 기하학적 구조를 줄이는 데 미치는 영향을 보여준다. 둘째, 우리의 분석은 이미지 공간 확산이 기하학적 정밀도에 기여하는 반면, 잠재 공간 확산이 생생한 색상 재현에 중요함을 보여준다. 이 관찰을 바탕으로, StableDreamer는 이러한 측면을 효과적으로 결합한 두 단계 훈련 전략을 도입하여 고품질의 3D 모델을 생성한다. 셋째, 우리는 Neural Radiance Fields(NeRFs)를 대체하여 등방성 3D 가우시안 표현을 채택함으로써 전반적인 품질을 향상시키고, 훈련 중 메모리 사용량을 줄이며, 렌더링 속도를 가속화하고, 반투명 물체를 더 잘 포착한다. StableDreamer는 다면체 기하학적 구조를 줄이고, 세부 사항을 생성하며, 안정적으로 수렴한다.
방사체 필드에서의 인터랙티브 3D 세분화는 3D 장면 이해와 조작에서의 중요성으로 인해 매력적인 과제이다. 그러나 기존 방법들은 세밀한 다중 세분화를 달성하거나 상당한 계산 오버헤드를 처리하는 데 어려움을 겪으며, 실시간 상호작용을 방해한다. 본 논문에서는 2D 세분화 기반 모델과 최근 방사체 필드의 혁신인 3D 가우시안 스플래팅(3DGS)을 원활하게 결합한 새로운 3D 인터랙티브 세분화 접근법인 Segment Any 3D GAussians(SAGA)를 소개한다. SAGA는 세분화 기반 모델에 의해 생성된 다중 세분화 2D 세분화 결과를 잘 설계된 대조 학습을 통해 3D 가우시안 포인트 특징에 효율적으로 임베딩한다. 기존 벤치마크에서의 평가는 SAGA가 최신 방법들과 경쟁력 있는 성능을 달성할 수 있음을 보여준다. 또한, SAGA는 다중 세분화를 달성하고 점, 스크리블, 2D 마스크를 포함한 다양한 프롬프트를 수용한다. 특히, SAGA는 이전 SOTA 대비 거의 1000배의 가속을 달성하며 밀리초 단위로 3D 세분화를 완료할 수 있다. 프로젝트 페이지는 https://jumpat.github.io/SAGA에서 확인할 수 있다.
대형 언어 모델(LLM)은 "사고의 연쇄"(Chain-of-Thought, CoT) 프롬프트를 사용해 단계별로 답을 도출하도록 지시받을 때 더 정확하고 해석 가능하게 문제를 해결합니다. 또한, 특정 작업에서 LLM의 성능을 개선하기 위해 지도 학습 기반 미세 조정(supervised fine-tuning)을 사용할 수 있습니다. 이는 조정 가능한 매개변수에 대해 경사 상승법(gradient ascent)을 적용하여 레이블이 지정된 훈련 세트에서 정답의 평균 로그 가능도를 최대화하는 방식으로 이루어집니다. CoT와 지도 학습을 단순히 결합하려면 정답뿐만 아니라 그 정답에 이르는 상세한 논리(rationale)에 대한 지도도 필요합니다. 그러나 이러한 논리를 수작업으로 생성하는 것은 비용이 많이 듭니다. 대신, 우리는 CoT 프롬프트를 사용하여 정답을 생성하는 주변 로그 가능도(marginal log-likelihood)를 최대화하려는 미세 조정 전략을 제안합니다. 이는 가능한 모든 논리에 대해 근사적으로 평균을 내는 방식입니다. 핵심 과제는 정답에 조건부로 주어진 논리에 대한 사후 분포(posterior)에서 샘플링하는 것입니다. 우리는 이를 해결하기 위해 자기 학습 추론기(self-taught reasoner, STaR), 메모이제이션된 웨이크-슬립(memoized wake-sleep), 마르코프 점수 상승(Markovian score climbing), 지속적 대조 발산(persistent contrastive divergence)에서 영감을 받은 간단한 마르코프 체인 몬테 카를로(MCMC) 기대값 최대화(EM) 알고리즘을 사용합니다. 이 알고리즘은 또한 모델이 개선됨에 따라 그래디언트 추정치의 분산을 0으로 줄이는 새로운 제어 변수(control-variate) 기법을 허용합니다. 우리의 기법을 GSM8K 및 BIG-Bench Hard의 작업에 적용한 결과, 이 MCMC-EM 미세 조정 기법이 일반적으로 CoT를 사용하거나 사용하지 않은 STaR 또는 프롬프트 튜닝보다 보유된 예제에서 모델의 정확도를 더 크게 향상시키는 것을 확인했습니다.
멀티모달 대형 언어 모델(MLLMs)은 2D 이미지-텍스트 이해 및 이미지 생성에서 뛰어난 성과를 보여왔지만, 3D 세계에 대한 이해는 현저히 부족하여 3D 언어 이해 및 생성 분야의 발전을 제한하고 있습니다. 이 문제를 해결하기 위해 우리는 GPT4Point를 소개합니다. GPT4Point는 MLLM 프레임워크 내에서 통합된 3D 객체 이해 및 생성을 위해 특별히 설계된 혁신적인 포인트-언어 멀티모달 모델입니다. 강력한 3D MLLM인 GPT4Point는 포인트 클라우드 캡셔닝 및 질의응답과 같은 다양한 포인트-텍스트 참조 작업을 원활하게 수행할 수 있습니다. 또한 GPT4Point는 제어 가능한 3D 생성을 위한 고급 기능을 갖추고 있어, 낮은 품질의 포인트-텍스트 특징을 통해 기하학적 형태와 색상을 유지하면서도 고품질의 결과를 얻을 수 있습니다. 3D 객체-텍스트 쌍의 광범위한 요구를 지원하기 위해, 우리는 Pyramid-XL이라는 포인트-언어 데이터셋 주석 엔진을 개발했습니다. 이 엔진은 Objaverse-XL 데이터셋에서 다양한 텍스트 세분화 수준의 100만 개 이상의 객체로 구성된 대규모 데이터베이스를 구축하며, 이는 GPT4Point의 훈련에 필수적입니다. 3D 포인트-언어 이해 능력을 평가하기 위한 포괄적인 벤치마크가 제안되었습니다. 광범위한 평가에서 GPT4Point는 이해 및 생성에서 우수한 성능을 입증했습니다.
GPT-4와 같은 대규모 언어 모델(LLMs)의 놀라운 능력은 부분적으로 인간의 선호도를 보상 모델에 인코딩한 인간 피드백 강화 학습(RLHF)과 같은 사후 훈련 과정에서 비롯됩니다. 그러나 이러한 보상 모델(RMs)은 종종 선호도 주석이 왜 또는 어떤 원칙 하에 작성되었는지에 대한 직접적인 지식을 갖추지 못합니다. 본 연구에서는 인간의 선호도와 더 잘 일치하도록 보상 모델을 안내하는 원칙들을 식별하고, 이러한 원칙을 유지하기 위해 다양한 선호도 신호를 생성하는 공리적 프레임워크를 개발합니다. 우리는 이러한 공리적 신호를 사용하여 장문 질문에 대한 답변을 점수화하는 모델을 훈련시킵니다. 우리의 접근 방식은 약 2억 2천만 개의 매개변수만으로도 GPT-4보다 인간이 주석을 단 선호도 레이블과 더 자주 일치하는 선호도 모델을 만들어냅니다. 이 연구의 기여는 다음과 같습니다: 인간과 LLM이 생성한 답변을 동일한 척도로 점수화할 수 있는 독립형 선호도 모델 훈련; 특정 원칙에 맞춰진 훈련 데이터 쌍을 생성하기 위한 공리적 프레임워크 개발; 소량의 공리적 신호가 작은 모델이 선호도 점수화에서 GPT-4를 능가하도록 도울 수 있음을 보여줌. 우리는 이 모델을 허깅페이스에 공개합니다: https://huggingface.co/corbyrosset/axiomatic_preference_model
여러 입력 양식에 대한 훈련은 언어 모델의 능력을 향상시킬 수 있다. 본 연구에서는 이러한 훈련 방식이 시스템의 품질과 효율성 또한 개선할 수 있는지 탐구한다. 우리는 텍스트-오디오에 초점을 맞추고, FLAVA(singh_flava_2022)의 텍스트-이미지 접근법에서 영감을 받은 Whisbert를 소개한다. Babylm(warstadt2023papers) 지침에 따라, 우리는 Whisbert를 People's Speech 데이터셋(galvez_peoples_2021)의 단어 정렬 버전에서 추출한 1억 단어와 해당 음성으로 구성된 데이터셋으로 사전 훈련시켰다. 다중 양식의 영향을 평가하기 위해, 텍스트만으로 훈련된 모델과 텍스트와 오디오를 동시에 훈련한 모델을 비교하였다. 그 결과, Whisbert는 다중 양식 마스크 모델링에서 우수한 성능을 보이며 대부분의 벤치마크 작업에서 Babylm 기준선을 능가했지만, 복잡한 목적 함수를 최적화하고 텍스트 전용 Whisbert 기준선을 능가하는 데는 어려움을 겪는 것으로 나타났다.
Neural Radiance Fields(NeRF)는 정적 장면을 사실적으로 렌더링하는 데 탁월한 성능을 보입니다. 그러나 보편적인 기기에서 동적이고 장기간의 radiance field를 렌더링하는 것은 데이터 저장 및 계산적 제약으로 인해 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 모바일 플랫폼에서 동적 radiance field의 실시간 스트리밍 및 렌더링을 가능하게 하는 첫 번째 접근 방식인 VideoRF를 소개합니다. 이 방법의 핵심은 4D radiance field를 하나로 표현하는 직렬화된 2D 특징 이미지 스트림입니다. 우리는 이 2D 도메인에 직접 적용되는 맞춤형 학습 방식을 도입하여 특징 이미지 스트림의 시간적 및 공간적 중복성을 부여합니다. 이러한 중복성을 활용함으로써, 특징 이미지 스트림이 2D 비디오 코덱을 통해 효율적으로 압축될 수 있음을 보여주며, 이를 통해 비디오 하드웨어 가속기를 활용하여 실시간 디코딩을 달성할 수 있습니다. 한편, 특징 이미지 스트림을 기반으로 VideoRF를 위한 새로운 렌더링 파이프라인을 제안합니다. 이 파이프라인은 radiance 속성을 효율적으로 조회하기 위한 특수한 공간 매핑을 갖추고 있습니다. 지연 쉐이딩 모델과 결합된 VideoRF는 그 효율성 덕분에 모바일 기기에서도 실시간 렌더링이 가능합니다. 우리는 데스크톱부터 스마트폰까지 다양한 기기에서 동적 장면의 온라인 스트리밍 및 렌더링을 가능하게 하는 실시간 인터랙티브 플레이어를 개발하여, 원활하고 몰입감 있는 자유 시점 경험을 제공합니다.
본 논문에서는 텍스트-이미지 모델을 활용하여 다양한 이미지 스케일 간 일관된 콘텐츠를 생성하는 방법을 제안한다. 이를 통해 장면에 대한 극단적인 의미론적 줌을 가능하게 하며, 예를 들어 숲의 광각 풍경 뷰에서 나뭇가지 위에 앉아 있는 곤충의 매크로 샷까지의 범위를 아우른다. 우리는 각각의 샘플링 프로세스의 무결성을 유지하면서도 다양한 스케일 간 일관성을 촉진하는 공동 다중 스케일 확산 샘플링 접근법을 통해 이를 달성한다. 각 생성된 스케일은 서로 다른 텍스트 프롬프트에 의해 안내되므로, 본 방법은 전통적인 초해상도 방법보다 더 깊은 수준의 줌을 가능하게 한다. 전통적인 방법은 크게 다른 스케일에서 새로운 맥락적 구조를 생성하는 데 어려움을 겪을 수 있다. 우리는 이미지 초해상도 및 아웃페인팅 분야의 대안적 기법들과의 정성적 비교를 통해, 본 방법이 일관된 다중 스케일 콘텐츠 생성에 가장 효과적임을 보여준다.
최근 Segment Anything Model(SAM)은 제로샷 세그멘테이션의 놀라운 능력을 보여주었고, NeRF(Neural Radiance Fields)는 새로운 시점 합성을 넘어 다양한 3D 문제를 해결하는 방법으로 인기를 얻고 있다. 이 두 방법을 3D 세그멘테이션에 통합하려는 초기 시도가 존재하지만, 복잡한 시나리오에서 객체를 정확하고 일관되게 세그멘테이션하는 데 어려움을 겪고 있다. 본 논문에서는 주어진 장면에서 모든 객체의 고품질 3D 세그멘테이션을 달성하기 위해 Segment Anything for NeRF in High Quality(SANeRF-HQ)를 소개한다. SANeRF-HQ는 사용자 제공 프롬프트에 의해 안내되는 개방형 세계 객체 세그멘테이션을 위해 SAM을 활용하고, 다양한 시점에서 정보를 집계하기 위해 NeRF를 활용한다. 앞서 언급한 문제를 극복하기 위해, 집계 과정에서 세그멘테이션 경계의 정확성을 높이기 위해 밀도 필드와 RGB 유사성을 사용한다. 세그멘테이션 정확성에 중점을 두어, 고품질의 실측 데이터가 제공되거나 수동으로 주석이 달린 여러 NeRF 데이터셋에서 본 방법을 정량적으로 평가한다. SANeRF-HQ는 이전의 최신 NeRF 객체 세그멘테이션 방법 대비 상당한 품질 개선을 보여주며, 객체 위치 지정에 더 높은 유연성을 제공하고, 여러 시점에서 더 일관된 객체 세그멘테이션을 가능하게 한다. 추가 정보는 https://lyclyc52.github.io/SANeRF-HQ/에서 확인할 수 있다.
본 논문은 시각 표현 학습을 위해 다음 픽셀을 예측하는 자기회귀 사전 학습을 도입한 선구적 연구 중 하나인 이미지-GPT(iGPT)를 개선한다. 두 가지 간단하지만 핵심적인 변경 사항을 적용하였다. 첫째, 예측 대상으로 원시 픽셀 대신 의미론적 토큰을 사용하여 시각적 내용에 대한 더 높은 수준의 이해를 가능하게 하였다. 둘째, 다음 토큰뿐만 아니라 가시적 토큰도 예측하도록 모델을 지시함으로써 자기회귀 모델링을 보완하였다. 이러한 파이프라인은 CLIP과 같이 판별적으로 학습된 모델에 의해 의미론적 토큰이 인코딩될 때 특히 효과적이다. 우리는 이러한 새로운 접근법을 D-iGPT로 소개한다. 광범위한 실험을 통해 D-iGPT가 시각 표현의 강력한 학습자로 우수함을 입증하였다: D-iGPT의 주목할 만한 성과는 ImageNet-1K 데이터셋에서의 뛰어난 성능이다. 공개적으로 이용 가능한 데이터셋으로 학습한 D-iGPT는 기본 ViT-Large 모델을 사용하여 89.5%의 top-1 정확도를 달성하였다. 또한 이 모델은 다운스트림 작업에서 강력한 일반화 능력과 분포 외 샘플에 대한 견고성을 보여준다. 코드는 https://github.com/OliverRensu/D-iGPT에서 확인할 수 있다.
본 논문에서는 텍스트 설명 또는 참조 이미지를 편집 프롬프트로 통합하는 CustomNeRF 모델을 제안하여 적응형 소스 기반 3D 장면 편집 작업을 목표로 한다. 그러나 편집 프롬프트에 부합하는 원하는 편집 결과를 얻는 것은 두 가지 주요 과제, 즉 전경 영역만을 정확하게 편집하는 것과 단일 뷰 참조 이미지가 주어졌을 때의 다중 뷰 일관성 문제로 인해 쉽지 않다. 첫 번째 과제를 해결하기 위해, 전경 영역 편집과 전체 이미지 편집을 번갈아 수행하는 Local-Global Iterative Editing (LGIE) 훈련 기법을 제안하여 배경을 보존하면서 전경만을 조작하는 것을 목표로 한다. 두 번째 과제를 위해, 생성 모델 내의 클래스 사전 정보를 활용하여 이미지 기반 편집에서 서로 다른 뷰 간의 불일치 문제를 완화하는 클래스 가이드 정규화 기법을 설계한다. 다양한 실제 장면에서 텍스트 및 이미지 기반 설정 모두에 대해 CustomNeRF가 정확한 편집 결과를 생성함을 광범위한 실험을 통해 입증한다.
심각한 운동 장애를 가진 개인들을 위한 텍스트 입력 가속화 방법을 찾는 것은 오랜 연구 분야였습니다. 안구 추적 키보드와 같은 보완 및 대체 의사소통(AAC) 장치의 속도 격차를 줄이는 것은 이러한 개인들의 삶의 질을 향상시키는 데 중요합니다. 최근 자연어 처리 신경망의 발전은 AAC 사용자를 위한 향상된 텍스트 입력 전략과 사용자 인터페이스를 재고할 수 있는 새로운 기회를 제공합니다. 본 논문에서는 대규모 언어 모델(LLMs)과 공동 설계된 사용자 인터페이스로 구성된 SpeakFaster를 소개합니다. 이 시스템은 고도로 축약된 형태의 텍스트 입력을 가능하게 하여 오프라인 시뮬레이션에서 기존 예측 키보드 대비 57% 더 많은 모터 동작을 절약할 수 있습니다. 19명의 비-AAC 참가자가 모바일 기기에서 손으로 타이핑하는 파일럿 연구는 오프라인 시뮬레이션과 일치하는 모터 절약 효과를 보여주었으며, 전체 타이핑 속도에는 상대적으로 작은 영향을 미쳤습니다. 근위축성 측삭 경화증(ALS)을 가진 두 명의 안구 추적 타이핑 사용자를 대상으로 한 실험실 및 현장 테스트에서는 상황 인식 LLMs의 구문 및 단어 예측을 통해 비용이 많이 드는 키 입력을 크게 절약함으로써 기존 기준 대비 29-60% 더 빠른 텍스트 입력 속도를 달성했습니다. 이러한 결과는 운동 장애 사용자를 위한 상당히 가속화된 텍스트 의사소통을 더 탐구할 수 있는 강력한 기반을 제공하며, 텍스트 기반 사용자 인터페이스에 LLMs를 적용하는 방향을 보여줍니다.
대규모 언어 모델(LLMs)은 점점 더 정확한 응답과 일관된 추론 능력으로 인해 실용적인 응용 분야에서 큰 관심을 끌고 있다. 복잡한 추론 과정을 통해 입력을 처리하는 블랙박스 특성을 고려할 때, LLMs가 생성한 콘텐츠에 대한 확장 가능하고 신뢰할 수 있는 설명에 대한 수요는 계속 증가할 것으로 예상된다. 지난 10년 동안 신경망 모델의 설명 가능성에 관한 주요 발전이 있었다. 그 중에서도 사후 설명 방법(post-hoc explainability methods), 특히 샤플리 값(Shapley values)은 딥러닝 모델을 해석하는 데 효과적인 것으로 입증되었다. 그러나 LLMs에 대한 샤플리 값을 확장하는 데는 주요한 과제가 있다. 특히 수천 개의 토큰을 포함하는 긴 입력 문맥과 자동회귀적으로 생성된 출력 시퀀스를 다룰 때 이러한 문제가 두드러진다. 또한 생성된 설명을 효과적으로 활용하여 LLMs의 성능을 개선하는 방법이 종종 명확하지 않다. 본 논문에서는 LM 특화 기술을 통합한 효율적인 사후 설명 방법인 TextGenSHAP을 소개한다. 이 방법은 기존의 샤플리 값 계산에 비해 속도를 크게 향상시켜, 토큰 수준 설명의 처리 시간을 몇 시간에서 몇 분으로, 문서 수준 설명의 처리 시간을 단 몇 초로 단축한다. 또한, 실시간 샤플리 값을 두 가지 중요한 시나리오에서 활용하는 방법을 보여준다. 첫째, 중요한 단어와 문장을 지역화하여 장문 질문 응답에 대한 이해를 개선하고, 둘째, 선택된 구절의 정확도를 향상시켜 기존 문서 검색 시스템을 개선함으로써 궁극적으로 최종 응답의 질을 높이는 것이다.