번역이 포함된 일일 선별된 AI 연구 논문
ChatGPT와 같은 대형 언어 모델(LLM)은 뛰어난 자연어 처리 능력으로 인해 상당한 주목을 받고 있습니다. 그러나 이러한 LLM은 신뢰성 측면에서 많은 도전 과제를 제시합니다. 따라서 LLM의 신뢰성을 보장하는 것은 중요한 주제로 부각되고 있습니다. 본 논문은 TrustLLM을 소개하며, 이는 LLM의 신뢰성에 대한 포괄적인 연구로, 다양한 신뢰성 차원에 대한 원칙, 기존 벤치마크, 주요 LLM의 신뢰성 평가 및 분석, 그리고 미해결 과제와 미래 방향에 대한 논의를 포함합니다. 구체적으로, 우리는 먼저 8가지 차원에 걸친 신뢰할 수 있는 LLM을 위한 원칙 세트를 제안합니다. 이러한 원칙을 바탕으로, 우리는 진실성, 안전성, 공정성, 견고성, 프라이버시, 기계 윤리를 포함한 6가지 차원에 걸친 벤치마크를 구축합니다. 그런 다음, 30개 이상의 데이터셋으로 구성된 TrustLLM에서 16개의 주요 LLM을 평가한 연구를 제시합니다. 우리의 연구 결과는 첫째, 일반적으로 신뢰성과 유용성(즉, 기능적 효과성)은 양의 상관관계가 있음을 보여줍니다. 둘째, 상용 LLM이 대부분의 오픈소스 대비 신뢰성 측면에서 우수한 성능을 보이며, 이는 널리 접근 가능한 오픈소스 LLM의 잠재적 위험에 대한 우려를 제기합니다. 그러나 일부 오픈소스 LLM은 상용 LLM에 매우 근접한 성능을 보입니다. 셋째, 일부 LLM은 지나치게 신뢰성을 보이도록 조정되어, 유해하지 않은 프롬프트를 유해한 것으로 오인하여 응답하지 않음으로써 유용성을 저해할 수 있음에 주목해야 합니다. 마지막으로, 모델 자체뿐만 아니라 신뢰성을 뒷받침하는 기술에서도 투명성을 보장하는 것의 중요성을 강조합니다. 어떤 신뢰할 수 있는 기술이 사용되었는지 아는 것은 그 효과를 분석하는 데 있어 매우 중요합니다.
본 기술 보고서는 고급 PIXART-{\alpha} 모델에 Latent Consistency Model(LCM)과 ControlNet을 통합한 텍스트-이미지 합성 프레임워크인 PIXART-{\delta}를 소개합니다. PIXART-{\alpha}는 매우 효율적인 학습 과정을 통해 1024px 해상도의 고품질 이미지를 생성하는 능력으로 잘 알려져 있습니다. PIXART-{\delta}에 LCM을 통합함으로써 추론 속도가 크게 가속화되어 단 2-4 단계만으로 고품질 이미지를 생성할 수 있게 되었습니다. 특히, PIXART-{\delta}는 1024x1024 픽셀 이미지를 생성하는 데 0.5초라는 획기적인 성과를 달성하며, 이는 PIXART-{\alpha} 대비 7배 향상된 수치입니다. 또한, PIXART-{\delta}는 단일 날짜 내에 32GB V100 GPU에서 효율적으로 학습할 수 있도록 설계되었습니다. 8비트 추론 기능(von Platen et al., 2023)을 통해 PIXART-{\delta}는 8GB GPU 메모리 제약 내에서도 1024px 이미지를 합성할 수 있어 사용성과 접근성이 크게 향상되었습니다. 더 나아가, ControlNet과 유사한 모듈을 통합함으로써 텍스트-이미지 확산 모델에 대한 세밀한 제어가 가능해졌습니다. 본 연구에서는 Transformer에 특화된 새로운 ControlNet-Transformer 아키텍처를 도입하여, 고품질 이미지 생성과 함께 명시적인 제어 가능성을 달성했습니다. 최첨단 오픈소스 이미지 생성 모델로서, PIXART-{\delta}는 Stable Diffusion 모델군에 대한 유망한 대안을 제시하며 텍스트-이미지 합성 분야에 크게 기여하고 있습니다.
트랜스포머는 이전 세대의 최첨단 NLP 모델인 순환 신경망(RNN)과 개념적으로 다르다고 여겨져 왔습니다. 본 연구에서는 디코더 전용 트랜스포머가 사실상 무한 다중 상태 RNN(무제한 은닉 상태 크기를 가진 RNN 변형)으로 개념화될 수 있음을 보여줍니다. 또한, 사전 학습된 트랜스포머를 은닉 상태 크기를 고정함으로써 유한 다중 상태 RNN으로 변환할 수 있음을 입증합니다. 우리는 기존의 여러 트랜스포머 캐시 압축 기술이 이러한 변환 정책으로 설명될 수 있음을 관찰하고, 이러한 정책들에 비해 더 간단한 새로운 정책인 TOVA를 소개합니다. 여러 장거리 작업에 대한 실험 결과, TOVA는 다른 모든 기준 정책들을 능가하면서도 전체(무한) 모델과 거의 동등한 성능을 보이며, 경우에 따라 원본 캐시 크기의 1/8만 사용하는 것으로 나타났습니다. 우리의 결과는 트랜스포머 디코더 LLM이 실제로는 RNN처럼 동작하는 경우가 많음을 시사합니다. 또한, 이들이 가진 가장 큰 계산 병목 현상 중 하나인 캐시 메모리 크기를 완화할 수 있는 가능성을 제시합니다. 우리는 코드를 https://github.com/schwartz-lab-NLP/TOVA에서 공개합니다.
인간은 전략적인 기만 행동을 할 수 있는 능력을 지니고 있다: 대부분의 상황에서는 도움을 주는 행동을 하지만, 기회가 주어졌을 때는 대안적인 목표를 추구하기 위해 매우 다르게 행동한다. 만약 AI 시스템이 이러한 기만 전략을 학습한다면, 우리는 이를 탐지하고 현재의 최신 안전성 훈련 기법을 사용하여 제거할 수 있을까? 이 질문을 연구하기 위해, 우리는 대규모 언어 모델(LLM)에서의 기만 행동에 대한 개념 증명 예시를 구성한다. 예를 들어, 프롬프트에 연도가 2023년이라고 명시되어 있을 때는 안전한 코드를 작성하지만, 2024년이라고 명시되어 있을 때는 악용 가능한 코드를 삽입하는 모델을 훈련시킨다. 우리는 이러한 백도어 행동이 지속적으로 유지될 수 있음을 발견했으며, 이는 지도 미세 조정, 강화 학습, 적대적 훈련(불안전한 행동을 유도한 후 이를 제거하기 위한 훈련)을 포함한 표준 안전성 훈련 기법으로도 제거되지 않는다. 백도어 행동은 가장 큰 모델과 훈련 과정을 속이기 위한 사고 연쇄(chain-of-thought) 추론을 생성하도록 훈련된 모델에서 가장 지속적이며, 사고 연쇄가 제거된 후에도 지속성이 남아 있다. 더욱이, 적대적 훈련은 백도어를 제거하기보다는 모델이 백도어 트리거를 더 잘 인식하도록 가르쳐 불안전한 행동을 효과적으로 숨길 수 있다. 우리의 결과는, 모델이 한 번 기만 행동을 보이면 표준 기법들이 그러한 기만을 제거하지 못하고 안전성에 대한 잘못된 인상을 줄 수 있음을 시사한다.
우리는 3D 장면의 NeRF 재구성에서 생성적 객체 삽입을 위한 새로운 방법인 InseRF를 소개합니다. InseRF는 사용자가 제공한 텍스트 설명과 참조 시점에서의 2D 경계 상자를 기반으로 3D 장면에 새로운 객체를 생성합니다. 최근, 텍스트-이미지 확산 모델의 강력한 사전 지식을 3D 생성 모델링에 활용함으로써 3D 장면 편집 방법이 크게 발전했습니다. 기존 방법들은 주로 스타일과 외관 변경이나 기존 객체 제거를 통해 3D 장면을 편집하는 데 효과적이었습니다. 그러나 새로운 객체를 생성하는 것은 이러한 방법들에 있어 여전히 도전 과제로 남아 있으며, 본 연구에서 이를 해결하고자 합니다. 구체적으로, 우리는 3D 객체 삽입을 장면의 참조 뷰에서의 2D 객체 삽입에 기반을 두도록 제안합니다. 이 2D 편집은 단일 뷰 객체 재구성 방법을 사용하여 3D로 확장됩니다. 재구성된 객체는 단안 깊이 추정 방법의 사전 지식을 바탕으로 장면에 삽입됩니다. 우리는 다양한 3D 장면에서 이 방법을 평가하고 제안된 구성 요소에 대한 심층 분석을 제공합니다. 여러 3D 장면에서의 객체 생성적 삽입 실험은 기존 방법과 비교하여 우리 방법의 효과를 보여줍니다. InseRF는 명시적인 3D 정보를 입력으로 요구하지 않으면서도 제어 가능하고 3D 일관성 있는 객체 삽입이 가능합니다. 자세한 내용은 프로젝트 페이지(https://mohamad-shahbazi.github.io/inserf)를 방문해 주세요.
기존의 사실적인 재조명 가능한 손 모델은 다양한 시점, 자세, 조명에서의 방대한 개인별 관찰 데이터를 필요로 하며, 자연스러운 조명과 새로운 개인에게 일반화하는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 시점, 자세, 조명, 그리고 개인을 아우르는 최초의 범용 재조명 가능한 손 모델인 URHand를 제안합니다. 우리의 모델은 모바일 폰으로 촬영한 이미지를 사용한 소량의 데이터로 개인화가 가능하며, 새로운 조명 하에서 사실적으로 렌더링할 수 있습니다. 개인화 과정을 단순화하면서도 사실감을 유지하기 위해, 우리는 수백 명의 개인이 참여한 라이트 스테이지에서 촬영된 다중 시점 손 이미지 기반의 강력한 범용 재조명 가능한 사전 모델을 구축했습니다. 핵심 과제는 다양한 개인에 걸친 학습을 확장하면서도 개인별 정확도와 선명한 디테일을 유지하고, 자연스러운 조명 하에서의 일반화를 저해하지 않는 것입니다. 이를 위해, 우리는 물리 기반 쉐이딩을 입력 특징으로 사용하는 공간적으로 변하는 선형 조명 모델을 신경망 렌더러로 제안합니다. 비선형 활성화 함수와 편향을 제거함으로써, 우리가 특별히 설계한 조명 모델은 빛 전달의 선형성을 명시적으로 유지합니다. 이는 라이트 스테이지 데이터로부터 단일 단계 학습을 가능하게 하면서도 다양한 개인에 걸친 임의의 연속적인 조명 하에서 실시간 렌더링으로 일반화할 수 있게 합니다. 또한, 우리는 물리 기반 모델과 우리의 신경망 재조명 모델의 결합 학습을 도입하여, 정확도와 일반화를 더욱 향상시켰습니다. 광범위한 실험을 통해 우리의 접근 방식이 기존 방법들보다 품질과 일반화 능력 면에서 우수한 성능을 달성함을 보여줍니다. 또한, 우리는 미확인 개인의 짧은 폰 스캔으로부터 URHand의 빠른 개인화를 시연합니다.
대규모 언어 모델(LLM)은 강력한 대화 에이전트이지만, 특정 기능을 수행하도록 전문화하는 것은 어려운 과제일 수 있습니다. 인간이 생성한 지시와 샘플 응답을 기반으로 모델을 조정하는 인스트럭트 튜닝(Ouyang et al., 2022)은 이를 위한 효과적인 방법으로 입증되었지만, a) 사용 가능하지 않거나 b) 생성 비용이 높은 다수의 데이터 샘플이 필요합니다. 더욱이, 단일 지시가 아닌 대화 내에서 특정 워크플로우를 따르도록 LLM을 만드는 것이 목표일 때 이 비용은 더욱 증가합니다. 강화 학습의 자기 대결(self-play) 기술과 LLM을 인간 에이전트 시뮬레이션에 활용하는 방법에서 영감을 받아, 우리는 다양한 역할을 맡은 LLM 간의 대화를 통해 데이터 수집을 더 효과적으로 수행하는 방법을 제안합니다. 이 접근법은 LLM의 "자기 대화(self-talk)"를 통해 훈련 데이터를 생성하며, 이를 정제하여 지도 학습 미세 조정에 활용할 수 있습니다. 우리는 대화의 (부분적) 성공을 측정하는 자동화된 방법을 소개합니다. 이 메트릭은 생성된 대화 데이터를 필터링하여 LLM 훈련에 다시 입력하는 데 사용됩니다. 대화 품질에 대한 자동화된 평가와 인간 평가를 바탕으로, 이러한 자기 대화 데이터가 결과를 개선한다는 것을 입증합니다. 또한, 생성된 대화의 품질을 보여주는 다양한 특성과 이를 훈련 데이터의 잠재적 유용성과 어떻게 연결할 수 있는지 검토합니다.
사고의 연쇄(Chain of Thought, CoT)는 대형 언어 모델(LLMs)의 추론 능력을 향상시키는 데 중요한 역할을 합니다. 그러나 CoT의 효과와 프롬프트 내 추론 단계의 길이 간의 상관관계는 여전히 대부분 알려져 있지 않습니다. 이를 밝히기 위해, 우리는 이러한 관계를 탐구하기 위해 여러 실험을 수행했습니다. 구체적으로, 우리는 CoT 데모 내의 논리적 추론 단계를 확장하고 압축하는 실험을 설계했으며, 이때 다른 모든 요소는 동일하게 유지했습니다. 우리는 다음과 같은 주요 발견을 했습니다. 첫째, 프롬프트 내 추론 단계를 길게 하는 것이, 새로운 정보를 추가하지 않더라도, 여러 데이터셋에서 LLMs의 추론 능력을 상당히 향상시킨다는 것을 보여줍니다. 반대로, 추론 단계를 짧게 하면, 핵심 정보를 보존하더라도 모델의 추론 능력이 크게 저하됩니다. 이 발견은 CoT 프롬프트 내 단계 수의 중요성을 강조하며, 복잡한 문제 해결 시나리오에서 LLMs의 잠재력을 더 잘 활용하기 위한 실질적인 지침을 제공합니다. 둘째, 우리는 CoT의 성능과 데모에서 사용된 논리적 근거 간의 관계도 조사했습니다. 놀랍게도, 결과는 잘못된 논리적 근거라도 필요한 추론 길이를 유지한다면 유리한 결과를 낼 수 있다는 것을 보여줍니다. 셋째, 추론 단계를 늘리는 이점은 작업에 따라 다르다는 것을 관찰했습니다: 단순한 작업은 더 적은 단계를 필요로 하는 반면, 복잡한 작업은 더 긴 추론 시퀀스에서 상당한 이점을 얻습니다.
비전-언어 모델의 최근 발전은 대량의 이미지-텍스트 데이터 덕분에 크게 이루어졌습니다. 우리는 이러한 성공을 비디오-언어 모델로 확장하고자 하지만, 인간이 직접 정리한 비디오-텍스트 데이터가 충분하지 않다는 문제에 직면했습니다. 따라서 우리는 강력한 이미지-언어 기반 모델을 합성된 지시 데이터로 미세 조정하여 비디오-언어 모델을 구축했습니다. 이렇게 적응된 비디오-언어 모델은 수백만 개의 비디오를 자동으로 레이블링하여 고품질 캡션을 생성하는 데 사용됩니다. 우리는 이 비디오-언어 모델이 다양한 비디오-언어 벤치마크에서 우수한 성능을 보인다는 것을 입증했습니다. 예를 들어, 개방형 NExT-QA에서 기존 최고 기록을 2.8% 상회했습니다. 또한, 우리의 모델은 이전에 본 적 없는 비디오에 대해 상세한 설명을 생성하며, 이는 기존 방법보다 더 나은 텍스트 감독을 제공합니다. 실험 결과, 이러한 자동 생성 캡션으로 대조 학습된 비디오-언어 이중 인코더 모델은 비전-언어 모델을 활용한 가장 강력한 베이스라인보다 3.8% 더 우수한 성능을 보였습니다. 우리의 최고 모델은 MSR-VTT 제로샷 텍스트-비디오 검색에서 최신 기술을 6% 앞섰습니다.
인터넷 콘텐츠의 60%가 영어로 출판되는 반면, 전 세계 인구 중 영어 사용자는 18.8%에 불과하고, 모국어로 영어를 사용하는 인구는 단 5.1%에 그쳐 온라인 정보 접근에 있어 격차가 발생하고 있습니다. 불행히도, 비디오 더빙(비디오의 오디오 트랙을 번역된 대안으로 교체하는 작업)을 위한 자동화 프로세스는 여전히 복잡하고 어려운 과제로 남아 있습니다. 이는 정확한 타이밍, 얼굴 움직임 동기화, 운율 일치 등이 필요한 파이프라인 때문입니다. 엔드투엔드 더빙이 해결책을 제시하지만, 데이터 부족은 여전히 엔드투엔드 및 파이프라인 기반 방법의 발전을 저해하고 있습니다. 본 연구에서는 일본어와 영어로 정렬된 425,000개 이상의 애니메이션 비디오 세그먼트로 구성된 포괄적인 데이터셋인 Anim-400K를 소개합니다. 이 데이터셋은 자동 더빙, 동시 통역, 가이드 비디오 요약, 장르/테마/스타일 분류 등 다양한 비디오 관련 작업을 지원합니다. 우리의 데이터셋은 연구 목적으로 https://github.com/davidmchan/Anim400K에서 공개적으로 이용 가능합니다.
스코어 디스틸레이션 샘플링(Score Distillation Sampling, SDS)은 텍스트 프롬프트를 사용하여 최적화 문제를 제어하기 위해 이미지 확산 모델에 의존하는 최신이면서도 이미 널리 인기 있는 방법이다. 본 논문에서는 SDS 손실 함수에 대한 심층적인 분석을 수행하고, 그 공식화에 내재된 문제를 식별하며, 놀랍도록 간단하지만 효과적인 해결책을 제안한다. 구체적으로, 우리는 손실을 다양한 요소로 분해하고 노이즈가 있는 그래디언트를 유발하는 구성 요소를 분리한다. 원래의 공식에서는 노이즈를 고려하기 위해 높은 텍스트 가이던스가 사용되며, 이로 인해 원치 않는 부작용이 발생한다. 대신, 우리는 이미지 확산 모델의 시간 단계에 따른 노이즈 제거 결함을 모방하는 얕은 네트워크를 훈련시켜 이를 효과적으로 제거한다. 우리는 최적화 기반 이미지 합성 및 편집, 제로샷 이미지 번역 네트워크 훈련, 텍스트-3D 합성 등 여러 정성적 및 정량적 실험을 통해 새로운 손실 공식의 다양성과 효과성을 입증한다.
Transformer 기반 대규모 언어 모델(LLMs)은 다양한 분야에서 널리 사용되고 있으며, LLM 추론의 효율성은 실제 애플리케이션에서 중요한 주제로 부상하고 있습니다. 그러나 LLM은 일반적으로 복잡한 모델 구조와 방대한 연산을 포함하며, 자동 회귀(auto-regressive) 방식으로 추론을 수행하기 때문에 고효율 시스템 설계가 어려운 과제로 여겨집니다. 본 논문에서는 낮은 지연 시간과 높은 처리량을 갖춘 효율적인 LLM 추론 솔루션을 제안합니다. 먼저, 데이터 이동과 요소별 연산을 융합하여 LLM 디코더 계층을 단순화함으로써 메모리 접근 빈도를 줄이고 시스템 지연 시간을 낮췄습니다. 또한, 요청 및 응답 토큰의 키/값을 별도의 물리적 메모리에 유지하는 세그먼트 KV 캐시 정책을 제안하여 장치 메모리 관리를 효율적으로 수행하고, 런타임 배치 크기를 확장하여 시스템 처리량을 개선했습니다. 세그먼트 KV 캐시 솔루션에 기반한 융합 정책과 일치하도록 맞춤형 Scaled-Dot-Product-Attention 커널을 설계했습니다. 우리는 이 LLM 추론 솔루션을 Intel GPU에 구현하여 공개했습니다. 표준 HuggingFace 구현과 비교했을 때, 제안된 솔루션은 Intel GPU에서 일부 인기 있는 LLM에 대해 최대 7배 낮은 토큰 지연 시간과 27배 높은 처리량을 달성했습니다.