번역이 포함된 일일 선별된 AI 연구 논문
GPT-4와 같은 독점적인 언어 모델(LM)은 종종 다양한 LM의 응답 품질을 평가하는 데 사용됩니다. 그러나 투명성, 제어 가능성, 비용 효율성과 같은 문제들은 평가에 특화된 오픈소스 LM 개발을 강력히 촉구하고 있습니다. 반면, 기존의 오픈소스 평가자 LM들은 중요한 단점을 보입니다: 1) 인간이 부여한 점수와 크게 벗어나는 점수를 발행하며, 2) 가장 일반적인 평가 형태인 직접 평가와 쌍별 순위 지정을 모두 수행할 수 있는 유연성이 부족합니다. 또한, 도움의 정도나 유해성과 같은 일반적인 속성에 초점을 맞추고 있어, 사용자 정의 평가 기준에 기반한 평가 능력이 없습니다. 이러한 문제를 해결하기 위해, 우리는 이전 버전보다 더 강력한 평가자 LM인 Prometheus 2를 소개합니다. 이 모델은 인간과 GPT-4의 판단을 밀접하게 반영하며, 사용자 정의 평가 기준과 함께 직접 평가 및 쌍별 순위 지정 형식을 모두 처리할 수 있습니다. 네 개의 직접 평가 벤치마크와 네 개의 쌍별 순위 지정 벤치마크에서, Prometheus 2는 테스트된 모든 오픈소스 평가자 LM 중에서 인간과 독점 LM 평가자와의 가장 높은 상관관계와 일치도를 보였습니다. 우리의 모델, 코드, 데이터는 모두 https://github.com/prometheus-eval/prometheus-eval에서 공개되어 있습니다.
Low Rank Adaptation (LoRA)은 대규모 언어 모델(LLM)의 파라미터 효율적 미세 조정(Parameter Efficient Fine-Tuning, PEFT)을 위한 가장 널리 채택된 방법 중 하나로 부상했습니다. LoRA는 학습 가능한 파라미터 수와 메모리 사용량을 줄이면서도 전체 미세 조정과 비슷한 성능을 달성합니다. 우리는 LoRA로 미세 조정된 LLM을 실제 애플리케이션에서 학습 및 서비스하는 것이 가능한지 평가하고자 합니다. 먼저, 10개의 기본 모델과 31개의 작업에 대해 양자화된 저랭크 어댑터로 미세 조정된 LLM의 품질을 측정하여 총 310개의 모델을 분석했습니다. 그 결과, 4비트 LoRA로 미세 조정된 모델은 기본 모델보다 평균 34점, GPT-4보다 10점 더 높은 성능을 보였습니다. 둘째, 미세 조정에 가장 효과적인 기본 모델을 조사하고, 작업 복잡성 휴리스틱이 미세 조정 결과를 예측하는 데 있어 상관적 및 예측적 능력을 평가했습니다. 마지막으로, LoRAX의 지연 시간과 동시 처리 능력을 평가했습니다. LoRAX는 공유된 기본 모델 가중치와 동적 어댑터 로딩을 사용하여 단일 GPU에서 여러 LoRA 미세 조정 모델을 배포할 수 있는 오픈소스 Multi-LoRA 추론 서버입니다. LoRAX는 LoRA Land를 구동하는데, LoRA Land는 단일 NVIDIA A100 GPU(80GB 메모리)에서 25개의 LoRA 미세 조정된 Mistral-7B LLM을 호스팅하는 웹 애플리케이션입니다. LoRA Land는 단일 범용 LLM 대신 여러 특화된 LLM을 사용하는 것이 품질과 비용 효율성 측면에서 우수함을 보여줍니다.
GPT-4 및 ChatGPT와 같은 챗봇은 현재 수백만 명의 사용자에게 서비스를 제공하고 있습니다. 그러나 이러한 도구들이 실제로 사용자들에 의해 어떻게 활용되는지를 보여주는 공개 데이터셋은 여전히 부족한 상황입니다. 이러한 격차를 해소하기 위해, 우리는 온라인 사용자들에게 ChatGPT의 무료 접근권을 제공하는 대가로, 그들의 동의 하에 익명으로 채팅 기록과 요청 헤더를 수집했습니다. 이를 통해 우리는 100만 건의 사용자-ChatGPT 대화로 구성된 WildChat 코퍼스를 구축했으며, 이는 250만 건 이상의 상호작용 턴을 포함하고 있습니다. 우리는 WildChat을 다른 인기 있는 사용자-챗봇 상호작용 데이터셋과 비교했을 때, 우리의 데이터셋이 가장 다양한 사용자 프롬프트를 제공하며, 가장 많은 언어를 포함하고 있고, 연구자들이 연구할 수 있는 잠재적으로 유해한 사용 사례의 가장 풍부한 다양성을 보여준다는 사실을 발견했습니다. 타임스탬프가 기록된 채팅 기록 외에도, 우리는 데이터셋을 국가, 주, 해시된 IP 주소와 같은 인구통계학적 데이터와 요청 헤더로 보강했습니다. 이러한 보강은 다양한 지리적 지역과 시간적 차원에 걸친 사용자 행동을 더 상세히 분석할 수 있게 해줍니다. 마지막으로, 이 데이터셋은 광범위한 사용 사례를 포착하고 있기 때문에, 우리는 이 데이터셋이 지시 따르기 모델을 미세 조정하는 데 있어 잠재적인 유용성을 보여줍니다. WildChat은 AI2 ImpACT 라이선스 하에 https://wildchat.allen.ai에서 공개되었습니다.
최근의 확산 기반 생성 모델에서는, 특히 주제와 복잡한 디테일을 포함한 일련의 생성 이미지들 간의 일관된 콘텐츠를 유지하는 것이 중요한 과제로 대두되고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 '일관된 자기 주의(Consistent Self-Attention)'라는 새로운 자기 주의 계산 방식을 제안합니다. 이 방법은 생성된 이미지들 간의 일관성을 크게 향상시키며, 널리 사용되는 사전 학습된 확산 기반 텍스트-이미지 모델을 제로샷 방식으로 보강합니다. 또한, 우리의 방법을 장범위 비디오 생성으로 확장하기 위해 '의미 공간 시간적 모션 예측 모듈(Semantic Motion Predictor)'이라는 새로운 모듈을 도입했습니다. 이 모듈은 두 제공된 이미지 간의 모션 조건을 의미 공간에서 추정하도록 학습되며, 생성된 이미지 시퀀스를 부드러운 전환과 일관된 주제를 가진 비디오로 변환합니다. 특히 장편 비디오 생성에서, 이 모듈은 잠재 공간만을 기반으로 한 모듈보다 훨씬 더 안정적인 결과를 제공합니다. 이 두 가지 새로운 구성 요소를 결합함으로써, 우리의 프레임워크인 'StoryDiffusion'은 텍스트 기반 스토리를 다양한 콘텐츠를 포함한 일관된 이미지나 비디오로 표현할 수 있습니다. 제안된 StoryDiffusion은 이미지와 비디오를 통한 시각적 스토리 생성 분야에서 선구적인 탐구를 포함하고 있으며, 이를 통해 아키텍처 수정 측면에서 더 많은 연구가 촉진되기를 기대합니다. 우리의 코드는 https://github.com/HVision-NKU/StoryDiffusion에서 공개되어 있습니다.
대규모 언어 모델(LLM)을 인간의 가치와 선호도에 맞추는 것은 이를 유용하고 안전하게 만드는 데 필수적입니다. 그러나 특히 수백억 또는 수천억 개의 파라미터를 포함하는 가장 크고 강력한 LLM의 경우, 이를 정렬하기 위한 효율적인 도구를 구축하는 것은 어려운 과제입니다. 우리는 수백 개의 GPU를 사용하여 효율적으로 확장 가능한 모델 정렬 툴킷인 NeMo-Aligner를 개발했습니다. NeMo-Aligner는 인간 피드백을 통한 강화 학습(RLHF), 직접 선호 최적화(DPO), SteerLM, 자기 주도 미세 조정(SPIN)과 같은 주요 모델 정렬 패러다임을 위한 고도로 최적화되고 확장 가능한 구현을 제공합니다. 또한, 이 툴킷은 대부분의 정렬 기술을 파라미터 효율적 미세 조정(PEFT) 설정에서 실행할 수 있도록 지원합니다. NeMo-Aligner는 확장성을 고려하여 설계되었으며, 최소한의 노력으로 다른 정렬 기술을 지원할 수 있습니다. 이 툴킷은 Apache 2.0 라이선스로 오픈소스화되었으며, https://github.com/NVIDIA/NeMo-Aligner에서 커뮤니티 기여를 환영합니다.
정렬(Alignment)은 사전 학습된 대규모 언어 모델(LLM)을 미세 조정하여 자연어 명령을 따르고 유용한 AI 어시스턴트 역할을 하도록 만드는 표준 절차입니다. 그러나 우리는 기존의 정렬 과정이 LLM의 사실적 정확성을 향상시키지 못하고, 오히려 더 많은 허위 사실(즉, 환각)을 생성하게 만드는 경우를 관찰했습니다. 본 논문에서는 정렬 과정을 더 사실적으로 만드는 방법을 연구하며, 특히 지도 미세 조정(SFT)과 강화 학습(RL) 두 단계에서 환각을 유발하는 요인을 식별합니다. 구체적으로, LLM이 새로운 지식이나 익숙하지 않은 텍스트를 학습할 때 환각이 촉진될 수 있음을 발견했습니다. 이는 LLM에게 새로운 인간 레이블 데이터를 학습시키는 SFT가 사실성을 떨어뜨리는 원인이 됩니다. 또한, 표준 RL에서 사용되는 보상 함수도 환각을 유발할 수 있는데, 이는 다양한 명령에 대해 더 유용하고 길고 상세한 응답을 선호하도록 LLM을 유도하기 때문입니다. 이러한 관찰을 바탕으로, 우리는 사실성 인식 정렬을 제안합니다. 이는 사실성 인식 SFT와 직접 선호 최적화를 통한 사실성 인식 RL로 구성됩니다. 실험 결과, 우리가 제안한 사실성 인식 정렬은 LLM이 명령을 따르는 능력을 유지하면서도 더 사실적인 응답을 출력하도록 유도하는 것으로 나타났습니다.
예술 재해석은 참조 작품의 변형을 만들어, 독특한 예술적 스타일을 보여주는 짝을 이루는 작품을 만드는 실천입니다. 우리는 이러한 이미지 쌍이 생성 모델을 맞춤화하여 보여준 스타일적 차이를 포착하는 데 사용될 수 있는지 질문합니다. 우리는 단일 이미지 쌍에서 스타일적 차이를 학습한 후 획득한 스타일을 생성 과정에 적용하는 새로운 맞춤화 방법인 'Pair Customization'을 제안합니다. 기존의 방법들이 이미지 컬렉션에서 단일 개념을 모방하는 데 초점을 맞추는 반면, 우리의 방법은 짝을 이루는 이미지 간의 스타일적 차이를 포착합니다. 이를 통해 예시 이미지의 특정 콘텐츠에 과적합되지 않으면서 스타일적 변화를 적용할 수 있습니다. 이 새로운 작업을 해결하기 위해, 우리는 스타일과 콘텐츠를 별도의 LoRA 가중치 공간으로 명시적으로 분리하는 공동 최적화 방법을 사용합니다. 우리는 이러한 스타일과 콘텐츠 가중치를 최적화하여 스타일과 콘텐츠 이미지를 재현하면서, 이들의 직교성을 촉진합니다. 추론 과정에서, 우리는 학습된 가중치를 기반으로 한 새로운 스타일 가이던스를 통해 확산 과정을 수정합니다. 정성적 및 정량적 실험 모두에서 우리의 방법이 이미지 콘텐츠에 과적합되지 않으면서 스타일을 효과적으로 학습할 수 있음을 보여주며, 단일 이미지 쌍에서 이러한 스타일적 차이를 모델링하는 잠재력을 강조합니다.
오디오 설명(Audio Description, AD)의 발전은 비디오 콘텐츠를 보다 접근 가능하고 포용적으로 만드는 데 있어 중요한 진전을 이루었습니다. 전통적으로 AD 제작은 상당한 수준의 숙련된 노동력을 요구해 왔으며, 기존의 자동화된 접근 방식 역시 멀티모달 입력을 통합하고 캡션 스타일에서 AD 스타일로 출력을 맞추기 위해 광범위한 학습이 필요했습니다. 본 논문에서는 GPT-4V(ision)의 강력한 멀티모달 및 명령 수행 능력을 활용한 자동화된 AD 생성 파이프라인을 소개합니다. 특히, 우리의 방법론은 추가적인 학습 없이도 사용 가능한 구성 요소를 활용하며, 이는 기존의 자연어 AD 제작 표준을 준수할 뿐만 아니라 추적 기반 캐릭터 인식 모듈을 통해 프레임 간에 맥락적으로 일관된 캐릭터 정보를 유지합니다. MAD 데이터셋에 대한 철저한 분석 결과, 우리의 접근 방식은 CIDEr 점수 20.5로 입증된 바와 같이 자동화된 AD 제작에서 학습 기반 방법과 동등한 성능을 달성함을 보여줍니다.