번역이 포함된 일일 선별된 AI 연구 논문
GPT-4와 같은 독점적인 언어 모델(LM)은 종종 다양한 LM의 응답 품질을 평가하는 데 사용됩니다. 그러나 투명성, 제어 가능성, 비용 효율성과 같은 문제들은 평가에 특화된 오픈소스 LM 개발을 강력히 촉구하고 있습니다. 반면, 기존의 오픈소스 평가자 LM들은 중요한 단점을 보입니다: 1) 인간이 부여한 점수와 크게 벗어나는 점수를 발행하며, 2) 가장 일반적인 평가 형태인 직접 평가와 쌍별 순위 지정을 모두 수행할 수 있는 유연성이 부족합니다. 또한, 도움의 정도나 유해성과 같은 일반적인 속성에 초점을 맞추고 있어, 사용자 정의 평가 기준에 기반한 평가 능력이 없습니다. 이러한 문제를 해결하기 위해, 우리는 이전 버전보다 더 강력한 평가자 LM인 Prometheus 2를 소개합니다. 이 모델은 인간과 GPT-4의 판단을 밀접하게 반영하며, 사용자 정의 평가 기준과 함께 직접 평가 및 쌍별 순위 지정 형식을 모두 처리할 수 있습니다. 네 개의 직접 평가 벤치마크와 네 개의 쌍별 순위 지정 벤치마크에서, Prometheus 2는 테스트된 모든 오픈소스 평가자 LM 중에서 인간과 독점 LM 평가자와의 가장 높은 상관관계와 일치도를 보였습니다. 우리의 모델, 코드, 데이터는 모두 https://github.com/prometheus-eval/prometheus-eval에서 공개되어 있습니다.
Low Rank Adaptation (LoRA)은 대규모 언어 모델(LLM)의 파라미터 효율적 미세 조정(Parameter Efficient Fine-Tuning, PEFT)을 위한 가장 널리 채택된 방법 중 하나로 부상했습니다. LoRA는 학습 가능한 파라미터 수와 메모리 사용량을 줄이면서도 전체 미세 조정과 비슷한 성능을 달성합니다. 우리는 LoRA로 미세 조정된 LLM을 실제 애플리케이션에서 학습 및 서비스하는 것이 가능한지 평가하고자 합니다. 먼저, 10개의 기본 모델과 31개의 작업에 대해 양자화된 저랭크 어댑터로 미세 조정된 LLM의 품질을 측정하여 총 310개의 모델을 분석했습니다. 그 결과, 4비트 LoRA로 미세 조정된 모델은 기본 모델보다 평균 34점, GPT-4보다 10점 더 높은 성능을 보였습니다. 둘째, 미세 조정에 가장 효과적인 기본 모델을 조사하고, 작업 복잡성 휴리스틱이 미세 조정 결과를 예측하는 데 있어 상관적 및 예측적 능력을 평가했습니다. 마지막으로, LoRAX의 지연 시간과 동시 처리 능력을 평가했습니다. LoRAX는 공유된 기본 모델 가중치와 동적 어댑터 로딩을 사용하여 단일 GPU에서 여러 LoRA 미세 조정 모델을 배포할 수 있는 오픈소스 Multi-LoRA 추론 서버입니다. LoRAX는 LoRA Land를 구동하는데, LoRA Land는 단일 NVIDIA A100 GPU(80GB 메모리)에서 25개의 LoRA 미세 조정된 Mistral-7B LLM을 호스팅하는 웹 애플리케이션입니다. LoRA Land는 단일 범용 LLM 대신 여러 특화된 LLM을 사용하는 것이 품질과 비용 효율성 측면에서 우수함을 보여줍니다.
최근의 확산 기반 생성 모델에서는, 특히 주제와 복잡한 디테일을 포함한 일련의 생성 이미지들 간의 일관된 콘텐츠를 유지하는 것이 중요한 과제로 대두되고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 '일관된 자기 주의(Consistent Self-Attention)'라는 새로운 자기 주의 계산 방식을 제안합니다. 이 방법은 생성된 이미지들 간의 일관성을 크게 향상시키며, 널리 사용되는 사전 학습된 확산 기반 텍스트-이미지 모델을 제로샷 방식으로 보강합니다. 또한, 우리의 방법을 장범위 비디오 생성으로 확장하기 위해 '의미 공간 시간적 모션 예측 모듈(Semantic Motion Predictor)'이라는 새로운 모듈을 도입했습니다. 이 모듈은 두 제공된 이미지 간의 모션 조건을 의미 공간에서 추정하도록 학습되며, 생성된 이미지 시퀀스를 부드러운 전환과 일관된 주제를 가진 비디오로 변환합니다. 특히 장편 비디오 생성에서, 이 모듈은 잠재 공간만을 기반으로 한 모듈보다 훨씬 더 안정적인 결과를 제공합니다. 이 두 가지 새로운 구성 요소를 결합함으로써, 우리의 프레임워크인 'StoryDiffusion'은 텍스트 기반 스토리를 다양한 콘텐츠를 포함한 일관된 이미지나 비디오로 표현할 수 있습니다. 제안된 StoryDiffusion은 이미지와 비디오를 통한 시각적 스토리 생성 분야에서 선구적인 탐구를 포함하고 있으며, 이를 통해 아키텍처 수정 측면에서 더 많은 연구가 촉진되기를 기대합니다. 우리의 코드는 https://github.com/HVision-NKU/StoryDiffusion에서 공개되어 있습니다.
예술 재해석은 참조 작품의 변형을 만들어, 독특한 예술적 스타일을 보여주는 짝을 이루는 작품을 만드는 실천입니다. 우리는 이러한 이미지 쌍이 생성 모델을 맞춤화하여 보여준 스타일적 차이를 포착하는 데 사용될 수 있는지 질문합니다. 우리는 단일 이미지 쌍에서 스타일적 차이를 학습한 후 획득한 스타일을 생성 과정에 적용하는 새로운 맞춤화 방법인 'Pair Customization'을 제안합니다. 기존의 방법들이 이미지 컬렉션에서 단일 개념을 모방하는 데 초점을 맞추는 반면, 우리의 방법은 짝을 이루는 이미지 간의 스타일적 차이를 포착합니다. 이를 통해 예시 이미지의 특정 콘텐츠에 과적합되지 않으면서 스타일적 변화를 적용할 수 있습니다. 이 새로운 작업을 해결하기 위해, 우리는 스타일과 콘텐츠를 별도의 LoRA 가중치 공간으로 명시적으로 분리하는 공동 최적화 방법을 사용합니다. 우리는 이러한 스타일과 콘텐츠 가중치를 최적화하여 스타일과 콘텐츠 이미지를 재현하면서, 이들의 직교성을 촉진합니다. 추론 과정에서, 우리는 학습된 가중치를 기반으로 한 새로운 스타일 가이던스를 통해 확산 과정을 수정합니다. 정성적 및 정량적 실험 모두에서 우리의 방법이 이미지 콘텐츠에 과적합되지 않으면서 스타일을 효과적으로 학습할 수 있음을 보여주며, 단일 이미지 쌍에서 이러한 스타일적 차이를 모델링하는 잠재력을 강조합니다.
오디오 설명(Audio Description, AD)의 발전은 비디오 콘텐츠를 보다 접근 가능하고 포용적으로 만드는 데 있어 중요한 진전을 이루었습니다. 전통적으로 AD 제작은 상당한 수준의 숙련된 노동력을 요구해 왔으며, 기존의 자동화된 접근 방식 역시 멀티모달 입력을 통합하고 캡션 스타일에서 AD 스타일로 출력을 맞추기 위해 광범위한 학습이 필요했습니다. 본 논문에서는 GPT-4V(ision)의 강력한 멀티모달 및 명령 수행 능력을 활용한 자동화된 AD 생성 파이프라인을 소개합니다. 특히, 우리의 방법론은 추가적인 학습 없이도 사용 가능한 구성 요소를 활용하며, 이는 기존의 자연어 AD 제작 표준을 준수할 뿐만 아니라 추적 기반 캐릭터 인식 모듈을 통해 프레임 간에 맥락적으로 일관된 캐릭터 정보를 유지합니다. MAD 데이터셋에 대한 철저한 분석 결과, 우리의 접근 방식은 CIDEr 점수 20.5로 입증된 바와 같이 자동화된 AD 제작에서 학습 기반 방법과 동등한 성능을 달성함을 보여줍니다.