번역이 포함된 일일 선별된 AI 연구 논문
회전 위치 임베딩(RoPE)은 트랜스포머 기반 언어 모델에서 위치 정보를 효과적으로 인코딩하는 것으로 입증되었습니다. 그러나 이러한 모델들은 학습된 시퀀스 길이를 넘어서는 일반화에 실패합니다. 본 논문에서는 YaRN(Yet another RoPE extensioN method)을 제안합니다. 이는 기존 방법보다 10배 적은 토큰과 2.5배 적은 학습 단계로 이러한 모델들의 컨텍스트 윈도우를 확장하는 계산 효율적인 방법입니다. YaRN을 사용하여 LLaMA 모델이 원래 사전 학습에서 허용되는 것보다 훨씬 긴 컨텍스트 길이를 효과적으로 활용하고 외삽할 수 있으며, 컨텍스트 윈도우 확장에서 이전의 최신 기술을 능가함을 보여줍니다. 또한, YaRN이 파인튜닝 데이터셋의 제한된 컨텍스트를 넘어서는 외삽 능력을 보여줌을 입증합니다. 64k 및 128k 컨텍스트 윈도우로 YaRN을 사용하여 파인튜닝된 Llama 2 7B/13B의 체크포인트를 https://github.com/jquesnelle/yarn에서 공개합니다.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 효과적이지만, 고품질의 인간 선호도 레이블을 수집하는 것이 주요 병목 현상으로 작용합니다. 본 연구에서는 RLHF와 AI 피드백을 통한 강화 학습(RLAIF)을 직접 비교했습니다. RLAIF는 인간 대신 기성 LLM이 선호도를 레이블링하는 기술로, 두 방법이 유사한 개선 효과를 보이는 것을 확인했습니다. 요약 작업에서 인간 평가자들은 RLAIF와 RLHF로 생성된 결과를 기준이 되는 지도 학습 미세 조정 모델보다 약 70%의 경우에서 선호했습니다. 또한, RLAIF와 RLHF 요약을 평가할 때 인간 평가자들은 두 방법을 동등한 비율로 선호했습니다. 이러한 결과는 RLAIF가 인간 수준의 성능을 달성할 수 있음을 시사하며, RLHF의 확장성 한계에 대한 잠재적 해결책을 제시합니다.
본 논문에서는 참조 기반 잠재 확산(reference-guided latent diffusion)을 사용하여 높은 프레임 충실도와 강한 시간적 일관성을 갖춘 고화질 비디오를 생성할 수 있는 텍스트-비디오 생성 접근법인 VideoGen을 제안합니다. 우리는 Stable Diffusion과 같은 기성 텍스트-이미지 생성 모델을 활용하여 텍스트 프롬프트로부터 높은 콘텐츠 품질의 이미지를 생성하고, 이를 비디오 생성을 위한 참조 이미지로 사용합니다. 그런 다음, 참조 이미지와 텍스트 프롬프트를 조건으로 하는 효율적인 캐스케이드 잠재 확산 모듈을 도입하여 잠재 비디오 표현을 생성하고, 시간적 해상도를 개선하기 위해 흐름 기반 시간적 업샘플링 단계를 수행합니다. 마지막으로, 향상된 비디오 디코더를 통해 잠재 비디오 표현을 고화질 비디오로 매핑합니다. 학습 과정에서는 캐스케이드 잠재 확산 모듈을 학습하기 위해 실제 비디오의 첫 번째 프레임을 참조 이미지로 사용합니다. 우리 접근법의 주요 특징은 다음과 같습니다: 텍스트-이미지 모델에 의해 생성된 참조 이미지는 시각적 충실도를 향상시키고, 이를 조건으로 사용함으로써 확산 모델이 비디오 역학을 학습하는 데 더 집중할 수 있으며, 비디오 디코더는 레이블이 없는 비디오 데이터를 통해 학습되어 고품질의 쉽게 구할 수 있는 비디오로부터 이점을 얻습니다. VideoGen은 정성적 및 정량적 평가 모두에서 텍스트-비디오 생성 분야의 새로운 최첨단 기술을 제시합니다.
샤넌은 정보 이론을 소개한 그의 획기적인 논문에서 커뮤니케이션을 세 가지 수준으로 나누었습니다: 기술적, 의미론적, 그리고 효과성. 기술적 수준은 전송된 기호의 정확한 재구성에 관심을 두는 반면, 의미론적 및 효과성 수준은 추론된 의미와 그것이 수신자에게 미치는 영향을 다룹니다. 통신 기술 덕분에 첫 번째 수준의 문제는 인터넷과 같은 큰 발전을 이루었습니다. 대형 언어 모델(LLM)은 두 번째 목표에 대해 어느 정도 진전을 이루었지만, 세 번째 수준은 여전히 크게 미개발 상태로 남아 있습니다. 세 번째 문제는 원하는 수신자 행동을 예측하고 이를 위해 커뮤니케이션을 최적화하는 것을 다룹니다. LLM은 다양한 작업에서 광범위한 일반화 능력을 보여주지만, 이를 해결할 수 없습니다. 이러한 성능 저하의 한 가지 이유는 LLM의 훈련 코퍼스에 "행동 토큰"이 부족하기 때문일 수 있습니다. 행동 토큰은 공유, 좋아요, 클릭, 구매, 리트윗 등과 같은 커뮤니케이션 과정에서의 수신자 행동을 정의합니다. LLM 훈련을 위해 데이터를 전처리할 때, 행동 토큰은 종종 노이즈로 간주되어 코퍼스에서 제거됩니다. 따라서 본 논문에서는 LLM 훈련에 행동 토큰을 재도입하는 데 있어 초기 진전을 이루었습니다. 훈련된 모델은 콘텐츠 이해 작업에서 LLM과 유사한 성능을 보이는 것 외에도, 행동 시뮬레이션, 콘텐츠 시뮬레이션, 행동 이해, 그리고 행동 도메인 적응에서 일반화 능력을 보여줍니다. 두 개의 코퍼스에 대한 다양한 작업을 사용하여 이러한 모든 능력에 대한 결과를 보여줍니다. 우리는 이러한 모델을 대형 콘텐츠 및 행동 모델(LCBM)이라고 부릅니다. 또한, LCBM에 대한 더 많은 연구를 촉진하기 위해, 우리는 새로운 콘텐츠 행동 코퍼스(CBC)를 공개합니다. 이 저장소는 커뮤니케이터, 메시지, 그리고 해당하는 수신자 행동을 포함하고 있습니다.
컴퓨터 비전 모델은 성별 및 피부톤과 같은 속성에 따라 성능 차이가 존재하는 것으로 알려져 있습니다. 이는 분류 및 탐지와 같은 작업을 수행할 때, 이미지 속 사람들의 인구통계학적 특성에 따라 특정 클래스에 대한 모델 성능이 달라짐을 의미합니다. 이러한 차이가 존재한다는 사실은 이미 입증되었지만, 지금까지 컴퓨터 비전 모델의 일반적인 사용 사례에서 이러한 차이를 측정하기 위한 통합된 접근 방식은 없었습니다. 우리는 FACET(FAirness in Computer Vision EvaluaTion)이라는 새로운 벤치마크를 제안합니다. FACET은 이미지 분류, 객체 탐지, 세그멘테이션과 같은 가장 일반적인 비전 작업을 위한 32,000개의 이미지로 구성된 대규모 공개 평가 데이터셋입니다. FACET의 모든 이미지에 대해, 우리는 전문 검토자를 고용하여 인지된 피부톤 및 머리카락 유형과 같은 사람 관련 속성을 수동으로 주석 처리하고, 바운딩 박스를 수동으로 그리며, 디스크 자키나 기타리스트와 같은 세분화된 사람 관련 클래스를 라벨링했습니다. 또한, 우리는 FACET을 사용하여 최첨단 비전 모델을 벤치마킹하고, 민감한 인구통계학적 속성에 걸친 잠재적 성능 차이와 도전 과제에 대한 깊은 이해를 제시합니다. 수집된 포괄적인 주석을 사용하여, 우리는 단일 인구통계학적 속성뿐만 아니라 교차적 접근 방식(예: 머리카락 색상과 인지된 피부톤)을 사용하여 모델을 탐구합니다. 우리의 결과는 분류, 탐지, 세그멘테이션 및 시각적 그라운딩 모델이 인구통계학적 속성과 속성의 교차에 걸쳐 성능 차이를 보인다는 것을 보여줍니다. 이러한 문제는 데이터셋에 포함된 모든 사람들이 이러한 비전 작업에서 공정하고 형평성 있는 처리를 받지 못함을 시사합니다. 우리는 우리의 벤치마크를 사용한 현재 및 미래의 결과가 더 공정하고 견고한 비전 모델에 기여하기를 바랍니다. FACET은 https://facet.metademolab.com/에서 공개적으로 이용 가능합니다.