번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)은 긴 맥락을 처리하는 데 상당한 진전을 이루었지만 여전히 긴 맥락 추론에 어려움을 겪고 있습니다. 기존 접근 방식은 일반적으로 인간 전문가의 주석이나 GPT-4와 같은 고급 모델에 의존하는 합성 데이터로 LLMs를 세밀하게 조정하는 것을 포함하며, 이는 추가 발전을 제한합니다. 이 문제를 해결하기 위해 우리는 LLMs가 자체적으로 긴 맥락 추론을 개선할 잠재력을 조사하고 이 목적으로 특별히 설계된 \ours를 제안합니다. 이 방법은 간단합니다. 각 질문에 대해 여러 출력을 샘플링하고, 이들을 최소 베이즈 위험으로 점수를 매기고, 그런 다음 이러한 출력을 기반으로 감독된 세밀 조정 또는 선호도 최적화를 적용합니다. 여러 주요 LLMs에 대한 광범위한 실험은 Llama-3.1-8B-Instruct의 4.2 점의 절대적인 향상을 보여주며, \ours의 효과를 입증합니다. 더 나아가, \ours는 인간 전문가나 고급 모델이 생성한 데이터에 의존하는 이전 접근 방식과 비교하여 우수한 성능을 달성합니다. 이 연구가 LLMs의 지속적인 발전에 중요한 긴 맥락 시나리오에서의 자체 개선 기술에 대한 새로운 길을 열 것으로 기대합니다.
비디오 생성은 시각적 데이터를 활용하여 실제 환경을 복제하는 유망한 도구로 부상했다. 이 맥락에서 인간 시각을 중심으로 한 자아중심 비디오 생성은 가상 현실, 증강 현실 및 게임 분야의 응용 프로그램을 향상시키는 데 상당한 잠재력을 가지고 있다. 그러나 자아중심 비디오 생성은 자아중심 시점의 동적 성격, 복잡한 다양한 행동 및 다양한 장면에 따른 상당한 어려움을 겪고 있다. 기존 데이터셋은 이러한 문제를 효과적으로 해결하기에는 부족하다. 이 간극을 메우기 위해 우리는 자아중심 비디오 생성을 위해 특별히 선별된 첫 번째 고품질 데이터셋인 EgoVid-5M을 제시한다. EgoVid-5M은 500만 개의 자아중심 비디오 클립을 포함하며, 세밀한 운동 제어와 고수준의 텍스트 설명을 포함한 상세한 행동 주석으로 보강되어 있다. 데이터셋의 무결성과 사용 가능성을 보장하기 위해 자아중심 조건 하에서 프레임 일관성, 행동 일관성 및 움직임 부드러움을 유지하기 위해 설계된 정교한 데이터 정리 파이프라인을 구현했다. 더불어, 우리는 행동 설명과 운동 제어 신호에 의해 동시에 주도되는 자아중심 비디오를 생성할 수 있는 EgoDreamer를 소개한다. EgoVid-5M 데이터셋, 관련 행동 주석 및 모든 데이터 정리 메타데이터는 자아중심 비디오 생성 연구의 발전을 위해 공개될 것이다.
대형 언어 모델 (LLM)을 인간의 선호와 조정하는 것은 여전히 주요 도전 과제입니다. 강화 학습을 통한 인간 피드백 (RLHF) 및 직접 선호 최적화 (DPO)와 같은 사후 훈련 기술은 주목할만한 성과를 거두었지만, 종종 계산 효율성과 훈련 불안정성을 도입합니다. 본 논문에서는 안정성을 보장하면서 정련 과정을 간소화하기 위해 고안된 새로운 방법인 Feature-level constrained Preference Optimization (FPO)을 제안합니다. FPO는 사전 훈련된 희소 오토인코더 (SAE)를 활용하고 특징 수준 제약 조건을 도입하여 효율적이고 희소성이 강제된 조정을 가능하게 합니다. 우리의 방법은 훈련이 잘 된 희소 오토인코더에서 활성화된 희소 특징을 사용함으로써 효율성을 누리며, 특징 수준 오프라인 참조를 사용하여 순차적 KL 발산의 품질을 활용합니다. 벤치마크 데이터셋에서의 실험 결과는 FPO가 최첨단 기준선과 비교하여 훨씬 낮은 계산 비용으로 승률에서 5.08%의 절대적인 향상을 달성함을 보여주며, 효율적이고 제어 가능한 LLM 조정을 위한 유망한 솔루션이 됨을 입증합니다.
프랑스어 언어 모델인 CamemBERT와 같은 모델들이 자연어 처리(NLP) 작업을 위해 산업 전반에서 널리 채택되었으며, CamemBERT와 같은 모델은 매월 400만 회 이상 다운로드되고 있습니다. 그러나 이러한 모델들은 시간적 개념 변화로 인한 도전에 직면하고 있습니다. 구식의 훈련 데이터로 인해 성능이 저하되는데, 특히 새로운 주제와 용어를 다룰 때 이러한 문제가 더 두드러집니다. 이 문제는 현재의 언어적 트렌드를 반영하는 업데이트된 모델이 필요함을 강조합니다. 본 논문에서는 이러한 도전에 대응하기 위해 개발된 CamemBERT 기본 모델의 두 가지 새로운 버전인 CamemBERTav2와 CamemBERTv2를 소개합니다. CamemBERTav2는 DeBERTaV3 아키텍처를 기반으로 하며, 더 나은 문맥 이해를 위해 Replaced Token Detection (RTD) 목적을 활용합니다. 반면 CamemBERTv2는 RoBERTa를 기반으로 하며, Masked Language Modeling (MLM) 목적을 사용합니다. 두 모델은 프랑스어의 토큰화 성능을 향상시키는 업데이트된 토크나이저와 함께 훨씬 더 크고 최근의 데이터셋에서 훈련되었습니다. 이러한 모델들의 성능을 일반적인 NLP 작업 및 의료 분야 작업과 같은 도메인 특정 응용 프로그램에서 평가하여, 다양한 사용 사례에 걸쳐 그들의 다재다능성과 효과를 입증합니다. 결과는 이러한 업데이트된 모델들이 이전 모델들을 크게 능가함을 보여주며, 현대적인 NLP 시스템에 유용한 도구로 만들어줍니다. 우리의 모든 새로운 모델과 중간 체크포인트는 Huggingface에서 공개적으로 제공됩니다.
스티어링 벡터는 대규모 언어 모델의 행동을 제어하는 유망한 접근 방식이다. 그러나 그들의 기저 메커니즘은 여전히 잘 이해되지 않고 있다. 희소 오토인코더(SAEs)는 스티어링 벡터를 해석하는 잠재적인 방법을 제공할 수 있지만, 최근 연구 결과에 따르면 SAE로 재구성된 벡터는 종종 원래 벡터의 스티어링 특성이 부족한 것으로 나타났다. 본 논문은 SAE를 스티어링 벡터에 직접 적용하는 것이 잘못된 분해를 초래하는 이유를 조사하며, (1) 스티어링 벡터가 SAE가 설계된 입력 분포를 벗어나 있고, (2) 스티어링 벡터가 특징 방향에서 의미 있는 음의 투영을 가질 수 있는데, 이는 SAE가 수용하도록 설계되지 않았다는 것을 확인하였다. 이러한 제한 사항은 SAE를 스티어링 벡터를 해석하는 데 직접적으로 사용하는 것을 방해한다.
음악 생성은 특히 오디오 생성 분야에서 크게 발전해 왔습니다. 그러나 긴 구조를 갖고 있으면서도 표현력이 풍부한 상징적 음악을 생성하는 것은 여전히 중요한 과제입니다. 본 논문에서는 이 문제를 해결하기 위해 효과적인 분할과 다중 규모 주의 메커니즘을 활용한 혁신적인 아키텍처인 PerceiverS (Segmentation and Scale)를 제안합니다. 우리의 접근 방식은 장기 구조 의존성과 단기 표현적 세부 사항을 동시에 학습함으로써 상징적 음악 생성을 향상시킵니다. 다중 규모 설정에서 교차 주의와 자기 주의를 결합함으로써 PerceiverS는 장거리 음악 구조를 포착하면서 연주 세부 사항을 보존합니다. Maestro와 같은 데이터셋에서 평가된 제안된 모델은 일관된 다양한 음악을 생성하는 데 구조적 일관성과 표현적 변화를 모두 갖추고 있음을 입증합니다. 프로젝트 데모 및 생성된 음악 샘플은 다음 링크를 통해 액세스할 수 있습니다: https://perceivers.github.io.
기존의 텍스트 대 비디오 (T2V) 모델은 종종 충분히 강조된 또는 복잡한 동작을 생성하는 데 어려움을 겪습니다. 주요 제한 사항은 복잡한 동작 세부 정보를 정확하게 전달하지 못하는 텍스트 프롬프트의 능력 부재에 있습니다. 이를 해결하기 위해 우리는 MVideo라는 혁신적인 프레임워크를 제안합니다. 이 프레임워크는 정확하고 순조로운 동작을 생성하기 위해 설계되었습니다. MVideo는 추가적인 모션 조건 입력으로 마스크 시퀀스를 통합함으로써 텍스트 프롬프트의 제한 사항을 극복하며 의도된 동작을 더 명확하고 정확하게 나타냅니다. GroundingDINO와 SAM2와 같은 기본 비전 모델을 활용하여, MVideo는 마스크 시퀀스를 자동으로 생성하여 효율성과 견고성을 향상시킵니다. 우리의 결과는 훈련 후 MVideo가 텍스트 프롬프트를 모션 조건과 효과적으로 일치시켜 두 가지 기준을 동시에 충족하는 비디오를 생성한다는 것을 입증합니다. 이 이중 제어 메커니즘은 텍스트 프롬프트 또는 모션 조건을 독립적으로 수정하거나 둘 다 동시에 수정함으로써 보다 동적인 비디오 생성을 가능하게 합니다. 더불어, MVideo는 모션 조건 편집 및 구성을 지원하여 더 복잡한 동작을 갖는 비디오를 생성하는 데 도움이 됩니다. 따라서 MVideo는 T2V 모션 생성을 발전시키며, 현재의 비디오 확산 모델에서 향상된 동작 묘사를 위한 강력한 기준을 제시합니다. 우리의 프로젝트 페이지는 https://mvideo-v1.github.io/에서 확인할 수 있습니다.