번역이 포함된 일일 선별된 AI 연구 논문
비전-언어 모델(VLMs)은 다중 모달 작업에서 뛰어나지만 개방형 환경에서 실체 결정을 하는 데 적응하는 것은 도전적입니다. 핵심 문제는 저수준 관찰에서 개별 개체를 계획에 필요한 추상적인 개념과 부드럽게 연결하는 어려움입니다. 이 문제를 해결하기 위한 일반적인 접근 방식은 계층적 에이전트를 사용하는 것인데, 여기서 VLMs는 고수준 추론자로 작용하여 작업을 실행 가능한 하위 작업으로 분해하며 일반적으로 언어와 상상된 관찰을 사용하여 명시합니다. 그러나 언어는 종종 공간 정보를 효과적으로 전달하지 못하며 미래 이미지를 충분히 정확하게 생성하는 것은 여전히 어려운 문제입니다. 이러한 제한을 해결하기 위해 우리는 비전-시간적 컨텍스트 프롬프팅을 제안합니다. 이는 VLMs와 정책 모델 간의 혁신적인 통신 프로토콜로, 과거 및 현재 관찰로부터의 객체 분할을 활용하여 정책-환경 상호작용을 안내합니다. 이 접근 방식을 사용하여 우리는 ROCKET-1을 훈련시킵니다. 이는 시각적 관찰과 분할 마스크를 연결하여 행동을 예측하는 저수준 정책으로, SAM-2가 제공하는 실시간 객체 추적을 사용합니다. 우리의 방법은 VLMs의 시각-언어 추론 능력의 전체 잠재력을 발휘하여 복잡한 창의적 작업을 해결할 수 있게 하며, 특히 공간 이해에 크게 의존하는 작업을 해결할 수 있습니다. Minecraft에서의 실험은 우리의 접근 방식이 에이전트가 이전에 달성할 수 없었던 작업을 수행하도록 허용하며, 실체 결정에서 시각-시간적 컨텍스트 프롬프팅의 효과를 강조합니다. 코드 및 데모는 프로젝트 페이지에서 제공됩니다: https://craftjarvis.github.io/ROCKET-1.
이산 토큰을 사용한 자기 회귀 트랜스포머 모델의 성공은 연속적인 모달리티에 대한 양자화 기반 접근법을 영감을 주었지만, 이러한 방법들은 종종 재구성 품질을 제한합니다. 따라서 우리는 연속적인 표현에서 작동하는 제로샷 텍스트-투-스피치를 위한 토큰 당 잠재 확산 모델인 SALAD를 소개합니다. SALAD는 최근 제안된 이미지 생성을 위한 표현력 있는 확산 헤드를 기반으로 구축되었으며, 가변 길이의 출력을 생성하기 위해 확장되었습니다. 우리의 방법은 문맥 정보를 제공하고 중지 조건을 결정하기 위해 의미 있는 토큰을 활용합니다. 우리는 우리의 방법을 위해 세 가지 연속적인 변형을 제안하며, 인기 있는 이산 음성 합성 기술을 확장합니다. 또한, 각 변형에 대해 이산적인 기준선을 구현하고 이산적 대 연속적 음성 모델링 기술에 대한 비교 분석을 수행합니다. 우리의 결과는 연속적 및 이산적 접근법이 모두 높은 경쟁력을 갖고 있으며, SALAD가 더 뛰어난 이해도 점수를 달성하면서 실제 오디오와 동일한 음성 품질 및 화자 유사성을 얻는 것을 보여줍니다.
심전도(전기 심전도, ECG)는 심장 질환을 평가하는 필수적인 비침습 진단 도구입니다. 기존의 자동 해석 방법은 한정된 일반화 능력을 가지며, 일반적으로 생리학적 신호에 의존하는데, 이는 자원이 제한된 환경에서는 인쇄된 또는 디지털 심전도 이미지만 접근 가능한 경우가 많아 이용하기 어려울 수 있습니다. 최근의 다중 모달 대형 언어 모델(MLLMs)의 발전은 이러한 도전에 대처할 유망한 기회를 제공합니다. 그러나 ECG 이미지 해석에 MLLMs를 적용하는 것은 지침 튜닝 데이터셋과 정량적 평가를 위한 잘 정립된 ECG 이미지 벤치마크의 부족으로 어려움이 있습니다. 이러한 도전에 대처하기 위해, 우리는 다양한 데이터 소스에서 다양한 ECG 관련 작업을 다루는 백만 개 이상의 샘플을 포함하는 포괄적인 ECG 이미지 지침 튜닝 데이터셋인 ECGInstruct를 소개합니다. ECGInstruct를 활용하여 우리는 ECG 이미지 이해를 위해 맞춤화된 MLLM인 PULSE를 개발합니다. 더불어, 아홉 가지 다른 데이터셋을 통해 네 가지 주요 ECG 이미지 해석 작업을 다루는 새로운 평가 벤치마크인 ECGBench를 선별합니다. 우리의 실험 결과, PULSE가 일반 MLLMs를 능가하여 평균 정확도 향상률이 15%에서 30%에 이르는 최신 기술 수준을 보여주었습니다. 이 연구는 PULSE가 임상 실무에서 ECG 해석을 향상시키는 잠재력을 강조합니다.
본 논문에서는 고품질 생성을 가속화하기 위해 설계된 훈련 불필요한 새로운 전략인 \textit{FasterCache}를 제안합니다. 기존 캐시 기반 방법을 분석한 결과, 인접 단계 특성을 직접 재사용하는 것이 세밀한 변화의 손실로 인해 비디오 품질을 저하시킨다는 것을 관찰했습니다. 또한, 분류기 없는 가이드 (CFG)의 가속 잠재력을 독창적으로 조사하고, 동일한 타임스텝 내 조건부 및 무조건적 특성 간의 중복성을 확인했습니다. 이러한 관찰을 활용하여, 우리는 FasterCache를 소개하여 확산 기반 비디오 생성을 상당히 가속화합니다. 주요 기여 사항으로는 특성 구별과 시간적 연속성을 보존하는 동적 특성 재사용 전략 및 비디오 품질을 저하시키지 않고 추론 속도를 더 향상시키기 위해 조건부 및 무조건적 출력의 재사용을 최적화하는 CFG-Cache가 포함됩니다. 우리는 최근 비디오 확산 모델에서 FasterCache를 실험적으로 평가했습니다. 실험 결과는 FasterCache가 비디오 생성을 상당히 가속화할 수 있음을 보여주며(Vchitect-2.0에서 1.67배 속도 향상), 비디오 품질을 기준선과 비교 가능한 수준으로 유지하면서 추론 속도와 비디오 품질 모두에서 기존 방법을 일관되게 능가한다는 것을 보여줍니다.
오디오를 이해하는 능력 - 이는 음성, 비음성 소리 및 음악을 포함합니다 -은 AI 에이전트가 세계와 효과적으로 상호 작용하기 위한 중요한 요소입니다. 우리는 전문 수준의 지식과 복잡한 추론을 필요로 하는 작업에 대해 다중 모달 오디오 이해 모델을 평가하기 위해 고안된 혁신적인 벤치마크인 MMAU를 제시합니다. MMAU는 음성, 환경 소리 및 음악을 포함한 자연어 질문과 답변이 페어링된 10,000개의 신중하게 선별된 오디오 클립으로 구성됩니다. 이는 정보 추출 및 추론 질문을 포함하며, 모델이 독특하고 도전적인 작업을 통해 27가지 다양한 기술을 시연하도록 요구합니다. 기존의 벤치마크와는 달리, MMAU는 도메인 특정 지식을 강조한 고급 지각과 추론을 강조하며, 전문가들이 직면하는 작업과 유사한 작업을 모델에게 도전하고 있습니다. 우리는 MMAU에 의해 제기된 중요한 도전 과제를 보여주기 위해 18개의 오픈 소스 및 프로프리테리 (대규모) 오디오-언어 모델을 평가했습니다. 특히, 가장 선진인 Gemini Pro v1.5조차도 52.97%의 정확도만 달성하며, 최첨단 오픈 소스인 Qwen2-Audio도 52.50%만 달성하여 상당한 향상의 여지를 강조하고 있습니다. 우리는 MMAU가 오디오 및 다중 모달 연구 커뮤니티를 이끌어 더 복잡한 오디오 작업을 해결할 수 있는 고급 오디오 이해 모델을 개발하도록 할 것이라 믿습니다.
비전-언어 모델(Vision-Language Models, VLMs)은 최근 상당한 진전을 이루었지만 오픈 소스 지시 데이터의 제한된 규모와 품질은 닫힌 소스 모델에 비해 성능을 제약합니다. 본 연구에서는 이 한계를 극복하기 위해 4천만 개의 샘플을 갖는 대규모 다중 모달 지시 데이터셋인 Infinity-MM을 소개하며 엄격한 품질 필터링과 중복 제거를 통해 향상시켰습니다. 또한 상세한 이미지 주석과 다양한 질문 생성을 활용한 오픈 소스 VLM을 기반으로 한 합성 지시 생성 방법을 제안합니다. 이 데이터를 사용하여 20억 개의 파라미터를 갖는 Aquila-VL-2B 모델을 훈련시켜 동일 규모의 모델들에 대한 최신 기술 성능을 달성했습니다. 이는 지시 데이터를 확장하고 합성 데이터를 생성함으로써 오픈 소스 모델의 성능을 크게 향상시킬 수 있다는 것을 보여줍니다.
대형 언어 모델(LLMs)의 확산으로 인해 특화된 하위 네트워크를 동적으로 활용하여 효율성과 성능을 향상시키는 Mixture-of-Experts (MoE) 아키텍처가 채택되었습니다. 그러나 MoE 모델은 추론 중에 비효율적인 메모리 관리와 부적절한 배치 등의 중요한 도전 과제에 직면하고 있습니다. 이는 모델 아키텍처와 시스템 정책 사이의 일치하지 않는 설계 선택으로 인한 것입니다. 더욱이 MoEs를 처음부터 훈련하는 전통적인 방법은 점점 더 높은 비용으로 인해 불가능해지고 있습니다. 본 논문에서는 사전 훈련된 밀집 LLMs를 작은 MoE 모델로 변환하는 새로운 프레임워크인 Read-ME를 제안합니다("일반적인 MoEs를 업사이클링"하는 대신). 이를 통해 지식 전달 비용을 피할 수 있습니다. 저희 방법은 전문가를 추출하기 위해 활성화 희소성을 활용합니다. 전문가를 구성하기 위해 우리는 널리 사용되는 레이어별 라우터 디자인을 검토하고 그 중복성을 보여줌으로써 MoE 백본과 분리된 프리-게이팅 라우터를 소개합니다. 이는 시스템 친화적인 사전 계산 및 미리보기 스케줄링을 용이하게 하여 전문가 인식 배치 및 캐싱을 향상시킵니다. 따라서 저희의 공동 설계는 알고리즘과 시스템 양면의 중요한 간극을 해결하여 자원 제약 환경에서 LLM 추론을 위한 확장 가능하고 효율적인 대안을 제시합니다. Read-ME는 유사한 규모의 인기 있는 오픈 소스 밀집 모델을 능가하여 MMLU에서 최대 10.1%의 개선을 달성하고 평균 종단 간 지연 시간을 최대 6.1% 향상시킵니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/VITA-Group/READ-ME.
NLP 벤치마크는 모델을 훈련하고 평가하기 위해 표준화된 데이터셋에 의존하며, 이는 분야를 발전시키는 데 중요합니다. 기존에는 전문가 주석이 고품질 레이블을 보장했지만, 최근 모델이 요구하는 대규모 데이터셋의 수요 증가에 비례하여 전문가 주석의 비용이 증가하는 문제가 있습니다. 크라우드소싱은 더 확장 가능한 해결책을 제공하지만 주석 정확도와 일관성이 희생되는 경우가 많습니다. 대형 언어 모델(LLMs)의 최근 발전은 기존 데이터셋에서 레이블 오류를 감지하는 데 특히 유용한 새로운 기회를 제공합니다. 본 연구에서는 LLM을 판사로 활용하는 최근 접근 방식을 고려하여, LLM 앙상블을 활용하여 잠재적으로 잘못 레이블이 지정된 예제를 식별합니다. 서로 다른 작업과 도메인을 다루는 TRUE 벤치마크의 네 데이터셋을 사례 연구를 통해, 기존 데이터셋의 레이블링 품질을 경험적으로 분석하고 전문가, 크라우드소싱, 그리고 LLM 기반 주석을 합의, 레이블 품질, 효율성 측면에서 비교하여 각 주석 방법의 장단점을 시연합니다. 우리의 연구 결과는 상당수의 레이블 오류를 발견했으며, 이를 수정하면 보고된 모델 성능이 상당히 향상됨을 보여줍니다. 이는 많은 LLM이라 불리는 모델의 오류가 진짜 모델 실패가 아닌 레이블 오류로 인한 것임을 시사합니다. 더불어, 잘못 레이블이 지정된 데이터의 함의를 논의하고 모델 성능 향상을 위해 훈련 중에 이를 완화하는 방법을 제안합니다.
현대 대형 언어 모델(Large Language Models, LLMs)의 중추인 트랜스포머는 추론 능력을 방해하는 고유한 구조적 한계에 직면합니다. 순환 신경망과 달리 트랜스포머는 순환 연결이 없어서 일정 깊이의 계산에 국한됩니다. 이 제한으로 인해 트랜스포머는 복잡도 클래스 TC^0에 속하게 되어 입력 길이가 증가함에 따라 깊은 추론이 필요한 작업을 이론적으로 해결할 수 없게 됩니다. 많은 추론 작업의 기본 구성 요소인 계산은 귀납적으로 수행하기 위해 추론 깊이가 선형적으로 증가해야 합니다. 이전 연구는 트랜스포머 기반 전문가 모델(즉, 계산 작업에 특별히 훈련된 모델)의 계산 능력 상한을 확립했지만, 이러한 결과는 추론 메커니즘의 차이로 인해 일반 목적 LLMs로 직접 확장되지 않습니다. 최근 연구는 체인 오브 쓰오트(Chain of Thought, CoT) 추론이 계산 작업에서 트랜스포머의 구조적 한계를 완화하는 데 도움이 될 수 있다는 점을 강조했습니다. 그러나 이러한 모델에서 토큰화의 역할에 대한 주목이 부족합니다. 전문가 모델이 종종 문자 수준의 토큰화를 사용하는 반면, LLMs는 일반적으로 바이트 수준(Byte Pair Encoding, BPE) 토크나이저를 사용하여 추론이 처리되는 방식을 근본적으로 변경합니다. 저희 연구는 LLMs의 계산 능력에 미치는 토큰화의 영향을 조사하여 입력 토큰화의 차이에 따라 상당한 성능 변동을 발견했습니다. 이론적 및 실험적 분석을 제공하여 토큰화 선택이 모델의 이론적 계산 가능성을 저해할 수 있는 방법에 대한 통찰을 제공하며, LLMs의 추론을 향상시키기 위한 새로운 토큰화 방법을 설계하는 데 영감을 줍니다.
인간 피드백으로부터 학습하는 것은 언어 모델(LMs)을 인간의 선호에 맞게 조정하는 것을 가능케했습니다. 그러나 직접 인간의 선호를 수집하는 것은 비용이 많이 들고, 시간이 많이 소요되며, 분산이 높을 수 있습니다. 매력적인 대안은 LMs로부터 선호를 추출하여 합성 주석의 원천으로 사용하는 것인데, 이는 인간 주석보다 일관성이 더 높고, 더 저렴하며, 더 잘 확장됩니다. 그러나 이러한 방법은 편향과 오류에 취약합니다. 본 연구에서는 인간과 LMs의 입력을 결합하여 더 나은 주석 품질을 달성하고, 인간 주석의 총 비용을 줄이는 라우팅 프레임워크를 소개합니다. 접근 방식의 핵심은 인간 주석에서 혜택을 받을 선호 사례를 식별하는 것입니다. 이를 최적화 문제로 정의합니다: 선호 데이터셋과 평가 메트릭이 주어졌을 때, 임의의 인간 및 LM 주석 조합에 대한 보상 모델의 성능을 예측하는 성능 예측 모델을 훈련하고, 예측된 성능을 최대화하는 조합을 선택하는 라우팅 전략을 채택합니다. 우리는 10,000개의 사례로 구성된 새로운 선호 데이터셋 MultiPref에서 성능 예측 모델을 훈련시키고, 인간 및 LM 레이블과 쌍을 이룬 데이터셋을 사용합니다. 우리의 라우팅 프레임워크를 사용하여 선택된 LM 및 직접적인 인간 선호의 혼합은 오로지 한 가지를 사용하는 것보다 더 나은 보상 모델 성능을 달성합니다. 우리는 세 가지 다른 데이터셋에서 선택적 인간 선호 수집을 시뮬레이션하고, 우리의 방법이 세 데이터셋 모두에 잘 일반화되는 것을 보여줍니다. 우리는 라우팅 모델의 특징을 분석하여 인간 피드백에서 혜택을 받을 수 있는 사례의 특성을 식별합니다. 예를 들어, 중간 정도의 안전 문제나 중간 정도의 의도 복잡성을 가진 프롬프트 등입니다. 우리는 미래에 더 효율적이고 정확한 선호 수집을 촉진하기 위해 이 연구에 사용된 데이터셋, 주석 플랫폼, 소스 코드를 공개합니다.
최근 연구에서는 LLM 환각의 악화 요인 중 하나로 사전 훈련과 세밀 조정 간의 지식 불일치를 확인했습니다. 여기서 익숙하지 않은 세밀 조정 데이터가 LLM을 오류가 있지만 타당한 출력을 만들도록 오도하는 것으로 나타났습니다. 본 논문에서는 이러한 지식 불일치를 해소하고 환각을 줄이기 위한 새로운 세밀 조정 전략인 Prereq-Tune을 제안합니다. 기본적으로 Prereq-Tune은 기술과 지식의 학습을 분리하여 모델이 작업 기술만 학습하고 지식 불일치의 영향을 받지 않도록 합니다. 이를 달성하기 위해 Prereq-Tune은 SFT를 위한 필수 지식을 학습하기 위한 추가적인 선행 학습 단계를 도입하여, 이후의 SFT가 작업 기술에만 집중할 수 있도록 합니다. Prereq-Tune은 LLM 출력을 내부 지식에 더 잘 근거지도록 가짜 합성 데이터와 결합할 수도 있습니다. 실험 결과, Prereq-Tune은 짧은 QA 및 장문 생성 작업에서 LLM의 사실성을 향상시키는 데 기존 기준선을 능가하는 것으로 나타났습니다. 또한 LLM에서 지식 제어 생성을 위한 새로운 가능성을 열어줍니다. 저희 코드는 https://github.com/UCSB-NLP-Chang/Prereq_tune.git에서 확인할 수 있습니다.
대형 언어 모델(Large language models, LLMs)은 매개변수에 상당한 양의 사실적 지식을 저장할 수 있습니다. 그러나, 그들의 매개변수 지식은 맥락에서 제공된 정보와 충돌할 수 있습니다. 이러한 충돌은 오래된 또는 부정확한 정보에 의존하는 등 원치 않는 모델 행동으로 이어질 수 있습니다. 본 연구에서는 LLMs가 지식 충돌을 식별할 수 있는지, 그리고 LLM의 잔류 스트림을 분석함으로써 모델이 어떤 지식 소스에 의존할지 파악할 수 있는지 조사합니다. 프로빙 작업을 통해, LLMs가 잔류 스트림에서 지식 충돌의 신호를 내부적으로 등록할 수 있으며, 중간 모델 활성화를 분석함으로써 정확하게 감지할 수 있음을 발견했습니다. 이를 통해 입력이나 모델 매개변수를 수정하지 않고도 답변을 생성하기 전에 잔류 스트림 내의 충돌을 감지할 수 있습니다. 게다가, 모델이 맥락적 지식 대 매개변수 지식을 활용하여 충돌을 해결할 때 잔류 스트림이 현저히 다른 패턴을 보여준다는 사실을 발견했습니다. 이 패턴은 충돌이 발생했을 때 LLMs의 행동을 추정하고 답변을 생성하기 전에 예상치 못한 답변을 방지하는 데 활용될 수 있습니다. 우리의 분석은 LLMs가 내부적으로 지식 충돌을 어떻게 관리하는지에 대한 통찰을 제공하며, 지식 선택 프로세스를 제어하는 방법을 개발하는 기초를 제공합니다.
로봇이 물체와 상호 작용하는 비디오는 물체의 역학에 대한 풍부한 정보를 인코딩합니다. 그러나 기존의 비디오 예측 방법은 일반적으로 로봇의 행동과 물체의 3D 상태와 같은 비디오로부터의 3D 정보를 명시적으로 고려하지 않아 실제 세계의 로봇 응용 프로그램에서의 사용을 제한합니다. 본 연구에서는 로봇의 행동 궤적과 그것들이 장면 역학에 미치는 영향을 명시적으로 고려하여 다중 뷰 RGB 비디오로부터 물체 역학을 학습하는 프레임워크를 소개합니다. 우리는 3D 가우시안 스플래팅(3DGS)의 3D 가우시안 표현을 활용하여 그래프 신경망을 사용하여 입자 기반 역학 모델을 훈련시킵니다. 이 모델은 밀도 높게 추적된 3D 가우시안 재구성에서 다운샘플링된 희소 제어 입자에서 작동합니다. 오프라인 로봇 상호 작용 데이터에서 신경 역학 모델을 학습함으로써 우리의 방법은 다양한 초기 구성과 보지 못한 로봇 행동 하에서 물체의 움직임을 예측할 수 있습니다. 가우시안의 3D 변환은 제어 입자의 움직임에서 보간될 수 있어 예측된 미래 물체 상태의 렌더링과 행동 조건부 비디오 예측을 가능하게 합니다. 역학 모델은 또한 물체 조작 작업을 위한 모델 기반 계획 프레임워크에 적용될 수 있습니다. 우리는 로프, 옷, 봉제 동물 등 다양한 종류의 변형 가능한 재료에 대한 실험을 수행하여 복잡한 모양과 역학을 모델링하는 우리의 프레임워크의 능력을 시연합니다. 우리의 프로젝트 페이지는 https://gs-dynamics.github.io에서 확인할 수 있습니다.
예상치 못한 결과에 대한 믿음이나 행동을 조정하는 능력, 즉 반성은 지능 시스템이 세계와 상호 작용하는 데 기본적인 역할을 합니다. 인지과학적 관점에서 이는 인간 및 AI 시스템 모두에 적용 가능한 지능의 핵심 원칙으로 작용합니다. 대형 언어 모델(Large Language Models, LLMs)의 지능에 대한 논의를 다루기 위해 우리는 Reflection-Bench를 제안합니다. 이는 지각, 기억, 믿음 업데이팅, 의사 결정, 예측, 가정적 사고, 메타-반성 등 반성에 중요한 핵심 인지 기능을 포함한 7가지 작업으로 이루어진 포괄적인 벤치마크입니다. 우리는 OpenAI o1, GPT-4, Claude 3.5 Sonnet 등 13가지 주요 LLMs의 성능을 평가했습니다. 결과는 현재 LLMs가 아직도 충분한 반성 능력을 갖추지 못하고 있다는 것을 보여줍니다. 이러한 결과의 근본적인 원인을 논의하고 향후 연구를 위한 잠재적인 방향을 제안합니다. 결론적으로, Reflection-Bench는 환경과 신뢰성 있게 상호 작용할 수 있는 AI를 개발하기 위한 평가 도구와 영감을 제공합니다. 우리의 데이터와 코드는 https://github.com/YabYum/ReflectionBench에서 확인할 수 있습니다.
뉴스 소스의 편향성 평가는 진실한 증거에 의존하는 전문가, 기관 및 연구자들에게 매우 중요합니다. 정보 수집 및 보고를 위해. 콘텐츠 분석에서는 특정 편향성 지표가 분명하지만, 정치적 편향성 및 가짜 뉴스와 같은 설명어는 더 큰 도전을 제기합니다. 본 논문에서는 최근 제안된 뉴스 미디어 신뢰도 평가 방법을 확장하여 아울렛 및 그들의 시간 경과에 따른 웹 상호작용을 모델링하는 방법을 제안합니다. 구체적으로, 우리는 네 가지 강화 학습 전략의 분류 성능을 평가하며 대규모 뉴스 미디어 하이퍼링크 그래프에서 실험을 수행했습니다. 우리의 실험은 사실적 보도와 정치적 편향성이라는 두 가지 어려운 편향성 설명어를 대상으로 하며, 소스 미디어 수준에서 상당한 성능 향상을 보여주었습니다. 더불어, 우리는 CLEF 2023 CheckThat! Lab 챌린지에서 우리의 방법을 검증하였으며, F1-점수와 공식 MAE 메트릭에서 보고된 결과를 능가했습니다. 더 나아가, 우리는 사실적 보도와 정치적 편향성 레이블로 분류된 뉴스 소스 미디어의 가장 큰 주석이 달린 데이터 세트를 공개함으로써 기여했습니다. 우리의 연구 결과는 시간이 지남에 따른 하이퍼링크 상호작용을 기반으로 뉴스 미디어 소스를 프로파일링하는 것이 가능하며, 미디어 랜드스케이프의 진화를 한 눈에 볼 수 있다는 것을 시사합니다.
비지도 사전 훈련은 많은 지도 학습 도메인에서 혁신적이었습니다. 그러나 이러한 아이디어를 강화 학습 (RL)에 적용하는 것은 독특한 도전을 제시합니다. 왜냐하면 세밀한 조정은 과제별 데이터를 모방하는 것이 아니라, 반복적인 자가 개선을 통해 탐색하고 해결책을 찾는 것을 포함하기 때문입니다. 본 연구에서는 라벨이 지정되지 않은 이전의 궤적 데이터가 효율적인 탐사 전략을 학습하는 데 어떻게 활용될 수 있는지 연구했습니다. 이전 데이터는 저수준 기술 집합을 사전 훈련하거나 온라인 강화 학습을 위한 추가 오프-폴리시 데이터로 사용될 수 있지만, 이러한 아이디어를 온라인 탐사에 효과적으로 결합하는 방법이 불분명했습니다. SUPE (Skills from Unlabeled Prior data for Exploration)라는 우리의 방법은 이러한 아이디어를 조심스럽게 결합함으로써 이점을 최대화하는 것을 보여줍니다. 우리의 방법은 먼저 변이 오토인코더 (VAE)를 사용하여 저수준 기술을 추출하고, 그런 다음 낙관적 보상 모델을 사용하여 라벨이 지정되지 않은 궤적을 가짜 라벨링하여 이전 데이터를 고수준 작업 관련 예제로 변환합니다. 마지막으로, SUPE는 이러한 변환된 예제를 온라인 RL을 위한 추가 오프-폴리시 데이터로 사용하여 사전 훈련된 저수준 기술을 구성하여 효율적으로 탐사하는 고수준 정책을 학습합니다. 우리는 실험적으로 SUPE가 이전 전략을 신뢰할 수 있게 능가하며, 장기적이고 희소 보상 과제를 성공적으로 해결하는 것을 보여줍니다. 코드: https://github.com/rail-berkeley/supe.