번역이 포함된 일일 선별된 AI 연구 논문
생성형 AI 혁명이 최근 비디오 분야로 확장되었습니다. 그러나 현재 최첨단 비디오 모델들은 시각적 품질과 생성 콘텐츠에 대한 사용자 제어 측면에서 여전히 이미지 모델에 뒤처져 있습니다. 본 연구에서는 텍스트 기반 비디오 편집 작업을 위해 텍스트-이미지 확산 모델의 힘을 활용하는 프레임워크를 제안합니다. 구체적으로, 소스 비디오와 타겟 텍스트 프롬프트가 주어졌을 때, 우리의 방법은 입력 비디오의 공간적 레이아웃과 움직임을 보존하면서 타겟 텍스트에 부합하는 고품질 비디오를 생성합니다. 우리의 방법은 편집된 비디오의 일관성이 확산 특징 공간에서의 일관성을 강제함으로써 얻을 수 있다는 핵심 관찰에 기반합니다. 이를 위해 모델에서 쉽게 얻을 수 있는 프레임 간 대응 관계를 기반으로 확산 특징을 명시적으로 전파합니다. 따라서 우리의 프레임워크는 어떠한 학습이나 미세 조정도 필요하지 않으며, 기존의 텍스트-이미지 편집 방법과 함께 사용할 수 있습니다. 우리는 다양한 실제 비디오에 대해 최첨단 편집 결과를 보여줍니다. 웹페이지: https://diffusion-tokenflow.github.io/
멀티모달 학습은 여러 모달리티의 정보를 처리하고 연관시키는 모델을 구축하는 것을 목표로 합니다. 이 분야에서 수년간의 발전이 있었음에도 불구하고, 자연어, 2D 이미지, 3D 포인트 클라우드, 오디오, 비디오, 시계열 데이터, 테이블 데이터 등 다양한 모달리티를 처리하기 위한 통합 네트워크를 설계하는 것은 여전히 어려운 과제로 남아 있습니다. 이 연구에서는 Meta-Transformer라는 프레임워크를 제안합니다. 이 프레임워크는 고정된 인코더를 활용하여 어떠한 페어링된 멀티모달 학습 데이터 없이도 멀티모달 인식을 수행합니다. Meta-Transformer에서는 다양한 모달리티의 원시 입력 데이터가 공유 토큰 공간으로 매핑되며, 이어서 고정된 파라미터를 가진 인코더가 입력 데이터의 고수준 의미론적 특징을 추출합니다. 통합 데이터 토크나이저, 모달리티 공유 인코더, 그리고 다운스트림 작업을 위한 작업별 헤드로 구성된 Meta-Transformer는 페어링되지 않은 데이터를 사용하여 12가지 모달리티에 걸쳐 통합 학습을 수행하는 최초의 프레임워크입니다. 다양한 벤치마크에서의 실험 결과, Meta-Transformer는 기본적인 인식(텍스트, 이미지, 포인트 클라우드, 오디오, 비디오), 실용적인 응용(X-Ray, 적외선, 초분광, IMU), 그리고 데이터 마이닝(그래프, 테이블, 시계열 데이터)을 포함한 광범위한 작업을 처리할 수 있음을 보여줍니다. Meta-Transformer는 트랜스포머를 사용하여 통합 멀티모달 인텔리전스를 개발하는 데 있어 유망한 미래를 제시합니다. 코드는 https://github.com/invictus717/MetaTransformer에서 제공될 예정입니다.
인간의 뇌 활동에서 경험을 재구성하는 과정은 뇌가 세상을 어떻게 해석하고 표현하는지에 대한 독특한 통찰을 제공합니다. 본 논문에서는 기능적 자기공명영상(fMRI)을 통해 포착된 뇌 활동으로부터 음악을 재구성하는 방법을 소개합니다. 우리의 접근 방식은 fMRI 데이터에서 도출된 임베딩을 기반으로 음악 검색 또는 MusicLM 음악 생성 모델을 사용합니다. 생성된 음악은 장르, 악기 구성, 분위기와 같은 의미론적 특성 측면에서 인간 피실험자가 경험한 음악 자극과 유사합니다. 우리는 복셀 단위 인코딩 모델링 분석을 통해 MusicLM의 다양한 구성 요소와 뇌 활동 간의 관계를 조사합니다. 또한, 순수한 텍스트 기반 음악 자극 설명에서 도출된 정보를 나타내는 뇌 영역에 대해 논의합니다. 재구성된 음악의 예시를 포함한 보조 자료는 https://google-research.github.io/seanet/brain2music에서 제공합니다.
대규모 언어 모델(LLMs)의 평가는 인간의 가치와의 정렬(alignment)이 다중 기술의 조합을 필요로 하고, 요구되는 기술 집합이 지시에 따라 달라지기 때문에 어려운 과제입니다. 최근 연구들은 LLMs의 성능을 두 가지 방식으로 평가해 왔습니다: (1) 여러 독립적인 벤치마크에서의 자동 평가와 (2) 응답에 대한 전반적인 점수를 부여하는 인간 또는 기계 기반 평가. 그러나 두 설정 모두 사용자 지시의 특성, 즉 인스턴스별 기술 조합을 고려하지 않은 거시적 평가로, 이는 LLMs의 진정한 능력을 해석하는 데 한계를 가져옵니다. 본 논문에서는 FLASK(Fine-grained Language Model Evaluation based on Alignment SKill Sets)를 소개합니다. FLASK는 모델 기반 및 인간 기반 평가 모두에 사용할 수 있는 세분화된 평가 프로토콜로, 거시적 점수화를 인스턴스별 기술 집합 수준으로 분해합니다. 구체적으로, 우리는 개방형 사용자 지시를 따르기 위해 LLMs가 필요로 하는 12가지 세분화된 기술을 정의하고, 각 인스턴스에 대해 기술 집합을 할당하여 평가 세트를 구성합니다. 또한, 각 인스턴스에 대한 대상 도메인과 난이도 수준을 주석 처리함으로써, FLASK는 기술, 도메인, 난이도에 따른 모델 성능의 종합적인 분석을 제공합니다. FLASK를 사용하여 여러 오픈소스 및 독점 LLMs를 비교한 결과, 모델 기반 평가와 인간 기반 평가 간에 높은 상관관계를 관찰했습니다. FLASK는 개발자들이 모델 성능을 더 정확하게 측정하고, 특정 기술에 능숙해지기 위한 요인을 분석하여 개선 방안을 모색할 수 있게 합니다. 실무자들에게는 FLASK를 통해 다양한 LLMs 간의 종합적인 비교를 통해 특정 상황에 적합한 모델을 추천하는 데 사용할 수 있습니다. 우리는 평가 데이터와 코드 구현을 https://github.com/kaistAI/FLASK에서 공개합니다.
대규모 웹 데이터셋은 CLIP과 Flamingo와 같은 대형 시각-언어 모델의 성공에 핵심적인 역할을 합니다. 그러나 원시 웹 데이터는 노이즈가 많으며, 노이즈를 줄이기 위한 기존의 필터링 방법들은 종종 데이터 다양성을 희생시키는 결과를 가져옵니다. 우리의 연구는 노이즈의 주요 원인 중 하나인 캡션 품질에 초점을 맞추고, 설명이 부족한 텍스트를 가진 웹 스크랩 데이터 포인트의 유용성을 높이기 위해 생성된 캡션이 어떻게 활용될 수 있는지 연구합니다. 원시 캡션과 생성된 캡션을 혼합하는 다양한 전략을 탐구함으로써, 우리는 1억 2,800만 개의 이미지-텍스트 쌍 후보 풀에서 DataComp 벤치마크가 제안한 최고의 필터링 방법보다 ImageNet에서 2%, 38개 작업 전체 평균에서 4% 더 나은 성능을 달성했습니다. 또한 우리의 최적 접근법은 Flickr 및 MS-COCO 검색에서 2배 더 나은 성능을 보였습니다. 그런 다음 우리는 합성 캡션이 텍스트 지도 학습의 효과적인 소스가 되는 요인을 분석했습니다. 다양한 이미지 캡셔닝 모델을 실험하면서, 표준 이미지 캡셔닝 벤치마크(예: NoCaps CIDEr)에서의 모델 성능이 다중모달 학습을 위해 생성하는 캡션의 유용성을 신뢰할 수 있는 지표가 아니라는 점도 입증했습니다. 마지막으로, DataComp의 대규모(12억 8천만 개의 이미지-텍스트 쌍)에서 생성된 캡션을 사용한 실험을 통해 합성 텍스트의 한계와 훈련 데이터 양이 증가함에 따른 이미지 큐레이션의 중요성에 대한 통찰을 제공합니다.
자기 지도 학습(self-supervised learning)은 NLP, 비전, 생물학 등 다양한 컴퓨팅 분야에서 혁신적인 패러다임 전환을 가져왔습니다. 최근 접근법은 방대한 양의 레이블 없는 데이터에 대해 트랜스포머(transformer) 모델을 사전 학습하여 다운스트림 작업을 효율적으로 해결하기 위한 출발점으로 활용하는 것을 포함합니다. 강화 학습(reinforcement learning) 영역에서 연구자들은 최근 이러한 접근법을 적용하여 전문가 궤적(expert trajectories)에 대해 사전 학습된 모델을 개발함으로써 로보틱스부터 추천 시스템에 이르기까지 다양한 작업을 해결할 수 있도록 했습니다. 그러나 기존 방법들은 주로 특정 다운스트림 애플리케이션에 맞춰 설계된 복잡한 사전 학습 목표에 의존합니다. 본 논문은 우리가 PASTA(Pretrained Action-State Transformer Agents)라고 부르는 모델에 대한 포괄적인 연구를 제시합니다. 우리의 연구는 통합된 방법론을 사용하며, 행동 복제(behavioral cloning), 오프라인 강화 학습(offline RL), 센서 고장 견고성(sensor failure robustness), 동역학 변화 적응(dynamics change adaptation) 등 광범위한 일반 다운스트림 작업을 다룹니다. 우리의 목표는 다양한 설계 선택을 체계적으로 비교하고, 견고한 모델을 구축하기 위한 실무자들에게 유용한 통찰력을 제공하는 것입니다. 우리 연구의 주요 하이라이트는 행동 및 상태 구성 요소 수준에서의 토큰화(tokenization), 다음 토큰 예측(next token prediction)과 같은 기본적인 사전 학습 목표 사용, 다양한 도메인에서 동시에 모델을 학습, 그리고 파라미터 효율적 미세 조정(PEFT, Parameter Efficient Fine-Tuning)의 적용을 포함합니다. 우리 연구에서 개발된 모델은 1천만 개 미만의 파라미터를 포함하며, PEFT의 적용으로 다운스트림 적응 동안 1만 개 미만의 파라미터만 미세 조정할 수 있어, 광범위한 커뮤니티가 이러한 모델을 사용하고 우리의 실험을 재현할 수 있도록 합니다. 우리는 이 연구가 트랜스포머를 사용하여 강화 학습 궤적을 표현하고 견고한 정책 학습에 기여하기 위한 첫 원칙(first-principles) 설계 선택에 대한 추가 연구를 촉진하기를 바랍니다.
최근 대규모 언어 모델(LLM)의 발전은 많은 수학 벤치마크에서 주목할 만한 진전을 보여주었습니다. 그러나 이러한 벤치마크의 대부분은 중고등학교 교과 과정에 기반한 문제만을 포함하고 있으며, 객관식 문제로만 구성되어 있고, 기본적인 산술 연산의 제한된 범위에 국한되어 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 복잡한 과학적 문제 해결에 필요한 추론 능력을 체계적으로 검토하기 위한 포괄적인 벤치마크 제품군인 SciBench를 소개합니다. SciBench는 두 가지 신중하게 선별된 데이터셋을 포함합니다: 하나는 수학, 화학, 물리학 교과서에서 추출한 대학 수준의 다양한 과학 문제를 포함한 오픈셋이고, 다른 하나는 컴퓨터 과학과 수학의 학부 수준 시험 문제로 구성된 클로즈드셋입니다. 이 두 데이터셋을 기반으로, 우리는 다양한 프롬프트 전략을 사용하여 두 가지 대표적인 LLM에 대한 심층 벤치마크 연구를 수행했습니다. 결과는 현재의 LLM이 만족스러운 성능을 보이지 못하며, 전체 점수가 단지 35.80%에 불과함을 보여줍니다. 더 나아가, 상세한 사용자 연구를 통해 LLM이 범한 오류를 열 가지 문제 해결 능력으로 분류했습니다. 우리의 분석은 어떤 단일 프롬프트 전략도 다른 전략들을 크게 능가하지 않으며, 특정 문제 해결 능력에서 개선을 보이는 전략들이 다른 능력에서는 저하를 초래한다는 것을 나타냅니다. 우리는 SciBench가 LLM의 추론 능력 발전을 촉진하여 궁극적으로 과학 연구와 발견에 기여할 것으로 기대합니다.
다중 뷰 자기 지도 학습(MVSSL)의 성공 메커니즘은 아직 완전히 이해되지 않았습니다. 대조적(contrastive) MVSSL 방법들은 상호 정보량(MI)의 하한인 InfoNCE의 관점에서 연구되어 왔습니다. 그러나 다른 MVSSL 방법들과 MI 간의 관계는 여전히 명확하지 않습니다. 본 연구에서는 엔트로피와 재구성 항으로 구성된 MI의 다른 하한(ER)을 고려하고, 이를 통해 주요 MVSSL 패밀리들을 분석합니다. 이 ER 하한을 통해, DeepCluster와 SwAV와 같은 클러스터링 기반 방법들이 MI를 최대화한다는 것을 보여줍니다. 또한 BYOL과 DINO와 같은 증류(distillation) 기반 접근법의 메커니즘을 재해석하여, 이들이 명시적으로 재구성 항을 최대화하고 암묵적으로 안정적인 엔트로피를 장려한다는 것을 보여주며, 이를 실증적으로 확인합니다. 일반적인 MVSSL 방법들의 목적 함수를 이 ER 하한으로 대체하면 경쟁력 있는 성능을 달성하면서도, 더 작은 배치 크기나 더 작은 지수 이동 평균(EMA) 계수로 학습할 때 안정성을 보장할 수 있음을 보여줍니다. Github 저장소: https://github.com/apple/ml-entropy-reconstruction.
명령어 튜닝된 모델들은 다양한 자연어 처리 과제에서 놀라운 성공을 거두었지만, 이들이 명령어를 얼마나 잘 따르는지를 정확히 평가하는 것은 여전히 어려운 과제입니다. 기존 벤치마크는 주로 모델이 학습 과정에서 잘 익힌 일반적인 명령어에 초점을 맞추고 있습니다. 그러나 이러한 명령어에 대한 숙련도가 반드시 강력한 명령어 수행 능력을 의미하는 것은 아닙니다. 본 논문에서는 '버벌라이저 조작(verbalizer manipulation)'이라는 새로운 명령어 수행 평가 프로토콜을 제안합니다. 이 방법은 모델이 작업 레이블을 모델의 사전 지식과 다양한 수준으로 일치하는 단어로 표현하도록 지시하며, 높은 일치도(예: 긍정적 감정에 대해 "긍정적" 출력)부터 최소 일치도(예: 긍정적 감정에 대해 "부정적" 출력)까지 다양한 버벌라이저를 채택합니다. 버벌라이저 조작은 어떤 분류 벤치마크와도 원활하게 통합될 수 있어, 모델이 사전 지식에 의존하는 정도와 이를 무시하고 명령어를 정확히 따르는 능력을 검토할 수 있습니다. 우리는 9개의 데이터셋에 대해 4개의 주요 모델 패밀리를 대상으로 포괄적인 평가를 수행하며, 각각에 대해 12개의 버벌라이저 세트를 적용했습니다. 그 결과, 다양한 패밀리와 규모의 모델들이 덜 자연스러운 버벌라이저에서 보이는 성능에 따라 명령어 수행 능력이 크게 구분되는 것을 관찰했습니다. 가장 강력한 GPT-4 모델조차도 가장 도전적인 버벌라이저에서는 무작위 추측 수준을 크게 벗어나지 못했으며, 이는 명령어 수행 능력을 개선하기 위한 지속적인 발전의 필요성을 강조합니다.