번역이 포함된 일일 선별된 AI 연구 논문
디퓨전 모델은 연속값 입력을 사용하는 다양한 영역에서 강력한 성능을 보이며 생성 분야의 강력한 패러다임으로 부상했습니다. 완전 비자기회귀(fully non-autoregressive) 텍스트 생성의 가능성에도 불구하고, 자연어의 이산적 특성으로 인해 디퓨전 모델을 자연어에 적용하는 것은 여전히 어려운 과제입니다. 본 연구에서는 Text-to-text Self-conditioned Simplex Diffusion(TESS)를 제안합니다. TESS는 완전 비자기회귀 방식의 텍스트 디퓨전 모델로, 새로운 형태의 자기조건화(self-conditioning)를 사용하며, 일반적으로 학습된 임베딩 공간 대신 로짓 심플렉스 공간(logit simplex space)에 디퓨전 프로세스를 적용합니다. 요약, 텍스트 단순화, 패러프레이즈 생성, 질문 생성 등 자연어 이해 및 생성 작업에 대한 광범위한 실험을 통해, TESS가 최첨단 비자기회귀 모델을 능가하며 사전 학습된 자기회귀 시퀀스-투-시퀀스 모델과도 경쟁력 있는 성능을 보임을 입증했습니다.
범용 음원 분리(Universal Source Separation, USS)는 계산적 청각 장면 분석을 위한 핵심 연구 과제로, 모노 녹음을 개별 음원 트랙으로 분리하는 것을 목표로 합니다. 음원 분리 과제를 해결하기 위해 기다리고 있는 세 가지 주요 도전 과제가 있습니다. 첫째, 기존의 음원 분리 시스템은 주로 하나 또는 제한된 수의 특정 음원을 분리하는 데 초점을 맞추고 있습니다. 단일 모델을 통해 임의의 음원을 분리할 수 있는 통합 시스템을 구축하는 연구가 부족합니다. 둘째, 대부분의 기존 시스템은 분리기를 학습시키기 위해 깨끗한 음원 데이터를 필요로 하지만, 이러한 데이터는 희소합니다. 셋째, 계층적 수준에서 활성 사운드 클래스를 자동으로 감지하고 분리할 수 있는 USS 시스템이 부족합니다. 대규모의 약한 레이블/비레이블 오디오 데이터를 음원 분리에 활용하기 위해, 우리는 다음과 같은 범용 오디오 음원 분리 프레임워크를 제안합니다: 1) 약한 레이블 데이터로 학습된 오디오 태깅 모델을 쿼리 네트워크로 사용하고, 2) 쿼리 네트워크의 출력을 조건으로 사용하여 임의의 음원을 분리하는 조건부 음원 분리 모델. 우리는 다양한 쿼리 네트워크, 음원 분리 모델, 그리고 학습 전략을 탐구하고, AudioSet 온톨로지에서 사운드 클래스를 자동으로 감지하고 분리하기 위한 계층적 USS 전략을 제안합니다. 약한 레이블이 달린 AudioSet만을 활용하여, 우리의 USS 시스템은 사운드 이벤트 분리, 음악 음원 분리, 그리고 음성 향상 등 다양한 사운드 클래스를 성공적으로 분리합니다. USS 시스템은 AudioSet의 527개 사운드 클래스에서 평균 5.57 dB의 신호 대 왜곡 비율 개선(SDRi)을 달성했으며, DCASE 2018 Task 2 데이터셋에서는 10.57 dB, MUSDB18 데이터셋에서는 8.12 dB, Slakh2100 데이터셋에서는 7.28 dB, 그리고 voicebank-demand 데이터셋에서는 9.00 dB의 SSNR을 기록했습니다. 소스 코드는 https://github.com/bytedance/uss에서 공개되었습니다.
텍스트 기반 이미지 및 비디오 확산 모델은 현실적이고 다양한 콘텐츠 생성에서 전례 없는 성공을 거두었습니다. 최근에는 확산 기반 생성 모델을 사용한 기존 이미지와 비디오의 편집 및 변형이 큰 주목을 받고 있습니다. 그러나 기존 연구들은 텍스트를 통한 콘텐츠 편집이나 단일 시각적 단서를 사용한 대략적인 개인화에 국한되어 있어, 세밀하고 상세한 제어가 필요한 묘사하기 어려운 콘텐츠에는 적합하지 않았습니다. 이에 따라, 우리는 텍스트와 시각적 단서를 활용하여 개인이 주인공이 될 수 있도록 비디오를 편집하는 일반적인 비디오 편집 프레임워크인 Make-A-Protagonist를 제안합니다. 구체적으로, 우리는 여러 전문가를 활용하여 소스 비디오, 목표 시각적 및 텍스트 단서를 분석하고, 마스크 기반 노이즈 제거 샘플링을 사용하여 원하는 출력을 생성하는 시각-텍스트 기반 비디오 생성 모델을 제안합니다. 광범위한 실험 결과는 Make-A-Protagonist의 다재다능하고 뛰어난 편집 능력을 입증합니다.
요약 모델은 종종 단일 참조(최대우도추정, MLE)의 가능성을 극대화하도록 훈련되기 때문에 품질 지표에 잘 맞지 않는 텍스트를 생성하는 경우가 많습니다. 이를 해결하기 위해 최근 연구에서는 모델이 자신의 순위가 매겨진 출력을 접하도록 하여 관련성을 개선하거나, 별도의 연구 흐름에서 긍정적 및 부정적 집합을 대조하여 신뢰성을 개선하는 보정 단계를 추가했습니다. 이러한 접근법은 효과적이지만, 대부분의 연구는 이러한 집합을 생성하고 최적화하는 방법에 초점을 맞추고 있습니다. 왜 한 설정이 다른 설정보다 더 효과적인지에 대해서는 알려진 바가 적습니다. 본 연구에서는 효과적인 집합의 근본적인 특성을 밝혀냅니다. 각 훈련 인스턴스에 대해 크고 다양한 후보 풀을 형성하고, 보정 미세 조정에 사용되는 부분 집합을 체계적으로 변화시킵니다. 각 선택 전략은 어휘 다양성이나 긍정적 및 부정적 후보 간의 격차 크기와 같은 집합의 다양한 측면을 목표로 합니다. 생의학, 임상, 화학 분야에 걸친 세 가지 다양한 과학 장문 요약 데이터셋에서, 신뢰성 보정은 부정적 집합이 추출적이고 생성될 가능성이 더 높을 때 최적이며, 관련성 보정의 경우 후보 간의 지표 차이를 극대화하고 모델과 지표 정의 후보 순위 간의 불일치(놀라움)를 최소화해야 한다는 것을 발견했습니다. 보정 집합을 생성, 선택, 최적화하기 위한 코드는 https://github.com/griff4692/calibrating-summaries에서 확인할 수 있습니다.
웹에서 대규모 이미지-텍스트 데이터에 대한 사전 학습은 많은 시각 및 언어(V&L) 작업에서 빠른 진전을 이끌어왔지만, 최근 연구에서는 사전 학습된 모델들이 이미지 내의 관계, 동작, 숫자 등을 인식하는 "세부적인" 이해 능력이 부족함을 보여주었습니다. 이로 인해 커뮤니티에서는 이러한 능력을 평가하기 위한 새로운 벤치마크나 모델을 개발하려는 관심이 증가하고 있습니다. 이러한 방향으로의 진전을 더 잘 이해하고 정량화하기 위해, 우리는 네 가지 세부적인 벤치마크에서 네 가지 경쟁력 있는 V&L 모델을 조사했습니다. 우리의 분석을 통해 X-VLM(Zeng et al., 2022)이 다른 기준 모델들을 꾸준히 능가하며, 모델링 혁신이 웹 데이터의 규모 확장보다 성능에 더 큰 영향을 미칠 수 있고, 때로는 오히려 성능을 저하시킬 수도 있음을 발견했습니다. X-VLM에 대한 심층 조사를 통해, 우리는 세부적인 기술을 학습하기 위해 새로운 손실 함수와 풍부한 데이터 소스가 모두 중요함을 강조합니다. 마지막으로, 우리는 학습 동역학을 검토하고, 일부 작업에서는 성능이 학습 초기에 정점을 찍거나 상당히 변동하며 결코 수렴하지 않는다는 사실을 발견했습니다.
사람 얼굴의 충실한 시각화를 생성하기 위해서는 얼굴의 기하학적 구조와 외관의 거시적 및 미시적 세부 사항을 모두 포착해야 합니다. 기존 방법들은 연구 커뮤니티가 공개적으로 접근할 수 없는 방대한 데이터 코퍼스를 요구하는 데이터 기반 방식이거나, 미세한 세부 사항을 포착하지 못하는데, 이는 거시적 얼굴 기하학만을 모델링하도록 설계된 메쉬 이산화 및 선형 변형을 사용하여 텍스처의 미세한 세부 사항을 표현할 수 없는 기하학적 얼굴 모델에 의존하기 때문입니다. 우리는 전통적인 컴퓨터 그래픽 기법에서 영감을 얻어 이러한 격차를 메우는 방법을 소개합니다. 보이지 않는 표정들은 극단적인 포즈의 희소 집합에서 외관을 혼합하여 모델링됩니다. 이 혼합은 해당 표정에서의 지역적 체적 변화를 측정하고, 테스트 시간에 유사한 표정이 수행될 때마다 그 외관을 지역적으로 재현함으로써 수행됩니다. 우리의 방법은 보이지 않는 표정들로 일반화되며, 얼굴의 부드러운 체적 변형 위에 미세한 효과를 추가하고, 얼굴을 넘어서도 일반화되는 방식을 보여줍니다.
대규모 언어 모델(LM)이 공정하고 견고하며 유용하도록 보장하기 위해서는 입력에 대한 다양한 수정이 모델의 행동에 미치는 영향을 이해하는 것이 필요합니다. 그러나 개방형 텍스트 생성 작업의 맥락에서 이러한 평가는 간단하지 않습니다. 예를 들어, 모델에 입력 텍스트와 그에 대한 "대조적" 변형 버전을 제시할 때, 표준 디코딩 전략으로는 다음 토큰 예측에서 의미 있는 차이를 드러내지 못할 수 있습니다. 이러한 동기를 바탕으로, 우리는 대조적 입력 디코딩(Contrastive Input Decoding, CID)을 제안합니다: 두 개의 입력이 주어졌을 때, 하나의 입력에 대해서는 가능성이 높지만 다른 입력에 대해서는 가능성이 낮은 텍스트를 생성하는 디코딩 알고리즘입니다. 이 방식으로, 대조적 생성은 두 입력에 대한 LM 출력의 잠재적으로 미묘한 차이를 간단하고 해석 가능한 방식으로 강조할 수 있습니다. 우리는 CID를 사용하여 표준 디코딩 전략으로는 감지하기 어려운 문맥 특정 편향을 강조하고, 다양한 입력 변형의 효과를 정량화합니다.
본 논문에서는 우리가 "다중모달 일반화(Multimodal Generalization, MMG)"라고 명명한 새로운 문제를 자기 중심적 행동 인식(egocentric action recognition)의 맥락에서 연구합니다. MMG는 특정 모달리티의 데이터가 제한적이거나 완전히 누락된 상황에서 시스템이 어떻게 일반화할 수 있는지를 연구하는 것을 목표로 합니다. 우리는 MMG를 표준 지도 학습 행동 인식과 더 도전적인 소수 샷 학습(few-shot learning) 설정에서 새로운 행동 범주를 학습하는 맥락에서 철저히 조사합니다. MMG는 실제 응용 프로그램에서 보안과 효율성을 고려하기 위해 설계된 두 가지 새로운 시나리오로 구성됩니다: (1) 훈련 시간에는 존재했던 일부 모달리티가 추론 시간에는 누락된 상황에서의 일반화, 그리고 (2) 추론 시간과 훈련 시간에 존재하는 모달리티가 서로 겹치지 않는 교차 모달 제로샷 일반화(cross-modal zero-shot generalization). 이 연구를 가능하게 하기 위해, 우리는 비디오, 오디오, 관성 운동 센서(IMU) 모달리티를 포함한 데이터 포인트로 구성된 새로운 데이터셋 MMG-Ego4D를 구축했습니다. 우리의 데이터셋은 Ego4D 데이터셋에서 파생되었지만, MMG 문제 연구를 용이하게 하기 위해 인간 전문가에 의해 처리되고 철저히 재주석 처리되었습니다. 우리는 MMG-Ego4D에서 다양한 모델을 평가하고 개선된 일반화 능력을 가진 새로운 방법들을 제안합니다. 특히, 우리는 모달리티 드롭아웃 훈련, 대조 기반 정렬 훈련(contrastive-based alignment training), 그리고 더 나은 소수 샷 성능을 위한 새로운 교차 모달 프로토타입 손실(cross-modal prototypical loss)을 포함한 새로운 융합 모듈을 소개합니다. 우리는 이 연구가 다중모달 일반화 문제에 대한 벤치마크로 활용되고 향후 연구를 안내하는 데 기여하기를 바랍니다. 벤치마크와 코드는 https://github.com/facebookresearch/MMG_Ego4D에서 제공될 예정입니다.
자원 스케줄링 및 할당은 혼잡 제어부터 클라우드 컴퓨팅에 이르기까지 다양한 고성능 시스템의 핵심 구성 요소입니다. 이러한 문제에 대해 더 최적의 해결책을 찾는 것은 자원과 시간 절약, 장치 마모 감소, 심지어 탄소 배출 개선에도 상당한 영향을 미칠 수 있습니다. 본 논문에서는 머신러닝 프로그램 컴파일 중 발생하는 메모리 매핑 문제, 즉 텐서를 서로 다른 메모리 계층에 매핑하여 실행 시간을 최적화하는 특정 스케줄링 문제에 초점을 맞춥니다. 우리는 강화 학습(Reinforcement Learning, RL)을 사용하여 메모리 매핑 문제를 해결하는 접근 방식을 소개합니다. RL은 계획 가능한 순차적 의사결정 문제와 고차원 데이터 입력을 가진 조합적 탐색 공간에 적합한 해결 패러다임입니다. 우리는 이 문제를 단일 플레이어 게임으로 공식화하고, 이를 mallocGame이라고 명명했습니다. 이 게임에서 높은 보상을 얻는 궤적은 대상 하드웨어에서 효율적인 메모리 매핑에 해당합니다. 또한, 우리는 강화 학습 에이전트인 mallocMuZero를 소개하고, 이 에이전트가 이 게임을 통해 새로운 개선된 메모리 매핑 솔루션을 발견하여 실제 ML 가속기에서의 ML 워크로드 실행 시간을 단축할 수 있음을 보여줍니다. 우리는 mallocMuZero의 성능을 Accelerated Linear Algebra (XLA) 컴파일러에서 사용되는 기본 솔버와 현실적인 ML 워크로드 벤치마크에서 비교합니다. 추가적으로, mallocMuZero가 최근 발표된 AlphaTensor 행렬 곱셈 모델의 실행 시간을 개선할 수 있음을 보여줍니다.
OpenAI, Google DeepMind, Anthropic를 비롯한 여러 주요 AI 기업들은 광범위한 인지 작업에서 인간의 성능을 달성하거나 능가하는 인공 일반 지능(AGI) 시스템을 구축하는 것을 명시된 목표로 삼고 있습니다. 이러한 목표를 추구하는 과정에서, 특히 중대한 위험을 초래할 수 있는 AI 시스템을 개발하고 배포할 가능성이 있습니다. 이러한 위험을 완화하기 위해 이미 일부 조치를 취했지만, 아직까지는 모범 사례가 정립되지 않았습니다. 모범 사례를 식별하는 데 기여하기 위해, 우리는 AGI 연구소, 학계, 시민 사회의 주요 전문가 92명에게 설문조사를 보내 51개의 응답을 받았습니다. 참가자들은 AGI 연구소가 해야 할 일에 대한 50가지 진술에 대해 어느 정도 동의하는지 질문받았습니다. 우리의 주요 발견은 참가자들이 평균적으로 모든 진술에 동의했다는 것입니다. 많은 진술이 극도로 높은 동의 수준을 받았습니다. 예를 들어, 응답자의 98%가 AGI 연구소가 배포 전 위험 평가, 위험한 능력 평가, 제3자 모델 감사, 모델 사용에 대한 안전 제한, 레드 팀 테스트를 수행해야 한다는 데 어느 정도 또는 강하게 동의했습니다. 궁극적으로, 우리의 진술 목록은 AGI 연구소를 위한 모범 사례, 표준, 규제를 개발하려는 노력에 유용한 기초로 작용할 수 있을 것입니다.