번역이 포함된 일일 선별된 AI 연구 논문
텍스트 설명에서 고품질 비디오 생성을 위한 수요가 증가함에 따라 이 분야에서의 연구가 활발히 진행되고 있다. 본 연구에서는 텍스트-이미지 모델, 비디오 모션 생성기, 참조 이미지 임베딩 모듈, 프레임 보간 모듈을 통합한 MagicVideo-V2를 소개한다. 이러한 아키텍처 설계를 통해 MagicVideo-V2는 미학적으로 만족스러운 고해상도 비디오를 뛰어난 충실도와 부드러움으로 생성할 수 있다. 대규모 사용자 평가를 통해 Runway, Pika 1.0, Morph, Moon Valley 및 Stable Video Diffusion 모델과 같은 주요 텍스트-비디오 시스템보다 우수한 성능을 보여준다.
본 논문에서는 여러 오디오 토큰 스트림에 직접 작동하는 마스크 생성 시퀀스 모델링 방법인 MAGNeT을 소개한다. 기존 연구와 달리, MAGNeT은 단일 단계의 비자기회귀 트랜스포머로 구성된다. 학습 과정에서는 마스킹 스케줄러로부터 얻은 마스크된 토큰의 범위를 예측하며, 추론 과정에서는 여러 디코딩 단계를 통해 출력 시퀀스를 점진적으로 구성한다. 생성된 오디오의 품질을 더욱 향상시키기 위해, 외부 사전 학습 모델을 활용하여 MAGNeT의 예측을 재점수화하고 순위를 매긴 후 이를 후속 디코딩 단계에 사용하는 새로운 재점수화 방법을 도입한다. 마지막으로, MAGNeT의 하이브리드 버전을 탐구하여, 처음 몇 초는 자기회귀 방식으로 생성하고 나머지 시퀀스는 병렬로 디코딩하는 방식으로 자기회귀 모델과 비자기회귀 모델을 융합한다. 본 연구는 텍스트-음악 및 텍스트-오디오 생성 작업에서 MAGNeT의 효율성을 입증하며, 객관적 지표와 인간 평가를 고려한 광범위한 실험적 평가를 수행한다. 제안된 접근 방식은 평가된 기준 모델과 비슷한 성능을 보이면서도 상당히 빠른 속도(자기회귀 기준 모델보다 7배 빠름)를 자랑한다. 추가적으로, MAGNeT을 구성하는 각 요소의 중요성과 자기회귀 및 비자기회귀 모델링 간의 트레이드오프(지연 시간, 처리량, 생성 품질 등)를 분석을 통해 밝힌다. 샘플은 데모 페이지(https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT)에서 확인할 수 있다.
선형 어텐션은 최근 기존의 소프트맥스 어텐션을 대체할 유망한 메커니즘으로 등장한 효율적인 어텐션 기법이다. 선형 어텐션은 토큰을 선형 계산 복잡도로 처리할 수 있는 능력을 통해 이론적으로는 속도를 희생하지 않고도 무한한 길이의 시퀀스를 다룰 수 있으며, 즉 고정된 메모리 소비로 다양한 시퀀스 길이에 대해 일정한 학습 속도를 유지할 수 있다. 그러나 누적 합산(cumsum) 문제로 인해 현재의 선형 어텐션 알고리즘들은 인과적 설정에서 이론적 이점을 발휘하지 못하고 있다. 본 논문에서는 선형 어텐션이 이론적 계산 이점을 실현할 수 있도록 하는 최초의 선형 어텐션 구현체인 라이트닝 어텐션-2를 제안한다. 이를 위해 타일링(tiling) 개념을 활용하여 선형 어텐션 계산에서 블록 내(intra-block)와 블록 간(inter-block) 요소를 별도로 처리한다. 구체적으로, 블록 내에서는 기존의 어텐션 계산 메커니즘을 사용하고, 블록 간에는 선형 어텐션 커널 트릭을 적용한다. GPU 하드웨어의 장점을 최대한 활용하기 위해 순방향 및 역방향 과정 모두에서 타일링 기법을 채택하였다. 우리는 이 알고리즘을 Triton으로 구현하여 IO 인지적이고 하드웨어 친화적으로 만들었다. 다양한 모델 크기와 시퀀스 길이에 대해 실험을 수행한 결과, 라이트닝 어텐션-2는 입력 시퀀스 길이에 관계없이 일관된 학습 및 추론 속도를 유지하며 다른 어텐션 메커니즘보다 훨씬 빠른 성능을 보였다. 소스 코드는 https://github.com/OpenNLPLab/lightning-attention에서 확인할 수 있다.
테이블 기반 추론은 대형 언어 모델(LLM)을 활용하여 테이블 기반 질의응답 및 사실 검증과 같은 다양한 테이블 이해 작업을 해결하기 위한 유망한 방향입니다. 일반적인 추론과 비교하여, 테이블 기반 추론은 자유 형식의 질문과 반구조화된 테이블 데이터로부터 내재된 의미를 추출해야 합니다. Chain-of-Thought 및 유사한 접근 방식은 텍스트 컨텍스트 형태로 추론 체인을 통합하지만, 테이블 데이터를 추론 체인에서 효과적으로 활용하는 방법은 여전히 해결되지 않은 문제입니다. 우리는 Chain-of-Table 프레임워크를 제안하며, 여기서 테이블 데이터는 중간 사고의 대리자로서 추론 체인에 명시적으로 사용됩니다. 구체적으로, 우리는 LLM을 컨텍스트 내 학습을 통해 반복적으로 연산을 생성하고 테이블을 업데이트하여 테이블 추론 체인을 표현하도록 유도합니다. 이를 통해 LLM은 이전 연산의 결과를 기반으로 다음 연산을 동적으로 계획할 수 있습니다. 테이블의 이러한 지속적인 진화는 주어진 테이블 문제에 대한 추론 과정을 보여주는 체인을 형성합니다. 이 체인은 중간 결과의 구조화된 정보를 포함하여 더 정확하고 신뢰할 수 있는 예측을 가능하게 합니다. Chain-of-Table은 WikiTQ, FeTaQA 및 TabFact 벤치마크에서 여러 LLM 선택에 걸쳐 새로운 최첨단 성능을 달성했습니다.
점프 컷은 시청 경험에 있어 갑작스럽고 때로는 원치 않는 변화를 제공합니다. 본 논문에서는 토킹 헤드(talking head) 비디오의 맥락에서 이러한 점프 컷을 부드럽게 만드는 새로운 프레임워크를 제시합니다. 우리는 비디오 내 다른 소스 프레임에서 주체의 외형을 활용하며, 이를 DensePose 키포인트와 얼굴 랜드마크에 기반한 중간 수준 표현과 융합합니다. 움직임을 구현하기 위해, 우리는 컷 주변의 시작 및 종료 프레임 간 키포인트와 랜드마크를 보간합니다. 이후 키포인트와 소스 프레임을 기반으로 이미지 변환 네트워크를 사용하여 픽셀을 합성합니다. 키포인트가 오류를 포함할 수 있으므로, 우리는 각 키포인트에 대해 여러 옵션 중 가장 적절한 소스를 선택하고 추출하기 위한 교차 모달(cross-modal) 주의 메커니즘을 제안합니다. 이러한 중간 수준 표현을 활용함으로써, 우리의 방법은 강력한 비디오 보간 기법보다 더 나은 결과를 달성할 수 있습니다. 우리는 토킹 헤드 비디오에서 필러 단어, 일시 정지, 심지어 무작위 컷과 같은 다양한 점프 컷에 대해 이 방법을 시연합니다. 실험 결과, 토킹 헤드가 점프 컷에서 회전하거나 급격히 움직이는 어려운 경우에도 원활한 전환을 달성할 수 있음을 보여줍니다.
이미지 분류 및 캡셔닝과 같은 신경망의 비전 및 비전-언어 응용은 대규모 주석 데이터셋에 의존하며, 이는 상당한 데이터 수집 과정을 필요로 합니다. 이러한 시간 소모적인 작업은 대규모 데이터셋의 출현을 저해하여 연구자와 실무자들이 선택할 수 있는 옵션을 제한합니다. 따라서 우리는 더 효율적인 이미지 수집 및 주석 달기 방법을 모색합니다. 이전의 시도들은 HTML 대체 텍스트와 소셜 미디어 게시물에서 캡션을 수집했지만, 이러한 데이터 소스는 노이즈, 희소성 또는 주관성으로 인해 문제가 있었습니다. 이러한 이유로 우리는 세 가지 기준(청결성, 정보성, 유창성)을 충족하는 상업적 쇼핑 웹사이트의 데이터를 활용합니다. 우리는 공개적으로 이용 가능한 전자상거래 웹사이트에서 수집된 1,500만 개의 이미지-캡션 쌍으로 구성된 대규모 공개 데이터셋인 Let's Go Shopping(LGS) 데이터셋을 소개합니다. 기존의 일반 도메인 데이터셋과 비교했을 때, LGS 이미지는 전경 객체에 초점을 맞추고 배경이 덜 복잡합니다. LGS에 대한 실험 결과, 기존 벤치마크 데이터셋에서 훈련된 분류기는 전자상거래 데이터로 쉽게 일반화되지 않는 반면, 특정 자기 지도 시각적 특징 추출기는 더 잘 일반화할 수 있음을 보여줍니다. 또한, LGS의 고품질 전자상거래 중심 이미지와 이중 모달 특성은 비전-언어 이중 모달 작업에 유리합니다: LGS는 이미지 캡셔닝 모델이 더 풍부한 캡션을 생성할 수 있게 하고, 텍스트-이미지 생성 모델이 전자상거래 스타일 전이를 달성하는 데 도움을 줍니다.
사실적 질문은 일반적으로 다양한 세분성 수준에서 정확하게 답변될 수 있다. 예를 들어, "버락 오바마는 언제 태어났는가?"라는 질문에 대해 "1961년 8월 4일"과 "1961년" 모두 정답으로 간주될 수 있다. 그러나 표준 질문 응답(QA) 평가 프로토콜은 이를 명시적으로 고려하지 않고 단일 세분성 수준의 답변과 예측된 답변을 비교한다. 본 연구에서는 예측된 답변을 다중 세분성 답변 집합에 대해 정확성과 정보성을 기준으로 평가하는 새로운 평가 설정인 GRANOLA QA를 제안한다. 우리는 기존 데이터셋을 다중 세분성 답변으로 확장하는 간단한 방법론을 제시하고, EntityQuestions 데이터셋의 다중 세분성 버전인 GRANOLA-EQ를 생성한다. 우리는 GRANOLA-EQ에서 다양한 디코딩 방법을 평가하며, 모델의 불확실성과 응답 세분성을 맞추기 위해 설계된 새로운 알고리즘인 Decoding with Response Aggregation (DRAG)을 포함한다. 실험 결과, 표준 디코딩을 사용한 대형 언어 모델은 종종 특정한 답변을 생성하지만 이는 자주 오답인 것으로 나타났다. 반면, 다중 세분성 답변에 대해 평가할 때 DRAG는 평균적으로 약 20점의 정확도 향상을 보였으며, 이는 희귀 개체에 대해 더욱 증가했다. 전반적으로, 이는 표준 평가 및 디코딩 방식이 언어 모델에 내재된 지식을 상당히 과소평가할 수 있음을 보여준다.
음성 향상 분야에서 디퓨전 모델의 잠재력에도 불구하고, 음향 에코 제거(Acoustic Echo Cancellation, AEC)에의 적용은 제한적이었습니다. 본 논문에서는 AEC에 특화된 디퓨전 기반 확률적 재생성 접근법인 DI-AEC를 최초로 제안합니다. 더 나아가, 에지 디바이스에 적합하도록 계산 요구량을 절감한 빠른 스코어 기반 디퓨전 AEC 프레임워크인 FADI-AEC를 제안합니다. 이 프레임워크는 프레임당 한 번만 스코어 모델을 실행함으로써 처리 효율성을 크게 향상시킨 점이 두드러집니다. 또한, 원단 신호를 활용한 새로운 노이즈 생성 기법을 도입하여 원단 및 근단 신호를 모두 활용함으로써 스코어 모델의 정확도를 개선했습니다. 우리는 제안된 방법을 ICASSP2023 Microsoft 딥 에코 제거 챌린지 평가 데이터셋에서 테스트했으며, 이 방법이 일부 종단 간(end-to-end) 방법 및 기타 디퓨전 기반 에코 제거 방법을 능가하는 성능을 보였습니다.