번역이 포함된 일일 선별된 AI 연구 논문
우리는 이미지 태깅을 위한 강력한 기초 모델인 Recognize Anything Model(RAM)을 소개합니다. RAM은 일반적인 카테고리를 높은 정확도로 인식할 수 있습니다. RAM은 수동 주석 대신 대규모 이미지-텍스트 쌍을 활용하여 이미지 태깅을 위한 새로운 패러다임을 제시합니다. RAM의 개발은 네 가지 주요 단계로 구성됩니다. 첫째, 자동 텍스트 의미 분석을 통해 대규모로 주석 없는 이미지 태그를 획득합니다. 둘째, 원본 텍스트와 파싱된 태그를 각각 감독으로 사용하여 캡션과 태깅 작업을 통합하여 자동 주석을 위한 예비 모델을 학습시킵니다. 셋째, 데이터 엔진을 사용하여 추가 주석을 생성하고 잘못된 주석을 정리합니다. 마지막으로, 처리된 데이터로 모델을 재학습시키고 더 작지만 더 높은 품질의 데이터셋을 사용하여 미세 조정합니다. 우리는 RAM의 태깅 능력을 다양한 벤치마크에서 평가하고 인상적인 제로샷 성능을 관찰했으며, CLIP과 BLIP을 크게 능가하는 결과를 보였습니다. 특히, RAM은 완전 감독 방식도 능가하며 Google API와 경쟁력 있는 성능을 보였습니다. 우리는 RAM을 https://recognize-anything.github.io/에서 공개하여 컴퓨터 비전 분야의 대형 모델 발전을 촉진하고자 합니다.
인스트럭션 튜닝은 ChatGPT와 같은 대형 언어 모델(LLMs)을 크게 발전시켜 다양한 작업에서 인간의 지시에 맞출 수 있게 했습니다. 그러나 고품질 인스트럭션 데이터셋의 부족으로 인해 오픈 비전-언어 모델(VLMs)의 발전은 제한적이었습니다. 이 문제를 해결하고 비전-언어 분야의 연구를 촉진하기 위해, 우리는 인간의 지시에 맞춰 VLM을 최적화하도록 설계된 다중 모달, 다국어 인스트럭션 튜닝(M^3IT) 데이터셋을 소개합니다. 우리의 M^3IT 데이터셋은 40개의 신중하게 선별된 데이터셋으로 구성되어 있으며, 240만 개의 인스턴스와 400개의 수동으로 작성된 작업 지시를 포함하고 있으며, 이를 비전-텍스트 구조로 재구성했습니다. 주요 작업은 고급 번역 시스템을 통해 80개 언어로 번역되어 더 넓은 접근성을 보장합니다. M^3IT는 작업 범위, 지시 수 및 인스턴스 규모 측면에서 이전 데이터셋을 능가합니다. 또한, 우리는 M^3IT 데이터셋으로 훈련된 Ying-VLM 모델을 개발하여, 세계 지식이 필요한 복잡한 질문에 답하고, 보지 못한 비디오 작업에 일반화하며, 중국어로 된 보지 못한 지시를 이해할 수 있는 잠재력을 보여줍니다. 더 많은 연구를 장려하기 위해, 우리는 데이터셋과 훈련된 모델을 오픈소스로 공개했습니다.
우리는 새로운 과제, 즉 저자원 텍스트-투-토킹 아바타(Text-to-Talking Avatar)에 관심을 가지고 있습니다. 단 몇 분 길이의 오디오 트랙이 포함된 토킹 비디오를 학습 데이터로 사용하고, 임의의 텍스트를 입력으로 주어졌을 때, 입력 텍스트에 해당하는 고품질의 토킹 포트레이트 비디오를 합성하는 것이 목표입니다. 이 과제는 디지털 휴먼 산업에서 광범위한 응용 가능성을 지니고 있지만, 두 가지 도전 과제로 인해 기술적으로 아직 달성되지 못했습니다: (1) 기존의 다중 화자 텍스트-투-스피치(Text-to-Speech) 시스템이 도메인 외 오디오에서 음색을 모방하는 것은 어려운 과제입니다. (2) 제한된 학습 데이터로 고화질이고 입술 동기화가 잘 된 토킹 아바타를 렌더링하는 것은 어려운 작업입니다. 본 논문에서는 적응형 텍스트-투-토킹 아바타(Adaptive Text-to-Talking Avatar, Ada-TTA)를 소개합니다. 이 방법은 (1) 텍스트 내용, 음색, 운율을 잘 분리하는 일반적인 제로샷 다중 화자 TTS 모델을 설계하고, (2) 최신 신경 렌더링 기술을 활용하여 현실적인 오디오 기반 토킹 페이스 비디오 생성을 달성합니다. 이러한 설계를 통해, 우리의 방법은 앞서 언급한 두 가지 도전 과제를 극복하고, 신원을 보존하는 음성과 현실적인 토킹 비디오를 생성할 수 있습니다. 실험 결과, 우리의 방법은 현실적이고 신원을 보존하며 오디오-비주얼 동기화가 잘 된 토킹 아바타 비디오를 합성할 수 있음을 보여줍니다.
이미지 간의 대응 관계를 찾는 것은 컴퓨터 비전의 근본적인 문제입니다. 본 논문에서는 명시적인 지도 없이도 이미지 확산 모델에서 대응 관계가 자연스럽게 나타남을 보여줍니다. 우리는 확산 네트워크에서 이러한 암묵적 지식을 이미지 특징으로 추출하는 간단한 전략, 즉 DIffusion FeaTures(DIFT)를 제안하고 이를 실제 이미지 간의 대응 관계를 설정하는 데 사용합니다. 작업별 데이터나 주석에 대한 추가적인 미세 조정이나 지도 없이도 DIFT는 의미적, 기하학적, 시간적 대응 관계를 식별하는 데 있어 약한 지도 방법과 경쟁력 있는 기성 특징들을 능가할 수 있습니다. 특히 의미적 대응 관계의 경우, Stable Diffusion에서 추출한 DIFT는 도전적인 SPair-71k 벤치마크에서 DINO와 OpenCLIP을 각각 19 및 14 정확도 포인트 차이로 앞섭니다. 또한 18개 카테고리 중 9개에서 최신 지도 방법을 능가하면서도 전체 성능에서는 동등한 수준을 유지합니다. 프로젝트 페이지: https://diffusionfeatures.github.io
대규모 언어 모델(LLM)은 다른 모델의 훈련 및 평가를 위한 텍스트 데이터를 생성하는 데 사용될 수 있습니다. 그러나 LLM을 사용하여 고품질 데이터셋을 만드는 것은 어려운 과제일 수 있습니다. 본 연구에서는 LLM 기반 텍스트 데이터 생성에서 높은 다양성과 정확성을 달성하기 위해 인간과 AI의 협업 방식을 탐구합니다. 먼저, 텍스트 생성의 다양성을 높이기 위한 두 가지 접근 방식을 검토합니다: 1) 이미 빈번하게 생성된 언어의 생성을 최소화하는 로짓 억제(logit suppression), 그리고 2) 토큰 샘플링 확률을 평탄화하는 온도 샘플링(temperature sampling). 우리는 이러한 다양화 접근 방식이 데이터의 다양성을 증가시킬 수 있지만, 종종 데이터 정확성(즉, 텍스트와 레이블이 대상 도메인에 적합한 정도)의 희생을 초래한다는 사실을 발견했습니다. 이 문제를 해결하기 위해 두 가지 인간 개입 방식을 검토했습니다: 1) 잘못 정렬된 레이블을 수정하는 레이블 교체(LR), 그리고 2) 사용자의 관심 도메인을 벗어나거나 고려된 레이블이 적용되지 않는 사례를 제거하는 범위 외 필터링(OOSF). 오라클 연구를 통해 LR이 다양화된 데이터셋으로 훈련된 모델의 절대 정확도를 14.4% 증가시킨다는 사실을 확인했습니다. 또한, LR 개입으로 생성된 데이터로 훈련된 일부 모델이 LLM 기반의 소수 샷 분류(few-shot classification)를 능가하는 성능을 보였습니다. 반면, OOSF는 모델 정확성을 높이는 데 효과적이지 않았으며, 이는 인간이 참여하는 텍스트 데이터 생성에 대한 향후 연구의 필요성을 시사합니다.
언어 모델은 복잡한 작업에서 단계별로 추론할 때 더 높은 정확도를 달성하는 경우가 많습니다. 그러나 그들의 추론은 불완전하거나 일관성이 없거나 바람직하지 않은 사전 가정에 의존할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 상태와 점진적 제약을 사용하여 생성을 안내하는 '가이드(guide)'라는 도구 클래스를 언어 모델에 도입합니다. 모델은 가이드를 호출하여 자신의 생성을 도구가 제공하는 유효한 명제 집합으로 제한할 수 있습니다. 이에 따라 모델의 선택은 가이드의 상태를 변경할 수 있습니다. 우리는 논리적 추론을 위한 일반적인 시스템을 가이드로 사용하는 방법을 보여주며, 이를 'LogicGuide'라고 명명합니다. 자연어로 주어진 추론 문제에 대해, 모델은 LogicGuide를 위해 자신의 가정을 형식화한 다음 추론 단계가 타당함을 보장할 수 있습니다. PrOntoQA 및 ProofWriter 추론 데이터셋을 사용한 실험에서 LogicGuide는 GPT-3, GPT-3.5 Turbo 및 LLaMA의 성능을 크게 향상시켰습니다(정확도 향상 최대 35%). 또한 LogicGuide는 콘텐츠 효과를 크게 감소시켰는데, 이는 인간과 언어 모델 모두가 겪어 온 사전 및 현재 가정의 간섭을 의미합니다. 마지막으로, 우리는 LLaMA 13B를 자체 추론으로부터 부트스트랩하는 방법을 탐구했으며, LogicGuide가 핵심적임을 발견했습니다: 검증된 자체 생성 추론만을 학습 데이터로 사용함으로써, LLaMA는 자기 개선이 가능하며 자신의 환각(허구적 추론)으로부터 학습하는 것을 피할 수 있습니다.
텍스트 전용 코퍼스를 사용한 도메인 적응은 종단 간(E2E) 음성 인식에서 어려운 과제입니다. TTS를 통해 텍스트에서 오디오를 합성하여 적응하는 방법은 자원 소모가 큽니다. 본 논문에서는 텍스트 전용 코퍼스를 사용한 빠른 도메인 적응을 가능하게 하는 통합 음성-텍스트 표현 학습 방법을 Conformer Transducer(USTR-CT)에 적용한 방법을 제시합니다. 기존의 텍스트로그램 방법과 달리, 본 연구에서는 텍스트 표현을 학습하기 위해 추가적인 텍스트 인코더를 도입하고 추론 시에는 이를 제거함으로써 온라인 배포에 대한 수정이 필요하지 않습니다. 적응 효율성을 높이기 위해 단일 단계 및 다단계 적응 방법도 탐구했습니다. LibriSpeech를 SPGISpeech에 적응시키는 실험에서 제안된 방법은 대상 도메인에서 단어 오류율(WER)을 상대적으로 44% 감소시켰으며, 이는 TTS 방법과 텍스트로그램 방법보다 우수한 성능을 보였습니다. 또한, 제안된 방법이 내부 언어 모델 추정(ILME)과 결합되어 성능을 더욱 향상시킬 수 있음을 보여줍니다.
사전 학습된 언어 모델(LM)은 엔티티에 대한 세계 지식을 쉽게 기억하지만, 두 개 이상의 사실을 조합하여 질문 응답 작업에서 다중 홉 추론을 수행하는 데 어려움을 겪습니다. 본 연구에서는 구조화된 지식 그래프 위의 랜덤 워크에 의존하여 이러한 한계를 개선하는 기법을 제안합니다. 구체적으로, 우리는 소프트 프롬프트를 사용하여 LM이 다중 홉 질문을 답변으로 이어지는 랜덤 워크 경로에 매핑하는 방법을 학습하도록 유도합니다. 두 개의 T5 LM에 우리의 방법을 적용한 결과, 2홉 추론이 필요한 질문에 대해 표준 튜닝 접근법 대비 상당한 개선을 보였습니다.
본 논문에서는 나레이션이 포함된 하우투(how-to) 비디오에서 절차적 활동의 단계를 지역화하는 접근 방식을 제시한다. 대규모로 레이블이 지정된 데이터의 부족 문제를 해결하기 위해, 우리는 다양한 절차적 작업에 대한 설명이 담긴 언어 지식 베이스(wikiHow)에서 단계 설명을 가져온다. 어떠한 형태의 수동 감독도 없이, 우리의 모델은 프레임, 나레이션, 단계 설명이라는 세 가지 양식을 매칭함으로써 하우투 비디오 내 절차적 글의 단계를 시간적으로 정착(grounding)하는 방법을 학습한다. 구체적으로, 우리의 방법은 두 가지 독립적인 경로에서 얻은 정보를 융합하여 단계를 비디오에 정렬한다: i) 단계 설명을 프레임에 직접 정렬하는 방식, ii) 단계-나레이션과 나레이션-비디오 간의 대응 관계를 조합하여 얻은 간접 정렬 방식. 특히, 우리의 접근 방식은 순서 정보를 활용하여 글의 모든 단계를 한 번에 전역적으로 시간 정착하며, 반복적으로 개선되고 엄격하게 필터링된 단계 의사 레이블(pseudo-labels)로 학습된다. 모델의 성능을 검증하기 위해, 우리는 새로운 평가 벤치마크인 HT-Step을 도입한다. 이 벤치마크는 HowTo100M 데이터셋의 124시간 분량을 수동으로 주석 처리하여 wikiHow 글에서 가져온 단계로 구성되었다. 이 벤치마크에 대한 실험과 CrossTask에서의 제로샷(zero-shot) 평가를 통해, 우리의 다중 양식 정렬 방식이 여러 베이스라인 및 기존 연구 대비 극적인 성능 향상을 가져옴을 입증한다. 마지막으로, 우리의 나레이션-비디오 매칭을 위한 내부 모듈이 HTM-Align 나레이션-비디오 정렬 벤치마크에서 최신 기술을 크게 능가함을 보여준다.