번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)은 자연어 처리(NLP) 분야에 혁신을 가져와 기존의 많은 과제에서 최첨단 성능을 개선하고 새로운 능력을 보여주고 있다. 그러나 LLM은 아직 반구조화된 문서 정보 추출 작업에 성공적으로 적용되지 못하고 있다. 이 작업은 많은 문서 처리 워크플로우의 핵심을 이루며, 시각적으로 풍부한 문서(VRD)에서 미리 정의된 대상 스키마에 따라 주요 개체를 추출하는 것을 포함한다. 이 작업에서 LLM 도입의 주요 장애물은 고품질 추출에 필수적인 레이아웃 인코딩의 부재와 답변이 허구화되지 않도록 보장하는 근거 메커니즘의 결여였다. 본 논문에서는 임의의 LLM을 문서 정보 추출에 적응시키기 위한 방법론인 언어 모델 기반 문서 정보 추출 및 위치 지정(LMDX)을 소개한다. LMDX는 단일, 반복, 계층적 개체를 학습 데이터 유무에 관계없이 추출할 수 있으며, 근거를 보장하고 문서 내에서 개체의 위치를 지정할 수 있다. 특히, 우리는 LMDX를 PaLM 2-S LLM에 적용하고 VRDU 및 CORD 벤치마크에서 평가하여 새로운 최첨단 성능을 달성하고, LMDX가 고품질의 데이터 효율적인 파서 생성에 어떻게 기여하는지 보여준다.
본 논문에서 우리는 디퓨전 U-Net의 잠재력을 발굴하여, 생성 품질을 실시간으로 크게 향상시키는 "공짜 점심"으로서의 역할을 밝혀냈다. 우리는 먼저 U-Net 아키텍처가 디노이징 과정에 기여하는 핵심 요소를 조사하였고, 그 주요 백본이 주로 디노이징에 기여하는 반면, 스킵 연결은 주로 디코더 모듈에 고주파수 특성을 도입하여 네트워크가 백본의 의미를 간과하게 만든다는 사실을 확인하였다. 이러한 발견을 바탕으로, 우리는 추가적인 학습이나 미세 조정 없이도 생성 품질을 향상시키는 간단하면서도 효과적인 방법인 "FreeU"를 제안한다. 우리의 핵심 통찰은 U-Net의 스킵 연결과 백본 특징 맵에서 기원하는 기여를 전략적으로 재가중하여, U-Net 아키텍처의 두 구성 요소의 강점을 모두 활용하는 것이다. 이미지 및 비디오 생성 작업에서의 유망한 결과는 우리의 FreeU가 Stable Diffusion, DreamBooth, ModelScope, Rerender, ReVersion과 같은 기존 디퓨전 모델에 쉽게 통합될 수 있으며, 단 몇 줄의 코드만으로 생성 품질을 개선할 수 있음을 보여준다. 추론 과정에서 두 개의 스케일링 인자를 조정하기만 하면 된다. 프로젝트 페이지: https://chenyangsi.top/FreeU/.
본 논문은 다중모드 이해와 생성 간의 자주 간과되는 시너지를 활용하여 다재다능한 다중모드 대형 언어 모델(MLLM)을 최초로 구현한 학습 프레임워크인 DreamLLM을 소개한다. DreamLLM은 두 가지 기본 원칙에 기반하여 작동한다. 첫 번째 원칙은 원시 다중모드 공간에서 직접 샘플링을 통해 언어와 이미지의 사후 확률 분포를 생성적으로 모델링하는 데 초점을 맞춘다. 이 접근법은 CLIP과 같은 외부 특징 추출기의 한계와 정보 손실을 극복하며, 보다 철저한 다중모드 이해를 가능하게 한다. 두 번째 원칙은 DreamLLM이 텍스트와 이미지 콘텐츠뿐만 아니라 비정형 레이아웃을 모델링하여 원시적이고 인터리브된 문서를 생성하도록 촉진한다. 이를 통해 DreamLLM은 모든 조건부, 주변 및 결합 다중모드 분포를 효과적으로 학습할 수 있다. 결과적으로 DreamLLM은 자유형식의 인터리브된 콘텐츠를 생성할 수 있는 최초의 MLLM으로 자리매김한다. 포괄적인 실험을 통해 DreamLLM이 향상된 학습 시너지로부터 얻은 제로샷 다중모드 일반주의자로서의 우수한 성능을 입증한다.
본 논문에서는 텍스트 집약적 이미지의 기계 독해를 위한 다중모달 리터러시 모델인 Kosmos-2.5를 소개한다. 대규모 텍스트 집약적 이미지 데이터로 사전 학습된 Kosmos-2.5는 두 가지 독립적이면서도 상호 협력적인 변환 작업에서 탁월한 성능을 보인다: (1) 공간 인식 텍스트 블록 생성, 즉 각 텍스트 블록에 이미지 내 공간 좌표를 할당하는 작업과 (2) 스타일과 구조를 마크다운 형식으로 포착하는 구조화된 텍스트 출력 생성. 이러한 통합된 다중모달 리터러시 능력은 공유된 Transformer 아키텍처, 작업별 프롬프트, 그리고 유연한 텍스트 표현을 통해 달성되었다. Kosmos-2.5는 문서 수준의 텍스트 인식(end-to-end document-level text recognition)과 이미지-마크다운 텍스트 생성(image-to-markdown text generation) 작업에서 평가되었다. 또한, 이 모델은 지도 미세 조정(supervised fine-tuning)을 통해 다양한 프롬프트로 텍스트 집약적 이미지 이해 작업에 쉽게 적용될 수 있어, 텍스트가 풍부한 이미지를 다루는 실제 응용 분야에서 범용 도구로 활용될 수 있다. 이 연구는 또한 다중모달 대규모 언어 모델의 미래 확장을 위한 길을 열어준다.
그럴듯하지만 사실과 다른 정보를 생성하는 현상, 즉 환각(hallucination)은 대규모 언어 모델에서 아직 해결되지 않은 문제입니다. 우리는 언어 모델이 자신이 제공한 응답에 대해 숙고하여 실수를 수정할 수 있는 능력을 연구했습니다. 이를 위해 우리는 체인-오브-검증(Chain-of-Verification, CoVe) 방법을 개발했습니다. 이 방법은 모델이 먼저 (i) 초기 응답을 초안으로 작성한 다음, (ii) 이 초안을 사실 확인하기 위한 검증 질문을 계획하고, (iii) 다른 응답에 영향을 받지 않도록 독립적으로 이 질문에 답하며, (iv) 최종적으로 검증된 응답을 생성하는 과정으로 구성됩니다. 실험을 통해 CoVe가 Wikidata의 목록 기반 질문, 폐쇄형 MultiSpanQA, 그리고 장문 텍스트 생성 등 다양한 작업에서 환각 현상을 줄이는 것을 확인했습니다.
AI 커뮤니티는 대규모 멀티모달 데이터셋을 기반으로 강력한 파운데이션 모델을 개발하는 데 있어 상당한 진전을 이루어 왔습니다. 그러나 오디오 표현 학습 커뮤니티에서는 현재의 오디오-언어 데이터셋이 부족한 규모, 단순한 콘텐츠, 수집 과정의 번거로움과 같은 한계를 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 일련의 공개 도구나 API를 기반으로 한 혁신적이고 자동화된 오디오 캡션 생성 파이프라인을 제안하고, 190만 개 이상의 오디오-텍스트 쌍으로 구성된 대규모 고품질 오디오-언어 데이터셋인 Auto-ACD를 구축했습니다. 제안된 데이터셋의 효과를 입증하기 위해, 우리는 인기 있는 모델들을 이 데이터셋으로 학습시키고 오디오-언어 검색, 오디오 캡셔닝, 환경 분류와 같은 다양한 다운스트림 작업에서의 성능 향상을 보여줍니다. 또한, 우리는 새로운 테스트 세트를 구축하고 오디오-텍스트 작업을 위한 벤치마크를 제공합니다. 제안된 데이터셋은 https://auto-acd.github.io/에서 공개될 예정입니다.
최근 대규모 언어 모델(LLMs)은 뛰어난 성능과 일반화 능력으로 인해 연구 커뮤니티로부터 상당한 주목을 받고 있다. 본 논문에서는 LLMs를 통합하여 음성 인식 모델을 상황에 맞게 조정하는 새로운 방법을 소개한다. 우리의 접근 방식은 사전 학습된 LLM을 기반으로 음성 인식을 혼합 모드 언어 모델링 작업으로 재구성한다. 시스템이 디코더 전용 방식으로 전사를 완성하도록 학습시키기 위해 오디오 특징과 선택적인 텍스트 토큰을 제공한다. 결과적으로, 시스템은 학습 중에 비정형 상황 정보를 활용하는 방법을 암묵적으로 학습하도록 유도된다. 실험 결과, 추가적인 텍스트 문맥이 제공될 때 6%의 WER(Word Error Rate) 감소로 성능이 크게 향상됨을 보여준다. 또한, 본 방법은 25배 이상 큰 음성 데이터셋으로 학습된 상황별 RNN-T 기준 시스템과 비교하여 전반적으로 7.5% WER, 희귀 단어에서는 17% WER 개선을 달성하며 경쟁력 있는 성능을 보인다. 전반적으로, 어댑터를 통해 소수의 학습 가능한 매개변수만 추가함으로써 사전 학습된 LLM의 상황별 음성 인식 능력을 해제하면서도 텍스트 전용 입력 기능을 유지할 수 있음을 입증한다.
Languini Kitchen은 연구 공동체이자 코드베이스로서, 제한된 컴퓨팅 자원을 가진 연구자들이 언어 모델링 분야에 의미 있게 기여할 수 있도록 지원합니다. 우리는 가속기 시간으로 측정된 동등한 컴퓨팅 자원을 기반으로 모델 비교를 가능하게 하는 실험 프로토콜을 소개합니다. 모델이 학습하는 토큰의 수는 모델의 처리량과 선택된 컴퓨팅 클래스에 의해 정의됩니다. 특히, 이 접근 방식은 총 매개변수 수나 부동소수점 연산에 영향을 미치는 중요한 하이퍼파라미터에 대한 제약을 피합니다. 평가를 위해, 우리는 기존의 학계 벤치마크를 질, 다양성, 문서 길이 측면에서 능가하는 크고 다양하며 고품질의 책 데이터셋을 전처리합니다. 이를 통해 다양한 컴퓨팅 수준에서 실험을 통해 추정된 경험적 스케일링 경향을 기반으로 방법들을 비교합니다. 이 연구는 또한 두 가지 베이스라인 모델을 제공합니다: GPT-2 아키텍처에서 파생된 피드포워드 모델과 10배 처리량을 가진 새로운 형태의 LSTM 순환 모델입니다. GPT 베이스라인이 모든 컴퓨팅 수준에서 더 나은 perplexity를 달성하는 반면, 우리의 LSTM 베이스라인은 예측 가능하고 더 유리한 스케일링 법칙을 보여줍니다. 이는 향상된 처리량과 동일한 테스트 perplexity 감소를 달성하기 위해 더 적은 학습 토큰이 필요하기 때문입니다. 두 모델의 스케일링 법칙을 외삽하면 약 50,000 가속기 시간에서 교차점이 발생합니다. 우리는 이 연구가 의미 있고 재현 가능한 언어 모델링 연구의 기초가 되기를 바랍니다.
최근 Neural Radiance Fields(NeRFs)의 발전으로 머리 자세, 표정, 시점 방향을 제어하며 동적인 초상화 장면을 재구성하고 재생할 수 있게 되었습니다. 그러나 이러한 모델을 학습할 때는 변형된 영역(예: 얼굴)에서 광도 일관성이 유지되어야 한다고 가정합니다. 즉, 머리 자세와 표정이 변하면서 얼굴이 균일하게 조명되어야 합니다. 이러한 비디오 프레임 간의 광도 일관성은 스튜디오 환경에서도 유지하기 어려워, 재생 가능한 신경 초상화가 재생 중에 아티팩트가 발생하기 쉽습니다. 본 연구에서는 실제 촬영 조건에서 완전히 제어 가능한 3D 초상화를 생성할 수 있는 CoDyNeRF 시스템을 제안합니다. CoDyNeRF는 표면 법선과 표정 및 머리 자세 변형에 따라 조건화된 정규 공간에서 동적 외관 모델을 통해 조명 의존적 효과를 근사하는 방법을 학습합니다. 표면 법선 예측은 3DMM 법선을 사용하여 안내되며, 이는 머리 자세와 표정 변화로 인한 강체 및 비강체 변형으로 인해 직접 법선을 예측하기 어려운 인간 머리의 법선에 대한 대략적인 사전 정보 역할을 합니다. 스마트폰으로 촬영한 짧은 비디오만으로 학습하여, 명시적인 머리 자세와 표정 제어, 그리고 현실적인 조명 효과를 포함한 초상화 장면의 자유 시점 합성에서 우리 방법의 효과를 입증합니다. 프로젝트 페이지는 다음에서 확인할 수 있습니다: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html