번역이 포함된 일일 선별된 AI 연구 논문
사전 학습된 음성 인식 모델의 크기가 증가함에 따라, 이러한 대형 모델을 낮은 지연 시간이나 자원이 제한된 환경에서 실행하는 것은 어려운 과제가 되었습니다. 본 연구에서는 의사 레이블링(pseudo-labelling)을 활용하여 대규모 오픈소스 데이터셋을 구축하고, 이를 사용해 Whisper 모델을 더 작은 변형인 Distil-Whisper로 증류(distill)하였습니다. 간단한 단어 오류율(WER) 휴리스틱을 사용하여, 훈련에 사용할 최고 품질의 의사 레이블만을 선별했습니다. 증류된 모델은 5.8배 더 빠르고 매개변수가 51% 더 적으며, 제로샷 전이(zero-shot transfer) 설정에서 분포 외(out-of-distribution) 테스트 데이터에 대해 WER이 1% 이내로 유지됩니다. Distil-Whisper는 Whisper 모델의 어려운 음향 조건에 대한 견고성을 유지하면서도, 장시간 오디오에서의 환각(hallucination) 오류에 덜 취약합니다. Distil-Whisper는 Whisper와 함께 추측 디코딩(speculative decoding)을 위해 설계되어, 원본 모델과 동일한 출력을 수학적으로 보장하면서도 2배의 속도 향상을 제공합니다. 이 분야의 추가 연구를 촉진하기 위해, 우리는 훈련 코드, 추론 코드 및 모델을 공개적으로 제공합니다.
LLaVA-Interactive는 다중모달 인간-AI 상호작용을 위한 연구 프로토타입입니다. 이 시스템은 다중모달 사용자 입력을 받아 다중모달 응답을 생성함으로써 인간 사용자와 다회차 대화를 나눌 수 있습니다. 특히, LLaVA-Interactive는 언어 프롬프트를 넘어 시각적 프롬프트를 활성화하여 상호작용에서 인간의 의도를 정렬합니다. LLaVA-Interactive의 개발은 사전 구축된 AI 모델의 세 가지 다중모달 기술을 추가 모델 학습 없이 결합함으로써 매우 비용 효율적입니다: LLaVA의 시각적 채팅, SEEM의 이미지 분할, 그리고 GLIGEN의 이미지 생성 및 편집. LLaVA-Interactive의 잠재력을 보여주고 다중모달 상호작용 시스템에 대한 미래 연구를 영감하기 위해 다양한 응용 시나리오가 제시됩니다.
우리는 44.1kHz 스테레오 오디오에서 샘플링 시간 가이던스를 활용한 디퓨전 모델의 조건부 생성을 통해 다양한 현실적인 음악 제작 작업을 해결하는 방법을 보여줍니다. 우리가 고려한 시나리오에는 음악 오디오의 연속, 인페인팅 및 재생성, 두 개의 서로 다른 음악 트랙 간의 부드러운 전환 생성, 그리고 기존 오디오 클립에 원하는 스타일적 특성을 전달하는 작업이 포함됩니다. 이를 위해 우리는 재구성 및 분류 손실, 또는 이 둘의 조합을 모두 지원하는 간단한 프레임워크에서 샘플링 시간에 가이던스를 적용합니다. 이 접근 방식은 생성된 오디오가 주변 맥락과 일치하거나, 적절한 사전 훈련된 분류기나 임베딩 모델에 상대적으로 지정된 클래스 분포나 잠재 표현을 따르도록 보장합니다.
우리는 텍스트가 강력한 교차 모달 인터페이스임을 입증합니다. 이미지와 언어를 연결하는 인터페이스 표현으로 깊은 임베딩에 의존하는 대신, 우리의 접근 방식은 이미지를 텍스트로 표현함으로써 자연어에 내재된 해석 가능성과 유연성을 활용합니다. 우리는 디코딩을 위해 사전 훈련된 텍스트-이미지 확산 모델을 사용하는 오토인코더를 채택합니다. 인코더는 입력 이미지를 텍스트로 변환하도록 훈련되며, 이 텍스트는 고정된 텍스트-이미지 확산 디코더에 입력되어 원본 입력을 재구성합니다. 이 과정을 우리는 '디-확산(De-Diffusion)'이라고 명명합니다. 실험을 통해 디-확산 텍스트가 이미지를 정확하고 포괄적으로 표현할 수 있음을 검증했으며, 이를 통해 다양한 다중 모달 작업을 위해 기성 텍스트-이미지 도구와 대형 언어 모델(LLM)에 쉽게 활용할 수 있습니다. 예를 들어, 단일 디-확산 모델은 다양한 텍스트-이미지 도구에 대한 전이 가능한 프롬프트를 제공할 수 있으며, 소수의 예제로 대형 언어 모델을 프롬프팅하여 개방형 시각-언어 작업에서 새로운 최첨단 성과를 달성합니다.
최근 생성형 AI의 물결은 전례 없는 전 세계적 관심을 불러일으키며, 초인적인 수준의 인공지능에 대한 기대와 우려를 동시에 자아내고 있습니다. 현재의 모델들은 전문가 수준의 인간조차도 도전하거나 능가할 만한 결과물을 단 몇 초 만에 생성할 수 있습니다. 동시에, 이러한 모델들은 비전문가 수준의 인간에게도 기대되지 않는 기본적인 이해 오류를 여전히 보이고 있습니다. 이는 명백한 역설을 제시합니다: 어떻게 초인적인 능력과 인간이라면 거의 저지르지 않을 오류의 지속을 조화시킬 수 있을까요? 본 연구에서는 이러한 긴장이 오늘날의 생성형 모델과 인간의 지능 구성 간의 차이에서 비롯된다고 주장합니다. 구체적으로, 우리는 생성형 AI 역설 가설을 제안하고 검증합니다: 생성형 모델들은 전문가 수준의 출력을 직접 재현하도록 훈련됨으로써, 동일한 유형의 출력을 이해하는 능력에 의존하지 않고도 이를 초월할 수 있는 생성 능력을 획득합니다. 이는 기본적인 이해가 전문가 수준의 출력 생성 능력을 거의 항상 선행하는 인간과 대조됩니다. 우리는 이 가설을 언어와 이미지 양쪽 모달리티에 걸쳐 생성형 모델의 생성 대 이해를 분석하는 통제된 실험을 통해 검증합니다. 실험 결과, 모델들은 생성 작업에서는 인간을 능가할 수 있지만, 이해 능력 측면에서는 일관되게 인간에 미치지 못하며, 생성과 이해 성능 간의 상관관계가 더 약하고, 적대적 입력에 더 취약한 것으로 나타났습니다. 이러한 결과는 모델의 생성 능력이 이해 능력에 의존하지 않을 수 있다는 가설을 지지하며, 인간 지능에 비유하여 인공지능을 해석하는 데 있어 신중을 기할 것을 요구합니다.
픽셀 기반 언어 모델은 텍스트를 이미지로 렌더링하여 처리함으로써 모든 문자 체계를 다룰 수 있어, 개방형 어휘 언어 모델링에 유망한 접근법으로 간주됩니다. 그러나 최근의 접근법은 거의 동등한 입력 패치를 대량으로 생성하는 텍스트 렌더러를 사용하는데, 이는 입력 표현의 중복성으로 인해 다운스트림 작업에 있어 최적이 아닐 수 있습니다. 본 논문에서는 PIXEL 모델(Rust et al., 2023)에서 텍스트를 렌더링하는 네 가지 접근법을 조사하였고, 간단한 문자 바이그램 렌더링이 토큰 수준 또는 다국어 작업의 성능을 저하시키지 않으면서 문장 수준 작업에서 향상된 성능을 가져온다는 것을 발견했습니다. 이 새로운 렌더링 전략은 원래 86M 파라미터 모델과 동등한 성능을 보이는 22M 파라미터의 더 컴팩트한 모델을 훈련할 수 있게 해줍니다. 우리의 분석은 문자 바이그램 렌더링이 패치 빈도 편향에 의해 주도되는 이방성 패치 임베딩 공간을 가진 일관되게 더 나은 모델로 이어지지만, 이는 이미지 패치 기반과 토큰화 기반 언어 모델 간의 연결성을 강조합니다.
대형 언어 모델은 인간의 요구사항을 충족시키는 코드 생성에서 우수한 성능을 보여왔습니다. 그러나 자연어로 표현된 인간의 요구사항은 모호하고, 불완전하며, 애매할 수 있어 대형 언어 모델이 인간의 요구사항을 오해하고 실수를 저지르는 경우가 있습니다. 더욱 문제는 인간 사용자가 이러한 요구사항을 정제하기 어렵다는 점입니다. 인간 사용자가 요구사항을 정제하고 대형 언어 모델의 코드 생성 성능을 향상시키기 위해, 우리는 ChatCoder를 제안합니다: 대형 언어 모델과의 채팅을 통해 요구사항을 정제하는 방법입니다. 우리는 대형 언어 모델이 인간 사용자에게 요구사항 표현을 더 정확하고, 명확하며, 완전하게 정제하도록 안내하는 채팅 방식을 설계했습니다. 실험 결과, ChatCoder는 기존 대형 언어 모델의 성능을 크게 향상시켰습니다. 또한, ChatCoder는 정제 기반 방법과 인간 응답을 통해 미세 조정된 대형 언어 모델에 비해 장점을 가지고 있습니다.
대규모 언어 모델(LLMs)은 다양한 하위 작업에서 인상적인 성능을 보여주고 있습니다. 이러한 모델을 훈련시킬 때, 더 큰 훈련 규모에서 더 많은 토큰을 처리하되 상대적으로 더 작은 모델 크기를 유지하려는 경향이 증가하고 있습니다. 제로 리던던시 옵티마이저(ZeRO)는 기존 훈련 환경에서는 효과적이지만, 이러한 새로운 패러다임에 직면할 때 확장성 문제에 부딪힙니다. 이를 해결하기 위해, 우리는 모델 상태를 세분화하여 파라미터(P), 그래디언트(G), 그리고 옵티마이저 상태(OS)를 포함하는 새로운 LLM 훈련 프레임워크인 AMSP를 제안합니다. 구체적으로, AMSP는 (1) P, G, OS에 대한 독립적인 분할 전략을 가능하게 하는 통합 분할 공간을 구축하고, (2) 최적의 분할 전략을 자동으로 탐색하기 위해 규모 인식 분할기를 통합하며, (3) 다양한 분할 전략으로 인해 발생하는 데이터 배치 불일치를 효율적으로 관리하기 위한 전용 통신 최적화기를 설계합니다. 우리의 평가 결과, AMSP는 1024개의 GPU에서 최대 90.3%의 확장 효율성을 달성했습니다.
비전-언어 모델(VLMs)은 인간이 세계를 이해하는 방식을 모방하여 방대한 양의 데이터로 학습됩니다. 그러나 시각적 착각으로 알려진 것처럼, 인간의 현실 인식이 물리적 세계에 항상 충실한 것은 아닙니다. 이는 중요한 질문을 제기합니다: VLMs도 인간과 유사한 착각을 겪는가, 아니면 현실을 충실히 표현하도록 학습하는가? 이 질문을 탐구하기 위해, 우리는 다섯 가지 유형의 시각적 착각을 포함한 데이터셋을 구축하고, 최신 VLMs에서 시각적 착각을 검토하기 위한 네 가지 작업을 설계했습니다. 연구 결과, 전반적인 일치도는 낮지만, 더 큰 모델일수록 인간의 인식에 가깝고 시각적 착각에 더 취약한 것으로 나타났습니다. 우리의 데이터셋과 초기 연구 결과는 인간과 기계의 시각적 착각에 대한 이해를 증진시키고, 공유된 시각 세계를 인식하고 소통하는 데 있어 인간과 기계를 더 잘 조율할 수 있는 미래의 계산 모델을 위한 발판을 제공할 것입니다. 코드와 데이터는 https://github.com/vl-illusion/dataset에서 확인할 수 있습니다.