번역이 포함된 일일 선별된 AI 연구 논문
우리는 Seed-Music을 소개합니다. 이는 섬세한 스타일 제어가 가능한 고품질 음악을 생성할 수 있는 음악 생성 시스템 스위트입니다. 우리의 통합된 프레임워크는 자기 회귀 언어 모델링과 확산 접근 방식을 활용하여 두 가지 주요 음악 생성 워크플로우를 지원합니다: 제어된 음악 생성과 포스트 프로덕션 편집. 제어된 음악 생성에서, 우리 시스템은 스타일 설명, 오디오 참조, 악보 및 음성 프롬프트를 포함한 멀티모달 입력에서 성능 제어와 함께 보컬 음악 생성을 가능하게 합니다. 포스트 프로덕션 편집에서는 생성된 오디오에서 가사 및 보컬 멜로디를 직접 편집할 수 있는 대화식 도구를 제공합니다. 독자들께는 https://team.doubao.com/seed-music 에서 데모 오디오 예시를 청취해 보시기를 권장합니다.
트랜스포머는 현대 딥러닝의 중심 요소로 자리 잡고 있습니다. 전통적으로 이러한 모델은 다층 퍼셉트론(MLP) 레이어를 사용하여 채널 간 정보를 섞습니다. 본 논문에서는 MLP 레이어를 Kolmogorov-Arnold Network (KAN) 레이어로 대체하여 모델의 표현력과 성능을 향상시키는 새로운 구조인 Kolmogorov-Arnold Transformer (KAT)를 소개합니다. 그러나 트랜스포머에 KAN을 통합하는 것은 특히 규모를 확장할 때 쉽지 않은 일입니다. 구체적으로 세 가지 주요 도전 과제를 확인합니다: (C1) 기본 함수. KAN에서 사용되는 표준 B-스플라인 함수는 현대 하드웨어에서 병렬 컴퓨팅에 최적화되어 있지 않아 추론 속도가 느려집니다. (C2) 매개변수 및 계산 비효율성. KAN은 각 입력-출력 쌍마다 고유한 함수를 필요로 하므로 계산이 매우 커집니다. (C3) 가중치 초기화. KAN의 가중치 초기화는 깊은 신경망에서 수렴을 달성하는 데 중요한 학습 가능한 활성화 함수로 인해 특히 어려움을 겪습니다. 상기 도전 과제를 극복하기 위해 세 가지 주요 해결책을 제안합니다: (S1) 합리적 기저. B-스플라인 함수를 합리적 함수로 대체하여 현대 GPU와의 호환성을 향상시킵니다. CUDA에서 이를 구현함으로써 빠른 계산을 달성합니다. (S2) 그룹 KAN. 활성화 가중치를 뉴런 그룹을 통해 공유하여 계산 부하를 줄이면서도 성능을 희생하지 않습니다. (S3) 분산 보존 초기화. 활성화 가중치를 신중하게 초기화하여 활성화 분산이 레이어 간에 유지되도록 합니다. 이러한 설계로 KAT는 효과적으로 확장되며 전통적인 MLP 기반 트랜스포머를 쉽게 능가합니다.
Transformer 기반 대규모 언어 모델(LLM)은 다양한 분야에서 점점 중요해지고 있습니다. 그러나 어텐션 연산의 이차 시간 복잡도는 매우 높은 추론 대기 시간과 GPU 메모리 소비로 인해 더 긴 맥락으로 확장하는 데 중요한 도전을 제기합니다. 본 논문에서는 훈련 없이 어텐션 계산을 가속화하는 RetrievalAttention을 제안합니다. 어텐션의 동적 희소성을 활용하기 위해 RetrievalAttention은 CPU 메모리에 KV 벡터에 대한 근사 최근접 이웃 검색(ANNS) 인덱스를 구축하고 생성 중에 벡터 검색을 통해 가장 관련성 높은 벡터를 검색합니다. 쿼리 벡터와 키 벡터 간의 OOD(분포 밖)로 인해, 기본 ANNS 인덱스는 정확한 검색을 위해 여전히 O(N) (일반적으로 모든 키의 30%) 데이터를 스캔해야 하며 높은 희소성을 활용하지 못합니다. RetrievalAttention은 먼저 ANNS 기반 어텐션의 OOD 도전 과제를 식별하고, 쿼리에 적응하고 데이터의 1~3%에만 액세스할 수 있는 어텐션 인식 벡터 검색 알고리즘을 통해 이를 해결하여 하위 선형 시간 복잡도를 달성합니다. RetrievalAttention은 모델 정확도를 유지하면서 훨씬 낮은 GPU 메모리 요구 사항으로 긴 맥락 LLM의 추론 비용을 크게 줄입니다. 특히, 8B 매개변수를 가진 LLM의 128K 토큰을 처리하기 위해 16GB GPU 메모리만 사용하는 RetrievalAttention은 NVIDIA RTX4090(24GB)에서 0.188초에 하나의 토큰을 생성할 수 있습니다.
우리는 570백만 개의 매개변수를 가진 새로운 텍스트 임베딩 모델인 jina-embeddings-v3를 소개합니다. 이 모델은 다국어 데이터 및 긴 문맥 검색 작업에서 최첨단 성능을 달성하며, 최대 8192 토큰까지의 문맥 길이를 지원합니다. 이 모델에는 쿼리-문서 검색, 클러스터링, 분류 및 텍스트 매칭을 위한 고품질 임베딩을 생성하기 위한 일련의 작업별 저랭크 적응 (LoRA) 어댑터가 포함되어 있습니다. 또한 Matryoshka Representation Learning이 훈련 과정에 통합되어 있어 임베딩 차원의 유연한 절단을 허용하면서 성능을 저해하지 않습니다. MTEB 벤치마크 평가 결과, jina-embeddings-v3가 영어 작업에서 최신 OpenAI 및 Cohere의 임베딩을 능가하면서, 모든 다국어 작업에서 multilingual-e5-large-instruct보다 우수한 성능을 달성한다는 것을 보여줍니다.
비전-언어 모델은 최근 다양한 작업에서 뛰어난 성능을 발휘할 수 있는 다재다능한 시스템으로 진화했습니다. 이러한 작업에는 문서 이해, 시각적 질문 응답, 그리고 grounding 등이 포함되며, 이러한 작업들은 종종 제로샷 설정에서 이루어집니다. 복합적이고 다면적인 분야인 만화 이해는 이러한 발전으로 크게 이익을 얻을 수 있습니다. 매체로서의 만화는 풍부한 시각적 및 텍스트적 서술을 결합하여 이미지 분류, 물체 탐지, 인스턴스 분할, 그리고 순차적 패널을 통한 보다 심층적인 서술 이해와 같은 작업들로 AI 모델에 도전을 제공합니다. 그러나 만화의 독특한 구조는 창의적인 스타일, 읽는 순서, 비선형 서술 등의 차이로 인해 다른 시각-언어 도메인과는 다른 일련의 도전 과제를 제시합니다. 본 조사에서는 데이터셋 및 작업 관점에서 만화 이해에 대한 포괄적인 검토를 제시합니다. 우리의 기여는 다섯 가지로 구성됩니다: (1) 만화 매체의 구조를 분석하여 독특한 구성 요소를 상세히 설명합니다; (2) 만화 연구에서 널리 사용되는 데이터셋과 작업을 조사하며, 이들이 분야 발전에 어떻게 기여하는지 강조합니다; (3) 만화 이해의 층(Layer of Comics Understanding, LoCU) 프레임워크를 소개하여, 이를 통해 만화 내에서 비전-언어 작업을 재정의하고 향후 작업의 기초를 마련합니다; (4) LoCU 프레임워크를 따라 기존 방법들을 상세히 검토하고 분류합니다; (5) 마지막으로 현재의 연구 도전 과제를 강조하고, 특히 만화에 적용된 비전-언어 모델의 맥락에서 미래 탐구 방향을 제안합니다. 이 조사는 만화 지능을 위한 작업 중심 프레임워크를 제안한 최초의 조사로, 데이터 이용 가능성과 작업 정의의 중요한 공백을 다루어 향후 연구를 안내하고자 합니다. 이 조사와 관련된 프로젝트는 https://github.com/emanuelevivoli/awesome-comics-understanding에서 확인할 수 있습니다.
대형 언어 모델(Large Language Models, LLMs)은 다양한 실제 응용 프로그램에서 필수불가결한 존재가 되었습니다. 불행하게도, 데이터 프라이버시와 통신 효율이 중요한 연합 환경에서 규모에 맞게 이러한 모델을 세밀하게 조정하는 것은 상당한 어려움을 야기합니다. 기존 방법은 종종 통신 오버헤드를 완화하기 위해 매개 효율적인 세밀 조정(Parameter-efficient fine-tuning, PEFT)에 의존하지만, 이는 일반적으로 모델 정확도를 희생시키는 대가로 이루어집니다. 이러한 제한 사항을 해결하기 위해 우리는 LLMs에 대한 규모에 맞는 연합 전체 매개 조정(Ferret)을 제안합니다. 이는 경쟁력 있는 모델 정확도를 유지하면서 분산 데이터 원본 간에 LLMs의 확장 가능한 전체 매개 조정을 가능케 하는 공유된 무작위성을 가진 첫 번째 일차 방법입니다. Ferret은 이를 세 가지 측면을 통해 달성합니다: (1) 효율적인 로컬 업데이트를 위해 널리 적용된 일차 방법을 사용합니다; (2) 이러한 업데이트를 저차원 공간으로 투영하여 통신 오버헤드를 크게 줄입니다; 그리고 (3) 이 저차원 공간에서 공유된 무작위성을 통해 로컬 업데이트를 재구성하여 효과적인 전체 매개 글로벌 집계를 용이하게 하여 빠른 수렴과 경쟁력 있는 최종 성능을 보장합니다. 우리의 철저한 이론적 분석과 통찰력과 함께 방대한 실험을 통해 Ferret이 기존 연합 전체 매개 조정 방법의 확장 가능성을 현저히 향상시키는 것을 보여줍니다. 높은 계산 효율성, 줄어든 통신 오버헤드, 빠른 수렴을 달성하면서 경쟁력 있는 모델 정확도를 유지합니다. 저희의 구현은 https://github.com/allen4747/Ferret에서 이용 가능합니다.
우리는 Thought Diagram (DoT)을 소개합니다. 이는 대형 언어 모델 (LLM)에서 반복적 추론을 모델링하는 프레임워크로, 단일 모델 내에서 방향성 비순환 그래프 (DAG)를 구성하는 것으로 나타냅니다. 추론을 선형 체인이나 트리로 나타내는 전통적 방식과는 달리, DoT은 명제, 비평, 정제 및 검증을 하나로 묶은 DAG 구조로 구성하여 모델이 복잡한 추론 경로를 탐색하면서 논리적 일관성을 유지할 수 있도록 합니다. 다이어그램의 각 노드는 제안된 명제, 비평, 정제 또는 검증에 해당하며, LLM이 자연어 피드백을 통해 추론을 반복적으로 개선할 수 있게 합니다. 역할별 토큰을 사용하여 자기 회귀적인 다음 토큰 예측을 활용함으로써 DoT은 아이디어 제안과 비판적 평가 사이의 원활한 전환을 용이하게 하여 이진 신호보다 더 풍부한 피드백을 제공합니다. 더 나아가, 우리는 Topos 이론을 사용하여 DoT 프레임워크를 형식화하여 추론 프로세스에서 논리적 일관성과 타당성을 보장하는 수학적 기반을 제공합니다. 이 접근 방식은 단일 LLM 내에서 교육 및 추론 프로세스를 모두 향상시켜 여러 모델이나 외부 제어 메커니즘의 필요성을 제거합니다. DoT은 교육 효율성, 강력한 추론 능력 및 이론적 기반을 강조하는 차세대 추론 전문 모델 설계를 위한 개념적 프레임워크를 제공합니다. 코드는 https://github.com/diagram-of-thought/diagram-of-thought에서 확인할 수 있습니다.
오픈 어휘 오디오 언어 모델인 CLAP과 같은 모델은 자연어 프롬프트로 지정된 임의의 카테고리로 분류를 가능하게 함으로써 제로샷 오디오 분류(ZSAC)에 유망한 접근 방식을 제공합니다. 본 논문에서는 CLAP를 활용하여 ZSAC를 개선하기 위한 간단하면서도 효과적인 방법을 제안합니다. 구체적으로, 우리는 추상적인 카테고리 레이블(예: 오르간 소리)을 사용하는 기존 방법에서 벗어나, 다양한 맥락에서 고유한 기술적 특징을 활용하여 소리를 설명하는 프롬프트(예: 오르간의 깊고 공명하는 음조가 대성당을 가득 채웠다.)를 사용합니다. 이를 위해, 우리는 먼저 ReCLAP를 제안합니다. ReCLAP는 야생에서 소리를 더 잘 이해하기 위해 재작성된 오디오 캡션으로 훈련된 CLAP 모델입니다. 이러한 재작성된 캡션은 각 소리 이벤트를 고유한 식별 특성을 사용하여 원래의 캡션에서 설명합니다. ReCLAP는 멀티모달 오디오-텍스트 검색 및 ZSAC 모두에서 모든 베이스라인을 능가합니다. 그 다음, ReCLAP를 사용하여 제로샷 오디오 분류를 개선하기 위해 프롬프트 증강을 제안합니다. 데이터셋의 각 고유한 레이블에 대해 사용자 정의 프롬프트를 생성하는 기존의 손으로 작성된 템플릿 프롬프트 방식과 대조적으로, 이러한 사용자 정의 프롬프트는 먼저 레이블의 소리 이벤트를 설명한 후 다양한 장면에서 활용합니다. 우리의 제안된 방법은 ZSAC에서 ReCLAP의 성능을 1%-18% 향상시키며, 모든 베이스라인을 1% - 55% 능가합니다.
시각 질의응답(VQA)는 사용자 경험을 돕기 위한 여러 응용 프로그램에서 핵심 사용 사례로 부상했으며, 특히 Vision-Language Models(VLMs)가 제로샷 추론에서 좋은 결과를 얻은 후에 더욱 중요해졌다. 그러나 실제 환경에서 표준화된 프레임워크를 사용하여 응용 프로그램 요구 사항에 따라 다양한 VLM을 평가하는 것은 여전히 어렵다. 본 논문은 시각 질의응답 작업에 특화된 VLM을 평가하기 위한 포괄적인 프레임워크를 소개한다. 우리는 확립된 VQA 벤치마크에서 유래된 새로운 데이터셋을 제시하며, 작업 유형, 응용 프로그램 도메인 및 지식 유형과 같은 세 가지 핵심 실용적 측면으로 주석이 달렸다. 또한 GPT-4o를 사용하여 개발된 다중 모달 평가 메트릭인 GoEval을 소개하며, 이는 인간 판단과 56.71%의 상관 관계를 달성했다. 최신 VLM 10개에 대한 실험 결과는 어떤 단일 모델도 모든 면에서 뛰어나지 않으며, 적절한 선택이 핵심 설계 결정이라는 것을 보여준다. Gemini-1.5-Pro 및 GPT-4o-mini와 같은 소유 모델은 일반적으로 다른 모델보다 우수한 성과를 보이지만, InternVL-2-8B 및 CogVLM-2-Llama-3-19B와 같은 오픈 소스 모델은 특정 맥락에서 경쟁력 있는 강점을 보여주며 추가적인 이점을 제공한다. 본 연구는 특정 작업 요구 사항과 자원 제약 조건에 따라 VLM을 선택하는 데 도움을 주며, 다른 시각-언어 작업으로 확장할 수도 있다.
인간 피드백으로부터의 강화 학습 (RLHF)은 대형 언어 모델 (LLM)이 지시를 따르고 도움이 되며 해를 끼치지 않는 응답을 제공하는 데 도움이 되는 주요 기술 중 하나입니다. 직접 정책 최적화 방법이 존재하지만, 최신 LLM은 RL 기반 방법(일반적으로 PPO)을 채택하여 RLHF에서 보상 데이터로부터 학습된 보상 모델에 따라 좋은 응답을 생성하도록 정책을 훈련시킵니다. 이러한 방법의 주요 도전 과제는 특히 응답을 점수 매기기 위해 긴 및 복잡한 추론이 필요한 코드 생성 작업에서 중간 보상 모델의 부정확성입니다. 우리는 서로 다른 보상으로 할당된 응답 간에 보상 모델의 신뢰성이 다양하게 변하는 것을 발견했습니다. 이로 인해 정책 학습 중 신호 대 잡음 비율을 개선하기 위해 신뢰할 수 없을 수 있는 보상을 가진 샘플을 걸러내는 것을 동기로 하는 Policy Filtration for Proximal Policy Optimization (PF-PPO)가 나왔습니다. 주어진 보상 모델에 적합한 정책 필터링 전략을 선택하기 위해 필터링된 샘플에서 보상과 실제 점수 간의 결정 계수 (R^2)가 좋은 지표 역할을 하며 우리가 몇 가지 유망한 전략을 찾는 데 도움이 됩니다. 우리는 PF-PPO의 효과를 코드 생성 작업에서 확인하기 위해 포괄적인 실험을 제공하며, PF-PPO의 일부 변형이 HumanEval, MBPP 및 새로운 더 어려운 LeetCode Contest 벤치마크에서 70억 파라미터 모델 전반에 걸쳐 새로운 최첨단 성능을 달성하는 것을 발견했습니다.
우리의 연구는 Google의 reCAPTCHAv2 시스템에서 캡차를 해결하는 데 고급 기계 학습 방법을 사용하는 효과를 조사합니다. 우리는 이미지 분할 및 분류를 위해 고급 YOLO 모델을 활용하여 캡차를 해결하는 자동 시스템의 효과를 평가합니다. 우리의 주요 결과는 이전 연구가 해결한 68-71%에 비해 100%의 캡차를 해결할 수 있다는 것입니다. 더 나아가, 우리의 연구 결과는 reCAPTCHAv2에서 사람과 봇이 캡차를 통과하기 위해 해결해야 하는 도전의 수에는 유의미한 차이가 없다는 것을 시사합니다. 이는 현재 AI 기술이 고급 이미지 기반 캡차를 이용할 수 있다는 것을 시사합니다. 또한, 우리는 reCAPTCHAv2의 내부를 살펴보고, 사용자가 인간인지 여부를 평가할 때 쿠키 및 브라우저 기록 데이터에 크게 의존한다는 증거를 발견했습니다. 코드는 본 논문과 함께 제공됩니다.
최근 연구에서는 텍스트 전용 데이터셋에서 사전 훈련된 언어 모델이 종종 일상 물건의 색상과 같은 기본 시각적 지식이 부족하다는 것을 확인했습니다. 이 관찰에 영감을 받아, 우리는 유사한 결점이 청각 지식에도 존재하는지에 대해 질문합니다. 이 질문에 대답하기 위해, 우리는 청각 지식을 평가하기 위한 두 가지 새로운 작업으로 이루어진 AuditoryBench라는 새 데이터셋을 구축했습니다. 우리의 벤치마크를 사용한 분석 결과, 언어 모델도 심각한 청각 지식 부족을 겪는 것으로 나타났습니다. 이 한계를 해결하기 위해, 우리는 AudioBERT라는 새로운 방법을 제안하여 BERT의 청각 지식을 증대시키는 것을 제안합니다. 먼저, 우리는 질의를 위해 검색 모델을 효율적으로 쿼리하기 위해 프롬프트에서 청각 지식 범위를 감지합니다. 그런 다음, 우리는 BERT에 오디오 지식을 주입하고 오디오 지식이 필요할 때 효과적인 적응을 위해 저랭크 적응을 활성화합니다. 우리의 실험 결과, AudioBERT는 매우 효과적이며 AuditoryBench에서 우수한 성능을 달성했습니다. 데이터셋과 코드는 https://github.com/HJ-Ok/AudioBERT에서 확인할 수 있습니다.
흉부 X-선 영상(CXR)은 환자 상태를 평가하고 시간이 지남에 따른 변화를 모니터링하는 병원에서 중요한 진단 도구로 사용됩니다. 생성 모델 중 확산 기반 모델은 현실적인 합성 X-선을 생성하는 데 유망성을 보여주었습니다. 그러나 이러한 모델은 주로 조건 생성에 초점을 맞추며, 일반적으로 특정 시점에 촬영된 CXR 및 해당 보고서를 사용하여 단일 시간점 데이터를 활용하므로, 임상적 유효성을 제한하며 특히 시간적 변화를 포착하는 데 어려움이 있습니다. 이 한계를 해결하기 위해 이전 CXR과 후속 의료 사건(처방, 검사 결과 등)을 통합하여 미래 CXR 이미지를 예측하는 새로운 프레임워크인 EHRXDiff를 제안합니다. 저희 프레임워크는 이전 CXR 이미지와 의료 사건 이력을 조건으로 하는 잠재 확산 모델을 기반으로 질병 진행을 동적으로 추적하고 예측합니다. 우리는 임상 일관성, 인구 통계학적 일관성 및 시각적 현실성을 포함한 세 가지 주요 측면에서 우리 프레임워크의 성능을 포괄적으로 평가합니다. 우리의 프레임워크가 잠재적인 시간적 변화를 포착하는 고품질이고 현실적인 미래 이미지를 생성한다는 것을 입증하여, 임상 시뮬레이션 도구로의 추가 개발 가능성을 시사합니다. 이는 의료 분야에서 환자 모니터링 및 치료 계획을 위한 가치 있는 통찰력을 제공할 수 있습니다.
추천 시스템은 종종 텍스트 측면 정보를 활용하여 예측을 개선하는데, 특히 전통적인 협업 필터링 접근법이 사용할 수 없는 콜드 스타트 또는 제로샷 추천 시나리오에서 그렇습니다. 최근 몇 년간 추천 시스템을 위한 텍스트 마이닝 측면 정보에 대한 다양한 접근 방식이 제안되었는데, 문장 트랜스포머가 가장 주목할 만한 접근법 중 하나입니다. 그러나 이러한 모델들은 추천 시스템에 특정한 숨겨진 패턴을 활용하지 않고 의미 유사성을 예측하도록 훈련되었습니다. 본 논문에서는 상호 작용 데이터를 활용하여 문장 트랜스포머 모델을 훈련하는 beeFormer 프레임워크를 제안합니다. beeFormer로 훈련된 우리 모델이 데이터셋 간에 지식을 전이하며 의미 유사성 문장 트랜스포머뿐만 아니라 전통적인 협업 필터링 방법보다 우수한 성능을 보여줍니다. 또한 서로 다른 도메인의 여러 데이터셋에서 훈련하는 것이 단일 모델에 지식을 축적시키는 가능성을 열어주어, 추천 시스템을 위한 텍스트 표현을 채굴하기 위한 범용, 도메인에 중립적인 문장 트랜스포머 모델을 훈련할 수 있음을 보여줍니다. 저희는 https://github.com/recombee/beeformer에서 실험을 복제할 수 있도록 소스 코드, 훈련된 모델 및 추가 세부 정보를 공개합니다.
그래피음 대 음운 (Grapheme-to-phoneme, G2P) 변환은 음성 처리에서 중요하며, 특히 음성 합성과 같은 응용 프로그램에 있어서 중요합니다. G2P 시스템은 다의어 단어와 맥락에 따라 음소가 달라지는 언어의 언어학적 이해와 맥락 인식을 가져야 합니다. 대형 언어 모델 (Large language models, LLMs)은 최근 다양한 언어 작업에서 상당한 잠재력을 보여주어, 그들의 음성 지식이 G2P에 활용될 수 있다는 가능성을 시사합니다. 본 논문에서는 LLMs의 G2P 변환 성능을 평가하고, 추가적인 훈련이나 레이블이 달린 데이터 없이 LLM 출력을 향상시키는 프롬프팅(prompting) 및 후처리(post-processing) 방법을 소개합니다. 또한, 페르시아어 문장 수준의 음성적 도전 과제를 평가하기 위해 설계된 벤치마킹 데이터셋을 제시합니다. 우리의 결과는 제안된 방법을 적용함으로써 LLMs가 전통적인 G2P 도구를 능가할 수 있음을 보여주며, 페르시아어와 같은 소수 언어에서도 LLM 지원 G2P 시스템 개발의 잠재력을 강조합니다.