번역이 포함된 일일 선별된 AI 연구 논문
자기회귀 모델은 시각 생성을 위한 강력한 접근 방식으로 등장했지만 순차적인 토큰 단위 예측 과정으로 인해 추론 속도가 느린 단점이 있습니다. 본 논문에서는 병렬 자기회귀 시각 생성을 위한 간단하면서도 효과적인 접근 방식을 제안합니다. 이 방법은 생성 효율성을 향상시키면서 자기회귀 모델링의 장점을 유지합니다. 우리의 주요 인사이트는 병렬 생성이 시각 토큰 의존성에 의존한다는 것입니다. 즉, 약한 의존성을 가진 토큰은 병렬로 생성될 수 있지만 강한 의존성을 가진 인접한 토큰은 함께 생성하기 어렵습니다. 왜냐하면 독립적인 샘플링으로 인해 일관성 문제가 발생할 수 있기 때문입니다. 이 관찰을 기반으로, 우리는 먼 거리에 있는 약한 의존성을 가진 토큰을 병렬로 생성하면서 강한 의존성을 가진 근접한 토큰에 대해서는 순차적 생성을 유지하는 병렬 생성 전략을 개발합니다. 우리의 방법은 아키텍처나 토크나이저를 수정하지 않고 표준 자기회귀 모델에 매끄럽게 통합될 수 있습니다. ImageNet 및 UCF-101에서의 실험 결과는 우리의 방법이 이미지 및 비디오 생성 작업 모두에서 비교 가능한 품질로 3.6배의 속도 향상을 달성하며 최소한의 품질 저하로 최대 9.5배의 속도 향상을 보여줍니다. 우리는 본 연구가 효율적인 시각 생성 및 통합된 자기회귀 모델링에 대한 미래 연구에 영감을 줄 것으로 기대합니다. 프로젝트 페이지: https://epiphqny.github.io/PAR-project.
대형 언어 모델(LLMs)의 다단계 추론 능력을 향상시키는 것은 복잡한 작업에 빠르게 적응하기 위해 오프라인 강화 학습(RL)이 필수적입니다. 직접 선호도 최적화(DPO)는 LLMs를 인간의 선호도와 조화롭게 만드는 데 유망한 가능성을 보여주었지만, 다단계 추론 작업에는 적합하지 않습니다. 왜냐하면 (1) DPO는 다단계 추론 작업에 즉시 사용할 수 없는 짝 지어진 선호 데이터에 의존하며, (2) 모든 토큰을 균일하게 처리하여 종종 희박한 보상이 따르는 다단계 추론 작업에서 신용 할당에 효과적이지 않습니다. 본 연구에서는 LLM 다단계 추론을 향상시키기 위한 오프라인 RL 방법인 OREO(Offline Reasoning Optimization)를 제안합니다. 최대 엔트로피 강화 학습 이전 연구의 통찰을 기반으로, 소프트 벨만 방정식을 최적화함으로써 정책 모델과 가치 함수를 함께 학습합니다. 이를 통해 짝 지어진 데이터 수집 필요성을 줄이고 더 나은 신용 할당을 가능하게 합니다. 경험적으로, OREO는 수학적 추론 작업(GSM8K, MATH) 및 실체화된 에이전트 제어(ALFWorld)를 포함한 다단계 추론 벤치마크에서 기존의 오프라인 학습 방법을 능가합니다. 이 방법은 추가 자원을 사용할 수 있는 경우 다단계 반복 프레임워크로 확장할 수 있습니다. 또한, 학습된 가치 함수는 트리 탐색을 무료로 안내하는 데 활용될 수 있으며, 이는 테스트 시 성능을 더 향상시킬 수 있습니다.
확산 트랜스포머(Diffusion Transformers, DiT)는 이미지 생성에서 선도적인 아키텍처가 되었습니다. 그러나 토큰 간 관계를 모델링하는 데 책임이 있는 어텐션 메커니즘의 이차 복잡성은 고해상도 이미지를 생성할 때 상당한 지연을 초래합니다. 본 논문에서는 이 문제에 대응하기 위해 사전 훈련된 DiT의 복잡성을 선형으로 줄이는 선형 어텐션 메커니즘을 목표로 합니다. 우리는 기존의 효율적인 어텐션 메커니즘을 포괄적으로 요약하고, 사전 훈련된 DiT의 선형화에 성공적인 네 가지 핵심 요소를 식별합니다: 국소성, 공식 일관성, 고랭크 어텐션 맵, 그리고 피처 무결성. 이러한 통찰력을 기반으로, 우리는 각 쿼리 토큰 주변의 지역 창에 피처 상호 작용을 제한하여 선형 복잡성을 달성하는 컨볼루션과 유사한 로컬 어텐션 전략인 CLEAR을 소개합니다. 실험 결과, 사전 훈련된 DiT에서 단순히 10,000개의 자체 생성 샘플에 대해 10,000번의 반복을 통해 어텐션 레이어를 세밀하게 조정함으로써, 선형 복잡성을 갖는 학생 모델로 지식을 효과적으로 전이할 수 있으며, 선생 모델과 유사한 결과를 얻을 수 있음을 보여줍니다. 동시에, 8K 해상도 이미지를 생성하는 데 99.5%의 어텐션 계산을 줄이고 생성 속도를 6.3배 가속화합니다. 더불어, 증류된 어텐션 레이어에서의 유리한 특성을 조사하였는데, 이는 다양한 모델 및 플러그인 간 제로샷 일반화와 멀티 GPU 병렬 추론에 대한 향상된 지원을 포함합니다. 모델 및 코드는 여기에서 확인할 수 있습니다: https://github.com/Huage001/CLEAR.
키-값 (KV) 캐시는 장기 맥락 생성을 위한 LLMs의 병목 현상이 되었습니다. 이 분야에서의 다양한 노력에도 불구하고, 디코딩 단계의 최적화는 일반적으로 무시됩니다. 그러나 우리는 이러한 최적화가 중요하다고 믿습니다, 특히 다음 두 가지 관찰을 기반으로 한 장기 출력 생성 작업에 있어서: (i) 프리필 단계 중 과도한 압축은 특정 전체 맥락을 필요로 하는 이해 작업을 손상시킵니다; (ii) 장기 출력을 가진 추론 작업에서 중요한 요소의 이탈이 발생합니다. 따라서, SCOPE는 프리필 및 디코딩 단계에서 별도로 KV 캐시 최적화를 수행하는 간단하면서 효율적인 프레임워크로 소개됩니다. 구체적으로, 프리필 단계에서의 KV 캐시는 필수 정보를 유지하기 위해 보존되며, 디코딩 단계를 위해 필수적인 중요한 요소를 선택하기 위한 슬라이딩을 기반으로 한 새로운 전략이 제안됩니다. 메모리 사용량 및 메모리 전송은 적응 및 불연속 전략을 사용하여 추가로 최적화됩니다. LongGenBench에서의 포괄적인 실험은 SCOPE의 효과성과 일반화 능력, 그리고 다른 프리필 전용 KV 압축 방법에 대한 플러그인으로서의 호환성을 보여줍니다.
우리는 새로운 다중 모달 공동 훈련 프레임워크 MMAudio를 사용하여 비디오와 선택적 텍스트 조건을 고려해 고품질 및 동기화된 오디오를 합성하는 것을 제안합니다. (제한된) 비디오 데이터에만 의존하는 단일 모달 훈련과 대조적으로, MMAudio는 더 큰 규모의 사용 가능한 텍스트-오디오 데이터와 함께 공동으로 훈련되어 의미론적으로 정렬된 고품질 오디오 샘플을 생성하는 방법을 배우게 됩니다. 게다가, 비디오 조건을 프레임 수준에서 오디오 잠재 변수와 정렬하는 조건부 동기화 모듈을 사용하여 오디오-시각 동기화를 개선합니다. 흐름 일치 목표로 훈련된 MMAudio는 오디오 품질, 의미론적 정렬 및 오디오-시각 동기화 측면에서 공개 모델 중에서 새로운 비디오-오디오 최첨단을 달성하며, 추론 시간이 낮고(8초 클립 생성에 1.23초) 파라미터 수가 157M에 불과합니다. MMAudio는 또한 의외로 경쟁력 있는 성능을 보여주며 텍스트-오디오 생성에서도 우수한 성과를 달성하며, 공동 훈련이 단일 모달 성능에 해를 끼치지 않음을 보여줍니다. 코드와 데모는 다음 링크에서 확인할 수 있습니다: https://hkchengrex.github.io/MMAudio
다중 모달 대형 언어 모델(MLLMs)은 매우 자세한 캡션을 생성하는 데 뛰어나지만 종종 환각을 유발합니다. 우리의 분석 결과, 기존의 환각 탐지 방법은 자세한 캡션에 어려움을 겪는 것으로 나타났습니다. 이는 시퀀스 길이가 증가함에 따라 MLLMs이 생성된 텍스트에 더 의존하게 되는 것에 기인한다고 합니다. 이 문제를 해결하기 위해, 우리는 LLM-MLLM 협력을 활용하는 다중 에이전트 접근 방식을 제안합니다. 더불어, 자세한 캡션의 체계적인 분석을 용이하게 하기 위해 평가 프레임워크와 벤치마크 데이터셋을 소개합니다. 우리의 실험 결과는 우리가 제안한 평가 방법이 기존 지표보다 사실성에 대한 인간 판단과 더 잘 부합하며, MLLM 사실성을 향상시키기 위한 기존 방법이 초자세한 이미지 캡션 작업에서 부족할 수 있다는 것을 보여줍니다. 반면, 우리가 제안한 방법은 사실적인 캡션의 정확성을 크게 향상시키며, 심지어 GPT-4V가 생성한 캡션도 개선합니다. 마지막으로, VQA 중심의 벤치마킹의 한계를 강조하며, MLLM의 VQA 벤치마크에서의 성능이 자세한 이미지 캡션 생성 능력과 상관관계가 없을 수 있다는 것을 입증합니다.
양자화는 LLM을 더 작은 크기로 압축하는 데 가장 효과적인 방법 중 하나가 되었습니다. 그러나 기존의 양자화 솔루션은 여전히 상당한 정확도 하락이나 시스템 효율성의 제한을 보여줍니다. 본 논문에서는 일반적인 양자화 원칙이 정확도, 메모리 소비, 시스템 효율성 삼각형에 미치는 영향에 대해 포괄적인 분석을 수행합니다. 우리는 모델 내에서 서로 다른 출력 특징이 다르게 중요하다는 통찰을 바탕으로 출력 특징 간 혼합 정밀도 양자화의 최적화 공간을 탐색하는 MixLLM을 제안합니다. MixLLM은 각 단일 레이어 내에서가 아닌 전역적인 관점에서 중요한 출력 특징을 식별하여, 가장 필요로 하는 출력 특징에 더 큰 비트 폭을 할당하여 좋은 정확도와 낮은 메모리 소비로 이를 달성합니다. 우리는 고정밀도 Tensor Core를 쉽게 활용하고 빠른 데이터 유형 변환을 통해 양자화 해제 오버헤드를 크게 줄이기 위한 두 단계의 양자화 해제를 설계하고, 메모리 액세스, 양자화 해제, MatMul을 최적으로 중첩시키기 위한 소프트웨어 파이프라인을 제시합니다. 광범위한 실험 결과, PPL 증가가 SOTA의 약 0.5에서 Llama 3.1 70B의 경우 약 0.2로 감소하는 10% 더 많은 비트만으로 달성되며, 평균적으로 MMLU-Pro는 세 가지 인기 모델의 SOTA보다 0.93 향상됩니다. 우수한 정확도 뿐만 아니라 MixLLM은 최신 시스템 효율성도 달성합니다.
우리는 비디오 모델링을 위한 새로운 블록을 제안합니다. 이는 시간-공간-채널 분해를 기반으로 하며 각 차원에 대한 전용 블록을 활용합니다: 게이트된 선형 순환 유닛(LRU)은 시간에 걸쳐 정보를 혼합하고, 셀프 어텐션 레이어는 공간에서 혼합을 수행하며, MLP는 채널에서 작동합니다. 이러한 아키텍처 TRecViT은 희소 및 밀도 있는 작업에 대해 우수한 성능을 발휘하며, 지도 또는 자가 지도 규제로 훈련됩니다. 특히, 우리의 모델은 인과적이며 대규모 비디오 데이터셋(SSv2, Kinetics400)에서 순수 어텐션 모델 ViViT-L보다 우수한 성과를 보이거나 비슷한 수준입니다. 동시에 매개변수가 3배 적고, 메모리 풋프린트가 12배 작으며, FLOPs 카운트가 5배 낮습니다. 코드 및 체크포인트는 https://github.com/google-deepmind/trecvit에서 온라인으로 제공될 예정입니다.
3D 초해상도는 저해상도 (LR) 다중 뷰 이미지에서 고품질 3D 모델을 재구성하는 것을 목표로 합니다. 초기 연구는 주로 단일 이미지 초해상도 (SISR) 모델에 초점을 맞추어 LR 이미지를 고해상도 이미지로 업샘플링하는 데 집중했습니다. 그러나 이러한 방법들은 각 이미지에 독립적으로 작동하기 때문에 뷰 일관성이 부족할 수 있습니다. 이러한 불일치를 완화하기 위해 다양한 후처리 기술이 많이 연구되었지만, 아직 완전히 문제를 해결하지 못했습니다. 본 논문에서는 비디오 초해상도 (VSR) 모델을 활용하여 3D 초해상도에 대해 포괄적인 연구를 수행합니다. VSR 모델을 활용함으로써 공간 일관성의 더 높은 정도를 보장하고 주변 공간 정보를 참조하여 더 정확하고 상세한 재구성을 이끌어냅니다. 우리의 연구 결과는 VSR 모델이 정확한 공간 정렬이 부족한 시퀀스에서도 놀랍도록 잘 수행할 수 있음을 보여줍니다. 이 관찰을 바탕으로, 우리는 LR 이미지를 정렬하기 위해 세밀한 조정이나 훈련된 3D 모델을 통해 LR 이미지 상에서 '부드러운' 궤적을 생성하지 않는 간단하면서도 실용적인 접근 방식을 제안합니다. 실험 결과는 이 놀랍도록 간단한 알고리즘이 NeRF-합성 및 MipNeRF-360 데이터셋과 같은 표준 벤치마크 데이터셋에서 3D 초해상도 작업의 최첨단 결과를 달성할 수 있음을 보여줍니다. 프로젝트 페이지: https://ko-lani.github.io/Sequence-Matters
본 연구에서는 Multi-LLM 요약 프레임워크를 제안하고 중앙집중식 및 분산식을 포함한 두 가지 다른 Multi-LLM 전략을 조사합니다. 우리의 Multi-LLM 요약 프레임워크는 대화의 각 라운드마다 두 가지 근본적으로 중요한 단계, 즉 생성과 평가가 있습니다. 이러한 단계는 우리의 Multi-LLM 분산 요약이 사용되는지 중앙집중식인지에 따라 다릅니다. 우리의 Multi-LLM 분산 및 중앙집중 전략 모두 텍스트의 다양한 요약을 생성하는 k개의 다른 LLM을 보유하고 있습니다. 그러나 평가 과정에서 우리의 Multi-LLM 중앙집중식 요약 접근 방식은 단일 LLM을 활용하여 요약을 평가하고 최적의 요약을 선택하는 반면, 분산식 Multi-LLM 요약에는 k개의 LLM이 사용됩니다. 전반적으로, 우리의 Multi-LLM 요약 접근 방식은 단일 LLM만 활용하는 기준선을 최대 3배까지 능가하는 것으로 나타났습니다. 이러한 결과는 요약을 위한 Multi-LLM 접근 방식의 효과를 보여줍니다.
단일 이미지로부터 고품질이며 애니메이션 가능한 3D 풀 바디 아바타를 생성하는 것은 인간의 다양한 외모와 자세, 그리고 고품질 훈련 데이터의 제한된 가용성으로 인해 어려운 과제입니다. 빠르고 고품질의 인간 재구성을 달성하기 위해 본 연구는 데이터셋, 모델 및 표현의 관점에서 이 작업을 재고했습니다. 먼저, 24개의 특정 인간 자세를 포함하는 100,000개의 다양하고 사실적인 인간 이미지 세트로 구성된 대규모 HUman-centric GEnerated 데이터셋인 HuGe100K를 소개합니다. 각 세트는 포즈 제어가 가능한 이미지에서 생성된 24개의 뷰 프레임을 포함합니다. 그 다음, HuGe100K 내의 다양성을 활용하여, 다양한 뷰, 자세, 그리고 외모를 활용하여 주어진 인간 이미지로부터 균일한 공간에서 3D 인간 가우시안 표현을 예측하기 위한 확장 가능한 피드포워드 트랜스포머 모델을 개발했습니다. 이 모델은 인간 자세, 몸 형태, 의류 기하학, 그리고 질감을 분리하여 훈련됩니다. 추정된 가우시안은 후처리 없이 애니메이션화될 수 있습니다. 제안된 데이터셋과 방법의 효과를 검증하기 위해 포괄적인 실험을 실시했습니다. 우리의 모델은 단일 GPU를 사용하여 단일 입력 이미지로부터 1K 해상도에서 실시간으로 사실적인 인간을 효율적으로 재구성할 수 있는 능력을 보여줍니다. 게다가, 다양한 응용 프로그램을 원활하게 지원하며, 형태 및 질감 편집 작업도 지원합니다.
본 논문은 네덜란드어를 위해 특별히 설계된 소형 언어 모델(SLM) 패밀리인 Fietje를 소개합니다. 이 모델은 2.7 억 개의 매개변수를 가진 영어 중심 모델인 Phi 2를 기반으로 합니다. Fietje는 출시 시 더 큰 언어 모델들과 경쟁력 있는 결과를 보여주었습니다. 본 연구의 핵심은 투명성과 재현성에 있습니다. Fietje는 완전히 오픈 소스로, 모델 가중치, 데이터셋, 훈련 및 평가 코드가 모두 공개적으로 접근 가능합니다. 본 논문은 Fietje와 다른 여러 모델의 성능에 대해 논의하며, 추론, 감성 분석, 세계 지식, 언어 수용성 및 단어 의미 해석의 벤치마킹 평가 스위트에서의 결과를 다룹니다. 평가 결과는 최근의 소형 모델이 네덜란드어에 대해 세밀하게 조정된 더 큰 모델들을 능가하는 것을 보여주며, 이는 네덜란드어 처리 분야에서의 신속한 진전을 보여줍니다. 이러한 추세는 네덜란드어 처리에 대한 흥미로운 미래를 시사하며, 심지어 간결한 대형 언어 모델들도 점점 더 능력을 키우고 있다는 가능성을 시사합니다. 뿐만 아니라, 네덜란드어에 대한 대형 언어 모델의 적응을 위한 계속되는 노력과 미래 계획은 이러한 모델들을 더욱 향상시켜, 적용 가능성과 접근성을 확대할 것으로 전망됩니다. Fietje는 네덜란드어 사용자들을 위한 언어 기술 접근성 향상을 위한 중간 단계에 불과합니다.
여러 언어에 걸쳐 안전한 대형 언어 모델(LLM)을 구축하는 것은 안전한 액세스와 언어 다양성을 보장하는 데 중요합니다. 이를 위해 영어, 프랑스어, 독일어, 이탈리아어, 스페인어 다섯 가지 언어에서 LLM의 안전성을 평가하는 다국어 벤치마크인 M-ALERT를 소개합니다. M-ALERT는 각 언어당 15,000개의 고품질 프롬프트를 포함하여 총 75,000개의 프롬프트로, 자세한 ALERT 분류법을 따릅니다. 10개의 최첨단 LLM에 대한 광범위한 실험은 언어별 안전성 분석의 중요성을 강조하며, 모델이 종종 언어 및 범주별로 안전성에서 상당한 불일치를 나타내는 것을 밝혀냅니다. 예를 들어 Llama3.2는 이탈리아어의 범주인 crime_tax에서 높은 불안전성을 보이지만 다른 언어에서는 안전합니다. 이와 유사한 차이점이 모든 모델에서 관찰될 수 있습니다. 반면 substance_cannabis 및 crime_propaganda와 같은 특정 범주는 모델과 언어를 가리지 않고 일관되게 불안전한 응답을 유발합니다. 이러한 발견은 다양한 사용자 커뮤니티 전반에 걸쳐 안전하고 책임감 있는 사용을 보장하기 위해 LLM에서 견고한 다국어 안전 관행의 필요성을 강조합니다.