번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 두 단계의 안정적 확산 모델인 SwiftBrush의 성능을 향상시켜 다단계 안정적 확산 모델과 경쟁력을 갖도록 목표로 합니다. 우선, SwiftBrush와 SD Turbo 간의 품질-다양성 트레이드오프를 탐구합니다: 전자는 이미지 다양성에서 뛰어나지만 후자는 이미지 품질에서 뛰어납니다. 이 관찰은 더 나은 가중치 초기화와 효율적인 LoRA 훈련을 포함한 훈련 방법론의 수정을 제안하게 했습니다. 게다가, 새로운 클램프드 CLIP 손실을 도입하여 이미지-텍스트 정렬을 향상시키고 이미지 품질을 향상시킵니다. 놀랍게도, 효율적인 LoRA 및 전체 훈련으로 훈련된 모델의 가중치를 결합함으로써 새로운 최첨단 단계의 확산 모델을 달성하며 FID가 8.14로 모든 GAN 기반 및 다단계 안정적 확산 모델을 능가합니다. 평가 코드는 다음에서 확인할 수 있습니다: https://github.com/vinairesearch/swiftbrushv2.
최근 몇 년간, 대규모 언어 모델 (LLM) 및 잠재 확산 모델 (LDM)과 같은 기초 모델 (FMs)은 음악을 포함한 다양한 분야에 깊은 영향을 미쳤습니다. 본 포괄적인 리뷰는 음악 분야에서의 최첨단 사전 학습 모델 및 기초 모델을 살펴보며, 표현 학습, 생성 학습 및 다중 모달 학습에 걸쳐 이어집니다. 먼저 음악의 산업적 중요성을 맥락화하고 음악에서 AI의 진화를 추적합니다. 기초 모델이 대상으로 하는 모달리티를 명확히 함으로써, 많은 음악 표현이 FM 개발에서 미개척되어 있다는 사실을 발견합니다. 그런 다음, 이전 방법의 다양한 음악 응용 프로그램에 대한 다용도성 부족과 음악 이해, 생성 및 의료 응용 프로그램의 FM 잠재력에 중점을 둡니다. 모델 사전 학습 패러다임, 구조 선택, 토큰화, 세밀 조정 방법 및 제어 가능성의 세부 사항을 철저히 탐구함으로써, 지시 조정 및 문맥 학습, 스케일링 법칙 및 신흥 능력, 그리고 장기 시퀀스 모델링 등과 같이 탐구해야 할 중요한 주제를 강조합니다. 전용 섹션에서 음악 에이전트에 대한 통찰력을 제시하며, 사전 학습 및 하향식 작업에 꼭 필요한 데이터셋 및 평가에 대해 철저한 분석을 수행합니다. 마지막으로, 윤리적 고려의 중요성을 강조함으로써, 음악을 위한 FM에 대한 연구는 해석 가능성, 투명성, 인간 책임 및 저작권 문제와 같은 문제에 더 많은 주의를 기울여야 한다고 주장합니다. 이 논문은 음악을 위한 FM의 미래 도전과 트렌드에 대한 통찰력을 제공하여 음악 분야에서 인간-인공지능 협업의 궤적을 형성하려고 합니다.
GitHub 이슈 해결은 소프트웨어 엔지니어링에서 중요한 작업으로, 최근에는 산업 및 학계에서 큰 관심을 받고 있습니다. 이 작업 내에서 SWE-bench가 출시되어 대규모 언어 모델(LLMs)의 이슈 해결 능력을 평가하였으나, 현재는 파이썬 버전에만 초점을 맞추고 있습니다. 그러나 더 많은 프로그래밍 언어를 지원하는 것도 중요한데, 산업에서 강한 요구가 있습니다. 다국어 지원을 위한 첫 번째 단계로, 저희는 SWE-bench의 Java 버전인 SWE-bench-java를 개발하였습니다. 해당 데이터셋은 공개되었으며, 해당 Docker 기반의 평가 환경과 리더보드도 함께 제공되었으며, 이는 앞으로 몇 달 동안 지속적으로 유지 및 업데이트될 예정입니다. SWE-bench-java의 신뢰성을 확인하기 위해, 우리는 고전적인 방법인 SWE-agent를 구현하고 여러 강력한 LLMs를 테스트하였습니다. 고품질의 다국어 벤치마크를 개발하는 것이 시간이 많이 소요되고 노동 집약적이라는 것은 잘 알려져 있기에, 우리는 이를 가속화하고 정제하기 위해 풀 리퀘스트나 협업을 통한 기여를 환영하며, 완전히 자동화된 프로그래밍을 위한 길을 열어갈 것입니다.
시각적 생성 모델의 신속한 발전으로 효율적이고 신뢰할 수 있는 평가 방법이 필요하다. 사용자들의 모델 비교에 대한 투표를 수집하는 Arena 플랫폼은 인간의 선호도에 따라 모델을 순위로 매길 수 있다. 그러나 전통적인 Arena 방법은 확립되어 있지만, 순위가 수렴하기 위해 과도한 비교가 필요하며 투표에서의 선호도 노이즈에 취약하다. 이는 현대적인 평가 도전에 맞는 더 나은 접근 방식이 필요함을 시사한다. 본 논문에서는 이미지와 비디오가 텍스트보다 높은 지각 직관성을 가지고 있어 여러 샘플을 동시에 신속하게 평가할 수 있는 통찰력을 기반으로 한 효율적이고 신뢰할 수 있는 K-Sort Arena를 소개한다. 결과적으로 K-Sort Arena는 K-개의 모델이 자유롭게 경쟁하는 K-비교를 사용하여, 이는 순위 비교보다 훨씬 더 풍부한 정보를 제공한다. 시스템의 견고성을 향상시키기 위해 확률적 모델링과 베이지안 업데이팅 기술을 활용한다. 더 많은 정보를 제공하기 위해 탐색-활용 기반의 매칭 전략을 제안한다. 실험에서 K-Sort Arena는 널리 사용되는 ELO 알고리즘보다 16.3배 빠른 수렴을 보여준다. 우수성을 더 검증하고 포괄적인 리더보드를 얻기 위해 우리는 최첨단 텍스트-이미지 및 텍스트-비디오 모델의 대중 평가를 통해 인간 피드백을 수집한다. 높은 효율성 덕분에 K-Sort Arena는 신규 모델을 지속적으로 통합하고 최소한의 투표로 리더보드를 업데이트할 수 있다. 우리의 프로젝트는 몇 달간의 내부 테스트를 거쳐 이제 https://huggingface.co/spaces/ksort/K-Sort-Arena에서 사용할 수 있다.
클라우드 기반의 전용 대형 언어 모델(LLMs)의 널리 퍼진 채택은 운영 의존성, 개인 정보 보호 문제, 그리고 지속적인 인터넷 연결 필요성을 포함한 중요한 도전 과제를 도입했습니다. 본 연구에서는 서비스 중심의 LLMs로부터 지식과 능력을 작은 규모의 지역적으로 관리 가능한 모델로의 원활한 이전을 위한 LLMOps 파이프라인 "LlamaDuo"를 소개합니다. 이 파이프라인은 운영 장애, 엄격한 개인 정보 보호 정책, 또는 오프라인 요구 사항의 존재에서 서비스 지속성을 보장하는 데 중요합니다. 우리의 LlamaDuo는 후자에 의해 생성된 합성 데이터셋을 사용하여 서비스 LLM에 대해 작은 언어 모델을 세밀하게 조정하는 것을 포함합니다. 세밀하게 조정된 모델의 성능이 기대에 미치지 못할 경우, 서비스 LLM에 의해 생성된 추가 유사 데이터를 사용하여 더 많은 세밀한 조정을 통해 모델을 향상시킵니다. 이 반복적인 과정은 작은 모델이 특정 하류 작업에서 최종적으로 서비스 LLM의 능력을 맞거나 심지어 능가할 수 있도록 보장하며, 제한된 환경에서 AI 배포를 관리하기 위한 실용적이고 확장 가능한 솔루션을 제공합니다. 선도적인 LLMs와의 포괄적인 실험을 통해 LlamaDuo의 효과적이고 적응적이며 경제적인 효과를 입증하기 위한 실험이 수행되었습니다. 저희의 파이프라인 구현은 https://github.com/deep-diver/llamaduo에서 확인하실 수 있습니다.
언어 모델 사전 훈련을 위한 최적 학습률을 찾는 것은 어려운 작업입니다. 이는 학습률, 배치 크기, 훈련 토큰 수, 모델 크기 및 기타 하이퍼파라미터 간 복잡한 상관 관계 뿐만 아니라 수십억 또는 수조 개의 매개변수를 갖는 대규모 언어 모델에 대한 하이퍼파라미터 검색을 수행하는 데 막대한 비용이 소요된다는 이유 때문입니다. 최근 연구에서는 작은 프록시 모델과 소규모 말뭉치를 사용하여 하이퍼파라미터 검색을 수행하고 최적 매개변수를 대규모 모델과 대규모 말뭉치로 이식하는 것을 제안합니다. 깊이와 너비와 같은 모델 크기 관련 하이퍼파라미터에 대한 이론적 및 경험적으로 입증된 제로샷 전이성에 비해, 소규모 말뭉치에서 대규모 말뭉치로의 제로샷 전이는 미개척된 영역입니다. 본 논문에서는 최근 제안된 WSD 스케줄러를 위한 최적 학습률, 배치 크기 및 훈련 토큰 수 간의 상관 관계를 연구합니다. 수천 번의 소규모 실험을 통해 변수 간의 거듭제곱 법칙 관계를 발견하고 이를 모델 크기를 초월한 전이성을 입증했습니다. 이 관찰을 기반으로, 훈련 토큰 수와 배치 크기에 대해 동의하지 않는 Power 스케줄러라는 새로운 학습률 스케줄러를 제안합니다. 실험 결과, Power 스케줄러를 최대 업데이트 매개변수화(muP)와 결합하면 훈련 토큰 수, 배치 크기, 모델 크기 및 심지어 모델 아키텍처에 관계없이 하나의 하이퍼파라미터 세트로 인상적인 성능을 일관되게 달성할 수 있습니다. Power 스케줄러로 훈련된 3B 밀집 및 MoE 모델은 최첨단 소규모 언어 모델과 비교 가능한 성능을 달성합니다. 이러한 사전 훈련된 모델은 https://ibm.biz/BdKhLa에서 오픈 소스로 제공됩니다.
멀티플레이어, 일인칭 슈팅 게임인 Counter-Strike: Global Offensive (CS:GO)와 같은 게임에서는 조정된 움직임이 고수준 전략 플레이의 중요한 구성 요소입니다. 그러나 인기 있는 게임 맵에서의 다양한 조건과 팀 조정의 복잡성으로 모든 시나리오에 대한 수동으로 작성된 움직임 정책을 작성하는 것은 현실적이지 않습니다. 우리는 CS:GO를 위해 인간과 유사한 움직임 컨트롤러를 생성하기 위해 데이터 주도 접근 방식을 취할 수 있다는 것을 보여줍니다. 우리는 123시간의 프로 게임 플레이 추적으로 구성된 팀 움직임 데이터셋을 선별하고, 이 데이터셋을 사용하여 게임의 "Retakes" 라운드에 참여하는 모든 플레이어를 위한 인간과 유사한 팀 움직임을 생성하기 위해 transformer 기반의 움직임 모델을 훈련시킵니다. 중요한 점은, 움직임 예측 모델이 효율적이라는 것입니다. 모든 플레이어에 대한 추론은 단일 CPU 코어에서 게임 단계 당 0.5밀리초 미만의 시간이 소요되며(분할 비용), 현재 상용 게임에서 사용 가능하다는 것을 가능하게 합니다. 인간 평가자들은 우리 모델이 상업용 봇 및 전문가가 스크립트로 작성한 절차적 움직임 컨트롤러보다 더 인간과 유사하게 행동한다고 평가합니다("인간과 유사한" TrueSkill 등급으로 16%에서 59% 더 높음). 인게임 봇 대 봇 자가 대결을 포함하는 실험을 통해, 우리 모델이 간단한 형태의 팀워크를 수행하고, 일반적인 움직임 실수를 더 적게하며, 프로페셔널 CS:GO 경기에서 관찰된 것과 유사한 움직임 분포, 플레이어 수명 및 킬 위치를 제공함을 입증합니다.
비디오 생성 모델은 영화 제작과 같은 분야에서 상당한 잠재력을 가지고 있습니다. 그러나 현재의 비디오 확산 모델은 비디오 생성 작업의 높은 복잡성 때문에 높은 계산 비용이 필요하며 최적의 결과물을 생산하지 못합니다. 본 논문에서는 비디오 생성을 보다 쉬운 하위 작업인 구조 제어와 공간-시간 세밀화로 분리하는 효율적이고 고품질의 비디오 생성 프레임워크인 ConFiner을 제안합니다. 이는 각 전문가가 분리된 하위 작업을 담당하는 오프더셸프 확산 모델 전문가 체인을 사용하여 고품질의 비디오를 생성할 수 있습니다. 세세한 조정 중에는 여러 확산 전문가의 능력을 단일 샘플링으로 병합할 수 있는 조정된 노이즈 제거를 도입합니다. 더불어, ConFiner에 세 가지 제약 전략이 있는 ConFiner-Long 프레임워크를 설계했습니다. 실험 결과는 추론 비용의 10%만으로도 우리의 ConFiner가 Lavie와 Modelscope와 같은 대표적인 모델을 모든 객관적 및 주관적 측정 항목에서 능가한다는 것을 보여줍니다. 그리고 ConFiner-Long은 최대 600프레임까지 고품질이고 일관된 비디오를 생성할 수 있습니다.
작년 동안에는 다중 모달 대형 언어 모델(MM-LLMs)이 큰 발전을 이루었으며, 다양한 작업에서 인상적인 성능을 보여주었습니다. 그러나 인공지능을 진정으로 대중화하기 위해서는 모델이 강력한 능력을 갖추고 대부분의 사용자가 접근할 수 있는 소형 컴퓨팅 자원 상에서 효율적으로 실행될 수 있어야 합니다. 이를 위한 일환으로, 우리는 이미지+텍스트 입력을 받아 일관된 텍스트 응답을 생성할 수 있는 첫 번째 삼중 모달 LLM인 LLaVaOLMoBitnet1B를 소개합니다. 해당 모델은 완전히 오픈 소스로 공개되었으며 훈련 스크립트도 함께 제공되어 이 분야에서의 추가 연구를 촉진합니다. 본 기술 보고서는 훈련 과정, 평가 세부 정보, 삼진 모델과 관련된 도전과 미래 기회를 강조합니다. 모델 링크: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
대형 언어 모델 (LLM)의 증가하는 사용은 수십만 대의 GPU가 수백만 명의 사용자에게 지속적으로 서비스하는 행성 규모의 서빙 시스템에 대한 수요가 급증하게 되었으며, 이에 따라 합리적인 대기 시간 제약 조건 하에서 처리량이 서빙 시스템의 성능을 결정하는 주요 지표로 부상했습니다. 처리량을 증가시키기 위해 데이터, 텐서, 파이프라인 등의 장치 간 병렬화 방법이 탐구되었지만, 기존 방법은 단일 장치 내에서 다양한 자원의 중첩 사용을 고려하지 않아 자원의 미사용과 최적 성능을 제공하지 못하는 문제가 있습니다. 우리는 NanoFlow를 제안합니다. 이는 연산 공동 스케줄링을 통해 단일 장치 내에서 컴퓨팅, 메모리, 네트워크 등의 자원 사용을 중첩시키는 새로운 서빙 프레임워크입니다. 장치 내 병렬화를 활용하기 위해 NanoFlow는 두 가지 주요 혁신을 도입합니다. 먼저, NanoFlow는 연산의 단위에서 요청을 나노 배치로 분할하여 LLM 추론에서 순차적 연산의 종속성을 깨고 중첩을 가능하게 합니다. 그리고 중첩을 활용하기 위해 NanoFlow는 실행 단위 스케줄링을 사용하는 연산 수준 파이프라인을 사용하여 장치의 기능 단위를 분할하고 각 단위에서 다른 연산을 동시에 실행합니다. NanoFlow는 매개변수 검색 알고리즘을 사용하여 파이프라인 설정을 자동화하며, 이를 통해 NanoFlow를 다양한 모델로 쉽게 이식할 수 있습니다. 우리는 NVIDIA GPU에서 NanoFlow를 구현하고 LLaMA-2-70B, Mixtral 8x7B, LLaMA-3-8B 등의 인기 있는 모델에서 엔드 투 엔드 서빙 처리량을 평가합니다. 실제 작업 부하에서 NanoFlow는 최첨단 서빙 시스템과 비교하여 59%에서 72%의 최적 처리량을 달성하며 1.91배의 처리량 향상을 제공합니다.
대형 언어 모델(LLMs)은 언어 처리를 혁신적으로 바꾸어, 여러 응용 분야에서 우수한 결과를 제공합니다. 그러나 에지 장치에 LLMs를 배치하는 것은 메모리, 에너지, 그리고 계산 비용과 관련하여 여러 가지 도전을 야기하여, 이로 인해 휴대전화와 같은 장치에서의 널리 사용이 제한됩니다. 유망한 해결책은 가중치와 활성화를 표현하는 데 사용되는 비트 수를 줄이는 것입니다. 기존 연구들은 LLMs를 낮은 비트폭으로 양자화하는 데 일부 성공을 거두었지만, 예를 들어 4비트 가중치와 같은 것들이 있습니다. 그러나 16비트를 초과하는 활성화를 양자화하면 종종 장치 내 양자화 지원의 부족이나 상당한 정확도 하락으로 인해 큰 계산 부담이 발생합니다. 그럼에도 불구하고, 8비트 활성화는 휴대용 하드웨어, 예를 들어 신경 처리 장치(NPUs)를 완전히 활용할 수 있기 때문에 장치 내 배치에 매우 매력적입니다. 본 연구에서는 정수만을 사용한 양자화를 통해 LLMs의 장치 내 배치를 용이하게 하는 최초의 시도를 합니다. 먼저, 기존 양자화 방법의 한계를 조사하고, 특히 활성화 양자화에 중점을 두어 장치 내 배치를 위한 제한 사항을 다룹니다. 그런 다음, MobileQuant라는 간단한 사후 훈련 양자화 방법을 소개하여, 가중치 변환과 활성화 범위 매개변수를 함께 최적화하여 이를 종단 간 방식으로 해결합니다. MobileQuant는 기존 방법보다 우수한 성능을 보여주며, 1) 다양한 LLM 벤치마크에서 거의 손실이 없는 양자화를 달성하고, 2) 현재 장치 내 양자화 전략과 비교하여 20\%-50\%의 지연 시간과 에너지 소비를 줄이며, 3) 제한된 계산 예산이 필요하며, 4) NPU와 같은 휴대용 계산 장치와 호환됩니다.
전환 비디오는 미디어 제작에서 중요한 역할을 하며 시각적 서술의 흐름과 일관성을 향상시킵니다. 변형과 같은 전통적인 방법은 종종 예술적 매력이 부족하고 전문 기술이 필요하여 효과가 제한됩니다. 확산 모델 기반 비디오 생성의 최근 발전은 새로운 전환 생성 가능성을 제공하지만 프레임 간 관계 모델링과 콘텐츠 변화의 급격한 문제와 같은 어려움에 직면합니다. 본 연구에서는 추가 교육 없이 이러한 제한 사항을 해결하는 비디오 수준 확산 모델을 활용한 새로운 훈련 무료 전환 비디오 생성(TVG) 방법을 제안합니다. 우리의 방법은 잠재적 표현을 모델링하기 위해 가우시안 프로세스 회귀(GPR)를 활용하여 프레임 간 부드럽고 동적인 전환을 보장합니다. 더불어, 보간 기반 조건 제어 및 주파수 인식 양방향 퓨전(FBiF) 아키텍처를 도입하여 시간적 제어와 전환 신뢰성을 향상시킵니다. 벤치마크 데이터셋 및 사용자 정의 이미지 쌍의 평가를 통해 우리의 방법이 고품질 부드러운 전환 비디오를 생성하는 데 효과적임을 입증합니다. 코드는 https://sobeymil.github.io/tvg.com에서 제공됩니다.
ChatGPT 및 Gemini과 같은 대형 언어 모델(LLM)은 자연어 처리를 크게 발전시켜 챗봇 및 자동 콘텐츠 생성과 같은 다양한 응용 프로그램을 가능케 했습니다. 그러나 이러한 모델은 유해하거나 윤리적이지 않은 응답을 유도하기 위해 유해 프롬프트를 작성하는 악의적인 개인들에 의해 악용될 수 있습니다. 이러한 개인들은 종종 안전 메커니즘을 우회하기 위해 탈옥 기술을 사용하며, 이는 견고한 유해 프롬프트 감지 방법의 필요성을 강조합니다. 기존의 감지 기술인 블랙박스 및 화이트박스는 유해 프롬프트의 다양성, 확장성 및 계산 효율성과 관련된 도전에 직면하고 있습니다. 이에 우리는 LLM에서 유해 프롬프트를 효율적으로 감지하기 위해 설계된 경량 그레이박스 방법인 ToxicDetector을 제안합니다. ToxicDetector은 LLM을 활용하여 유해 개념 프롬프트를 생성하고, 임베딩 벡터를 사용하여 특징 벡터를 형성하며, 프롬프트 분류를 위해 다층 퍼셉트론(MLP) 분류기를 사용합니다. LLama 모델의 다양한 버전, Gemma-2 및 여러 데이터셋에 대한 평가 결과, ToxicDetector은 96.39%의 높은 정확도와 2.00%의 낮은 거짓 양성률을 달성하여 최신 기술을 능가합니다. 또한, ToxicDetector의 프롬프트 당 처리 시간이 0.0780초로 실시간 응용에 매우 적합합니다. ToxicDetector은 높은 정확도, 효율성 및 확장성을 달성하여 LLM에서 유해 프롬프트 감지를 위한 실용적인 방법으로 나타납니다.
단일 이미지 인간 재구성에 대한 기존 연구는 충분한 훈련 데이터 부족이나 3D 불일치로 인해 강한 일반화 능력이 부족합니다. 복합적인 다중 뷰 지식의 부족으로 인해 이러한 문제가 발생합니다. 본 논문에서는 단일 참조 이미지로부터 고품질의 새로운 뷰 이미지를 생성하기 위해 설계된 인간 특화 다중 뷰 확산 모델인 MagicMan을 소개합니다. 핵심으로, 우리는 일반화 능력을 위해 사전 훈련된 2D 확산 모델을 활용하고, 3D 신체 사전으로는 SMPL-X 모델을 활용하여 3D 인식을 촉진합니다. 개선된 3D 인간 재구성을 위해 밀도 높은 다중 뷰 생성을 달성하면서 일관성을 유지하는 중요한 도전에 대처하기 위해, 우리는 먼저 효율적이고 철저한 정보 교환을 용이하게 하는 하이브리드 다중 뷰 어텐션을 소개합니다. 게다가 RGB 및 노멀 도메인에서 동시에 생성을 수행하는 geometry-aware 이중 분기를 제시하여 geometry 힌트를 통해 일관성을 더욱 향상시킵니다. 마지막으로, 참조 이미지와 충돌하는 부정확한 SMPL-X 추정에서 발생하는 형태가 잘못된 문제에 대응하기 위해, 우리는 점진적으로 SMPL-X 정확도를 최적화하면서 생성된 다중 뷰의 품질과 일관성을 향상시키는 새로운 반복적 세분화 전략을 제안합니다. 광범위한 실험 결과는 우리의 방법이 새로운 뷰 합성 및 이후 3D 인간 재구성 작업에서 기존 방법을 현저하게 능가함을 보여줍니다.