번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)이 다양한 작업에서 인상적인 능력을 보여주고 있지만, 여전히 복잡한 추론과 계획이 필요한 시나리오에서는 어려움을 겪고 있습니다. 최근 연구에서는 LLMs의 추론 능력을 강화하기 위해 고급 프롬프트 기법과 고품질 데이터를 활용한 미세 조정의 필요성을 제안했습니다. 그러나 이러한 접근 방식은 데이터의 가용성과 품질에 의해 본질적으로 제약을 받습니다. 이러한 점을 고려할 때, 자기 수정(self-correction)과 자기 학습(self-learning)은 LLMs가 자신의 출력을 개선하고 자기 평가된 보상으로부터 학습할 수 있는 전략을 통해 실행 가능한 해결책으로 부상하고 있습니다. 하지만, 특히 복잡한 추론 및 계획 작업에서 LLMs가 스스로 응답을 개선하는 데 대한 효율성은 여전히 의심스럽습니다. 본 논문에서는 LLMs의 자기 개선을 위한 AlphaLLM을 소개합니다. AlphaLLM은 몬테카를로 트리 탐색(MCTS)을 LLMs와 통합하여 추가 주석 없이도 LLMs의 능력을 향상시키는 자기 개선 루프를 구축합니다. AlphaGo의 성공에서 영감을 받은 AlphaLLM은 MCTS와 LLM을 결합하여 자기 개선을 달성하는 데 있어 데이터 부족, 언어 작업의 광대한 탐색 공간, 그리고 언어 작업에서의 피드백의 주관적 특성과 같은 고유한 문제를 해결합니다. AlphaLLM은 프롬프트 합성 구성 요소, 언어 작업에 맞춤화된 효율적인 MCTS 접근법, 그리고 정확한 피드백을 제공하기 위한 세 가지 비평 모델로 구성됩니다. 수학적 추론 작업에서의 실험 결과는 AlphaLLM이 추가 주석 없이도 LLMs의 성능을 크게 향상시킬 수 있음을 보여주며, LLMs의 자기 개선 가능성을 입증합니다.
텍스트 애니메이션은 정적인 커뮤니케이션을 동적인 경험으로 변환하는 표현 매체로서, 단어에 움직임을 불어넣어 감정을 유발하고 의미를 강조하며 매력적인 내러티브를 구축합니다. 의미를 인지하는 애니메이션을 제작하는 것은 그래픽 디자인과 애니메이션 분야의 전문 지식을 요구하는 상당한 도전 과제입니다. 우리는 "다이내믹 타이포그래피(Dynamic Typography)"라는 자동화된 텍스트 애니메이션 기법을 제안합니다. 이 기법은 두 가지 어려운 작업을 결합합니다. 글자를 변형하여 의미를 전달하고, 사용자 프롬프트를 기반으로 생동감 있는 움직임을 부여합니다. 우리의 기술은 벡터 그래픽 표현과 종단 간(end-to-end) 최적화 기반 프레임워크를 활용합니다. 이 프레임워크는 신경 변위 필드를 사용하여 글자를 기본 형태로 변환하고, 프레임별 움직임을 적용하여 의도된 텍스트 개념과의 일관성을 유도합니다. 애니메이션 과정에서 가독성과 구조적 무결성을 유지하기 위해 형태 보존 기술과 지각 손실 정규화가 사용됩니다. 우리는 다양한 텍스트-투-비디오 모델에서 우리 접근 방식의 일반화 가능성을 입증하고, 별도의 작업으로 구성될 수 있는 베이스라인 방법들에 비해 우리의 종단 간 방법론의 우수성을 강조합니다. 양적 및 질적 평가를 통해, 우리 프레임워크가 사용자 프롬프트를 충실히 해석하면서도 가독성을 유지하는 일관된 텍스트 애니메이션을 생성하는 데 효과적임을 입증합니다. 우리의 코드는 https://animate-your-word.github.io/demo/에서 확인할 수 있습니다.
우리는 단 4장의 입력 이미지로부터 1초 이내에 고품질 메시를 재구성할 수 있는 새로운 LRM 기반 접근법인 MeshLRM을 제안한다. 기존의 NeRF 기반 재구성에 초점을 맞춘 대형 재구성 모델(LRMs)과 달리, MeshLRM은 LRM 프레임워크 내에서 미분 가능한 메시 추출 및 렌더링을 통합한다. 이를 통해 사전 훈련된 NeRF LRM을 메시 렌더링으로 미세 조정함으로써 종단 간(end-to-end) 메시 재구성이 가능해진다. 또한, 우리는 이전 LRM들의 복잡한 설계를 단순화하여 LRM 아키텍처를 개선했다. MeshLRM의 NeRF 초기화는 저해상도 및 고해상도 이미지로 순차적으로 훈련되며, 이러한 새로운 LRM 훈련 전략은 훨씬 빠른 수렴을 가능하게 하여 더 적은 계산량으로 더 나은 품질을 달성한다. 우리의 접근법은 희소 뷰(sparse-view) 입력에서 최첨단 메시 재구성을 달성할 뿐만 아니라, 텍스트-to-3D 및 단일 이미지-to-3D 생성과 같은 다양한 다운스트림 애플리케이션을 가능하게 한다. 프로젝트 페이지: https://sarahweiii.github.io/meshlrm/
텍스트-이미지 생성을 위한 Stable Diffusion(SD)의 높은 계산 부담은 실제 응용에 있어 상당한 장벽으로 작용합니다. 이러한 문제를 해결하기 위해 최근 연구는 Latent Consistency Model(LCM)과 같은 샘플링 단계 감소 방법과, 프루닝 및 지식 증류를 포함한 아키텍처 최적화에 초점을 맞추고 있습니다. 기존 접근법과는 달리, 우리는 컴팩트한 SD 변형인 BK-SDM을 출발점으로 삼았습니다. 일반적으로 사용되는 크롤링 데이터셋에 LCM을 BK-SDM에 직접 적용했을 때 만족스럽지 못한 결과를 얻었음을 관찰했습니다. 이는 우리가 두 가지 전략을 개발하게 했습니다: (1) 선도적인 생성 모델에서 얻은 고품질 이미지-텍스트 쌍을 활용하는 것과 (2) LCM에 맞춤화된 고급 증류 프로세스를 설계하는 것입니다. 양자화, 프로파일링 및 온디바이스 배포에 대한 철저한 탐구를 통해, 우리는 리소스가 제한된 엣지 디바이스에서도 1초 미만의 지연 시간으로 두 단계만에 사진처럼 사실적이고 텍스트에 부합하는 이미지를 빠르게 생성하는 데 성공했습니다.
최근 대규모 언어 모델(LLM)이 긴 콘텐츠 생성에 널리 활용되면서, 효율적인 장시퀀스 추론 지원에 대한 수요가 증가하고 있습니다. 그러나 재계산을 피하기 위해 저장되는 키-값(KV) 캐시는 시퀀스 길이에 따라 선형적으로 증가하며 주요 병목 현상으로 부각되고 있습니다. LLM의 자기회귀적 특성으로 인해, 생성되는 모든 토큰에 대해 전체 KV 캐시가 로드되어 계산 코어의 활용도가 낮고 지연 시간이 길어지는 문제가 발생합니다. 이 문제를 완화하기 위해 다양한 KV 캐시 압축 방법이 제안되었지만, 생성 품질 저하라는 단점이 있습니다. 우리는 장시퀀스 생성에 확장 가능한 계층적 추측 디코딩 시스템인 TriForce를 소개합니다. 이 접근법은 원본 모델 가중치와 검색을 통한 동적 희소 KV 캐시를 드래프트 모델로 활용하며, 이는 계층 구조의 중간층 역할을 하고 더 작은 모델에 의해 추측되어 드래프팅 지연 시간을 줄입니다. TriForce는 Llama2-7B-128K에서 A100 GPU에서 최대 2.31배의 속도 향상을 달성할 뿐만 아니라, 더 긴 컨텍스트를 처리하는 데 있어서도 확장성을 보여줍니다. 두 개의 RTX 4090 GPU를 사용한 오프로딩 설정에서 TriForce는 토큰당 0.108초를 달성하며, 이는 A100에서의 자기회귀 기준선의 절반 수준에 불과하고, 우리의 최적화된 오프로딩 시스템에서 7.78배의 성능을 보입니다. 또한, 단일 RTX 4090 GPU에서 DeepSpeed-Zero-Inference보다 4.86배 더 나은 성능을 보입니다. TriForce의 견고성은 다양한 온도 설정에서 일관되게 뛰어난 성능을 보이는 것으로 입증됩니다. 코드는 https://github.com/Infini-AI-Lab/TriForce에서 확인할 수 있습니다.
인간이 주석을 단 선호도 데이터를 기반으로 언어 모델(LM)을 정렬하는 것은 실용적이고 성능이 뛰어난 LM 기반 시스템을 얻기 위한 중요한 단계입니다. 그러나 다국어 인간 선호도 데이터는 대규모로 얻기 어려워, 이 프레임워크를 다양한 언어로 확장하는 데 어려움이 있습니다. 본 연구에서는 단일 소스 언어의 선호도 데이터로 훈련된 보상 모델을 다른 대상 언어에 직접 적용하는 제로샷 교차 언어 정렬 접근법을 평가합니다. 요약 및 개방형 대화 생성 작업에서 이 방법은 인간 평가를 포함한 포괄적인 평가 설정에서 일관되게 성공적임을 보여줍니다: 교차 언어로 정렬된 모델은 정렬되지 않은 모델보다 최대 >70%의 평가 사례에서 인간에게 선호되었습니다. 또한, 다른 언어의 보상 모델이 동일 언어의 보상 모델보다 더 잘 정렬된 모델을 생성하는 경우도 발견했습니다. 정렬의 또 다른 구성 요소인 지도 미세 조정을 위한 언어별 데이터가 전혀 없는 경우의 모범 사례도 확인했습니다.
텍스트-이미지 확산 모델의 개인화를 위한 새로운 아키텍처인 Mixture-of-Attention(MoA)을 소개한다. 대규모 언어 모델(LLM)에서 활용되는 Mixture-of-Experts 메커니즘에서 영감을 받은 MoA는 생성 작업을 두 개의 주의 경로, 즉 개인화된 브랜치와 비개인화된 사전 브랜치 사이에 분배한다. MoA는 사전 브랜치의 주의 레이어를 고정함으로써 원본 모델의 사전 지식을 유지하도록 설계되었으며, 사전 브랜치가 생성한 레이아웃과 컨텍스트에 주체를 임베딩하는 방법을 학습하는 개인화된 브랜치를 통해 생성 과정에 최소한의 개입을 한다. 새로운 라우팅 메커니즘은 각 레이어의 픽셀을 이러한 브랜치 간에 분배하여 개인화된 콘텐츠와 일반적인 콘텐츠 생성의 혼합을 최적화한다. 학습이 완료되면 MoA는 원본 모델이 생성한 것만큼 다양한 구성과 상호작용을 가진 다중 주체를 포함한 고품질의 개인화된 이미지 생성을 가능하게 한다. 특히, MoA는 모델의 기존 능력과 새롭게 추가된 개인화된 개입 간의 구분을 강화함으로써, 이전에는 달성할 수 없었던 더욱 분리된 주체-컨텍스트 제어를 제공한다. 프로젝트 페이지: https://snap-research.github.io/mixture-of-attention
본 논문은 MLCommons AI Safety Working Group에서 개발한 AI Safety Benchmark v0.5를 소개합니다. AI Safety Benchmark는 채팅 최적화 언어 모델을 사용하는 AI 시스템의 안전 위험을 평가하기 위해 설계되었습니다. v0.5 버전은 단일 사용 사례(영어로 일반 목적의 어시스턴트와 대화하는 성인)와 제한된 페르소나(일반 사용자, 악의적 사용자, 취약한 사용자)를 다룹니다. 우리는 13개의 위험 범주로 구성된 새로운 분류 체계를 개발했으며, 이 중 7개 범주에 대한 테스트가 v0.5 벤치마크에 포함되어 있습니다. 2024년 말까지 AI Safety Benchmark 버전 1.0을 출시할 계획이며, 이 버전은 AI 시스템의 안전성에 대한 의미 있는 통찰을 제공할 것입니다. 그러나 v0.5 벤치마크는 AI 시스템의 안전성을 평가하는 데 사용되어서는 안 됩니다. 우리는 v0.5의 한계, 결함 및 과제를 충분히 문서화하려고 노력했습니다. 이번 v0.5 출시에는 다음이 포함됩니다: (1) 사용 사례, 테스트 대상 시스템 유형(SUTs), 언어 및 컨텍스트, 페르소나, 테스트 및 테스트 항목으로 구성된 벤치마크의 명세 및 구축을 위한 원칙적 접근법; (2) 정의와 하위 범주를 포함한 13개 위험 범주의 분류 체계; (3) 각각 고유한 테스트 항목(프롬프트)으로 구성된 7개 위험 범주에 대한 테스트. 템플릿을 사용해 총 43,090개의 테스트 항목을 생성했습니다; (4) 벤치마크에 대한 AI 시스템의 등급 평가 시스템; (5) 벤치마크에서 AI 시스템의 안전성을 평가하는 데 사용할 수 있는 공개 플랫폼 및 다운로드 가능한 도구인 ModelBench; (6) 공개적으로 이용 가능한 10여 개의 채팅 최적화 언어 모델의 성능을 벤치마킹한 예시 평가 보고서; (7) 벤치마크를 위한 테스트 명세.