번역이 포함된 일일 선별된 AI 연구 논문
우리는 3.8억 개의 파라미터를 가진 언어 모델인 phi-3-mini를 소개합니다. 이 모델은 3.3조 개의 토큰으로 학습되었으며, 학계 벤치마크와 내부 테스트를 통해 측정된 전반적인 성능은 Mixtral 8x7B 및 GPT-3.5와 맞먹습니다(예: phi-3-mini는 MMLU에서 69%, MT-bench에서 8.38점을 달성). 이 모델은 휴대폰에 배포할 수 있을 정도로 작으면서도 이러한 성능을 보입니다. 혁신은 전적으로 학습 데이터셋에 있으며, 이는 phi-2에 사용된 데이터셋의 확장 버전으로, 엄격하게 필터링된 웹 데이터와 합성 데이터로 구성됩니다. 또한 이 모델은 견고성, 안전성 및 채팅 형식에 맞추어 추가로 정렬되었습니다. 우리는 또한 4.8조 개의 토큰으로 학습된 7B 및 14B 모델인 phi-3-small과 phi-3-medium의 초기 파라미터 스케일링 결과를 제공합니다. 이 두 모델은 phi-3-mini보다 훨씬 더 뛰어난 성능을 보입니다(예: 각각 MMLU에서 75%와 78%, MT-bench에서 8.7과 8.9점을 달성).
메타의 LLaMA 패밀리는 가장 강력한 오픈소스 대규모 언어 모델(LLM) 시리즈 중 하나로 자리 잡았습니다. 특히, 최근 출시된 LLaMA3 모델들은 15조 토큰 이상의 초대규모 데이터로 사전 학습을 진행하여 다양한 분야에서 인상적인 성능을 달성했습니다. 자원이 제한된 환경에서 LLM에 대한 저비트 양자화의 광범위한 적용을 고려할 때, 우리는 LLaMA3가 저비트 폭으로 양자화되었을 때의 능력을 탐구합니다. 이 탐구는 LLaMA3 및 향후 출시될 다른 LLM들의 저비트 양자화에 대한 새로운 통찰과 과제를 밝혀낼 잠재력을 가지고 있으며, 특히 LLM 압축에서 겪는 성능 저하 문제를 해결하는 데 기여할 수 있습니다. 구체적으로, 우리는 1-8비트 범위와 다양한 데이터셋에서 LLaMA3의 10가지 기존 사후 학습 양자화 및 LoRA 파인튜닝 방법을 평가하여 LLaMA3의 저비트 양자화 성능을 포괄적으로 분석합니다. 실험 결과에 따르면, LLaMA3는 특히 초저비트 폭에서 이러한 시나리오에서 무시할 수 없는 성능 저하를 겪는 것으로 나타났습니다. 이는 향후 개발에서 해결해야 할 저비트 폭에서의 상당한 성능 격차를 강조합니다. 우리는 이 실증적 연구가 향후 모델의 발전에 기여하고, LLM이 더 낮은 비트 폭에서도 더 높은 정확도를 유지하며 실용적으로 사용될 수 있도록 하는 데 가치가 있을 것으로 기대합니다. 우리의 프로젝트는 https://github.com/Macaronlin/LLaMA3-Quantization에서 공개되었으며, 양자화된 LLaMA3 모델은 https://huggingface.co/LLMQ에서 확인할 수 있습니다.
오늘날의 대형 언어 모델(LLM)은 프롬프트 주입, 탈옥(jailbreak), 그리고 공격자가 모델의 원래 지시사항을 악의적인 프롬프트로 덮어쓸 수 있는 다양한 공격에 취약합니다. 본 연구에서는 이러한 공격들의 주요 취약점 중 하나가 LLM이 종종 시스템 프롬프트(예: 애플리케이션 개발자의 텍스트)를 신뢰할 수 없는 사용자 및 제3자의 텍스트와 동일한 우선순위로 간주한다는 점이라고 주장합니다. 이를 해결하기 위해, 우리는 모델이 서로 다른 우선순위의 지시사항이 충돌할 때 어떻게 행동해야 하는지를 명시적으로 정의하는 지시사항 계층 구조를 제안합니다. 그런 다음, 이 계층적 지시사항 준수 행동을 보여주기 위한 데이터 생성 방법을 제안하며, 이는 LLM이 낮은 권한의 지시사항을 선택적으로 무시하도록 가르칩니다. 우리는 이 방법을 GPT-3.5에 적용하여, 훈련 중에 보지 못한 공격 유형에 대해서도 견고성을 크게 증가시키는 동시에 표준 기능에 미치는 성능 저하를 최소화함을 보여줍니다.
급속히 발전하는 로보틱 프로세스 자동화(RPA) 분야는 반복적인 프로세스 자동화에서 상당한 진전을 이루었지만, 사용자가 요구하는 즉흥적이거나 예측 불가능한 작업이 필요한 시나리오에서는 그 효과가 감소합니다. 본 논문은 이러한 한계를 해결하고 자동 워크플로우 생성 시스템을 구축하기 위해 생성형 사전 훈련 변환기(GPT)와 같은 대형 언어 모델(LLM)의 능력을 활용한 새로운 접근 방식인 FlowMind를 소개합니다. FlowMind에서는 신뢰할 수 있는 애플리케이션 프로그래밍 인터페이스(API)와 함께 LLM의 추론을 기반으로 하는 일반적인 프롬프트 레시피를 제안합니다. 이를 통해 FlowMind는 LLM에서 흔히 발생하는 환각 문제를 완화할 뿐만 아니라, LLM과 독점 데이터 또는 코드 간의 직접적인 상호작용을 제거하여 정보의 무결성과 기밀성을 보장합니다. 이는 금융 서비스에서 핵심적인 요소입니다. FlowMind는 또한 자동 생성된 워크플로우에 대한 상위 수준의 설명을 제공하여 사용자가 효과적으로 검토하고 피드백을 제공할 수 있도록 함으로써 사용자 상호작용을 더욱 단순화합니다. 또한, 펀드에 대한 N-CEN 보고서에서 질문-응답 작업을 벤치마킹하기 위한 새로운 금융 데이터셋인 NCEN-QA를 소개합니다. NCEN-QA를 사용하여 FlowMind에 의해 생성된 워크플로우의 성능을 기준선 및 FlowMind의 변형과 비교 평가했습니다. 이를 통해 FlowMind의 성공, 제안된 프롬프트 레시피의 각 구성 요소의 중요성, 그리고 FlowMind에서의 사용자 상호작용과 피드백의 효과를 입증했습니다.
최근, 확산 모델(Diffusion Models, DMs)의 다단계 추론 과정과 관련된 계산 오버헤드를 완화하기 위해 일련의 확산 인지 증류(diffusion-aware distillation) 알고리즘이 등장했습니다. 현재의 증류 기술은 주로 두 가지 측면으로 나뉩니다: i) ODE 궤적 보존(ODE Trajectory Preservation); ii) ODE 궤적 재구성(ODE Trajectory Reformulation). 그러나 이러한 접근법은 심각한 성능 저하나 도메인 변화를 겪는 문제가 있습니다. 이러한 한계를 해결하기 위해, 우리는 ODE 궤적 보존과 재구성의 장점을 시너지적으로 결합하면서도 단계 압축 과정에서 거의 손실 없는 성능을 유지하는 새로운 프레임워크인 Hyper-SD를 제안합니다. 첫째, 우리는 미리 정의된 시간 단계 세그먼트 내에서 점진적으로 일관된 증류를 수행하는 궤적 분할 일관성 증류(Trajectory Segmented Consistency Distillation)를 도입하여, 고차원적 관점에서 원본 ODE 궤적을 보존할 수 있도록 합니다. 둘째, 인간 피드백 학습을 통합하여 저단계(low-step) 영역에서 모델의 성능을 향상시키고 증류 과정에서 발생하는 성능 손실을 완화합니다. 셋째, 점수 증류(score distillation)를 통합하여 모델의 저단계 생성 능력을 더욱 개선하고, 모든 단계에서 추론 과정을 지원하기 위해 통합된 LoRA를 활용하는 첫 번째 시도를 제공합니다. 광범위한 실험과 사용자 연구를 통해 Hyper-SD가 SDXL과 SD1.5 모두에서 1~8단계 추론에서 SOTA 성능을 달성함을 입증했습니다. 예를 들어, Hyper-SDXL은 1단계 추론에서 SDXL-Lightning보다 CLIP Score에서 +0.68, Aes Score에서 +0.51의 우수한 성능을 보였습니다.
본 논문은 다중모드 자동 해석 에이전트(MAIA)를 소개합니다. MAIA는 신경망 모델 이해 작업, 예를 들어 특징 해석 및 실패 모드 발견 등을 자동화하기 위해 신경망 모델을 사용하는 시스템입니다. MAIA는 사전 훈련된 시각-언어 모델에 다른 모델의 하위 구성 요소에 대한 반복적 실험을 지원하는 도구 세트를 장착하여 그들의 동작을 설명합니다. 이러한 도구는 인간 해석 연구자들이 일반적으로 사용하는 것들로, 입력 합성 및 편집, 실제 데이터셋에서 최대 활성화 예제 계산, 실험 결과 요약 및 설명 등을 포함합니다. MAIA가 제안하는 해석 실험은 이러한 도구들을 조합하여 시스템 동작을 설명하고 해석합니다. 우리는 MAIA를 컴퓨터 비전 모델에 적용하여 평가합니다. 먼저, MAIA가 학습된 이미지 표현에서 (뉴런 수준의) 특징을 설명하는 능력을 특성화합니다. 여러 훈련된 모델과 짝을 이룬 실측 설명이 포함된 합성 시각 뉴런 데이터셋을 통해, MAIA는 전문가 인간 실험자가 생성한 설명과 비슷한 수준의 설명을 생성합니다. 그런 다음, MAIA가 두 가지 추가 해석 작업에 도움을 줄 수 있음을 보여줍니다: 허위 특징에 대한 민감도를 줄이는 것과 잘못 분류될 가능성이 높은 입력을 자동으로 식별하는 것입니다.
다중모달 기반 모델의 급속한 발전은 시각-언어 이해 및 생성 분야에서 상당한 진전을 보여주었으며, 예를 들어 우리의 이전 연구인 SEED-LLaMA가 그 대표적인 사례입니다. 그러나 이러한 모델의 능력과 실제 세계 적용 가능성 사이에는 여전히 간극이 존재하는데, 이는 주로 모델이 다양한 사용자 지시에 효과적으로 응답하고 다양한 시각 데이터와 상호작용할 수 있는 능력이 제한적이기 때문입니다. 본 연구에서는 이러한 간극을 해소하기 위해 두 가지 강화된 기능을 통합하는 데 초점을 맞췄습니다: (1) 임의의 크기와 비율의 이미지를 이해하는 기능, 그리고 (2) 다중 세분화 수준의 이미지 생성을 가능하게 하는 기능입니다. 우리는 이해 및 생성 작업을 위해 다중 세분화 수준의 시각적 의미를 모델링할 수 있는 통합적이고 다용도의 기반 모델인 SEED-X를 제안합니다. 공개 벤치마크에서의 경쟁력 있는 결과 외에도, SEED-X는 지시 튜닝 후 다양한 분야의 실제 애플리케이션을 처리하는 데 있어서도 그 효과성을 입증했습니다. 우리의 연구가 실제 애플리케이션에서 다용도 다중모달 기반 모델이 달성할 수 있는 것에 대한 미래 연구에 영감을 줄 수 있기를 바랍니다. 모델, 코드, 그리고 데이터셋은 https://github.com/AILab-CVC/SEED-X에서 공개될 예정입니다.
일관성 모델(Consistency Models)은 효율적인 이미지/비디오 생성을 촉진하고 최소한의 샘플링 단계로 합성을 가능하게 하는 놀라운 능력을 보여주었습니다. 이는 확산 모델(Diffusion Models)과 관련된 계산 부담을 완화하는 데 유리한 것으로 입증되었습니다. 그러나 음악 생성 분야에서 일관성 모델의 적용은 아직 크게 탐구되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 멜-스펙트로그램(mel-spectrogram)을 효율적으로 합성하면서도 높은 품질을 유지하고 샘플링 단계 수를 최소화하는 일관성 모델 개념을 활용한 Music Consistency Models (MusicCM)을 제안합니다. 기존의 텍스트-투-뮤직(Text-to-Music) 확산 모델을 기반으로, MusicCM 모델은 일관성 증류(Consistency Distillation)와 적대적 판별기(Adversarial Discriminator) 훈련을 통합합니다. 또한, 공유된 제약 조건을 가진 다중 확산 프로세스를 통합하여 확장된 일관성 있는 음악을 생성하는 것이 유리함을 발견했습니다. 실험 결과는 우리 모델의 계산 효율성, 충실도(Fidelity), 그리고 자연스러움(Naturalness) 측면에서의 효과를 보여줍니다. 특히, MusicCM은 단 4개의 샘플링 단계로 원활한 음악 합성을 달성하며, 예를 들어 음악 클립 1분당 단 1초만 소요되어 실시간 응용 가능성을 입증했습니다.
본 논문은 텍스트에서 이미지 생성을 위한 다중 개념 맞춤화를 위한 새로운 기술인 MultiBooth를 소개한다. 특히 확산 모델의 성공으로 맞춤화 생성 방법이 크게 발전했음에도 불구하고, 기존 방법들은 낮은 개념 충실도와 높은 추론 비용으로 인해 다중 개념 시나리오에서 어려움을 겪는 경우가 많다. MultiBooth는 이러한 문제를 해결하기 위해 다중 개념 생성 과정을 단일 개념 학습 단계와 다중 개념 통합 단계로 나눈다. 단일 개념 학습 단계에서는 다중 모달 이미지 인코더와 효율적인 개념 인코딩 기술을 사용하여 각 개념에 대한 간결하고 구별 가능한 표현을 학습한다. 다중 개념 통합 단계에서는 크로스 어텐션 맵 내에서 각 개념의 생성 영역을 정의하기 위해 바운딩 박스를 사용한다. 이 방법은 지정된 영역 내에서 개별 개념을 생성할 수 있게 하여 다중 개념 이미지의 형성을 용이하게 한다. 이 전략은 개념 충실도를 향상시킬 뿐만 아니라 추가 추론 비용을 줄인다. MultiBooth는 정성적 및 정량적 평가에서 다양한 베이스라인을 능가하며, 우수한 성능과 계산 효율성을 입증한다. 프로젝트 페이지: https://multibooth.github.io/
가파른 환경에서의 안정적인 보행은 사족 보행 로봇의 필수적인 능력으로, 다양한 외부 방해에 저항할 수 있는 능력을 요구합니다. 그러나 최근의 학습 기반 정책들은 학습된 정책의 견고성을 향상시키기 위해 기본적인 도메인 랜덤화만을 사용하며, 이는 로봇이 충분한 방해 저항 능력을 갖추도록 보장할 수 없습니다. 본 논문에서는 학습 과정을 행위자와 새로 도입된 방해자 간의 적대적 상호작용으로 모델링하고, H_{infty} 제약을 통해 이들의 최적화를 보장하는 방법을 제안합니다. 할인된 전체 보상을 최대화하는 행위자와 달리, 방해자는 효과적인 외부 힘을 생성하고, 각 반복에서 작업 보상과 그 오라클(즉, "비용") 간의 오차를 최대화함으로써 최적화됩니다. 행위자와 방해자 간의 공동 최적화를 안정적으로 유지하기 위해, 우리의 H_{infty} 제약은 외부 힘의 강도에 대한 비용의 비율의 한계를 규정합니다. 훈련 단계 전반에 걸친 상호작용을 통해, 행위자는 점점 더 복잡한 물리적 방해를 극복할 수 있는 능력을 습득할 수 있습니다. 우리는 Unitree Aliengo 로봇을 사용한 사족 보행 작업과, Unitree A1 로봇을 사용한 더 어려운 작업(사족 로봇이 이족 보행 로봇처럼 뒷다리만으로 보행을 수행해야 하는 작업)에서 우리 접근법의 견고성을 검증합니다. 시뮬레이션된 정량적 결과는 기준선 대비 개선을 보여주며, 이 방법과 각 설계 선택의 효과성을 입증합니다. 한편, 실제 로봇 실험은 계단, 높은 플랫폼, 경사면, 미끄러운 지형 등 다양한 지형에서 다양한 방해를 받을 때 정책이 얼마나 견고한지 질적으로 보여줍니다. 모든 코드, 체크포인트, 실제 배포 가이드가 공개될 예정입니다.
우리는 한 장면을 묘사하는 이미지 세트로부터 카메라 파라미터를 추정하는 작업을 다룹니다. 널리 사용되는 특징 기반 구조 추정(SfM) 도구들은 이 작업을 증분적 재구성을 통해 해결합니다: 이들은 희소 3D 점들의 삼각측량과 희소 점 구름에 더 많은 카메라 뷰를 등록하는 과정을 반복합니다. 우리는 증분적 구조 추정을 시각적 재위치 지정기의 반복적 적용 및 개선으로 재해석합니다. 즉, 재구성의 현재 상태에 새로운 뷰를 등록하는 방법으로 해석합니다. 이러한 관점은 지역 특징 매칭에 기반하지 않는 대안적 시각적 재위치 지정기를 탐구할 수 있게 합니다. 우리는 학습 기반 재위치 지정 접근법인 장면 좌표 회귀를 통해 포즈가 없는 이미지로부터 암묵적 신경망 장면 표현을 구축할 수 있음을 보여줍니다. 다른 학습 기반 재구성 방법과 달리, 우리는 포즈 사전 정보나 순차적 입력을 요구하지 않으며, 수천 장의 이미지에 대해 효율적으로 최적화합니다. 우리의 방법인 ACE0(ACE Zero)는 특징 기반 SfM과 비슷한 정확도로 카메라 포즈를 추정하며, 이는 새로운 뷰 합성을 통해 입증되었습니다. 프로젝트 페이지: https://nianticlabs.github.io/acezero/