번역이 포함된 일일 선별된 AI 연구 논문
정렬 문제의 복잡성은 기존 방법들이 불안정하다는 사실에서 비롯됩니다. 연구자들은 이러한 단점을 해결하기 위해 다양한 기법을 지속적으로 개발하고 있습니다. 예를 들어, 언어 모델 정렬의 기본 기술인 인간 피드백 강화 학습(RLHF)에서는 보상 최대화 외에도, 학습 가능한 정책과 SFT 정책 간의 Kullback-Leibler 발산을 최소화합니다. 이 추가 사항은 모델이 보상 모델(RM)에 과적합되는 것을 방지하고, RM의 도메인을 벗어난 텍스트를 생성하지 않도록 합니다. 직접 선호 최적화(DPO) 방법은 RLHF의 최적화 문제를 재구성하여 보상 모델을 제거하면서도, 정책이 SFT 정책에 가깝게 유지되어야 한다는 요구 사항을 암묵적으로 유지합니다. 본 논문에서는 DPO 방법의 이러한 암묵적 제한이 최적이 아닌 결과를 초래한다고 주장합니다. 우리는 훈련 과정에서 참조 정책을 업데이트하는 새로운 방법인 Trust Region DPO(TR-DPO)를 제안합니다. 이러한 간단한 업데이트를 통해, Anthropic HH 및 TLDR 데이터셋에서 TR-DPO가 DPO보다 효과적임을 입증합니다. GPT-4를 사용한 자동 평가에서 TR-DPO가 DPO를 최대 19%까지 능가하는 것을 보여줍니다. 우리가 제안하는 새로운 정렬 접근법은 일관성, 정확성, 세부 수준, 유용성, 무해성 등 여러 매개변수에 걸쳐 모델의 품질을 동시에 개선할 수 있게 합니다.
트랜스포머의 이차 복잡도와 약한 길이 외삽 능력은 긴 시퀀스로 확장하는 데 한계를 보입니다. 선형 어텐션과 상태 공간 모델과 같은 이차 미만의 해결책이 존재하지만, 이들은 사전 학습 효율성과 다운스트림 작업 정확도에서 트랜스포머에 비해 경험적으로 뒤떨어지는 성능을 보입니다. 우리는 무제한 컨텍스트 길이를 위한 효율적인 시퀀스 모델링 신경망 아키텍처인 Megalodon을 소개합니다. Megalodon은 Mega(게이트 어텐션을 적용한 지수 이동 평균)의 아키텍처를 계승하며, 복소수 지수 이동 평균(CEMA), 시간 단계 정규화 계층, 정규화된 어텐션 메커니즘, 그리고 두 홉 잔차 구성을 적용한 사전 정규화와 같은 여러 기술적 구성 요소를 도입하여 성능과 안정성을 개선했습니다. Llama2와의 엄격한 헤드투헤드 비교에서, Megalodon은 70억 개의 파라미터와 2조 개의 학습 토큰 규모에서 트랜스포머보다 더 나은 효율성을 달성했습니다. Megalodon은 1.70의 학습 손실을 기록하며, Llama2-7B(1.75)와 13B(1.67) 사이의 중간 성능을 보였습니다. 코드: https://github.com/XuezheMax/megalodon
트랜스포머는 딥러닝 분야를 혁신적으로 변화시켰지만, 이차원적 어텐션 복잡도로 인해 무한히 긴 입력을 처리하는 데 한계가 있습니다. 본 연구에서는 피드백 루프를 활용하여 네트워크가 자신의 잠재 표현에 주의를 기울일 수 있도록 하는 새로운 트랜스포머 아키텍처인 피드백 어텐션 메모리(FAM)를 제안합니다. 이 설계는 트랜스포머 내에서 워킹 메모리의 출현을 촉진하여 무한히 긴 시퀀스를 처리할 수 있게 합니다. TransformerFAM은 추가적인 가중치가 필요하지 않아 사전 훈련된 모델과의 원활한 통합이 가능합니다. 실험 결과, TransformerFAM은 다양한 모델 크기(1B, 8B, 24B)에서 장문 컨텍스트 작업에 대한 트랜스포머의 성능을 크게 향상시켰습니다. 이러한 결과는 대규모 언어 모델(LLM)이 무제한 길이의 시퀀스를 처리할 수 있도록 하는 잠재력을 보여줍니다.
고품질의 인터랙티브 가상 환경, 예를 들어 게임과 시뮬레이터를 만드는 것은 종종 복잡하고 비용이 많이 드는 수동 모델링 과정을 수반합니다. 본 논문에서는 실제 장면의 비디오를 사실적이고 인터랙티브한 게임 환경으로 자동 변환하는 새로운 접근 방식인 Video2Game을 소개합니다. 우리 시스템의 핵심은 세 가지 주요 구성 요소로 이루어져 있습니다: (i) 장면의 기하학적 구조와 시각적 외관을 효과적으로 포착하는 신경 방사 필드(NeRF) 모듈; (ii) NeRF의 지식을 추출하여 더 빠른 렌더링을 가능하게 하는 메시 모듈; (iii) 객체 간의 상호작용과 물리적 역학을 모델링하는 물리 모듈. 이렇게 설계된 파이프라인을 따르면 실제 세계의 인터랙티브하고 실행 가능한 디지털 복제본을 구축할 수 있습니다. 우리는 시스템을 실내 및 대규모 실외 장면에서 벤치마크하며, 실시간으로 매우 사실적인 렌더링을 생성할 뿐만 아니라 그 위에 인터랙티브 게임을 구축할 수 있음을 보여줍니다.
압축을 잘 배우는 것이 지능으로 이어진다는 믿음이 있습니다. 최근 언어 모델링이 압축과 동등하다는 것이 밝혀졌으며, 이는 대규모 언어 모델(LLM)의 성공에 대한 설득력 있는 근거를 제공합니다: 더 발전된 언어 모델의 개발은 본질적으로 압축을 향상시키는 것이며, 이는 지능을 촉진합니다. 이러한 매력적인 논의에도 불구하고, 압축과 지능 간의 상호작용에 대한 경험적 증거는 거의 없습니다. 본 연구에서는 LLM을 데이터 압축기로 간주하여 LLM의 맥락에서 이 둘의 관계를 조사합니다. "지능"이라는 추상적인 개념을 감안하여, 우리는 평균 다운스트림 벤치마크 점수를 대리 지표로 채택하며, 특히 지식과 상식, 코딩, 수학적 추론과 관련된 지능을 대상으로 합니다. 12개의 벤치마크에 걸쳐, 우리의 연구는 다양한 조직에서 출발한 30개의 공개 LLM을 종합합니다. 주목할 만하게도, 우리는 LLM의 지능(평균 벤치마크 점수로 반영됨)이 외부 텍스트 코퍼스를 압축하는 능력과 거의 선형적으로 상관관계가 있음을 발견했습니다. 이러한 결과는 우수한 압축이 더 큰 지능을 나타낸다는 믿음을 뒷받침하는 구체적인 증거를 제공합니다. 더 나아가, 우리의 연구 결과는 원시 텍스트 코퍼스에서 도출된 비지표적 지표인 압축 효율성이 모델 능력과 선형적으로 연관된 신뢰할 수 있는 평가 척도로 작용함을 시사합니다. 우리는 향후 연구자들이 압축을 적절히 평가할 수 있도록 압축 데이터셋과 데이터 수집 파이프라인을 오픈소스로 공개합니다.
ControlNet은 깊이 맵, 캐니 에지, 인간 포즈 등 다양한 조건을 통해 이미지 생성에 공간적 제어를 추가하는 데 널리 사용됩니다. 그러나 사전 학습된 이미지 ControlNet을 제어된 비디오 생성에 활용할 때는 몇 가지 과제가 존재합니다. 첫째, 사전 학습된 ControlNet은 특징 공간의 불일치로 인해 새로운 백본 모델에 직접 적용할 수 없으며, 새로운 백본을 위한 ControlNet을 학습하는 비용이 큰 부담이 됩니다. 둘째, 다른 프레임에 대한 ControlNet 특징이 시간적 일관성을 효과적으로 처리하지 못할 수 있습니다. 이러한 과제를 해결하기 위해, 우리는 Ctrl-Adapter를 소개합니다. Ctrl-Adapter는 사전 학습된 ControlNet을 활용(및 비디오의 시간적 정렬을 개선)하여 모든 이미지/비디오 확산 모델에 다양한 제어를 추가하는 효율적이고 다목적 프레임워크입니다. Ctrl-Adapter는 이미지 제어, 비디오 제어, 희소 프레임을 통한 비디오 제어, 다중 조건 제어, 다양한 백본과의 호환성, 보이지 않는 제어 조건에 대한 적응, 비디오 편집 등 다양한 기능을 제공합니다. Ctrl-Adapter에서는 ControlNet과 확산 모델의 매개변수를 고정한 상태로 사전 학습된 ControlNet 특징을 다양한 이미지/비디오 확산 모델에 융합하는 어댑터 레이어를 학습합니다. Ctrl-Adapter는 시간적 모듈과 공간적 모듈로 구성되어 비디오의 시간적 일관성을 효과적으로 처리할 수 있습니다. 또한, 강력한 적응과 희소 제어를 위해 잠재적 건너뛰기(latent skipping)와 역 시간 단계 샘플링(inverse timestep sampling)을 제안합니다. 더 나아가, Ctrl-Adapter는 ControlNet 출력의 (가중) 평균을 간단히 취함으로써 다중 조건에서의 제어를 가능하게 합니다. 다양한 이미지/비디오 확산 백본(SDXL, Hotshot-XL, I2VGen-XL, SVD)을 사용하여, Ctrl-Adapter는 이미지 제어에서 ControlNet과 동등한 성능을 보이며, 비디오 제어에서는 모든 기준선을 능가합니다(DAVIS 2017 데이터셋에서 SOTA 정확도 달성). 이는 훨씬 낮은 계산 비용(10 GPU 시간 미만)으로 이루어집니다.
본 연구는 약 20만 개의 편집을 포함한 고품질 지침 기반 이미지 편집 데이터셋인 HQ-Edit을 소개합니다. 속성 지침이나 데이터셋 구축을 위한 인간 피드백에 의존하는 기존 접근 방식과 달리, 우리는 GPT-4V와 DALL-E 3와 같은 고급 파운데이션 모델을 활용하여 확장 가능한 데이터 수집 파이프라인을 설계했습니다. 고품질을 보장하기 위해, 먼저 온라인에서 다양한 예시를 수집하고 확장한 후, 상세한 텍스트 프롬프트와 함께 입력 및 출력 이미지를 포함한 고품질 디프티크를 생성하였으며, 후처리를 통해 정확한 정렬을 보장했습니다. 또한, GPT-4V를 사용하여 이미지 편집 쌍의 품질을 정량적으로 평가하기 위해 Alignment와 Coherence라는 두 가지 평가 지표를 제안했습니다. HQ-Edit의 고해상도 이미지와 포괄적인 편집 프롬프트는 기존 이미지 편집 모델의 능력을 크게 향상시킵니다. 예를 들어, HQ-Edit으로 미세 조정된 InstructPix2Pix는 인간 주석 데이터로 미세 조정된 모델들을 능가하는 최첨단 이미지 편집 성능을 달성할 수 있습니다. 프로젝트 페이지는 https://thefllood.github.io/HQEdit_web에서 확인할 수 있습니다.
멀티모달 대형 언어 모델(MLLM)의 추론은 메모리 대역폭 병목 현상에 직면하고 토큰을 자기회귀적으로 생성하는 대형 언어 모델 백본으로 인해 느립니다. 본 논문에서는 MLLM, 특히 LLaVA 7B 모델의 추론 효율성을 향상시키기 위해 스펙추레이티브 디코딩(speculative decoding)의 적용을 탐구합니다. 우리는 언어 전용 모델이 LLaVA 7B와의 스펙추레이티브 디코딩을 위한 좋은 드래프트 모델로 사용될 수 있음을 보여주며, 이를 통해 이미지 토큰과 관련된 처리 구성 요소를 드래프트 모델에서 제외할 수 있음을 입증합니다. 세 가지 다른 작업에 대한 실험 결과, 스펙추레이티브 디코딩은 처음부터 학습한 115M 파라미터 언어 모델을 사용하여 최대 2.37배의 메모리 한계 속도 향상을 달성할 수 있음을 보여줍니다. 또한, 이미지 어댑터를 통합한 소형 LLaVA 드래프트 모델을 소개하며, 이 모델은 이미지 캡셔닝 작업에서 약간의 성능 향상을 보이면서도 다른 작업에서 비슷한 결과를 유지합니다.
생성적 멀티모달 콘텐츠는 콘텐츠 제작 분야에서 점점 더 널리 사용되고 있으며, 이는 예술가와 미디어 전문가들이 자신의 아이디어를 빠르게 실현하여 프리프로덕션 목업을 만들 수 있는 잠재력을 가지고 있습니다. 텍스트 프롬프트에서 오디오를 생성하는 것은 음악 및 영화 산업에서 이러한 프로세스의 중요한 측면입니다. 최근의 확산 기반 텍스트-투-오디오 모델들은 대규모 프롬프트-오디오 쌍 데이터셋에서 점점 더 정교한 확산 모델을 훈련하는 데 초점을 맞추고 있습니다. 이러한 모델들은 입력 프롬프트에 대한 출력 오디오에서 개념이나 이벤트의 존재 및 시간적 순서를 명시적으로 고려하지 않습니다. 우리의 가설은 이러한 오디오 생성의 측면에 초점을 맞추면 제한된 데이터 환경에서 오디오 생성 성능을 향상시킬 수 있다는 것입니다. 따라서 이 연구에서는 기존의 텍스트-투-오디오 모델인 Tango를 사용하여, 각 프롬프트에 대해 승자 오디오 출력과 패자 오디오 출력을 포함한 선호도 데이터셋을 합성적으로 생성합니다. 이론적으로 패자 출력은 프롬프트의 일부 개념이 누락되었거나 잘못된 순서로 배치된 것입니다. 우리는 공개된 Tango 텍스트-투-오디오 모델을 선호도 데이터셋에서 확산-DPO(직접 선호 최적화) 손실을 사용하여 미세 조정하고, 이를 통해 Tango와 AudioLDM2보다 향상된 오디오 출력을 자동 및 수동 평가 지표 모두에서 달성함을 보여줍니다.
멀티모달 대형 언어 모델(MLLM)은 다양한 멀티모달 작업에서 인상적인 성과를 보여왔습니다. 그러나 기존의 대부분 MLLM은 세밀한 이미지 인식과 정보 압축이 필요한 문서 지향 작업에는 적합하지 않습니다. 본 논문에서는 문서 지향 작업에 특화된 동시에 MLLM의 일반적인 기능을 유지하는 TextHawk를 소개합니다. TextHawk는 네 가지 전용 구성 요소를 설계하여 효율적인 세밀한 인식을 탐구하는 것을 목표로 합니다. 첫째, 문서 텍스트의 중복성을 줄이고 MLLM의 계산 비용을 낮추기 위해 ReSampling and ReArrangement (ReSA) 모듈을 제안합니다. 다양한 이미지 크기의 확장성을 유지할 수 있는 Scalable Positional Embeddings (SPE)를 제시하여 각 로컬 특징의 위치를 인코딩하는 방법을 탐구합니다. 다음으로, Query Proposal Network (QPN)를 도입하여 서로 다른 하위 이미지 간에 동적으로 쿼리를 초기화합니다. MLLM의 세밀한 시각적 인식 능력을 더욱 강화하기 위해, 문서 이미지의 계층적 구조와 의미적 관계를 포착하는 Multi-Level Cross-Attention (MLCA) 메커니즘을 설계합니다. 또한, Gemini Pro를 활용하여 멀티모달 문서 데이터를 풍부하게 하여 문서 지향 작업을 위한 새로운 지시 튜닝 데이터셋을 생성합니다. 일반 및 문서 지향 MLLM 벤치마크에서 광범위한 실험을 수행한 결과, TextHawk가 최신 방법들을 능가하며 세밀한 문서 인식과 일반적인 능력에서의 효과성과 우수성을 입증합니다.
Neural Radiance Field(NeRF)는 다중 뷰 이미지로부터 3D 재구성을 위한 표현 방식입니다. 최근 몇몇 연구에서 확산 모델(diffusion prior)을 사용하여 재구성된 NeRF를 편집하는 데 초기 성공을 보였지만, 완전히 노출되지 않은 영역에서 합리적인 기하학적 구조를 합성하는 데는 여전히 어려움을 겪고 있습니다. 이는 주로 확산 모델에서 생성된 콘텐츠의 높은 다양성으로 인해, radiance field가 선명하고 결정론적인 기하학적 구조로 수렴하는 것을 방해하기 때문입니다. 또한, 실제 데이터에 잠재 확산 모델(latent diffusion model)을 적용할 경우, 자동 인코딩 오류로 인해 이미지 조건과 일관되지 않는 텍스처 변화가 발생하는 경우가 많습니다. 이러한 두 가지 문제는 픽셀 거리 손실(pixel-distance losses)을 사용함으로써 더욱 강화됩니다. 이러한 문제를 해결하기 위해, 우리는 장면별 맞춤화(per-scene customization)를 통해 확산 모델의 확률적 특성을 조절하고, 마스크된 적대적 학습(masked adversarial training)을 통해 텍스처 변화를 완화하는 방법을 제안합니다. 분석 과정에서, 일반적으로 사용되는 픽셀 및 지각 손실(perceptual losses)이 NeRF 인페인팅 작업에 해로운 영향을 미친다는 사실도 발견했습니다. 엄격한 실험을 통해, 우리의 프레임워크는 다양한 실제 장면에서 최첨단 NeRF 인페인팅 결과를 도출합니다. 프로젝트 페이지: https://hubert0527.github.io/MALD-NeRF
뛰어난 렌더링 품질과 효율성으로 유명한 가우시안 스플래팅(Gaussian splatting)은 3D 장면 표현 분야에서 중요한 기술로 부상했습니다. 그러나 가우시안 스플래팅의 방대한 데이터 양은 실제 응용에서의 실용성을 저해하는 요인으로 작용합니다. 본 논문에서는 이러한 문제를 해결하기 위해 데이터 크기를 획기적으로 줄이면서도 충실한 3D 장면 모델링을 가능하게 하는 Compressed Gaussian Splatting(CompGS)이라는 효율적인 3D 장면 표현 기법을 제안합니다. 가우시안 프리미티브의 간결성을 보장하기 위해, 우리는 서로 간의 예측 관계를 포착하는 하이브리드 프리미티브 구조를 설계했습니다. 이를 통해 소수의 앵커 프리미티브를 예측에 활용함으로써 대부분의 프리미티브를 고도로 압축된 잔차 형태로 캡슐화할 수 있습니다. 또한, 우리는 이러한 하이브리드 프리미티브 내의 중복성을 제거하기 위해 비트레이트 제약 최적화 기법을 개발하여, CompGS가 비트레이트 소비와 표현 효율성 사이의 최적 균형을 달성하도록 유도했습니다. 실험 결과는 제안된 CompGS가 기존 방법들을 크게 능가하며, 모델 정확도와 렌더링 품질을 저하시키지 않으면서도 3D 장면 표현에서 우수한 간결성을 달성함을 보여줍니다. 본 연구의 코드는 GitHub에 공개되어 추가 연구에 활용될 수 있도록 할 예정입니다.