번역이 포함된 일일 선별된 AI 연구 논문
개발자가 마지막 코드 줄만 수정할 수 있다면, 함수가 정확해지기까지 얼마나 자주 처음부터 다시 작성해야 할까요? 자연어에서 코드를 생성하는 자동회귀(autoregressive) 모델도 이와 유사한 한계를 가지고 있습니다: 이 모델들은 이전에 생성된 토큰을 쉽게 재고할 수 없습니다. 우리는 이러한 한계를 해결하기 위해 CodeFusion을 소개합니다. CodeFusion은 사전 학습된 확산(diffusion) 코드 생성 모델로, 인코딩된 자연어를 조건으로 하여 전체 프로그램을 반복적으로 노이즈 제거(denoising)합니다. 우리는 CodeFusion을 Bash, Python, 그리고 Microsoft Excel 조건부 서식(CF) 규칙에 대한 자연어에서 코드 생성 작업에서 평가했습니다. 실험 결과, CodeFusion(75M 매개변수)은 최신 자동회귀 시스템(350M-175B 매개변수)과 top-1 정확도에서 비슷한 성능을 보이며, 다양성 대 품질의 더 나은 균형 덕분에 top-3 및 top-5 정확도에서 더 우수한 성능을 보입니다.
본 논문에서는 대규모 언어 모델(LLM)의 효율적인 학습을 위한 FP8 저비트 데이터 포맷을 탐구합니다. 우리의 핵심 통찰은 LLM 학습 과정에서의 대부분의 변수들, 예를 들어 그래디언트와 옵티마이저 상태 등이, 모델 정확도를 저하시키지 않으면서도 하이퍼파라미터 변경 없이 저정밀도 데이터 포맷을 사용할 수 있다는 점입니다. 구체적으로, 우리는 LLM 학습을 위한 새로운 FP8 자동 혼합 정밀도 프레임워크를 제안합니다. 이 프레임워크는 LLM의 혼합 정밀도 및 분산 병렬 학습을 간소화하기 위해 세 가지 수준의 FP8 활용 방식을 제공합니다. 이는 8비트 그래디언트, 옵티마이저 상태, 그리고 분산 학습을 점진적으로 통합하는 방식입니다. 실험 결과에 따르면, H100 GPU 플랫폼에서 GPT-175B 모델을 학습하는 동안, 우리의 FP8 혼합 정밀도 학습 프레임워크는 실제 메모리 사용량을 42%나 줄이는 놀라운 성과를 거두었을 뿐만 아니라, 널리 사용되는 BF16 프레임워크(예: Megatron-LM)보다 64% 더 빠르게 동작하여 Nvidia Transformer Engine의 속도를 17% 앞질렀습니다. 이는 대규모 기반 모델의 학습 비용을 크게 절감합니다. 더 나아가, 우리의 FP8 혼합 정밀도 학습 방법론은 일반적입니다. 이는 LLM 지시 튜닝 및 인간 피드백을 통한 강화 학습과 같은 다른 작업에도 원활하게 적용될 수 있으며, 미세 조정 비용을 절약할 수 있습니다. 우리의 FP8 저정밀도 학습 프레임워크는 {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}에서 오픈소스로 제공됩니다.
복잡한 실세계 과제 해결을 위해 대규모 언어 모델(LLM)이 다중 모달 도구를 활용할 수 있도록 하는 새로운 프레임워크인 ControlLLM을 소개합니다. LLM의 뛰어난 성능에도 불구하고, 모호한 사용자 프롬프트, 부정확한 도구 선택 및 파라미터 설정, 비효율적인 도구 스케줄링으로 인해 도구 호출에 어려움을 겪고 있습니다. 이러한 문제를 극복하기 위해, 우리의 프레임워크는 세 가지 핵심 구성 요소로 이루어져 있습니다: (1) 복잡한 과제를 명확한 입력과 출력을 가진 하위 과제로 분해하는 작업 분해기, (2) 사전 구축된 도구 그래프 상에서 최적의 솔루션 경로를 탐색하는 Thoughts-on-Graph(ToG) 패러다임(이 그래프는 다양한 도구 간의 파라미터 및 의존 관계를 명시함), (3) 솔루션 경로를 해석하고 다양한 컴퓨팅 장치에서 도구를 효율적으로 실행하는 풍부한 도구 상자를 갖춘 실행 엔진. 우리는 이미지, 오디오, 비디오 처리와 관련된 다양한 과제에서 이 프레임워크를 평가하며, 기존 방법 대비 우수한 정확도, 효율성, 그리고 다용도성을 입증합니다.
온디바이스 학습과 효율적인 파인튜닝은 지속적이고 개인정보 보호가 가능한 맞춤화를 가능하게 합니다(예: 개인화된 데이터를 기반으로 대규모 언어 모델을 로컬에서 파인튜닝). 그러나 기존의 학습 프레임워크는 강력한 가속기(예: GPU, TPU)를 갖춘 클라우드 서버를 위해 설계되었으며, 자원 제약과 엣지 하드웨어 다양성이라는 도전에 직면한 엣지 학습을 위한 최적화가 부족합니다. 우리는 PockEngine을 소개합니다: 다양한 엣지 디바이스에서 파인튜닝을 가능하게 하는 작고 희소하며 효율적인 엔진입니다. PockEngine은 희소 역전파를 지원합니다: 역전파 그래프를 가지치기하고 모델을 희소하게 업데이트하여 메모리 절약과 지연 시간 감소를 달성하면서도 모델 품질을 유지합니다. 둘째, PockEngine은 컴파일 우선 방식입니다: 전체 학습 그래프(순전파, 역전파, 최적화 단계 포함)가 컴파일 시점에 도출되어 런타임 오버헤드를 줄이고 그래프 변환의 기회를 제공합니다. PockEngine은 또한 다양한 학습 그래프 최적화를 통합하여 연산자 재정렬 및 백엔드 전환을 포함한 학습 비용을 더욱 가속화할 수 있습니다. PockEngine은 다양한 애플리케이션, 프론트엔드 및 하드웨어 백엔드를 지원합니다: PyTorch/TensorFlow/Jax로 정의된 모델을 유연하게 컴파일하고 조정하며 모바일 CPU/GPU/DSP에 바이너리를 배포합니다. 우리는 PockEngine을 비전 모델과 대규모 언어 모델 모두에서 평가했습니다. PockEngine은 오프더셸 TensorFlow(라즈베리 파이) 대비 최대 15배의 속도 향상, Jetson AGX Orin에서 역전파 시 5.6배의 메모리 절약을 달성했습니다. 특히, PockEngine은 NVIDIA Jetson AGX Orin에서 LLaMav2-7B을 550 토큰/초로 파인튜닝할 수 있으며, 이는 PyTorch보다 7.9배 빠른 속도입니다.
대규모 언어 모델(LLM)은 자연어 처리 작업에서 유망한 성과를 보이지만, 금융과 같은 복잡한 도메인에 직접 적용할 때는 어려움을 겪습니다. LLM은 관련 정보를 추론하고 통합하는 데 어려움을 보입니다. 우리는 LLM이 금융 작업을 더 잘 처리할 수 있도록 데이터 중심 접근 방식을 제안합니다. 핵심 통찰은 LLM에 모든 것을 한꺼번에 과부하시키는 대신, 데이터를 사전 처리하고 사전 이해하는 것이 더 효과적이라는 것입니다. 우리는 다중 작업 프롬프트 기반 미세 조정을 사용하여 데이터 전처리 및 사전 이해를 달성하는 금융 LLM(FLLM)을 생성합니다. 그러나 각 작업에 대한 레이블 데이터는 부족합니다. 수동 주석 비용을 극복하기 위해, 우리는 FLLM의 출력에서 얻은 가짜 레이블을 수정하여 자동으로 훈련 데이터를 생성하는 귀추적 증강 추론(AAR)을 사용합니다. 실험 결과, AAR을 적용한 데이터 중심 FLLM은 원시 텍스트를 위해 설계된 기존 금융 LLM을 크게 능가하며, 금융 분석 및 해석 작업에서 최첨단 성능을 달성합니다. 또한, 우리는 금융 분석 및 해석을 위한 새로운 벤치마크를 오픈소스로 공개합니다. 우리의 방법론은 복잡한 현실 세계 도메인에서 LLM의 잠재력을 발휘할 수 있는 유망한 길을 제시합니다.
우리는 대규모 언어 모델(LLM) 및 관련 제품과 서비스에 대한 책임감 있는 AI(RAI) 지표의 자동화된 측정을 위한 프레임워크를 제시한다. LLM으로 인한 피해를 자동으로 측정하기 위한 우리의 프레임워크는 기존의 기술적 및 사회기술적 전문 지식을 기반으로 하며, GPT-4와 같은 최첨단 LLM의 능력을 활용한다. 우리는 이 프레임워크를 사용하여 다양한 LLM이 여러 RAI 관련 원칙을 어떻게 위반할 수 있는지 조사하는 여러 사례 연구를 진행한다. 이 프레임워크는 향후 새로운 피해 영역에 대한 측정을 생성하기 위해 도메인별 사회기술적 전문 지식과 함께 사용될 수 있다. 이 프레임워크를 구현함으로써, 우리는 더 발전된 피해 측정 노력을 가능하게 하고 LLM의 책임감 있는 사용을 더욱 촉진하고자 한다.
복잡한 배경을 가진 실제 장면에서 단일 이미지 기반의 새로운 시점 합성을 위한 3D 인지 확산 모델인 ZeroNVS를 소개합니다. 기존 방법들이 마스크 처리된 배경을 가진 단일 객체를 대상으로 설계된 반면, 우리는 복잡한 배경을 가진 실제 다중 객체 장면에서 발생하는 문제를 해결하기 위한 새로운 기술을 제안합니다. 구체적으로, 객체 중심, 실내, 실외 장면을 포괄하는 다양한 데이터 소스의 혼합을 통해 생성적 사전 모델을 학습합니다. 데이터 혼합으로 인해 발생하는 깊이 스케일 모호성과 같은 문제를 해결하기 위해, 새로운 카메라 조건화 매개변수화 및 정규화 기법을 제안합니다. 또한, 360도 장면의 증류 과정에서 Score Distillation Sampling (SDS)이 복잡한 배경의 분포를 축소시키는 경향을 관찰하고, 이를 개선하기 위해 "SDS 앵커링"을 도입하여 합성된 새로운 시점의 다양성을 향상시켰습니다. 우리의 모델은 DTU 데이터셋에서 제로샷 설정으로 LPIPS 기준 최신 기술을 달성했으며, DTU에 특화된 방법들보다도 우수한 성능을 보였습니다. 더 나아가, 단일 이미지 기반 새로운 시점 합성을 위한 새로운 벤치마크로 도전적인 Mip-NeRF 360 데이터셋을 적용했으며, 이 설정에서도 강력한 성능을 입증했습니다. 우리의 코드와 데이터는 http://kylesargent.github.io/zeronvs/에서 확인할 수 있습니다.
Neural Radiance Fields(NeRFs)는 복잡한 장면의 고품질 새로운 시점 합성을 가능하게 하는 강력한 3D 표현 방식으로 입증되었습니다. NeRFs는 그래픽스, 비전, 로보틱스 분야에 적용되어 왔지만, 느린 렌더링 속도와 특유의 시각적 아티팩트 문제로 인해 많은 사용 사례에서의 채택이 제한되고 있습니다. 본 연구에서는 NeRF와 오토인코더(AE)를 결합하여, 색상 대신 잠재 특징(latent features)을 렌더링한 후 컨볼루션 디코딩하는 방식을 탐구합니다. 이렇게 구현된 잠재 공간 NeRF는 표준 색상 공간 NeRF보다 더 높은 품질의 새로운 시점을 생성할 수 있으며, AE가 특정 시각적 아티팩트를 수정할 수 있고 렌더링 속도가 3배 이상 빠릅니다. 우리의 연구는 NeRF 효율성을 개선하는 다른 기법들과 직교적입니다. 또한, AE 아키텍처를 축소함으로써 효율성과 이미지 품질 간의 트레이드오프를 제어할 수 있으며, 성능 저하가 거의 없는 상태에서 렌더링 속도를 13배 이상 향상시킬 수 있습니다. 우리는 이 접근법이 특히 미분 가능성을 유지해야 하는 로보틱스 시나리오와 같은 지속 학습이 필요한 다운스트림 작업을 위한 효율적이면서도 고충실도의 3D 장면 표현의 기반이 될 수 있기를 기대합니다.
우리는 대규모 언어 모델(LLM)이 구체화된 시각적 작업을 위한 일반화 가능한 정책으로 적응될 수 있음을 보여줍니다. 우리의 접근 방식인 Large LAnguage model Reinforcement Learning Policy(LLaRP)는 사전 훈련된 고정된 LLM을 적응시켜 텍스트 지시와 시각적 자기 중심적 관찰을 입력으로 받아 환경 내에서 직접 행동을 출력하도록 합니다. 강화 학습을 사용하여 LLaRP가 환경 상호작용을 통해서만 보고 행동하도록 훈련시킵니다. 우리는 LLaRP가 작업 지시의 복잡한 패러프레이징에 강건하며, 새로운 최적의 행동이 필요한 새로운 작업으로 일반화할 수 있음을 보여줍니다. 특히, 1,000개의 보이지 않는 작업에서 42%의 성공률을 달성하며, 이는 다른 일반적인 학습된 베이스라인이나 LLM의 제로샷 응용보다 1.7배 높은 성공률입니다. 마지막으로, 언어 조건화된 대규모 다중 작업 구체화 AI 문제를 연구하는 커뮤니티를 돕기 위해, 우리는 언어 조건화 재배치를 위한 150,000개의 훈련 작업과 1,000개의 테스트 작업으로 구성된 새로운 벤치마크인 Language Rearrangement를 공개합니다. 보이지 않는 Language Rearrangement 지시에서의 LLaRP 동영상 예제는 https://llm-rl.github.io에서 확인할 수 있습니다.
대형 언어 모델(LLM)은 인터넷에서 수집된 방대한 양의 텍스트 데이터로 학습되며, 이 데이터는 사실과 오류 정보가 혼재되어 있습니다. 이러한 상반된 데이터 속에서 언어 모델이 진실과 거짓을 구별할 수 있을까요? LLM이 다양한 주체들이 생성한 코퍼스를 모델링할 수 있다는 관점을 확장하여, 우리는 언어 모델이 '진실적인 페르소나'를 모델링함으로써 진실적인 텍스트를 클러스터링할 수 있다는 가설을 제안합니다. 여기서 진실적인 페르소나란, 진실적인 텍스트를 생성할 가능성이 높고 유사한 특징을 공유하는 주체들의 집합을 의미합니다. 예를 들어, 위키피디아나 과학 저널과 같은 신뢰할 수 있는 출처는 일반적으로 공식적인 글쓰기 스타일을 사용하고 일관된 주장을 펼칩니다. 이러한 페르소나를 모델링함으로써, LLM은 각 주체가 학습 텍스트를 생성한 특정 맥락을 넘어 진실성을 일반화할 수 있습니다. 예를 들어, 모델은 "위키피디아"라는 주체가 "과학" 저널에서만 생성된 주제에 대해서도 진실적으로 행동할 것이라고 추론할 수 있습니다. 왜냐하면 이들은 동일한 페르소나를 공유하기 때문입니다. 우리는 먼저 두 가지 관찰을 통해 페르소나 가설에 대한 증거를 제시합니다: (1) 모델의 답변이 생성되기 전에 그 답변이 진실적인지 탐색할 수 있으며, (2) 모델을 일련의 사실에 대해 미세 조정하면 보이지 않는 주제에 대한 진실성이 향상됩니다. 다음으로, 산술을 합성 환경으로 사용하여 언어 모델이 진술의 진실과 거짓을 분리하고 주체 간에 진실성을 일반화할 수 있음을 보여줍니다. 그러나 이는 학습 데이터의 주체들이 진실적인 생성 과정을 공유하여 진실적인 페르소나를 형성할 수 있는 경우에만 가능합니다. 전반적으로, 우리의 연구 결과는 모델이 데이터의 계층적 구조를 활용하여 진실성과 같은 추상적 개념을 학습할 수 있음을 시사합니다.