번역이 포함된 일일 선별된 AI 연구 논문
효율적인 자동화 콘텐츠 생성을 추구함에 있어, 수정 가능한 매개변수와 규칙 기반 시스템을 활용한 절차적 생성은 유망한 접근 방식으로 부상하고 있습니다. 그러나 이는 규칙, 알고리즘, 매개변수에 대한 깊은 이해를 필요로 하는 복잡한 특성으로 인해 상당히 어려운 작업이 될 수 있습니다. 이러한 작업량을 줄이기 위해, 우리는 대규모 언어 모델(LLM)을 활용한 지시 기반 3D 모델링 프레임워크인 3D-GPT를 소개합니다. 3D-GPT는 LLM을 숙련된 문제 해결자로 위치시켜, 절차적 3D 모델링 작업을 접근 가능한 세그먼트로 분해하고 각 작업에 적합한 에이전트를 지정합니다. 3D-GPT는 작업 분배 에이전트, 개념화 에이전트, 모델링 에이전트라는 세 가지 핵심 에이전트를 통합합니다. 이들은 협력하여 두 가지 목표를 달성합니다. 첫째, 간결한 초기 장면 설명을 강화하여 상세한 형태로 발전시키고, 후속 지침에 따라 텍스트를 동적으로 조정합니다. 둘째, 절차적 생성을 통합하여 풍부한 텍스트에서 매개변수 값을 추출하고, 3D 소프트웨어와 원활하게 인터페이스하여 자산을 생성합니다. 우리의 실험적 연구는 3D-GPT가 지침을 해석하고 실행하여 신뢰할 수 있는 결과를 제공할 뿐만 아니라 인간 디자이너와 효과적으로 협력한다는 것을 확인했습니다. 또한, Blender와 원활하게 통합되어 확장된 조작 가능성을 제공합니다. 우리의 작업은 3D 모델링에서 LLM의 잠재력을 강조하며, 장면 생성 및 애니메이션 분야의 미래 발전을 위한 기본 프레임워크를 제공합니다.
다양한 작업에서 뛰어난 성능을 보이는 오픈 대형 언어 모델(LLM)은 LLM 개발을 크게 진전시켰습니다. 그러나 실제 세계의 복잡한 작업을 해결하는 에이전트 역할을 할 때, 이러한 모델들은 ChatGPT나 GPT-4와 같은 상용 모델에 비해 훨씬 뒤떨어집니다. 이러한 에이전트 작업은 LLM을 계획, 기억, 도구 활용을 담당하는 중앙 제어기로 사용하며, 만족스러운 성능을 달성하기 위해서는 세밀한 프롬프팅 방법과 강력한 LLM이 모두 필요합니다. 특정 에이전트 작업을 완료하기 위해 많은 프롬프팅 방법이 제안되었지만, LLM의 일반적인 능력을 저해하지 않으면서 에이전트 능력을 향상시키는 데 초점을 맞춘 연구는 부족합니다. 본 연구에서는 LLM의 일반적인 능력을 유지하면서 에이전트 능력을 향상시키는 간단하고 일반적인 방법인 AgentTuning을 제시합니다. 우리는 고품질 상호작용 궤적을 포함한 경량의 지시 튜닝 데이터셋인 AgentInstruct를 구성했습니다. 또한 AgentInstruct와 일반 도메인의 오픈소스 지시를 결합한 하이브리드 지시 튜닝 전략을 사용했습니다. AgentTuning은 Llama 2 시리즈를 지시 튜닝하여 AgentLM을 생성하는 데 사용되었습니다. 평가 결과, AgentTuning은 LLM의 일반적인 능력을 저해하지 않으면서 에이전트 능력을 가능하게 하는 것으로 나타났습니다. AgentLM-70B는 보이지 않는 에이전트 작업에서 GPT-3.5-turbo와 비슷한 성능을 보이며 일반화된 에이전트 능력을 입증했습니다. 우리는 AgentInstruct와 AgentLM-7B, 13B, 70B 모델을 https://github.com/THUDM/AgentTuning 에 공개하여 에이전트 작업을 위한 상용 LLM에 대한 강력한 오픈소스 대안을 제공합니다.
대규모 언어 모델(LLM)의 발전과 함께 AI 시스템의 성능과 안전성 사이의 균형을 맞추는 것은 그 어느 때보다 중요해졌습니다. 그러나 도움성(helpfulness)과 무해성(harmlessness)이라는 목표 간의 내재적 긴장은 LLM 훈련 과정에서 상당한 도전 과제로 작용합니다. 이 문제를 해결하기 위해 우리는 인간 가치 정렬을 위한 새로운 알고리즘인 '안전한 인간 피드백 강화 학습(Safe RLHF)'을 제안합니다. Safe RLHF는 도움성과 무해성에 대한 인간의 선호를 명시적으로 분리함으로써, 크라우드워커들이 이러한 긴장 관계에 대해 혼란을 겪는 것을 효과적으로 방지하고 별도의 보상 및 비용 모델을 훈련할 수 있게 합니다. 우리는 LLM의 안전 문제를 지정된 비용 제약을 만족시키면서 보상 함수를 최대화하는 최적화 작업으로 공식화합니다. 라그랑주 방법을 활용하여 이 제약 문제를 해결함으로써, Safe RLHF는 미세 조정(fine-tuning) 과정에서 두 목표 간의 균형을 동적으로 조정합니다. Safe RLHF를 사용한 세 차례의 미세 조정을 통해, 우리는 기존의 가치 정렬 알고리즘에 비해 유해 응답을 완화하면서 모델 성능을 향상시키는 우수한 능력을 입증했습니다. 실험적으로, 우리는 Alpaca-7B 모델을 Safe RLHF로 미세 조정하고 수집된 인간의 선호에 맞춰 정렬함으로써, 인간 평가 기준에서 도움성과 무해성이 크게 개선되었음을 확인했습니다.
대규모 언어 모델(LLMs)은 순차적 의사결정 작업에서 높은 수준의 의미론적 계획자로서 뛰어난 성능을 보여왔습니다. 그러나 손재주가 필요한 펜 돌리기와 같은 복잡한 저수준 조작 작업을 학습하는 데 이를 활용하는 것은 여전히 해결되지 않은 문제로 남아 있습니다. 우리는 이러한 근본적인 격차를 메우고 LLMs의 힘을 빌린 인간 수준의 보상 설계 알고리즘인 Eureka를 제시합니다. Eureka는 GPT-4와 같은 최첨단 LLMs의 놀라운 제로샷 생성, 코드 작성, 그리고 문맥 내 개선 능력을 활용하여 보상 코드에 대한 진화적 최적화를 수행합니다. 그 결과로 얻어진 보상은 강화 학습을 통해 복잡한 기술을 습득하는 데 사용될 수 있습니다. Eureka는 작업별 프롬프트나 사전 정의된 보상 템플릿 없이도 전문가가 설계한 인간 공학적 보상을 능가하는 보상 함수를 생성합니다. 10가지의 독특한 로봇 형태를 포함한 29개의 오픈소스 강화 학습 환경에서, Eureka는 83%의 작업에서 인간 전문가를 능가하며 평균 52%의 정규화된 개선을 이끌어냅니다. Eureka의 일반성은 또한 인간 피드백을 통한 강화 학습(RLHF)에 대한 새로운 경사 없음 문맥 내 학습 접근법을 가능하게 하여, 모델 업데이트 없이도 인간의 입력을 쉽게 통합하여 생성된 보상의 품질과 안전성을 향상시킵니다. 마지막으로, 커리큘럼 학습 설정에서 Eureka 보상을 사용하여, 우리는 시뮬레이션된 Shadow Hand가 펜 돌리기 트릭을 수행할 수 있음을 처음으로 입증했습니다. 이는 펜을 빠른 속도로 원을 그리며 능숙하게 조작하는 능력을 보여줍니다.
강화 학습(RL)은 수동으로 보상 함수를 지정하거나, 이는 종종 실현 불가능하거나, 대량의 인간 피드백으로부터 보상 모델을 학습하는데, 이는 매우 비용이 많이 듭니다. 우리는 더 샘플 효율적인 대안을 연구합니다: 사전 학습된 시각-언어 모델(VLMs)을 제로샷 보상 모델(RMs)로 사용하여 자연어로 작업을 지정하는 것입니다. 우리는 VLMs를 보상 모델로 사용하는 자연스럽고 일반적인 접근 방식을 제안하며, 이를 VLM-RMs라고 부릅니다. 우리는 CLIP 기반의 VLM-RMs를 사용하여 MuJoCo 휴머노이드가 무릎 꿇기, 다리 벌리기, 연꽃 자세 등과 같은 복잡한 작업을 수동으로 지정된 보상 함수 없이 학습하도록 합니다. 각 작업에 대해, 우리는 원하는 작업을 설명하는 단일 문장 텍스트 프롬프트를 최소한의 프롬프트 엔지니어링으로 제공합니다. 우리는 훈련된 에이전트의 비디오를 https://sites.google.com/view/vlm-rm에서 제공합니다. 우리는 두 번째 "기준" 프롬프트를 제공하고 목표와 기준을 구분하는 데 관련 없는 CLIP 임베딩 공간의 부분을 투영함으로써 성능을 향상시킬 수 있습니다. 또한, 우리는 VLM-RMs에 대한 강력한 스케일링 효과를 발견했습니다: 더 많은 컴퓨팅 자원과 데이터로 훈련된 더 큰 VLMs는 더 나은 보상 모델입니다. 우리가 마주친 VLM-RMs의 실패 모드는 모두 현재 VLMs의 알려진 능력 한계와 관련이 있습니다, 예를 들어 제한된 공간 추론 능력이나 VLM의 분포에서 멀리 벗어난 시각적으로 비현실적인 환경 등입니다. 우리는 VLM이 충분히 크다면 VLM-RMs가 놀랍도록 견고하다는 것을 발견했습니다. 이는 미래의 VLMs이 다양한 RL 응용 프로그램에 대해 점점 더 유용한 보상 모델이 될 것임을 시사합니다.
음악 창작은 반복적인 과정으로, 각 단계마다 다양한 방법이 필요합니다. 그러나 기존의 AI 음악 시스템은 다양한 요구를 충족하기 위해 여러 하위 시스템을 조율하는 데 한계가 있습니다. 이러한 격차를 해결하기 위해, 우리는 사용자가 대화형 다중 라운드 인터페이스를 통해 음악을 생성하고 반복적으로 개선할 수 있도록 하는 새로운 시스템인 Loop Copilot을 소개합니다. 이 시스템은 대규모 언어 모델을 사용하여 사용자의 의도를 해석하고 작업 실행을 위해 적절한 AI 모델을 선택합니다. 각 백엔드 모델은 특정 작업에 특화되어 있으며, 그들의 출력은 사용자의 요구를 충족하기 위해 통합됩니다. 음악적 일관성을 보장하기 위해 필수 속성은 중앙 집중식 테이블에서 유지됩니다. 우리는 제안된 시스템의 효과성을 반구조화된 인터뷰와 설문 조사를 통해 평가하며, 이 시스템이 음악 창작을 촉진하는 데 유용할 뿐만 아니라 더 넓은 응용 분야에서의 잠재력도 강조합니다.
대규모 언어 모델(LLM)은 이제 다양한 크기와 구성으로 클라우드 API 제공업체를 통해 이용 가능합니다. 이러한 다양성은 폭넓은 선택지를 제공하지만, 컴퓨팅 비용과 성능을 최적화하기 위해 이러한 옵션을 효과적으로 활용하는 것은 여전히 어려운 과제입니다. 본 연구에서는 더 작은 LM의 출력 결과의 근사 정확도를 기반으로 쿼리를 더 큰 LM으로 전략적으로 라우팅하는 AutoMix 접근 방식을 제시합니다. AutoMix의 핵심은 훈련 없이도 자체 출력의 신뢰도를 추정하는 소수 샷 자체 검증 메커니즘입니다. 검증 과정이 노이즈를 포함할 수 있기 때문에, AutoMix에서는 메타 검증기를 사용하여 이러한 평가의 정확도를 개선합니다. LLAMA2-13/70B를 사용한 다섯 가지 맥락 기반 추론 데이터셋에 대한 실험 결과, AutoMix는 기존의 기준선을 능가하며 비용 대비 증분 이익을 최대 89%까지 향상시켰습니다. 저희의 코드와 데이터는 https://github.com/automix-llm/automix에서 확인할 수 있습니다.
널리 사용되는 언어 모델(LMs)은 일반적으로 두 단계의 학습 파이프라인을 확장하여 구축됩니다: 매우 크고 다양한 텍스트 데이터셋을 사용하는 사전 학습 단계와, 원하는 행동을 위한 타겟 예제나 기타 명세를 사용하는 미세 조정(때로는 '정렬'이라고도 함) 단계입니다. 지식과 기술이 사전 학습에서 비롯되고, 미세 조정은 주로 이러한 지식과 기술을 필터링한다는 가설이 제기되었지만, 이 직관은 광범위하게 검증되지 않았습니다. 이를 돕기 위해, 우리는 이 두 단계에서 얻은 지식과 기술을 분리하는 새로운 기법을 소개하여, "대형 모델이 사전 학습 중에 습득한 지식과 소형 모델이 미세 조정 중에 습득한 지식을 결합하면(또는 그 반대의 경우) 어떤 일이 발생할까?"라는 질문에 직접 답할 수 있도록 합니다. 인간 선호도 학습의 최근 발전에서 파생된 RL 기반 프레임워크를 사용하여, 우리는 사전 학습과 미세 조정의 결과를 근사(또는 '에뮬레이트')하는 분포에서 샘플링하는 원칙적이고 실용적인 방법인 에뮬레이트된 미세 조정(EFT)을 소개합니다. EFT를 사용한 실험 결과, 미세 조정을 확장하면 도움성이 향상되는 반면, 사전 학습을 확장하면 사실성이 향상되는 경향이 있음을 보여줍니다. 규모 분리 외에도, EFT는 추가 학습 없이 도움성과 무해성과 같은 경쟁적인 행동 특성을 테스트 시간에 조정할 수 있음을 보여줍니다. 마지막으로, 에뮬레이트된 미세 조정의 특수한 경우인 LM 업스케일링은 대형 사전 학습 모델의 자원 집약적인 미세 조정을 피하고, 소형 미세 조정 모델과 앙상블하여 대형 사전 학습 모델을 미세 조정한 결과를 에뮬레이트합니다. 업스케일링은 추가 하이퍼파라미터나 학습 없이도 Llama, Llama-2, Falcon 패밀리의 명령어 수행 모델의 도움성과 사실성을 지속적으로 개선합니다.
텍스츄럴 인버전(Textural Inversion)은 프롬프트 학습 방법으로, 이미지 스타일과 외관을 표현하기 위한 새로운 "단어"에 대한 단일 임베딩을 학습하여 이를 자연어 문장에 통합함으로써 새로운 합성 이미지를 생성할 수 있게 합니다. 그러나 개별 개념에 대한 임베딩을 얻을 수 있더라도 하나의 장면 내에서 여러 객체 수준의 개념을 식별하고 통합하는 것은 상당한 어려움을 야기합니다. 이는 우리의 실험적 테스트를 통해 추가로 확인되었습니다. 이러한 문제를 해결하기 위해, 우리는 단일 문장-이미지 쌍에서 동시에 여러 새로운 "단어"를 학습하는 다중 개념 프롬프트 학습(Multi-Concept Prompt Learning, MCPL) 프레임워크를 소개합니다. 단어-개념 상관관계의 정확성을 높이기 위해, 우리는 세 가지 정규화 기법을 제안합니다: 관련 영역에 학습을 집중시키기 위한 어텐션 마스킹(Attention Masking, AttnMask), 다른 개념들의 임베딩을 분리하기 위한 프롬프트 대조 손실(Prompts Contrastive Loss, PromptCL), 그리고 새로운 "단어"를 알려진 단어와 연결하기 위한 형용사 바인딩(Bind adjective, Bind adj.)입니다. 우리는 다양한 이미지를 사용한 이미지 생성, 편집, 그리고 어텐션 시각화를 통해 평가를 진행합니다. 광범위한 정량적 비교를 통해 우리의 방법이 더 의미론적으로 분리된 개념을 학습하며 단어-개념 상관관계를 강화할 수 있음을 입증합니다. 또한, 우리는 객체 수준의 개념 학습이라는 새로운 작업에 맞춰 설계된 새로운 데이터셋과 평가 프로토콜을 소개합니다.
고해상도 3D 객체 생성은 주로 포괄적인 주석이 달린 훈련 데이터의 제한된 가용성으로 인해 여전히 어려운 과제로 남아 있습니다. 최근의 발전은 Score Distillation Sampling (SDS)과 같은 지식 전이 기술을 활용하여 광범위하게 큐레이팅된 웹 데이터셋에서 사전 훈련된 이미지 생성 모델을 이용함으로써 이러한 제약을 극복하려는 시도가 이루어졌습니다. 고해상도 렌더링의 요구 사항을 효율적으로 해결하기 위해서는 Latent Diffusion Model (LDM)과 같은 잠재 표현 기반 모델의 채택이 종종 필요합니다. 이 프레임워크에서 중요한 과제가 발생합니다: 개별 이미지 픽셀에 대한 그래디언트를 계산하기 위해서는 지정된 잠재 공간에서 이미지 모델의 고정된 구성 요소(예: LDM 내에서 사용되는 VAE 인코더)를 통해 그래디언트를 역전파해야 합니다. 그러나 이 그래디언트 전파 경로는 최적화된 적이 없으며, 훈련 중에 제어되지 않은 상태로 남아 있습니다. 우리는 이 제어되지 않은 그래디언트가 3D 모델의 이미지 생성 모델로부터 텍스처 관련 정보를 획득하는 능력에 부정적인 영향을 미쳐 낮은 품질의 외관 합성을 초래한다는 것을 발견했습니다. 이러한 전반적인 과제를 해결하기 위해, 우리는 기존 3D 생성 모델에 원활하게 통합될 수 있는 Pixel-wise Gradient Clipping (PGC)이라는 혁신적인 연산을 제안하여 합성 품질을 향상시킵니다. 구체적으로, 우리는 중요한 텍스처 관련 그래디언트 방향을 보존하면서 픽셀 단위 그래디언트를 효율적으로 클리핑함으로써 확률적 그래디언트의 크기를 제어합니다. 이러한 단순성과 최소한의 추가 비용에도 불구하고, 광범위한 실험을 통해 우리의 PGC가 고해상도 객체 렌더링을 위한 기존 3D 생성 모델의 성능을 향상시키는 데 효과적임을 입증했습니다.