번역이 포함된 일일 선별된 AI 연구 논문
텍스트-이미지 모델(예: Stable Diffusion)과 DreamBooth, LoRA와 같은 개인화 기술의 발전으로 인해, 이제 누구나 저렴한 비용으로 자신의 상상을 고품질 이미지로 구현할 수 있게 되었습니다. 이에 따라 생성된 정적 이미지에 동적 움직임을 결합하기 위한 이미지 애니메이션 기술에 대한 수요가 크게 증가하고 있습니다. 본 보고서에서는 기존의 대부분의 개인화된 텍스트-이미지 모델을 한 번에 애니메이션화할 수 있는 실용적인 프레임워크를 제안합니다. 이를 통해 모델별 튜닝에 드는 노력을 절약할 수 있습니다. 제안된 프레임워크의 핵심은 고정된 텍스트-이미지 모델에 새로 초기화된 모션 모델링 모듈을 삽입하고, 이를 비디오 클립에 대해 학습시켜 합리적인 모션 사전 지식을 추출하는 것입니다. 일단 학습이 완료되면, 이 모션 모델링 모듈을 단순히 주입함으로써 동일한 기본 T2I 모델에서 파생된 모든 개인화 버전은 텍스트 기반 모델로 변환되어 다양하고 개인화된 애니메이션 이미지를 생성할 수 있습니다. 우리는 애니메이션 그림과 사실적인 사진을 포함한 여러 공개된 대표적인 개인화 텍스트-이미지 모델에 대해 평가를 수행하였으며, 제안된 프레임워크가 이러한 모델들이 출력물의 도메인과 다양성을 유지하면서 시간적으로 부드러운 애니메이션 클립을 생성하는 데 도움을 준다는 것을 입증했습니다. 코드와 사전 학습된 가중치는 https://animatediff.github.io/에서 공개될 예정입니다.
대형 언어 모델(LLMs)은 인공 일반 지능(AGI)의 발전을 위한 청사진을 제시했습니다. 이 모델의 주요 목표는 인간 중심(도움이 되고, 정직하며, 무해한) 보조자로서 기능하는 것입니다. 인간과의 정렬은 최우선 과제로 여겨지며, 인간 피드백을 통한 강화 학습(RLHF)은 이를 달성하기 위한 핵심 기술 패러다임으로 부상했습니다. 현재의 기술 경로는 일반적으로 인간 선호도를 측정하기 위한 보상 모델, 정책 모델 출력을 최적화하기 위한 근접 정책 최적화(PPO), 그리고 단계별 추론 능력을 향상시키기 위한 프로세스 감독을 포함합니다. 그러나 보상 설계, 환경 상호작용, 에이전트 훈련의 어려움과 더불어 대형 언어 모델의 시행착오 비용이 크기 때문에, AI 연구자들이 기술적 정렬과 LLMs의 안전한 착륙을 동기부여하는 데 상당한 장벽이 존재합니다. RLHF의 안정적인 훈련은 여전히 풀리지 않은 문제입니다. 첫 번째 보고서에서 우리는 RLHF의 프레임워크를 분석하고, PPO의 내부 작동 방식을 재평가하며, PPO 알고리즘을 구성하는 부분들이 정책 에이전트 훈련에 어떻게 영향을 미치는지 탐구합니다. 우리는 정책 제약이 PPO 알고리즘의 효과적인 구현을 위한 핵심 요소임을 확인했습니다. 따라서 우리는 PPO 알고리즘의 고급 버전인 PPO-max를 탐구하여 정책 모델의 훈련 안정성을 효율적으로 개선합니다. 주요 결과를 바탕으로, 우리는 RLHF 능력을 SFT 모델 및 ChatGPT와 비교하여 포괄적으로 분석합니다. 오픈소스 구현의 부재는 LLMs 정렬 연구에 상당한 어려움을 초래했습니다. 따라서 우리는 기술 보고서, 보상 모델 및 PPO 코드를 공개하고자 합니다.
최근 대규모 사전 학습 모델을 3D 비전의 다운스트림 작업, 예를 들어 텍스트-투-3D 생성과 같은 창의적인 응용 분야에 적용하는 데 있어 상당한 진전이 이루어졌다. 이러한 발전은 스케치로부터 3D 모양을 생성하는 데 있어 이러한 사전 학습 모델을 효과적으로 활용할 수 있는 방법에 대한 우리의 연구를 촉발시켰다. 이는 스케치와 3D 모양 간의 짝지어진 데이터셋의 부족과 스케치의 추상화 수준이 다양하다는 점 때문에 여전히 해결되지 않은 과제로 남아 있었다. 우리는 훈련 중에 합성 렌더링의 특징(고정된 대규모 사전 학습 비전 모델에서 얻은)을 3D 생성 모델에 조건화함으로써 추론 시 스케치로부터 3D 모양을 효과적으로 생성할 수 있음을 발견했다. 이는 대규모 사전 학습 비전 모델의 특징이 도메인 변화에 강건한 의미론적 신호를 포함하고 있음을 시사하며, 즉 RGB 렌더링만을 사용하더라도 추론 시 스케치로 일반화할 수 있음을 보여준다. 우리는 다양한 설계 요소를 조사하는 포괄적인 실험을 수행하고, 훈련 중에 짝지어진 데이터셋이 필요 없이도 각 입력 스케치의 추상화 수준에 관계없이 여러 3D 모양을 생성하는 데 있어 우리의 직관적인 접근법의 효과를 입증했다.
우리는 멀티모달 컨텍스트에서 이미지와 텍스트를 원활하게 생성할 수 있는 Transformer 기반의 멀티모달 파운데이션 모델인 Emu를 소개합니다. 이 올바이버(omnivore) 모델은 단일 모달리티 또는 멀티모달리티 데이터 입력(예: 인터리브된 이미지, 텍스트, 비디오)을 구분 없이 받아들일 수 있으며, 이를 위해 '원-모델-포-올(one-model-for-all)' 자동회귀 학습 과정을 통해 학습됩니다. 먼저, 시각 신호는 임베딩으로 인코딩되고, 텍스트 토큰과 함께 인터리브된 입력 시퀀스를 형성합니다. Emu는 멀티모달 시퀀스에서 다음 텍스트 토큰을 분류하거나 다음 시각 임베딩을 회귀하는 통합 목표를 통해 엔드투엔드로 학습됩니다. 이러한 다재다능한 멀티모달리티는 인터리브된 프레임과 텍스트가 포함된 비디오, 인터리브된 이미지와 텍스트가 포함된 웹페이지, 웹 스케일의 이미지-텍스트 쌍 및 비디오-텍스트 쌍과 같은 다양한 대규모 사전 학습 데이터 소스를 탐구할 수 있게 합니다. Emu는 이미지-텍스트 및 텍스트-이미지 작업 모두를 위한 일반적인 멀티모달 인터페이스로 사용될 수 있으며, 컨텍스트 내 이미지 및 텍스트 생성을 지원합니다. 이미지 캡셔닝, 시각 질의응답, 비디오 질의응답, 텍스트-이미지 생성 등 다양한 제로샷/퓨샷 작업에서 Emu는 최첨단 대형 멀티모달 모델과 비교하여 뛰어난 성능을 보여줍니다. 또한, 명령어 튜닝을 통한 멀티모달 어시스턴트와 같은 확장 기능도 인상적인 성능으로 입증되었습니다.
본 논문에서는 어떠한 세분화 수준에서도 모든 것을 분할하고 인식할 수 있는 범용 이미지 분할 모델인 Semantic-SAM을 소개한다. 우리의 모델은 두 가지 주요 장점, 즉 의미 인식(semantic-awareness)과 세분화 풍부성(granularity-abundance)을 제공한다. 의미 인식을 달성하기 위해, 우리는 세 가지 세분화 수준에 걸친 여러 데이터셋을 통합하고 객체와 부분에 대한 분리된 분류(decoupled classification)를 도입하였다. 이를 통해 모델이 풍부한 의미 정보를 포착할 수 있게 되었다. 다중 세분화 기능을 위해, 우리는 훈련 중에 다중 선택 학습(multi-choice learning) 방식을 제안하여 각 클릭이 여러 수준의 마스크를 생성할 수 있도록 하였다. 이 마스크들은 여러 실제 마스크(ground-truth masks)에 대응한다. 특히, 이 작업은 SA-1B, 일반 분할(generic segmentation), 그리고 부분 분할(part segmentation) 데이터셋에 대해 모델을 공동으로 훈련하는 첫 번째 시도이다. 실험 결과와 시각화는 우리의 모델이 성공적으로 의미 인식과 세분화 풍부성을 달성했음을 보여준다. 더 나아가, SA-1B 훈련을 팬옵틱 분할(panoptic segmentation) 및 부분 분할과 같은 다른 분할 작업과 결합하면 성능 향상이 이루어진다. 우리는 추가 탐구와 평가를 위해 코드와 데모를 제공할 예정이다.
우리는 음악 합성, 압축, 인페인팅(inpainting), 변형을 위한 마스킹된 음향 토큰 모델링 접근법인 VampNet을 소개한다. 학습 과정에서 가변 마스킹 스케줄을 사용함으로써, 추론 시 다양한 마스킹 접근법(프롬프트라고 함)을 적용하여 모델로부터 일관된 음악을 샘플링할 수 있다. VampNet은 비자기회귀(non-autoregressive) 방식으로, 순방향 패스에서 모든 토큰에 주의를 기울이는 양방향 트랜스포머 아키텍처를 활용한다. 단 36번의 샘플링 패스만으로도 VampNet은 일관된 고품질 음악 파형을 생성할 수 있다. 우리는 VampNet에 다양한 방식으로 프롬프트를 제공함으로써 음악 압축, 인페인팅, 아웃페인팅(outpainting), 연속 재생, 변형을 통한 루핑(looping, vamping)과 같은 작업에 적용할 수 있음을 보여준다. 적절히 프롬프트를 제공하면, VampNet은 음악의 스타일, 장르, 악기 구성 등 고차원적인 측면을 유지할 수 있다. 이러한 유연한 프롬프트 기능은 VampNet을 강력한 음악 공동 창작 도구로 만든다. 코드와 오디오 샘플은 온라인에서 확인할 수 있다.
인간의 지능은 인지적 시너지(cognitive synergy) 개념에서 비롯됩니다. 이는 서로 다른 인지 과정 간의 협력과 정보 통합이 개별 인지 과정을 단독으로 사용할 때보다 우수한 결과를 도출한다는 것을 의미합니다. 대규모 언어 모델(LLM)이 일반적인 문제 해결 에이전트로서 유망한 성능을 보여주고 있지만, 여전히 집중적인 도메인 지식과 복잡한 추론이 필요한 작업에는 어려움을 겪고 있습니다. 본 연구에서는 단일 LLM을 다중 페르소나와의 다중 턴 자기 협업을 통해 인지적 시너지스트(cognitive synergist)로 변환하는 Solo Performance Prompting(SPP)을 제안합니다. 인지적 시너지스트란 복잡한 작업에서 문제 해결과 전반적인 성능을 향상시키기 위해 여러 마음을 협력시키고 각자의 강점과 지식을 결합하는 지능형 에이전트를 의미합니다. SPP는 작업 입력에 기반하여 다양한 페르소나를 동적으로 식별하고 시뮬레이션함으로써 LLM 내의 인지적 시너지 잠재력을 발휘합니다. 우리는 LLM에 여러 개의 세분화된 페르소나를 할당하는 것이 단일 또는 고정된 수의 페르소나를 사용하는 것보다 더 나은 문제 해결 능력을 이끌어낸다는 사실을 발견했습니다. SPP는 지식 집약적 및 추론 집약적 유형을 모두 포함하는 세 가지 도전적인 작업(Trivia Creative Writing, Codenames Collaborative, Logic Grid Puzzle)에서 평가되었습니다. Chain-of-Thought와 같은 기존 연구가 LLM의 추론 능력만을 강화하는 데 그친 반면, SPP는 내부 지식 습득 능력을 효과적으로 이끌어내고, 환각(hallucination)을 줄이며, 강력한 추론 능력을 유지합니다. 코드, 데이터 및 프롬프트는 다음에서 확인할 수 있습니다: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
우리는 사전 학습된 대규모 언어 모델(LLMs)이 복잡한 토큰 시퀀스를 자동회귀적으로 완성할 수 있음을 관찰했습니다. 이는 확률적 문맥 자유 문법(PCFG)에 의해 절차적으로 생성된 임의의 시퀀스부터, 일반 AI 벤치마크인 추상 추론 코퍼스(ARC)에서 발견되는 더 풍부한 공간 패턴까지, ASCII 아트 스타일로 프롬프트된 것들을 포함합니다. 놀랍게도, 이러한 패턴 완성 능력은 시퀀스가 어휘에서 무작위로 샘플링된 토큰을 사용하여 표현된 경우에도 부분적으로 유지될 수 있습니다. 이러한 결과는 추가적인 학습 없이도 LLMs가 문맥 학습에 의해 구동되는 일반 시퀀스 모델러로 기능할 수 있음을 시사합니다. 본 연구에서는 이러한 제로샷 능력을 로보틱스 문제에 어떻게 적용할 수 있는지 탐구합니다. 시간에 따른 상태를 나타내는 숫자 시퀀스를 외삽하여 간단한 동작을 완성하는 것부터, 보상 조건화된 궤적을 최소에서 최대로 프롬프트하여 폐루프 정책(예: CartPole의 안정화 컨트롤러)을 발견하고 표현할 수 있는 것까지 다룹니다. 현재는 지연 시간, 문맥 크기 제한 및 계산 비용으로 인해 실제 시스템에 배포하기 어렵지만, LLMs를 저수준 제어를 구동하는 데 사용하는 접근 방식은 단어 간 패턴이 행동으로 전환될 수 있는 흥미로운 가능성을 보여줄 수 있습니다.
전 세계 언어를 위한 NLP 시스템 개발에 있어 한 가지 과제는 이러한 시스템이 실제 응용 프로그램과 관련된 유형론적 차이에 대해 어떻게 일반화되는지 이해하는 것입니다. 이를 위해 우리는 형태론을 고려한 NLP 모델 행동 테스트 프레임워크인 M2C를 제안합니다. M2C를 사용하여 12개의 다양한 유형론적 언어에서 특정 언어적 특징을 기반으로 모델의 행동을 탐구하는 테스트를 생성합니다. 우리는 생성된 테스트에 대해 최첨단 언어 모델을 평가합니다. 영어에서는 대부분의 테스트에서 모델이 뛰어난 성능을 보이지만, 스와힐리어의 시간 표현이나 핀란드어의 소유격 합성어와 같은 특정 유형론적 특성에 대한 일반화 실패를 강조합니다. 이러한 연구 결과는 이러한 약점을 해결할 수 있는 모델 개발의 필요성을 촉구합니다.
대규모 언어 모델(LLM)은 자연어 처리 분야에서 주목할 만한 성과를 거두며, 자연어를 활용한 인간-컴퓨터 상호작용을 개선해 왔습니다. 그러나 음성 신호를 LLM에 원활하게 통합하는 방법은 아직 충분히 탐구되지 않았습니다. 또한 "디코더 전용" 아키텍처는 음성 처리 작업에 대해 잘 연구되지 않았습니다. 본 연구에서는 텍스트 기반 대규모 언어 모델에 음향 정보를 효과적으로 통합하는 새로운 접근 방식인 Speech-LLaMA를 소개합니다. 우리의 방법은 연결주의 시간 분류(CTC)와 간단한 오디오 인코더를 활용하여 압축된 음향 특징을 LLM의 연속적인 의미 공간에 매핑합니다. 또한, 음성-텍스트 쌍 데이터만을 사용하여 무작위로 초기화된 소규모 Speech-LLaMA 모델을 학습함으로써 디코더 전용 아키텍처를 음성-텍스트 작업에 대해 추가로 탐구합니다. 다국어 음성-텍스트 번역 작업에 대한 실험을 수행하고, 강력한 베이스라인 대비 상당한 개선을 보여줌으로써 음성-텍스트 변환을 위한 디코더 전용 모델의 잠재적 이점을 입증합니다.
국제 기구는 첨단 AI 시스템이 인류에 이바지할 수 있도록 보장하는 데 중요한 역할을 할 수 있다. 국제적 협력은 AI가 지속 가능한 발전을 더욱 촉진할 수 있는 능력을 발휘하도록 할 수 있으며, 규제 노력의 조정은 혁신과 혜택 확산에 대한 장애물을 줄일 수 있다. 반대로, 강력하고 범용적인 AI 시스템의 잠재적 위험 능력은 그 개발과 배포 과정에서 글로벌 외부효과를 초래하며, 책임 있는 AI 관행을 촉진하기 위한 국제적 노력은 이러한 위험을 관리하는 데 도움을 줄 수 있다. 본 논문은 이러한 과제를 해결하기 위해 국제 차원에서 수행될 수 있는 일련의 거버넌스 기능을 제시하며, 이는 첨단 AI 시스템에 대한 접근을 지원하는 것부터 국제 안전 표준을 설정하는 것까지 다양하다. 이러한 기능들은 내부적 시너지를 보이며 기존 조직에서 선례를 찾을 수 있는 네 가지 제도적 모델로 그룹화된다: 1) 첨단 AI의 기회와 위험에 대한 전문가 합의를 촉진하는 '첨단 AI 위원회', 2) 첨단 모델로부터 발생하는 글로벌 위협을 관리하기 위한 국제 표준을 설정하고 그 이행을 지원하며, 가능한 경우 미래 거버넌스 체제에 대한 준수 여부를 모니터링하는 '첨단 AI 거버넌스 기구', 3) 최첨단 AI에 대한 접근을 촉진하는 '첨단 AI 협력체', 4) AI 안전 연구를 더욱 발전시키기 위해 주요 연구자와 엔지니어를 한데 모으는 'AI 안전 프로젝트'. 우리는 이러한 모델의 유용성을 탐구하고 그 실행 가능성에 대한 열린 질문들을 식별한다.
프로그램 합성 또는 코드 생성의 목표는 주어진 설명을 기반으로 실행 가능한 코드를 생성하는 것입니다. 최근에는 대규모 언어 모델(LLM)의 코드 생성 성능을 향상시키기 위해 강화 학습(RL)을 활용한 연구가 점점 더 많아지고 있습니다. 그러나 이러한 RL 방법들은 오프라인 프레임워크만을 사용하여 새로운 샘플 공간을 탐색하는 데 제한이 있었습니다. 또한, 현재 유닛 테스트 신호를 활용하는 접근 방식은 상당히 단순하여 코드 내 특정 오류 위치를 고려하지 못하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 RLTF(Reinforcement Learning from Unit Test Feedback)를 제안했습니다. RLTF는 다중 세분화 유닛 테스트 피드백을 활용한 새로운 온라인 RL 프레임워크로, 코드 LLM을 개선하기 위해 설계되었습니다. 우리의 접근 방식은 훈련 중 실시간으로 데이터를 생성하고 동시에 세분화된 피드백 신호를 활용하여 모델이 더 높은 품질의 코드를 생성하도록 유도합니다. 광범위한 실험을 통해 RLTF가 APPS 및 MBPP 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 우리의 코드는 https://github.com/Zyq-scut/RLTF에서 확인할 수 있습니다.
일관성과 신뢰성은 AI 연구를 수행하는 데 있어 매우 중요합니다. 객체 탐지와 같은 많은 유명 연구 분야는 견고한 벤치마크 프레임워크를 통해 비교 및 검증되어 왔습니다. AlphaFold2 이후, 단백질 접힘(protein folding) 작업은 새로운 단계에 진입했으며, AlphaFold2의 구성 요소를 기반으로 한 다양한 방법들이 제안되고 있습니다. 단백질 접힘 연구에서 통일된 연구 프레임워크의 중요성은 다양한 접근 방식을 일관적이고 공정하게 비교할 수 있는 구현과 벤치마크를 포함합니다. 이를 위해 우리는 Solvent를 제안합니다. Solvent는 최신 모델의 주요 구성 요소를 즉시 사용 가능한 인터페이스 방식으로 지원하는 단백질 접힘 프레임워크입니다. Solvent는 통일된 코드베이스로 구현된 다양한 모델을 포함하며, 동일한 데이터셋에서 정의된 모델의 학습과 평가를 지원합니다. 우리는 잘 알려진 알고리즘과 그 구성 요소를 벤치마크하고, 단백질 구조 모델링 분야에 유용한 통찰을 제공하는 실험을 수행합니다. 우리는 Solvent가 제안된 모델의 신뢰성과 일관성을 높이고, 속도와 비용 측면에서 효율성을 제공함으로써 단백질 접힘 모델링 연구의 가속화에 기여하기를 바랍니다. 코드는 https://github.com/kakaobrain/solvent에서 확인할 수 있으며, 이 프로젝트는 지속적으로 개발될 예정입니다.
우리는 책장의 열린 슬롯에 책을 삽입하는 것과 같은 원하는 객체-장면 배치 관계를 달성하기 위해 장면 내 객체를 재배치하는 시스템을 제안한다. 이 파이프라인은 장면과 객체의 새로운 기하학적 구조, 자세, 레이아웃에 일반화되며, 3D 포인트 클라우드에서 직접 작동하도록 데모를 통해 학습된다. 우리의 시스템은 주어진 장면에 대해 기하학적으로 유사한 재배치 해결책이 많이 존재하는 것과 관련된 문제를 극복한다. 반복적인 자세 노이즈 제거 학습 절차를 활용하여 다중 모드 데모 데이터를 적합하게 맞추고 정확하고 정밀한 다중 모드 출력을 생성할 수 있다. 또한, 일반화와 정밀도를 해치는 관련 없는 전역 구조를 무시하면서 관련 있는 지역 기하학적 특징을 조건으로 하는 것의 이점을 보여준다. 우리는 시뮬레이션과 실제 세계에서 객체의 형태와 자세에 대한 다중 모드 처리와 일반화가 필요한 세 가지 구별된 재배치 작업에 대해 우리의 접근 방식을 입증한다. 프로젝트 웹사이트, 코드, 비디오: https://anthonysimeonov.github.io/rpdiff-multi-modal/
음성 받아쓰기는 점점 더 중요한 텍스트 입력 방식으로 자리 잡고 있습니다. 기존의 받아쓰기와 음성 편집을 모두 지원하는 시스템은 트리거 단어로 호출되는 단순한 템플릿 형태의 명령어만을 허용합니다. 본 연구에서는 사용자가 받아쓰기를 하다가도 자연스러운 자연어 형태의 편집 명령을 중간에 삽입할 수 있는 가능성을 탐구합니다. 이를 위해 새로운 작업과 데이터셋인 TERTiUS를 소개하고, 이러한 시스템을 실험합니다. 이러한 유연성을 실시간으로 지원하기 위해서는 시스템이 음성을 받아쓰기와 명령어로 구분하여 분할하고, 명령어로 분류된 부분을 해석해야 합니다. 우리는 대규모 사전 학습 언어 모델을 사용하여 편집된 텍스트를 예측하거나, 또는 작은 텍스트 편집 프로그램을 예측하는 실험을 진행했습니다. 실험 결과, 모델 정확도와 지연 시간 사이에 자연스러운 트레이드오프가 있음을 확인했습니다: 작은 모델은 1.3초의 지연 시간으로 30%의 최종 상태 정확도를 달성한 반면, 더 큰 모델은 7초의 지연 시간으로 55%의 최종 상태 정확도를 달성했습니다.
비전 기반 원격 조작은 저비용 카메라 센서만으로도 로봇이 환경과 물리적으로 상호작용할 수 있는 인간 수준의 지능을 부여할 가능성을 제공합니다. 그러나 현재의 비전 기반 원격 조작 시스템은 특정 로봇 모델과 배포 환경을 위해 설계 및 개발되어 있어, 로봇 모델 풀이 확장되고 운영 환경의 다양성이 증가함에 따라 확장성이 떨어지는 문제가 있습니다. 본 논문에서는 단일 시스템 내에서 다양한 팔, 손, 현실, 그리고 카메라 구성을 지원하는 통합적이고 일반적인 원격 조작 시스템인 AnyTeleop을 제안합니다. 시뮬레이터와 실제 하드웨어 선택에 있어 큰 유연성을 제공하도록 설계되었음에도 불구하고, 우리의 시스템은 여전히 뛰어난 성능을 달성할 수 있습니다. 실제 실험에서 AnyTeleop은 동일한 로봇을 사용하여 특정 로봇 하드웨어를 위해 설계된 이전 시스템보다 더 높은 성공률을 보였습니다. 시뮬레이션 환경에서의 원격 조작에서는, 해당 시뮬레이터를 위해 특별히 설계된 이전 시스템과 비교하여 더 나은 모방 학습 성능을 보였습니다. 프로젝트 페이지: http://anyteleop.com/.