AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Aya 데이터셋: 다국어 명령어 튜닝을 위한 오픈 액세스 컬렉션
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Feb 9, 2024

Shivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker

571

데이터셋은 현대 인공지능의 많은 혁신적 발전의 기반이 됩니다. 최근 자연어 처리(NLP) 분야에서의 성과들은 대부분 사전 훈련된 모델을 다양한 작업에 맞게 미세 조정함으로써 대형 언어 모델(LLM)이 명령에 응답할 수 있도록 한 데 기인합니다. 명령어 미세 조정(IFT)은 특별히 구성되고 주석이 달린 데이터셋을 필요로 합니다. 그러나 기존 데이터셋은 거의 모두 영어로 되어 있습니다. 본 연구의 주요 목표는 65개 언어에 걸친 인간이 직접 주석을 단 명령어 수행 데이터셋을 구축하여 언어 간 격차를 해소하는 것입니다. 우리는 전 세계의 유창한 언어 사용자들과 협력하여 자연스러운 명령어와 완성 예시를 수집했습니다. 더 나아가, 기존 데이터셋을 템플릿화하고 114개 언어로 번역하여 5억 1,300만 개의 예시로 구성된 가장 방대한 다국어 컬렉션을 생성했습니다. 총 네 가지 주요 리소스를 제공합니다: Aya 주석 플랫폼, Aya 데이터셋, Aya 컬렉션, 그리고 Aya 평가 도구를 개발하고 오픈소스로 공개합니다. Aya 프로젝트는 또한 119개국에서 온 협력자들이 참여한 참여형 연구의 가치 있는 사례 연구로도 기능합니다. 우리는 이를 자원 격차를 해소하고자 하는 미래 연구 협력을 위한 유용한 프레임워크로 보고 있습니다.

InternLM-Math: 검증 가능한 추론을 향한 오픈 수학 대형 언어 모델
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

Feb 9, 2024

Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin

201

대규모 언어 모델의 수학 능력은 그들의 추상적 사고 능력을 대표할 수 있습니다. 본 논문에서는 InternLM2를 기반으로 계속 사전 학습된 수학 추론 LLM인 InternLM-Math를 소개하고 오픈소스로 공개합니다. 우리는 사고 사슬 추론, 보상 모델링, 형식적 추론, 데이터 증강, 코드 인터프리터를 통합된 seq2seq 형식으로 통합하고, 모델이 다재다능한 수학 추론자, 검증자, 증명자, 증강자로 학습되도록 지도합니다. 이러한 능력은 다음 세대 수학 LLM 개발이나 자기 반복에 활용될 수 있습니다. InternLM-Math는 GSM8K, MATH, 헝가리 수학 시험, MathBench-ZH, MiniF2F 등 다양한 비형식적 및 형식적 벤치마크에서 컨텍스트 내 학습, 지도 미세 조정, 코드 지원 추론 설정 하에서 오픈소스 최신 성능을 달성합니다. 우리의 사전 학습 모델은 미세 조정 없이 MiniF2F 테스트 세트에서 30.3점을 기록합니다. 또한, LEAN을 사용하여 수학 문제를 해결하는 방법을 탐구하고, 다중 작업 학습 설정에서의 성능을 연구함으로써 LEAN이 수학 문제 해결 및 증명을 위한 통합 플랫폼으로 사용될 가능성을 보여줍니다. 우리의 모델, 코드, 데이터는 https://github.com/InternLM/InternLM-Math에서 공개되었습니다.

HeadStudio: 3D 가우시안 스플래팅을 활용한 텍스트 기반 애니메이션 가능 헤드 아바타 생성
HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

Feb 9, 2024

Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang

182

텍스트 프롬프트로부터 디지털 아바타를 생성하는 것은 오랫동안 바람직하면서도 도전적인 과제로 여겨져 왔습니다. 최근 연구들에서 2D 디퓨전 프라이어를 통해 얻은 유망한 결과에도 불구하고, 현재의 방법들은 고품질의 애니메이션 아바타를 효과적으로 달성하는 데 어려움을 겪고 있습니다. 본 논문에서는 3D 가우시안 스플래팅을 활용하여 텍스트 프롬프트로부터 사실적이고 애니메이션 가능한 아바타를 생성하는 새로운 프레임워크인 HeadStudio를 소개합니다. 우리의 방법은 중간 FLAME 표현을 통해 유연하고 달성 가능한 외관을 생성하기 위해 3D 가우시안을 의미론적으로 구동합니다. 구체적으로, 우리는 FLAME을 3D 표현과 스코어 디스틸레이션 모두에 통합합니다: 1) FLAME 기반 3D 가우시안 스플래팅, 각 점을 FLAME 메시에 리깅하여 3D 가우시안 점을 구동합니다. 2) FLAME 기반 스코어 디스틸레이션 샘플링, 텍스트 프롬프트로부터 스코어 디스틸레이션을 안내하기 위해 FLAME 기반의 세밀한 제어 신호를 활용합니다. 광범위한 실험을 통해 HeadStudio가 텍스트 프롬프트로부터 애니메이션 가능한 아바타를 생성하는 데 효과적이며, 시각적으로 매력적인 외관을 보여줌을 입증했습니다. 이 아바타들은 1024 해상도에서 고품질의 실시간(geq 40 fps) 새로운 뷰를 렌더링할 수 있으며, 실제 음성과 비디오로 원활하게 제어될 수 있습니다. 우리는 HeadStudio가 디지털 아바타 생성의 발전에 기여하고, 현재의 방법이 다양한 도메인에 폭넓게 적용될 수 있기를 바랍니다.

MusicMagus: 디퓨전 모델을 통한 제로샷 텍스트-투-뮤직 편집
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Feb 9, 2024

Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

154

최근 텍스트-음악 생성 모델의 발전으로 음악 창작에 새로운 가능성이 열렸습니다. 그러나 음악 생성은 일반적으로 반복적인 수정 과정을 수반하며, 생성된 음악을 어떻게 편집할 것인지는 여전히 중요한 과제로 남아 있습니다. 본 논문은 이러한 모델로 생성된 음악을 편집하는 새로운 접근 방식을 소개하며, 장르, 분위기, 악기와 같은 특정 속성을 수정하면서도 다른 측면은 그대로 유지할 수 있도록 합니다. 우리의 방법은 텍스트 편집을 잠재 공간 조작으로 변환하는 동시에 일관성을 강화하기 위한 추가 제약 조건을 적용합니다. 이 방법은 추가 학습 없이도 기존의 사전 학습된 텍스트-음악 확산 모델과 원활하게 통합됩니다. 실험 결과는 스타일과 음색 변환 평가에서 제로샷 및 일부 지도 학습 기반 방법보다 우수한 성능을 보여줍니다. 또한, 실제 음악 편집 시나리오에서 우리 접근 방식의 실용적 적용 가능성을 입증합니다.

ViGoR: 세분화된 보상 모델링을 통해 대규모 시각-언어 모델의 시각적 그라운딩 성능 향상
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

Feb 9, 2024

Siming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li

152

자연어 이해와 대규모 언어 모델의 생성 능력 및 광범위한 지식을 이미지 인식과 결합함으로써, 최근의 대규모 시각 언어 모델(LVLMs)은 현실 세계에서 전례 없는 추론 능력을 보여주고 있습니다. 그러나 생성된 텍스트는 종종 시각적 입력에 대한 정확한 근거가 부족하여, 존재하지 않는 장면 요소를 환각하거나 장면의 중요한 부분을 놓치고, 객체 간의 잘못된 속성과 관계를 추론하는 등의 오류를 발생시킵니다. 이러한 문제를 해결하기 위해, 우리는 미세한 보상 모델링을 활용하여 LVLMs의 시각적 근거를 사전 학습된 기준선 대비 크게 향상시키는 새로운 프레임워크인 ViGoR(Visual Grounding Through Fine-Grained Reward Modeling)를 소개합니다. 이 개선은 완전한 감독 대신 훨씬 저렴한 인간 평가와 자동화된 방법을 통해 효율적으로 달성됩니다. 우리는 여러 벤치마크에서 다양한 지표를 통해 우리의 접근 방식의 효과를 입증합니다. 또한, LVLMs의 시각적 근거 능력을 검증하기 위해 특별히 설계된 포괄적이고 도전적인 데이터셋을 구축합니다. 마지막으로, 우리는 약 16,000개의 이미지와 생성된 텍스트 쌍에 대한 미세한 평가를 포함한 인간 주석을 공개하여 커뮤니티의 관련 연구에 기여할 계획입니다.

정규 예제를 활용한 모델 편집
Model Editing with Canonical Examples

Feb 9, 2024

John Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning

131

우리는 정형 예제를 활용한 모델 편집을 소개한다. 이 설정은 (1) 원하는 동작마다 단일 학습 예제를 제공하고, (2) 평가는 오직 분포 외 데이터에서 수행하며, (3) 초기 모델과의 편차를 엄격히 제한한다는 특징을 가진다. 정형 예제는 좋은 행동(예: 모리셔스의 수도는 포트루이스)이나 나쁜 행동(예: 연구원의 한 측면은 냉담함)의 간단한 사례를 말한다. 평가 세트에는 각 행동의 더 복잡한 예제(예: 모리셔스의 수도가 언급된 문단)가 포함된다. 우리는 정형 예제를 통한 모델 편집을 위해 세 개의 데이터셋을 새로 생성하고 세 개를 수정하여, 지식 집약적 개선, 사회적 편향 완화, 구문적 경계 사례를 다룬다. Pythia 언어 모델에 대한 실험에서 LoRA가 전체 미세조정과 MEMIT을 능가하는 것을 확인했다. 이후 우리는 타겟팅된 개선을 가능하게 하도록 설계된 Backpack 언어 모델 아키텍처로 주목했다. Backpack은 각 단어의 다양한 용법을 분해한 의미 벡터(sense vector)의 대규모 뱅크를 정의하며, 이 벡터들은 가중치가 부여되고 합산되어 모델의 출력 로짓을 형성한다. 우리는 각 정형 예제에 대해 소수(약 10개)의 의미 벡터를 선택하고 미세조정하는 의미 미세조정(sense finetuning)을 제안했으며, 이 방법이 다른 미세조정 방법들보다 우수한 성능을 보임을 확인했다(예: 4.8% 개선 대 0.3%). 마지막으로, 우리는 GPT-J-6B를 35배 더 작은 Backpack의 의미 미세조정 변경만으로 추론 시 앙상블을 통해 개선했으며, 한 설정에서는 GPT-J 자체를 편집하는 것보다 더 나은 성능을 보였다(4.1% 대 1.0%).

Keyframer: 대규모 언어 모델을 활용한 애니메이션 디자인 혁신
Keyframer: Empowering Animation Design using Large Language Models

Feb 8, 2024

Tiffany Tseng, Ruijia Cheng, Jeffrey Nichols

131

대규모 언어 모델(LLMs)은 다양한 창의적 영역에 영향을 미칠 잠재력을 가지고 있지만, 애니메이션에의 적용은 아직 충분히 탐구되지 않았으며 사용자가 자연어로 움직임을 효과적으로 설명하는 방법과 같은 새로운 과제를 제시합니다. 본 논문에서는 정적 이미지(SVG)를 자연어로 애니메이션화하기 위한 디자인 도구인 Keyframer를 소개합니다. 전문 애니메이션 디자이너 및 엔지니어와의 인터뷰를 바탕으로, Keyframer는 프롬프팅과 생성된 출력의 직접 편집을 결합하여 애니메이션의 탐색 및 정제를 지원합니다. 또한 이 시스템은 사용자가 디자인 변형을 요청할 수 있게 하여 비교와 아이디어 구상을 지원합니다. 13명의 참가자를 대상으로 한 사용자 연구를 통해, 우리는 사용자 프롬프팅 전략에 대한 특성을 제시하며, 움직임을 설명하기 위한 의미론적 프롬프트 유형의 분류와 사용자가 생성된 출력에 반응하여 목표를 지속적으로 조정하는 '분해된' 프롬프팅 스타일을 포함합니다. 우리는 직접 편집이 프롬프팅과 함께 오늘날의 생성 도구에서 흔히 볼 수 있는 일회성 프롬프팅 인터페이스를 넘어 반복을 가능하게 하는 방식을 공유합니다. 이를 통해, 우리는 LLMs가 다양한 대중이 애니메이션 제작에 참여할 수 있도록 하는 방법을 제안합니다.

SubGen: 부분 선형 시간 및 메모리 내 토큰 생성
SubGen: Token Generation in Sublinear Time and Memory

Feb 8, 2024

Amir Zandieh, Insu Han, Vahab Mirrokni, Amin Karbasi

122

대규모 언어 모델(LLM)의 상당한 성공에도 불구하고, 이들의 광범위한 메모리 요구 사항은 장문맥 토큰 생성에 배포하는 데 있어 도전 과제로 남아 있습니다. LLM 디코더의 상당한 메모리 사용량은 주의력 모듈에서 이전의 모든 토큰을 저장해야 하는 데서 비롯되며, 이는 키-값(KV) 캐싱에 의해 요구되는 사항입니다. 본 연구에서는 KV 캐시를 위한 효율적인 압축 기술 개발에 초점을 맞추고 있습니다. 실험적 증거는 주의력 모듈 내의 키 임베딩에서 상당한 클러스터링 경향이 있음을 보여줍니다. 이러한 핵심 통찰을 바탕으로, 우리는 키 토큰에 대한 온라인 클러스터링과 값에 대한 온라인 ell_2 샘플링을 사용하여 하위 선형 복잡도를 가진 새로운 캐싱 방법을 고안했습니다. 그 결과, SubGen이라는 명확히 정확하고 효율적인 주의력 디코딩 알고리즘이 탄생했습니다. 이 알고리즘은 하위 선형 메모리 사용량과 하위 선형 시간 복잡도를 보장할 뿐만 아니라, 우리의 접근 방식에 대한 엄격한 오류 한계도 설정했습니다. 장문맥 질의응답 작업에 대한 실험적 평가는 SubGen이 성능과 효율성 측면에서 기존 및 최신 KV 캐시 압축 방법을 크게 능가함을 보여줍니다.

직접 원칙 피드백을 통해 핑크 코끼리 억제하기
Suppressing Pink Elephants with Direct Principle Feedback

Feb 12, 2024

Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman

111

기존의 언어 모델 제어 방법, 예를 들어 RLHF(Reinforcement Learning from Human Feedback)와 Constitutional AI는 어떤 LLM(대형 언어 모델) 행동이 바람직한지를 결정하고 이를 언어 모델에 학습시키는 방식을 취합니다. 그러나 많은 경우, 추론 시점에서 LLM을 제어할 수 있도록 하는 것이 바람직하며, 이는 다양한 요구 사항을 가진 여러 맥락에서 사용될 수 있게 합니다. 우리는 이를 "핑크 코끼리 문제(Pink Elephant Problem)"로 설명합니다: LLM에게 특정 개체("핑크 코끼리")에 대해 논의하지 말고 대신 선호하는 개체("회색 코끼리")에 대해 논의하도록 지시하는 것입니다. 우리는 Constitutional AI의 새로운 단순화 방법인 Direct Principle Feedback(DPF)를 적용하여, 응답 순위 매기기를 건너뛰고 DPO(Direct Preference Optimization)를 비판과 수정에 직접 사용합니다. 우리의 실험 결과에 따르면, 합성된 핑크 코끼리 데이터셋에 대해 DPF 미세 조정을 거친 13B 크기의 미세 조정된 LLaMA 2 모델은 Llama-2-13B-Chat과 프롬프트 기반 베이스라인을 크게 능가하며, 핑크 코끼리 문제를 평가하기 위해 구성된 테스트 세트에서 GPT-4와 동등한 성능을 보였습니다.

Premier-TACO: 시간적 행동 기반 대조 손실을 통한 다중 작업 표현 사전 학습
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

Feb 9, 2024

Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang

112

우리는 순차적 의사결정 과제에서 소수 샷(few-shot) 정책 학습 효율성을 향상시키기 위해 설계된 다중 작업(multitask) 특징 표현 학습 접근법인 Premier-TACO를 제안합니다. Premier-TACO는 다중 작업 오프라인 데이터셋의 부분집합을 활용하여 일반적인 특징 표현을 사전 학습하며, 이는 중요한 환경 역학을 포착하고 최소한의 전문가 시연 데이터를 사용하여 미세 조정됩니다. 이 방법은 시각적 제어 과제에서 최첨단 성과를 보인 시간적 행동 대조 학습(Temporal Action Contrastive Learning, TACO) 목적 함수를 발전시켜, 새로운 부정 예제 샘플링 전략을 통합합니다. 이 전략은 TACO의 계산 효율성을 크게 향상시키는 데 핵심적이며, 대규모 다중 작업 오프라인 사전 학습을 가능하게 합니다. Deepmind Control Suite, MetaWorld, LIBERO 등 다양한 연속 제어 벤치마크에서의 광범위한 실험적 평가를 통해 Premier-TACO가 시각적 표현 사전 학습에 효과적이며, 새로운 과제의 소수 샷 모방 학습을 크게 개선함을 입증했습니다. 우리의 코드, 사전 학습 데이터, 그리고 사전 학습된 모델 체크포인트는 https://github.com/PremierTACO/premier-taco에서 공개될 예정입니다.

애니메이션 스티커: 비디오 확산 기술로 스티커에 생동감 불어넣기
Animated Stickers: Bringing Stickers to Life with Video Diffusion

Feb 8, 2024

David Yan, Winnie Zhang, Luxin Zhang, Anmol Kalia, Dingkang Wang, Ankit Ramchandani, Miao Liu, Albert Pumarola, Edgar Schoenfeld, Elliot Blanchard, Krishna Narni, Yaqiao Luo, Lawrence Chen, Guan Pang, Ali Thabet, Peter Vajda, Amy Bearman, Licheng Yu

113

우리는 텍스트 프롬프트와 정적 스티커 이미지를 조건으로 애니메이션을 생성하는 비디오 확산 모델인 애니메이티드 스티커를 소개합니다. 우리의 모델은 최신 Emu 텍스트-이미지 모델을 기반으로 구축되었으며, 모션을 모델링하기 위해 시간적 레이어가 추가되었습니다. 도메인 간격, 즉 시각적 및 모션 스타일의 차이로 인해 자연스러운 비디오 생성에 뛰어난 모델도 스티커에 적용할 때 생동감 있는 비디오를 생성하지 못합니다. 이 간극을 해소하기 위해 우리는 두 단계의 파인튜닝 파이프라인을 사용합니다: 먼저 약한 인-도메인 데이터로 파인튜닝한 후, 앙상블-오브-티처(ensemble-of-teachers)라고 명명한 인간-참여(HITL) 전략을 적용합니다. 이 전략은 여러 교사 모델의 최상의 특성을 더 작은 학생 모델로 증류합니다. 우리는 이 전략이 정적 이미지의 스타일을 유지하면서 모션 품질을 특별히 개선할 수 있음을 보여줍니다. 추론 최적화를 통해 우리의 모델은 1초 미만의 시간에 고품질, 흥미롭고 관련성 있는 모션을 가진 8프레임 비디오를 생성할 수 있습니다.

DeAL: 대형 언어 모델을 위한 디코딩 시점 정렬
DeAL: Decoding-time Alignment for Large Language Models

Feb 5, 2024

James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchoff, Dan Roth

대형 언어 모델(LLMs)은 현재 인간의 선호도에 부합하는 콘텐츠를 생성할 것으로 기대되고 있습니다. 현재의 연구는 인간 피드백을 통한 강화 학습(RLHF)과 같은 기술을 통해 모델 학습 시점에 정렬(alignment)에 초점을 맞추고 있습니다. 그러나 이러한 방법이 모델에 정렬 목표를 가르치는 데 효과적인 선택인지는 불분명합니다. 첫째, 다수의 사용자 정의 보상을 통합할 수 없는 점과 모델 개발자의 보편적이고 정적인 원칙에 의존해야 한다는 점이 주요 한계입니다. 둘째, 모델 학습의 잔여 격차와 이러한 접근 방식의 신뢰성도 의문스럽습니다(예: 안전 훈련 후에도 탈옥에 취약함). 이를 해결하기 위해 우리는 사용자가 보상 함수를 사용자 정의할 수 있도록 하고, LLM의 디코딩 시점 정렬(DeAL)을 가능하게 하는 프레임워크인 DeAL을 제안합니다. 핵심적으로, 우리는 디코딩을 휴리스틱 기반 탐색 과정으로 간주하고 다양한 정렬 목표의 사용을 용이하게 합니다. 키워드 및 길이 제약과 같은 프로그램적 제약(LLM 이전 시대에 널리 연구됨)과 무해성 및 유용성과 같은 추상적 목표(LLM 이후 시대에 제안됨)를 대상으로 한 실험을 통해, 우리는 세밀한 트레이드오프를 다룰 수 있고, 정렬 목표에 대한 준수를 개선하며, LLM의 잔여 격차를 해결할 수 있음을 보여줍니다. 마지막으로, DeAL은 RLHF 및 프롬프트 기술과 효과적으로 결합될 수 있지만, 그 일반성으로 인해 디코딩 속도가 느려지는 문제는 향후 연구를 통해 최적화할 과제로 남겨둡니다.

실제 세계 유체 환경에서의 강체 제어를 위한 심층 강화 학습
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning

Feb 8, 2024

Mohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli

최근 강화학습(RL)의 실제 응용 분야에서의 발전은 대규모 시스템을 정확하게 시뮬레이션할 수 있는 능력에 크게 의존해 왔습니다. 그러나 유체 역학 시스템과 같은 영역에서는 높은 통합 속도로 시뮬레이션하기 어려운 복잡한 동적 현상이 나타나며, 이는 현대의 심층 강화학습 알고리즘을 종종 비용이 많이 들거나 안전이 중요한 하드웨어에 직접 적용하는 데 제약을 가합니다. 본 연구에서는 동적인 실제 시나리오에서 강화학습 알고리즘을 체계적으로 평가하기 위한 새로운 벤치탑 실험 제어 시스템인 "Box o Flows"를 소개합니다. 우리는 Box o Flows의 주요 구성 요소를 설명하고, 일련의 실험을 통해 최신의 모델 없는 강화학습 알고리즘이 간단한 보상 명세를 통해 다양한 복잡한 행동을 합성할 수 있는 방법을 보여줍니다. 또한, 과거 경험을 재사용하여 데이터 효율적인 가설 검증에서 오프라인 강화학습의 역할을 탐구합니다. 우리는 이 예비 연구에서 얻은 통찰과 Box o Flows와 같은 시스템의 가용성이 복잡한 동적 시스템에 일반적으로 적용할 수 있는 체계적인 강화학습 알고리즘 개발을 위한 길을 지원할 것이라고 믿습니다. 보충 자료 및 실험 동영상은 https://sites.google.com/view/box-o-flows/home에서 확인할 수 있습니다.