AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

비전-언어 모델을 구축할 때 중요한 것은 무엇인가?
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

103

컴퓨터 비전-언어 모델(Vision-Language Models, VLMs)에 대한 관심은 대규모 언어 모델과 비전 트랜스포머의 발전에 힘입어 지속적으로 증가하고 있습니다. 이 주제에 관한 방대한 문헌이 존재함에도 불구하고, 우리는 VLMs 설계와 관련된 중요한 결정들이 종종 충분한 근거 없이 내려지는 것을 관찰했습니다. 이러한 근거 없는 결정들은 어떤 선택이 모델 성능을 향상시키는지 파악하기 어렵게 만들어 해당 분야의 진전을 저해한다고 주장합니다. 이 문제를 해결하기 위해, 우리는 사전 학습된 모델, 아키텍처 선택, 데이터, 그리고 학습 방법에 대해 광범위한 실험을 수행했습니다. 이러한 연구 결과를 종합하여 80억 개의 매개변수를 가진 효율적인 기초 VLM인 Idefics2를 개발했습니다. Idefics2는 다양한 멀티모달 벤치마크에서 동일 규모의 모델 중 최고 성능을 달성하며, 종종 자신의 크기보다 네 배 큰 모델들과도 비슷한 성능을 보입니다. 우리는 이 모델(기본, 지시형, 채팅)과 이를 학습시키기 위해 생성된 데이터셋을 공개합니다.

RLHF 워크플로우: 보상 모델링부터 온라인 RLHF까지
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

본 기술 보고서에서는 인간 피드백을 통한 온라인 반복 강화 학습(Online Iterative Reinforcement Learning from Human Feedback, RLHF)의 워크플로우를 소개합니다. 이 방법론은 최근 대형 언어 모델(LLM) 연구에서 오프라인 방식 대비 크게 향상된 성능을 보인 것으로 널리 보고되고 있습니다. 그러나 기존의 오픈소스 RLHF 프로젝트들은 여전히 대부분 오프라인 학습 설정에 국한되어 있습니다. 본 보고서는 이러한 격차를 메우고, 온라인 반복 RLHF를 쉽게 재현할 수 있는 상세한 방법론을 제공하는 것을 목표로 합니다. 특히, 제한된 자원을 가진 오픈소스 커뮤니티에서는 온라인 인간 피드백을 얻는 것이 일반적으로 불가능하므로, 다양한 오픈소스 데이터셋을 활용하여 선호 모델을 구축하고, 이를 통해 인간 피드백을 근사화하는 방법을 제안합니다. 이후, 온라인 반복 RLHF의 이론적 통찰과 알고리즘 원리를 논의하고, 상세한 실질적 구현을 제시합니다. 우리가 학습한 LLM 모델인 SFR-Iterative-DPO-LLaMA-3-8B-R은 AlpacaEval-2, Arena-Hard, MT-Bench와 같은 LLM 챗봇 벤치마크뿐만 아니라 HumanEval, TruthfulQA와 같은 학술 벤치마크에서도 인상적인 성능을 달성했습니다. 우리는 지도 미세 조정(Supervised Fine-Tuning, SFT)과 반복 RLHF가 완전한 오픈소스 데이터셋으로도 최첨단 성능을 얻을 수 있음을 입증했습니다. 또한, 우리의 모델, 정제된 데이터셋, 그리고 단계별 코드 가이드북을 공개적으로 제공합니다. 더 자세한 정보는 https://github.com/RLHFlow/RLHF-Reward-Modeling 및 https://github.com/RLHFlow/Online-RLHF를 참조하십시오.

SUTRA: 확장 가능한 다국어 언어 모델 아키텍처
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

본 논문에서는 50개 이상의 언어로 텍스트를 이해, 추론 및 생성할 수 있는 다국어 대형 언어 모델 아키텍처인 SUTRA를 소개합니다. SUTRA의 설계는 핵심 개념 이해와 언어별 처리를 독립적으로 분리함으로써 확장 가능하고 효율적인 다국어 정렬 및 학습을 가능하게 합니다. 언어 및 개념 처리 모두에서 전문가 혼합(Mixture of Experts) 프레임워크를 채택한 SUTRA는 계산 효율성과 응답성을 동시에 보여줍니다. 광범위한 평가를 통해 SUTRA는 다국어 작업을 위한 주요 Massive Multitask Language Understanding (MMLU) 벤치마크에서 GPT-3.5, Llama2와 같은 기존 모델을 20-30% 앞서는 것으로 입증되었습니다. SUTRA 모델은 또한 온라인 대형 언어 모델(LLM)로서 인터넷의 지식을 활용하여 환각(hallucination) 없는 사실적이고 최신의 응답을 제공하면서도 다국어 기능을 유지합니다. 더 나아가, 우리는 이 아키텍처가 다국어 AI의 미래에 미칠 광범위한 영향을 탐구하며, 전 세계적으로 AI 기술에 대한 접근을 민주화하고, 비영어권 지역에서 AI의 공평성과 유용성을 개선할 잠재력을 강조합니다. 우리의 연구 결과는 SUTRA가 다국어 모델 능력의 중요한 격차를 메울 뿐만 아니라 AI 애플리케이션에서 운영 효율성과 확장성에 대한 새로운 벤치마크를 설정한다는 것을 시사합니다.

SambaNova SN40L: 데이터플로우와 전문가 조합을 통해 AI 메모리 벽 극복하기
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

ByRaghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun

GPT-4와 같은 단일 대규모 언어 모델(LLM)은 현대 생성형 AI 애플리케이션의 길을 열었습니다. 그러나 단일 LLM을 대규모로 훈련, 서비스 및 유지하는 것은 여전히 매우 비용이 많이 들고 어려운 과제입니다. 현대 AI 가속기의 계산 대 메모리 비율이 불균형적으로 증가하면서 메모리 벽이 발생했으며, 이는 AI를 배포하기 위한 새로운 방법을 필요로 하게 되었습니다. 전문가 조합(CoE)은 훈련 및 서비스 비용과 복잡성을 낮추는 모듈식 접근 방식입니다. 그러나 이 접근 방식은 기존 하드웨어를 사용할 때 두 가지 주요 문제를 제기합니다: (1) 융합된 연산이 없을 경우 더 작은 모델은 운영 강도가 낮아 높은 활용도를 달성하기가 더 어렵고; (2) 많은 수의 모델을 호스팅하는 것은 비용이 너무 많이 들거나 모델 간 동적 전환이 느려질 수 있습니다. 이 논문에서는 CoE, 스트리밍 데이터플로우, 그리고 3단계 메모리 시스템을 결합하여 AI 메모리 벽을 확장하는 방법을 설명합니다. 우리는 150명의 전문가와 총 1조 개의 파라미터를 가진 CoE 시스템인 Samba-CoE를 소개합니다. Samba-CoE는 SambaNova SN40L 재구성 가능 데이터플로우 유닛(RDU)에 배포되었습니다. 이는 기업용 추론 및 훈련 애플리케이션을 위해 공동 설계된 상용 데이터플로우 가속기 아키텍처입니다. 이 칩은 온칩 분산 SRAM, 온패키지 HBM, 그리고 오프패키지 DDR DRAM으로 구성된 새로운 3단계 메모리 시스템을 도입했습니다. 전용 RDU 간 네트워크는 다중 소켓에 걸쳐 확장을 가능하게 합니다. 우리는 8개의 RDU 소켓에서 실행된 다양한 벤치마크에서 2배에서 13배까지의 속도 향상을 보여줍니다. CoE 추론 배포에서 8소켓 RDU 노드는 기계 공간을 최대 19배 줄이고, 모델 전환 시간을 15배에서 31배까지 단축하며, DGX H100 대비 3.7배, DGX A100 대비 6.6배의 전반적인 속도 향상을 달성합니다.

MS MARCO 웹 검색: 수백만 개의 실제 클릭 레이블이 포함된 대규모 정보 풍부 웹 데이터셋
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

ByQi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang

최근 대형 모델 분야의 획기적인 발전은 데이터 규모, 레이블 및 모달의 중요성을 부각시켰습니다. 본 논문에서는 수백만 개의 실제 클릭 기반 쿼리-문서 레이블을 포함한 최초의 대규모 정보 풍부 웹 데이터셋인 MS MARCO 웹 검색을 소개합니다. 이 데이터셋은 실제 웹 문서 및 쿼리 분포를 충실히 반영하며, 다양한 하위 작업을 위한 풍부한 정보를 제공하고, 일반적인 종단간 신경망 인덱서 모델, 일반적인 임베딩 모델, 대형 언어 모델을 활용한 차세대 정보 접근 시스템 등 다양한 분야의 연구를 촉진합니다. MS MARCO 웹 검색은 기계 학습 및 정보 검색 시스템 연구 분야 모두에서 혁신을 요구하는 세 가지 웹 검색 과제를 포함한 검색 벤치마크를 제공합니다. 대규모, 실제 데이터, 풍부한 정보라는 요구사항을 충족하는 최초의 데이터셋으로서, MS MARCO 웹 검색은 AI 및 시스템 연구의 미래 발전을 위한 길을 열어줍니다. MS MARCO 웹 검색 데이터셋은 https://github.com/microsoft/MS-MARCO-Web-Search에서 이용 가능합니다.

Plot2Code: 과학적 플롯에서 코드 생성을 위한 다중 모달 대형 언어 모델 평가를 위한 포괄적 벤치마크
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

다중 모달 대형 언어 모델(MLLMs)의 놀라운 발전은 시각적 맥락에서의 우수한 성능으로 인해 상당한 주목을 받고 있습니다. 그러나 이러한 모델들이 시각적 도표를 실행 가능한 코드로 변환하는 능력은 철저히 평가되지 않았습니다. 이를 해결하기 위해, 우리는 MLLMs의 공정하고 심층적인 평가를 위해 설계된 포괄적인 시각적 코딩 벤치마크인 Plot2Code를 소개합니다. 우리는 공개적으로 이용 가능한 matplotlib 갤러리에서 6가지 플롯 유형에 걸쳐 132개의 수작업으로 선별된 고품질 matplotlib 플롯을 신중하게 수집했습니다. 각 플롯에 대해, 우리는 소스 코드와 GPT-4가 요약한 설명 지침을 제공합니다. 이 접근 방식은 Plot2Code가 다양한 입력 모달리티에 걸쳐 MLLMs의 코드 능력을 광범위하게 평가할 수 있게 합니다. 더 나아가, 우리는 코드 통과율, 텍스트 일치 비율, GPT-4V 전체 평가 등 세 가지 자동 평가 지표를 제안하여 출력 코드와 렌더링된 이미지에 대한 세밀한 평가를 가능하게 합니다. 단순히 통과 또는 실패를 판단하는 대신, 우리는 GPT-4V를 사용하여 생성된 이미지와 참조 이미지 간의 전체적인 판단을 내리도록 하며, 이는 인간 평가와 일치하는 것으로 나타났습니다. GPT-4V, Gemini-Pro, 오픈소스 Mini-Gemini 등 14개의 MLLMs를 분석한 평가 결과는 Plot2Code가 제시하는 상당한 도전 과제를 강조합니다. Plot2Code를 통해, 우리는 대부분의 기존 MLLMs가 텍스트가 많은 플롯에 대한 시각적 코딩에서 어려움을 겪으며, 텍스트 지침에 크게 의존한다는 것을 밝혀냈습니다. 우리는 Plot2Code의 시각적 코딩에 대한 평가 결과가 MLLMs의 미래 개발을 안내할 수 있기를 바랍니다. Plot2Code와 관련된 모든 데이터는 https://huggingface.co/datasets/TencentARC/Plot2Code에서 이용 가능합니다.

Piccolo2: 멀티태스크 하이브리드 손실 학습을 통한 일반 텍스트 임베딩
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

본 보고서에서는 CMTEB 벤치마크의 6가지 과제에 대한 종합 평가에서 다른 모델들을 능가하며 새로운 최첨단 기술을 선보인 임베딩 모델 Piccolo2를 소개합니다. Piccolo2는 주로 효율적인 다중 과제 하이브리드 손실 훈련 방식을 활용하여 다양한 다운스트림 과제의 텍스트 데이터와 레이블을 효과적으로 활용합니다. 또한, Piccolo2는 임베딩 차원을 확장하고 MRL 훈련을 사용하여 더 유연한 벡터 차원을 지원합니다. Piccolo 모델의 최신 정보는 https://huggingface.co/sensenova/에서 확인할 수 있습니다.

LogoMotion: 콘텐츠 인식 애니메이션을 위한 시각적 기반 코드 생성
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

애니메이션 로고는 개인과 브랜드가 온라인에서 자신을 표현하는 강력하고 보편적인 방식입니다. 이러한 로고를 수동으로 제작하려면 상당한 예술적 기술과 노력이 필요할 수 있습니다. 초보 디자이너들이 로고를 애니메이션화할 수 있도록 돕기 위해 현재 디자인 도구는 템플릿과 애니메이션 프리셋을 제공합니다. 그러나 이러한 솔루션은 표현 범위가 제한될 수 있습니다. 대형 언어 모델(LLM)은 콘텐츠에 맞춤화된 애니메이션 코드를 생성함으로써 초보 디자이너들이 애니메이션 로고를 만들 수 있도록 돕는 잠재력을 가지고 있습니다. 본 논문에서는 레이어 문서를 입력받아 시각적으로 기반한 프로그램 합성을 통해 애니메이션 로고를 생성하는 LLM 기반 시스템인 LogoMotion을 소개합니다. 우리는 캔버스의 HTML 표현을 생성하고, 주요 및 보조 요소를 식별하며, 애니메이션 코드를 합성하고, 애니메이션 오류를 시각적으로 디버깅하는 기술을 소개합니다. 업계 표준 도구와 비교했을 때, LogoMotion은 콘텐츠 인식이 더 뛰어나고 품질 면에서 동등한 애니메이션을 생성하는 것으로 나타났습니다. 우리는 LLM 생성 애니메이션이 모션 디자인에 미치는 영향에 대한 논의로 결론을 맺습니다.

대형 언어 모델을 플래닝 도메인 생성기로 활용하기
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi

도메인 모델 개발은 AI 계획 수립에서 여전히 수동적인 인간 노동이 필요한 몇 안 되는 영역 중 하나입니다. 따라서 계획 수립을 더욱 접근 가능하게 만들기 위해 도메인 모델 생성 과정을 자동화하는 것이 바람직합니다. 이를 위해 우리는 대규모 언어 모델(LLM)이 간단한 텍스트 설명으로부터 계획 도메인 모델을 생성하는 데 사용될 수 있는지 조사합니다. 구체적으로, 우리는 도메인 인스턴스에 대한 계획 집합을 비교함으로써 LLM 생성 도메인의 자동 평가를 위한 프레임워크를 소개합니다. 마지막으로, 우리는 코딩 및 채팅 모델을 포함한 7개의 대규모 언어 모델에 대해 9개의 서로 다른 계획 도메인과 세 가지 유형의 자연어 도메인 설명 하에서 실증적 분석을 수행합니다. 우리의 결과는 특히 높은 파라미터 수를 가진 LLM이 자연어 설명으로부터 정확한 계획 도메인을 생성하는 데 중간 수준의 숙련도를 보인다는 것을 나타냅니다. 우리의 코드는 https://github.com/IBM/NL2PDDL에서 확인할 수 있습니다.