AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

강화 학습을 통해 언어 모델을 자가 교정하도록 훈련하기
Training Language Models to Self-Correct via Reinforcement Learning

Sep 19

ByAviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, John D Co-Reyes, Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust

140

자가 수정은 대형 언어 모델 (LLM)의 매우 바람직한 능력이지만 현대 LLM에서는 일관되게 효과가 없다는 사실이 발견되었습니다. 자가 수정을 훈련하기 위한 기존 방법은 여러 모델이 필요하거나 더 능숙한 모델이나 다른 형태의 지도에 의존합니다. 이에 우리는 다중 턴 온라인 강화 학습 (RL) 접근 방식인 SCoRe를 개발하여 완전히 자체 생성된 데이터를 사용하여 LLM의 자가 수정 능력을 크게 향상시킵니다. SCoRe를 구축하기 위해 우리는 먼저 오프라인 모델 생성 수정 추적에 대한 지도 미세 조정 (SFT) 변형이 자가 수정 행동을 심어주기에는 충분하지 않다는 것을 보여줍니다. 특히, SFT를 통한 훈련은 훈련 데이터와 모델 자체 응답 간의 분포 불일치로 인해 문제가 발생하거나 종종 효과적이지 않은 테스트 시간에만 선호되는 특정 수정 행동 모드를 암시적으로 선호합니다. SCoRe는 모델의 자체 생성 수정 추적 분포 하에서 훈련하고 적절한 정규화를 사용하여 학습 과정을 조절하여 테스트 시간에 효과적인 자가 수정 전략을 학습하도록 하여 주어진 프롬프트에 대해 고보상 응답을 단순히 맞추는 것이 아닌 자가 수정을 강화합니다. 이 정규화는 붕괴에 민감하지 않은 정책 초기화를 생성하기 위해 기본 모델에서 RL의 첫 번째 단계를 실행하고 훈련 중 자가 수정을 강화하기 위해 보상 보너스를 사용합니다. Gemini 1.0 Pro 및 1.5 Flash 모델에 적용한 결과, SCoRe는 MATH 및 HumanEval 벤치마크에서 각각 기본 모델의 자가 수정을 15.6% 및 9.1% 향상시켰습니다.

InfiMM-WebMath-40B: 향상된 수학 추론을 위한 멀티모달 사전 훈련 발전
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

Sep 19

ByXiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You

대규모 고품질 데이터셋에서 사전 훈련은 특히 수학과 같은 전문 분야에서 Large Language Models (LLMs)의 추론 능력을 향상시키는 데 중요합니다. 인식된 중요성에도 불구하고, 현재 Multimodal LLMs (MLLMs) 분야는 수학적 추론을 위해 특별히 설계된 포괄적인 오픈 소스 사전 훈련 데이터셋이 부족합니다. 이러한 공백을 해결하기 위해, 우리는 InfiMM-WebMath-40B를 소개합니다. 이는 교차되는 이미지-텍스트 문서의 고품질 데이터셋으로, CommonCrawl로부터 세심하게 추출하고 정제된 2,400만 개의 웹 페이지, 8500만 개의 관련 이미지 URL 및 400억 개의 텍스트 토큰으로 구성되어 있습니다. 우리는 데이터 수집 및 처리 파이프라인에 대한 자세한 개요를 제공합니다. InfiMM-WebMath-40B의 견고성을 증명하기 위해, 우리는 텍스트만과 멀티모달 설정에서 평가를 실시했습니다. 우리의 텍스트만 벤치마크 평가는 400억 개의 토큰만을 활용하더라도 우리의 1.3B 모델의 성능을 크게 향상시키며, 동일한 모델 크기를 사용하는 DeepSeekMath-1.3B와 유사한 결과를 제공함을 보여줍니다. 그러나 우리의 멀티모달 수학 사전 훈련 데이터셋을 도입함으로써, 우리 모델은 MathVerse 및 We-Math와 같은 멀티모달 수학 벤치마크에서 오픈 소스 모델 중 최신 기술을 세우고 있습니다. 우리는 데이터를 https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B에서 공개합니다.

MMSearch: 대형 모델의 잠재력을 다중 모달 검색 엔진으로 벤치마킹하기
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

Sep 19

ByDongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li

대형 언어 모델(LLMs)의 등장은 AI 검색 엔진, 예를 들어 SearchGPT,를 선보여 인간-인터넷 상호작용의 새로운 패러다임을 제시했습니다. 그러나 대부분의 현재 AI 검색 엔진은 텍스트만 있는 환경에 제한되어 있어 다중 모달 사용자 쿼리와 웹사이트 정보의 텍스트-이미지 교차 구조를 무시합니다. 최근에는 대형 다중 모달 모델(LMMs)이 놀라운 발전을 이루었습니다. 그러나 LMMs가 AI 검색 엔진으로 작동할 수 있는지 여전히 탐구되지 않은 상태이며, 다중 모달 검색에서 LMMs의 잠재력은 여전히 미지수입니다. 이를 위해 먼저 MMSearch-Engine이라는 정교한 파이프라인을 설계하여 어떤 LMMs에게도 다중 모달 검색 기능을 부여합니다. 이에 더하여, 우리는 다중 모달 검색 성능을 평가하기 위한 포괄적인 평가 기준인 MMSearch를 소개합니다. 선별된 데이터셋은 14개 하위 분야에 걸쳐 300개의 수동 수집된 인스턴스를 포함하며, 현재 LMMs의 훈련 데이터와 중복되지 않아 올바른 답변은 검색 내에서만 얻을 수 있도록 보장됩니다. MMSearch-Engine을 사용하여, LMMs는 세 가지 개별 작업(재쿼리, 재랭크 및 요약)과 완전한 검색 프로세스를 통한 어려운 종단간 작업을 수행하여 평가됩니다. 우리는 폐쇄 소스 및 오픈 소스 LMMs에 대해 광범위한 실험을 실시했습니다. 시험된 모든 모델 중에서 MMSearch-Engine을 사용한 GPT-4o가 최상의 결과를 달성했으며, 종단간 작업에서 상용 제품인 Perplexity Pro를 능가하여 우리가 제안한 파이프라인의 효과를 입증했습니다. 우리는 현재 LMMs가 여전히 다중 모달 검색 작업을 완전히 이해하기 어려워하는 것을 밝히기 위해 오류 분석을 제시하고, AI 검색 엔진을 위한 테스트 시간 계산의 확장 가능성을 나타내기 위해 소거 연구를 실시했습니다. MMSearch가 다중 모달 AI 검색 엔진의 미래 발전을 이끄는 독특한 통찰을 제공할 수 있기를 희망합니다. 프로젝트 페이지: https://mmsearch.github.io

B4: 타당한 테스트를 통한 타당한 코드 솔루션의 최적 평가 방향
B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests

Sep 13

ByMouxiang Chen, Zhongxin Liu, He Tao, Yusu Hong, David Lo, Xin Xia, Jianling Sun

다수의 생성된 코드 솔루션 중 최상의 솔루션을 선택하는 것은 코드 생성에서 중요한 작업이며, 신뢰할 수 있는 유효성 검사기(예: 개발자가 작성한 테스트 케이스)를 사용하여 이를 달성할 수 있습니다. 신뢰할 만한 테스트 케이스가 항상 제공되지는 않고 실제로 구축하기 비용이 들기 때문에, 연구자들은 코드 솔루션을 평가하기 위해 자동으로 테스트 케이스를 생성하는 것을 제안합니다. 그러나 코드 솔루션과 테스트 케이스가 모두 타당하고 신뢰할 수 없는 경우, 최상의 솔루션을 선택하는 것은 어려워집니다. 이 문제를 해결하기 위해 일부 휴리스틱 전략이 제안되었지만, 강력한 이론적 보장이 부족하며 최적 선택 전략이 존재하는지 여전히 미해결된 문제입니다. 우리의 연구는 두 가지 측면에서 기여합니다. 첫째, 베이지안 프레임워크 내에서 관찰된 통과 상태의 사후 확률을 기반으로 최적 선택 전략을 정의할 수 있다는 것을 보여줍니다. 그런 다음, 최상의 솔루션을 식별하는 문제는 정수 프로그래밍 문제로 구성됩니다. 둘째, 이 최적(그러나 계산할 수 없는) 전략을 근사하는 효율적인 방법을 제안하며, 이 근사화 오차는 사전 지식의 정확성에 의해 제한됩니다. 그런 다음 효과적인 사전 지식을 통합하여 코드 생성 작업을 맞춤화합니다. 이론적 및 경험적 연구 모두, 기존의 휴리스틱이 타당한 테스트 케이스로 최상의 솔루션을 선택하는 데 제한이 있음을 확인합니다. 우리가 제안하는 근사 최적 전략 B4는 LLM(대형 언어 모델)이 생성한 코드 솔루션을 LLM이 생성한 테스트로 선택하는 데 가장 강력한 휴리스틱보다 최대 50%의 상대적 성능 향상 및 가장 어려운 시나리오에서 가장 강력한 휴리스틱 대비 246%의 상대적 성능 향상을 달성하며, 이 코드는 https://github.com/ZJU-CTAG/B4에서 공개적으로 이용 가능합니다.

Oryx MLLM: 임의 해상도에서의 온디맨드 공간-시간 이해
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Sep 19

ByZuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao

시각 데이터는 몇 픽셀의 작은 아이콘부터 몇 시간에 걸친 긴 비디오까지 다양한 형태로 제공됩니다. 기존의 다중 모달 LLM은 일반적으로 시각 인코더를 위해 다양한 시각적 입력을 고정된 해상도로 표준화하고 LLM에 대해 유사한 토큰 수를 생성합니다. 이 접근 방식은 다중 모달 이해에 비효율적이며 긴 및 짧은 시각적 콘텐츠를 처리하는 데 비효율적입니다. 문제를 해결하기 위해 우리는 이미지, 비디오 및 다중 뷰 3D 장면의 공간-시간 이해를 위한 통합된 다중 모달 아키텍처인 Oryx를 제안합니다. Oryx는 임의의 공간 크기와 시간 길이를 가진 시각적 입력을 신속하고 효율적으로 처리하기 위한 온디맨드 솔루션을 제공합니다. 이를 위해 두 가지 핵심 혁신을 통해 가능합니다: 1) 이미지를 LLM 친화적 시각적 표현으로 인코딩할 수 있는 사전 훈련된 OryxViT 모델; 2) 시각적 토큰에 대한 1배에서 16배 압축을 지원하는 동적 압축 모듈. 이러한 설계 특징은 Oryx가 낮은 해상도 및 높은 압축으로 비디오와 같은 매우 긴 시각적 맥락을 수용하면서 원본 해상도 및 압축 없이 문서 이해와 같은 작업에 대한 높은 인식 정확도를 유지할 수 있도록 합니다. 아키텍처 개선을 넘어, 향상된 데이터 정리 및 긴 맥락 검색 및 공간 인식 데이터에 대한 전문 교육을 통해 Oryx는 이미지, 비디오 및 3D 다중 모달 이해에서 강력한 능력을 동시에 달성합니다. 저희의 작업은 https://github.com/Oryx-mllm/Oryx에서 오픈 소스로 제공됩니다.

LVCD: 확산 모델을 사용한 참조 기반 선화 비디오 색칠하기
LVCD: Reference-based Lineart Video Colorization with Diffusion Models

Sep 19

ByZhitong Huang, Mohan Zhang, Jing Liao

참조 기반 선화 비디오 채색을 위한 최초의 비디오 확산 프레임워크를 제안합니다. 선화를 프레임 단위로 채색하는 기존 작업과 달리, 저희 방법은 대규모 사전 학습된 비디오 확산 모델을 활용하여 색이 칠해진 애니메이션 비디오를 생성합니다. 이 방법은 시간적으로 일관된 결과를 이끌어내며 대규모 움직임을 처리하는 데 능숙합니다. 먼저, 선화 안내 제어망인 Sketch-guided ControlNet을 소개합니다. 이는 조절 가능한 비디오 합성을 위해 이미지-비디오 확산 모델을 세밀하게 조정하는 추가 제어를 제공하여 선화에 의존하는 애니메이션 비디오 생성을 가능케 합니다. 그런 다음, 레퍼런스 어텐션을 제안하여 레퍼런스 프레임에서 빠르고 확장된 움직임을 포함하는 다른 프레임으로 색상을 전달하는 것을 용이하게 합니다. 마지막으로, Overlapped Blending Module과 Prev-Reference Attention을 통합한 순차 샘플링을 위한 새로운 체계를 제시하여 장시간 비디오 채색을 위한 비디오 확산 모델을 원래의 고정 길이 제한을 넘어서 확장합니다. 질적 및 양적 결과 모두에서 우리의 방법이 프레임 및 비디오 품질 및 시간적 일관성 측면에서 최첨단 기술을 크게 능가함을 보여줍니다. 더불어, 우리의 방법은 대규모 움직임을 포함한 고품질의 장기적 일관성 있는 애니메이션 비디오를 생성할 수 있으며, 이는 이전 작업에서는 불가능했습니다. 저희의 코드와 모델은 https://luckyhzt.github.io/lvcd에서 이용 가능합니다.

스케일링 스마트: 소형 모델 초기화를 통한 대형 언어 모델 사전 훈련 가속화
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

Sep 19

ByMohammad Samragh, Iman Mirzadeh, Keivan Alizadeh Vahid, Fartash Faghri, Minsik Cho, Moin Nabi, Devang Naik, Mehrdad Farajtabar

언어 모델의 사전 훈련 단계는 종종 임의로 초기화된 매개변수로 시작됩니다. 현재 모델 확장의 추세에 따라, 많은 수의 매개변수를 훈련하는 것은 매우 느리고 비용이 많이 들 수 있습니다. 이에 반해, 작은 언어 모델은 훈련 비용이 적지만 종종 큰 모델의 정확도를 달성할 수 없습니다. 본 논문에서는 이 두 가지 다른 영역을 연결하는 흥미로운 아이디어를 탐구합니다: 작은 사전 훈련된 모델을 사용하여 큰 언어 모델을 초기화하는 방법을 개발할 수 있을까? 이러한 초기화가 훈련 시간과 최종 정확도 측면에서 어떠한 이점을 가져올까요? 본 논문에서는 HyperCloning이라는 방법을 소개합니다. 이 방법은 사전 훈련된 언어 모델의 매개변수를 확장하여 숨겨진 차원을 증가시킨 큰 모델의 매개변수로 만들 수 있습니다. 우리의 방법은 큰 모델이 작은 모델의 기능성을 유지하도록 보장합니다. 결과적으로, 훈련이 시작되기 전에 큰 모델은 이미 작은 모델의 예측 능력과 정확도를 상속받습니다. 이러한 초기화된 모델을 훈련하는 것이 대규모 언어 모델의 사전 훈련에 필요한 GPU 시간을 상당히 절약한다는 것을 입증합니다.

3DTopia-XL: 원시 확산을 통한 고품질 3D 에셋 생성 규모 확장
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

Sep 19

ByZhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu

다양한 산업 분야에서 고품질 3D 에셋에 대한 수요가 증가함에 따라 효율적이고 자동화된 3D 콘텐츠 생성이 필요합니다. 최근 3D 생성 모델의 발전에도 불구하고, 기존 방법은 최적화 속도, 기하학적 충실성, 물리 기반 렌더링 (PBR)을 위한 에셋 부족 등의 문제에 직면하고 있습니다. 본 논문에서는 이러한 제한을 극복하기 위해 설계된 확장 가능한 원시 3D 생성 모델인 3DTopia-XL을 소개합니다. 3DTopia-XL은 상세한 형상, 알베도, 및 재질 필드를 압축된 텐서 형식으로 인코딩하는 새로운 원시 기반 3D 표현인 PrimX를 활용하여 고해상도 지오메트리와 PBR 에셋의 모델링을 용이하게 합니다. 새로운 표현 위에, 우리는 Diffusion Transformer (DiT)를 기반으로 한 생성적 프레임워크를 제안합니다. 이는 1) 원시 패치 압축, 2) 잠재 원시 확산으로 구성됩니다. 3DTopia-XL은 텍스트 또는 시각적 입력으로부터 고품질 3D 에셋을 생성하는 방법을 학습합니다. 우리는 3DTopia-XL이 세밀한 질감과 재질을 갖는 고품질 3D 에셋을 생성하는 데 기존 방법을 크게 능가함을 보여주기 위해 광범위한 질적 및 양적 실험을 실시합니다. 이를 통해 생성 모델과 실제 응용 프로그램 사이의 품질 차이를 효율적으로 줄이는 것을 확인합니다.

스토리메이커: 텍스트에서 이미지로의 일관된 캐릭터를 향한 종합적인 접근
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation

Sep 19

ByZhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang

튜닝 없이 개인 맞춤형 이미지 생성 방법은 얼굴 일관성, 즉 신원을 유지하는 데 상당한 성과를 거두었습니다. 그러나 여러 캐릭터가 등장하는 장면에서 전체적인 일관성의 부족으로 인해 이러한 방법들은 일관된 이야기를 만들기 어려워합니다. 본 논문에서는 얼굴 일관성 뿐만 아니라 의상, 헤어스타일 및 신체 일관성을 보존하는 개인화 솔루션인 StoryMaker를 소개합니다. 이를 통해 이미지 시리즈를 통해 이야기를 만드는 것을 용이하게 합니다. StoryMaker는 얼굴 신원과 의상, 헤어스타일 및 신체를 포함한 잘린 캐릭터 이미지에 기반한 조건을 통합합니다. 구체적으로, 우리는 Positional-aware Perceiver Resampler (PPR)를 사용하여 얼굴 신원 정보를 잘린 캐릭터 이미지와 통합하여 독특한 캐릭터 특징을 얻습니다. 다중 캐릭터와 배경의 혼합을 방지하기 위해 서로 다른 캐릭터와 배경의 교차 주의 영역을 MSE 손실과 분할 마스크를 사용하여 별도로 제한합니다. 또한 자세에 조건을 걸어 생성 네트워크를 훈련하여 자세와 독립성을 촉진합니다. LoRA도 사용하여 충실도와 품질을 향상시킵니다. 실험은 우리의 방법의 효과를 강조합니다. StoryMaker는 다양한 응용 프로그램을 지원하며 다른 사회적 플러그인과 호환됩니다. 소스 코드와 모델 가중치는 https://github.com/RedAIGC/StoryMaker에서 사용할 수 있습니다.

FlexiTex: 시각적 안내를 통한 질감 생성 향상
FlexiTex: Enhancing Texture Generation with Visual Guidance

Sep 19

ByDaDong Jiang, Xianghui Yang, Zibo Zhao, Sheng Zhang, Jiaao Yu, Zeqiang Lai, Shaoxiong Yang, Chunchao Guo, Xiaobo Zhou, Zhihui Ke

최근의 질감 생성 방법은 대규모 텍스트-이미지 확산 모델로부터 활용하는 강력한 생성적 사전 덕분에 인상적인 결과를 달성하고 있습니다. 그러나 추상적인 텍스트 프롬프트는 전역적인 질감이나 모양 정보를 제공하는 데 제한이 있어 질감 생성 방법이 흐릿하거나 일관성 없는 패턴을 생성하는 결과를 초래합니다. 이를 해결하기 위해 우리는 FlexiTex를 제안하여 시각적 안내를 통해 풍부한 정보를 포함시켜 고품질 질감을 생성합니다. FlexiTex의 핵심은 시각적 안내 강화 모듈로, 시각적 안내로부터 더 구체적인 정보를 통합하여 텍스트 프롬프트의 모호성을 줄이고 고주파 세부 정보를 보존합니다. 시각적 안내를 더 향상하기 위해 우리는 방향 인식 적응 모듈을 소개하여 다양한 카메라 포즈를 기반으로 방향 프롬프트를 자동으로 설계함으로써 Janus 문제를 피하고 의미론적으로 전역적인 일관성을 유지합니다. 시각적 안내의 장점을 살려 FlexiTex는 양적으로나 질적으로 탄탄한 결과를 도출하여 실제 응용 프로그램을 위한 질감 생성의 발전 가능성을 입증합니다.

언어 모델은 RLHF를 통해 인간을 속이는 법을 배운다.
Language Models Learn to Mislead Humans via RLHF

Sep 19

ByJiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng

언어 모델(Language models, LMs)은 작업이 복잡할 때 사람들이 감지하기 어려운 오류를 생성할 수 있습니다. RLHF, 가장 인기 있는 사후 훈련 방법 중 하나, 이 문제를 악화시킬 수 있습니다: 보상을 높이기 위해 LMs는 틀릴 때에도 사람들을 납득시키는 데 더 능해질 수 있습니다. 우리는 표준 RLHF 파이프라인에서 이 현상을 연구하며, 이를 "U-SOPHISTRY"라고 명명합니다. 왜냐하면 이는 모델 개발자들이 의도하지 않은 것이기 때문입니다. 구체적으로, 우리는 시간 제한이 있는(예: 3-10분) 인간 주체들에게 모델 출력물의 정확성을 평가하도록 요청하고 인간의 정확도를 골드 라벨에 대해 계산합니다. 질의 응답 작업(QuALITY) 및 프로그래밍 작업(APPS)에서, RLHF는 우리 주체들을 납득시키는 데는 능해지지만 작업을 올바르게 수행하는 데는 그렇지 않습니다. RLHF는 또한 모델을 평가하기 어렵게 만듭니다: QuALITY에서 우리 주체들의 거짓 긍정률이 24.1% 증가하고, APPS에서는 18.3% 증가합니다. 마지막으로, 우리는 의도된 속임수(예: 백도어가 있는 LMs)를 감지하기 위한 최첨단 접근 방식인 프로빙(probing)이 U-SOPHISTRY에 일반화되지 않음을 보여줍니다. 우리의 결과는 RLHF의 중요한 실패 모드를 강조하며, 인간들을 조정하는 데 더 많은 연구가 필요함을 요구합니다.

MURI: 저자원 언어를 위한 고품질 지시어 조정 데이터셋: 역방향 지시어를 통해
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions

Sep 19

ByAbdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze

지시 조정은 다양한 작업에서 인간의 선호도와 일치하도록 함으로써 대형 언어 모델(LLM)의 성능을 향상시킵니다. 저자 지시 조정 데이터셋을 생성하는 전통적인 방법은 데이터 주석에 의존하기 때문에 저자 지시 조정 데이터셋을 만드는 데 심각한 어려움이 있습니다. 본 연구는 인간 주석자나 기존의 다국어 모델을 필요로 하지 않고 저자 지시 조정 데이터셋을 저자 지시 조정 데이터셋을 생성하는 새로운 방법인 다국어 역 지시(MURI)를 소개합니다. 역 지시와 번역 파이프라인을 활용하여 MURI는 저자 지시 조정 데이터셋을 저자 지시 조정 데이터셋을 생성합니다. 이 방법은 서로 다른 원어민 도메인에서 텍스트를 수집하고 부적절한 콘텐츠를 제거하기 위해 필터를 적용하여 문화적 관련성과 다양성을 보장합니다. 저희의 데이터셋인 MURI-IT은 200개 언어에 걸쳐 2백만 개 이상의 지시-출력 쌍을 포함하고 있습니다. 원어민 평가 및 mT5 모델을 활용한 세밀한 조정 실험을 통해 이 방법이 NLU와 오픈엔드 생성 모두에 효과적임을 입증하였습니다. 저희는 데이터셋과 모델을 https://github.com/akoksal/muri에서 공개하였습니다.

3DGS-LM: 레벤베르크-마콰트를 사용한 빠른 가우시안 스플래팅 최적화
3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt

Sep 19

ByLukas Höllein, Aljaž Božič, Michael Zollhöfer, Matthias Nießner

우리는 3D 가우시안 스플래팅(3DGS)의 재구성을 가속화하는 새로운 방법인 3DGS-LM을 제안합니다. 이 방법은 ADAM 옵티마이저를 특수로 제작된 Levenberg-Marquardt(LM)로 대체함으로써 최적화 시간을 단축합니다. 기존 방법은 가우시안의 수를 줄이거나 미분 가능한 래스터라이저의 구현을 개선함으로써 최적화 시간을 줄이지만, 여전히 수천 번의 반복을 통해 장면의 가우시안 매개변수를 맞추기 위해 ADAM 옵티마이저에 의존합니다. 이는 최대 1시간이 소요될 수 있습니다. 이에 우리는 LM으로 옵티마이저를 변경하여 3DGS 미분 가능한 래스터라이저와 함께 작동하도록 합니다. 효율적인 GPU 병렬화를 위해 중간 그래디언트를 위한 캐싱 데이터 구조를 제안하여 사용자 지정 CUDA 커널에서 미분-벡터 곱을 효율적으로 계산할 수 있게 합니다. 각 LM 반복에서 이러한 커널을 사용하여 여러 이미지 하위 집합에서 업데이트 방향을 계산하고 가중 평균으로 결합합니다. 전반적으로 우리의 방법은 원래 3DGS보다 30% 빠르며 동일한 재구성 품질을 달성합니다. 또한 우리의 최적화는 3DGS를 가속화하는 다른 방법에 대해 무관하기 때문에 바닐라 3DGS와 비교하여 더 빠른 가속을 가능하게 합니다.

노이즈 제거 재사용: 효율적인 비디오 잠재 생성을 위한 프레임 간 모션 일관성 활용
Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation

Sep 19

ByChenyu Wang, Shuo Yan, Yixuan Chen, Yujiang Wang, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Robert P. Dick, Qin Lv, Fan Yang, Tun Lu, Ning Gu, Li Shang

확산 기반 모델을 사용한 비디오 생성은 프레임별 반복적인 확산 과정으로 인해 높은 계산 비용으로 제약을 받습니다. 본 연구는 잠재적 비디오 생성을 가속화하기 위해 확산 재사용 모션(Dr. Mo) 네트워크를 제안합니다. 우리의 주요 발견은 초기 소음이 이전의 소음 제거 단계에서 연속적인 비디오 프레임 간에 높은 모션 일관성을 보여준다는 것입니다. 이 관찰을 따라, Dr. Mo는 세심하게 설계된 가벼운 프레임 간 모션을 통합하여 초기 소음을 다음 프레임으로 전파함으로써 프레임별 확산 모델의 대규모 계산 중복을 제거합니다. 민감하고 세밀한 소음은 여전히 나중의 소음 제거 단계를 통해 획득되며 시각적 품질을 유지하는 데 중요할 수 있습니다. 따라서 어떤 중간 단계가 모션 기반 전파에서 소음 제거로 전환해야 하는지 결정하는 것은 효율성과 품질 사이의 중요한 문제이자 핵심 트레이드오프일 수 있습니다. Dr. Mo는 비디오 프레임 간에 원하는 중간 단계를 동적으로 결정하기 위해 Denoising Step Selector (DSS)라는 메타 네트워크를 사용합니다. 비디오 생성 및 편집 작업에 대한 포괄적인 평가 결과, Dr. Mo가 시각적 품질을 향상시킨 채 비디오 작업에서 확산 모델을 상당히 가속화할 수 있다는 것을 보여줍니다.

CLAIR-A: 대형 언어 모델을 활용하여 오디오 캡션을 판단하기
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

Sep 19

ByTsung-Han Wu, Joseph E. Gonzalez, Trevor Darrell, David M. Chan

자동 음성 자막(Automated Audio Captioning, AAC) 작업은 모델이 음성 입력의 자연어 설명을 생성하도록 요청합니다. 이러한 기계 생성 음성 자막을 평가하는 것은 청각 장면 이해, 소리-객체 추론, 시간적 일관성, 그리고 장면의 환경적 맥락을 고려해야 하는 복잡한 작업입니다. 현재 방법들은 특정 측면에 집중하지만 종종 인간 판단과 잘 일치하는 전반적인 점수를 제공하지 못하는 경우가 있습니다. 본 연구에서는 대규모 언어 모델(Large Language Models, LLMs)의 제로샷 능력을 활용하여 후보 음성 자막을 평가하기 위해 LLMs에 직접 의미적 거리 점수를 요청하는 간단하고 유연한 CLAIR-A 방법을 제안합니다. 우리의 평가에서 CLAIR-A는 전통적인 메트릭인 도메인 특정 FENSE 메트릭 대비 인간 판단의 품질을 더 잘 예측하며, Clotho-Eval 데이터셋에서 일반적인 측정 방법 중 최고의 측정 방법에 비해 최대 11%까지 상대적 정확도 향상을 보입니다. 게다가, CLAIR-A는 언어 모델이 점수의 근거를 설명할 수 있도록 함으로써 더 많은 투명성을 제공하며, 이러한 설명은 기준 방법에서 제공하는 것보다 인간 평가자들에 의해 최대 30% 더 잘 평가됩니다. CLAIR-A는 https://github.com/DavidMChan/clair-a에서 공개되어 있습니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

강화 학습을 통해 언어 모델을 자가 교정하도록 훈련하기
Training Language Models to Self-Correct via Reinforcement Learning

Sep 19

140

InfiMM-WebMath-40B: 향상된 수학 추론을 위한 멀티모달 사전 훈련 발전
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

Sep 19

ByXiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You

MMSearch: 대형 모델의 잠재력을 다중 모달 검색 엔진으로 벤치마킹하기
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

Sep 19

ByDongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li

B4: 타당한 테스트를 통한 타당한 코드 솔루션의 최적 평가 방향
B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests

Sep 13

ByMouxiang Chen, Zhongxin Liu, He Tao, Yusu Hong, David Lo, Xin Xia, Jianling Sun

Oryx MLLM: 임의 해상도에서의 온디맨드 공간-시간 이해
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Sep 19

ByZuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao

LVCD: 확산 모델을 사용한 참조 기반 선화 비디오 색칠하기
LVCD: Reference-based Lineart Video Colorization with Diffusion Models

Sep 19

ByZhitong Huang, Mohan Zhang, Jing Liao

스케일링 스마트: 소형 모델 초기화를 통한 대형 언어 모델 사전 훈련 가속화
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

Sep 19

ByMohammad Samragh, Iman Mirzadeh, Keivan Alizadeh Vahid, Fartash Faghri, Minsik Cho, Moin Nabi, Devang Naik, Mehrdad Farajtabar

MURI: 저자원 언어를 위한 고품질 지시어 조정 데이터셋: 역방향 지시어를 통해
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions

Sep 19

ByAbdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze

3DGS-LM: 레벤베르크-마콰트를 사용한 빠른 가우시안 스플래팅 최적화
3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt

Sep 19

ByLukas Höllein, Aljaž Božič, Michael Zollhöfer, Matthias Nießner

노이즈 제거 재사용: 효율적인 비디오 잠재 생성을 위한 프레임 간 모션 일관성 활용
Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation

Sep 19

ByChenyu Wang, Shuo Yan, Yixuan Chen, Yujiang Wang, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Robert P. Dick, Qin Lv, Fan Yang, Tun Lu, Ning Gu, Li Shang

CLAIR-A: 대형 언어 모델을 활용하여 오디오 캡션을 판단하기
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

Sep 19

ByTsung-Han Wu, Joseph E. Gonzalez, Trevor Darrell, David M. Chan