AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

ReCapture: 마스크 비디오 미세 조정을 활용한 사용자 제공 비디오를 위한 생성적 비디오 카메라 제어
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

최근 비디오 모델링 분야의 획기적인 발전으로 생성된 비디오에서 제어 가능한 카메라 궤적을 구현할 수 있게 되었다. 그러나 이러한 방법들은 비디오 모델에 의해 생성되지 않은 사용자 제공 비디오에 직접 적용할 수 없다. 본 논문에서는 단일 사용자 제공 비디오로부터 새로운 카메라 궤적을 가진 비디오를 생성하는 방법인 ReCapture를 제안한다. 우리의 방법은 참조 비디오를 기존의 모든 장면 움직임과 함께 완전히 다른 각도와 시네마틱한 카메라 움직임으로 재생성할 수 있게 한다. 특히, 이 방법을 사용하면 참조 비디오에서 관찰할 수 없었던 장면의 일부를 그럴듯하게 추정할 수도 있다. 우리의 방법은 (1) 다중 뷰 확산 모델 또는 깊이 기반 포인트 클라우드 렌더링을 사용하여 새로운 카메라 궤적을 가진 노이즈가 있는 앵커 비디오를 생성한 다음, (2) 제안된 마스크 비디오 미세 조정 기법을 사용하여 앵커 비디오를 깨끗하고 시간적으로 일관된 재각도 비디오로 재생성하는 방식으로 작동한다.

대규모 언어 모델이 구조화된 추론을 조율하여 캐글 그랜드마스터 수준을 달성합니다.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

우리는 자동화, 최적화 및 일반화를 목적으로 설계된 Agent K v1.0을 소개합니다. Agent K v1.0은 다양한 데이터 과학 작업에 걸쳐 자동화되고 최적화되며 일반화되도록 설계된 end-to-end 자율 데이터 과학 에이전트입니다. 완전히 자동화된 Agent K v1.0은 경험으로부터 학습함으로써 전체 데이터 과학 수명주기를 관리합니다. Agent K v1.0은 높은 유연성을 가진 구조화된 추론 프레임워크를 활용하여 중첩 구조에서 메모리를 동적으로 처리할 수 있도록 하여, 복잡한 추론 작업을 처리하기 위해 저장된 누적 경험으로부터 효과적으로 학습합니다. Agent K v1.0은 환경적 보상에 기초하여 미래 결정을 안내하기 위해 핵심 정보를 선택적으로 저장하고 검색함으로써 장기 및 단기 기억을 최적화합니다. 이 반복적인 접근 방식을 통해 Agent K v1.0은 미세 조정이나 역전파 없이 결정을 정제하고 경험적 학습을 통해 지속적인 개선을 달성합니다. 우리는 Kaggle 대회를 사례 연구로 사용하여 에이전트의 능력을 평가합니다. 완전히 자동화된 프로토콜을 따라 Agent K v1.0은 베이지안 최적화를 사용하여 하이퍼파라미터 조정 및 피처 엔지니어링을 수행하며 복잡하고 다중 모달 데이터 과학 작업을 체계적으로 다룹니다. 우리의 새로운 평가 프레임워크는 Agent K v1.0의 end-to-end 능력을 엄격하게 평가하여 Kaggle 대회 URL에서 시작하여 제출을 생성하고 보냅니다. 결과는 Agent K v1.0이 표 형식, 컴퓨터 비전, NLP 및 다중 모달 도메인을 포함한 작업 전반에 걸쳐 92.5%의 성공률을 달성한다는 것을 보여줍니다. 5,856명의 인간 Kaggle 경쟁자와 Elo-MMR 점수를 계산하여 벤치마킹할 때, Agent K v1.0은 상위 38%에 랭크되어 전문가 수준 사용자와 유사한 전반적인 기술 수준을 보여줍니다. 특히, Elo-MMR 점수는 인간 그랜드마스터들이 달성한 점수의 제1사분위와 제3사분위 사이에 위치하고 있음을 나타냅니다. 더 나아가, 우리의 결과는 Agent K v1.0이 Kaggle 그랜드마스터와 동등한 성능 수준에 도달했으며, Kaggle의 진행 시스템에 따라 6개의 금메달, 3개의 은메달 및 7개의 동메달을 기록했다는 것을 보여줍니다.

텍스트와 이미지가 누출되었습니다! 다중 모달 LLM 데이터 오염의 체계적 분석
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

다중 모달 대형 언어 모델(MLLMs)의 신속한 발전은 다양한 다중 모달 벤치마크에서 우수한 성능을 보여주었습니다. 그러나 훈련 중 발생하는 데이터 오염 문제는 성능 평가와 비교에 어려움을 줍니다. 대형 언어 모델(LLMs)에서 데이터셋 오염을 감지하는 다양한 방법이 존재하지만, MLLMs의 다양한 모달리티와 다중 훈련 단계로 인해 이러한 방법들은 효과적이지 않습니다. 본 연구에서는 MLLMs를 위해 고안된 다중 모달 데이터 오염 감지 프레임워크 MM-Detect를 소개합니다. 실험 결과는 MM-Detect가 다양한 오염 정도에 민감하며, 다중 모달 벤치마크의 훈련 세트 유출로 인한 중요한 성능 향상을 강조할 수 있음을 보여줍니다. 더 나아가, MLLMs에서 사용되는 LLMs의 사전 훈련 단계와 MLLMs의 미세 조정 단계에서 발생할 수 있는 오염 가능성을 탐구하여, 오염이 어느 단계에서 발생할 수 있는지에 대한 새로운 통찰을 제공합니다.

다항식 합성 활성화: 대규모 언어 모델의 동역학 해방하기
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

트랜스포머는 강력한 fitting 능력으로 인해 다양한 영역에서 광범위한 응용 분야를 찾았습니다. 이 성공은 그들의 내재적인 비선형성에 부분적으로 기인합니다. 따라서 원래의 트랜스포머 아키텍처에서 사용된 ReLU 함수에 추가하여, 연구자들은 GeLU 및 SwishGLU와 같은 대안적인 모듈을 탐구하여 비선형성을 향상시키고 이로써 표현 능력을 증가시키기 위해 노력했습니다. 본 논문에서는 트랜스포머의 동역합성 활성화 함수(PolyCom)라는 새로운 범주를 제안하며, 이는 트랜스포머의 동역학을 최적화하기 위해 설계되었습니다. 이론적으로, 우리는 PolyCom의 향상된 표현 능력과 효과를 강조하는 포괄적인 수학적 분석을 제공합니다. 특히, PolyCom을 포함하는 네트워크가 최적의 근사율을 달성하며, 이는 PolyCom 네트워크가 Sobolev 공간에서 일반적인 부드러운 함수를 근사하기 위해 최소한의 매개변수를 필요로 한다는 것을 보여줍니다. 우리는 대규모 언어 모델(Large Language Models, LLMs)의 사전 훈련 구성에 대한 실험을 수행하였으며, 밀집 및 희소 아키텍처를 모두 포함합니다. PolyCom으로 전통적인 활성화 함수를 대체함으로써, LLMs가 데이터 내에서 고차 상호작용을 포착할 수 있도록 하여 정확도 및 수렴 속도 측면에서 성능 지표를 향상시킵니다. 광범위한 실험 결과는 우리의 방법의 효과를 입증하며, 다른 활성화 함수보다 상당한 개선을 보여줍니다. 코드는 https://github.com/BryceZhuo/PolyCom에서 사용할 수 있습니다.

TIP-I2V: 이미지-비디오 생성을 위한 백만 규모의 실제 텍스트 및 이미지 프롬프트 데이터셋
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

비디오 생성 모델은 콘텐츠 제작에 혁신을 가져오고 있으며, 특히 향상된 제어성, 시각적 일관성, 그리고 실용적인 응용 가능성으로 인해 이미지-투-비디오 모델이 점점 더 주목받고 있습니다. 그러나 이러한 모델들은 사용자가 제공한 텍스트와 이미지 프롬프트에 의존하고 있으며, 현재 이러한 프롬프트를 연구하기 위한 전용 데이터셋이 존재하지 않습니다. 본 논문에서는 이미지-투-비디오 생성을 위해 특별히 설계된 170만 개 이상의 고유한 사용자 제공 텍스트 및 이미지 프롬프트로 구성된 대규모 데이터셋인 TIP-I2V를 소개합니다. 또한, 최신 이미지-투-비디오 모델 5개에서 생성된 해당 비디오도 함께 제공합니다. 먼저, 이 대규모 데이터셋을 구축하는 데 소요된 시간과 비용에 대해 설명합니다. 다음으로, TIP-I2V를 두 개의 인기 있는 프롬프트 데이터셋인 VidProM(텍스트-투-비디오) 및 DiffusionDB(텍스트-투-이미지)와 비교하여 기본 정보와 의미적 정보의 차이점을 강조합니다. 이 데이터셋은 이미지-투-비디오 연구의 발전을 가능하게 합니다. 예를 들어, 더 나은 모델을 개발하기 위해 연구자들은 TIP-I2V의 프롬프트를 사용하여 사용자 선호도를 분석하고 훈련된 모델의 다차원적 성능을 평가할 수 있으며, 모델의 안전성을 강화하기 위해 이미지-투-비디오 모델로 인한 잘못된 정보 문제를 해결하는 데 집중할 수 있습니다. TIP-I2V에서 영감을 받은 새로운 연구와 기존 데이터셋과의 차이점은 전용 이미지-투-비디오 프롬프트 데이터셋의 중요성을 강조합니다. 이 프로젝트는 https://tip-i2v.github.io에서 공개적으로 이용 가능합니다.

자기 일관성 선호 최적화
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

자가 정렬은 모델이 인간 주석 없이 스스로 개선하는 방식으로, 빠르게 성장하고 있는 연구 분야입니다. 그러나 기존 기술은 올바른 보상을 할당하는 어려움 때문에 복잡한 추론 작업의 개선에 실패하는 경우가 많습니다. 정확도를 향상시키는 데 알려진 직교적인 접근 방식은 자일일성(self-consistency)이며, 이는 가장 일관된 답변을 찾기 위해 추론 시간에 여러 샘플링을 기반으로 적용되는 방법입니다. 본 연구에서는 자일일성 개념을 모델 훈련에 도움을 주기 위해 확장합니다. 따라서 우리는 자일일성 선호도 최적화(ScPO)를 소개합니다. ScPO는 비지도 학습의 새로운 문제에서 일관된 답변을 불일치하는 답변보다 선호되도록 반복적으로 훈련합니다. 우리는 ScPO가 GSM8K 및 MATH와 같은 추론 작업에서 일반적인 보상 모델 훈련에 비해 큰 개선을 이끌어내며, 금 답변이나 선호도로 지도된 훈련과의 격차를 줄이는 것을 보여줍니다. 또한 ScPO를 표준 지도 학습과 결합하면 결과를 더욱 향상시킬 수 있습니다. ZebraLogic에서 ScPO는 Llama-3 8B를 Llama-3 70B, Gemma-2 27B 및 Claude-3 Haiku보다 우수하게 만들기 위해 Llama-3 8B를 세밀하게 조정합니다.

Medprompt에서 o1로: 의료 도전 문제 및 그 이상의 런타임 전략 탐색
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

런타임 조종 전략인 Medprompt와 같은 전략은 어려운 작업에서 대형 언어 모델(LLMs)을 최상의 성능으로 이끌어내는 데 유용합니다. Medprompt는 일반적인 LLM이 프롬프트를 사용하여 의학과 같은 전문 분야에서 최첨단 성능을 제공할 수 있도록 집중시킬 수 있음을 보여줍니다. 이는 사고 체인 및 앙상블링을 포함하는 런타임 전략을 유도하기 위한 프롬프트를 사용합니다. OpenAI의 o1-preview 모델은 최종 응답을 생성하기 전에 런타임 추론을 수행하도록 설계된 새로운 패러다임을 대표합니다. 우리는 o1-preview가 다양한 의료 도전 문제 벤치마크에서 어떻게 작동하는지 이해하려고 합니다. GPT-4와 Medprompt를 사용한 Medprompt 연구를 바탕으로, 우리는 o1-preview 모델을 다양한 의료 벤치마크에서 체계적으로 평가합니다. 특히, 프롬프트 기술을 사용하지 않아도 o1-preview는 대부분의 경우 Medprompt와 함께 GPT-4 시리즈를 크게 능가합니다. 우리는 새로운 추론 모델 패러다임 내에서 Medprompt로 표현된 클래식 프롬프트 엔지니어링 전략의 효과를 체계적으로 연구합니다. 우리는 몇몇 프롬프트를 통한 학습이 o1의 성능을 저해한다는 것을 발견했으며, 이는 문맥 내 학습이 추론 원천 모델에 대한 효과적인 조종 접근이 아닐 수 있음을 시사합니다. 앙상블링은 여전히 실행 가능하지만, 리소스가 많이 소모되며 비용-성능 최적화가 필요합니다. 런타임 전략을 통한 비용 및 정확도 분석을 통해 GPT-4o가 더 저렴한 옵션을 대표하고 o1-preview가 높은 비용으로 최첨단 성능을 달성하는 파레토 프론티어를 보여줍니다. o1-preview가 최상의 성능을 제공하지만, Medprompt와 같은 조종 전략을 사용하는 GPT-4o는 특정 맥락에서 가치를 유지합니다. 더욱이, 우리는 o1-preview 모델이 많은 기존 의료 벤치마크에서 거의 포화 상태에 도달했음을 강조하며, 새로운 도전적인 벤치마크의 필요성을 강조합니다. 우리는 LLMs와 추론 시간 계산에 대한 일반적인 방향에 대한 고찰로 마무리합니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

ReCapture: 마스크 비디오 미세 조정을 활용한 사용자 제공 비디오를 위한 생성적 비디오 카메라 제어
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

대규모 언어 모델이 구조화된 추론을 조율하여 캐글 그랜드마스터 수준을 달성합니다.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

텍스트와 이미지가 누출되었습니다! 다중 모달 LLM 데이터 오염의 체계적 분석
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

다항식 합성 활성화: 대규모 언어 모델의 동역학 해방하기
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

TIP-I2V: 이미지-비디오 생성을 위한 백만 규모의 실제 텍스트 및 이미지 프롬프트 데이터셋
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

자기 일관성 선호 최적화
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

Medprompt에서 o1로: 의료 도전 문제 및 그 이상의 런타임 전략 탐색
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz