번역이 포함된 일일 선별된 AI 연구 논문
기존 모델에 새로운 지식을 추가하는 것은 AI 개발의 중요한 측면입니다. 본 논문은 대규모 언어 모델(LLM)에 새로운 언어를 통합하는 혁신적인 방법을 소개합니다. 우리의 접근 방식은 기존 LLM의 사전 지식을 손상시키지 않으면서 이전에 보지 못한 대상 언어를 성공적으로 통합합니다. 우리는 주로 영어로 학습된 소규모 오픈소스 모델에 아랍어를 주입하여 15억 개의 파라미터를 가진 Kuwain이라는 작은 모델을 학습시켰습니다. 우리의 방법은 다양한 벤치마크에서 평균 8%의 성능 향상을 보이며 아랍어 성능을 크게 개선했고, 원본 모델의 데이터를 최소한으로 사용하여 기존 지식을 유지했습니다. 이는 영어와 아랍어 모두를 포함한 포괄적인 모델을 학습시키는 것에 비해 비용 효율적인 대안을 제공합니다. 이러한 결과는 광범위한 재학습이나 자원 집약적인 프로세스 없이도 효율적이고 타겟팅된 언어 모델 확장의 가능성을 강조합니다.
본 논문은 대규모 언어 모델(LLM)에서 추론 작업을 위한 명시적인 레이블이 없는 데이터에 대한 강화 학습(Reinforcement Learning, RL)을 연구합니다. 이 문제의 핵심 과제는 추론 과정에서 실제 정답 정보에 접근할 수 없는 상황에서 보상을 추정하는 것입니다. 이러한 설정이 어려워 보이지만, 테스트 시간 스케일링(Test-Time Scaling, TTS)에서의 일반적인 관행(예: 다수결 투표)이 RL 훈련을 이끌기에 적합한 놀라울 정도로 효과적인 보상을 제공한다는 것을 발견했습니다. 본 연구에서는 레이블이 없는 데이터를 사용하여 LLM을 훈련시키는 새로운 방법인 테스트 시간 강화 학습(Test-Time Reinforcement Learning, TTRL)을 소개합니다. TTRL은 사전 훈련된 모델의 사전 지식을 활용하여 LLM의 자기 진화를 가능하게 합니다. 우리의 실험 결과는 TTRL이 다양한 작업과 모델에서 일관되게 성능을 향상시킨다는 것을 보여줍니다. 특히, TTRL은 레이블이 없는 테스트 데이터만을 사용하여 AIME 2024에서 Qwen-2.5-Math-7B의 pass@1 성능을 약 159% 향상시켰습니다. 더욱이, TTRL은 Maj@N 메트릭만으로 지도되었음에도 불구하고 초기 모델의 상한선을 일관되게 뛰어넘는 성능을 보였으며, 실제 정답 레이블이 있는 테스트 데이터로 직접 훈련된 모델의 성능에 근접했습니다. 우리의 실험 결과는 TTRL의 일반적인 효과를 검증하며, 더 넓은 작업과 도메인에서의 잠재력을 강조합니다. GitHub: https://github.com/PRIME-RL/TTRL
대규모 언어 모델(LLM)의 언어 능력이 계속 발전함에 따라, 공평한 기술 발전을 촉진하기 위해 강력한 다국어 평가가 필수적이 되었습니다. 이 포지션 페이퍼는 2021년부터 2024년까지 148개국에서 발표된 2,000개 이상의 다국어(비영어) 벤치마크를 검토하여 다국어 벤치마킹의 과거, 현재, 미래의 관행을 평가합니다. 우리의 연구 결과는 수천만 달러에 달하는 상당한 투자에도 불구하고, 이러한 벤치마크에서 영어가 여전히 상당히 과도하게 대표되고 있음을 보여줍니다. 또한, 대부분의 벤치마크는 번역이 아닌 원본 언어 콘텐츠에 의존하며, 이들 중 다수는 중국, 인도, 독일, 영국, 미국과 같은 고자원 국가에서 유래했습니다. 더 나아가, 벤치마크 성능과 인간 판단을 비교한 결과, 상당한 차이가 있음이 드러났습니다. STEM 관련 작업은 인간 평가와 강한 상관관계(0.70~0.85)를 보인 반면, 질문 응답(예: XQuAD)과 같은 전통적인 NLP 작업은 훨씬 약한 상관관계(0.11~0.30)를 보였습니다. 또한, 영어 벤치마크를 다른 언어로 번역하는 것은 충분하지 않으며, 현지화된 벤치마크가 번역된 벤치마크(0.47)보다 현지 인간 판단과 훨씬 더 높은 일치도(0.68)를 보이는 것으로 나타났습니다. 이는 번역에만 의존하기보다는 문화적, 언어적으로 맞춤화된 벤치마크를 만드는 것의 중요성을 강조합니다. 이 포괄적인 분석을 통해, 우리는 현재 다국어 평가 관행의 여섯 가지 주요 한계를 지적하고, 이에 따라 효과적인 다국어 벤치마킹을 위한 지침 원칙을 제안하며, 이 분야의 진전을 이끌기 위한 다섯 가지 중요한 연구 방향을 제시합니다. 마지막으로, 우리는 현실 세계의 응용을 우선시하는 인간과 일치하는 벤치마크를 개발하기 위한 글로벌 협력 노력을 촉구합니다.
이미지와 비디오 내 특정 영역에 대한 상세하고 정확한 설명을 생성하는 것은 시각-언어 모델에게 여전히 근본적인 과제로 남아 있습니다. 우리는 상세 지역 캡셔닝(DLC)을 위해 설계된 Describe Anything Model(DAM)을 소개합니다. DAM은 두 가지 핵심 혁신을 통해 지역적 세부 사항과 전역적 맥락을 모두 보존합니다: 하나는 대상 영역의 고해상도 인코딩을 보장하는 포컬 프롬프트(focal prompt)이고, 다른 하나는 정확한 지역화를 더 넓은 맥락과 통합하는 지역화된 시각 백본(localized vision backbone)입니다. 고품질 DLC 데이터의 부족 문제를 해결하기 위해, 우리는 준지도 학습(SSL) 기반 데이터 파이프라인(DLC-SDP)을 제안합니다. DLC-SDP는 기존의 세그멘테이션 데이터셋에서 시작하여 SSL을 사용해 레이블이 없는 웹 이미지로 확장합니다. 또한, 참조 캡션에 의존하지 않고 DLC를 평가하기 위해 설계된 벤치마크인 DLC-Bench를 소개합니다. DAM은 키워드 수준, 구문 수준, 그리고 상세한 다중 문장 지역화 이미지 및 비디오 캡셔닝에 걸친 7개의 벤치마크에서 새로운 최첨단 성능을 달성했습니다.
추론 시간 계산의 확장은 언어 모델의 추론 능력을 상당히 향상시켜 왔습니다. 그러나 기존 방법들은 중요한 한계를 가지고 있습니다: 직렬화된 사고 연쇄(chain-of-thought) 접근법은 지나치게 긴 출력을 생성하여 지연 시간을 증가시키고 컨텍스트 윈도우를 고갈시키는 반면, 자기 일관성(self-consistency)과 같은 병렬 방법은 충분한 조정이 이루어지지 않아 중복 계산과 제한된 성능 향상을 초래합니다. 이러한 단점을 해결하기 위해, 우리는 직렬화된 계산과 병렬 계산을 종단 간 조율할 수 있는 새로운 추론 프레임워크인 적응형 병렬 추론(Adaptive Parallel Reasoning, APR)을 제안합니다. APR은 spawn() 및 join() 연산을 사용하여 적응형 다중 스레드 추론을 가능하게 함으로써 기존 추론 방법을 일반화합니다. 주요 혁신은 미리 정의된 추론 구조 없이도 부모 및 자식 추론 스레드를 최적화하여 작업 성공률을 향상시키는 종단 간 강화 학습 전략입니다. 카운트다운(Countdown) 추론 작업에 대한 실험은 APR의 상당한 이점을 보여줍니다: (1) 동일한 컨텍스트 윈도우 내에서 더 높은 성능(4k 컨텍스트에서 83.4% 대 60.0%); (2) 증가된 계산에서 더 우수한 확장성(20k 토큰에서 80.1% 대 66.6%); (3) 동등한 지연 시간에서 향상된 정확도(약 5,000ms에서 75.2% 대 57.3%). APR은 언어 모델이 계산의 적응형 할당을 통해 자율적으로 추론 프로세스를 최적화할 수 있도록 하는 한 걸음을 나타냅니다.
최근의 비디오 대형 언어 모델(Video LLMs)은 종종 비용이 많이 드는 인간 주석이나 독점 모델 API(예: GPT-4o)에 의존하여 훈련 데이터를 생성하는데, 이는 대규모 훈련을 제한합니다. 본 논문에서는 저렴한 자동 음성 인식(ASR) 트랜스크립트를 사용하여 Video LLM의 대규모 훈련을 탐구합니다. 구체적으로, 우리는 ASR 단어와 비디오 프레임을 타임스탬프에 따라 밀집하게 인터리브하는 새로운 스트리밍 훈련 방식을 제안합니다. ASR을 사용한 시각-언어 표현에 대한 이전 연구와 비교하여, 우리의 방법은 ASR의 스트리밍 특성에 자연스럽게 적합하여, 모델이 시간적으로 정렬된 세밀한 시각-언어 모델링을 학습할 수 있게 합니다. 이 훈련 알고리즘을 지원하기 위해, 우리는 YouTube 비디오와 그 자막(CC, ASR과 동일)을 처리하여 사전 훈련을 위한 Live-CC-5M 데이터셋과 고품질 지도 미세 조정(SFT)을 위한 Live-WhisperX-526K 데이터셋을 생성하는 데이터 생산 파이프라인을 소개합니다. 주목할 만하게도, SFT 없이도 ASR만으로 사전 훈련된 LiveCC-7B-Base 모델은 일반 비디오 QA 성능에서 경쟁력을 보이며, 실시간 비디오 해설이라는 새로운 능력을 보여줍니다. 이를 평가하기 위해, 우리는 자유 형식 해설을 측정하기 위해 LLM-as-a-judge를 사용하여 새로운 LiveSports-3K 벤치마크를 신중하게 설계했습니다. 실험 결과, 우리의 최종 LiveCC-7B-Instruct 모델은 실시간 모드에서도 고급 72B 모델(Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B)을 해설 품질에서 능가할 수 있음을 보여줍니다. 동시에, VideoMME 및 OVOBench와 같은 인기 있는 비디오 QA 벤치마크에서 7B/8B 규모에서 최신 기술을 달성하여 우리 접근법의 광범위한 일반화 가능성을 입증합니다. 본 논문의 모든 리소스는 https://showlab.github.io/livecc에서 공개되었습니다.
대규모 언어 모델(LLM)의 최근 발전으로 다중 에이전트 시스템을 통한 사회 시뮬레이션이 가능해졌다. 기존 연구는 새롭게 정의된 페르소나를 부여한 에이전트로 구성된 사회를 처음부터 만드는 데 초점을 맞추었다. 그러나, 확립된 가상 세계와 캐릭터를 시뮬레이션하는 것은 상당한 실용적 가치에도 불구하고 여전히 크게 탐구되지 않은 상태이다. 본 논문에서는 책 기반 다중 에이전트 사회를 구성하고 시뮬레이션하기 위한 포괄적인 시스템인 BookWorld를 소개한다. BookWorld의 설계는 다양한 동적 캐릭터, 가적 세계관, 지리적 제약 및 변화 등 현실 세계의 복잡성을 포괄한다. BookWorld는 스토리 생성, 인터랙티브 게임, 사회 시뮬레이션 등 다양한 응용 프로그램을 가능하게 하여 사랑받는 가적 작품을 확장하고 탐구할 수 있는 새로운 방법을 제공한다. 광범위한 실험을 통해 BookWorld가 원본 책에 대한 충실도를 유지하면서 창의적이고 고품질의 스토리를 생성하며, 75.36%의 승률로 기존 방법을 능가함을 입증한다. 본 논문의 코드는 프로젝트 페이지(https://bookworld2025.github.io/)에서 확인할 수 있다.
기존의 다중모달 대형 언어 모델(MLLM) 평가 프레임워크는 주로 이미지 추론이나 일반적인 비디오 이해 작업에 초점을 맞추고 있으며, 비디오 이해에서 이미지 문맥의 중요한 역할을 크게 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 이미지 기반 비디오 인식 및 추론을 평가하기 위한 첫 번째 포괄적인 벤치마크인 IV-Bench를 제안합니다. IV-Bench는 13개의 작업(7개의 인식 작업과 6개의 추론 작업)과 5개의 대표적인 범주에 걸쳐 967개의 비디오와 2,585개의 세심하게 주석이 달린 이미지-텍스트 쿼리로 구성되어 있습니다. 최신 오픈소스(예: InternVL2.5, Qwen2.5-VL) 및 클로즈드소스(예: GPT-4o, Gemini2-Flash 및 Gemini2-Pro) MLLM에 대한 광범위한 평가 결과, 현재 모델들은 이미지 기반 비디오 인식 및 추론에서 크게 부진하며, 최대 28.9%의 정확도만 달성하고 있음을 보여줍니다. 추가 분석을 통해 추론 패턴, 프레임 수, 해상도 등 IV-Bench에서 모델 성능에 영향을 미치는 주요 요인을 밝혀냈습니다. 또한, 간단한 데이터 합성 접근법을 통해 IV-Bench의 도전 과제가 단순히 훈련 과정에서 데이터 형식을 맞추는 것 이상임을 입증했습니다. 이러한 발견들은 미래 연구를 위한 귀중한 통찰력을 제공합니다. 우리의 코드와 데이터는 https://github.com/multimodal-art-projection/IV-Bench에서 공개되었습니다.
대규모 언어 모델(LLM)의 성공은 다양한 에이전트 응용 분야에 대한 관심을 불러일으켰습니다. 핵심 가설은 LLM이 상식과 사고 연쇄(CoT) 추론을 활용하여 복잡한 도메인을 효과적으로 탐색하고 효율적으로 해결할 수 있다는 것입니다. 그러나 LLM 에이전트는 최적이 아닌 탐색과 지식-행동 간극(knowing-doing gap), 즉 모델 내에 존재하는 지식을 효과적으로 행동으로 옮기지 못하는 문제를 겪는 것으로 나타났습니다. 본 연구에서는 LLM이 의사결정 시나리오에서 최적이 아닌 성능을 보이는 이유를 체계적으로 분석합니다. 특히, 탐욕성(greediness), 빈도 편향(frequency bias), 그리고 지식-행동 간극이라는 세 가지 주요 실패 모드를 면밀히 검토합니다. 우리는 이러한 단점을 완화하기 위해 자체 생성된 CoT 논리를 기반으로 강화 학습(RL)을 통한 미세 조정(fine-tuning)을 제안합니다. 멀티-암드 밴딧, 컨텍스트 밴딧, 틱택토 등 다양한 실험을 통해 RL 미세 조정이 탐색을 증가시키고 지식-행동 간극을 좁히는 방식으로 LLM의 의사결정 능력을 향상시킨다는 것을 입증합니다. 마지막으로, 우리는 엡실론-탐욕(epsilon-greedy)과 같은 고전적인 탐색 메커니즘과 자기 수정(self-correction) 및 자기 일관성(self-consistency)과 같은 LLM 특화 접근법을 연구하여 LLM의 의사결정을 위한 더 효과적인 미세 조정을 가능하게 합니다.
최근 대규모 언어 모델의 발전은 사후 학습(post-training) 과정에서 길이 스케일링(length scaling)의 효과를 입증했지만, 사전 학습(pre-training)에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 사전 학습 중 효율적인 길이 스케일링을 가능하게 하면서도 추론 효율성을 유지하는 새로운 프레임워크인 PHD-Transformer(Parallel Hidden Decoding Transformer)를 제안합니다. PHD-Transformer는 원본 토큰과 숨겨진 디코딩 토큰을 구분하는 혁신적인 KV 캐시 관리 전략을 통해 이를 달성합니다. 장거리 의존성을 위해 원본 토큰의 KV 캐시만 유지하고, 숨겨진 디코딩 토큰은 사용 후 즉시 폐기함으로써, 기존 트랜스포머와 동일한 KV 캐시 크기를 유지하면서도 효과적인 길이 스케일링을 가능하게 합니다. 성능을 더욱 향상시키기 위해 두 가지 최적화된 변형을 도입했습니다: PHD-SWA는 슬라이딩 윈도우 어텐션(sliding window attention)을 사용하여 지역적 의존성을 보존하고, PHD-CSWA는 청크 단위 슬라이딩 윈도우 어텐션(chunk-wise sliding window attention)을 구현하여 사전 채우기 시간의 선형 증가를 제거합니다. 다양한 벤치마크에서의 광범위한 실험을 통해 일관된 성능 향상을 입증했습니다.
대규모 언어 모델(LLMs)을 통해 정확한 세계 모델을 구축할 수 있을까? 세계 모델이 LLM 에이전트에 어떤 이점을 제공할 수 있을까? LLMs의 사전 지식과 특정 환경의 역학 사이의 간극은 종종 LLMs의 세계 모델로서의 성능을 저해하는 병목 현상으로 작용한다. 이 간극을 메우기 위해, 우리는 LLMs를 보완하는 환경의 상징적 지식을 학습하는 훈련이 필요 없는 "세계 정렬(world alignment)"을 제안한다. 이 상징적 지식은 행동 규칙, 지식 그래프, 장면 그래프를 포함하며, 탐색 궤적에서 LLMs에 의해 추출되고 실행 가능한 코드로 인코딩되어 LLM 에이전트의 정책을 규제한다. 우리는 더 나아가 모델 예측 제어(MPC) 프레임워크를 통해 RL(강화 학습)이 필요 없는 모델 기반 에이전트 "WALL-E 2.0"을 제안한다. 실시간으로 비용이 많이 드는 최적화를 요구하는 기존의 MPC와 달리, 우리는 신경 상징적 세계 모델과 상호작용하며 미래 단계의 행동을 효율적으로 예측하는 LLM 에이전트를 채택한다. LLM 에이전트의 강력한 휴리스틱은 MPC 내에서 효율적인 플래너로 작용하게 하지만, 정렬된 세계 모델의 정확한 예측에 의해 계획된 행동의 품질도 보장된다. 이 둘은 함께 새로운 환경에서의 학습 효율성을 크게 향상시킨다. Mars(Minecraft와 유사)와 ALFWorld(구현된 실내 환경)의 오픈월드 과제에서 WALL-E 2.0은 기존 방법들을 크게 능가하며, 예를 들어 Mars에서 기준선 대비 16.1%-51.6%의 성공률과 최소 61.7%의 점수 향상을 달성했다. ALFWorld에서는 단 4번의 반복만으로 새로운 기록인 98%의 성공률을 달성했다.
개인화된 이미지 합성은 특정 주체를 다양한 맥락에서 표현한 이미지를 생성할 수 있는 텍스트-이미지 생성의 핵심 응용 분야로 부상했습니다. 확산 모델이 이 분야를 주도하고 있지만, 텍스트와 이미지 모델링을 위한 통합 아키텍처를 갖춘 자기회귀 모델은 개인화된 이미지 생성에 있어 아직 충분히 탐구되지 않았습니다. 본 논문은 자기회귀 모델의 잠재력을 최적화하여 개인화된 이미지 합성을 수행할 수 있는 가능성을 탐구하며, 이를 위해 모델의 내재된 다중모달 능력을 활용합니다. 우리는 텍스트 임베딩 최적화와 트랜스포머 레이어 미세 조정을 결합한 두 단계의 학습 전략을 제안합니다. 자기회귀 모델에 대한 실험 결과, 이 방법은 최신 확산 기반 개인화 방법과 비교할 만한 주체 충실도와 프롬프트 준수도를 달성함을 보여줍니다. 이러한 결과는 개인화된 이미지 생성에서 자기회귀 모델의 효과를 입증하며, 이 분야의 미래 연구를 위한 새로운 방향을 제시합니다.
인간은 상식 지식을 인코딩하는 내부 세계 모델을 개발할 수 있으며, 이를 통해 세계가 어떻게 작동하는지 이해하고 자신의 행동 결과를 예측할 수 있습니다. 이 개념은 최근 초기 연구들, 예를 들어 시각 표현 학습에서 범용 머신러닝 모델을 구축하기 위한 유망한 방향으로 부상했습니다. 본 논문에서는 방사선 이미지를 위한 자기 지도 세계 모델인 CheXWorld를 최초로 제안합니다. 구체적으로, 우리의 연구는 자격을 갖춘 방사선 전문의에게 필수적인 의학 지식의 세 가지 측면을 동시에 모델링하는 통합 프레임워크를 개발합니다. 이는 1) 국소 조직의 세밀한 특성(예: 구조, 형태, 질감)을 설명하는 국소 해부학적 구조, 2) 인체의 전역적 조직(예: 장기와 골격의 배치)을 설명하는 전역 해부학적 배치, 그리고 3) CheXWorld가 방사선 사진의 다양한 외관 도메인 간 전이를 모델링하도록 장려하는 도메인 변이(예: 다른 병원, 장치 또는 환자로부터 수집된 방사선 사진으로 인한 선명도, 대비, 노출의 변화)를 포함합니다. 실증적으로, 우리는 맞춤형 정성적 및 정량적 분석을 설계하여 CheXWorld가 이 세 가지 차원의 의학 지식을 성공적으로 포착함을 보여줍니다. 더 나아가, 8개의 의료 이미지 분류 및 세분화 벤치마크에서의 전이 학습 실험은 CheXWorld가 기존의 자기 지도 학습 방법과 대규모 의료 기초 모델을 크게 능가함을 입증합니다. 코드와 사전 학습된 모델은 https://github.com/LeapLabTHU/CheXWorld에서 확인할 수 있습니다.
최근의 텍스트-이미지 확산 모델은 방대한 양의 학습 데이터와 모델 파라미터를 통해 인상적인 시각적 품질을 달성했지만, 복잡한 장면과 세밀한 디테일에서는 종종 어려움을 겪습니다. 대규모 언어 모델에서 나타나는 자기 반영 능력에 영감을 받아, 우리는 ReflectionFlow를 제안합니다. 이는 추론 시간에 확산 모델이 출력을 반복적으로 반영하고 개선할 수 있도록 하는 프레임워크입니다. ReflectionFlow는 세 가지 상호 보완적인 추론 시간 스케일링 축을 도입합니다: (1) 잠재 초기화를 최적화하기 위한 노이즈 수준 스케일링; (2) 정확한 의미론적 안내를 위한 프롬프트 수준 스케일링; 그리고 가장 주목할 만한 (3) 반영 수준 스케일링으로, 이는 이전 생성물을 반복적으로 평가하고 수정하기 위한 실행 가능한 반영을 명시적으로 제공합니다. 반영 수준 스케일링을 용이하게 하기 위해, 우리는 100만 개의 삼중항으로 구성된 대규모 데이터셋인 GenRef를 구축했습니다. 각 삼중항은 반영, 결함이 있는 이미지, 그리고 개선된 이미지를 포함합니다. 이 데이터셋을 활용하여, 우리는 최신 확산 트랜스포머인 FLUX.1-dev에 대해 반영 튜닝을 효율적으로 수행하며, 다중 모드 입력을 통합된 프레임워크 내에서 공동으로 모델링합니다. 실험 결과는 ReflectionFlow가 단순한 노이즈 수준 스케일링 방법을 크게 능가하며, 도전적인 작업에서 더 높은 품질의 이미지 합성을 위한 확장 가능하고 계산 효율적인 솔루션을 제공함을 보여줍니다.
인간은 자연스럽게 연결된 사람들과 정보를 공유하며, 비디오는 인터넷에서 의사소통과 표현을 위한 주요 매체 중 하나로 자리 잡았습니다. 고품질의 대규모 비디오 콘텐츠 생성을 지원하기 위해 현대적인 파이프라인은 원시 입력 자료(예: 카메라로 촬영된 편집되지 않은 영상)와 편집 구성 요소(예: 시각 효과)에 대한 포괄적인 이해를 필요로 합니다. 비디오 편집 시나리오에서 모델은 강력한 배경 지식을 바탕으로 여러 모달리티(예: 비전, 오디오, 텍스트)를 처리하고 유연한 입력 길이(예: 시간 단위의 원본 비디오)를 다뤄야 하며, 이는 전통적인 모델에게 상당한 도전 과제를 제기합니다. 본 보고서에서는 다양한 비디오 이해 및 편집 시나리오를 위한 대규모 멀티모달 모델(LMM) 패밀리인 Vidi를 소개합니다. 첫 번째 릴리스는 텍스트 쿼리에 해당하는 입력 비디오 내의 시간 범위를 식별하는 시간적 검색에 초점을 맞추며, 이는 지능형 편집에서 중요한 역할을 합니다. 이 모델은 시간 단위의 비디오를 처리할 수 있으며, 특정 쿼리에 대한 시간 범위를 검색하는 등 강력한 시간적 이해 능력을 갖추고 있습니다. 실제 시나리오에서 포괄적인 평가를 지원하기 위해 VUE-TR 벤치마크도 제시하며, 이는 다섯 가지 주요 개선 사항을 도입했습니다. 1) 비디오 지속 시간: 기존 시간적 검색 데이터셋보다 상당히 길고, 2) 오디오 지원: 오디오 기반 쿼리를 포함하며, 3) 쿼리 형식: 다양한 길이와 형식의 쿼리, 4) 주석 품질: 실제 시간 범위가 수동으로 주석 처리됨, 5) 평가 지표: 여러 시간 범위에 걸친 평가를 지원하는 개선된 IoU 지표. 특히, Vidi는 시간적 검색 작업에서 GPT-4o 및 Gemini와 같은 선도적인 독점 모델을 크게 능가하며, 비디오 편집 시나리오에서의 우수성을 입증했습니다.
제어 가능한 캐릭터 애니메이션은 여전히 어려운 문제로, 특히 희귀한 포즈, 스타일화된 캐릭터, 캐릭터-객체 상호작용, 복잡한 조명, 그리고 동적 장면을 처리하는 데 있어서 더욱 그러합니다. 이러한 문제를 해결하기 위해 기존 연구는 주로 정교한 바이패스 네트워크를 통해 포즈와 외형 지침을 주입하는 데 초점을 맞추었지만, 개방형 세계 시나리오로 일반화하는 데 어려움을 겪었습니다. 본 논문에서는 기반 모델이 충분히 강력하다면, 간단한 모델 수정과 유연한 미세 조정 전략으로 위의 문제를 크게 해결할 수 있다는 새로운 관점을 제안하며, 야생 환경에서의 제어 가능한 캐릭터 애니메이션을 향한 한 걸음을 내딛습니다. 구체적으로, 우리는 Wan-2.1 비디오 기반 모델을 기반으로 한 RealisDance-DiT를 소개합니다. 우리의 충분한 분석은 대규모 DiT 모델에 널리 채택된 Reference Net 설계가 최적이 아니라는 것을 보여줍니다. 대신, 기반 모델 아키텍처에 최소한의 수정을 가하는 것이 놀라울 정도로 강력한 베이스라인을 제공한다는 것을 입증합니다. 또한, 미세 조정 과정에서 모델 수렴을 가속화하면서 기반 모델의 사전 지식을 최대한 보존하기 위해 저잡음 워밍업과 "큰 배치와 작은 반복" 전략을 제안합니다. 더불어, 우리는 다양한 실제 세계의 도전 과제를 포착하는 새로운 테스트 데이터셋을 소개하여 TikTok 데이터셋과 UBC 패션 비디오 데이터셋과 같은 기존 벤치마크를 보완하고, 제안된 방법을 종합적으로 평가합니다. 광범위한 실험 결과, RealisDance-DiT는 기존 방법들을 큰 차이로 능가하는 성능을 보여줍니다.
LLM 에이전트는 대형 언어 모델(LLM)을 핵심 구성 요소로 활용하여 다양한 도구를 사용해 사용자 할당 작업을 완료하는 새로운 형태의 AI 시스템입니다. 이러한 시스템은 큰 잠재력을 가지고 있지만, 상당한 보안 위험도 내포하고 있습니다. 외부 세계와 상호작용할 때 공격자의 악성 명령에 노출되어 위험한 동작을 실행할 가능성이 있습니다. 이를 해결하기 위한 유망한 방법은 최소 권한 원칙을 적용하는 것입니다: 작업 완료에 필수적인 동작만 허용하고 불필요한 동작은 차단하는 것입니다. 그러나 이를 달성하는 것은 어려운 과제입니다. 다양한 에이전트 시나리오를 포괄하면서도 보안과 유용성을 모두 유지해야 하기 때문입니다. 우리는 LLM 에이전트를 위한 최초의 권한 제어 메커니즘인 Progent를 소개합니다. Progent의 핵심은 에이전트 실행 중 적용되는 권한 제어 정책을 유연하게 표현하기 위한 도메인 특화 언어입니다. 이러한 정책은 도구 호출에 대한 세밀한 제약을 제공하여, 도구 호출이 허용되는 시점을 결정하고 허용되지 않을 경우의 대체 방안을 지정합니다. 이를 통해 에이전트 개발자와 사용자는 특정 사용 사례에 적합한 정책을 작성하고 이를 결정론적으로 적용하여 보안을 보장할 수 있습니다. 모듈식 설계 덕분에 Progent를 통합해도 에이전트의 내부 구조는 변경되지 않으며, 에이전트 구현에 최소한의 변경만 필요하여 실용성과 광범위한 채택 가능성이 향상됩니다. 정책 작성을 자동화하기 위해, 우리는 LLM을 활용하여 사용자 쿼리를 기반으로 정책을 생성하고, 이를 동적으로 업데이트하여 보안과 유용성을 개선합니다. 광범위한 평가를 통해 AgentDojo, ASB, AgentPoison이라는 세 가지 독특한 시나리오 또는 벤치마크에서 강력한 보안을 유지하면서도 높은 유용성을 보존할 수 있음을 입증했습니다. 또한, 핵심 구성 요소의 효과와 적응형 공격에 대한 자동화된 정책 생성의 탄력성을 보여주는 심층 분석을 수행했습니다.
우리는 MR. Video를 제안합니다. 이는 긴 비디오 이해를 위한 에이전트 기반 프레임워크로, 간단하지만 효과적인 MapReduce 원칙을 활용하여 긴 비디오를 처리합니다: (1) Map: 짧은 비디오 클립을 독립적이고 밀도 있게 인지하고, (2) Reduce: 모든 클립에서 정보를 공동으로 집계합니다. 시퀀스-투-시퀀스 비전-언어 모델(VLMs)과 비교할 때, MR. Video는 컨텍스트 길이에 제한받지 않고 세밀한 짧은 비디오 인지를 수행합니다. 기존의 비디오 에이전트들이 일반적으로 순차적인 키 세그먼트 선택에 의존하는 것과 달리, Map 작업은 더 간단하고 확장 가능한 시퀀스 병렬 인지를 통해 짧은 비디오 세그먼트를 처리합니다. Reduce 단계는 더 포괄적인 컨텍스트 집계와 추론을 가능하게 하여 명시적인 키 세그먼트 검색을 능가합니다. 이 MapReduce 원칙은 VLMs와 비디오 에이전트 모두에 적용 가능하며, 우리는 LLM 에이전트를 사용하여 그 효과를 검증합니다. 실제로 MR. Video는 두 단계의 MapReduce를 사용합니다: (A) 캡셔닝: 짧은 비디오 클립에 대한 캡션을 생성하고(map), 반복되는 캐릭터와 객체를 공유 이름으로 표준화합니다(reduce); (B) 분석: 각 사용자 질문에 대해 개별 짧은 비디오에서 관련 정보를 분석하고(map), 이를 통합하여 최종 답변을 생성합니다(reduce). MR. Video는 최첨단 VLMs와 비디오 에이전트에 비해 도전적인 LVBench에서 10% 이상의 정확도 향상을 달성합니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/ziqipang/MR-Video
가려진(부분적 또는 완전히 숨겨진) 객체를 인식하고 추론하는 것은 시각적 장면을 이해하는 데 필수적입니다. 실제 환경에서는 가림 현상이 빈번하게 발생하며 공간적 이해를 방해하는 장애물로 작용하기 때문입니다. 여러 개의 가려진 객체에 대해 모델의 추론 능력을 테스트하기 위해, 우리는 새로운 과제인 '보이지 않는 영역을 통한 패턴의 무형식적 계수(CAPTURe)'를 도입했습니다. 이 과제는 모델이 장면의 일부를 가리는 물체(가림막) 뒤로 패턴이 어떻게 이어지는지를 추론하여 패턴으로 배열된 객체의 수를 세도록 요구합니다. CAPTURe는 시각적 패턴 인식과 추론을 모두 필요로 하므로, 가려진 패턴을 이해하고 공간적 이해 능력을 갖추고 있는지 비전-언어 모델(VLMs)을 평가하는 데 유용한 테스트베드 역할을 합니다. 또한 CAPTURe는 모델이 가려진 객체에 대해 추론하도록 요구함으로써, 모델이 누락된 정보를 채울 수 있는 세계 모델을 형성하는 능력을 테스트합니다. CAPTURe는 두 부분으로 구성됩니다: (1) 실제 객체의 패턴 이미지를 수동으로 필터링한 CAPTURe-real과 (2) 생성된 패턴 이미지를 사용한 통제된 진단 도구인 CAPTURe-synthetic입니다. 우리는 CAPTURe에서 네 가지 강력한 VLM(GPT-4o, Intern-VL2, Molmo, Qwen2-VL)을 평가한 결과, 모델들이 가려진 패턴과 가려지지 않은 패턴 모두에서 계수하는 데 어려움을 겪는 것을 발견했습니다. 특히, 모델들은 가림 현상이 있을 때 더 나쁜 성능을 보였는데, 이는 VLMs이 보이지 않는 공간적 관계를 추론하는 데에도 부족함이 있음을 시사합니다. 가장 강력한 VLM인 GPT-4o조차 가림 현상이 있을 때 계수하는 데 실패했습니다. 반면, 인간은 CAPTURe에서 매우 적은 오류를 보였습니다. 또한, 가려진 객체의 위치에 대한 보조 정보를 제공하면 성능이 향상되는 것을 발견했는데, 이는 모델의 오류가 가림 현상을 처리하지 못하는 것뿐만 아니라 이미지에서 계수하는 데 어려움을 겪는 데서도 비롯됨을 강조합니다.
지적재산권(IP)은 기술적 지식과 법적 지식을 통합하는 독특한 영역으로, 본질적으로 복잡하고 지식 집약적인 특성을 지닙니다. 대규모 언어 모델(LLM)이 계속 발전함에 따라, 이러한 모델들은 IP 관련 작업을 처리하는 데 있어서 더 효율적인 분석, 이해 및 콘텐츠 생성을 가능하게 하는 큰 잠재력을 보여주고 있습니다. 그러나 기존의 데이터셋과 벤치마크는 특허에만 초점을 맞추거나 IP 분야의 제한된 측면만을 다루며, 실제 시나리오와의 일치성이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 첫 번째 포괄적인 IP 작업 분류체계와 8가지 IP 메커니즘과 20가지 작업을 포함한 대규모 다국어 벤치마크인 IPBench를 소개합니다. 이 벤치마크는 실제 지적재산권 응용에서 LLM의 이해와 생성을 평가하기 위해 설계되었습니다. 우리는 일반 목적 모델부터 도메인 특화 모델까지 16개의 LLM을 벤치마크했으며, 가장 성능이 뛰어난 모델조차도 75.8%의 정확도만 달성하여 개선의 여지가 크다는 것을 발견했습니다. 특히, 오픈소스 IP 및 법률 지향 모델은 폐쇄형 일반 목적 모델에 뒤처지는 것으로 나타났습니다. 우리는 IPBench의 모든 데이터와 코드를 공개하며, 지적재산권 분야의 실제 도전 과제를 더 잘 반영하기 위해 추가적인 IP 관련 작업으로 지속적으로 업데이트할 예정입니다.
본 연구는 음악 프로덕션에서 보컬 이펙트 매칭을 위한 새로운 해석 가능한 모델인 DiffVox를 소개합니다. DiffVox는 "Differentiable Vocal Fx"의 약자로, 파라메트릭 이퀄라이제이션, 다이내믹 레인지 컨트롤, 딜레이, 리버브를 효율적인 미분 가능 구현과 통합하여 파라미터 추정을 위한 그래디언트 기반 최적화를 가능하게 합니다. 보컬 프리셋은 MedleyDB의 70개 트랙과 개인 컬렉션의 365개 트랙으로 구성된 두 데이터셋에서 검색되었습니다. 파라미터 상관관계 분석은 하이패스와 로우셸프 필터가 종종 함께 작용하여 저음대를 형성하는 등 이펙트와 파라미터 간의 강한 관계를 보여주며, 딜레이 시간은 딜레이된 신호의 강도와 상관관계가 있음을 나타냅니다. 주성분 분석은 McAdams의 음색 차원과의 연결을 보여주는데, 가장 중요한 성분은 지각된 공간감을 조절하는 반면, 두 번째 성분들은 스펙트럼 밝기에 영향을 미칩니다. 통계적 검증은 파라미터 분포의 비정규 분포 특성을 확인하며, 보컬 이펙트 공간의 복잡성을 강조합니다. 이러한 파라미터 분포에 대한 초기 발견들은 보컬 이펙트 모델링과 자동 믹싱에 대한 향후 연구의 기초를 마련합니다. 소스 코드와 데이터셋은 https://github.com/SonyResearch/diffvox에서 확인할 수 있습니다.