AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

OLMoTrace: 수조 개의 학습 토큰으로부터 언어 모델 출력의 근원 추적
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

ByJiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge

우리는 언어 모델의 출력을 실시간으로 수조 토큰 규모의 전체 학습 데이터에 추적할 수 있는 최초의 시스템인 OLMoTrace를 소개한다. OLMoTrace는 언어 모델 출력의 일부와 학습 텍스트 코퍼스 내 문서 간의 정확한 일치를 찾아 보여준다. Liu 등(2024)이 제안한 infini-gram의 확장 버전을 기반으로 구축된 이 시스템은 몇 초 내에 추적 결과를 반환한다. OLMoTrace는 사용자가 학습 데이터의 관점에서 언어 모델의 동작을 이해하는 데 도움을 줄 수 있다. 우리는 이를 통해 사실 확인, 환각(hallucination) 현상, 그리고 언어 모델의 창의성을 탐구하는 방법을 보여준다. OLMoTrace는 공개적으로 이용 가능하며 완전히 오픈소스로 제공된다.

DDT: 디커플드 디퓨전 트랜스포머
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

디퓨전 트랜스포머는 뛰어난 생성 품질을 보여주지만, 더 긴 학습 반복과 많은 추론 단계를 필요로 합니다. 각 디노이징 단계에서 디퓨전 트랜스포머는 노이즈가 있는 입력을 인코딩하여 저주파수 의미 구성요소를 추출한 후, 동일한 모듈을 사용하여 고주파수를 디코딩합니다. 이 방식은 본질적인 최적화 딜레마를 야기합니다: 저주파수 의미를 인코딩하려면 고주파수 구성요소를 줄여야 하기 때문에, 의미 인코딩과 고주파수 디코딩 사이에 긴장이 발생합니다. 이 문제를 해결하기 위해, 우리는 전용 조건 인코더를 통한 의미 추출과 전문화된 속도 디코더를 결합한 디커플드 디자인을 가진 새로운 \color{ddtD}디커플드 \color{ddtD}디퓨전 \color{ddtT}트랜스포머~(\color{ddtDDT})를 제안합니다. 우리의 실험은 모델 크기가 증가함에 따라 더 강력한 인코더가 성능 향상을 가져온다는 것을 보여줍니다. ImageNet 256x256에서, 우리의 DDT-XL/2는 {1.31 FID}라는 새로운 최첨단 성능을 달성했습니다(이전 디퓨전 트랜스포머 대비 거의 4배 빠른 학습 수렴). ImageNet 512x512에서, 우리의 DDT-XL/2는 1.28 FID라는 새로운 최첨단 성능을 달성했습니다. 또한, 디커플드 아키텍처는 인접한 디노이징 단계 간의 자체 조건 공유를 가능하게 함으로써 추론 속도를 향상시키는 유익한 부산물을 제공합니다. 성능 저하를 최소화하기 위해, 우리는 최적의 공유 전략을 식별하기 위한 새로운 통계적 동적 프로그래밍 접근 방식을 제안합니다.

결여된 전제가 과도한 사고를 악화시킨다: 추론 모델이 비판적 사고 능력을 상실하고 있는가?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

우리는 강화 학습 또는 지도 학습으로 훈련된 추론 대형 언어 모델(LLM)이 전제가 누락된 잘못된 질문(MiP)에 대해 응답 길이가 급격히 증가하며, 결국 불필요하고 비효율적인 사고를 보인다는 사실을 발견했습니다. 이 새롭게 도입된 시나리오는 일반적인 과도 사고 문제를 크게 악화시키며, 이를 MiP-과도 사고(MiP-Overthinking)로 명명했습니다. 이러한 실패는 '테스트 시 스케일링 법칙'에 위배되지만, 우리가 MiP로 구성한 여러 데이터셋에서 광범위하게 관찰되었으며, 이는 값싼 과도 사고와 비판적 사고의 부재의 해악을 보여줍니다. 놀랍게도, 추론을 위해 특별히 훈련되지 않은 LLM은 MiP 시나리오에서 훨씬 더 나은 성능을 보이며, 잘못된 질문을 빠르게 식별하는 훨씬 짧은 응답을 생성합니다. 이는 현재의 추론 LLM 훈련 방법이 효율적인 사고를 충분히 장려하지 않아 사고 패턴의 남용으로 이어지는 중요한 결함을 암시합니다. 이러한 실패의 원인을 더 깊이 파악하기 위해, 우리는 다양한 유형의 LLM에 대해 추론 길이, 과도 사고 패턴, 그리고 비판적 사고의 위치에 대한 세밀한 분석을 수행했습니다. 또한, 우리의 확장된 제거 연구는 과도 사고가 추론 모델의 응답을 통해 전염될 수 있음을 보여줍니다. 이러한 결과는 과도 사고에 대한 이해를 높이고, 이 문제를 완화하기 위한 새로운 통찰을 제공합니다.

FantasyTalking: 일관된 모션 합성을 통한 사실적 초상화 대화 생성
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

단일 정적 초상화로부터 사실적이고 애니메이션 가능한 아바타를 생성하는 것은 여전히 어려운 과제입니다. 기존 접근법들은 미세한 표정 변화, 관련된 전신 동작, 그리고 동적인 배경을 포착하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 사전 훈련된 비디오 확산 트랜스포머 모델을 활용하여 고화질이고 일관된 말하는 초상화를 생성하며, 동적 움직임을 제어할 수 있는 새로운 프레임워크를 제안합니다. 우리 작업의 핵심은 이중 단계의 오디오-비주얼 정렬 전략입니다. 첫 번째 단계에서는 클립 수준의 훈련 방식을 사용하여 참조 초상화, 주변 객체, 배경을 포함한 전체 장면에서 오디오 기반 동역학을 정렬함으로써 일관된 전역적 움직임을 확립합니다. 두 번째 단계에서는 입술 추적 마스크를 사용하여 프레임 수준에서 입술 움직임을 세밀하게 조정하여 오디오 신호와의 정확한 동기화를 보장합니다. 움직임 유연성을 저해하지 않으면서도 신원을 보존하기 위해, 일반적으로 사용되는 참조 네트워크를 얼굴 중심의 교차 주의 모듈로 대체하여 비디오 전반에 걸쳐 얼굴 일관성을 효과적으로 유지합니다. 또한, 우리는 표현 및 신체 움직임 강도를 명시적으로 제어하는 모션 강도 조절 모듈을 통합하여 단순한 입술 움직임을 넘어 초상화 움직임의 제어 가능한 조작을 가능하게 합니다. 광범위한 실험 결과는 우리가 제안한 접근법이 더 높은 품질과 더 나은 사실감, 일관성, 모션 강도, 신원 보존을 달성함을 보여줍니다. 우리의 프로젝트 페이지: https://fantasy-amap.github.io/fantasy-talking/.

조건부 이미지 생성을 평가하기 위한 통합 에이전트 프레임워크
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

조건부 이미지 생성은 콘텐츠를 개인화할 수 있는 능력으로 인해 상당한 주목을 받고 있습니다. 그러나 이 분야에서는 작업에 구애받지 않고, 신뢰할 수 있으며, 설명 가능한 평가 지표를 개발하는 데 어려움을 겪고 있습니다. 본 논문은 조건부 이미지 생성 작업을 포괄적으로 평가하기 위한 통합 에이전트 프레임워크인 CIGEval을 소개합니다. CIGEval은 대규모 멀티모달 모델(LMMs)을 핵심으로 활용하며, 다기능 도구 상자를 통합하고 세분화된 평가 프레임워크를 구축합니다. 또한, 평가 궤적을 합성하여 더 작은 LMMs가 적절한 도구를 자율적으로 선택하고 도구 출력을 기반으로 미묘한 분석을 수행할 수 있도록 합니다. 7가지 주요 조건부 이미지 생성 작업에 대한 실험 결과, CIGEval(GPT-4o 버전)은 인간 평가와 0.4625의 높은 상관 관계를 달성하여 주석자 간 상관 관계인 0.47에 근접했습니다. 더욱이, 7B 오픈소스 LMMs로 구현된 CIGEval은 단 2.3K의 훈련 궤적만을 사용하여 이전 GPT-4o 기반의 최신 방법을 능가했습니다. GPT-4o 이미지 생성에 대한 사례 연구는 CIGEval이 주체 일관성 및 제어 지침 준수와 관련된 미묘한 문제를 식별할 수 있는 능력을 강조하며, 인간 수준의 신뢰도로 이미지 생성 작업의 평가를 자동화할 수 있는 큰 잠재력을 보여줍니다.

GenDoP: 자동회귀적 카메라 궤적 생성 기술로서의 촬영 감독
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

카메라 궤적 설계는 비디오 제작에서 감독의 의도를 전달하고 시각적 스토리텔링을 강화하는 기본 도구로서 중요한 역할을 합니다. 촬영 감독들은 표현력 있고 의도적인 프레이밍을 달성하기 위해 카메라 움직임을 세심하게 설계합니다. 그러나 기존의 카메라 궤적 생성 방법은 여전히 제한적입니다: 전통적인 접근 방식은 기하학적 최적화나 수작업 절차적 시스템에 의존하는 반면, 최근의 학습 기반 방법은 구조적 편향을 물려받거나 텍스트 정렬이 부족하여 창의적인 합성을 제한합니다. 본 연구에서는 촬영 감독들의 전문성을 반영한 자동회귀 모델을 도입하여 예술적이고 표현력 있는 카메라 궤적을 생성합니다. 먼저, 29K개의 실제 촬영 장면과 자유로운 카메라 궤적, 깊이 맵, 그리고 특정 움직임, 장면과의 상호작용, 감독의 의도에 대한 상세한 설명을 포함한 대규모 다중 모달 데이터셋인 DataDoP를 소개합니다. 이 포괄적이고 다양한 데이터베이스를 활용하여, 텍스트 지침과 RGBD 입력을 기반으로 고품질의 상황 인식 카메라 움직임 생성을 위한 자동회귀 디코더 전용 트랜스포머인 GenDoP를 추가로 학습시킵니다. 광범위한 실험을 통해 GenDoP가 기존 방법에 비해 더 나은 제어성, 더 세밀한 궤적 조정, 그리고 더 높은 움직임 안정성을 제공함을 입증합니다. 우리는 이 접근 방식이 학습 기반 촬영 기술의 새로운 기준을 세우고, 카메라 제어와 영화 제작의 미래 발전을 위한 길을 열어줄 것이라고 믿습니다. 프로젝트 웹사이트: https://kszpxxzmc.github.io/GenDoP/.

언어 모델 추론의 진보에 대한 냉철한 평가: 재현성의 함정과 해결 방안
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

추론 능력은 언어 모델(LMs)의 다음 주요 프론티어로 부상하며, 학계와 산업계 연구실에서 빠른 발전을 이루고 있습니다. 그러나 이러한 진전은 종종 방법론적 엄격성을 앞지르며, 많은 평가가 투명성, 견고성 또는 통계적 근거가 부족한 벤치마킹 관행에 의존하고 있습니다. 본 연구에서는 포괄적인 실증 연구를 수행하여 현재의 수학적 추론 벤치마크가 디코딩 매개변수, 랜덤 시드, 프롬프트 포맷팅, 심지어 하드웨어 및 소프트웨어 프레임워크 구성과 같은 미묘한 구현 선택에 매우 민감하다는 사실을 발견했습니다. 최근 연구에서 보고된 성능 향상은 종종 불명확한 비교나 보고되지 않은 변동 요인에 의존하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 명확히 정의된 모범 사례와 보고 기준을 포함한 표준화된 평가 프레임워크를 제안합니다. 이 프레임워크를 사용하여 최근 방법들을 재평가한 결과, 강화 학습(RL) 접근법은 이전 주장에 비해 훨씬 미미한 개선만을 보이며, 특히 AIME24와 같은 소규모 벤치마크에서 과적합되기 쉬운 것으로 나타났습니다. 반면, 지도 미세 조정(SFT) 방법은 일관되게 더 강력한 일반화 능력을 보였습니다. 재현성을 촉진하기 위해, 우리는 모든 코드, 프롬프트 및 모델 출력을 공개하여 추론 벤치마크에 대한 더 엄격한 기반을 마련함으로써 향후 연구를 위한 더 견고한 토대를 구축했습니다.

OmniCaptioner: 모든 것을 포괄하는 단일 캡셔너
OmniCaptioner: One Captioner to Rule Them All

Apr 9

ByYiting Lu, Jiakang Yuan, Zhen Li, Shitian Zhao, Qi Qin, Xinyue Li, Le Zhuo, Licheng Wen, Dongyang Liu, Yuewen Cao, Xiangchao Yan, Xin Li, Botian Shi, Tao Chen, Zhibo Chen, Lei Bai, Bo Zhang, Peng Gao

우리는 다양한 시각적 도메인에 걸쳐 세밀한 텍스트 설명을 생성하기 위한 다목적 시각 캡셔닝 프레임워크인 OmniCaptioner를 제안합니다. 특정 이미지 유형(예: 자연 이미지 또는 기하학적 시각 자료)에 제한된 기존 방법과 달리, 우리의 프레임워크는 자연 이미지, 시각적 텍스트(예: 포스터, UI, 교과서), 구조화된 시각 자료(예: 문서, 표, 차트)에 대한 통합된 캡셔닝 솔루션을 제공합니다. 저수준 픽셀 정보를 의미론적으로 풍부한 텍스트 표현으로 변환함으로써, 우리의 프레임워크는 시각적 모달리티와 텍스트 모달리티 간의 간극을 메웁니다. 우리의 결과는 세 가지 주요 장점을 강조합니다: (i) LLM을 통한 향상된 시각적 추론, 여기서 시각적 모달리티의 장문 캡션은 특히 DeepSeek-R1 시리즈와 같은 LLM이 다중모달 시나리오에서 효과적으로 추론할 수 있도록 돕습니다; (ii) 개선된 이미지 생성, 여기서 상세한 캡션은 텍스트-이미지 생성 및 이미지 변환과 같은 작업을 개선합니다; (iii) 효율적인 지도 미세 조정(SFT), 이는 더 적은 데이터로 더 빠른 수렴을 가능하게 합니다. 우리는 OmniCaptioner의 다용도성과 적응성이 언어와 시각적 모달리티 간의 간극을 메우는 새로운 관점을 제공할 수 있다고 믿습니다.

자기 주도 언어 모델
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

테스트 시간 추론은 언어 모델이 복잡한 작업을 처리할 수 있게 해주지만, 자연어로 검색하거나 계획을 세우는 과정은 느리고 비용이 많이 들며 오류가 발생하기 쉽습니다. 그러나 언어 모델이 문제를 해결하기 위해 필요한 정확한 추론 단계를 모방하는 데 어려움을 겪더라도, 종종 문제의 추상적 구조를 설명하는 데는 뛰어난 능력을 보입니다. 이는 해결책을 검증하는 방법과 이를 탐색하는 방법 모두를 포함합니다. 본 논문은 "자기 주도(self-steering)" 언어 모델을 위한 DisCIPL 방법을 소개합니다. 이 방법에서는 Planner 모델이 작업 특화 추론 프로그램을 생성하고, 이를 Follower 모델 집단이 실행합니다. 우리의 접근 방식은 언어 모델에게 재귀적 탐색 절차를 작성하여 언어 모델 추론을 안내할 수 있는 능력을 부여함으로써, 검증 가능하고 효율적인 새로운 형태의 추론을 가능하게 합니다. 작은 규모의 Follower 모델(예: Llama-3.2-1B)을 사용하여 DisCIPL을 구현했을 때, 도전적인 제약 생성 작업에서 GPT-4o 및 o1과 같은 훨씬 더 큰 모델과 동등한 성능을 보이거나 때로는 이를 능가하는 결과를 보였습니다. 계획과 실행을 분리함으로써, 우리의 연구는 고도로 병렬화된 몬테카를로 추론 전략의 설계 공간을 열어, 표준 best-of-N 샘플링을 능가하고, 파인튜닝이 필요 없으며, 기존 언어 모델에 의해 자동으로 구현될 수 있는 새로운 가능성을 제시합니다.

비디오 속 모든 것 캡션화: 시공간적 멀티모달 프롬프팅을 통한 세밀한 객체 중심 캡션 생성
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

ByYunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu

우리는 사용자가 선택한 객체에 대한 시간 경과에 따른 세부적인 설명을 가능하게 하는 훈련이 필요 없는 프레임워크인 CAT-V(Caption AnyThing in Video)를 소개한다. CAT-V는 세 가지 핵심 구성 요소를 통합한다: SAMURAI 기반의 Segmenter를 통해 프레임 간 정확한 객체 분할을 수행하고, TRACE-Uni 기반의 Temporal Analyzer로 정확한 이벤트 경계 탐지 및 시간적 분석을 수행하며, InternVL-2.5 기반의 Captioner를 사용하여 객체 중심의 세부 설명을 생성한다. 시공간적 시각적 프롬프트와 사고의 연쇄적 추론을 통해, 우리의 프레임워크는 추가 훈련 데이터 없이도 객체의 속성, 행동, 상태, 상호작용 및 환경적 맥락에 대한 시간적 인식이 포함된 세부 설명을 생성한다. CAT-V는 다양한 시각적 프롬프트(점, 경계 상자, 불규칙 영역)를 통해 유연한 사용자 상호작용을 지원하며, 서로 다른 시간 구간에서 객체 상태와 상호작용을 추적함으로써 시간적 민감도를 유지한다. 우리의 접근 방식은 기존 비디오 캡셔닝 방법의 한계를 해결하는데, 이는 지나치게 추상적인 설명을 생성하거나 객체 수준의 정밀도가 부족한 문제를 해결하며, 시간적 일관성과 공간적 정확성을 유지하면서 세밀하고 객체 특화된 설명을 가능하게 한다. 이 프로젝트의 GitHub 저장소는 https://github.com/yunlong10/CAT-V에서 확인할 수 있다.

VideoChat-R1: 강화 학습 기반 미세 조정을 통한 시공간 인지 능력 향상
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

최근 강화 학습의 발전은 다중 모드 대형 언어 모델(MLLM)의 추론 능력을 크게 향상시켰습니다. 그룹 상대 정책 최적화(GRPO) 및 규칙 기반 보상 메커니즘과 같은 접근 방식이 텍스트 및 이미지 영역에서 유망한 결과를 보여주고 있지만, 비디오 이해에 대한 적용은 여전히 제한적입니다. 본 논문은 비디오 MLLM을 위한 GRPO 기반 강화 미세 조정(RFT)의 체계적인 탐구를 제시하며, 일반적인 능력을 유지하면서 시공간 인식을 향상시키는 것을 목표로 합니다. 우리의 실험은 RFT가 특정 작업 개선에 매우 데이터 효율적임을 보여줍니다. 제한된 샘플로 시공간 인식 목표에 대한 다중 작업 RFT를 통해, 우리는 채팅 능력을 희생하지 않으면서 시공간 인식 작업에서 최첨단 성능을 달성하고, 새로운 시공간 추론 능력을 보여주는 강력한 비디오 MLLM인 VideoChat-R1을 개발했습니다. Qwen2.5-VL-7B와 비교했을 때, VideoChat-R1은 시간적 근거(+31.8) 및 객체 추적(+31.2)과 같은 작업에서 성능을 몇 배나 향상시켰습니다. 또한, VideoMME(+0.9), MVBench(+1.0), Perception Test(+0.9)와 같은 일반 QA 벤치마크에서도 크게 개선되었습니다. 우리의 연구 결과는 비디오 MLLM의 특화된 작업 개선을 위한 RFT의 잠재력을 강조합니다. 우리의 작업이 비디오 MLLM에 대한 미래의 강화 학습 연구에 유용한 통찰을 제공하기를 바랍니다.

WildGS-SLAM: 동적 환경에서의 단안 Gaussian Splatting SLAM
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

우리는 불확실성 인식 기하학적 매핑을 활용하여 동적 환경을 처리하도록 설계된 강력하고 효율적인 단안 RGB SLAM 시스템인 WildGS-SLAM을 제안합니다. 정적 장면을 가정하는 기존 SLAM 시스템과 달리, 우리의 접근 방식은 움직이는 물체가 있는 상황에서 추적, 매핑 및 렌더링 성능을 향상시키기 위해 깊이와 불확실성 정보를 통합합니다. 얕은 다층 퍼셉트론과 DINOv2 특징으로 예측된 불확실성 맵을 도입하여 추적 및 매핑 과정에서 동적 객체 제거를 안내합니다. 이 불확실성 맵은 밀도 번들 조정과 가우시안 맵 최적화를 강화하여 재구성 정확도를 개선합니다. 우리의 시스템은 여러 데이터셋에서 평가되었으며, 아티팩트 없는 뷰 합성 능력을 입증합니다. 결과는 WildGS-SLAM이 최신 방법들에 비해 동적 환경에서 우수한 성능을 보여줍니다.

DiTaiListener: 확산 모델 기반의 제어 가능한 고품질 청자 비디오 생성
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

장시간 상호작용에서 자연스럽고 섬세한 청자 동작을 생성하는 것은 여전히 해결되지 않은 문제로 남아 있습니다. 기존 방법들은 주로 저차원 모션 코드를 활용해 얼굴 동작을 생성한 후 사실적인 렌더링을 적용하는 방식에 의존함으로써 시각적 충실도와 표현적 풍부성 모두에 제한이 있었습니다. 이러한 문제를 해결하기 위해, 우리는 다중모달 조건을 가진 비디오 확산 모델로 구동되는 DiTaiListener를 소개합니다. 우리의 접근 방식은 먼저 DiTaiListener-Gen을 통해 화자의 음성과 얼굴 동작에 조건화된 짧은 청자 반응 세그먼트를 생성합니다. 그런 다음 DiTaiListener-Edit을 통해 전환 프레임을 정제하여 매끄러운 전환을 가능하게 합니다. 구체적으로, DiTaiListener-Gen은 화자의 청각적 및 시각적 단서를 처리하기 위해 Causal Temporal Multimodal Adapter(CTM-Adapter)를 도입하여 Diffusion Transformer(DiT)를 청자 머리 초상화 생성 작업에 적용합니다. CTM-Adapter는 화자의 입력을 시간적으로 일관된 청자 반응을 보장하기 위해 비디오 생성 과정에 인과적 방식으로 통합합니다. 장편 비디오 생성을 위해, 우리는 전환 정제 비디오-투-비디오 확산 모델인 DiTaiListener-Edit을 도입했습니다. 이 모델은 DiTaiListener-Gen에 의해 생성된 짧은 비디오 세그먼트를 병합할 때 얼굴 표정과 이미지 품질의 시간적 일관성을 보장하면서 비디오 세그먼트를 매끄럽고 연속적인 비디오로 융합합니다. 정량적으로, DiTaiListener는 벤치마크 데이터셋에서 사실성(RealTalk에서 FID 기준 +73.8%)과 동작 표현(VICO에서 FD 메트릭 기준 +6.1%) 모두에서 최첨단 성능을 달성했습니다. 사용자 연구는 DiTaiListener의 우수한 성능을 확인하며, 피드백, 다양성, 부드러움 측면에서 경쟁 모델들을 상당한 차이로 앞서는 것으로 나타났습니다.

마스크된 장면 모델링: 3D 장면 이해에서 지도 학습과 자기 지도 학습 간의 격차 좁히기
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

자기 지도 학습(self-supervised learning)은 대규모의 주석이 없는 데이터셋으로 훈련된 모델이 레이블을 사용해 훈련된 모델과 유사한 성능을 보이는 다목적의 즉시 사용 가능한 특징을 제공함으로써 2D 컴퓨터 비전을 혁신적으로 변화시켰습니다. 그러나 3D 장면 이해에서는 자기 지도 학습 방법이 일반적으로 특정 작업에 대한 미세 조정(fine-tuning)을 위한 가중치 초기화 단계로만 사용되며, 이는 일반적인 특징 추출을 위한 유용성을 제한합니다. 본 논문은 이러한 단점을 해결하기 위해 3D 장면 이해를 위한 자기 지도 학습 특징의 품질을 평가하기 위해 특별히 설계된 강력한 평가 프로토콜을 제안합니다. 우리의 프로토콜은 계층적 모델의 다중 해상도 특징 샘플링을 사용하여 모델의 의미론적 능력을 포착하는 풍부한 포인트 수준 표현을 생성하며, 따라서 선형 탐사(linear probing) 및 최근접 이웃(nearest-neighbor) 방법으로 평가하기에 적합합니다. 더 나아가, 우리는 선형 탐사 설정에서 즉시 사용 가능한 특징만을 사용할 때 지도 학습 모델과 유사한 성능을 보이는 첫 번째 자기 지도 학습 모델을 소개합니다. 특히, 우리의 모델은 마스크된 패치의 깊은 특징을 하향식(bottom-up) 방식으로 재구성하는 마스크된 장면 모델링(Masked Scene Modeling) 목표를 기반으로 한 새로운 자기 지도 학습 접근법을 통해 3D에서 기본적으로 훈련되며, 이는 계층적 3D 모델에 특화되어 있습니다. 우리의 실험은 우리의 방법이 지도 학습 모델과 경쟁력 있는 성능을 달성할 뿐만 아니라 기존의 자기 지도 학습 접근법을 큰 차이로 능가함을 보여줍니다. 모델과 훈련 코드는 우리의 Github 저장소(https://github.com/phermosilla/msm)에서 확인할 수 있습니다.

RobustDexGrasp: 단일 시각 인식을 통한 일반 물체의 강건한 정밀 그리핑
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

단일 시각 인식으로 다양한 물체를 견고하게 파악하는 것은 민첩한 로봇에게 필수적인 능력입니다. 기존 연구들은 주로 완전히 관찰 가능한 물체, 전문가 시연, 또는 정적 파악 자세에 의존하여 일반화 능력과 외부 방해에 대한 적응성이 제한되었습니다. 본 논문에서는 단일 시각 인식으로 보지 못한 다양한 물체에 대해 제로샷 동적 민첩 파악을 가능하게 하면서 동시에 외부 방해에 적응적인 동작을 수행하는 강화 학습 기반 프레임워크를 제시합니다. 우리는 상호작용과 관련된 국부적 형태를 강조하는 손 중심 물체 표현을 활용하여 형태 변이와 불확실성에 대한 견고성을 높였습니다. 제한된 관찰 하에서 방해에 효과적으로 적응하기 위해, 우리는 혼합 커리큘럼 학습 전략을 제안합니다. 이 전략은 먼저 특권적 실시간 시각-촉각 피드백으로 훈련된 정책을 모방 학습을 통해 추출하고, 점차적으로 관찰 노이즈와 동적 무작위화로 인한 방해 하에서 적응적 동작을 학습하기 위해 강화 학습으로 전환합니다. 우리의 실험은 무작위 자세로 보지 못한 물체를 파악하는 데 강력한 일반화 능력을 보여주며, 247,786개의 시뮬레이션 물체에서 97.0%, 512개의 실제 물체에서 94.6%의 성공률을 달성했습니다. 또한, 관찰되지 않은 물체 이동과 외부 힘을 포함한 다양한 방해에 대한 우리 방법의 견고성을 정량적 및 정성적 평가를 통해 입증했습니다. 프로젝트 페이지: https://zdchan.github.io/Robust_DexGrasp/

객체 중심 학습은 이제 끝난 것인가?
Are We Done with Object-Centric Learning?

Apr 9

ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

객체 중심 학습(Object-centric learning, OCL)은 장면 내 다른 객체나 배경 단서와 분리된 객체만을 인코딩하는 표현을 학습하는 것을 목표로 합니다. 이 접근법은 분포 외 일반화(out-of-distribution, OOD), 샘플 효율적 구성, 구조화된 환경 모델링 등 다양한 목적을 뒷받침합니다. 대부분의 연구는 표현 공간에서 객체를 개별 슬롯으로 분리하는 비지도 메커니즘 개발에 초점을 맞추어 왔으며, 이는 비지도 객체 탐지를 통해 평가됩니다. 그러나 최근의 샘플 효율적 분할 모델을 통해 픽셀 공간에서 객체를 분리하고 독립적으로 인코딩할 수 있게 되었습니다. 이는 OOD 객체 탐지 벤치마크에서 뛰어난 제로샷 성능을 달성하며, 기반 모델(foundation models)로 확장 가능하고, 변동 가능한 슬롯 수를 즉시 처리할 수 있습니다. 따라서 OCL 방법의 목표인 객체 중심 표현을 얻는 것은 크게 달성되었습니다. 이러한 진전에도 불구하고, 여전히 중요한 질문이 남아 있습니다: 장면 내 객체를 분리하는 능력이 OOD 일반화와 같은 더 넓은 OCL 목표에 어떻게 기여하는가? 우리는 OCL의 관점에서 잘못된 배경 단서로 인한 OOD 일반화 문제를 조사함으로써 이를 해결합니다. 우리는 Object-Centric Classification with Applied Masks (OCCAM)라는 새로운, 학습이 필요 없는 프로브를 제안하며, 개별 객체의 분할 기반 인코딩이 슬롯 기반 OCL 방법을 크게 능가함을 보여줍니다. 그러나 실제 응용에서의 과제는 여전히 남아 있습니다. 우리는 OCL 커뮤니티가 확장 가능한 객체 중심 표현을 사용할 수 있도록 도구 상자를 제공하며, 인간 인지에서의 객체 인식 이해와 같은 실용적 응용 및 근본적 질문에 초점을 맞춥니다. 우리의 코드는 https://github.com/AlexanderRubinstein/OCCAM에서 확인할 수 있습니다.

역사적 언어 변화 탐색을 위한 언어 모델 사전 학습
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7

ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner

대규모 언어 모델(LLM)은 과학적 발견을 위한 도구로서의 잠재력을 보여주고 있습니다. 이는 역사 언어학 및 문학 연구와 같은 인문학 분야에서의 활용에 대한 관심을 증가시키고 있습니다. 이러한 분야들은 종종 장르나 더 엄격하게는 시대 구분과 같은 기준을 바탕으로 논증을 구성합니다. 특정 도메인으로 추론을 제한하기 위해 미세 조정(fine-tuning)이나 모델 편집(model editing)과 같은 노력이 이루어져 왔지만, 우리는 도메인 제한 사전 학습(domain-restricted pretraining)만이 유일한 진정한 보장이라고 주장합니다. 이는 일반적으로 데이터와 컴퓨팅 자원이 많이 소요되는 작업입니다. 우리는 효율적인 사전 학습 기법이 수동으로 쉽게 검사하기에는 너무 크지만 "전형적인" LLM 접근 방식에는 너무 작은 코퍼스에 대해 유용한 모델을 생성할 수 있음을 보여줍니다. 우리는 시간적으로 분할된 5개의 1천만 단어 조각으로 구성된 데이터셋을 얻기 위해 새로운 날짜 속성 파이프라인을 사용합니다. 이 코퍼스 세그먼트에 대해 두 개의 5모델 배터리를 학습시킵니다: 효율적인 사전 학습과 Llama3-8B 파라미터를 효율적으로 미세 조정한 모델입니다. 우리는 사전 학습된 모델이 미세 조정된 기준선보다 학습 속도가 빠르며, 코퍼스의 역사적 구분을 더 잘 준수한다는 것을 발견했습니다. 역사적 포괄성보다 속도와 정밀도를 강조함으로써 우리의 목표 분야에서 가설 발견 및 검증을 위한 여러 새로운 접근 방식을 가능하게 합니다. 통시 언어학(diachronic linguistics)을 테스트베드로 삼아, 우리의 방법이 대규모 어휘 변화, 비어휘적(문법적 및 형태론적) 변화, 단어 의미 도입/사용 중단과 같은 다양한 현상을 탐지할 수 있음을 보여줍니다. 우리는 최소한의 적응만으로도 다른 목표 분야로 우리의 접근 방식을 확장할 수 있는 즉시 사용 가능한 파이프라인을 제공합니다.

RuOpinionNE-2024: 러시아 뉴스 텍스트에서의 의견 튜플 추출
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9

ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko

본 논문에서는 러시아 뉴스 텍스트에서 구조화된 의견을 추출하는 Dialogue Evaluation 공유 과제를 소개합니다. 이 대회의 과제는 주어진 문장에 대해 의견 튜플을 추출하는 것으로, 튜플은 감정 주체, 그 대상, 표현 및 주체에서 대상으로의 감정으로 구성됩니다. 총 100건 이상의 제출이 접수되었으며, 참가자들은 주로 제로샷, 퓨샷 및 미세조정 형식의 대형 언어 모델을 실험했습니다. 테스트 세트에서 가장 좋은 결과는 대형 언어 모델의 미세조정을 통해 얻어졌습니다. 또한 1샷 및 10샷 설정에서 30개의 프롬프트와 30억에서 320억 개의 파라미터를 가진 11개의 오픈소스 언어 모델을 비교하여 최적의 모델과 프롬프트를 찾았습니다.

적응형 가중치 거부 샘플링을 통한 언어 모델의 빠른 제어 생성
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira

어떤 제약 조건 하에서 언어 모델을 통해 생성하는 주요 접근 방식은 지역적 제약 디코딩(LCD)으로, 각 시간 단계에서 제약 조건을 위반하지 않는 토큰을 점진적으로 샘플링하는 방법입니다. 일반적으로 이는 토큰 마스킹을 통해 이루어지며, 어휘 집합을 순회하면서 조건에 맞지 않는 토큰을 제외합니다. 이 접근 방식에는 두 가지 중요한 문제가 있습니다. (i) 모든 토큰에 대해 제약 조건을 평가하는 것은 매우 비용이 많이 들 수 있습니다. 언어 모델의 어휘 집합은 종종 100,000개를 초과하기 때문입니다. (ii) LCD는 전역적인 문자열 분포를 왜곡시킬 수 있으며, 지역 정보만을 기반으로 토큰을 샘플링하기 때문에 막다른 경로로 이어질 가능성이 있습니다. 본 연구에서는 이러한 두 문제를 해결하는 새로운 알고리즘을 소개합니다. 첫째, 생성 과정의 각 단계에서 전체 어휘 집합에 대해 제약 조건을 평가하는 것을 피하기 위해, 일반적으로 훨씬 적은 수의 제약 평가만 필요한 적응적 거부 샘플링 알고리즘을 제안합니다. 둘째, 이 알고리즘을 확장하여 매우 적은 추가 비용으로 낮은 분산을 가진 편향되지 않은 중요도 가중치 추정치를 생성할 수 있음을 보여줍니다. 이 추정치는 이전에 제안된 순차적 몬테카를로 알고리즘 내에서 지역적 제약 적용의 근시안적 행동을 보정하는 데 안전하게 사용될 수 있습니다. 텍스트-to-SQL, 분자 합성, 목표 추론, 패턴 매칭, JSON 도메인 등에서의 광범위한 실험적 평가를 통해, 우리의 접근 방식이 최신 베이스라인보다 우수하며, 더 넓은 범주의 제약 조건을 지원하고 런타임과 성능을 모두 개선함을 보여줍니다. 추가적인 이론적 및 실험적 분석은 우리 방법의 런타임 효율성이 계산의 동적 사용에 의해 주도되며, 제약이 없는 언어 모델과 제약이 있는 언어 모델 간의 발산에 따라 확장됨을 보여줍니다. 결과적으로, 더 나은 모델일수록 런타임 개선 효과가 더 큽니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

OLMoTrace: 수조 개의 학습 토큰으로부터 언어 모델 출력의 근원 추적
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

DDT: 디커플드 디퓨전 트랜스포머
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

결여된 전제가 과도한 사고를 악화시킨다: 추론 모델이 비판적 사고 능력을 상실하고 있는가?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

FantasyTalking: 일관된 모션 합성을 통한 사실적 초상화 대화 생성
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

조건부 이미지 생성을 평가하기 위한 통합 에이전트 프레임워크
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

GenDoP: 자동회귀적 카메라 궤적 생성 기술로서의 촬영 감독
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

언어 모델 추론의 진보에 대한 냉철한 평가: 재현성의 함정과 해결 방안
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

OmniCaptioner: 모든 것을 포괄하는 단일 캡셔너
OmniCaptioner: One Captioner to Rule Them All

Apr 9

자기 주도 언어 모델
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

비디오 속 모든 것 캡션화: 시공간적 멀티모달 프롬프팅을 통한 세밀한 객체 중심 캡션 생성
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

VideoChat-R1: 강화 학습 기반 미세 조정을 통한 시공간 인지 능력 향상
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

WildGS-SLAM: 동적 환경에서의 단안 Gaussian Splatting SLAM
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

DiTaiListener: 확산 모델 기반의 제어 가능한 고품질 청자 비디오 생성
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

마스크된 장면 모델링: 3D 장면 이해에서 지도 학습과 자기 지도 학습 간의 격차 좁히기
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

RobustDexGrasp: 단일 시각 인식을 통한 일반 물체의 강건한 정밀 그리핑
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

적응형 가중치 거부 샘플링을 통한 언어 모델의 빠른 제어 생성
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira