번역이 포함된 일일 선별된 AI 연구 논문
최근의 발전은 텍스트-이미지(T2I) 생성 향상에 있어 GRPO 기반 강화 학습 방법과 벤치마킹의 중요성을 강조합니다. 그러나 현재 생성된 이미지에 점수를 매기기 위해 점수 기반 보상 모델(RM)을 사용하는 방법은 보상 해킹에 취약합니다. 우리는 이러한 문제가 이미지 간의 미미한 점수 차이가 정규화 후 과장되어, 모델이 사소한 이득을 위해 과도하게 최적화되도록 유도하면서 결국 이미지 생성 과정을 불안정하게 만드는 가짜 이점을 생성할 때 발생한다는 것을 밝혔습니다. 이를 해결하기 위해, 우리는 점수 최대화에서 선호도 맞춤으로 최적화 목표를 전환하여 더 안정적인 학습을 보장하는 쌍별 선호도 기반 GRPO 방법인 Pref-GRPO를 제안합니다. Pref-GRPO에서는 각 그룹 내에서 이미지를 쌍별로 비교하고 선호도 RM을 사용하여 승률을 보상 신호로 사용합니다. 광범위한 실험을 통해 Pref-GRPO가 미묘한 이미지 품질 차이를 구별하고 더 안정적인 이점을 제공하며 보상 해킹을 완화한다는 것을 입증했습니다. 또한, 기존의 T2I 벤치마크는 거친 평가 기준으로 인해 포괄적인 모델 평가를 방해합니다. 이를 해결하기 위해, 우리는 5개의 주요 주제와 20개의 하위 주제로 구성된 600개의 프롬프트를 포함하는 통합 T2I 벤치마크인 UniGenBench을 소개합니다. 이 벤치마크는 10개의 주요 기준과 27개의 하위 기준을 통해 의미적 일관성을 평가하며, 벤치마크 구성과 평가를 위해 MLLM을 활용합니다. 우리의 벤치마크는 오픈소스와 클로즈드소스 T2I 모델의 강점과 약점을 밝히고 Pref-GRPO의 효과를 검증합니다.
우리는 최첨단 수준의 성능을 달성하기 위해 에이전트 강화 학습(agentic reinforcement learning)으로 훈련된 14B 규모의 수학 추론 모델인 rStar2-Agent를 소개한다. 이 모델은 기존의 긴 사고 연쇄(CoT)를 넘어서, Python 코딩 도구를 사용하기 전에 신중하게 생각하고 코드 실행 피드백을 반영하여 복잡한 문제 해결 과정에서 중간 단계를 자율적으로 탐색, 검증 및 개선하는 고급 인지 행동을 보여준다. 이러한 능력은 대규모에서 에이전트 강화 학습을 효과적으로 만드는 세 가지 핵심 혁신을 통해 가능해졌다: (i) 높은 처리량 실행을 지원하고 롤아웃 비용을 줄이는 신뢰할 수 있는 Python 코드 환경을 갖춘 효율적인 강화 학습 인프라로, 제한된 GPU 자원(64개의 MI300X GPU)에서도 훈련이 가능하다; (ii) 코딩 도구에서 발생하는 환경 노이즈를 해결하기 위해 Resample-on-Correct 롤아웃 전략을 적용한 GRPO-RoC 알고리즘으로, 코드 환경에서 모델이 더 효과적으로 추론할 수 있도록 한다; (iii) 비추론 지도 학습(SFT)으로 시작하여 다단계 강화 학습을 거치는 효율적인 에이전트 훈련 레시피로, 최소의 계산 비용으로 고급 인지 능력을 얻을 수 있다. 이를 통해 rStar2-Agent는 사전 훈련된 14B 모델을 단 510번의 강화 학습 단계와 일주일 만에 최첨단 수준으로 끌어올렸으며, AIME24에서 80.6%, AIME25에서 69.8%의 평균 pass@1 점수를 달성하여 DeepSeek-R1(671B)을 더 짧은 응답 길이로 능가했다. 수학을 넘어서, rStar2-Agent-14B는 정렬(alignment), 과학적 추론, 에이전트 도구 사용 작업에서도 강력한 일반화 능력을 보여준다. 코드와 훈련 레시피는 https://github.com/microsoft/rStar에서 확인할 수 있다.
기존 문헌에서는 일반적으로 스타일 주도 생성과 주제 주도 생성을 두 개의 분리된 작업으로 취급합니다: 전자는 스타일적 유사성을 우선시하는 반면, 후자는 주제 일관성을 강조하여 명백한 대립 관계를 형성합니다. 우리는 이 두 목표가 궁극적으로 콘텐츠와 스타일의 분리와 재구성이라는 스타일 주도 연구의 오랜 주제와 관련이 있기 때문에 단일 프레임워크 아래 통합될 수 있다고 주장합니다. 이를 위해 우리는 통합 스타일-주제 최적화 맞춤형 모델인 USO를 제안합니다. 먼저, 콘텐츠 이미지, 스타일 이미지 및 이에 해당하는 스타일화된 콘텐츠 이미지로 구성된 대규모 삼중항 데이터셋을 구축합니다. 둘째, 스타일 정렬 학습과 콘텐츠-스타일 분리 학습이라는 두 가지 상호 보완적인 목표를 통해 스타일 특징을 정렬하고 콘텐츠를 스타일에서 분리하는 분리 학습 방식을 도입합니다. 셋째, SRL(Style Reward-Learning)로 표기된 스타일 보상 학습 패러다임을 통합하여 모델의 성능을 더욱 향상시킵니다. 마지막으로, 스타일 유사성과 주제 충실도를 여러 메트릭에 걸쳐 공동으로 평가하는 최초의 벤치마크인 USO-Bench를 공개합니다. 광범위한 실험을 통해 USO가 오픈소스 모델 중 주제 일관성과 스타일 유사성 두 차원 모두에서 최첨단 성능을 달성함을 입증합니다. 코드와 모델: https://github.com/bytedance/USO
우리는 도구 사용, 도구 간 조정, 정밀한 매개변수 제어, 그리고 문제 해결을 위한 계획/추론이 요구되는 현실적이고 다단계의 작업을 통해 대규모 언어 모델(LLMs)을 평가하기 위한 벤치마크인 MCP-Bench를 소개합니다. MCP-Bench는 모델 컨텍스트 프로토콜(Model Context Protocol, MCP)을 기반으로 구축되었으며, 금융, 여행, 과학적 컴퓨팅, 학술 검색 등 다양한 도메인에 걸쳐 250개의 도구를 제공하는 28개의 대표적인 실시간 MCP 서버와 LLMs를 연결합니다. 기존의 API 기반 벤치마크와 달리, 각 MCP 서버는 함께 작동하도록 설계된 상호 보완적인 도구 세트를 제공함으로써 풍부한 입력-출력 결합을 가진 진정한 다단계 작업을 구성할 수 있게 합니다. MCP-Bench의 작업은 명시적인 도구 이름 없이 모호한 지시에서 관련 도구를 검색하는 능력, 복잡한 목표를 위한 다중 홉 실행 경로를 계획하는 능력, 중간 도구 출력에 기반한 응답을 구체화하는 능력, 그리고 도메인 간 워크플로우를 조율하는 능력을 테스트합니다. 이는 명시적인 도구 사양, 단순한 몇 단계의 워크플로우, 그리고 고립된 도메인 작업에 의존하는 기존 벤치마크로는 충분히 평가되지 않는 역량들입니다. 우리는 도구 수준의 스키마 이해와 사용, 경로 수준의 계획, 그리고 작업 완료를 포괄하는 다면적 평가 프레임워크를 제안합니다. 20개의 고급 LLMs에 대한 실험은 MCP-Bench에서 지속적인 도전 과제를 드러냅니다. 코드와 데이터: https://github.com/Accenture/mcp-bench.
실습을 통한 학습 패러다임은 능력 있는 에이전트 AI 시스템 개발에 있어 핵심적이지만, 비효율적인 경험 생성으로 인해 심각한 제약을 받고 있으며, 이는 특히 GAIA와 같은 복잡한 벤치마크에서 두드러집니다. 이를 해결하기 위해 우리는 대규모 에이전트-환경 상호작용을 위해 설계된 오픈소스 시스템인 AWorld를 소개합니다. AWorld는 클러스터에 작업을 분산시켜 표준 단일 노드 순차 실행 대비 경험 수집 속도를 14.6배 가속합니다. 이 중요한 속도 향상은 광범위한 강화 학습을 실용적이고 확장 가능하게 만듭니다. 이 기능을 활용하여, 우리는 Qwen3-32B 기반 에이전트를 훈련시켰으며, 이는 기본 모델을 크게 능가하여 GAIA 정확도를 21.59%에서 32.23%로 증가시켰습니다. 벤치마크의 가장 어려운 수준에서 우리의 에이전트는 16.33%의 점수를 달성하며, 주요 독점 모델의 성능을 뛰어넘었습니다. 우리의 오픈소스 시스템과 그 결과물인 에이전트는 효율적인 상호작용부터 입증된 모델 개선까지 완전한 에이전트 AI 훈련 파이프라인을 위한 실용적인 청사진을 제공합니다.
긴 동영상 생성은 근본적으로 장기 문맥 기억 문제입니다: 모델은 붕괴하거나 표류하지 않고 긴 범위에 걸쳐 중요한 이벤트를 유지하고 검색할 수 있어야 합니다. 그러나 확산 트랜스포머를 확장하여 장기 문맥 동영상을 생성하는 것은 자기 주의(self-attention)의 이차 비용에 의해 근본적으로 제한되며, 이는 메모리와 계산을 다루기 어렵게 만들고 긴 시퀀스에 대한 최적화를 어렵게 합니다. 우리는 장기 문맥 동영상 생성을 내부 정보 검색 작업으로 재구성하고, 간단하면서도 학습 가능한 희소 주의 라우팅 모듈인 Mixture of Contexts (MoC)를 효과적인 장기 기억 검색 엔진으로 제안합니다. MoC에서 각 쿼리는 몇 개의 정보가 풍부한 청크와 필수 앵커(캡션, 로컬 윈도우)를 동적으로 선택하여 주의를 기울이며, 루프 종료를 방지하는 인과적 라우팅을 사용합니다. 데이터를 확장하고 라우팅을 점진적으로 희소화함에 따라, 모델은 중요한 역사에 계산을 할당하여 몇 분에 걸친 콘텐츠에서 신원, 행동, 장면을 보존합니다. 검색의 부산물로 효율성이 따라오며(거의 선형 확장), 이는 실질적인 훈련과 합성을 가능하게 하고, 몇 분 규모의 기억과 일관성이 나타나게 합니다.
다양한 명령어 데이터는 대규모 언어 모델의 효과적인 명령어 튜닝에 필수적이며, 이를 통해 모델이 다양한 유형의 입력에 대해 일반화할 수 있게 합니다. 이러한 다양화된 명령어 데이터셋을 구축하는 것은 이 과정에서 핵심적인 단계입니다. 기존 접근 방식은 대규모 언어 모델을 활용하여 자동으로 다양한 명령어를 탐색하고 생성함으로써 데이터의 다양성과 품질을 보장합니다. 그러나 이러한 방식은 실제 응용에서 중요한 요소인 작업 관련성을 간과하는 경향이 있습니다. 실제로, 진정한 범용 모델을 요구하는 응용은 극소수이며, 대부분은 특정 사용 사례에 맞춘 작업 중심 지식을 활용할 때 더 큰 이점을 얻습니다. 따라서 다양성을 유지하면서도 특정 실제 시나리오에 최적화된 명령어 증강 방법을 개발하는 것이 중요합니다. 이에 따라 우리는 작업 중심 명령어 증강(Task Centric Instruction Augmentation, TCIA) 프레임워크를 소개합니다. 이 프레임워크는 다양성과 작업 정렬을 모두 유지하면서 명령어를 체계적으로 확장합니다. TCIA는 명령어를 이산적인 쿼리-제약 공간으로 표현함으로써 작업과 관련된 풍부한 명령어 집합을 생성하고, 모델이 전반적인 성능을 저하시키지 않으면서도 이러한 작업 특화 명령어에 일반화할 수 있도록 합니다. 실험 결과, TCIA는 오픈소스 대규모 언어 모델의 성능을 네 가지 실제 작업 중심 응용에서 평균 8.7% 향상시켰으며, 일부 경우에서는 선도적인 클로즈드소스 모델을 능가하기도 했습니다. 이러한 성능 향상은 일반적인 명령어 수행 능력을 저하시키지 않으므로, TCIA는 대규모 언어 모델을 실제 작업 중심 응용에 적응시키기 위한 확장 가능하고 효율적인 솔루션입니다.
우리는 다중 카메라 뷰를 사용하여 동적 장면에서 임의의 점을 추적할 수 있는 최초의 데이터 기반 다중 뷰 3D 포인트 트래커를 소개합니다. 깊이 모호성과 폐색 문제로 어려움을 겪는 기존의 단안 트래커나, 20대 이상의 카메라와 번거로운 시퀀스별 최적화가 필요한 다중 카메라 방법과 달리, 우리의 피드포워드 모델은 실용적인 수의 카메라(예: 4대)를 사용하여 3D 대응점을 직접 예측함으로써 견고하고 정확한 온라인 추적을 가능하게 합니다. 알려진 카메라 포즈와 센서 기반 또는 추정된 다중 뷰 깊이 정보가 주어지면, 우리의 트래커는 다중 뷰 특징을 통합된 포인트 클라우드로 융합하고, k-최근접 이웃 상관 관계와 트랜스포머 기반 업데이트를 적용하여 폐색 상황에서도 장거리 3D 대응점을 안정적으로 추정합니다. 우리는 5,000개의 합성 다중 뷰 Kubric 시퀀스로 학습을 진행하고, Panoptic Studio와 DexYCB라는 두 가지 실제 벤치마크에서 각각 3.1cm와 2.0cm의 중간 궤적 오차를 달성했습니다. 우리의 방법은 1-8개의 다양한 시점을 가진 카메라 설정과 24-150 프레임의 비디오 길이에 잘 일반화됩니다. 트래커와 함께 학습 및 평가 데이터셋을 공개함으로써, 우리는 다중 뷰 3D 추적 연구에 새로운 기준을 제시하고 실제 응용을 위한 실용적인 도구를 제공하고자 합니다. 프로젝트 페이지는 https://ethz-vlg.github.io/mvtracker에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)의 안전 정렬(safety alignment)은 종종 내부 표현을 조정하여 유해한 요청을 거부하도록 하는 과정을 포함합니다. 최근 연구에 따르면, 이러한 안전 메커니즘은 모델 내 특정 표현 방향을 제거하거나 약화시킴으로써 우회될 수 있음이 밝혀졌습니다. 본 논문에서는 반대 접근법을 제안합니다: Rank-One Safety Injection(ROSI)는 모델의 활성화를 거부를 조정하는 부분 공간으로 영구적으로 유도함으로써 안전 정렬을 강화하는 화이트박스(white-box) 방법입니다. ROSI는 모든 잔류 스트림(residual stream) 쓰기 행렬에 적용되는 간단하고 미세 조정(fine-tuning)이 필요 없는 랭크-1(rank-one) 가중치 수정으로 작동합니다. 필요한 안전 방향은 소규모의 유해 및 무해 명령어 쌍 집합으로부터 계산될 수 있습니다. 우리는 ROSI가 Llama Guard 3로 평가된 안전 거부율을 지속적으로 증가시키는 동시에 MMLU, HellaSwag, Arc와 같은 표준 벤치마크에서 모델의 유용성을 유지함을 보여줍니다. 또한, ROSI가 '검열되지 않은' 모델의 잠재적 안전 방향을 증폭시켜 재정렬할 수 있음을 보여줌으로써, 이를 효과적인 최종 단계 안전 절차로 활용할 수 있음을 입증합니다. 우리의 결과는 목표 지향적이고 해석 가능한 가중치 조정이 LLM 안전성을 개선하는 데 있어 저렴하면서도 강력한 메커니즘이며, 더 많은 자원이 소요되는 미세 조정 패러다임을 보완할 수 있음을 시사합니다.
본 논문에서는 단일 보상 모델(One Reward model)만을 사용하여 다양한 평가 기준 하에서 여러 작업에 걸친 모델의 생성 능력을 향상시키는 통합 강화 학습 프레임워크인 OneReward를 소개한다. 단일 시각-언어 모델(VLM)을 생성 보상 모델로 활용함으로써, 주어진 작업과 평가 기준에 대해 승자와 패자를 구분할 수 있어 다양한 데이터와 작업 목표가 존재하는 상황에서 다중 작업 생성 모델에 효과적으로 적용될 수 있다. 우리는 OneReward를 마스크 기반 이미지 생성에 활용하며, 이는 이미지 채우기, 이미지 확장, 객체 제거, 텍스트 렌더링과 같은 여러 하위 작업으로 나뉘며, 편집 영역으로 이진 마스크를 사용한다. 이러한 도메인 특화 작업들은 동일한 조건 설정 패러다임을 공유하지만, 기본 데이터 분포와 평가 지표에서는 상당한 차이를 보인다. 기존 방법들은 작업별 지도 미세 조정(SFT)에 의존하는 경우가 많아 일반화와 학습 효율성이 제한된다. OneReward를 기반으로, 우리는 사전 훈련된 기본 모델에서 직접 다중 작업 강화 학습을 통해 훈련된 마스크 기반 생성 모델인 Seedream 3.0 Fill을 개발하여 작업별 SFT의 필요성을 제거했다. 실험 결과는 우리의 통합 편집 모델이 Ideogram, Adobe Photoshop, FLUX Fill [Pro]와 같은 상용 및 오픈소스 경쟁 제품들을 여러 평가 차원에서 일관되게 능가함을 보여준다. 코드와 모델은 https://one-reward.github.io에서 확인할 수 있다.
최근 사전 학습된 Vision-Language Models (VLMs)을 기반으로 구축된 Vision-Language-Action (VLA) 모델들은 광범위한 사후 학습을 필요로 하며, 이로 인해 높은 계산 오버헤드가 발생하여 확장성과 배포에 제약을 받고 있습니다. 우리는 이러한 문제를 해결하기 위해 인간의 다중 모달 조정에서 영감을 받은 CogVLA(Cognition-Aligned Vision-Language-Action) 프레임워크를 제안합니다. 이 프레임워크는 지시 기반 라우팅과 희소화를 활용하여 효율성과 성능을 모두 개선합니다. CogVLA는 3단계의 점진적 아키텍처를 도입합니다. 1) Encoder-FiLM 기반 집계 라우팅(EFA-Routing)은 지시 정보를 비전 인코더에 주입하여 이중 스트림 시각적 토큰을 선택적으로 집계하고 압축하여 지시 인식 잠재 표현을 형성합니다. 2) 이 컴팩트한 시각적 인코딩을 기반으로, LLM-FiLM 기반 가지치기 라우팅(LFP-Routing)은 지시와 무관한 시각적 토큰을 제거하여 액션 의도를 언어 모델에 도입함으로써 토큰 수준의 희소성을 달성합니다. 3) 압축된 인지 입력이 여전히 정확하고 일관된 액션 생성을 지원할 수 있도록, 우리는 인과적 비전-언어 주의와 양방향 액션 병렬 디코딩을 결합한 V-L-A 결합 주의(CAtten)를 도입합니다. LIBERO 벤치마크와 실제 로봇 작업에 대한 광범위한 실험을 통해 CogVLA가 각각 97.4%와 70.0%의 성공률로 최첨단 성능을 달성하면서도 OpenVLA 대비 학습 비용을 2.5배 절감하고 추론 지연 시간을 2.8배 단축함을 입증했습니다. CogVLA는 오픈소스로 공개되어 있으며, https://github.com/JiuTian-VL/CogVLA에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 설득적 대화에서 오정보에 대한 순진함과 유효한 수정에 대한 저항 사이의 균형을 맞추는 데 어려움을 겪을 수 있으며, 이는 신뢰할 수 있는 배포를 위한 중요한 과제입니다. 우리는 DuET-PD(설득적 대화에서의 신뢰를 위한 이중 평가)를 소개합니다. 이 프레임워크는 이중 차원(수정적/오도적 설득 유형 및 MMLU-Pro를 통한 지식, SALAD-Bench를 통한 안전 도메인)에 걸쳐 다중 턴 입장 변화 역학을 평가합니다. 우리는 GPT-4o와 같은 최첨단 모델도 지속적인 오도적 설득 하에서 MMLU-Pro에서 단 27.32%의 정확도를 달성한다는 사실을 발견했습니다. 더욱이, 결과는 최신 오픈소스 모델에서 점점 증가하는 아첨 경향을 보여줍니다. 이를 해결하기 위해 우리는 긍정적 및 부정적 설득 예제를 균형 있게 다루는 훈련 접근법인 Holistic DPO를 도입했습니다. 프롬프팅이나 저항만을 위한 훈련과 달리, Holistic DPO는 오정보에 대한 견고성과 수정에 대한 수용성을 모두 향상시켜, Llama-3.1-8B-Instruct의 안전 맥락에서 오도적 설득 하의 정확도를 4.21%에서 76.54%로 개선했습니다. 이러한 기여는 다중 턴 대화를 위한 더 신뢰할 수 있고 적응 가능한 LLMs 개발을 위한 길을 제시합니다. 코드는 https://github.com/Social-AI-Studio/DuET-PD에서 확인할 수 있습니다.
검색, 메모리 또는 외부 API를 갖춘 도구 강화 언어 모델은 AI를 재편하고 있지만, 그 이론적 장점은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 사실 회상을 위해 내부 가중치 학습(기억)보다 도구 내 학습(외부 검색)이 가지는 이점을 입증함으로써 이 문제를 다룹니다. 모델이 가중치만으로 기억할 수 있는 사실의 수는 기본적으로 매개변수 수에 의해 제한됨을 보입니다. 반면, 도구 사용을 통해 단순하고 효율적인 회로 구성을 통해 사실 회상이 무한히 가능함을 증명합니다. 이러한 결과는 통제된 실험에서 검증되었으며, 도구를 사용하는 모델이 기억에 의존하는 모델을 지속적으로 능가함을 보여줍니다. 또한, 사전 학습된 대형 언어 모델의 경우 사실을 미세 조정하여 기억시키는 것보다 도구 사용과 일반 규칙을 가르치는 것이 더 효과적임을 추가로 입증합니다. 본 연구는 도구 강화 워크플로가 단순히 실용적일 뿐만 아니라 이론적으로도 확장성이 더 높음을 입증함으로써 이론적 및 실증적 기반을 제공합니다.
비디오 객체 제거 기술은 최근 비디오 생성 모델의 성공으로 인해 고도화된 성능을 달성했습니다. 그러나 객체의 부수적 효과, 예를 들어 그림자와 반사 등을 처리할 때, 기존 연구들은 지도 학습을 위한 짝지어진 비디오 데이터의 부족으로 인해 이러한 효과를 제거하는 데 어려움을 겪습니다. 본 논문은 ROSE(Remove Objects with Side Effects)라는 프레임워크를 제안하며, 이는 객체가 환경에 미치는 영향을 체계적으로 연구하여 그림자, 반사, 조명, 반투명성 및 거울 효과라는 다섯 가지 일반적인 경우로 분류합니다. 앞서 언급한 효과를 보여주는 짝지어진 비디오를 큐레이션하는 데 따른 어려움을 고려하여, 우리는 합성 데이터 생성을 위해 3D 렌더링 엔진을 활용합니다. 우리는 다양한 장면, 객체, 촬영 각도 및 카메라 궤적을 시뮬레이션한 대규모 짝지어진 데이터셋을 구축하기 위해 완전 자동화된 데이터 준비 파이프라인을 신중하게 구성합니다. ROSE는 디퓨전 트랜스포머 기반의 비디오 인페인팅 모델로 구현됩니다. 객체와 관련된 모든 영역을 지역화하기 위해 전체 비디오가 모델에 입력되어 참조 기반 삭제가 수행됩니다. 또한, 짝지어진 비디오 간의 차이 마스크를 통해 드러나는 부수적 효과가 미치는 영역을 명시적으로 예측하기 위해 추가적인 지도 학습이 도입됩니다. 다양한 부수적 효과 제거에 대한 모델 성능을 완전히 조사하기 위해, 우리는 일반적인 시나리오와 다섯 가지 특수 부수적 효과를 포함한 새로운 벤치마크인 ROSE-Bench를 제안합니다. 실험 결과는 ROSE가 기존의 비디오 객체 삭제 모델에 비해 우수한 성능을 달성하며 실제 비디오 시나리오에 잘 일반화됨을 보여줍니다. 프로젝트 페이지는 https://rose2025-inpaint.github.io/에서 확인할 수 있습니다.
우리는 FakeParts라는 새로운 유형의 딥페이크를 소개한다. 이는 원본 비디오의 특정 공간적 영역이나 시간적 구간에 미묘하고 국소적인 조작을 가한 것으로, 완전히 합성된 콘텐츠와 달리 표정 변경부터 객체 대체, 배경 수정에 이르는 부분적 조작이 실제 요소와 자연스럽게 어우러져 특히 속이기 쉽고 탐지하기 어렵다는 특징이 있다. 이러한 탐지 능력의 중요한 공백을 해결하기 위해, 우리는 부분적 딥페이크의 전체 스펙트럼을 포착하기 위해 특별히 설계된 첫 번째 대규모 벤치마크 데이터셋인 FakePartsBench를 제시한다. 픽셀 수준 및 프레임 수준의 조작 주석이 포함된 25,000개 이상의 비디오로 구성된 이 데이터셋은 탐지 방법의 포괄적인 평가를 가능하게 한다. 우리의 사용자 연구는 FakeParts가 기존 딥페이크에 비해 인간의 탐지 정확도를 30% 이상 감소시키며, 최신 탐지 모델에서도 유사한 성능 저하가 관찰됨을 보여준다. 이 연구는 현재 딥페이크 탐지 접근법의 긴급한 취약점을 밝히고, 부분적 비디오 조작에 대한 더 강력한 방법을 개발하기 위한 필수적인 자원을 제공한다.
우리는 Dress&Dance를 소개합니다. 이는 사용자가 원하는 의상을 입고 주어진 참조 비디오에 따라 움직이는 모습을 1152x720 해상도로 24 FPS의 고품질 5초 길이 가상 피팅 비디오를 생성하는 비디오 확산 프레임워크입니다. 우리의 접근 방식은 단일 사용자 이미지만을 요구하며, 다양한 상의, 하의, 원피스 의상은 물론 한 번에 상의와 하의를 동시에 피팅하는 것을 지원합니다. 우리 프레임워크의 핵심은 CondNet으로, 이는 텍스트, 이미지, 비디오와 같은 다중 모달 입력을 통합하기 위해 주의 메커니즘을 활용하여 의상 등록과 움직임의 정확도를 향상시키는 새로운 조건부 네트워크입니다. CondNet은 제한된 비디오 데이터와 더 크고 쉽게 이용 가능한 이미지 데이터셋을 결합한 이질적인 학습 데이터를 다단계 점진적 방식으로 학습합니다. Dress&Dance는 기존의 오픈 소스 및 상용 솔루션을 능가하며, 고품질과 유연한 피팅 경험을 가능하게 합니다.
3D 콘텐츠는 본질적으로 다중 모달(multi-modal) 특성을 내포하고 있으며, 다양한 모달리티(예: RGB 이미지, RGBD, 포인트 클라우드)로 투영될 수 있습니다. 각 모달리티는 3D 자산 모델링에서 고유한 장점을 보입니다: RGB 이미지는 생생한 3D 텍스처를 포함하는 반면, 포인트 클라우드는 세밀한 3D 기하학적 구조를 정의합니다. 그러나 기존의 대부분의 3D 네이티브 생성 아키텍처는 주로 단일 모달리티 패러다임 내에서 작동하므로 다중 모달리티 데이터의 상호 보완적 이점을 간과하거나, 3D 구조에만 국한되어 사용 가능한 훈련 데이터셋의 범위를 제한합니다. 3D 모델링을 위해 다중 모달리티를 종합적으로 활용하기 위해, 우리는 기본적인 다중 모달리티(예: RGB, RGBD, 포인트 클라우드)로부터 학습하는 최초의 피드포워드(feed-forward) 3D 네이티브 생성 모델인 TriMM을 제시합니다. 구체적으로, 1) TriMM은 먼저 협력적 다중 모달 코딩을 도입하여 모달리티별 특징을 통합하면서도 각각의 고유한 표현 강점을 보존합니다. 2) 또한, 보조적인 2D 및 3D 감독(supervision)을 도입하여 다중 모달 코딩의 견고성과 성능을 향상시킵니다. 3) 내장된 다중 모달 코드를 기반으로, TriMM은 트라이플레인(triplane) 잠재 확산 모델을 사용하여 텍스처와 기하학적 디테일 모두를 향상시킨 우수한 품질의 3D 자산을 생성합니다. 여러 유명 데이터셋에 대한 광범위한 실험을 통해 TriMM은 다중 모달리티를 효과적으로 활용함으로써 대규모 데이터셋으로 훈련된 모델들과 경쟁력 있는 성능을 달성하며, 소량의 훈련 데이터만을 사용함을 입증했습니다. 또한, 최근의 RGB-D 데이터셋에 대한 추가 실험을 통해 다른 다중 모달리티 데이터셋을 3D 생성에 통합하는 가능성을 검증했습니다.
대형 언어 모델(LLM)과의 다중 턴 대화가 점점 더 길고 복잡해짐에 따라, 사용자가 대화 목표에 대한 진행 상황을 더 잘 평가하고 검토할 수 있는 방법은 무엇일까요? 우리는 OnGoal을 소개합니다. OnGoal은 사용자가 목표 진행을 더 잘 관리할 수 있도록 돕는 LLM 채팅 인터페이스입니다. OnGoal은 LLM 지원 평가를 통해 목표 정렬에 대한 실시간 피드백을 제공하고, 평가 결과에 대한 설명과 예시를 제공하며, 시간에 따른 목표 진행 상황을 개괄적으로 보여줌으로써 사용자가 복잡한 대화를 더 효과적으로 탐색할 수 있도록 합니다. 20명의 참가자를 대상으로 한 글쓰기 과제 연구에서, 우리는 OnGoal을 목표 추적 기능이 없는 기본 채팅 인터페이스와 비교 평가했습니다. OnGoal을 사용한 참가자들은 목표를 달성하는 데 더 적은 시간과 노력을 들였으며, 오해를 극복하기 위한 새로운 프롬프트 전략을 탐색했습니다. 이는 목표를 추적하고 시각화하는 것이 LLM 대화에서 참여와 회복력을 향상시킬 수 있음을 시사합니다. 우리의 연구 결과는 향후 LLM 채팅 인터페이스의 설계에 영감을 주었으며, 목표 소통을 개선하고, 인지 부하를 줄이며, 상호작용성을 강화하고, LLM 성능을 개선하기 위한 피드백을 가능하게 하는 방향을 제시합니다.
인간의 사회적 행동은 본질적으로 다중 양식(multimodal)을 필요로 하며, 이를 인지하기 위해서는 강력한 오디오-비주얼 모델의 개발이 필수적입니다. 본 논문에서는 오디오-비주얼 사회적 데이터에 사전 학습된 Contrastive Audio-Visual Masked Auto-Encoder(CAV-MAE)의 확장 버전을 기반으로 한 사전 학습된 오디오-비주얼 Masked Autoencoder인 Social-MAE를 제시합니다. 구체적으로, CAV-MAE를 더 많은 프레임을 입력으로 받을 수 있도록 수정하고, 인간의 사회적 상호작용 대규모 데이터셋(VoxCeleb2)에서 자기 지도(self-supervised) 방식으로 사전 학습을 진행했습니다. 이 모델의 효과를 입증하기 위해 다양한 사회적 및 감정 관련 하위 작업(emotion recognition, laughter detection, apparent personality estimation)에 대해 미세 조정(finetuning) 및 평가를 수행했습니다. 그 결과, 이 모델은 다중 양식 감정 인식 및 웃음 인식에서 최첨단(state-of-the-art) 성능을 달성했으며, 외적 성격 추정(apparent personality estimation)에서도 경쟁력 있는 결과를 보여, 도메인 내 자기 지도 사전 학습의 효과를 입증했습니다. 코드와 모델 가중치는 https://github.com/HuBohy/SocialMAE에서 확인할 수 있습니다.