번역이 포함된 일일 선별된 AI 연구 논문
Sora는 단일 장면 비디오 생성에서 Diffusion Transformer(DiT) 아키텍처의 엄청난 잠재력을 보여주었습니다. 그러나 더 광범위한 응용 가능성을 지닌 다중 장면 비디오 생성이라는 더 도전적인 과제는 상대적으로 덜 탐구된 상태입니다. 이러한 격차를 해소하기 위해, 우리는 비디오 세그먼트와 해당 텍스트 주석 간의 세밀한 일대일 정렬을 가능하게 하는 새로운 접근 방식인 Mask^2DiT를 제안합니다. 구체적으로, 우리는 DiT 아키텍처 내의 각 어텐션 레이어에 대칭 이진 마스크를 도입하여 각 텍스트 주석이 해당 비디오 세그먼트에만 적용되도록 하면서도 시각적 토큰 간의 시간적 일관성을 유지합니다. 이 어텐션 메커니즘은 세그먼트 수준의 정확한 텍스트-시각 정렬을 가능하게 하여 DiT 아키텍처가 고정된 수의 장면을 가진 비디오 생성 작업을 효과적으로 처리할 수 있도록 합니다. 또한, DiT 아키텍처가 기존 장면을 기반으로 추가 장면을 생성할 수 있는 능력을 갖추도록 하기 위해, 우리는 세그먼트 수준의 조건부 마스크를 통합합니다. 이 마스크는 새로 생성된 각 세그먼트를 이전 비디오 세그먼트에 조건화함으로써 자동 회귀적 장면 확장을 가능하게 합니다. 정성적 및 정량적 실험 모두에서 Mask^2DiT가 세그먼트 간 시각적 일관성을 유지하면서도 각 세그먼트와 해당 텍스트 설명 간의 의미론적 정렬을 보장하는 데 탁월함을 확인했습니다. 우리의 프로젝트 페이지는 https://tianhao-qi.github.io/Mask2DiTProject입니다.
본 보고서에서는 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 인지하면서 동시에 스트리밍 방식으로 텍스트와 자연스러운 음성 응답을 생성할 수 있는 종단 간(end-to-end) 멀티모달 모델인 Qwen2.5-Omni를 소개합니다. 멀티모달 정보 입력의 스트리밍을 가능하게 하기 위해 오디오와 비주얼 인코더는 블록 단위 처리 방식을 사용합니다. 비디오 입력의 타임스탬프를 오디오와 동기화하기 위해 오디오와 비디오를 순차적으로 인터리브 방식으로 구성하고, TMRoPE(Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 접근법을 제안합니다. 텍스트와 음성을 동시에 생성하면서 두 모달리티 간의 간섭을 피하기 위해 Thinker-Talker 아키텍처를 제안합니다. 이 프레임워크에서 Thinker는 텍스트 생성을 담당하는 대형 언어 모델로 기능하며, Talker는 Thinker의 은닉 표현을 직접 활용하여 오디오 토큰을 출력으로 생성하는 듀얼 트랙 자동회귀 모델입니다. Thinker와 Talker 모델 모두 종단 간 방식으로 학습 및 추론되도록 설계되었습니다. 오디오 토큰을 스트리밍 방식으로 디코딩하기 위해 수용 영역을 제한하는 슬라이딩 윈도우 DiT를 도입하여 초기 패키지 지연을 줄이는 것을 목표로 합니다. Qwen2.5-Omni는 유사한 규모의 Qwen2.5-VL과 비슷한 성능을 보이며 Qwen2-Audio를 능가합니다. 또한 Qwen2.5-Omni는 Omni-Bench와 같은 멀티모달 벤치마크에서 최첨단 성능을 달성합니다. 특히, Qwen2.5-Omni의 종단 간 음성 명령 수행 능력은 MMLU 및 GSM8K와 같은 벤치마크에서 입증된 바와 같이 텍스트 입력과 비슷한 수준입니다. 음성 생성 측면에서 Qwen2.5-Omni의 스트리밍 Talker는 대부분의 기존 스트리밍 및 비스트리밍 대안을 견고성과 자연스러움에서 능가합니다.
본 보고서는 비디오 생성의 한계를 넓히기 위해 설계된 포괄적이고 개방형 비디오 기반 모델 제품군인 Wan을 소개합니다. 주류 확산 트랜스포머 패러다임을 기반으로 구축된 Wan은 혁신적인 VAE, 확장 가능한 사전 학습 전략, 대규모 데이터 큐레이션, 자동화된 평가 메트릭 등 일련의 혁신을 통해 생성 능력에서 상당한 진전을 이루었습니다. 이러한 기여들은 모델의 성능과 다용성을 종합적으로 향상시켰습니다. 구체적으로 Wan은 다음과 같은 네 가지 주요 특징을 가지고 있습니다: 선도적인 성능: 수십억 장의 이미지와 비디오로 구성된 방대한 데이터셋으로 학습된 Wan의 14B 모델은 데이터 및 모델 크기에 대한 비디오 생성의 스케일링 법칙을 입증합니다. 이 모델은 여러 내부 및 외부 벤치마크에서 기존의 오픈소스 모델과 최신 상용 솔루션을 일관되게 능가하며, 명확하고 상당한 성능 우위를 보여줍니다. 포괄성: Wan은 효율성과 효과성을 위해 각각 1.3B와 14B 파라미터를 가진 두 가지 유능한 모델을 제공합니다. 또한 이미지-투-비디오, 지시 기반 비디오 편집, 개인화 비디오 생성 등 최대 8가지 작업을 포함한 다양한 다운스트림 애플리케이션을 다룹니다. 소비자급 효율성: 1.3B 모델은 8.19GB의 VRAM만 필요로 하는 탁월한 자원 효율성을 보여주며, 이는 다양한 소비자급 GPU와 호환됩니다. 개방성: 우리는 비디오 생성 커뮤니티의 성장을 촉진하기 위해 소스 코드와 모든 모델을 포함한 Wan 시리즈 전체를 오픈소스로 공개합니다. 이러한 개방성은 산업계에서 비디오 제작의 창의적 가능성을 크게 확장하고 학계에 고품질의 비디오 기반 모델을 제공하기 위한 것입니다. 모든 코드와 모델은 https://github.com/Wan-Video/Wan2.1에서 확인할 수 있습니다.
Gemma 패밀리의 경량 오픈 모델에 멀티모달 기능을 추가한 Gemma 3를 소개합니다. 이 모델은 10억에서 270억 파라미터 규모로 제공되며, 이번 버전에서는 시각 이해 능력, 더 넓은 언어 지원 범위, 그리고 최소 128K 토큰의 긴 컨텍스트를 도입했습니다. 또한, 긴 컨텍스트에서 폭발적으로 증가하는 KV 캐시 메모리를 줄이기 위해 모델 아키텍처를 변경했습니다. 이를 위해 로컬 어텐션 레이어와 글로벌 어텐션 레이어의 비율을 높이고, 로컬 어텐션의 스팬을 짧게 유지했습니다. Gemma 3 모델은 증류(distillation) 방식으로 학습되었으며, 사전 학습 및 지침 미세 조정 버전 모두에서 Gemma 2보다 우수한 성능을 보입니다. 특히, 새로운 사후 학습 레시피는 수학, 채팅, 지침 수행 및 다국어 능력을 크게 향상시켜, Gemma3-4B-IT가 Gemma2-27B-IT와 경쟁력을 갖추고, Gemma3-27B-IT가 벤치마크에서 Gemini-1.5-Pro와 비슷한 성능을 보이도록 했습니다. 모든 모델을 커뮤니티에 공개합니다.
최근 다양한 로봇 데이터셋으로 학습된 비전-언어-행동 모델들은 제한된 도메인 내 데이터로도 유망한 일반화 능력을 보여주고 있지만, 이산적 또는 연속적 행동을 예측하기 위해 간소화된 행동 헤드에 의존함으로써 이질적인 행동 공간에 대한 적응성이 제한됩니다. 본 연구에서는 Transformer 아키텍처를 활용하여 통합된 멀티모달 확산 과정을 통해 연속적 행동 시퀀스를 직접 디노이징하는 확장 가능한 프레임워크인 Dita를 제안합니다. 기존의 얕은 네트워크를 통해 융합된 임베딩에 디노이징을 조건화하는 방법과 달리, Dita는 인-컨텍스트 조건화를 사용하여 디노이징된 행동과 과거 관측에서 얻은 원시 시각 토큰 간의 세밀한 정렬을 가능하게 합니다. 이 설계는 행동 델타와 환경적 뉘앙스를 명시적으로 모델링합니다. 확산 행동 디노이저를 Transformer의 확장성과 함께 스케일링함으로써, Dita는 다양한 카메라 시각, 관측 장면, 작업 및 행동 공간에 걸친 교차-구체화 데이터셋을 효과적으로 통합합니다. 이러한 시너지는 다양한 변동에 대한 견고성을 강화하고 장기적 작업의 성공적 실행을 용이하게 합니다. 광범위한 벤치마크에서의 평가는 시뮬레이션에서 최첨단 또는 비교 가능한 성능을 입증합니다. 특히, Dita는 10-샷 파인튜닝을 통해 제3자 카메라 입력만을 사용하여 환경 변동과 복잡한 장기적 작업에 대한 견고한 실세계 적응을 달성합니다. 이 아키텍처는 일반적인 로봇 정책 학습을 위한 다용도, 경량 및 오픈소스 기반을 마련합니다. 프로젝트 페이지: https://robodita.github.io.
우리는 Perplexity의 Sonar Reasoning Pro와 OpenAI의 GPT-4o Search Preview와 같은 독점 검색 AI 솔루션과 오픈소스 대안 간의 점점 더 벌어지는 격차를 해소하기 위해 Open Deep Search(ODS)를 소개합니다. ODS에서 도입된 주요 혁신은 최신 오픈소스 대형 언어 모델(LLM)의 추론 능력을 웹 검색 도구를 적절히 활용하여 질문에 답할 수 있는 추론 에이전트로 강화하는 것입니다. 구체적으로, ODS는 사용자가 선택한 기본 LLM과 함께 작동하는 두 가지 구성 요소로 이루어져 있습니다: Open Search Tool과 Open Reasoning Agent. Open Reasoning Agent는 주어진 작업을 해석하고 도구 호출을 포함한 일련의 작업을 조율하여 이를 완료합니다. 이 중 하나가 Open Search Tool입니다. Open Search Tool은 독점 솔루션을 능가하는 새로운 웹 검색 도구입니다. DeepSeek-R1과 같은 강력한 오픈소스 추론 LLM과 함께 ODS는 SimpleQA와 FRAMES라는 두 가지 벤치마크에서 기존의 최첨단 기준선을 거의 따라잡거나 때로는 능가합니다. 예를 들어, FRAMES 평가 벤치마크에서 ODS는 최근 출시된 GPT-4o Search Preview의 최고 기준선을 정확도에서 9.7% 향상시켰습니다. ODS는 모든 LLM(예: SimpleQA에서 82.4%, FRAMES에서 30.1%를 달성한 DeepSeek-R1)에 검색 및 추론 기능을 원활하게 추가하여 최첨단 성능(SimpleQA에서 88.3%, FRAMES에서 75.3%)을 달성할 수 있는 일반적인 프레임워크입니다.
다단계 공간 추론은 여러 순차적 단계에 걸친 공간 관계를 이해하고 추론하는 것을 포함하며, 이는 로봇 조작, 자율 주행, 자동화 조립과 같은 복잡한 실제 애플리케이션을 해결하는 데 필수적입니다. 현재의 다중모달 대형 언어 모델(MLLMs)이 이러한 기본적인 능력을 어느 정도 습득했는지 평가하기 위해, 우리는 LEGO 기반 작업을 통해 MLLMs의 공간 이해와 순차적 추론을 평가할 수 있는 확장 가능한 벤치마크인 LEGO-Puzzles를 소개합니다. LEGO-Puzzles는 기본적인 공간 이해부터 복잡한 다단계 추론에 이르는 11가지 독특한 작업을 아우르는 1,100개의 신중하게 선별된 시각적 질의응답(VQA) 샘플로 구성되어 있습니다. LEGO-Puzzles를 기반으로, 우리는 최신 MLLMs에 대한 포괄적인 평가를 수행하고 그들의 공간 추론 능력에서 상당한 한계를 발견했습니다: 가장 강력한 MLLMs조차 테스트 케이스의 약 절반만 답변할 수 있는 반면, 인간 참가자들은 90% 이상의 정확도를 달성했습니다. VQA 작업 외에도, 우리는 MLLMs가 조립 설명서를 따라 LEGO 이미지를 생성하는 능력을 평가했습니다. 우리의 실험은 Gemini-2.0-Flash와 GPT-4o만이 이러한 지시를 따라가는 제한된 능력을 보여주는 반면, 다른 MLLMs는 입력 이미지를 복제하거나 완전히 관련 없는 출력을 생성하는 것으로 나타났습니다. 전반적으로, LEGO-Puzzles는 기존 MLLMs의 공간 이해와 순차적 추론 능력에서 중요한 결함을 드러내며, 다중모달 공간 추론 분야의 추가 발전이 필요함을 강조합니다.
최근 대규모 멀티모달 모델의 발전으로 디지털 영역에서 놀라운 범용 능력이 등장했지만, 이를 로봇과 같은 물리적 에이전트로 전환하는 것은 여전히 큰 과제로 남아 있습니다. 본 보고서는 로봇 공학을 위해 특별히 설계되고 Gemini 2.0을 기반으로 구축된 새로운 AI 모델 패밀리를 소개합니다. 우리는 로봇을 직접 제어할 수 있는 고급 Vision-Language-Action (VLA) 범용 모델인 Gemini Robotics를 제시합니다. Gemini Robotics는 다양한 복잡한 조작 작업을 원활하고 반응적으로 수행하며, 객체 유형 및 위치의 변화에 강건하고, 보지 못한 환경을 처리하며, 다양한 개방형 어휘 명령을 따를 수 있습니다. 추가 미세 조정을 통해 Gemini Robotics는 장기적이고 매우 정교한 작업 해결, 100개의 시연만으로 새로운 단기 작업 학습, 완전히 새로운 로봇 구현체에 적응하는 등의 새로운 능력으로 특화될 수 있음을 보여줍니다. 이는 Gemini Robotics가 본 작업에서 소개하는 두 번째 모델인 Gemini Robotics-ER 모델을 기반으로 구축되었기 때문에 가능합니다. Gemini Robotics-ER(Embodied Reasoning)는 Gemini의 멀티모달 추론 능력을 물리적 세계로 확장하여 공간적 및 시간적 이해를 강화합니다. 이를 통해 객체 감지, 포인팅, 궤적 및 그립 예측, 다중 뷰 대응 및 3D 경계 상자 예측과 같은 로봇 공학 관련 능력을 가능하게 합니다. 우리는 이러한 새로운 조합이 다양한 로봇 응용 프로그램을 지원할 수 있는 방법을 보여줍니다. 또한 이 새로운 종류의 로봇 기반 모델과 관련된 중요한 안전 고려 사항을 논의하고 해결합니다. Gemini Robotics 패밀리는 물리적 세계에서 AI의 잠재력을 실현하는 범용 로봇 개발을 위한 중요한 단계를 나타냅니다.
Classifier-Free Guidance(CFG)는 조건부 확산 모델을 훈련시키는 데 있어 기본적인 기술입니다. CFG 기반 훈련의 일반적인 관행은 조건부 및 무조건부 노이즈 예측을 모두 학습하기 위해 단일 네트워크를 사용하고, 조건화를 위해 낮은 드롭아웃 비율을 적용하는 것입니다. 그러나 우리는 훈련 과정에서 제한된 대역폭을 가진 무조건부 노이즈의 병행 학습이 무조건부 경우에 대해 열악한 사전 분포를 초래한다는 것을 관찰했습니다. 더 중요한 것은, 이러한 열악한 무조건부 노이즈 예측이 조건부 생성의 품질 저하의 심각한 원인이 된다는 점입니다. 대부분의 CFG 기반 조건부 모델이 더 나은 무조건부 생성을 위한 기본 모델을 미세 조정하여 훈련된다는 사실에 영감을 받아, 우리는 먼저 CFG에서의 무조건부 노이즈를 기본 모델이 예측한 노이즈로 단순히 대체하는 것만으로도 조건부 생성을 크게 개선할 수 있음을 보여줍니다. 더 나아가, 미세 조정된 모델이 훈련된 것과 다른 확산 모델을 무조건부 노이즈 대체에 사용할 수 있음을 보여줍니다. 우리는 이미지 및 비디오 생성을 위한 Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter, InstructPix2Pix 등 다양한 CFG 기반 조건부 모델을 통해 우리의 주장을 실험적으로 검증합니다.
생성 모델과 판별 모델 간의 시너지는 점점 더 많은 관심을 받고 있습니다. 판별 모델인 Contrastive Language-Image Pre-Training(CLIP)은 고차원 의미 이해에서 뛰어난 성능을 보이지만, 세밀한 시각적 디테일을 인식하는 데는 어려움을 겪습니다. 일반적으로 표현을 강화하기 위해 생성 모델은 CLIP의 시각적 특징을 재구성을 위한 조건으로 사용합니다. 그러나 이에 대한 근본적인 원리는 아직 충분히 탐구되지 않았습니다. 본 연구에서 우리는 시각적으로 완벽한 생성이 항상 표현 강화에 최적이 아니라는 것을 실증적으로 발견했습니다. 핵심은 생성 모델에서 세밀한 지식을 효과적으로 추출하면서 관련 없는 정보를 줄이는 데 있습니다. 이를 위해 우리는 세 가지 측면을 깊이 있게 탐구했습니다: (1) 조건화 메커니즘: 소수의 지역 토큰만으로도 재구성의 난이도를 크게 낮춰 학습이 붕괴될 수 있다는 것을 발견했습니다. 따라서 전역 시각적 토큰만을 조건으로 사용하는 것이 가장 효과적인 전략임을 결론지었습니다. (2) 노이즈 제거 설정: 종단 간 학습은 불필요한 정보를 유발한다는 것을 관찰했습니다. 이를 해결하기 위해 유용한 시각적 지식을 우선적으로 학습하는 두 단계 학습 전략을 제안합니다. 또한, 경량화된 노이즈 제거기가 놀라운 개선을 가져올 수 있음을 입증했습니다. (3) 생성 패러다임: 연속적 및 이산적 노이즈 제거기를 모두 탐구하여 바람직한 결과를 얻었으며, 이는 우리 방법의 다양성을 검증합니다. 이러한 심층적인 탐구를 통해 우리는 GenHancer라는 효과적인 방법을 도출했으며, 이는 MMVP-VLM 벤치마크에서 기존 기술을 꾸준히 능가하는 성능을 보입니다(예: OpenAICLIP에서 6.0% 향상). 강화된 CLIP은 다중모드 대형 언어 모델에 통합되어 더 나은 시각 중심 성능을 제공할 수 있습니다. 모든 모델과 코드는 공개되어 있습니다.
최근 Flux와 Ideogram 2.0과 같은 최첨단 텍스트-이미지 생성 모델들은 문장 수준의 시각적 텍스트 렌더링에서 상당한 진전을 이루었습니다. 본 논문에서는 더욱 도전적인 시나리오인 기사 수준의 시각적 텍스트 렌더링에 초점을 맞추고, 사용자가 제공한 기사 수준의 설명적 프롬프트와 초고밀도 레이아웃을 기반으로 인포그래픽과 슬라이드를 포함한 고품질 비즈니스 콘텐츠를 생성하는 새로운 과제를 다룹니다. 근본적인 도전 과제는 두 가지입니다: 상당히 긴 컨텍스트 길이와 고품질 비즈니스 콘텐츠 데이터의 부족입니다. 대부분의 기존 연구가 제한된 수의 하위 영역과 문장 수준의 프롬프트에 초점을 맞추는 것과 달리, 비즈니스 콘텐츠에서 수십 개 또는 심지어 수백 개의 하위 영역을 가진 초고밀도 레이아웃에 정확히 부합하도록 하는 것은 훨씬 더 어려운 과제입니다. 우리는 두 가지 주요 기술적 기여를 합니다: (i) 계층적 검색-증강 인포그래픽 생성 방식을 구현하여 초고밀도 레이아웃과 프롬프트를 갖춘 확장 가능한 고품질 비즈니스 콘텐츠 데이터셋인 Infographics-650K를 구축하고; (ii) 초고밀도 레이아웃에 따라 수십 개의 영역별 프롬프트를 잘린 영역 잠재 공간에 주입하고, 레이아웃 조건부 CFG를 사용하여 추론 중에 각 하위 영역을 유연하게 정제하는 레이아웃-가이드 교차 주의 방식입니다. 우리는 BizEval 프롬프트 세트에서 Flux와 SD3와 같은 이전 SOTA 시스템과 비교하여 우리 시스템의 강력한 결과를 보여줍니다. 또한, 각 구성 요소의 효과를 검증하기 위해 철저한 제거 실험을 수행합니다. 우리가 구축한 Infographics-650K와 BizEval이 더 넓은 커뮤니티가 비즈니스 콘텐츠 생성의 진전을 촉진하는 데 기여하기를 바랍니다.
대규모 언어 모델(LLM) 추론에서 KV 캐시를 위한 획기적인 2비트 양자화 기술인 LogQuant를 소개합니다. 이 기술은 우수한 성능을 유지하면서도 상당한 메모리 절약을 제공합니다. 기존 방법들은 후속 토큰이 더 중요하다고 가정하거나, 이전의 어텐션 패턴을 기반으로 중요한 토큰을 예측하려고 시도했습니다. 그러나 이러한 접근 방식은 성능 병목 현상이나 빈번한 예측 오류를 초래할 수 있습니다. LogQuant는 다른 접근 방식을 취합니다. 로그 기반 필터링 메커니즘을 적용하여 전체 컨텍스트에 걸쳐 KV 캐시를 선택적으로 압축함으로써, 기존 방법과 동일하거나 더 적은 메모리 사용량으로도 더 나은 성능을 달성합니다. 벤치마크 테스트에서 LogQuant는 메모리 소비를 증가시키지 않으면서도 처리량을 25% 향상시키고 배치 크기를 60% 증가시켰습니다. 수학 및 코드 완성과 같은 도전적인 작업에서 LogQuant는 동일한 압축 비율에서 정확도를 40%에서 200%까지 개선하여 유사한 기술들을 능가했습니다. LogQuant는 Python의 transformers 라이브러리와 같은 인기 있는 추론 프레임워크와 원활하게 통합됩니다. 구현은 https://github.com/Concyclics/LogQuantKV에서 확인할 수 있습니다.
우리는 소규모 언어 모델의 지식 집약적 작업에 대한 추론 능력을 향상시키는 새로운 접근법인 MCTS-RAG를 소개한다. 이 방법은 관련 컨텍스트를 제공하기 위해 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 활용하고, 추론 경로를 정제하기 위해 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 사용한다. MCTS-RAG는 반복적인 의사결정 프로세스를 통해 검색과 추론을 동적으로 통합한다. 일반적인 RAG 방법이 추론과 독립적으로 정보를 검색하여 지식을 최적이 아닌 방식으로 통합하거나, 기존의 MCTS 추론이 외부 사실 없이 모델 내부 지식에만 의존하는 것과 달리, MCTS-RAG는 구조화된 추론과 적응형 검색을 결합한다. 이 통합 접근법은 의사결정을 강화하고, 환각(hallucination)을 줄이며, 사실적 정확성과 응답 일관성을 개선한다. 여러 추론 및 지식 집약적 데이터셋(예: ComplexWebQA, GPQA, FoolMeTwice)에 대한 실험 결과는 우리의 방법이 소규모 언어 모델이 GPT-4o와 같은 최첨단 대형 언어 모델과 비슷한 성능을 달성할 수 있도록 하여, 추론 시간 계산을 효과적으로 확장함으로써 소규모 모델의 추론에 새로운 기준을 제시함을 보여준다.
디퓨전 모델은 비디오 생성 분야에서 놀라운 발전을 이루어 왔습니다. 그러나 반복적인 노이즈 제거 특성으로 인해 비디오를 생성하기 위해 많은 수의 추론 단계가 필요하며, 이는 속도가 느리고 계산 비용이 많이 듭니다. 본 논문에서는 기존 디퓨전 증류 방법의 문제점을 상세히 분석하고, 합성 데이터셋을 활용하여 비디오 디퓨전 모델의 추론 단계를 줄이는 새로운 효율적인 방법인 AccVideo를 제안합니다. 우리는 사전 학습된 비디오 디퓨전 모델을 활용하여 여러 유효한 노이즈 제거 궤적을 생성하고 이를 합성 데이터셋으로 사용함으로써 증류 과정에서 불필요한 데이터 포인트의 사용을 제거합니다. 이 합성 데이터셋을 기반으로, 노이즈에서 비디오로의 매핑을 학습하기 위해 노이즈 제거 궤적의 핵심 데이터 포인트를 활용하는 궤적 기반의 적은 단계 지도 방식을 설계하여 더 적은 단계로 비디오를 생성할 수 있게 합니다. 또한, 합성 데이터셋이 각 디퓨션 시간 단계에서의 데이터 분포를 포착하므로, 학생 모델의 출력 분포를 합성 데이터셋의 분포와 일치시키기 위한 적대적 학습 전략을 도입하여 비디오 품질을 향상시킵니다. 광범위한 실험을 통해 우리의 모델이 교사 모델 대비 8.5배 빠른 생성 속도를 달성하면서도 유사한 성능을 유지함을 입증했습니다. 기존의 가속화 방법과 비교할 때, 우리의 접근 방식은 더 높은 품질과 해상도(5초, 720x1280, 24fps)의 비디오를 생성할 수 있습니다.
대규모 언어 모델(LLMs)에서 시스템 1에서 시스템 2 사고로의 전환은 신중하고 반복적인 사고를 통해 복잡한 작업을 처리하는 데 있어 상당한 진전을 이루었습니다. 그러나 이러한 진전은 종종 효율성을 희생시키며, 모델들이 과도하게 사고하여 출력 품질의 비례적 개선 없이 불필요한 추론 단계를 생성하는 경향이 있습니다. Long-to-Short(L2S) 추론은 이러한 문제를 해결하기 위한 유망한 솔루션으로, 추론 깊이와 실용적 효율성 사이의 균형을 맞추는 것을 목표로 합니다. 기존의 접근 방식인 지도 미세 조정(SFT), 강화 학습(RL), 프롬프트 엔지니어링 등은 잠재력을 보여주었지만, 계산 비용이 많이 들거나 불안정한 단점이 있습니다. 반면, 모델 병합은 시스템 1 모델의 빠른 사고 능력과 시스템 2 모델의 체계적인 추론을 통합함으로써 비용 효율적이고 견고한 대안을 제공합니다. 본 연구에서는 L2S 추론을 위한 모델 병합에 대한 포괄적인 실증 연구를 제시하며, 작업 벡터 기반, SVD 기반, 활성화 정보 기반 병합 등 다양한 방법론을 탐구합니다. 실험 결과, 모델 병합은 평균 응답 길이를 최대 55%까지 줄이면서도 기준 성능을 유지하거나 오히려 개선할 수 있음을 보여줍니다. 또한, 1.5B/7B/14B/32B 모델에 대한 광범위한 평가를 통해 모델 규모와 병합 효율성 사이의 강한 상관관계를 확인했습니다. 더 나아가, 병합된 모델의 자기 비판 및 자기 수정 능력과 작업 복잡도에 따른 적응적 응답 길이를 조사했습니다. 본 연구의 결과는 L2S 추론을 위한 매우 효율적이고 효과적인 패러다임으로서 모델 병합을 강조하며, 시스템 2 추론의 견고성을 유지하면서 과도한 사고 문제에 대한 실용적인 해결책을 제공합니다. 이 연구는 Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging에서 확인할 수 있습니다.
대규모 멀티모달 모델(Large Multimodal Models, LMMs)의 최근 발전은 자율주행 시스템(Autonomous Driving Systems, ADS) 분야에서 유망한 가능성을 보여주고 있습니다. 그러나 이러한 모델을 ADS에 직접 적용하는 데는 교통 지식의 오해, 복잡한 도로 조건, 차량의 다양한 상태와 같은 도전 과제가 존재합니다. 이러한 문제를 해결하기 위해, 우리는 전체 재학습 없이도 모델의 행동을 목표에 맞게 수정할 수 있는 지식 편집(Knowledge Editing) 기법을 제안합니다. 동시에, 우리는 ADS를 위해 특별히 설계된 멀티모달 지식 편집 데이터셋인 ADS-Edit을 소개합니다. 이 데이터셋은 다양한 실제 시나리오, 다중 데이터 유형, 그리고 포괄적인 평가 지표를 포함하고 있습니다. 우리는 포괄적인 실험을 수행하고 여러 흥미로운 결론을 도출했습니다. 우리의 연구가 자율주행 분야에서 지식 편집 응용의 더 나은 발전에 기여하기를 바랍니다. 코드와 데이터는 https://github.com/zjunlp/EasyEdit에서 확인할 수 있습니다.
프로세스 감독 보상 모델은 모델 응답에 대한 세분화된 단계별 피드백을 제공하는 정교한 기능으로, 복잡한 작업에 대한 추론 궤적의 효과적인 선택을 가능하게 합니다. 이러한 장점에도 불구하고, 특히 멀티모달 영역에서 PRM(Process Reward Model)에 대한 평가는 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해결하기 위해, 본 논문은 먼저 현재의 시각 대형 언어 모델(VLLM)을 출력 보상 모델(ORM)과 프로세스 보상 모델(PRM) 두 가지 유형으로 나누어 여러 시각-언어 벤치마크에서 평가합니다. 이 평가 결과, ORM과 PRM 모두 모든 작업에서 일관되게 우수한 성능을 보이지는 않으며, 우수한 VLLM이 반드시 더 나은 보상 성능을 보이는 것은 아니라는 사실이 밝혀졌습니다. 평가를 더욱 발전시키기 위해, 우리는 집중적인 프로세스 보상 신호를 요구하는 시각-언어 벤치마크인 ViLBench를 소개합니다. 특히, OpenAI의 GPT-4o with Chain-of-Thought(CoT)는 27.3%의 정확도만을 달성하여, 현재 VLLM들에게 이 벤치마크가 얼마나 도전적인지를 보여줍니다. 마지막으로, 일반 VLLM과 보상 모델 간의 격차를 해소할 수 있는 유망한 경로를 예비적으로 제시합니다. 향상된 트리 탐색 알고리즘을 사용하여 73.6K의 시각-언어 프로세스 보상 데이터를 수집함으로써, 우리의 3B 모델은 OpenAI o1의 생성물을 선택하여 ViLBench에서 표준 CoT 대비 평균 3.3%의 개선과 미훈련 대비 최대 2.5%의 개선을 달성할 수 있었습니다. 우리는 코드, 모델, 데이터와 함께 구현 내용을 https://ucsc-vlaa.github.io/ViLBench에서 공개합니다.
컴퓨터 비전 모델은 다양한 데이터셋과 작업에서 편향을 나타내고 이를 증폭시키는 것으로 나타났습니다. 기존의 분류 모델 편향 측정 방법은 주로 데이터셋 분포와 하위 그룹에 대한 모델 성능에 초점을 맞추며, 모델의 내부 작동 방식을 간과해 왔습니다. 우리는 Attention-IoU(Attention Intersection over Union) 메트릭과 관련 점수를 소개하며, 이는 어텐션 맵을 사용하여 모델의 내부 표현에 존재하는 편향을 드러내고 이러한 편향을 유발할 수 있는 이미지 특징을 식별합니다. 먼저, 합성 데이터셋인 Waterbirds에서 Attention-IoU를 검증하여 이 메트릭이 모델 편향을 정확히 측정함을 보여줍니다. 그런 다음 CelebA 데이터셋을 분석하여 Attention-IoU가 정확도 차이를 넘어선 상관관계를 발견함을 확인합니다. 'Male'이라는 보호 속성을 통해 개별 속성을 조사함으로써 CelebA에서 편향이 나타나는 다양한 방식을 살펴봅니다. 마지막으로, 훈련 세트를 하위 샘플링하여 속성 간 상관관계를 변경함으로써 Attention-IoU가 데이터셋 레이블에 존재하지 않는 잠재적인 혼란 변수를 드러낼 수 있음을 입증합니다.
많은 로보틱스 및 VR/AR 애플리케이션에서 빠른 카메라 움직임은 높은 수준의 모션 블러를 유발하며, 이는 기존의 카메라 포즈 추정 방법들이 실패하게 만듭니다. 본 연구에서는 모션 블러를 원치 않는 아티팩트로 취급하는 대신, 이를 모션 추정을 위한 풍부한 단서로 활용하는 새로운 프레임워크를 제안합니다. 우리의 접근 방식은 단일 모션 블러 이미지로부터 직접 조밀한 모션 흐름 필드와 단안 깊이 맵을 예측하는 방식으로 작동합니다. 그런 다음, 작은 움직임 가정 하에서 선형 최소 제곱 문제를 해결하여 순간 카메라 속도를 복원합니다. 본질적으로, 우리의 방법은 빠르고 격렬한 카메라 움직임을 강력하게 포착하는 IMU와 유사한 측정값을 생성합니다. 모델을 학습시키기 위해, 우리는 ScanNet++v2에서 도출된 현실적인 합성 모션 블러로 구성된 대규모 데이터셋을 구축하고, 완전히 미분 가능한 파이프라인을 사용하여 실제 데이터에 대해 엔드투엔드로 학습함으로써 모델을 추가로 개선합니다. 실제 벤치마크에 대한 광범위한 평가 결과, 우리의 방법이 MASt3R 및 COLMAP과 같은 현재의 방법들을 능가하며, 최신 수준의 각속도 및 병진 속도 추정을 달성함을 보여줍니다.
지식 증류(Knowledge Distillation)는 대규모 언어 모델에서 지식을 추출하는 데 비용 효율적인 기술이 될 수 있으며, 특히 교사 모델의 출력 로짓(logits)을 사전 계산하여 캐싱할 수 있는 경우에 그렇습니다. 그러나 이를 사전 학습에 성공적으로 적용하는 것은 아직까지 크게 탐구되지 않은 영역입니다. 본 연구에서는 Top-K 확률을 캐싱하는 것과 같은 직관적인 희소 지식 증류 방법이 교사 모델의 확률 분포를 학생 모델에 편향적으로 추정하게 되어 최적의 성능과 보정(calibration)을 달성하지 못한다는 것을 입증합니다. 우리는 중요도 샘플링(importance sampling) 기반의 방법인 '랜덤 샘플링 지식 증류(Random Sampling Knowledge Distillation)'를 제안합니다. 이 방법은 편향되지 않은 추정치를 제공하고, 기대값에서 그래디언트를 보존하며, 훨씬 더 희소한 로짓만 저장하면 됩니다. 우리의 방법은 교차 엔트로피(cross-entropy) 기반 학습에 비해 학생 모델의 학습 속도를 크게 향상시키면서도(10% 미만의 오버헤드), 300M에서 3B에 이르는 다양한 모델 크기에서 완전한 지식 증류와 비교해도 경쟁력 있는 성능을 유지합니다.
최근의 자기회귀(autoregressive) 및 확산(diffusion) 모델의 발전으로 짧은 장면 텍스트 단어를 포함한 이미지 생성에서 강력한 성능을 보여주고 있습니다. 그러나 슬라이드나 문서의 단락과 같은 긴 형식의 텍스트를 이미지로 생성하는 것은 현재의 생성 모델들에게 여전히 주요한 과제로 남아 있습니다. 본 연구는 기존의 텍스트-이미지 시스템이 주로 짧은 구문이나 단일 문장만을 처리하는 데 그치는 한계를 해결하기 위해, 장문 텍스트 이미지 생성에 초점을 맞춘 첫 번째 연구를 제시합니다. 최첨단 자기회귀 생성 모델에 대한 포괄적인 분석을 통해, 텍스트 생성 품질에서 이미지 토크나이저가 주요 병목 현상임을 확인했습니다. 이를 해결하기 위해, 우리는 상세한 장면 텍스트 특징을 포착하도록 최적화된 새로운 텍스트 중심의 이진 토크나이저를 도입했습니다. 이 토크나이저를 활용하여, 우리는 전례 없는 충실도로 고품질의 장문 텍스트 이미지를 생성하는 데 탁월한 성능을 보이는 다중모드 자기회귀 모델인 \ModelName을 개발했습니다. 우리의 모델은 글꼴 스타일, 크기, 색상, 정렬과 같은 텍스트 속성을 사용자 정의할 수 있는 강력한 제어 기능을 제공합니다. 광범위한 실험을 통해 \ModelName이 SD3.5 Large~sd3 및 GPT4o~gpt4o with DALL-E 3~dalle3보다 장문 텍스트를 정확하고 일관성 있게, 유연하게 생성하는 데 있어서 크게 우수함을 입증했습니다. 기술적 성과를 넘어, \ModelName은 인터리브된 문서 및 PowerPoint 생성과 같은 혁신적인 응용 프로그램에 대한 흥미로운 기회를 열어, 장문 텍스트 이미지 생성의 새로운 지평을 열었습니다.
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Model, LLM)의 사후 훈련(post-training)에서 중요한 구성 요소입니다. 그러나 현재 사후 훈련에 사용되는 온-정책(on-policy) 알고리즘은 경험 재생 버퍼(experience replay buffer)의 사용과 본질적으로 호환되지 않습니다. 이러한 버퍼는 분산된 오프-정책(off-policy) 액터를 통해 확장 가능하게 채워질 수 있으며, 이는 컴퓨팅 자원이 증가함에 따라 탐색을 강화하는 데 도움을 줄 수 있습니다. 우리는 이러한 재생 버퍼의 이점을 "비동기적 궤적 균형(Trajectory Balance with Asynchrony, TBA)"이라는 대규모 확장 가능한 LLM RL 시스템을 통해 효율적으로 얻는 방법을 제안합니다. 기존 접근 방식과 달리, TBA는 검색에 더 많은 컴퓨팅 자원을 할당하며, 지속적으로 오프-정책 데이터를 생성하여 중앙 재생 버퍼에 공급합니다. 훈련 노드는 이 버퍼에서 보상이나 최신성을 기준으로 데이터를 샘플링하여 정책을 업데이트하는데, 이때 GFlowNets를 위해 도입된 다양성 추구 RL 목표인 "궤적 균형(Trajectory Balance, TB)"을 사용합니다. TBA는 세 가지 주요 장점을 제공합니다: (1) 훈련과 검색의 분리로 인해 훈련 시간을 4배 이상 단축, (2) 대규모 오프-정책 샘플링을 통한 다양성 향상, (3) 희소 보환 설정에서의 확장 가능한 검색. 수학적 추론, 선호도 튜닝, 자동화된 레드 팀링(다양하고 대표적인 사후 훈련 작업)에서 TBA는 강력한 베이스라인 대비 속도와 성능 향상을 보여줍니다.
카테고리 수준의 3D/6D 포즈 추정은 포괄적인 3D 장면 이해를 위한 중요한 단계로, 로보틱스와 구현된 AI 분야에서 다양한 응용을 가능하게 할 것입니다. 최근 연구들은 신경망 메시 모델을 탐구하며, 합성에 의한 분석 관점에서 다양한 2D 및 3D 작업에 접근했습니다. 부분적 폐색과 도메인 변화에 대한 강건성이 크게 향상되었음에도 불구하고, 이러한 방법들은 부분 대조 학습을 위한 3D 주석에 크게 의존하여, 제한된 범주의 카테고리에 국한되고 효율적인 확장을 방해했습니다. 본 연구에서는 대규모 시각적 기초 모델에서 얻은 가상 대응점을 활용하여 3D 주석 없이 학습된 새로운 신경망 메시 모델인 DINeMo를 제시합니다. 우리는 지역적 외형 특징과 전역적 문맥 정보를 모두 활용하여 가상 대응점을 생성하는 양방향 가상 대응점 생성 방법을 채택했습니다. 자동차 데이터셋에 대한 실험 결과는 우리의 DINeMo가 이전의 제로샷 및 퓨샷 3D 포즈 추정을 크게 능가하며, 완전 지도 학습 방법과의 격차를 67.3%로 좁혔음을 보여줍니다. 또한, DINeMo는 학습 중에 더 많은 라벨 없는 이미지를 통합할 때 효과적이고 효율적으로 확장되며, 이는 3D 주석에 의존하는 지도 학습 방법에 비해 장점을 보여줍니다. 우리의 프로젝트 페이지는 https://analysis-by-synthesis.github.io/DINeMo/에서 확인할 수 있습니다.
비디오에서의 움직임 추정은 제어 가능한 비디오 생성 및 로보틱스를 포함한 다양한 하위 응용 분야에서 필수적인 컴퓨터 비전 문제입니다. 현재의 솔루션은 주로 합성 데이터를 사용하여 훈련되거나 상황별 휴리스틱의 조정이 필요하며, 이는 본질적으로 이러한 모델의 실세계 적용 능력을 제한합니다. 최근 대규모 자기 지도 학습을 통한 비디오 학습의 발전에도 불구하고, 이러한 표현을 움직임 추정에 활용하는 것은 상대적으로 덜 탐구된 분야입니다. 본 연구에서는 사전 훈련된 다음 프레임 예측 모델로부터 흐름 및 폐색 추정을 위한 자기 지도 학습 기법인 Opt-CWM을 개발합니다. Opt-CWM은 고정된 휴리스틱 없이도 제한 없는 비디오 입력을 통해 훈련하면서 기본 비디오 모델로부터 움직임 정보를 추출하는 반사실적 프로브를 최적화하는 방식으로 작동합니다. 이를 통해 레이블이 없는 데이터만으로도 실세계 비디오에서의 움직임 추정에 있어 최첨단 성능을 달성합니다.
스코어 기반 또는 확산 모델은 GAN 기반 및 VAE 기반 모델을 능가하는 고품질의 테이블 데이터를 생성합니다. 그러나 이러한 방법은 상당한 학습 시간을 요구합니다. 본 논문에서는 텍스트-이미지 생성 및 텍스트-비디오 생성과 같은 분야에 적용된 정류 흐름 모델링을 사용한 RecTable을 소개합니다. RecTable은 몇 개의 스택된 게이트 선형 유닛 블록으로 구성된 간단한 아키텍처를 특징으로 합니다. 또한, 우리의 학습 전략도 혼합형 노이즈 분포와 로짓-정규 시간 단계 분포를 포함하여 단순합니다. 우리의 실험 결과, RecTable은 여러 최신 확산 및 스코어 기반 모델과 비교하여 경쟁력 있는 성능을 달성하면서도 필요한 학습 시간을 줄이는 것을 보여줍니다. 우리의 코드는 https://github.com/fmp453/rectable에서 확인할 수 있습니다.
문서 구조 분석, 즉 문서 레이아웃 분석은 문서의 물리적 배치와 논리적 구조를 이해하는 데 필수적이며, 정보 검색, 문서 요약, 지식 추출 등에 활용됩니다. 계층적 문서 구조 분석(HDSA)은 특히 계층적 스키마를 사용한 저작 소프트웨어로 생성된 문서의 계층적 구조를 복원하는 것을 목표로 합니다. 기존 연구는 주로 두 가지 접근 방식을 따랐습니다: 하나는 테이블 감지 또는 읽기 순서 예측과 같은 HDSA의 특정 하위 작업을 개별적으로 해결하는 데 초점을 맞추는 반면, 다른 하나는 각각 별도의 작업을 처리하도록 설계된 다중 브랜치 또는 모듈을 사용하는 통합 프레임워크를 채택합니다. 본 연구에서는 UniHDSA라는 HDSA를 위한 통합 관계 예측 접근 방식을 제안합니다. 이 접근 방식은 다양한 HDSA 하위 작업을 관계 예측 문제로 취급하고 관계 예측 레이블을 통합된 레이블 공간으로 통합합니다. 이를 통해 단일 관계 예측 모듈이 페이지 수준 또는 문서 수준 구조 분석에서 여러 작업을 동시에 처리할 수 있습니다. UniHDSA의 효과를 검증하기 위해 Transformer 아키텍처를 기반으로 한 멀티모달 엔드투엔드 시스템을 개발했습니다. 광범위한 실험 결과는 우리의 접근 방식이 계층적 문서 구조 분석 벤치마크인 Comp-HRDoc에서 최첨단 성능을 달성하고, 대규모 문서 레이아웃 분석 데이터셋인 DocLayNet에서도 경쟁력 있는 결과를 보여주며, 모든 하위 작업에서 우리 방법의 우수성을 효과적으로 입증합니다. Comp-HRDoc 벤치마크와 UniHDSA의 구성은 https://github.com/microsoft/CompHRDoc에서 공개적으로 제공됩니다.
컴퓨테이셔널 패솔로지(Computational Pathology)에서 유방암 생존 예측은 종양의 이질성으로 인해 상당한 도전 과제로 남아 있습니다. 예를 들어, 병리학 이미지에서 동일한 종양의 다른 영역이 서로 다른 형태학적 및 분자적 특성을 보일 수 있습니다. 이는 전체 슬라이드 이미지(WSI)에서 종양의 공격성 잠재력과 생존 결과를 진정으로 반영하는 대표적인 특징을 추출하기 어렵게 만듭니다. 본 논문에서는 더 효과적인 특징 학습을 가능하게 하기 위해 모든 크기의 병리학 이미지를 향상시키는 정확한 유방암 생존 예측을 위한 새로운 파이프라인인 PathoHR을 제안합니다. 우리의 접근 방식은 (1) 패치 단위 WSI 표현을 향상시켜 더 상세하고 포괄적인 특징 추출을 가능하게 하는 플러그 앤 플레이 고해상도 Vision Transformer(ViT) 통합, (2) WSI에서 추출된 특징을 비교하기 위해 여러 고급 유사성 메트릭을 체계적으로 평가하여 종양 특성을 더 잘 포착할 수 있도록 표현 학습 과정 최적화, (3) 제안된 파이프라인을 통해 향상된 더 작은 이미지 패치가 원본의 더 큰 패치와 동등하거나 더 나은 예측 정확도를 달성하면서도 계산 오버헤드를 크게 줄일 수 있음을 입증하는 것으로 구성됩니다. 실험 결과는 PathoHR이 향상된 이미지 해상도와 최적화된 특징 학습을 통합하여 컴퓨테이셔널 패솔로지를 발전시키고, 더 정확하고 효율적인 유방암 생존 예측을 위한 유망한 방향을 제시할 수 있는 잠재력을 가지고 있음을 검증합니다. 코드는 https://github.com/AIGeeksGroup/PathoHR에서 제공될 예정입니다.
작성 보조 도구(예: Grammarly, Microsoft Copilot)는 전통적으로 이미지 구성 요소를 설명하기 위해 구문적 및 의미적 변형을 활용하여 다양한 이미지 캡션을 생성합니다. 그러나 인간이 작성한 캡션은 시각적 설명과 함께 중심 메시지를 전달하는 데 중점을 두며, 이를 위해 실용적 단서를 사용합니다. 실용적 다양성을 향상시키기 위해서는 시각적 콘텐츠와 함께 이러한 메시지를 전달하는 대체 방법을 탐구하는 것이 필수적입니다. 이 문제를 해결하기 위해, 우리는 Coherence Relations(일관성 관계)를 변형 축으로 활용하는 새로운 프롬프팅 전략인 RONA를 제안합니다. RONA는 여러 도메인에서 MLLM(Multi-modal Large Language Models) 기준선과 비교하여 전반적으로 더 나은 다양성과 실제 데이터와의 일치성을 가진 캡션을 생성함을 입증합니다. 우리의 코드는 https://github.com/aashish2000/RONA에서 확인할 수 있습니다.