번역이 포함된 일일 선별된 AI 연구 논문
고성능 이미지 생성 모델 분야는 현재 Nano Banana Pro 및 Seedream 4.0과 같은 독점 시스템이 주류를 이루고 있습니다. Qwen-Image, Hunyuan-Image-3.0, FLUX.2 등의 주요 오픈소스 대안들은 방대한 매개변수 규모(200억~800억 개)를 특징으로 하여, 일반 소비자용 하드웨어에서의 추론 및 미세 조정이 실질적으로 불가능한 상황입니다. 이러한 격차를 해소하기 위해 본 논문은 '무조건적인 규모 확장' 패러다임에 도전하는 확장 가능 단일 스트림 디퓨전 트랜스포머(S3-DiT) 아키텍처 기반의 효율적인 60억 매개변수 기반 생성 모델인 Z-Image를 제안합니다. 정제된 데이터 인프라부터 효율화된 훈련 과정에 이르기까지 모델 전체 수명 주기를 체계적으로 최적화함으로써, 전체 훈련 워크플로를 단 314K H800 GPU 시간(약 63만 달러) 만에 완료합니다. 보상 사후 훈련을 결합한 저희의 few-step 증류 기법은 더 나아가 기업용 H800 GPU에서 초 단위 미만의 추론 지연 시간을 제공하며 소비자용 하드웨어(VRAM 16GB 미만)와도 호환되는 Z-Image-Turbo를 산출합니다. 또한, 본 논문의 범용 사전 훈련 패러다임은 뛰어난 지시어 수행 능력을 가진 편집 모델인 Z-Image-Edit의 효율적인 훈련도 가능하게 합니다. 정성적 및 정량적 실험 결과, 본 모델이 다양한 차원에서 선두 경쟁사들과 필적하거나 이를 능가하는 성능을 달성함을 입증합니다. 특히 Z-Image는 사실적 이미지 생성 및 한영 이중 언어 텍스트 렌더링 분야에서 탁월한 능력을 보여주며, 최상위 상용 모델에 버금가는 결과를 제공함으로써 최첨단 결과물이 훨씬 감소된 계산 비용으로도 달성 가능함을 입증합니다. 본 논문은 접근성 높고 비용 효율적이면서도 최첨단인 생성 모델 개발의 발전을 촉진하기 위해 코드, 가중치 및 온라인 데모를 공개합니다.
최근 이미지 편집 모델의 발전은 눈에 띄는 진전을 보여주고 있습니다. Step1X-Edit 및 Qwen-Image-Edit과 같은 시스템에서 볼 수 있듯이, 일반적인 아키텍처 설계는 멀티모달 대형 언어 모델(MLLM) 인코더와 디퓨전 디코더를 결합하는 방식입니다. 여기서 MLLM은 참조 이미지와 지시문을 모두 인코딩하지만 학습 중에는 고정된 상태를 유지합니다. 본 연구에서는 MLLM의 추론 능력을 개방함으로써 편집 모델의 한계를 더욱 확장할 수 있음을 보여줍니다. 구체적으로, 지시문 이해도와 편집 정확도를 향상시키는 두 가지 추론 메커니즘인 사고(thinking)와 성찰(reflection)을 탐구합니다. 이를 바탕으로, 우리가 제안하는 프레임워크는 사고-편집-성찰 루프를 통해 이미지 편집을 가능하게 합니다: 사고 메커니즘은 MLLM의 세계 지식을 활용하여 추상적인 지시문을 해석하는 반면, 성찰은 편집 결과를 검토하고 의도하지 않은 조작을 자동으로 수정하며 종료 라운드를 판별합니다. 폭넓은 실험을 통해 우리의 추론 접근법이 상당한 성능 향상을 달성함을 입증했습니다. Step1X-Edit에서 우리의 DiT를 초기화했을 때(ReasonEdit-S) ImgEdit(+4.3%), GEdit(+4.7%), Kris(+8.2%)에서 개선되었으며, Qwen-Image-Edit과 통합되었을 때(ReasonEdit-Q)에도 GEdit과 Kris 모두에서 기존 오픈소스 방법들을 능가하는 성능을 보였습니다.
최근 다인원 비디오 생성 기술이 주목받기 시작했습니다. 일부 선행 연구에서 오디오 기반 다인원 대화 비디오 생성을 탐구했으나, 다양한 다인원 데이터 수집의 높은 비용과 일관된 상호작용을 갖춘 다중 정체성 구동의 어려움으로 인해 어려움을 겪고 있습니다. 이러한 과제를 해결하기 위해 본 논문은 확장 가능한 다중 스트림 처리 아키텍처를 특징으로 하는 다인원 생성 프레임워크인 AnyTalker를 제안합니다. 구체적으로 우리는 Diffusion Transformer의 어텐션 블록을 확장하여 정체성-오디오 쌍을 반복적으로 처리함으로써 구동 가능한 정체성을 임의로 확장할 수 있는 새로운 정체성 인식 어텐션 메커니즘을 도입했습니다. 또한 다인원 생성 모델 학습에는 대규모 다인원 데이터가 필요합니다. 저희가 제안하는 학습 파이프라인은 단일 인물 비디오만으로 다인원 발화 패턴을 학습하고, 소수의 실제 다인원 클립으로 상호작용성을 정제합니다. 더 나아가 생성된 다인원 비디오의 자연스러움과 상호작용성을 평가하기 위한 특화된 측정 기준과 데이터셋을 구축했습니다. 폭넓은 실험을 통해 AnyTalker가 뛰어난 립 싱크로나이제이션, 시각적 품질, 자연스러운 상호작용성을 달성하며 데이터 비용과 정체성 확장성 사이에서 유리한 균형을 이루는 것을 입증했습니다.
비전 브리지 트랜스포머(ViBT)를 소개합니다. ViBT는 조건부 생성을 위해 설계된 브라운 브리지 모델의 대규모 구현체입니다. 노이즈를 데이터로 변환하는 기존 확산 모델과 달리, 브리지 모델은 입력과 출력 간의 궤적을 직접 모델링하여 효율적인 데이터-대-데이터 변환 패러다임을 생성합니다. 이러한 모델을 200억 개 및 13억 개 매개변수 규모로 확장하여 이미지 및 비디오 변환 작업에서의 효과를 입증합니다. 이러한 규모를 지원하기 위해 트랜스포머 아키텍처를 채택하고 강력한 학습을 위한 분산 안정화 속도 일치 목적 함수를 제안합니다. 이러한 발전들은 지시 기반 이미지 편집 및 복잡한 비디오 변환을 위해 브리지 모델을 확장하는 것의 힘을 부각시킵니다.
이미지 생성과 이해를 위한 통합 멀티모달 모델은 AGI로 나아가는 중요한 단계를 나타내며 연구자들의 폭넓은 관심을 끌고 있습니다. 이 과제의 주요 난제는 생성과 이해 과제 간의 본질적인 목표 상충으로 인해 최적의 훈련 패러다임을 수립하기 어렵다는 점에 있습니다. 이러한 상충을 완화하고 더 높은 성능을 추구하기 위해 많은 연구자들이 다양한 수준의 모델 디커플링(예: 이중 이미지 인코더, MOE/MOT 아키텍처, 고정 MLLM)을 채택하고 있습니다. 그러나 과도한 모델 디커플링은 인터리브 생성 능력의 상실을 초래하여 통합 모델의 본래 의도를 훼손할 수 있습니다. 본 연구에서는 모델 디커플링에 의존하지 않고 과제 상충을 완화하는 방법을 탐구하고자 합니다. 먼저, 모델의 크로스모달 어텐션 동작을 연구하여 디커플링이 왜 상충을 완화하는지 분석합니다. 우리는 모델 디커플링이 본질적으로 Qwen-VL와 HunyuanImage에서 볼 수 있듯이 모델이 과제 특화 멀티모달 상호작용 패턴을 따르도록 유도하며, 디커플링이 더 철저할수록 동작이 더 일관되게 나타난다는 사실을 관찰했습니다. 이 관찰에 동기를 받아, 우리는 훈련 중에 과제 특화 멀티모달 상호작용 패턴을 명시적으로 학습하는 어텐션 상호작용 정렬(AIA) 손실을 제안합니다. 우리의 AIA 손실의 일반화 가능성을 입증하기 위해, 이를 Emu3에는 SFT 단계에서, Janus-Pro에는 사후 훈련 단계에서 각각 적용합니다. 별다른 기법 없이도 AIA는 크로스모달 어텐션 패턴을 개선할 뿐만 아니라 생성과 이해 성능 모두를 향상시킵니다.
대규모 언어 모델은 수학적 추론에서 상당한 진전을 보여왔으며, 이는 AI의 중요한 시험대이자 더욱 발전할 경우 과학 연구에 영향을 미칠 수 있는 분야입니다. 정답에 대한 보상을 제공하는 강화 학습을 통해 추론 규모를 확장함으로써, LLM은 불과 1년 만에 낮은 성능에서 AIME 및 HMMT와 같은 양적 추론 경쟁에서 포화 상태에 이르는 성과를 거두었습니다. 그러나 이러한 접근 방식은 근본적인 한계에 직면해 있습니다. 최종 정답률을 높이는 것은 핵심 문제를 해결하지 못합니다. 즉, 정답이 올바른 추론을 보장하지는 않기 때문입니다. 더욱이 정리 증명과 같은 많은 수학적 과제는 수치적 답변이 아닌 엄격한 단계별 유도를 필요로 하여 최종 답변 보상이 적용되지 않습니다. 심층 추론의 한계를 극복하기 위해서는 수학적 추론의 포괄성과 엄밀성을 검증하는 것이 필요하다고 믿습니다. 특히 알려진 해답이 없는 미해결 문제에 대해 테스트 시간 계산 자원을 확장할 때 자기 검증(self-verification)은 특히 중요합니다. 자기 검증이 가능한 수학적 추론을 위해, 우리는 정리 증명을 위한 정확하고 신뢰할 수 있는 LLM 기반 검증기(verifier)를 어떻게 훈련시킬지 연구합니다. 그런 다음 이 검증기를 보상 모델로 사용하여 증명 생성기(proof generator)를 훈련시키고, 생성기가 자신의 증명을 최종 완성하기 전에 가능한 한 많은 문제점을 찾아내고 해결하도록 유도합니다. 생성기가 강해짐에 따라 생성과 검증 간의 격차(generation-verification gap)를 유지하기 위해, 우리는 검증 계산 자원을 확장하여 검증하기 어려운 새로운 증명에 자동으로 레이블을 지정하고, 이를 통해 검증기를 더욱 향상시킬 훈련 데이터를 생성하는 방법을 제안합니다. 이를 통해 개발된 우리의 모델인 DeepSeekMath-V2는 강력한 정리 증명 능력을 입증하여, 확장된 테스트 시간 계산을 통해 IMO 2025와 CMO 2024에서 금메달 수준의 점수를, Putnam 2024에서는 120점 만점에 118점에 가까운 거의 완벽한 성적을 달성했습니다.
확산 모델은 생성 품질과 계산 효율성 사이의 근본적인 트레이드오프에 직면해 있습니다. 잠재 확산 모델(LDM)은 효율적인 해결책을 제공하지만 잠재적 정보 손실 및 비 종단 간 학습 문제가 있습니다. 반면, 기존 픽셀 공간 모델은 VAE를 우회하지만 고해상도 합성에는 계산상 부담이 큽니다. 이러한 딜레마를 해결하기 위해 우리는 효율적인 픽셀 공간 확산 프레임워크인 DiP를 제안합니다. DiP는 생성을 전역 단계와 지역 단계로 분리합니다: Diffusion Transformer(DiT) 백본은 대형 패치에서 효율적인 전역 구조 구성을 수행하는 반면, 공동 학습된 경량 패치 디테일러 헤드는 문맥적 특징을 활용하여 정교한 지역 세부 사항을 복원합니다. 이러한 시너지 설계는 VAE에 의존하지 않으면서 LDM에 버금가는 계산 효율성을 달성합니다. DiP는 기존 방법 대비 최대 10배 빠른 추론 속도를 구현하면서 총 매개변수 수는 0.3%만 증가하였으며, ImageNet 256×256에서 1.79 FID 점수를 달성했습니다.
일반화 가능한 시각-언어-행동(Vision-Language-Action, VLA) 모델을 강력한 추론 능력으로 구축하기 위한 일반적인 전략은, 먼저 로봇 데모 데이터로 전문 VLA 모델을 학습시켜 신뢰할 수 있는 조작 기술을 습득한 후, 혼합 주석 로봇 데이터와 다중 모달 데이터를 함께 활용하여 광범위한 추론 능력을 회복시키는 것이다. 그러나 우리는 미세 조정(fine-tuning) 이전의 전문 모델 대비 결과적인 추론 VLA의 행동 성능이 저하되는, 즉 '행동 성능 저하(action degeneration)' 현상이 자주 발생함을 관찰했다. 이 문제를 해결하기 위해 우리는 신중하게 설계된 후속 학습(post-training)을 통해 행동 성능을 향상시키면서도 추론 능력을 보존하는 DualVLA를 제안한다. 우리는 먼저 중복된 구현적 추론(embodied reasoning)을 제거하여 행동 학습에 부정적인 영향을 미치는 것을 방지하는 이중 계층 데이터 정제(dual-layer data pruning) 방법을 도입한다. 행동 생성 능력을 더욱 강화하기 위해, 서로 다른 데이터 영역에 다른 감독 신호를 할당하면서 추론 능력을 유지하는 이중 교사 적응형 지식 증류(dual-teacher adaptive distillation) 전략을 설계한다. 또한 일반형 VLA에 대한 평가 격차를 해소하기 위해, VLA 능력을 추론, 의도, 행동, 정렬 차원으로 분리하여 더 세분화된 평가를 가능하게 하는 VLA Score를 제안한다. 실험 결과, DualVLA는 SimplerEnv에서 평균 61.0%의 성공률을 달성했으며 8개의 경쟁력 있는 다중 모달 벤치마크에서 평균 65.4점의 점수를 기록하여 정확한 행동 실행과 다중 모달 이해 사이의 더욱 강력한 균형을 입증했다. 프로젝트 웹사이트: https://costaliya.github.io/DualVLA/.
본 논문에서는 적대적 모델과 플로우 모델을 통합한 생성 모델 클래스인 적대적 플로우 모델을 제안합니다. 우리의 방법은 기본적으로 1단계 또는 다단계 생성을 지원하며 적대적 목적함수를 사용하여 훈련됩니다. 생성자가 노이즈와 데이터 분포 사이의 임의 전송 계획을 학습하는 기존 GAN과 달리, 우리의 생성자는 플로우 매칭 모델과 동일한 최적 전송에 해당하는 결정론적 노이즈-데이터 매핑을 학습합니다. 이는 적대적 훈련을 현저히 안정화시킵니다. 또한, 일관성 기반 방법과 달리 우리 모델은 전파를 위해 확률 흐름의 중간 시간 단계를 학습할 필요 없이 직접 1단계 또는 소수 단계 생성을 학습합니다. 이는 모델 용량을 절약하고 훈련 반복 횟수를 줄이며 오차 누적을 방지합니다. ImageNet-256px에서 동일한 1NFE 설정 하에, 우리의 B/2 모델은 일관성 기반 XL/2 모델의 성능에 근접하는 반면, 우리의 XL/2 모델은 2.38이라는 새로운 최고 FID 기록을 세웁니다. 또한 우리는 중간 감독 없이 깊이 반복을 통해 56층 및 112층 모델의 종단간 훈련 가능성을 추가로 보여주며, 단일 순전파만을 사용하여 각각 2.08과 1.94의 FID를 달성하여 해당 모델들의 2NFE 및 4NFE 결과를 능가합니다.
본 연구는 '기억할 수 있는 기계' 구축이라는 과제를 탐구하며, 장기 기억을 효율적인 초장기 문맥 모델링 문제로 규정합니다. 우리는 이를 위해 희소성, 무작위 접근 유연성, 길이 일반화라는 세 가지 핵심 속성이 필요함을 주장합니다. 초장기 문맥 모델링을 해결하기 위해 우리는 이 세 가지 속성을 모두 충족하는 새로운 어텐션 메커니즘인 계층적 희소 어텐션(HSA)을 활용합니다. 우리는 HSA를 트랜스포머에 통합하여 8B 매개변수의 MoE 모델인 HSA-UltraLong을 구축했으며, 8조 개 이상의 토큰으로 학습하고 도메인 내 및 도메인 외 문맥 길이를 가진 다양한 작업에서 엄격하게 평가하여 초장기 문맥 처리 능력을 입증했습니다. 결과에 따르면 우리 모델은 도메인 내 길이에서는 전체 어텐션 기준 모델과 유사한 성능을 보이면서도 최대 16M 길이의 문맥을 가진 대부분의 문맥 내 검색 작업에서 90% 이상의 정확도를 달성했습니다. 본 보고서는 실험적 통찰과 미해결 과제를 제시함으로써 초장기 문맥 모델링 분야의 향후 연구를 위한 기반을 마련합니다.
확산 모델 지식 증류는 효율적인 few-step 및 single-step 생성기를 구축하기 위한 강력한 기법으로 부상했습니다. 그중에서도 Distribution Matching Distillation(DMD)과 그 변형들은 사전 학습된 교사 모델의 출력 분포를 학생 모델이 맞추는 핵심 메커니즘 덕분에 인상적인 성능을 보인다고 널리 알려져 있습니다. 본 연구에서는 이러한 기존의 해석에 의문을 제기합니다. DMD 훈련 목적 함수를 엄밀하게 분해함으로써, CFG가 바람직한 few-step 성능을 위해 일반적으로 필요한 텍스트-이미지 생성과 같은 복잡한 작업에서, few-step 증류의 주된 동인이 분포 매칭이 아니라 우리가 CFG 증강(CA)으로 규명한 이전에 간과된 구성 요소임을 밝혔습니다. 우리는 이 항이 증류의 핵심 "엔진" 역할을 하는 반면, 분포 매칭(DM) 항은 훈련 안정성을 보장하고 인공적 결함을 완화하는 "정규화" 기능을 수행함을 입증합니다. 또한 DM 항이 매우 효과적인 정규화 방법이지만 유일하지는 않으며, 더 단순한 비모수적 제약 조건이나 GAN 기반 목적 함수도 서로 다른 절충점을 가지면서 동일한 안정화 기능을 수행할 수 있음을 보여줌으로써 이러한 역할 분리를 추가로 검증합니다. 이러한 역할 분리는 두 항의 특성에 대한 보다 원칙적인 분석을 가능하게 하여, 더 체계적이고 깊이 있는 이해로 이어집니다. 이러한 새로운 이해는 더 나아가 증류 과정에 대한 원칙적인 수정, 예를 들어 엔진과 정규화를 위한 노이즈 스케줄을 분리하여 성능을 더욱 향상시키는 방법을 제안할 수 있게 합니다. 특히, 우리의 방법은 Z-Image( https://github.com/Tongyi-MAI/Z-Image ) 프로젝트에서 최고 수준의 8-step 이미지 생성 모델 개발에 채택되어 우리 연구 결과의 일반화 성능과 견고성을 경험적으로 입증했습니다.
언어 모델(LM)이 자신의 응답을 자기 성찰적으로 개선할 수 있을까? 이 질문은 실제 사용자 상호작용의 상당 부분이 개선 요청을 포함하는 만큼 점점 더 중요해지고 있다. 그러나 기존 연구는 주로 경쟁 수학이나 단순화된 구조의 기호 추론과 같이 검증 가능한 과제에서 LM의 개선 능력을 테스트해왔으며, 사용자는 종종 개방형 질문을 제기하고 원하는 바에 대해 다양한 수준의 피드백을 제공한다. 최근 사고 연쇄 과정에서 자기 반성 패턴을 보이는 추론 모델의 등장은 이 문제를 더욱 부각시킨다. 이를 분석하기 위해 우리는 11개 영역에 걸친 1,000개의 난제와 체크리스트 기반 평가 프레임워크로 구성된 벤치마크인 RefineBench를 소개한다. 우리는 두 가지 개선 모드를 평가한다: (1) 언어 모델에 자연어 피드백을 제공하는 지도 개선과 (2) 지도 없이 언어 모델이 스스로 개선을 시도하는 자기 개선이다. 자기 개선 설정에서는 Gemini 2.5 Pro 및 GPT-5와 같은 최첨단 언어 모델도 각각 31.3%, 29.1%의 낮은 기준 점수를 달성하며, 대부분의 모델은 반복을 거쳐도 일관적으로 개선되지 않았다(예: Gemini-2.5-Pro는 +1.8% 향상에 그친 반면, DeepSeek-R1은 -0.1% 감소). 이와 대조적으로, 지도 개선에서는 사유 언어 모델과 대규모 오픈 웨이트 언어 모델(>70B) 모두 표적 피드백을 활용하여 5턴 이내에 응답을 거의 완벽한 수준으로 개선할 수 있었다. 이러한 결과는 최첨단 언어 모델이 잘못된 응답을 자기 개선하기 위해서는 획기적인 발전이 필요하며, RefineBench가 발전을 추적하는 데 유용한 테스트베드를 제공함을 시사한다.
실제 기기에서의 지연 시간(latency)이 주요 고려사항일 때 소규모 언어 모델(SLM) 설계 및 학습을 위한 일반화 가능한 원칙과 방법론을 제시하고자 한다. 구체적으로 우리는 두 가지 핵심 구조적 결정 요인, 즉 깊이-폭 비율(depth-width ratio)과 연산자(operator) 선택을 확인했다. 전자는 소규모 배치 크기(small-batch-size)에서의 지연 시간에, 후자는 지연 시간과 대규모 배치 크기(large-batch-size) 처리량(throughput) 모두에 영향을 미친다. 이를 바탕으로 우리는 먼저 지연 시간 최적의 깊이-폭 비율을 연구했으며, 동일한 매개변수 예산 내에서 일반적으로 깊고 얇은(deep-thin) 모델이 더 나은 정확도를 달성하지만, 이들이 정확도-지연 시간 트레이드오프 경계선 상에 위치하지는 않을 수 있다는 핵심 결과를 도출했다. 다음으로, 차세대 효율적 어텐션(attention) 대안들을 탐구하여 구성 연산자 후보로서의 잠재력을 평가했다. 확인된 유망 연산자들을 활용하여 하이브리드 SLM 내에서 이러한 연산자들의 지연 시간 최적 조합을 자동으로 발견하는 진화적 탐색 프레임워크를 구축함으로써 정확도-지연 시간 경계선을 발전시켰다. 구조적 개선 외에도 가중치 정규화(weight normalization) 기법을 사용해 SLM 학습을 추가로 향상시켜 더 효과적인 가중치 업데이트와 최종 수렴(convergence) 개선을 가능하게 했다. 이러한 방법들을 결합하여 Nemotron-Flash라는 새로운 하이브리드 SLM 패밀리를 소개하며, 이는 최신 SLM의 정확도-효율성 경계선을 크게 발전시켜 예를 들어 Qwen3-1.7B/0.6B 대비 평균 정확도 +5.5% 이상 향상, 지연 시간 1.3배/1.9배 감소, 처리량 18.7배/45.6배 향상을 각각 달성했다.
월드 엔진은 사용자 제어 카메라 운동 하에서 장면의 인터랙티브 탐색을 지원하는 긴 3D 일관성 비디오를 합성하는 것을 목표로 합니다. 그러나 기존 시스템은 공격적인 6자유도 궤적과 복잡한 실외 배경에서 어려움을 겪습니다: 장거리 기하학적 일관성을 잃거나, 목표 경로에서 이탈하거나, 지나치게 보수적인 운동으로 수렴합니다. 이를 위해 우리는 지속적인 월드 메모리에서 검색하여 비디오를 생성하는 포즈 조건 월드 엔진인 Captain Safari를 소개합니다. 주어진 카메라 경로에 대해 우리의 방법은 동적 로컬 메모리를 유지하고 검색기를 사용하여 포즈에 정렬된 월드 토큰을 가져온 다음, 이를 통해 궤적을 따라 비디오 생성을 조건화합니다. 이 설계는 모델이 안정적인 3D 구조를 유지하면서도 도전적인 카메라 기동을 정확하게 실행할 수 있게 합니다. 이 설정을 평가하기 위해 우리는 다단계 기하학적 및 운동학적 검증 파이프라인을 통해 구축된, 검증된 카메라 궤적을 가진 고다이내믹 드론 비디오를 포함하는 새로운 실제 환경 FPV 데이터셋인 OpenSafari를 정리했습니다. 비디오 품질, 3D 일관성 및 궤적 추종성 전반에 걸쳐 Captain Safari는 최첨단 카메라 제어 생성기를 크게 능가합니다. MEt3R를 0.3703에서 0.3690으로 줄이고, AUC@30를 0.181에서 0.200으로 향상시키며, 모든 카메라 제어 기준선보다 현저히 낮은 FVD를 보여줍니다. 더 중요하게는, 50명의 참가자가 5가지 익명 모델 중 최고의 결과를 선택하는 5방향 인간 평가에서 평가자들의 67.6%가 모든 측면에서 우리의 방법을 선호했습니다. 우리의 결과는 포즈 조건 월드 메모리가 장기간 제어 가능한 비디오 생성을 위한 강력한 메커니즘이며, OpenSafari가 향후 월드 엔진 연구를 위한 도전적인 새로운 벤치마크로 제공됨을 입증합니다.
세계화된 현대 사회에서는 다양한 문화적 요소들이 단일 시각적 장면 안에서 빈번하게 공존합니다. 우리는 이를 문화 혼합 시나리오라고 부르지만, 대규모 시각-언어 모델(LVLM)이 이러한 상황을 어떻게 인지하는지는 아직 충분히 연구되지 않았습니다. 본 연구는 문화 혼합을 LVLM의 중요한 과제로 조명하고, 여러 지역의 문화적 항목이 함께 등장할 때 현재 모델들이 어떤 양상을 보이는지 검토합니다. 이러한 행동을 체계적으로 분석하기 위해 우리는 CultureMix를 구축했습니다. 이는 푸드 시각 질의응답(VQA) 벤치마크로, 4가지 하위 작업( (1) 음식 단독, (2) 음식+음식, (3) 음식+배경, (4) 음식+음식+배경)에 대해 확산 모델로 생성되고 인간이 검증한 23,000개의 문화 혼합 이미지로 구성됩니다. 10개의 LVLM을 평가한 결과, 혼합된 환경에서 개별 문화적 정체성을 유지하는 데 모델들이 일관되게 실패하는 것을 확인했습니다. 모델들은 강한 배경 의존성을 보였으며, 음식만 있는 기준 설정에 문화적 배경이 추가되면 정확도가 14% 하락했습니다. 또한 동일한 음식에 대해 다른 맥락에서 일관성 없는 예측을 생성했습니다. 이러한 한계를 해결하기 위해 우리는 세 가지 강건성 전략을 탐구합니다. 다양한 문화 혼합 데이터셋을 활용한 지도 미세 조정이 모델의 일관성을 크게 향상시키고 배경 민감도를 줄인다는 사실을 발견했습니다. 우리는 문화 혼합 시나리오에 대한 관심을 높여, 문화적으로 다양한 실제 환경에서 안정적으로 작동할 수 있는 LVLM 개발로 나아가는 것이 중요하다고 촉구합니다.
멀티모달 대규모 언어 모델(MLLMs)은 다양한 의료 분야에서 막대한 잠재력을 보여왔지만, 치과 분야는 도메인 특화 데이터의 부족, 치과 전문가 주석의 희소성, 양식별 모델링의 불충분, 신뢰성 문제 등으로 인해 상대적으로 덜 탐구되어 왔습니다. 본 논문에서는 다양한 치과 영상 양식과 임상 과전에 걸쳐 포괄적이고 신뢰할 수 있는 분석을 위해 설계된 최초의 치과 특화 MLLM인 OralGPT-Omni를 제안합니다. 치과 의사의 진단 추론 과정을 명시적으로 포착하기 위해, 우리는 치과 방사선 전문의의 의사 결정 과정을 반영하는 임상 기반 연쇄 사고(Chain-of-Thought) 데이터셋인 TRACE-CoT를 구축했습니다. 이러한 추론 지도(Supervision)와 우리가 제안하는 4단계 학습 패러다임을 결합함으로써 모델의 치과 영상 이해 및 분석 능력을 크게 강화했습니다. 동시에, 우리는 치과 영상 분석을 위한 최초의 통합 멀티모달 벤치마크인 MMOral-Uni를 소개합니다. 이 벤치마크는 5가지 영상 양식과 5가지 과업에 걸친 2,809개의 개방형 질문-답변 쌍으로 구성되어 디지털 치과에서 MLLMs를 평가하기 위한 현재까지 가장 포괄적인 평가 도구를 제공합니다. OralGPT-Omni는 MMOral-Uni 벤치마크에서 51.84점, MMOral-OPG 벤치마크에서 45.31점의 종합 점수를 달성하여 GPT-5의 점수를 크게 능가했습니다. 우리의 연구는 지능형 치과의학을 촉진하고 치과 영상 분석의 미래 발전을 위한 길을 열어줄 것입니다. 모든 코드, 벤치마크 및 모델은 공개될 예정입니다.
이미지 내 특정 패치를 관측하면 다른 패치들의 불확실성이 감소합니다. 이들의 실현은 양자역학에서 입자의 파동 함수가 붕괴되는 것과 유사하게, 각 나머지 패치 특징의 분포 엔트로피를 낮춥니다. 이러한 현상을 직관적으로 패치 붕괴(patch collapse)라고 명명할 수 있습니다. 대상 영역의 붕괴 과정에서 가장 의존되는 패치들을 규명하기 위해, 우리는 각 대상 패치를 재구성하기 위해 부분 집합의 패치들을 연성 선택(softly select)하는 오토인코더를 학습합니다. 각 패치의 페이지랭크(PageRank) 점수에 대해 학습된 이러한 의존 관계를 그래프로 나타내면 이미지를 실현하기 위한 최적의 패치 순서를 도출할 수 있습니다. 우리는 이 순서를 준수하는 것이 다양한 마스킹 이미지 모델링 방법에 도움이 됨을 보여줍니다. 먼저, 최신 모델인 MAR을 재학습시켜 자율회귀(auto-regressive) 이미지 생성을 향상시킬 수 있습니다. 다음으로, 붕괴 순서상 높은 순위의 패치들만을 Vision Transformer에 노출시켜 이미지 분류를 위한 새로운 설정을 소개합니다. 이러한 패치의 22%만 보는 것으로도 높은 정확도를 달성하기에 충분합니다. 이러한 실험을 통해 우리는 시각 효율성(vision efficiency)을 증진하는 새로운 이미지 모델링 관점으로서 패치 붕괴를 제안합니다. 우리의 프로젝트는 https://github.com/wguo-ai/CoP 에서 확인할 수 있습니다.
최근 대규모 언어 모델은 자세한 사고 연쇄(chain-of-thought) 추적을 생성하여 강력한 추론 성능을 달성하지만, 이로 인해 과도한 토큰 사용과 높은 추론 지연 시간이 초래되는 경우가 많습니다. 기존 효율성 접근법은 일반적으로 강화 학습이나 지도 미세 조정과 같은 모델 중심 개입에 초점을 맞춰 장황함을 줄이는 방식을 취해왔습니다. 이에 반해, 우리는 훈련이 필요 없는 입력 중심 접근법을 제안합니다. 인지 심리학에서 영감을 받은 집중 사고 연쇄(Focused Chain-of-Thought, F-CoT)는 정보 추출과 추론 과정을 분리합니다. F-CoT는 먼저 질의에서 핵심 정보를 간결하고 구조화된 맥락으로 조직한 다음, 모델이 오직 이 맥락만을 대상으로 추론하도록 유도합니다. 관련 없는 세부 사항에 대한 주의를 방지함으로써 F-CoT는 자연스럽게 더 짧은 추론 경로를 생성합니다. 산술 단어 문제에서 F-CoT는 생성 토큰을 2-3배 줄이면서도 표준 제로샷 CoT와 비슷한 정확도를 유지했습니다. 이러한 결과는 구조화된 입력이 더 효율적인 LLM 추론을 위한 간단하면서도 효과적인 수단이 될 수 있음을 보여줍니다.
이미지 캡션은 검색, 추천, 다단계 에이전트 추론 파이프라인과 같은 멀티모달 시스템에서 시각적 콘텐츠의 효율적인 대리자 역할을 합니다. 그러나 현재의 평가 관행은 근본적인 질문을 간과하고 있습니다: 실제 다운스트림 작업에서 캡션이 이미지를 대체할 수 있는가? 우리는 모델 생성 캡션을 평가하기 위해 유틸리티 기반 벤치마크인 CaptionQA를 제안하며, 여기서 캡션 품질은 다운스트림 작업을 얼마나 잘 지원하는지로 측정됩니다. CaptionQA는 자연, 문서, 전자상거래, 구현형 AI의 4개 도메인을 포괄하는 확장 가능한 도메인 의존적 벤치마크로, 각 도메인은 도메인 특화 작업에 유용한 정보를 식별하는 세분화된 분류 체계(25개 상위 범주 및 69개 하위 범주)를 갖추고 있습니다. CaptionQA는 시각적 정보를 명시적으로 필요로 하는 33,027개의 집중 주석 다지선다형 질문(이미지당 평균 50.3개)을 구축하여 캡션 유틸리티에 대한 포괄적인 탐구를 제공합니다. 우리의 평가 프로토콜에서는 LLM이 캡션만을 사용하여 이러한 질문에 답함으로써 캡션이 이미지 수준의 유틸리티를 보존하고 다운스트림 LLM이 활용할 수 있는지를 직접 측정합니다. 최첨단 MLLM을 평가한 결과, 이미지와 캡션 유틸리티 간에 상당한 격차가 있음이 드러났습니다. 특히 기존 이미지-QA 벤치마크에서 거의 동일한 성능을 보인 모델들이 캡션 유틸리티에서는 최대 32%까지 하락했습니다. 우리는 CaptionQA와 새로운 도메인으로의 확장을 위한 오픈소스 파이프라인을 공개합니다. 코드는 https://github.com/bronyayang/CaptionQA에서 확인할 수 있습니다.
사용자가 지정한 보상에 대해 샘플이 높은 점수를 얻도록 확산 모델을 테스트 타임에 개선하는 일반적인 방법은 보도의 기울기를 확산 과정 자체의 역학에 도입하는 것입니다. 이 절차는 사용자가 지정한 보상이 일반적으로 생성 말단의 데이터 분포에서만 명확하게 정의되기 때문에 종종 잘못 설정됩니다. 이 문제에 대한 일반적인 해결책은 디노이저를 사용하여 생성 말단에서 샘플이 어떻게 되었을지 추정하는 것이지만, 우리는 플로우 맵을 직접 활용하는 간단한 해법을 제안합니다. 플로우 맵과 순간 이동을 제어하는 속도장 사이의 관계를 활용하여, 우리는 보도 기울기를 포함하는 표준 테스트 타임 방법보다 이론적으로 보상 상승을 더 효과적으로 수행하는 알고리즘인 Flow Map Trajectory Tilting(FMTT)을 구성합니다. 이 접근법은 중요도 가중치를 통한 정확한 샘플링을 수행하거나 보도 기울어진 분포의 지역 최대점을 식별하는 원칙적 탐색에 사용될 수 있습니다. 우리는 다른 선행 탐색 기법들과 비교하여 우리 접근법의 효용성을 입증하고, 플로우 맵이 어떻게 비전 언어 모델과의 인터페이싱을 통해 새로운 형태의 이미지 편집을 가능하게 하는 복잡한 보상 함수와의 연동을 가능하게 하는지 보여줍니다.
멀티모달 대규모 언어 모델(MLLM)은 출력이 정확할 뿐만 아니라 미리 정의된 데이터 스키마를 준수해야 하는 실제 에이전트 환경에 점점 더 많이 배포되고 있습니다. 텍스트 영역에서 구조화된 생성에 관한 최근의 진전에도 불구하고, 시각적 입력에 대한 스키마 기반 정보 추출 및 추론을 체계적으로 평가하는 벤치마크는 아직 부재합니다. 본 연구에서는 신중하게 설계된 SO-Bench 벤치마크를 통해 MLLM의 시각적 구조적 출력 능력에 대한 포괄적인 연구를 수행합니다. UI 화면, 자연 이미지, 문서, 차트 등 4개의 시각적 영역을 아우르는 SO-Bench는 6,500개 이상의 다양한 JSON 스키마와 인간이 검증한 품질의 1,800개의 선별된 이미지-스키마 쌍으로 구성됩니다. 오픈 소스 및 최첨단 상용 모델에 대한 벤치마킹 실험은 정확하고 스키마를 준수하는 출력 예측에서 지속적인 격차를 보여주며, 더 나은 멀티모달 구조적 추론의 필요성을 강조합니다. 벤치마킹을 넘어서, 우리는 모델의 구조적 출력 능력을 크게 향상시키기 위한 추가 교육 실험을 수행합니다. 본 벤치마크를 커뮤니티에 공개할 계획입니다.
우리는 생성적 비디오 합성에서의 제어력을 향상시키고 데이터 부족 문제를 해결하기 위한 새로운 프레임워크인 Split-then-Merge(StM)를 제안합니다. 주석이 달린 데이터셋이나 수작업 규칙에 의존하는 기존 방법과 달리, StM은 대규모의 레이블 없는 비디오 코퍼스를 동적인 전경 레이어와 배경 레이어로 분할한 후, 이를 자기 합성하여 다양한 장면과 동적 객체가 어떻게 상호작용하는지를 학습합니다. 이 과정을 통해 모델은 사실적인 비디오 생성에 필요한 복잡한 합성 역학을 습득할 수 있습니다. StM은 어포던스 인식 합성을 위해 다중 레이어 융합 및 증강을 활용하는 새로운 변형 인지 훈련 파이프라인과, 블렌딩 과정에서 전경의 정확도를 유지하는 정체성 보존 손실을 도입합니다. 실험 결과, StM은 정량적 벤치마크와 인간/VLLM 기반 정성적 평가 모두에서 최신 기술을 능가하는 성능을 보여줍니다. 자세한 내용은 프로젝트 페이지(https://split-then-merge.github.io)에서 확인할 수 있습니다.
다중 모달 대규모 언어 모델(MLLMs)은 이미지에 무엇이 있는지(객체 식별 및 장면 설명) 답변하는 데 능숙하지만, 인간 관찰자의 입장에서 이미지가 어떻게 느껴지는지 이해하는 능력은 종종 부족합니다. 이러한 격차는 무엇이 이미지를 기억에 남거나, 웃겁거나, 미적으로 만족스럽거나, 감정적으로 감동시키는지와 같은 주관적 인지 속성을 고려할 때 가장 두드러집니다. 이러한 과제를 체계적으로 해결하기 위해 우리는 이미지 인지 속성에 대한 MLLMs 평가를 위한 포괄적인 벤치마크인 CogIP-Bench를 소개합니다. 우리의 평가는 현재 모델들이 이러한 미묘한 속성에 대한 인간의 인식과 매우 부족하게 일치함을 보여줍니다. 그런 다음 사후 훈련 단계를 통해 이 격차를 효과적으로 해결하고 모델의 인간 판단과의 일치성을 크게 향상시킬 수 있음을 입증합니다. 나아가, 학습된 인지 일치성이 단순히 예측적인 것을 넘어 다운스트림 창의적 작업으로도 전이 가능함을 보여줍니다. 우리의 인지-일치 MLLM을 이미지 생성 파이프라인에 통합함으로써, 더 기억에 남거나 시각적으로 매력적인 이미지와 같이 원하는 특성을 더 잘 구현하는 이미지를 생성하도록 합성 과정을 안내할 수 있습니다. 우리의 연구는 이러한 인간 유사 인지를 측정하는 벤치마크, 이를 향상시키는 사후 훈련 파이프라인, 그리고 이러한 일치가 더 인간 중심적인 AI를 가능하게 함을 입증하는 것을 제공합니다.
참조 기반 이미지 생성은 빠르게 발전해 왔지만, 현재의 확산 모델들은 참조 이미지를 사용하여 생성된 이미지를 정제할 때 여전히 미세한 시각적 디테일을 보존하는 데 어려움을 겪습니다. 이러한 한계는 VAE 기반 잠재 공간 압축이 본질적으로 미세한 텍스처 정보를 제거함에 따라 정체성 및 속성 특이적 단서가 사라지기 때문에 발생합니다. 더욱이 기존 방법론을 기반으로 국부적 디테일을 증폭하는 사후 편집 접근법들은 조명, 텍스처 또는 형태 측면에서 원본 이미지와 불일치하는 결과를 생성하는 경우가 많습니다. 이를 해결하기 위해 우리는 픽셀 수준 일관성을 향상시키기 위해 참조 주도 보정을 두 단계에 걸쳐 수행하는 디테일 인식 정제 프레임워크인 을 소개합니다. 먼저, 단일 이미지 확산 편집기를 개조하여 초안 이미지와 참조 이미지를 함께 입력받도록 미세 조정함으로써 구조적 정확도를 유지하면서 전역적으로 일관된 정제를 가능하게 합니다. 그런 다음 강화 학습을 적용하여 디테일 정확도와 의미적 일관성을 명시적으로 최적화하며 국소화된 편집 능력을 더욱 강화합니다. 광범위한 실험을 통해 이 도전적인 참조 기반 복원 벤치마크에서 오픈소스 및 상용 모델들을 모두 능가하는 충실하고 시각적으로 일관된 편집물을 생성하며 참조 정렬 및 미세 디테일 보존을 크게 향상시킴을 입증합니다.
본 논문은 객체 감지를 위한 새로운 Mixture-of-Experts 프레임워크를 제안한다. 다수의 YOLOv9-T 전문가 모델 간 적응형 라우팅을 도입하여 동적 특징 특화를 가능하게 했으며, 단일 YOLOv9-T 모델 대비 더 높은 평균 정밀도(mAP)와 평균 재현율(AR)을 달성하였다.
확산 모델은 2D 이미지, 비디오, 3D 형상 등 다양한 양상에서 인상적인 생성 품질을 달성했지만, 반복적인 노이즈 제거 프로세스로 인해 추론 시 계산 비용이 높은 문제가 remains. 최근 캐싱 기반 방법들이 2D 및 비디오 생성 속도를 높이기 위해 중복 계산을 효과적으로 재사용하고 있으나, 이러한 기법을 3D 확산 모델에 직접 적용하면 기하학적 일관성이 심각하게 훼손될 수 있습니다. 3D 합성에서는 캐시된 잠재 특징의 미세한 수치 오류조차 누적되어 구조적 아티팩트와 위상학적 불일치를 초래합니다. 이러한 한계를 극복하기 위해 본 연구에서는 추론 가속화와 기하학적 정확도 보존을 동시에達成하는 학습 불필요한 기하학 인식 캐싱 프레임워크인 Fast3Dcache를 제안합니다. 우리의 방법은 복셀 안정화 패턴에 따라 캐시 할당량을 동적으로 결정하는 예측 캐싱 스케줄러 제약(PCSC)과 속도 크기 및 가속도 기준에 따라 재사용할 안정적인 특징을 선택하는 시공간 안정성 기준(SSC)을 도입합니다. 포괄적 실험 결과, Fast3Dcache는 Chamfer Distance(2.48%) 및 F-Score(1.95%) 기준 기하학적 품질 저하를 최소화하면서 추론 속도를 최대 27.12% 가속화하고 FLOPs를 54.8% 절감하는 것으로 나타났습니다.
우리는 비디오 수준의 지도 학습만을 사용하여 감시 영상에서 드물고 다양한 이상을 탐지하는 과제를 다룹니다. 우리의 이중 백본 프레임워크는 합성곱과 트랜스포머 표현을 Top-k 풀링을 통해 결합하여 UCF-Crime 데이터셋에서 90.7%의 AUC(곡선 하단 면적)를 달성했습니다.
고해상도 자기공명영상(MRI)은 다양한 임상 및 연구 응용 분야에서 중요하게 활용됩니다. 그러나 고해상도 영상 획득은 여전히 비용이 많이 들며, 기술적 트레이드오프와 실험적 한계에 제약을 받고 있습니다. 초해상도 기술은 이러한 과제를 극복하기 위한 유망한 계산적 접근법으로, 보다 경제적인 저해상도 스캔으로부터 고해상도 영상을 생성하여 추가적인 하드웨어 없이도 진단 정확도와 효율성을 향상시킬 잠재력을 지닙니다. 본 종설 논문은 최근의 MRI 초해상도 기술 동향, 특히 딥러닝 접근법을 중심으로 검토합니다. 컴퓨터 비전, 계산적 영상, 역문제, 그리고 MR 물리학의 관점에서 딥러닝 기반 MRI 초해상도 방법을 살펴보며, 이론적 기반, 구조 설계, 학습 전략, 벤치마크 데이터셋 및 성능 지표를 다룹니다. 저자들은 이러한 방법들을 체계적으로 분류하는 체계를 제안하고, 임상 및 연구 현장의 고유한 과제를 고려하여 MRI에 적용 가능한 기존 및 신흥 초해상도 기술에 대한 심층 분석을 제시합니다. 또한 학계가 해결해야 할 공개된 과제와 발전 방향을 부각시키고, GitHub(https://github.com/mkhateri/Awesome-MRI-Super-Resolution)에서 제공되는 필수 공개 리소스, 도구 및 튜토리얼 모음을 제공합니다. IEEE 키워드: MRI, 초해상도, 딥러닝, 계산적 영상, 역문제, 종설.
정보 누출을 완화하기 위해 클러스터 기반 프레임 선택 전략을 제안합니다. 학습, 검증, 테스트 세트로 분할하기 전에 시각적으로 유사한 프레임을 그룹화함으로써 더욱 대표적이고 균형 잡히며 신뢰할 수 있는 데이터셋 분할을 생성하는 방법입니다.
연합 학습(Federated Learning, FL)은 프라이버시를 침해하지 않으면서 클라이언트 간 협력적 학습을 가능하게 한다. 기존 대부분의 FL 방법이 동종 모델 아키텍처를 가정하지만, 데이터와 자원 측면에서의 클라이언트 이질성은 이러한 가정을 비현실적으로 만들며, 이에 모델 이질적 FL의 필요성이 대두된다. 이 문제를 해결하기 위해 우리는 새로운 형태의 클라이언트 지식인 '얽힌 표현(Entangled Representation)'에 기반한 프레임워크인 FedRE(Federated Representation Entanglement)를 제안한다. FedRE에서 각 클라이언트는 정규화된 무작위 가중치를 사용하여 로컬 표현들을 단일 얽힌 표현으로 집계하고, 동일한 가중치를 적용하여 해당 원-핫 레이블 인코딩을 얽힌 레이블 인코딩으로 통합한다. 이들은 그 후 전역 분류기를 학습시키기 위해 서버에 업로드된다. 학습 동안 각 얽힌 표현은 해당 얽힌 레이블 인코딩을 통해 범주 간 감독을 받으며, 무작위 가중치는 매 라운드마다 재추출되어 다양성을 도입함으로써 전역 분류기의 과도한 자신감을 완화하고 더 평활한 결정 경계를 촉진한다. 더불어, 각 클라이언트는 단일의 범주 간 얽힌 표현과 그에 대응하는 얽힌 레이블 인코딩을 업로드함으로써 표현 역전 공격(Representation Inversion Attack) 위험을 완화하고 통신 오버헤드를 줄인다. 폭넓은 실험을 통해 FedRE가 모델 성능, 프라이버시 보호, 통신 오버헤드 간 효과적인 균형을 달성함을 입증한다. 코드는 https://github.com/AIResearch-Group/FedRE에서 이용 가능하다.