번역이 포함된 일일 선별된 AI 연구 논문
벡터 양자화(VQ) 기반의 마스크 이미지 모델링(MIM)은 자기 지도 사전 학습과 이미지 생성 모두에서 큰 성공을 거두었습니다. 그러나 대부분의 기존 방법들은 생성 품질과 표현 학습 및 효율성 간의 공유 잠재 공상에서의 균형을 맞추는 데 어려움을 겪습니다. 이러한 패러다임의 한계를 극복하기 위해, 우리는 토큰 병합 기술을 VQ 기반 생성 모델에 통합하여 이미지 생성과 시각적 표현 학습 간의 격차를 단일 아키텍처에서 해결하는 MergeVQ를 제안합니다. 사전 학습 과정에서 MergeVQ는 인코더의 자기 주의 블록 이후에 토큰 병합 모듈을 통해 상위-k 의미를 잠재 공간에서 분리하여 후속 Look-up Free 양자화(LFQ)와 전역 정렬을 수행하고, 디코더의 교차 주의를 통해 세부 사항을 복원하여 재구성을 수행합니다. 두 번째 단계의 생성을 위해, 우리는 효율적인 래스터 순서 예측을 위한 KV 캐시 압축을 수행하는 MergeAR을 도입합니다. ImageNet에서의 광범위한 실험을 통해 MergeVQ가 AR 생성 모델로서 시각적 표현 학습과 이미지 생성 작업 모두에서 경쟁력 있는 성능을 달성하면서도 토큰 효율성과 추론 속도를 유지함을 검증했습니다. 코드와 모델은 https://apexgen-x.github.io/MergeVQ에서 확인할 수 있습니다.
최근 이미지 및 비디오 합성 기술의 발전으로 생성형 게임에 새로운 가능성이 열렸습니다. 특히 흥미로운 응용 분야 중 하나는 애니메이션 영화의 캐릭터를 인터랙티브하고 플레이 가능한 개체로 변환하는 것입니다. 이를 통해 플레이어는 언어 명령을 통해 자신이 좋아하는 캐릭터로 동적인 애니메이션 세계에 몰입하며 라이프 시뮬레이션을 즐길 수 있습니다. 이러한 게임은 사전 정의된 경계와 고정된 게임플레이 규칙을 없애기 때문에 무한 게임(infinite game)으로 정의되며, 플레이어는 개방형 언어를 통해 게임 세계와 상호작용하고 끊임없이 진화하는 스토리와 환경을 경험할 수 있습니다. 최근, 무한 애니메이션 라이프 시뮬레이션을 위한 선구적인 접근 방식으로 대형 언어 모델(LLM)을 사용하여 다중 턴 텍스트 대화를 이미지 생성을 위한 언어 명령으로 변환하는 방법이 제안되었습니다. 그러나 이 방법은 역사적 시각적 맥락을 무시하여 게임플레이의 일관성을 해치며, 정적 이미지만 생성하여 몰입형 게임 경험에 필요한 동적 요소를 포함하지 못합니다. 본 연구에서는 다중모달 대형 언어 모델(MLLM)을 기반으로 각 게임 상태를 생성하는 AnimeGamer를 제안합니다. 이는 캐릭터의 움직임과 상태 업데이트를 묘사하는 동적 애니메이션 샷을 포함하며, 그림 1에서 설명됩니다. 우리는 애니메이션 샷을 표현하기 위해 새로운 액션 인식 다중모달 표현을 도입했으며, 이를 비디오 확산 모델을 사용하여 고품질 비디오 클립으로 디코딩할 수 있습니다. 역사적 애니메이션 샷 표현을 맥락으로 사용하고 후속 표현을 예측함으로써, AnimeGamer는 맥락적 일관성과 만족스러운 동적 요소를 갖춘 게임을 생성할 수 있습니다. 자동화된 메트릭과 인간 평가를 모두 사용한 광범위한 평가를 통해 AnimeGamer가 게임 경험의 다양한 측면에서 기존 방법을 능가함을 입증했습니다. 코드와 체크포인트는 https://github.com/TencentARC/AnimeGamer에서 확인할 수 있습니다.
최근 이미지 기반 인간 애니메이션 방법들은 사실적인 신체 및 얼굴 움직임 합성을 달성했지만, 세밀한 전체적 제어성, 다중 스케일 적응성, 장기적 시간적 일관성 등에서 중요한 격차가 남아 있어 표현력과 견고성이 낮은 문제가 있습니다. 우리는 이러한 한계를 극복하기 위해 하이브리드 가이던스를 적용한 확산 트랜스포머(DiT) 기반 프레임워크인 DreamActor-M1을 제안합니다. 움직임 가이던스를 위해, 암묵적 얼굴 표현, 3D 헤드 구체, 3D 신체 골격을 통합한 하이브리드 제어 신호를 사용하여 얼굴 표정과 신체 움직임을 견고하게 제어하면서도 표현력이 풍부하고 정체성을 유지하는 애니메이션을 생성합니다. 스케일 적응을 위해, 초상화에서 전신 뷰까지 다양한 신체 자세와 이미지 스케일을 처리하기 위해 다양한 해상도와 스케일의 데이터를 사용한 점진적 학습 전략을 채택합니다. 외관 가이던스를 위해, 연속 프레임의 움직임 패턴과 보완적인 시각적 참조를 통합하여 복잡한 움직임 중 보이지 않는 영역에 대한 장기적 시간적 일관성을 보장합니다. 실험 결과, 우리의 방법은 초상화, 상반신, 전신 생성에서 최신 기술을 능가하며 견고한 장기적 일관성을 제공하는 표현력 있는 결과를 보여줍니다. 프로젝트 페이지: https://grisoon.github.io/DreamActor-M1/.
다중 모달 대형 언어 모델(MLLMs)의 추론 능력 향상에 대한 관심이 점차 증가하고 있다. 물리적 영역에서 기능하는 AI 에이전트의 초석으로서, 비디오 기반 시각-공간 지능(VSI)은 MLLMs의 가장 중요한 추론 능력 중 하나로 부상하고 있다. 본 연구는 R1-Zero와 유사한 훈련을 통해 MLLMs의 시각-공간 추론 능력을 향상시키는 첫 번째 심층 연구를 수행한다. 기술적으로, 우리는 먼저 소형 및 중형 크기의 Qwen2-VL 모델의 시각-공간 추론 능력이 Chain of Thought (CoT) 프롬프트를 통해 활성화되지 않음을 확인했다. 그런 다음, DeepSeek-R1-Zero를 따라 신중하게 선별된 VSI-100k 데이터셋을 사용하여 GRPO 훈련을 통합하여 시각-공간 추론을 개선했다. 조사 과정에서, 우리는 GRPO에서 KL 패널티(작은 값이라도)를 유지할 필요성을 확인했다. 단 120 GPU 시간만으로, Qwen2-VL-2B에서 미세 조정된 vsGRPO-2B 모델은 기본 모델을 12.1% 능가하며 GPT-4o를 뛰어넘었다. 또한, Qwen2-VL-7B에서 미세 조정된 vsGRPO-7B 모델은 최고의 오픈소스 모델인 LLaVA-NeXT-Video-72B와 비슷한 성능을 달성했다. 추가적으로, 우리는 vsGRPO를 지도 미세 조정 및 직접 선호 최적화 기준선과 비교했을 때 강력한 성능 우위를 관찰했다. 코드와 데이터셋은 곧 공개될 예정이다.
DeepSeek-R1-Zero는 지도 학습 없이도 강화 학습(RL)을 대규모로 적용함으로써 대형 언어 모델(LLM)의 추론 능력을 직접 향상시킬 수 있음을 보여주었습니다. 본 연구에서는 R1-Zero와 유사한 학습 방식을 비판적으로 검토하며, 그 핵심 구성 요소인 기본 모델과 RL을 분석합니다. 우리는 DeepSeek-V3-Base를 포함한 다양한 기본 모델을 조사하여 사전 학습 특성이 RL 성능에 미치는 영향을 이해하고자 합니다. 분석 결과, DeepSeek-V3-Base는 이미 'Aha moment'를 보여주는 반면, Qwen2.5 기본 모델은 프롬프트 템플릿 없이도 강력한 추론 능력을 나타내어 사전 학습 편향의 가능성을 시사합니다. 또한, Group Relative Policy Optimization(GRPO)에서 최적화 편향이 발견되었는데, 이는 특히 잘못된 출력에 대해 응답 길이를 인위적으로 증가시키는 문제를 야기합니다. 이를 해결하기 위해, 우리는 토큰 효율성을 개선하면서도 추론 성능을 유지하는 편향 없는 최적화 방법인 Dr. GRPO를 제안합니다. 이러한 통찰을 바탕으로, 우리는 7B 기본 모델로 AIME 2024에서 43.3%의 정확도를 달성하며 새로운 최첨단 기술을 확립한 미니멀리스트 R1-Zero 레시피를 제시합니다. 우리의 코드는 https://github.com/sail-sg/understand-r1-zero에서 확인할 수 있습니다.
학술적 글쓰기는 일관된 텍스트 생성과 관련 문헌의 정확한 인용을 모두 요구합니다. 최근의 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 일반 목적의 텍스트 생성에서 사실적 정확성을 크게 향상시켰지만, 전문적인 학술 글쓰기를 적절히 지원하는 데는 여전히 한계가 있습니다. 본 연구에서는 기존의 대규모 언어 모델을 강화하여 정확하고 문맥적으로 적절한 인용을 포함한 전문 학술 논문을 생성하기 위한 통합 프레임워크인 ScholarCopilot을 소개합니다. ScholarCopilot은 검색 토큰 [RET]을 생성하여 학술적 참고문헌을 검색할 시점을 동적으로 결정한 후, 해당 표현을 활용하여 데이터베이스에서 관련 인용문을 조회합니다. 검색된 참고문헌은 생성 과정을 보강하기 위해 모델에 입력됩니다. 우리는 생성과 인용 작업을 단일 프레임워크 내에서 공동으로 최적화하여 효율성을 높였습니다. arXiv의 50만 편의 논문으로 학습된 우리 모델은 평가 데이터셋에서 40.1%의 상위 1위(top-1) 검색 정확도를 달성하며, E5-Mistral-7B-Instruct(15.0%) 및 BM25(9.8%)와 같은 기준 모델을 능가했습니다. 1,000개의 학술 글쓰기 샘플로 구성된 데이터셋에서 ScholarCopilot은 생성 품질(관련성, 일관성, 학문적 엄격성, 완전성, 혁신성을 측정)에서 16.2/25점을 기록하여 Qwen-2.5-72B-Instruct(15.8/25)와 같이 10배 더 많은 매개변수를 가진 모델을 앞질렀습니다. 인간 평가에서도 ScholarCopilot은 인용 회수율, 글쓰기 효율성, 전반적인 사용자 경험에서 우수한 성능을 보여 우리 접근법의 효과를 입증했습니다.
희소 뷰(sparse views)로부터 3D 장면을 복원하는 작업은 본질적으로 잘 정의되지 않은 문제(ill-posed problem)로 인해 어려운 과제입니다. 기존의 방법들은 이러한 문제를 완화하기 위해 특수화된 솔루션(예: 기하학적 정규화 또는 피드포워드 결정론적 모델)을 개발해 왔습니다. 그러나 이러한 방법들도 입력 뷰 간의 최소한의 중첩과 불충분한 시각 정보로 인해 성능 저하를 겪는 한계가 있습니다. 다행히 최근 비디오 생성 모델들은 그럴듯한 3D 구조를 가진 비디오 클립을 생성할 수 있는 능력으로 이 문제를 해결할 가능성을 보여주고 있습니다. 대규모 사전 학습된 비디오 확산 모델(video diffusion models)의 힘을 빌려, 일부 선구적인 연구들은 비디오 생성 사전 지식(video generative prior)의 잠재력을 탐구하고 희소 뷰로부터 3D 장면을 생성하기 시작했습니다. 이러한 연구들은 인상적인 개선을 이루었지만, 느린 추론 시간과 3D 제약의 부재로 인해 비효율성과 실제 세계의 기하학적 구조와 일치하지 않는 재구성 아티팩트(reconstruction artifacts)가 발생하는 한계가 있습니다. 본 논문에서는 비디오 확산 모델을 한 단계로 3D 장면을 생성하도록 정제(distill)하는 VideoScene을 제안하여, 비디오에서 3D로의 격차를 해결하기 위한 효율적이고 효과적인 도구를 구축하고자 합니다. 구체적으로, 우리는 시간 소모적인 중복 정보를 건너뛰기 위한 3D 인식 리프 플로우 정제(3D-aware leap flow distillation) 전략을 설계하고, 추론 중 최적의 리프 타임스텝(leap timestep)을 적응적으로 결정하기 위한 동적 노이즈 제거 정책 네트워크(dynamic denoising policy network)를 학습시킵니다. 광범위한 실험을 통해 우리의 VideoScene이 기존의 비디오 확산 모델보다 더 빠르고 우수한 3D 장면 생성 결과를 달성함을 입증하며, 이는 미래의 비디오에서 3D로의 응용을 위한 효율적인 도구로서의 잠재력을 강조합니다. 프로젝트 페이지: https://hanyang-21.github.io/VideoScene
비디오 확산 모델(VDMs)은 최근 몇 년 동안 크게 발전하여 매우 사실적인 비디오 생성을 가능하게 했으며, 세계 시뮬레이터로서의 잠재력으로 인해 커뮤니티의 관심을 끌고 있습니다. 그러나 이러한 능력에도 불구하고, VDMs는 물리학에 대한 이해가 부족하여 종종 물리적으로 타당하지 않은 비디오를 생성하며, 이는 잘못된 역학 및 이벤트 시퀀스로 이어집니다. 이러한 한계를 해결하기 위해, 우리는 물리학을 명시적으로 통합한 새로운 2단계 이미지-투-비디오 생성 프레임워크를 제안합니다. 첫 번째 단계에서는 비전 언어 모델(VLM)을 거친 수준의 모션 플래너로 사용하여, 사고의 연쇄 및 물리학 인식 추론을 통합하여 실제 세계의 물리적 역학을 근사화하는 대략적인 모션 궤적/변화를 예측함과 동시에 프레임 간 일관성을 보장합니다. 두 번째 단계에서는 예측된 모션 궤적/변화를 사용하여 VDM의 비디오 생성을 안내합니다. 예측된 모션 궤적/변화가 대략적이기 때문에, 추론 과정에서 노이즈를 추가하여 VDM이 더 세부적인 모션을 생성할 수 있는 자유를 제공합니다. 광범위한 실험 결과는 우리의 프레임워크가 물리적으로 타당한 모션을 생성할 수 있음을 보여주며, 비교 평가는 우리의 접근 방식이 기존 방법들보다 뛰어남을 강조합니다. 더 많은 비디오 결과는 우리의 프로젝트 페이지에서 확인할 수 있습니다: https://madaoer.github.io/projects/physically_plausible_video_generation.
우리는 최신 AI 연구를 재현하는 AI 에이전트의 능력을 평가하는 벤치마크인 PaperBench를 소개합니다. 에이전트는 ICML 2024 스포트라이트 및 오럴 논문 20편을 처음부터 재현해야 하며, 이는 논문의 기여를 이해하고 코드베이스를 개발하며 실험을 성공적으로 실행하는 과정을 포함합니다. 객관적인 평가를 위해, 우리는 각 재현 작업을 명확한 채점 기준을 가진 더 작은 하위 작업으로 계층적으로 분해하는 루브릭을 개발했습니다. 총계적으로, PaperBench는 8,316개의 개별적으로 채점 가능한 작업을 포함합니다. 루브릭은 정확성과 현실성을 위해 각 ICML 논문의 저자와 공동으로 개발되었습니다. 확장 가능한 평가를 위해, 우리는 또한 LLM 기반의 심사자를 개발하여 재현 시도를 루브릭에 따라 자동으로 채점하고, 심사자의 성능을 평가하기 위해 별도의 심사자 벤치마크를 생성했습니다. 우리는 PaperBench에서 여러 최첨단 모델을 평가했으며, 테스트된 에이전트 중 가장 성능이 좋은 Claude 3.5 Sonnet(New)가 오픈소스 스캐폴딩과 함께 평균 21.0%의 재현 점수를 달성한 것을 확인했습니다. 마지막으로, 우리는 최고 수준의 ML 박사과정 학생들을 모집하여 PaperBench의 일부를 시도하게 했고, 모델들이 아직 인간 기준을 능가하지 못한다는 것을 발견했습니다. 우리는 AI 에이전트의 엔지니어링 능력을 이해하기 위한 미래 연구를 촉진하기 위해 https://github.com/openai/preparedness{코드를 오픈소스로 공개}했습니다.
우리는 스켈레톤 기반 애니메이션과 현대 생성 모델의 강점을 결합하여 고품질 캐릭터 애니메이션을 생성하기 위한 Articulated Kinematics Distillation (AKD) 프레임워크를 제안합니다. AKD는 리깅된 3D 자산에 대해 스켈레톤 기반 표현을 사용하여 관절 수준 제어에 초점을 맞춤으로써 자유도(DoFs)를 크게 줄이고, 이를 통해 효율적이고 일관된 모션 합성을 가능하게 합니다. 사전 학습된 비디오 확산 모델을 활용한 Score Distillation Sampling (SDS)을 통해, AKD는 구조적 무결성을 유지하면서 복잡한 관절 모션을 추출하며, 4D 신경 변형 필드가 직면한 형태 일관성 유지 문제를 극복합니다. 이 접근 방식은 물리 기반 시뮬레이션과 자연스럽게 호환되어 물리적으로 타당한 상호작용을 보장합니다. 실험 결과, AKD는 텍스트-투-4D 생성 분야의 기존 연구들에 비해 우수한 3D 일관성과 모션 품질을 달성함을 보여줍니다. 프로젝트 페이지: https://research.nvidia.com/labs/dir/akd/
우리는 깊은 의미 이해와 고품질 이미지 생성을 모두 개선하기 위해 이중 시각 토큰화와 디퓨전 디코더를 활용한 ILLUME+를 제안합니다. 기존의 통합 모델들은 이해, 생성, 편집이라는 세 가지 기본 능력을 동시에 처리하는 데 어려움을 겪어 왔습니다. Chameleon과 EMU3와 같은 모델들은 이미지 이산화를 위해 VQGAN을 사용하지만, 깊은 의미 상호작용의 부족으로 인해 LLaVA와 같은 전문 모델에 비해 시각 이해 작업에서 뒤처집니다. 이를 완화하기 위해 LaViT와 ILLUME는 의미 인코더를 사용하여 토큰화를 수행하지만, 텍스처 보존이 미흡하여 이미지 편집에 어려움을 겪습니다. 한편, Janus 시리즈는 입력과 출력 이미지 표현을 분리하여 인터리브된 이미지-텍스트 이해와 생성을 원활하게 처리하는 능력이 제한됩니다. 이와 대조적으로, ILLUME+는 미세한 텍스처와 텍스트 정렬 의미를 모두 보존하면서 다중모드 이해와 생성을 위한 거친-세밀 전략을 가능하게 하는 통합 이중 시각 토큰화기, DualViTok를 도입합니다. 또한, 향상된 생성 품질과 효율적인 초고해상도를 위해 디퓨전 모델을 이미지 디토큰화기로 사용합니다. ILLUME+는 통합 MLLM 내에서 연속 입력, 이산 출력 방식을 따르며, 시각 토큰화기, MLLM, 디퓨전 디코더에 걸쳐 동적 해상도를 지원하는 점진적 학습 절차를 채택합니다. 이 설계는 다양한 작업에 걸쳐 유연하고 효율적인 컨텍스트 인식 이미지 편집과 생성을 가능하게 합니다. ILLUME+ (3B)는 다중모드 이해, 생성, 편집 벤치마크에서 기존 통합 MLLM 및 전문 모델들과 경쟁력 있는 성능을 보여줍니다. 강력한 성능을 바탕으로, ILLUME+는 향후 다중모드 애플리케이션을 위한 확장 가능하고 다용도의 기반을 제공합니다. 프로젝트 페이지: https://illume-unified-mllm.github.io/.
텍스트-이미지(T2I) 방법을 통한 고품질 인간 이미지 생성은 중요하면서도 도전적인 과제입니다. 일반적인 이미지 생성과는 달리, 인간 이미지 합성은 인간의 자세, 해부학적 구조, 그리고 텍스트 프롬프트와의 정렬과 같은 엄격한 기준을 충족해야 하기 때문에 사실적인 결과를 달성하기가 특히 어렵습니다. 확산 모델(diffusion models)을 기반으로 한 최근의 T2I 생성 기술 발전은 유망한 결과를 보여주고 있지만, 인간 특화 선호도를 충족시키는 데는 여전히 과제가 남아 있습니다. 본 논문에서는 Direct Preference Optimization(DPO)을 활용하여 인간 이미지 생성을 위해 특화된 새로운 접근 방식을 소개합니다. 구체적으로, 우리는 비용이 많이 드는 인간 피드백 없이도 인간 이미지 생성 모델을 훈련하기 위한 전용 DPO 데이터셋을 구축하는 효율적인 방법을 제안합니다. 또한, 아티팩트를 최소화하고 이미지 충실도를 향상시켜 DPO 훈련 과정을 개선하는 수정된 손실 함수를 제안합니다. 우리의 방법은 개인화된 텍스트-이미지 생성을 포함한 인간 이미지 생성에서의 다양성과 효과성을 입증합니다. 포괄적인 평가를 통해, 우리의 접근 방식이 자연스러운 해부학적 구조, 자세, 그리고 텍스트-이미지 정렬 측면에서 우수한 결과를 달성하며 인간 이미지 생성의 최신 기술을 크게 발전시킨다는 것을 보여줍니다.
비전-언어 모델(VLMs)은 대규모 언어 모델(LLMs)의 기능을 시각 정보를 통합하여 확장하지만, 특히 노이즈가 있거나 손상된 이미지를 처리할 때 탈옥(jailbreak) 공격에 취약합니다. 기존 VLMs는 이러한 공격을 완화하기 위해 학습 과정에서 보안 조치를 채택하고 있지만, 노이즈가 추가된 시각적 입력과 관련된 취약점은 간과되고 있습니다. 본 연구에서는 노이즈가 추가된 학습이 누락됨으로써 중요한 보안 격차가 발생함을 확인했습니다: 많은 VLMs가 가우시안 노이즈와 같은 간단한 섭동에도 취약합니다. 이러한 문제를 해결하기 위해, 우리는 Robust-VLGuard를 제안합니다. 이는 정렬/비정렬된 이미지-텍스트 쌍으로 구성된 멀티모달 안전 데이터셋과, 공격 성공률을 줄이면서 VLM의 기능을 보존하는 노이즈가 추가된 미세 조정(fine-tuning)을 결합한 것입니다. 더 강력한 최적화 기반 시각적 섭동 공격에 대해서는, 우리는 DiffPure-VLM을 제안합니다. 이는 확산 모델(diffusion model)을 활용하여 적대적 섭동을 가우시안과 유사한 노이즈로 변환하며, 이는 노이즈가 추가된 안전 미세 조정을 통해 VLMs에 의해 방어될 수 있습니다. 실험 결과는 확산 모델의 분포 이동 특성이 우리의 미세 조정된 VLMs와 잘 맞아, 다양한 강도의 적대적 섭동을 크게 완화함을 보여줍니다. 데이터셋과 코드는 https://github.com/JarvisUSTC/DiffPure-RobustVLM에서 확인할 수 있습니다.
최근 제로샷 텍스트-음성 변환(TTS) 모델들은 음성 품질과 표현력에서 상당한 개선을 이루었지만, 주류 시스템들은 여전히 음성-텍스트 정렬 모델링과 관련된 문제를 겪고 있습니다: 1) 명시적인 음성-텍스트 정렬 모델링이 없는 모델들은 특히 실제 응용에서 어려운 문장에 대해 덜 견고성을 보입니다; 2) 미리 정의된 정렬 기반 모델들은 강제 정렬의 자연스러움 제약을 겪습니다. 본 논문은 혁신적인 희소 정렬 알고리즘을 특징으로 하는 MegaTTS 3 TTS 시스템을 소개합니다. 이 알고리즘은 잠재 확산 트랜스포머(DiT)를 안내합니다. 구체적으로, MegaTTS 3에 희소 정렬 경계를 제공하여 검색 공간을 제한하지 않고도 정렬의 어려움을 줄여 높은 자연스러움을 달성합니다. 또한, 악센트 강도 조정을 위해 다중 조건 분류자 없는 가이던스 전략을 채택하고, 생성 과정을 가속화하기 위해 조각별 직교 흐름 기법을 사용합니다. 실험 결과, MegaTTS 3은 최첨단 제로샷 TTS 음성 품질을 달성하며 악센트 강도에 대한 높은 유연성을 지원합니다. 특히, 우리의 시스템은 단 8개의 샘플링 단계로도 고품질의 1분 길이 음성을 생성할 수 있습니다. 오디오 샘플은 https://sditdemo.github.io/sditdemo/에서 확인할 수 있습니다.
비전-언어 모델(VLMs)은 특정 객체가 이미지에 존재한다고 잘못 판단하는 객체 환각 현상에 취약합니다. 기존 벤치마크는 비교적 작은 레이블링된 데이터셋을 사용하여 환각 현상을 정량화합니다. 그러나 이 접근 방식은 i) VLMs이 널리 사용되는 개방형 환경에서 발생하는 환각 현상을 평가하기에는 부족하며, ii) VLMs의 체계적 오류를 탐지하기에는 적절하지 않습니다. 우리는 DASH(Detection and Assessment of Systematic Hallucinations)를 제안합니다. 이는 개방형 환경에서 실제 이미지에 대한 VLMs의 체계적 환각 현상을 식별하기 위해 설계된 자동화된 대규모 파이프라인입니다. 핵심 구성 요소는 이미지 기반 검색을 위한 DASH-OPT로, '자연 이미지 매니폴드'를 최적화하여 VLM을 오도하는 이미지를 생성합니다. DASH의 출력은 VLM이 객체를 환각하는 실제 및 의미적으로 유사한 이미지들의 클러스터로 구성됩니다. 우리는 DASH를 PaliGemma와 두 개의 LLaVA-NeXT 모델에 적용하여 380개 객체 클래스에 걸쳐 총 950k 이미지로 이루어진 19k개 이상의 클러스터를 발견했습니다. 우리는 식별된 체계적 환각 현상이 다른 VLMs로 전이되는지를 연구하고, DASH로 얻은 모델별 이미지를 사용하여 PaliGemma를 미세 조정함으로써 객체 환각 현상을 완화할 수 있음을 보여줍니다. 코드와 데이터는 https://YanNeu.github.io/DASH에서 확인할 수 있습니다.
컨볼루션 신경망(Convolutional Neural Networks)과 비전 트랜스포머(Vision Transformers)를 포함한 비전 네트워크 설계는 컴퓨터 비전 분야를 크게 발전시켰습니다. 그러나 이러한 네트워크의 복잡한 계산은 실시간 애플리케이션을 비롯한 실제 배포에서 어려움을 야기합니다. 이를 해결하기 위해 연구자들은 다양한 경량화 및 효율적인 네트워크 설계를 탐구해 왔습니다. 그러나 기존의 경량 모델은 주로 토큰 혼합을 위해 자기 주의 메커니즘(self-attention mechanisms)과 컨볼루션을 활용합니다. 이러한 의존성은 경량 네트워크의 인식 및 집계 과정에서 효과성과 효율성에 한계를 가져오며, 제한된 계산 예산 하에서 성능과 효율성 간의 균형을 방해합니다. 본 논문에서는 인간의 효율적인 시각 시스템에 내재된 동적 이종 스케일 비전 능력에서 영감을 받아, 경량 비전 네트워크 설계를 위한 "큰 것을 보고, 작은 것에 집중하라(See Large, Focus Small)" 전략을 제안합니다. 우리는 대형 커널 인식과 소형 커널 집계를 결합한 LS(Large-Small) 컨볼루션을 소개합니다. 이는 광범위한 인식 정보를 효율적으로 포착하고 동적이며 복잡한 시각적 표현을 위한 정밀한 특징 집계를 달성함으로써 시각 정보를 능숙하게 처리할 수 있게 합니다. LS 컨볼루션을 기반으로, 우리는 새로운 경량 모델 패밀리인 LSNet을 제시합니다. 다양한 비전 작업에서 LSNet은 기존의 경량 네트워크보다 우수한 성능과 효율성을 달성함을 광범위한 실험을 통해 입증합니다. 코드와 모델은 https://github.com/jameslahm/lsnet에서 확인할 수 있습니다.
상태 공간 모델(SSMs)은 일관된 메모리 사용과 높은 성능으로 인해 트랜스포머의 강력한 대안으로 부상하고 있습니다. 그러나 클라우드 서비스나 리소스가 제한된 장치에서 SSMs를 확장하는 것은 저장 공간 요구 사항과 계산 능력으로 인해 어려운 과제입니다. 이를 극복하기 위해 낮은 비트 폭 데이터 형식으로 SSMs를 양자화하면 모델 크기를 줄이고 하드웨어 가속의 이점을 얻을 수 있습니다. SSMs가 양자화로 인한 오류에 취약하기 때문에 최근 연구에서는 성능 저하 없이 효율성을 위해 특정 모델이나 비트 폭을 최적화하는 데 초점을 맞추고 있습니다. 그러나 대규모 배치 디코딩 속도를 높이기 위한 W4A8과 단일 사용자를 위한 짧은 프롬프트 애플리케이션에서 생성 속도를 향상시키기 위한 W4A16과 같이, 다양한 시나리오에 맞는 별도의 비트 폭 구성이 필수적입니다. 이를 위해 우리는 Mamba1과 Mamba2 백본 모두에 대해 W8A8, W4A8, W4A16과 호환되는 Quamba2를 제안하며, 다양한 플랫폼에서 SSM 배포에 대한 증가하는 수요를 해결합니다. SSMs의 채널 순서 보존과 활성화 지속성을 기반으로, 우리는 입력 x에 대해 정렬 및 클러스터링을 통해 선형 재귀의 입력을 8비트로 양자화하는 오프라인 접근 방식을 제안하고, 입력 종속 매개변수 B와 C에 대해 상태 그룹별 양자화를 결합합니다. SSM 출력에서 계산 불변성을 보장하기 위해, 우리는 클러스터링 순서에 따라 오프라인에서 가중치를 재배열합니다. 실험 결과, Quamba2-8B는 여러 최신 SSM 양자화 방법을 능가하며, 프리필링 및 생성 단계에서 각각 1.3배와 3배의 속도 향상을 제공하고, 평균 정확도 하락이 1.6%에 불과한 상태에서 4배의 메모리 감소를 제공합니다. MMLU에 대한 평가는 우리 프레임워크의 일반화성과 견고성을 보여줍니다. 코드와 양자화된 모델은 https://github.com/enyac-group/Quamba에서 공개될 예정입니다.
대규모 언어 모델은 놀라운 추론 능력을 보여주지만 종종 신뢰할 수 없거나 잘못된 응답을 생성합니다. 기존의 검증 방법들은 일반적으로 모델에 특화되어 있거나 도메인에 제한적이며, 상당한 계산 자원을 요구하고 다양한 추론 작업에 걸쳐 확장성이 부족합니다. 이러한 한계를 해결하기 위해, 우리는 두 가지 수준의 검증을 통합한 통합 검증 에이전트인 VerifiAgent를 제안합니다: 메타 검증은 모델 응답의 완전성과 일관성을 평가하고, 도구 기반 적응형 검증은 VerifiAgent가 수학적, 논리적 또는 상식적 추론과 같은 추론 유형에 따라 적절한 검증 도구를 자율적으로 선택합니다. 이 적응형 접근 방식은 다양한 검증 시나리오에서 효율성과 견고성을 모두 보장합니다. 실험 결과는 VerifiAgent가 모든 추론 작업에서 기준 검증 방법들(예: 연역적 검증기, 역방향 검증기)을 능가함을 보여줍니다. 또한, 검증 결과로부터 피드백을 활용하여 추론 정확도를 더욱 향상시킬 수 있습니다. VerifiAgent는 수학적 추론 도메인에서 기존의 프로세스 보상 모델보다 더 적은 생성 샘플과 비용으로 더 나은 결과를 달성하며, 추론 확장에도 효과적으로 적용될 수 있습니다. 코드는 https://github.com/Jiuzhouh/VerifiAgent에서 확인할 수 있습니다.
대규모 언어 모델(LLM)에서 토큰 생성을 가속화하기 위해 다양한 레이어 스킵 방법이 제안되어 왔습니다. 그러나 이러한 방법들은 근본적인 질문을 간과해 왔습니다: 서로 다른 토큰을 생성할 때 계산 요구 사항은 어떻게 달라지는가? 본 연구에서는 텍스트 생성에 사용되는 Transformer 레이어 수를 동적으로 조절하는 FlexiDepth 방법을 소개합니다. 플러그인 라우터와 어댑터를 도입함으로써, FlexiDepth는 LLM의 원래 파라미터를 수정하지 않고도 적응형 레이어 스킵을 가능하게 합니다. Llama-3-8B 모델에 FlexiDepth를 적용한 결과, 32개 레이어 중 8개를 스킵하면서도 벤치마크 성능을 100% 유지할 수 있었습니다. FlexiDepth를 통한 실험 결과는 LLM의 계산 요구 사항이 토큰 유형에 따라 크게 달라짐을 보여줍니다. 구체적으로, 반복적인 토큰이나 고정된 구문을 생성할 때는 더 적은 레이어가 필요하지만, 계산이 포함되거나 불확실성이 높은 토큰을 생성할 때는 더 많은 레이어가 필요합니다. 흥미롭게도, 이러한 적응형 할당 패턴은 인간의 직관과 일치합니다. 이 분야의 연구를 더욱 발전시키기 위해, 우리는 FlexiDepth와 FlexiDepth의 레이어 할당 패턴을 기록한 데이터셋을 오픈소스로 공개하여 향후 탐구를 돕고자 합니다.
우리는 입력 이미지에서 특정 대상과 상호작용하며 원하는 동작을 수행하는 배우의 비디오를 생성하는 타겟 인식 비디오 확산 모델을 제안합니다. 타겟은 세그멘테이션 마스크로 정의되며, 원하는 동작은 텍스트 프롬프트로 설명됩니다. 기존의 제어 가능한 이미지-투-비디오 확산 모델들이 배우의 움직임을 타겟으로 유도하기 위해 밀집된 구조적 또는 모션 단서에 의존하는 것과 달리, 우리의 타겟 인식 모델은 타겟을 표시하기 위해 단순한 마스크만을 요구하며, 사전 훈련된 모델의 일반화 능력을 활용하여 그럴듯한 동작을 생성합니다. 이는 정확한 동작 지침을 제공하기 어려운 인간-객체 상호작용(HOI) 시나리오에서 특히 효과적이며, 로보틱스와 같은 응용 분야에서 고수준의 동작 계획을 위해 비디오 확산 모델을 사용할 수 있게 합니다. 우리는 타겟 인식 모델을 기본 모델을 확장하여 타겟 마스크를 추가 입력으로 통합함으로써 구축합니다. 타겟 인식을 강화하기 위해, 텍스트 프롬프트 내에서 타겟의 공간 정보를 인코딩하는 특수 토큰을 도입합니다. 그런 다음, 이 토큰과 관련된 크로스-어텐션 맵이 입력 타겟 마스크와 정렬되도록 하는 새로운 크로스-어텐션 손실을 사용하여 우리가 정제한 데이터셋으로 모델을 미세 조정합니다. 성능을 더욱 개선하기 위해, 이 손실을 의미론적으로 가장 관련성이 높은 트랜스포머 블록과 어텐션 영역에 선택적으로 적용합니다. 실험 결과는 우리의 타겟 인식 모델이 배우가 지정된 타겟과 정확하게 상호작용하는 비디오를 생성하는 데 있어 기존 솔루션들을 능가함을 보여줍니다. 또한, 비디오 콘텐츠 생성과 제로샷 3D HOI 모션 합성이라는 두 가지 하위 응용 분야에서의 효용성을 추가로 입증합니다.
분포 외 탐지(Out-of-Distribution Detection, OoDD)에 대한 기존 연구는 주로 단일 모달리티 모델에 초점을 맞추어 왔습니다. 최근 CLIP과 같은 대규모 사전 학습된 비전-언어 모델의 등장으로, 제로샷 및 프롬프트 학습 전략을 통해 이러한 다중 모달리티 표현을 활용한 OoDD 방법들이 등장했습니다. 그러나 이러한 방법들은 일반적으로 사전 학습된 가중치를 고정하거나 부분적으로만 조정하는 방식을 사용하며, 이는 하위 데이터셋에 대해 최적이 아닐 수 있습니다. 본 논문에서는 다중 모달리티 미세 조정(Multi-Modal Fine-Tuning, MMFT)이 뛰어난 OoDD 성능을 달성할 수 있음을 강조합니다. 최근 일부 연구에서 미세 조정 방법이 OoDD에 미치는 영향을 보여주었음에도 불구하고, 성능 개선을 위한 상당한 잠재력이 남아 있습니다. 우리는 단순한 미세 조정 방법의 한계를 조사하며, 이러한 방법들이 사전 학습된 지식을 완전히 활용하지 못하는 이유를 분석합니다. 우리의 실증적 분석은 이 문제가 분포 내(In-Distribution, ID) 임베딩 내의 모달리티 간 격차에서 비롯될 수 있음을 시사합니다. 이를 해결하기 위해, 우리는 ID 데이터의 이미지와 텍스트 임베딩 간 거리를 정규화함으로써 교차 모달리티 정렬을 강화하는 학습 목표를 제안합니다. 이 조정은 하이퍼스피어 표현 공간에서 서로 다른 모달리티(즉, 텍스트와 이미지) 간 유사한 의미를 더 밀접하게 정렬함으로써 사전 학습된 텍스트 정보를 더 잘 활용하는 데 도움을 줍니다. 우리는 제안된 정규화가 하이퍼스피어 상의 에너지 기반 모델의 최대 가능도 추정에 해당함을 이론적으로 입증합니다. ImageNet-1k OoD 벤치마크 데이터셋을 활용하여, 우리의 방법이 사전 학습된 지식을 활용한 사후 OoDD 접근법(예: NegLabel)과 결합되었을 때 기존 방법들을 크게 능가하며, 최첨단 OoDD 성능과 최고의 ID 정확도를 달성함을 보여줍니다.
대형 언어 모델(LLMs)은 의학 분야를 혁신할 잠재력을 가지고 있지만, 실제 임상 시나리오에는 성능을 저해할 수 있는 불필요한 정보가 포함되어 있습니다. 실시간 환자 상담에서 초안 노트를 자동으로 생성하는 앰비언트 디테이션(ambient dictation)과 같은 보조 기술의 등장은 추가적인 노이즈를 유발할 가능성이 있어, LLM이 관련 데이터를 필터링하는 능력을 평가하는 것이 중요해졌습니다. 이를 조사하기 위해 우리는 USMLE 스타일의 질문에 실제와 유사한 방해 요소를 포함한 벤치마크인 MedDistractQA를 개발했습니다. 연구 결과에 따르면, 방해 문장(임상적 의미를 가진 다의어가 비임상적 맥락에서 사용되거나 관련 없는 건강 상태를 언급하는 경우)은 LLM의 정확도를 최대 17.9%까지 감소시킬 수 있습니다. 모델 성능을 개선하기 위해 흔히 제안되는 해결책인 검색 증강 생성(RAG) 및 의학적 미세 조정은 이러한 영향을 바꾸지 못했을 뿐만 아니라, 경우에 따라 자체적인 혼란 요인을 도입하여 성능을 더욱 저하시켰습니다. 우리의 연구 결과는 LLM이 본질적으로 관련 임상 정보와 불필요한 정보를 구분하는 데 필요한 논리적 메커니즘을 갖추지 못하고 있음을 시사하며, 이는 실제 응용에 있어 도전 과제로 작용합니다. MedDistractQA와 우리의 연구 결과는 LLM이 불필요한 정보에 대한 회복력을 강화하기 위한 견고한 완화 전략의 필요성을 강조합니다.