번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 일반적인 목적의 다중모드 추론을 발전시키기 위해 설계된 시각-언어 모델(VLM)인 GLM-4.1V-Thinking을 소개한다. 이 보고서에서는 추론 중심의 훈련 프레임워크 개발 과정에서 얻은 주요 발견을 공유한다. 먼저, 대규모 사전 훈련을 통해 최종 성능의 상한선을 설정할 수 있는 잠재력을 가진 강력한 시각 기반 모델을 개발하였다. 이후, 커리큘럼 샘플링을 통한 강화 학습(RLCS)을 통해 모델의 잠재력을 최대한 발휘하여 STEM 문제 해결, 비디오 이해, 콘텐츠 인식, 코딩, 그라운딩, GUI 기반 에이전트, 장문서 이해 등 다양한 작업에서 포괄적인 능력 향상을 이끌어냈다. 이 분야의 연구를 촉진하기 위해, 동일 규모의 모델 중 최고 수준의 성능을 달성한 GLM-4.1V-9B-Thinking을 오픈소스로 공개한다. 28개의 공개 벤치마크에 대한 포괄적인 평가에서, 본 모델은 거의 모든 작업에서 Qwen2.5-VL-7B를 능가하며, 훨씬 더 큰 규모의 Qwen2.5-VL-72B와 비교하여 18개의 벤치마크에서 비슷하거나 더 우수한 성능을 보였다. 특히, GLM-4.1V-9B-Thinking은 장문서 이해 및 STEM 추론과 같은 도전적인 작업에서 GPT-4o와 같은 폐쇄형 모델과 비교하여 경쟁력 있거나 더 우수한 성능을 보여, 그 강력한 능력을 더욱 입증하였다. 코드, 모델 및 추가 정보는 https://github.com/THUDM/GLM-4.1V-Thinking에서 공개되었다.
수학적 추론은 대형 언어 모델(LLM)의 발전을 상징하는 대표적인 사례로 자리 잡았으며, 새로운 모델들이 MATH 및 AIME와 같은 벤치마크에서 인간 수준의 성능을 빠르게 뛰어넘고 있습니다. 그러나 수학 리더보드가 주마다 개선됨에 따라, 이러한 성과가 더 광범위한 문제 해결 능력을 반영하는지 아니면 단순히 좁은 범위에서의 과적합을 보이는 것인지 질문할 필요가 있습니다. 이 질문에 답하기 위해, 우리는 수학, 과학 질의응답, 에이전트 계획, 코딩, 그리고 표준 지시 따르기 등 다양한 작업에 걸쳐 20개 이상의 오픈 웨이트 추론 튜닝 모델을 평가했습니다. 놀랍게도, 수학에서 성공한 대부분의 모델들이 다른 영역으로 그 성과를 전이하지 못한다는 사실을 발견했습니다. 이 현상을 엄밀히 연구하기 위해, 우리는 Qwen3-14B 모델을 대상으로 수학 데이터만 사용하되 다른 튜닝 방법을 적용한 통제 실험을 수행했습니다. 그 결과, 강화 학습(RL) 튜닝 모델은 여러 영역에서 잘 일반화되는 반면, 지도 미세 조정(SFT) 튜닝 모델은 종종 일반적인 능력을 잊어버리는 것으로 나타났습니다. 잠재 공간 표현과 토큰 공간 분포 변화 분석을 통해, SFT는 상당한 표현 및 출력 변화를 유도하는 반면, RL은 일반 도메인 구조를 보존한다는 사실이 밝혀졌습니다. 우리의 결과는 추론 모델을 발전시키기 위한 표준 사후 학습 방법론, 특히 SFT 증류 데이터에 대한 의존성을 재고할 필요가 있음을 시사합니다.
우리는 과학 문헌 작업에서 파운데이션 모델을 평가하기 위한 개방형 협업 플랫폼인 SciArena를 소개합니다. 과학 문헌 이해 및 통합을 위한 기존 벤치마크와 달리, SciArena는 연구 커뮤니티를 직접 참여시켜, Chatbot Arena의 평가 접근 방식인 커뮤니티 투표를 통해 모델 비교를 진행합니다. 집단 지성을 활용함으로써, SciArena는 문헌 기반의 장문 응답을 요구하는 개방형 과학 작업에서 모델 성능에 대한 커뮤니티 주도 평가를 제공합니다. 이 플랫폼은 현재 23개의 오픈소스 및 독점 파운데이션 모델을 지원하며, 다양한 과학 분야의 신뢰할 수 있는 연구자들로부터 13,000건 이상의 투표를 수집했습니다. 우리는 지금까지 수집된 데이터를 분석하여 제출된 질문이 다양하며, 실제 문헌 요구 사항과 일치하고, 참여 연구자들이 평가에서 강력한 자기 일관성과 평가자 간 일치를 보인다는 것을 확인했습니다. 우리는 모델 순위 리더보드를 기반으로 결과와 통찰을 논의합니다. 문헌 작업을 위한 모델 기반 자동 평가 시스템 구축 연구를 더욱 촉진하기 위해, 우리는 수집된 선호도 데이터를 기반으로 한 메타 평가 벤치마크인 SciArena-Eval을 공개합니다. 이 벤치마크는 모델이 인간 투표와 비교하여 답변 품질을 판단하는 정확도를 측정합니다. 우리의 실험은 이 벤치마크의 도전 과제를 강조하며, 더 신뢰할 수 있는 자동 평가 방법의 필요성을 강조합니다.
인과적 시각-언어 모델(Vision Language Models, VLMs)을 기반으로 구축된 멀티모달 임베딩 모델은 다양한 작업에서 유망한 성과를 보여주고 있습니다. 그러나 현재의 접근 방식은 세 가지 주요 한계에 직면해 있습니다: VLM 백본에서 사용되는 인과적 어텐션(causal attention)은 임베딩 작업에 최적화되지 않으며, 대조 학습(contrastive learning)을 위해 고품질의 레이블이 지정된 짝 데이터에 의존함으로써 확장성 문제가 발생하고, 훈련 목표와 데이터의 다양성이 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 사전 훈련된 VLMs을 효과적인 양방향 멀티모달 임베딩 모델로 변환하기 위한 두 단계 프레임워크인 MoCa를 제안합니다. 첫 번째 단계인 Modality-aware Continual Pre-training은 텍스트와 이미지 입력을 동시에 디노이징(denoising)하는 공동 재구성(joint reconstruction) 목표를 도입하여 양방향 컨텍스트 인식 추론을 강화합니다. 두 번째 단계인 Heterogeneous Contrastive Fine-tuning은 단순한 이미지-캡션 쌍을 넘어서 다양한 의미론적으로 풍부한 멀티모달 데이터를 활용하여 일반화와 정렬(alignment)을 강화합니다. 우리의 방법은 지속적인 사전 훈련을 통해 양방향 어텐션을 도입하고, 공동 재구성 목표를 통해 대규모 레이블 없는 데이터셋과 효과적으로 확장하며, 다양한 멀티모달 데이터를 활용하여 표현의 견고성을 강화함으로써 앞서 언급한 한계를 해결합니다. 실험 결과, MoCa는 MMEB 및 ViDoRe-v2 벤치마크에서 일관되게 성능을 향상시키며 새로운 최첨단 결과를 달성했고, MMEB에서 모델 크기와 훈련 데이터 모두에 대해 강력한 확장성을 보여주었습니다.
최근 확산 모델의 발전으로 고품질 비디오 생성이 가능해졌지만, 추가된 시간 차원으로 인해 계산 비용이 크게 증가하여 긴 비디오에 대한 학습과 추론이 현실적으로 불가능해졌습니다. 본 논문에서는 비디오 확산 모델에서 '시공간 에너지 감쇠(Spatiotemporal Energy Decay)'라고 명명한 현상을 발견했습니다. 이는 소프트맥스 이후의 어텐션 점수가 토큰 간의 공간적 및 시간적 거리가 증가함에 따라 감소하는 현상으로, 자연에서 신호나 파동이 공간과 시간에 따라 감쇠하는 물리적 현상과 유사합니다. 이를 바탕으로, 우리는 O(n log n) 복잡도를 가지며 에너지 감쇠를 지수적으로 감소하는 계산 밀도로 변환하는 확장 가능한 희소 어텐션 메커니즘인 'Radial Attention'을 제안합니다. 이는 표준 O(n^2) 밀집 어텐션보다 훨씬 효율적이며 선형 어텐션보다 표현력이 뛰어납니다. 구체적으로, Radial Attention은 각 토큰이 공간적으로 가까운 토큰에 주의를 기울이고, 시간적 거리에 따라 어텐션 윈도우 크기가 줄어드는 간단한 정적 어텐션 마스크를 사용합니다. 또한, 사전 학습된 비디오 확산 모델이 효율적인 LoRA 기반 미세 조정을 통해 생성 길이를 확장할 수 있도록 합니다. 광범위한 실험을 통해 Radial Attention이 Wan2.1-14B, HunyuanVideo, Mochi 1에서 비디오 품질을 유지하면서 원래의 밀집 어텐션 대비 최대 1.9배의 속도 향상을 달성함을 보여줍니다. 최소한의 조정으로 최대 4배 더 긴 비디오 생성을 가능하게 하며, 직접 미세 조정 대비 최대 4.4배의 학습 비용 절감과 밀집 어텐션 추론 대비 최대 3.7배의 추론 가속화를 실현합니다.
확산 기반 대형 언어 모델(dLLM)은 디노이징 모델이 전체 시퀀스에 대해 작동한다는 점에서 자기회귀(AR) 모델에 대한 매력적인 대안으로 주목받고 있습니다. dLLM의 전역 계획 및 반복적 개선 기능은 특히 코드 생성에 유용합니다. 그러나 현재 dLLM의 훈련 및 추론 메커니즘은 여전히 충분히 탐구되지 않고 있습니다. dLLM의 디코딩 행동을 명확히 이해하고 코드 생성에서의 잠재력을 발휘하기 위해, 우리는 이들의 디노이징 프로세스와 강화 학습(RL) 방법을 체계적으로 조사합니다. 우리는 130B 토큰의 코드로 7B 규모의 dLLM인 DiffuCoder를 훈련시켰습니다. 이 모델을 테스트베드로 사용하여, 우리는 AR 모델과의 차이점을 분석했습니다: (1) dLLM은 준-AR 디코딩에 의존하지 않고도 생성의 인과성을 결정할 수 있으며, (2) 샘플링 온도를 높이면 토큰 선택뿐만 아니라 생성 순서도 다양화됩니다. 이러한 다양성은 RL 롤아웃을 위한 풍부한 탐색 공간을 만듭니다. RL 훈련을 위해, 토큰 로그-우도 추정치의 분산을 줄이고 훈련 효율성을 유지하기 위해, 우리는 훈련에 사용되는 완성문에 대해 상호 보완적인 마스크 노이즈를 구성하는 새로운 샘플링 기법인 coupled-GRPO를 제안합니다. 우리의 실험에서, coupled-GRPO는 DiffuCoder의 코드 생성 벤치마크 성능을 크게 향상시켰으며(EvalPlus에서 +4.4%), 디코딩 중 AR 인과성에 대한 의존도를 줄였습니다. 우리의 연구는 dLLM 생성의 메커니즘에 대한 깊은 통찰을 제공하며, 확산 모델에 적합한 효과적인 RL 훈련 프레임워크를 제시합니다. https://github.com/apple/ml-diffucoder.
기계가 인간과 같은 영역에서 진정으로 사고하고, 추론하며, 행동할 수 있을까? 이 오래된 질문은 여전히 인공 일반 지능(AGI) 추구를 형성하고 있다. GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4, Grok 3과 같은 모델들이 다중 모달 유창성과 부분적 추론 능력을 보여주며 점점 더 발전하고 있음에도 불구하고, 이러한 시스템들은 토큰 수준 예측에 의존하고 근거 있는 행위 능력이 부족하다는 근본적인 한계를 지니고 있다. 본 논문은 인공지능, 인지 신경과학, 심리학, 생성 모델, 에이전트 기반 시스템을 아우르는 AGI 개발에 대한 학제적 통합을 제시한다. 우리는 일반 지능의 아키텍처적 및 인지적 기초를 분석하며, 모듈식 추론, 지속적 메모리, 다중 에이전트 조정의 역할을 강조한다. 특히, 검색, 계획, 동적 도구 사용을 결합하여 더 적응적인 행동을 가능하게 하는 에이전트 기반 RAG 프레임워크의 부상을 강조한다. 우리는 정보 압축, 테스트 시간 적응, 훈련 없는 방법을 포함한 일반화 전략을 유연하고 도메인에 구애받지 않는 지능을 향한 중요한 경로로 논의한다. 비전-언어 모델(VLMs)은 단순히 인지 모듈로 재검토되는 것이 아니라, 체화된 이해와 협업적 작업 완성을 위한 진화하는 인터페이스로 재조명된다. 또한, 진정한 지능은 규모만으로부터가 아니라 메모리와 추론의 통합, 즉 압축이 적응적 행동을 가능하게 하는 모듈식, 상호작용적, 자기 개선적 구성 요소의 조화로부터 발생한다고 주장한다. 신경기호 시스템, 강화 학습, 인지 스캐폴딩의 발전을 바탕으로, 최근 아키텍처들이 통계적 학습과 목표 지향적 인지 사이의 격차를 어떻게 좁히기 시작했는지 탐구한다. 마지막으로, AGI로 가는 길에 직면한 주요 과학적, 기술적, 윤리적 도전 과제들을 식별한다.
다중모달 대형 언어 모델의 급속한 발전과 함께, 인간의 의도를 깊이 이해하고 해석하는 능력은 상세하고 신중한 추론을 요구하는 중요한 역량으로 부각되었습니다. 최근 연구에서 강화학습(Reinforcement Learning, RL)은 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 잠재력을 보여주었습니다. 그러나 다중모달 데이터와 형식에 RL을 적용하는 데 따른 과제들은 여전히 대부분 해결되지 않은 상태입니다. 본 논문에서는 기존 다중모달 추론 모델의 두 가지 문제점을 지적합니다: 불충분한 전역 컨텍스트 이해와 단축 경로 문제입니다. 불충분한 컨텍스트 이해는 모델이 다중모달 컨텍스트를 잘못 해석하여 잘못된 답변을 내놓는 경우에 발생할 수 있습니다. 단축 경로 문제는 모델이 다중모달 입력에서 중요한 단서를 간과하고, 다중모달 정보를 고려하지 않고 질의에 직접 답변하는 경우에 발생합니다. 이러한 문제를 해결하기 위해, 우리는 모델이 다중모달 입력 내의 전역 컨텍스트를 명확히 이해하며 추론할 필요성을 강조합니다. 이러한 전역 컨텍스트 이해는 모델이 주요 다중모달 단서를 간과하는 것을 효과적으로 방지하고 철저한 추론 과정을 보장할 수 있습니다. 다중모달 컨텍스트 정보의 정확한 해석을 보장하기 위해, 우리는 대형 언어 모델에 의해 판단되는 컨텍스트 보상과 형식 및 정확도 보상을 구현합니다. 또한, 복잡한 추론 능력을 향상시키기 위해, 우리는 LLM을 활용하여 논리적 보상을 평가하고, 추론 과정이 다중모달 정보를 논리적 방법과 성공적으로 통합했는지 여부를 판단합니다. 우리는 또한 복잡한 인간의 의도와 감정을 이해하는 모델을 평가하기 위한 추론 전모달 벤치마크인 IntentBench를 소개합니다. 우리가 제안한 방법은 다른 오픈소스 전모달 모델들과 비교하여 여러 전모달 벤치마크에서 우수한 성능을 보여줍니다.
아모달 분할(amodal segmentation)과 아모달 콘텐츠 완성(amodal content completion)은 복잡한 장면에서 가려진 객체의 마스크와 특징을 추정하기 위해 객체 사전 정보(object priors)를 사용해야 합니다. 지금까지는 객체 컨텍스트에 대한 추가적인 차원, 즉 여러 카메라가 동일한 장면을 공유할 가능성을 제공하는 데이터가 없었습니다. 우리는 MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content를 소개합니다. 이는 현재까지 가장 큰 아모달 분할 데이터셋이자 최초의 아모달 콘텐츠 데이터셋입니다. 일반적인 가정용 물건들로 어지럽게 구성된 장면이 다중 카메라 비디오로 시뮬레이션되었습니다. MOVi-MC-AC는 객체 탐지, 추적, 분할 분야의 문헌에 두 가지 새로운 기여를 함으로써 컴퓨터 비전을 위한 딥러닝 세계에 공헌합니다. 다중 카메라(MC) 설정은 객체가 다양한 독특한 카메라 시점 간에 식별되고 추적될 수 있는 환경으로, 합성 및 실제 비디오 모두에서 희귀합니다. 우리는 단일 장면에서 각각 고유한 특징과 움직임 패턴을 가진 여러 카메라 간에 프레임과 객체 탐지 및 분할을 위한 일관된 객체 ID를 제공함으로써 합성 비디오에 새로운 복잡성을 도입했습니다. 아모달 콘텐츠(AC)는 모델이 가려진 대상 객체의 외관을 예측하는 재구성 작업입니다. 아모달 분할 문헌에서는 아모달 탐지, 추적, 분할 레이블이 포함된 일부 데이터셋이 공개되었습니다. 다른 방법들은 아모달 콘텐츠 의사 레이블(pseudo-labels)을 생성하기 위해 느린 잘라 붙이기(cut-and-paste) 방식을 사용하지만, 모달 마스크에 존재하는 자연스러운 가림 현상을 고려하지 않습니다. MOVi-MC-AC는 약 580만 개의 객체 인스턴스에 대한 레이블을 제공하여 아모달 데이터셋 문헌에서 새로운 최대치를 설정했으며, 최초로 실제 아모달 콘텐츠의 정답(ground-truth)을 제공합니다. 전체 데이터셋은 https://huggingface.co/datasets/Amar-S/MOVi-MC-AC에서 이용 가능합니다.
멀티모달 대형 언어 모델(MLLMs)은 자연 이미지, 텍스트가 풍부한 문서, 그래픽 디자인 등에서 놀라운 시각적 추론 능력을 보여왔습니다. 그러나 악보 해석 능력은 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 악보 이해를 평가하고 발전시키기 위한 최초의 포괄적인 데이터셋인 MusiXQA를 소개합니다. MusiXQA는 MusiXTeX를 통해 생성된 고품질의 합성 악보로 구성되어 있으며, 음표의 높이와 지속 시간, 코드, 음자리표, 조/박자 기호, 텍스트 등을 포함한 구조화된 주석을 제공하여 다양한 시각적 질의응답 작업을 가능하게 합니다. 광범위한 평가를 통해, 우리는 현재 최첨단 MLLMs의 이 분야에서의 상당한 한계를 밝혀냈습니다. 벤치마킹을 넘어, 우리는 이 데이터셋을 기반으로 미세 조정된 MLLM인 Phi-3-MusiX를 개발하여 GPT 기반 방법 대비 상당한 성능 향상을 달성했습니다. 제안된 데이터셋과 모델은 악보 이해를 위한 MLLMs의 미래 발전을 위한 기반을 마련합니다. 코드, 데이터, 모델은 논문 채택 시 공개될 예정입니다.
데이터는 언어 모델(LM) 훈련의 근간이 됩니다. 최근 연구는 데이터 효율성에 초점을 맞추어, 최소 또는 최적의 훈련 데이터 하위 집합을 선택함으로써 성능을 극대화하는 것을 목표로 하고 있습니다. 데이터 필터링, 샘플링, 선택 등의 기법이 이 분야에서 중요한 역할을 합니다. 이를 보완하기 위해, 우리는 데이터 조직화를 최적화하여 성능을 극대화하는 데 초점을 맞춘 데이터 효능(Data Efficacy)을 정의하며, 이는 상대적으로 덜 탐구된 영역입니다. 본 연구는 LM 훈련에서 데이터 효능을 고려하기 위한 일반적인 패러다임인 DELT를 소개하며, 이는 훈련 데이터 조직화의 중요성을 강조합니다. DELT는 데이터 스코어링(Data Scoring), 데이터 선택(Data Selection), 데이터 순서화(Data Ordering) 세 가지 구성 요소로 이루어져 있습니다. 이 중에서 우리는 데이터 스코어링의 새로운 사례로서 학습 가능성과 품질을 그래디언트 일관성 관점에서 고려하는 학습 가능성-품질 스코어링(Learnability-Quality Scoring, LQS)을 설계했습니다. 또한, 데이터 순서화의 새로운 사례로서 모델 망각 및 데이터 분포 편향과 같은 문제를 해결하는 폴딩 순서화(Folding Ordering, FO)를 고안했습니다. 포괄적인 실험을 통해 LM 훈련에서의 데이터 효능이 검증되었으며, 이는 다음과 같은 결과를 보여줍니다: 첫째, 제안된 DELT의 다양한 사례들은 데이터 규모와 모델 크기를 증가시키지 않으면서도 LM 성능을 다양한 정도로 향상시킵니다. 둘째, 이러한 사례들 중에서 데이터 스코어링을 위한 LQS와 데이터 순서화를 위한 폴딩의 조합이 가장 큰 성능 향상을 달성했습니다. 마지막으로, 데이터 선택을 적용함으로써 데이터 효능과 데이터 효율성을 동시에 달성할 수 있습니다. 따라서, 우리는 데이터 효능이 LM 훈련에서 유망한 기초 영역이라고 믿습니다.
최근 비디오 생성 모델의 발전으로 텍스트 프롬프트에서 고품질의 짧은 비디오를 생성할 수 있게 되었습니다. 그러나 이러한 모델을 더 긴 비디오로 확장하는 것은 여전히 큰 과제로 남아 있으며, 이는 주로 시간적 일관성과 시각적 충실도의 저하 때문입니다. 우리의 예비 관찰에 따르면, 짧은 비디오 생성 모델을 긴 시퀀스에 그대로 적용하면 눈에 띄는 품질 저하가 발생합니다. 추가 분석을 통해 비디오 길이가 증가함에 따라 고주파수 성분이 점점 더 왜곡되는 체계적인 경향을 확인했으며, 이를 고주파수 왜곡이라고 명명했습니다. 이를 해결하기 위해 우리는 디노이징 과정에서 긴 비디오 특징의 주파수 분포를 균형 있게 조정하도록 설계된 학습이 필요 없는 프레임워크인 FreeLong을 제안합니다. FreeLong은 전체 비디오에 걸친 전체적인 의미를 포착하는 전역적 저주파수 특징과 짧은 시간 창에서 추출된 지역적 고주파수 특징을 혼합하여 세부 사항을 보존합니다. 이를 기반으로 FreeLong++는 FreeLong의 이중 분기 설계를 여러 주의 분기를 가진 다중 분기 아키텍처로 확장하며, 각 분기는 서로 다른 시간적 규모에서 작동합니다. 전역에서 지역까지 다양한 창 크기를 배열함으로써 FreeLong++는 저주파수에서 고주파수까지 다중 대역 주파수 융합을 가능하게 하여, 더 긴 비디오 시퀀스에서 의미적 연속성과 세밀한 동작 역학을 모두 보장합니다. 추가 학습 없이도 FreeLong++는 기존 비디오 생성 모델(예: Wan2.1 및 LTX-Video)에 플러그인되어 시간적 일관성과 시각적 충실도가 크게 향상된 더 긴 비디오를 생성할 수 있습니다. 우리의 접근 방식이 더 긴 비디오 생성 작업(예: 기본 길이의 4배 및 8배)에서 이전 방법들을 능가함을 보여줍니다. 또한, 부드러운 장면 전환과 함께 일관된 다중 프롬프트 비디오 생성을 지원하며, 긴 깊이 또는 포즈 시퀀스를 사용하여 제어 가능한 비디오 생성을 가능하게 합니다.
비전-언어 모델(VLMs)은 기술적 작업에서 뛰어난 성능을 보이지만, 시각적 관찰을 통해 장면을 진정으로 이해하는지 여부는 여전히 불확실합니다. 본 연구에서는 VLMs이 수동적 인식이 아닌 능동적 창작을 통해 이해를 입증하도록 도전하는 벤치마크인 IR3D-Bench를 소개합니다. 분석-합성 패러다임에 기반을 둔 IR3D-Bench는 비전-언어 에이전트(VLAs)가 프로그래밍 및 렌더링 도구를 능동적으로 사용하여 입력 이미지의 기본 3D 구조를 재구성하도록 요구함으로써, 도구 사용을 통한 에이전트적 역렌더링을 달성합니다. 이 "창작을 통한 이해" 접근법은 전통적인 장면 이해 벤치마크에서 측정되는 기술적 또는 대화적 능력을 넘어, VLAs의 도구 사용 생성 능력을 탐구합니다. 우리는 기하학적 정확도, 공간 관계, 외관 속성 및 전반적인 타당성을 평가하기 위한 포괄적인 메트릭 세트를 제공합니다. 다양한 최첨단 VLMs을 기반으로 한 에이전트적 역렌더링에 대한 초기 실험은 기본 도구 사용보다는 시각적 정밀도에서 현재의 한계를 강조합니다. IR3D-Bench는 데이터 및 평가 프로토콜을 포함하여, 창작을 통한 진정한 장면 이해를 향한 도구 사용 VLAs의 체계적인 연구 및 개발을 촉진하기 위해 공개되었습니다.
유럽연합 법집행기구의 보고서에 따르면, 2026년까지 온라인 콘텐츠의 최대 90%가 합성적으로 생성될 것으로 예측되며, 이는 정책 결정자들 사이에서 우려를 불러일으키고 있습니다. 이들은 "생성형 AI가 정치적 허위정보의 확산을 가속화할 수 있다"고 경고하며, "생성형 텍스트, 이미지, 비디오, 오디오의 결합된 효과는 단일 모달리티의 영향력을 넘어설 수 있다"고 지적했습니다. 이에 대응하여 캘리포니아의 AB 3211 법안은 AI 생성 이미지, 비디오, 오디오에 워터마크를 의무화하고 있습니다. 그러나 보이지 않는 워터마크 기술이 변조에 취약할 수 있으며, 악의적인 행위자가 이를 완전히 우회할 가능성에 대한 우려가 여전히 남아 있습니다. 특히 최근 도입된 시각적 패러프레이즈 공격을 포함한 생성형 AI 기반의 워터마크 제거 공격은 워터마크를 완전히 제거하고 원본 이미지를 패러프레이즈할 수 있는 능력을 보여주었습니다. 본 논문은 시각적 패러프레이즈 공격에 안전하고 왜곡 없는 이미지 워터마크 기술인 PECCAVI를 소개합니다. 시각적 패러프레이즈 공격에서 이미지는 핵심 의미 영역인 Non-Melting Points(NMPs)를 보존하면서 변경됩니다. PECCAVI는 이러한 NMPs 내에 워터마크를 전략적으로 삽입하고 다중 채널 주파수 영역 워터마킹을 사용합니다. 또한, 노이즈 버니싱을 도입하여 NMPs를 찾아내어 내장된 워터마크를 방해하려는 역공학 시도를 방지함으로써 내구성을 강화합니다. PECCAVI는 모델에 독립적이며, 모든 관련 리소스와 코드는 오픈소스로 공개될 예정입니다.
대형 언어 모델(LLM)은 Chain-of-Thought(CoT) 및 Tree-of-Thought(ToT)와 같은 고급 프롬프팅 기술을 통해 복잡한 작업에서 뛰어난 성능을 보이지만, 수동으로 설계된 작업별 프롬프트에 의존하기 때문에 적응성과 효율성이 제한됩니다. 우리는 다양한 추론 전략을 LLM에 내장하여 외부 프롬프트 엔지니어링 없이도 자율적이고 작업에 적응 가능한 추론을 가능하게 하는 Mixture of Reasoning(MoR) 훈련 프레임워크를 소개합니다. MoR은 두 단계로 구성됩니다: Thought Generation 단계에서는 GPT-4o와 같은 모델을 사용하여 추론 체인 템플릿을 생성하고, SFT Dataset Construction 단계에서는 이러한 템플릿을 벤치마크 데이터셋과 짝지어 지도 미세 조정을 수행합니다. 실험 결과, MoR은 성능을 크게 향상시키며, MoR150은 CoT 프롬프팅을 사용하여 0.730(2.2% 개선)을 달성하고, 기준 모델 대비 0.734(13.5% 개선)을 보였습니다. MoR은 작업별 프롬프트의 필요성을 제거함으로써 다양한 작업에 걸쳐 강력한 추론을 위한 일반화 가능한 솔루션을 제공합니다.
우리는 3D 오픈 월드 내에서 커뮤니티와 함께 평생 학습이 가능한 구체화된 사회적 에이전트인 Ella를 소개합니다. Ella는 일상적인 시각적 관찰과 사회적 상호작용을 통해 경험을 축적하고 지식을 습득합니다. Ella의 핵심 능력은 정보를 효과적으로 저장, 업데이트 및 검색하는 구조화된 장기 다중모달 메모리 시스템입니다. 이 시스템은 습득한 지식을 체계화하기 위한 이름 중심의 의미 메모리와 다중모달 경험을 포착하기 위한 시공간적 에피소드 메모리로 구성됩니다. 이 평생 메모리 시스템을 파운데이션 모델과 통합함으로써, Ella는 의사결정을 위한 관련 정보를 검색하고, 일상 활동을 계획하며, 사회적 관계를 구축하고, 오픈 월드 내 다른 지능적 존재들과 공존하면서 자율적으로 진화합니다. 우리는 15명의 에이전트가 며칠 동안 사회적 활동에 참여하고 일련의 미리 보지 않은 통제된 평가를 받는 동적 3D 오픈 월드에서 능력 지향 평가를 수행합니다. 실험 결과, Ella는 목표를 달성하기 위해 다른 에이전트들을 잘 영향을 미치고, 리드하며, 협력할 수 있어, 관찰과 사회적 상호작용을 통해 효과적으로 학습할 수 있는 능력을 보여줍니다. 우리의 연구 결과는 구조화된 메모리 시스템과 파운데이션 모델을 결합함으로써 구체화된 지능을 발전시킬 수 있는 변혁적 잠재력을 강조합니다. 더 많은 비디오는 https://umass-embodied-agi.github.io/Ella/에서 확인할 수 있습니다.
정확한 재질 모델링은 컴퓨터 생성 이미지와 실제 사진 간의 차이를 줄이고, 사실적인 렌더링을 달성하는 데 있어 핵심적인 역할을 합니다. 기존의 접근 방식은 표로 정리된 BRDF 데이터에 의존해 왔지만, 최근 연구는 다양한 작업에 대해 간결하고 유연한 프레임워크를 제공하는 암묵적 신경망 표현으로 전환되고 있습니다. 그러나 이러한 방법들의 주파수 영역에서의 동작은 아직 잘 이해되지 않고 있습니다. 이를 해결하기 위해, 우리는 주파수 보정 신경 재질 표현인 FreNBRDF를 제안합니다. 구면 조화 함수를 활용하여 신경망 BRDF 모델링에 주파수 영역 고려사항을 통합합니다. 또한, 신경 재질의 주파수 분석에서 도출된 새로운 주파수 보정 손실 함수를 제안하고, 이를 일반화 가능하며 적응형 재구성 및 편집 파이프라인에 통합합니다. 이 프레임워크는 충실도, 적응성, 효율성을 향상시킵니다. 광범위한 실험을 통해, 우리의 방법이 최신 기법들에 비해 재질 외관 재구성 및 편집의 정확성과 견고성을 개선하며, 더 구조화되고 해석 가능한 하위 작업과 응용 프로그램을 가능하게 한다는 것을 입증합니다.
3D 가우시안 스플래팅은 고품질 실시간 렌더링을 가능하게 하지만, 종종 수백만 개의 스플랫을 생성하여 과도한 저장 공간과 계산 오버헤드를 초래합니다. 우리는 Beta 분포로 모델링된 학습 가능한 신뢰도 점수를 기반으로 한 새로운 손실 압축 방법을 제안합니다. 각 스플랫의 신뢰도는 재구성 인식 손실을 통해 최적화되어, 시각적 충실도를 유지하면서 낮은 신뢰도의 스플랫을 제거할 수 있습니다. 제안된 접근 방식은 아키텍처에 구애받지 않으며, 모든 가우시안 스플래팅 변형에 적용할 수 있습니다. 또한, 평균 신뢰도 값은 장면의 품질을 평가하는 새로운 지표로 사용됩니다. 광범위한 실험을 통해 기존 연구와 비교하여 압축과 충실도 사이의 유리한 균형을 입증했습니다. 우리의 코드와 데이터는 https://github.com/amirhossein-razlighi/Confident-Splatting에서 공개적으로 이용 가능합니다.