번역이 포함된 일일 선별된 AI 연구 논문
우리는 원천적인 멀티모달 사전 학습 패러다임을 특징으로 하는 InternVL 시리즈의 중요한 진보인 InternVL3를 소개한다. 텍스트 전용 대형 언어 모델(LLM)을 시각적 입력을 지원하는 멀티모달 대형 언어 모델(MLLM)로 적응시키는 대신, InternVL3는 단일 사전 학습 단계에서 다양한 멀티모달 데이터와 순수 텍스트 코퍼스로부터 멀티모달 및 언어적 능력을 공동으로 획득한다. 이 통합된 학습 패러다임은 기존의 MLLM을 위한 사후 학습 파이프라인에서 흔히 발생하는 복잡성과 정렬 문제를 효과적으로 해결한다. 성능과 확장성을 더욱 개선하기 위해, InternVL3는 확장된 멀티모달 컨텍스트를 지원하기 위한 가변 시각적 위치 인코딩(V2PE)을 도입하고, 지도 미세 조정(SFT) 및 혼합 선호 최적화(MPO)와 같은 고급 사후 학습 기법을 활용하며, 테스트 시 스케일링 전략과 최적화된 학습 인프라를 채택한다. 광범위한 실험적 평가를 통해 InternVL3가 다양한 멀티모달 작업에서 우수한 성능을 보여줌을 입증했다. 특히, InternVL3-78B는 MMMU 벤치마크에서 72.2점을 달성하여 오픈소스 MLLM 중 새로운 최첨단 기록을 세웠다. 이 모델의 능력은 ChatGPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro와 같은 선도적인 독점 모델과도 매우 경쟁력이 있으며, 동시에 강력한 순수 언어 능력을 유지한다. 오픈 사이언스 원칙을 추구하며, 우리는 차세대 MLLM 연구 및 개발을 촉진하기 위해 학습 데이터와 모델 가중치를 공개할 예정이다.
DeepSeek R1과 QwQ 32B의 등장은 가정용 기기에서 최첨단 대규모 언어 모델(LLM)을 실행하는 성능 장벽을 돌파했습니다. 소비자용 하드웨어가 점점 강력해지고 모델 양자화 기술이 개선되고 있지만, 기존의 엔드사이드 솔루션들은 여전히 GPU 클러스터, 대용량 RAM/VRAM, 그리고 높은 대역폭을 요구하며, 일반적인 가정용 클러스터가 감당할 수 있는 범위를 훨씬 넘어섭니다. 본 논문은 prima.cpp를 소개합니다. 이는 CPU/GPU 혼합 사용, 낮은 RAM/VRAM, Wi-Fi, 그리고 크로스 플랫폼 지원을 통해 일상적인 가정용 기기에서 70B 규모의 모델을 실행하는 분산 추론 시스템입니다. 이 시스템은 mmap을 사용하여 모델 가중치를 관리하고, 디스크 로딩을 숨기기 위해 프리페칭이 포함된 파이프드-링 병렬화를 도입했습니다. 계산, 통신, 디스크, 메모리(및 그 관리 동작), 그리고 OS의 이질성을 모델링함으로써, 각 기기의 CPU와 GPU에 모델 레이어를 최적으로 할당하여 토큰 지연 시간을 더욱 줄였습니다. 이 NP-난제 할당 문제를 해결하기 위해 Halda라는 우아한 알고리즘이 제안되었습니다. 우리는 일반적인 4노드 가정용 클러스터에서 prima.cpp를 평가했습니다. 이는 30B 이상의 모델에서 llama.cpp, exo, 그리고 dllama를 능가하면서도 메모리 사용량을 6% 이하로 유지했습니다. 이를 통해 Llama 3, DeepSeek R1, Qwen 2.5, 그리고 QwQ와 같은 최첨단 30B-70B 모델을 가정용 어시스턴트에 도입함으로써, 개인에게도 진정으로 접근 가능한 고급 AI를 제공합니다. 코드는 오픈 소스이며 https://github.com/Lizonghang/prima.cpp에서 확인할 수 있습니다.
OpenAI의 멀티모달 GPT-4o는 이미지 생성 및 편집에서 놀라운 능력을 보여주었지만, 도메인 지식, 맥락적 추론, 그리고 지시 사항 준수를 원활하게 통합하는 세계 지식 기반 의미론적 합성 능력은 아직 입증되지 않았다. 본 연구에서는 이러한 능력을 세 가지 중요한 차원에서 체계적으로 평가한다: (1) 전역적 지시 사항 준수, (2) 세밀한 편집 정확도, (3) 생성 후 추론. 기존 벤치마크가 GPT-4o의 이미지 생성 및 편집에서의 강력한 능력을 강조하지만, 우리의 평가는 GPT-4o의 지속적인 한계를 드러낸다: 이 모델은 지시 사항을 문자 그대로 해석하는 경우가 많고, 지식 제약을 일관되게 적용하지 못하며, 조건부 추론 작업에서 어려움을 겪는다. 이러한 발견은 GPT-4o의 통합적 이해 및 생성 능력에 대한 기존의 가정에 도전하며, 동적 지식 통합에서의 상당한 격차를 드러낸다. 본 연구는 표면적 정렬을 넘어서는 더 강력한 벤치마크와 훈련 전략의 개발을 요구하며, 맥락 인식 및 추론 기반의 멀티모달 생성에 중점을 둘 것을 강조한다.
최근 GPT-o1과 DeepSeek-R1과 같은 느린 사고 시스템이 명시적 반사를 통해 어려운 문제를 해결하는 데 있어 큰 잠재력을 보여주었다. 이들은 다양한 수학 및 과학 벤치마크에서 GPT-4o와 같은 최고의 빠른 사고 모델을 크게 능가한다. 그러나 이들의 다중 모드 추론 능력은 빠른 사고 모델과 비슷한 수준에 머물러 있다. 예를 들어, GPT-o1의 MathVista, MathVerse, MathVision과 같은 벤치마크에서의 성능은 빠른 사고 모델과 유사하다. 본 논문에서는 증류(distillation)에 의존하지 않고 강화 학습을 활용하여 시각-언어 모델의 느린 사고 능력을 향상시켜 최신 기술 수준을 발전시키고자 한다. 먼저, 우리는 GRPO 알고리즘을 선택적 샘플 재생(Selective Sample Replay, SSR)이라는 새로운 기술로 적응시켜 사라지는 이점 문제를 해결한다. 이 접근법은 강력한 성능을 보이지만, 결과적으로 강화 학습으로 훈련된 모델은 자체 반사 또는 자체 검증 능력이 제한적이다. 느린 사고를 더욱 촉진하기 위해, 우리는 강제 재고(Forced Rethinking)를 도입하여 강화 학습 훈련의 초기 롤아웃 끝에 텍스트 재고 트리거를 추가함으로써 명시적으로 자체 반사 추론 단계를 강제한다. 이 두 기술을 결합함으로써, 우리의 모델인 VL-Rethinker는 MathVista, MathVerse, MathVision에서 각각 80.3%, 61.8%, 43.9%의 최신 기술 수준 점수를 달성한다. 또한 VL-Rethinker는 MMMU-Pro, EMMA, MEGA-Bench와 같은 다학제적 벤치마크에서 오픈소스 최신 기술 수준을 달성하며, GPT-o1과의 격차를 좁혔다.
우리는 완전한 시각-언어 정렬 및 통합 패러다임을 갖춘 멀티모달 대형 언어 모델(MLLM) 패밀리인 FUSION을 소개한다. 기존 방법들이 주로 LLM 디코딩 단계에서 후기적 모달리티 상호작용에 의존하는 것과 달리, 우리의 접근 방식은 전체 처리 파이프라인에 걸쳐 깊고 동적인 통합을 달성한다. 이를 위해, 우리는 텍스트 정보를 시각 인코딩에 통합하여 픽셀 수준의 통합을 이루는 Text-Guided Unified Vision Encoding을 제안한다. 또한, 디코딩 과정에서 텍스트 컨텍스트에 기반하여 시각적 특징을 재귀적으로 집계하는 Context-Aware Recursive Alignment Decoding을 설계하여, 세밀한 질문 수준의 의미론적 통합을 가능하게 한다. 특징 매핑을 안내하고 모달리티 간 불일치를 완화하기 위해, 우리는 Dual-Supervised Semantic Mapping Loss를 개발했다. 추가적으로, 새로운 데이터 합성 방법을 통해 Synthesized Language-Driven Question-Answer (QA) 데이터셋을 구축하여, 텍스트 기반 특징 통합을 최적화하기 위해 고품질 QA 쌍을 우선시했다. 이러한 기반 위에, 우리는 3B와 8B 두 규모로 FUSION을 학습시키고, 전체 모달리티 통합 접근 방식이 단 630개의 시각 토큰만으로도 기존 방법들을 크게 능가함을 입증했다. 특히, FUSION 3B는 대부분의 벤치마크에서 Cambrian-1 8B와 Florence-VL 8B를 능가했다. FUSION 3B는 시각 토큰을 300개로 제한하더라도 Cambrian-1 8B를 계속해서 능가했다. 우리의 절제 연구는 FUSION이 동적 해상도 없이 동일한 구성에서 LLaVA-NeXT를 절반 이상의 벤치마크에서 능가함을 보여주며, 우리 접근 방식의 효과를 강조한다. 우리는 코드, 모델 가중치, 데이터셋을 공개한다. https://github.com/starriver030515/FUSION
복잡한 프로그래밍 과제를 해결하는 고품질 코드를 생성하는 것은 현재의 디코더 기반 모델들이 매우 확률적인 출력을 생성하는 상황에서 특히 어려운 과제입니다. 코드 생성에서는 사소한 오류조차도 전체 솔루션을 쉽게 망가뜨릴 수 있습니다. 여러 샘플 솔루션을 활용하면 전체 출력 품질을 크게 향상시킬 수 있습니다. 코드 생성 품질을 향상시키는 한 가지 효과적인 방법은 코드 생성 모델과 리랭커(재순위 지정) 모델을 결합하는 것입니다. 리랭커 모델은 생성된 샘플 중에서 최적의 솔루션을 선택합니다. 우리는 Proximal Policy Optimization(PPO)을 사용하여 리랭커 모델을 자가 학습시키는 새로운 반복적 자기 학습 접근 방식을 제안합니다. 이는 리랭킹 정확도와 전체 코드 생성 프로세스를 개선하기 위한 것입니다. 기존의 PPO 접근 방식이 보상 모델을 사용하여 생성 모델을 최적화하는 데 초점을 맞추는 반면, 우리의 접근 방식은 강력한 보상/리랭킹 모델의 개발에 중점을 둡니다. 이 모델은 리랭킹을 통해 생성된 코드의 품질을 개선하고, 리랭커와의 PPO 정렬 과정에서 보상 모델이 간과할 수 있는 문제와 오류를 해결합니다. 우리의 방법은 출력을 재평가하고, 높은 점수를 받은 부정적 예제를 식별하며, 이를 훈련 루프에 통합함으로써 훈련 데이터셋을 반복적으로 개선하여 모델 성능을 향상시킵니다. MultiPL-E 데이터셋에 대한 평가 결과, 우리의 13.4B 파라미터 모델은 코드 생성 품질에서 33B 모델을 능가하면서도 세 배 더 빠른 성능을 보였습니다. 또한, GPT-4와 비슷한 성능을 달성하고 한 프로그래밍 언어에서는 이를 능가했습니다.
다중모드 대형 언어 모델(MLLM)에서의 장기간 비디오 이해는 계산 효율성과 세밀한 시공간 패턴 보존 사이의 균형을 맞추는 중요한 과제에 직면해 있습니다. 기존 접근 방식(예: 희소 샘플링, 저해상도의 조밀 샘플링, 토큰 압축 등)은 복잡한 움직임이나 다양한 해상도를 가진 비디오에서 특히 시간적 동역학, 공간적 세부 사항 또는 미묘한 상호작용에서 상당한 정보 손실을 겪습니다. 이를 해결하기 위해, 우리는 Multi-granularity 비디오 표현을 도입하여 전체적인 장기간 비디오 모델링을 가능하게 하는 새로운 프레임워크인 Mavors를 제안합니다. 구체적으로, Mavors는 두 가지 핵심 구성 요소를 통해 원시 비디오 콘텐츠를 잠재 표현으로 직접 인코딩합니다: 1) 3D 컨볼루션과 Vision Transformer를 통해 고해상도 공간 특징을 보존하는 Intra-chunk Vision Encoder(IVE), 그리고 2) 청크 수준의 회전 위치 인코딩을 사용한 Transformer 기반 종속성 모델링을 통해 청크 간의 시간적 일관성을 확립하는 Inter-chunk Feature Aggregator(IFA). 또한, 이 프레임워크는 이미지를 단일 프레임 비디오로 취급하여 서브 이미지 분해를 통해 이미지와 비디오 이해를 통합합니다. 다양한 벤치마크에서의 실험은 Mavors가 공간적 충실도와 시간적 연속성을 모두 유지하는 데 있어 기존 방법들을 크게 능가하며, 세밀한 시공간 추론이 필요한 작업에서 우수한 성능을 보여줍니다.
웹 에이전트는 사용자가 자연어 상호작용을 통해 웹 브라우저에서 작업을 수행할 수 있도록 합니다. 웹 에이전트의 궤적을 평가하는 것은 에이전트가 작업을 성공적으로 완료했는지 판단하는 데 도움을 주기 때문에 중요한 문제입니다. 이를 위해 규칙 기반 방법이 널리 사용되지만, 새로운 작업으로 확장하기 어렵고 성공적인 궤적을 항상 인식하지 못할 수 있습니다. 인간 평가를 통해 더 높은 정확도를 달성할 수 있지만, 이 과정은 상당히 느리고 비용이 많이 듭니다. 대형 언어 모델(LLM)을 사용한 자동 평가는 새로운 규칙을 설계하고 궤적을 수동으로 주석 달아야 하는 문제를 피할 수 있어 더 빠르고 비용 효율적인 평가를 가능하게 합니다. 그러나 이러한 방법이 웹 에이전트를 평가하는 데 얼마나 효과적인지는 명확하지 않습니다. 이를 위해, 우리는 웹 에이전트 평가를 위한 LLM 판단자의 효과를 평가하는 첫 번째 벤치마크인 AgentRewardBench를 제안합니다. AgentRewardBench는 5개의 벤치마크와 4개의 LLM에 걸쳐 1302개의 궤적을 포함하고 있습니다. AgentRewardBench의 각 궤적은 전문가가 검토하여 에이전트의 성공 여부, 부작용, 반복성에 관한 질문에 답합니다. 우리의 벤치마크를 사용하여 12개의 LLM 판단자를 평가한 결과, 모든 벤치마크에서 뛰어난 성능을 보이는 단일 LLM은 없었습니다. 또한, 일반적인 벤치마크에서 사용되는 규칙 기반 평가는 웹 에이전트의 성공률을 과소보고하는 경향이 있어, 규칙 기반 평가의 주요 약점과 더 유연한 자동 평가의 필요성을 강조합니다. 우리는 이 벤치마크를 https://agent-reward-bench.github.io에서 공개합니다.
우리는 직관적인 시스템 1 사고를 요구하는 간단한 과제에서 대규모 추론 모델(Large Reasoning Models, LRMs)의 성능을 평가하기 위해 설계된 새로운 벤치마크인 S1-Bench를 소개한다. LRMs는 명시적인 사고의 연쇄를 통해 복잡한 추론 과제에서 상당한 성과를 거두었지만, 깊이 있는 분석적 사고에 대한 의존도가 시스템 1 사고 능력을 제한할 수 있다. 또한, 이러한 능력을 요구하는 과제에서 LRMs의 성능을 평가하기 위한 벤치마크가 현재 부재하다. 이러한 공백을 메우기 위해 S1-Bench는 다양한 도메인과 언어에 걸쳐 간단하고 자연스럽게 명확한 질문 세트를 제시하며, 이러한 과제에서 LRMs의 성능을 평가하도록 특별히 설계되었다. 22개의 LRMs에 대한 포괄적인 평가 결과, 전통적인 소형 LLMs(Large Language Models)에 비해 출력이 평균 15.5배 더 길어지는 등 상당히 낮은 효율성 경향이 나타났다. 또한, LRMs는 종종 정답을 초기에 파악하지만 불필요한 고민을 계속하며, 일부 모델은 수많은 오류를 생성하기도 한다. 이러한 발견은 현재 LRMs의 경직된 추론 패턴을 강조하며, 과제의 복잡성에 적절히 적응할 수 있는 균형 잡힌 이중 시스템 사고 능력을 달성하기 위해 필요한 상당한 발전의 필요성을 부각시킨다.
강화 학습(RL) 기반 사후 훈련의 최근 발전은 대규모 언어 모델(LLM)의 복잡한 작업 처리 능력을 향상시키는 데 있어 주목할 만한 개선을 이끌어냈습니다. 그러나 대부분의 기존 방법은 훈련 데이터를 통합된 전체로 취급하며, 현대 LLM 훈련이 다양한 분포(출처와 난이도가 모두 다름)의 데이터 혼합을 포함한다는 사실을 간과하고 있습니다. 이러한 이질성은 학습 효율성을 최적화하기 위해 분포 간 훈련을 어떻게 적응적으로 스케줄링할 것인가라는 핵심적인 도전 과제를 제기합니다. 본 논문에서는 분포 수준 학습 가능성 개념에 기반한 원칙적인 커리큘럼 학습 프레임워크를 제시합니다. 우리의 핵심 통찰은 정책 이점의 크기가 주어진 분포에서 모델이 추가 훈련을 통해 얼마나 더 이익을 얻을 수 있는지를 반영한다는 것입니다. 이를 바탕으로, RL 기반 LLM 사후 훈련을 위한 분포 수준 커리큘럼 학습 프레임워크를 제안하며, 이는 상한 신뢰 구간(UCB) 원칙을 활용하여 다양한 분포에 대한 샘플링 확률을 동적으로 조정합니다. 이 접근 방식은 높은 평균 이점(탐색) 또는 낮은 샘플 수(탐험)를 가진 분포를 우선시하여 적응적이고 이론적으로 근거 있는 훈련 스케줄을 제공합니다. 우리는 GRPO를 기본 RL 알고리즘으로 사용하여 커리큘럼 학습 프레임워크를 구체화하고, 다양한 난이도와 출처를 가진 논리 추론 데이터셋에서 그 효과를 입증합니다. 실험 결과, 우리의 프레임워크가 수렴 속도와 최종 성능을 크게 향상시키며, LLM 사후 훈련에서 분포 인식 커리큘럼 전략의 가치를 강조합니다. 코드: https://github.com/ZhentingWang/DUMP.
이미지 표현은 종종 단편적이고 작업별로 분리된 프로토콜을 통해 평가되어, 모델의 능력에 대한 파편화된 이해를 초래합니다. 예를 들어, 이미지 클러스터링에 능숙한 이미지 임베딩 모델이 텍스트 조각이 주어졌을 때 관련 이미지를 검색하는 데에도 동등하게 뛰어난지 여부는 명확하지 않습니다. 우리는 가장 광범위한 스펙트럼에서 이미지 및 이미지-텍스트 임베딩 모델의 성능을 평가하기 위해 Massive Image Embedding Benchmark(MIEB)를 소개합니다. MIEB는 38개 언어에 걸쳐 130개의 개별 작업을 포함하며, 이를 8개의 상위 범주로 그룹화합니다. 우리는 벤치마크를 통해 50개의 모델을 평가한 결과, 모든 작업 범주에서 단일 방법이 우위를 점하지 않음을 발견했습니다. 우리는 고급 비전 모델에서 텍스트의 정확한 시각적 표현과 같은 숨겨진 능력을 밝혀냈으며, 혼동 요소가 있는 상황에서 이미지와 텍스트를 교차 인코딩하고 매칭하는 능력은 아직 제한적임을 보여줍니다. 또한, MIEB에서의 비전 인코더 성능이 멀티모달 대형 언어 모델에서 사용될 때의 성능과 높은 상관관계를 보인다는 것을 입증합니다. 우리의 코드, 데이터셋, 리더보드는 https://github.com/embeddings-benchmark/mteb에서 공개적으로 제공됩니다.
사회 시뮬레이션은 가상 개인과 그들의 환경 간 상호작용을 통해 인간 행동을 모델링함으로써 전통적인 사회과학 연구를 혁신하고 있습니다. 최근 대규모 언어 모델(LLM)의 발전으로, 이 접근법은 개인 차이를 포착하고 집단 행동을 예측하는 데 있어 점점 더 큰 잠재력을 보여주고 있습니다. 그러나 기존 방법들은 환경, 대상 사용자, 상호작용 메커니즘, 그리고 행동 패턴과 관련된 정렬 문제에 직면해 있습니다. 이를 위해 우리는 SocioVerse를 소개합니다. 이는 사회 시뮬레이션을 위한 LLM 에이전트 기반 세계 모델로, 네 가지 강력한 정렬 구성 요소와 1천만 명의 실제 개인으로 구성된 사용자 풀을 특징으로 합니다. 그 효과를 검증하기 위해 우리는 정치, 뉴스, 경제라는 세 가지 독립된 영역에서 대규모 시뮬레이션 실험을 수행했습니다. 결과는 SocioVerse가 표준화된 절차와 최소한의 수동 조정을 통해 대규모 인구 역학을 반영하면서도 다양성, 신뢰성, 대표성을 보장할 수 있음을 보여줍니다.
그래픽 사용자 인터페이스(GUI) 에이전트는 복잡한 디지털 작업을 자동화하기 위한 크로스 플랫폼 솔루션을 제공하며, 생산성 워크플로우를 혁신할 잠재력이 큽니다. 그러나 이러한 에이전트의 성능은 고품질 궤적 데이터의 부족으로 인해 종종 제한을 받습니다. 이러한 한계를 해결하기 위해, 우리는 데이터가 풍부하고 추론이 집중적으로 필요한 작업에 대해 비전 언어 모델(VLM)을 전용 중간 훈련 단계에서 학습시키고, 이러한 작업을 통합함으로써 GUI 계획 시나리오로의 일반화가 어떻게 촉진되는지 조사합니다. 구체적으로, 우리는 GUI 인식, 다중모드 추론, 텍스트 추론 등 즉시 사용 가능한 지시 튜닝 데이터가 있는 다양한 작업을 탐구합니다. 11개의 중간 훈련 작업에 걸친 광범위한 실험을 통해 우리는 다음과 같은 결과를 입증했습니다: (1) 작업 일반화는 매우 효과적이며, 대부분의 설정에서 상당한 개선을 가져옵니다. 예를 들어, 다중모드 수학 추론은 AndroidWorld에서 절대적으로 6.3%의 성능 향상을 가져왔습니다. 특히, 텍스트 전용 수학 데이터는 GUI 웹 에이전트 성능을 크게 향상시켜 WebArena에서 5.6%, AndroidWorld에서 5.4%의 개선을 달성했으며, 이는 텍스트 기반에서 시각적 영역으로의 주목할 만한 크로스 모달 일반화를 강조합니다; (2) 이전의 가정과 달리, GUI 에이전트 작업과 밀접하게 연관되어 있다고 여겨지고 널리 훈련에 사용되었던 GUI 인식 데이터는 최종 성능에 상대적으로 제한된 영향을 미칩니다; (3) 이러한 통찰을 바탕으로, 우리는 가장 효과적인 중간 훈련 작업을 식별하고 최적화된 혼합 데이터셋을 구성하여 WebArena에서 8.0%, AndroidWorld에서 12.2%의 절대적인 성능 향상을 달성했습니다. 우리의 연구는 GUI 에이전트를 위한 크로스 도메인 지식 전달에 대한 귀중한 통찰을 제공하며, 이 신흥 분야에서 데이터 부족 문제를 해결하기 위한 실용적인 접근 방식을 제시합니다. 코드, 데이터 및 모델은 https://github.com/hkust-nlp/GUIMid에서 확인할 수 있습니다.
최근, 강화 학습을 통해 대규모 멀티모달 모델(LMMs)의 추론 능력을 향상시키는 데 큰 진전이 있었습니다. 그러나 대부분의 기존 연구는 수학 및 코드와 같은 고도로 추론 집약적인 데이터셋을 기반으로 하며, 연구자들은 일반적으로 대규모 모델을 기반으로 선택합니다. 우리는 계산 자원이 제한된 연구자들에게 소규모 모델의 추론 능력을 탐구하는 것이 여전히 가치 있다고 주장합니다. 또한, 일반적인 질의응답 데이터셋에서 모델이 자신의 추론 과정을 설명할 수 있도록 하는 것 역시 의미가 있습니다. 따라서 우리는 소규모 비디오 추론 모델 TinyLLaVA-Video-R1을 제시합니다. 4B 파라미터 이하로 추적 가능하게 훈련된 비디오 이해 모델인 TinyLLaVA-Video를 기반으로, 이 모델은 일반적인 Video-QA 데이터셋에서 강화 학습을 사용한 후 상당히 향상된 추론 및 사고 능력을 보여줄 뿐만 아니라 "아하 순간"이라는 창발적 특성을 나타냅니다. 또한, 우리는 일련의 실험 결과를 공유하여, 향후 소규모 모델의 비디오 추론(사고) 능력 탐구를 위한 실질적인 통찰을 제공하고자 합니다. 이 모델은 https://github.com/ZhangXJ199/TinyLLaVA-Video-R1에서 확인할 수 있습니다.
AI는 과학적 발견의 방식을 혁신적으로 변화시키는 데 점점 더 중요한 역할을 하고 있습니다. 우리는 최초로 완전히 AI가 생성한 동료 평가를 통과한 워크숍 논문을 생산할 수 있는 종단 간 에이전트 시스템인 The AI Scientist-v2를 소개합니다. 이 시스템은 과학적 가설을 반복적으로 수립하고, 실험을 설계 및 실행하며, 데이터를 분석 및 시각화하고, 과학 논문을 자율적으로 작성합니다. 이전 버전(v1, Lu et al., 2024 arXiv:2408.06292)과 비교하여, The AI Scientist-v2는 인간이 작성한 코드 템플릿에 대한 의존성을 제거하고, 다양한 머신러닝 도메인에서 효과적으로 일반화하며, 전용 실험 관리 에이전트가 관리하는 새로운 점진적 에이전트 트리 탐색 방법론을 활용합니다. 또한, 우리는 Vision-Language Model(VLM) 피드백 루프를 통합하여 AI 리뷰어 구성 요소를 강화하여 콘텐츠와 그림의 미적 요소를 반복적으로 개선합니다. 우리는 The AI Scientist-v2를 평가하기 위해 세 편의 완전히 자율적으로 작성된 논문을 동료 평가를 거치는 ICLR 워크숍에 제출했습니다. 특히, 한 편의 논문은 평균적인 인간 수용 기준을 초과할 만큼 높은 점수를 받아, 완전히 AI가 생성한 논문이 동료 평가를 성공적으로 통과한 첫 사례를 기록했습니다. 이 성과는 과학 연구의 모든 측면을 수행하는 AI의 성장하는 능력을 강조합니다. 우리는 자율적인 과학적 발견 기술의 추가 발전이 인간의 지식 생산에 깊은 영향을 미치고, 연구 생산성의 전례 없는 확장성을 가능하게 하며, 과학적 돌파구를 크게 가속화하여 사회 전반에 큰 이익을 가져올 것으로 기대합니다. 우리는 이 혁신적인 기술의 미래 발전을 촉진하기 위해 코드를 https://github.com/SakanaAI/AI-Scientist-v2에서 오픈소스로 공개했습니다. 또한, AI 안전을 포함한 과학에서의 AI의 역할에 대해 논의합니다.
과학자들은 종종 특정 문제 사례에서 추상적인 절차를 추론하고, 이러한 추상화를 사용하여 새로운 관련 사례를 생성합니다. 예를 들어, 시스템의 공식 규칙과 속성을 인코딩한 프로그램은 RL(절차적 환경)부터 물리학(시뮬레이션 엔진)에 이르는 다양한 분야에서 유용하게 사용되어 왔습니다. 이러한 프로그램은 매개변수화(예: 그리드월드 구성 또는 초기 물리적 조건)에 따라 다양한 출력을 실행하는 함수로 볼 수 있습니다. 우리는 수학 문제에 대해 이러한 프로그램을 지칭하기 위해 EFA(Executable Functional Abstraction)라는 용어를 도입합니다. EFA와 유사한 구조는 모델을 스트레스 테스트하기 위한 문제 생성기로서 수학적 추론에 유용한 것으로 입증되었습니다. 그러나 기존 연구는 초등학교 수준의 수학(단순한 규칙을 프로그램으로 쉽게 인코딩할 수 있음)에 대한 추상화에 국한되었으며, 고급 수학에 대한 EFA 생성은 지금까지 인간의 엔지니어링이 필요했습니다. 우리는 고급 수학 문제에 대한 EFA의 자동 구성을 탐구합니다. 우리는 EFA의 자동 구성을 프로그램 합성 작업으로 구체화하고, LLM(Large Language Model)을 시드 수학 문제와 그 단계별 해결책에 조건화하여 시드 문제의 일반화된 문제 및 해결책 클래스에 충실한 후보 EFA 프로그램을 생성하는 EFAGen을 개발합니다. 또한, 우리는 유효한 EFA가 반드시 가져야 할 속성을 실행 가능한 단위 테스트의 관점에서 공식화하고, 이러한 테스트가 검증 가능한 보상으로 사용되어 LLM이 더 나은 EFA 작성자가 되도록 훈련시킬 수 있음을 보여줍니다. 우리는 EFAGen에 의해 구성된 EFA가 시드 문제에 충실하게 행동하고, 학습 가능한 문제 변형을 생성하며, EFAGen이 다양한 경쟁 수준의 수학 문제 출처에서 EFA를 추론할 수 있음을 입증합니다. 마지막으로, 모델이 작성한 EFA의 다운스트림 활용 사례를 보여줍니다. 예를 들어, 학습자가 해결하기 더 어렵거나 쉬운 문제 변형을 찾는 것과 데이터 생성 등이 있습니다.
효과적인 추론은 복잡한 수학 문제를 해결하는 데 있어 핵심적인 요소입니다. 최근 대규모 언어 모델(LLMs)은 긴 사고 사슬(chain-of-thought) 추론을 통해 테스트 시간 계산을 확장함으로써 성능을 크게 향상시켰습니다. 그러나 트랜스포머 기반 모델은 이차 계산 복잡성과 선형 메모리 요구 사항으로 인해 컨텍스트 길이를 확장하는 데 본질적인 한계가 있습니다. 본 논문에서는 Mamba 아키텍처를 기반으로 한 새로운 하이브리드 선형 RNN 추론 모델인 M1을 소개하며, 이는 메모리 효율적인 추론을 가능하게 합니다. 우리의 접근 방식은 기존 추론 모델로부터의 지식 증류 과정을 활용하며, RL 훈련을 통해 더욱 강화됩니다. AIME 및 MATH 벤치마크에서의 실험 결과는 M1이 이전의 선형 RNN 모델을 능가할 뿐만 아니라, 유사한 규모의 최첨단 Deepseek R1 증류 추론 모델의 성능과도 맞먹음을 보여줍니다. 또한, 우리는 고성능 범용 추론 엔진인 vLLM과의 생성 속도를 비교했을 때, 동일한 크기의 트랜스포머 대비 3배 이상의 속도 향상을 관찰했습니다. 처리량 속도 향상을 통해, 우리는 고정된 생성 시간 예산 하에서 자체 일관성 투표(self-consistency voting)를 사용하여 DeepSeek R1 증류 트랜스포머 추론 모델보다 더 높은 정확도를 달성할 수 있었습니다. 전반적으로, 우리는 하이브리드 Mamba 추론 모델을 소개하고, 자체 일관성 또는 긴 사고 사슬 추론을 사용하여 테스트 시간 생성을 확장하는 더 효과적인 접근 방식을 제시합니다.
대형 시각-언어 모델의 최근 발전은 놀라운 능력을 보여주고 있습니다. 그러나 인간이 일반적으로 시각적 보조 도구와 신중한 단계별 사고를 통해 해결하는 복잡한 추론 작업에 직면할 때는 종종 실패합니다. 기존 방법들은 텍스트 기반의 느린 사고나 기본적인 시각적 지원을 탐구했지만, 인간의 시각-언어 추론 과정의 복잡하고 교차된 특성을 충분히 포착하지 못했습니다. 이러한 한계를 극복하고 인간 인지의 느린 사고 메커니즘에서 영감을 받아, 우리는 시공간적 영역과 언어적 영역을 원활하게 통합하는 새로운 프레임워크인 VisuoThink를 소개합니다. VisuoThink는 점진적인 시각-텍스트 추론을 가능하게 하여 다중 모달 느린 사고를 촉진하고, 미리보기 트리 탐색을 통해 테스트 시간 스케일링을 통합합니다. 광범위한 실험을 통해 VisuoThink가 미세 조정 없이도 추론 시간 스케일링을 통해 추론 능력을 크게 향상시키며, 기하학 및 공간 추론 작업에서 최첨단 성능을 달성함을 입증했습니다.
최근의 대형 언어 모델(LLM)은 주로 생성 과정에 명시적이고 긴 사고 과정을 포함시킴으로써 추론 능력을 크게 향상시켰다. 본 논문에서는 이러한 명시적 사고가 정말 필요한지에 대해 의문을 제기한다. 최첨단 모델인 DeepSeek-R1-Distill-Qwen을 사용하여, 간단한 프롬프팅을 통해 사고 과정을 우회하는 NoThinking 방식이 놀랍도록 효과적일 수 있음을 발견했다. 토큰 수를 통제했을 때, NoThinking은 수학 문제 해결, 형식적 정리 증명, 코딩 등 다양한 7개의 도전적인 추론 데이터셋에서 사고 과정을 포함한 Thinking 방식을 능가했으며, 특히 저예산 환경에서 더 뛰어난 성능을 보였다(예: ACM 23 데이터셋에서 700 토큰 기준 51.3 vs. 28.9). 주목할 만한 점은, NoThinking의 성능은 pass@k에서 k가 증가함에 따라 더욱 경쟁력 있게 변한다는 것이다. 이러한 관찰을 바탕으로, NoThinking을 사용하여 N개의 출력을 독립적으로 생성하고 이를 통합하는 병렬 확장 접근법이 매우 효과적임을 입증했다. 통합 과정에서는 가능한 경우 작업별 검증기를 사용하거나, 신뢰도 기반 선택과 같은 간단한 best-of-N 전략을 적용했다. 우리의 방법은 유사한 지연 시간을 가진 Thinking 기반의 다양한 베이스라인을 능가했으며, 상당히 긴 지연 시간(최대 9배)을 가진 Thinking과도 비슷한 성능을 보였다. 종합적으로, 본 연구는 긴 사고 과정의 필요성에 대한 재고를 촉구함과 동시에, 저예산 환경이나 낮은 지연 시간에서 강력한 추론 성능을 달성하기 위한 병렬 확장 접근법의 경쟁력 있는 기준을 제시한다.
과학적 방정식 발견은 자연 현상을 지배하는 법칙을 도출할 수 있게 해주는 과학 발전 역사의 근본적인 과제입니다. 최근 대형 언어 모델(LLM)은 내재된 과학 지식을 활용해 가설을 생성할 수 있는 잠재력으로 인해 이 과제에 대한 관심을 받고 있습니다. 그러나 이러한 방법들의 진정한 발견 능력을 평가하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 벤치마크는 LLM이 암기하기 쉬운 일반적인 방정식에 의존하는 경우가 많아, 발견을 반영하지 못하는 과장된 성능 지표를 초래하기 때문입니다. 본 논문에서는 LLM 기반 과학적 방정식 발견 방법을 평가하기 위해 특별히 설계된 239개의 도전적인 문제로 구성된 포괄적인 벤치마크인 LLM-SRBench를 소개합니다. 이 벤치마크는 단순 암기를 방지하기 위해 두 가지 주요 범주로 구성됩니다: 첫째, LSR-Transform은 일반적인 물리적 모델을 덜 일반적인 수학적 표현으로 변환하여 암기된 형태를 넘어선 추론 능력을 테스트하고, 둘째, LSR-Synth는 데이터 기반 추론이 필요한 합성적이고 발견 지향적인 문제를 도입합니다. 오픈 및 클로즈드 LLM을 모두 사용하여 여러 최신 방법을 광범위하게 평가한 결과, 현재까지 가장 성능이 좋은 시스템은 단 31.5%의 기호 정확도를 달성했습니다. 이러한 결과는 과학적 방정식 발견의 어려움을 강조하며, LLM-SRBench를 미래 연구를 위한 귀중한 자원으로 자리매김하게 합니다.
대규모 언어 모델은 그래디언트 기반 업데이트의 축적을 통해 학습하고 지속적으로 학습하지만, 새로운 정보의 개별 조각이 기존 지식에 어떻게 영향을 미쳐 유익한 일반화와 문제가 되는 환각(hallucination)을 동시에 초래하는지에 대해서는 여전히 잘 이해되지 않고 있습니다. 우리는 새로운 정보를 학습할 때 LLM이 "프라이밍(priming)" 효과를 보인다는 것을 입증했습니다: 새로운 사실을 학습하면 모델이 관련 없는 맥락에서 그 지식을 부적절하게 적용할 수 있습니다. 이러한 현상을 체계적으로 연구하기 위해, 우리는 새로운 지식이 LLM의 기존 지식 기반에 어떻게 스며드는지를 탐구하기 위해 설계된 1,320개의 다양한 텍스트 샘플로 구성된 "Outlandish" 데이터셋을 소개합니다. 이 데이터셋을 사용하여, 새로운 정보를 학습한 후의 프라이밍 정도는 학습 전 핵심 단어의 토큰 확률을 측정함으로써 예측할 수 있음을 보여줍니다. 이러한 관계는 다양한 모델 아키텍처(PALM-2, Gemma, Llama), 크기 및 학습 단계에서도 강건하게 유지됩니다. 마지막으로, 우리는 새로운 지식이 기존 모델 행동에 미치는 영향을 조절하기 위한 두 가지 새로운 기법을 개발했습니다: (1) "스텝핑스톤(stepping-stone)" 텍스트 증강 전략과 (2) "ignore-k" 업데이트 가지치기 방법입니다. 이러한 접근법은 모델의 새로운 정보 학습 능력을 유지하면서 바람직하지 않은 프라이밍 효과를 50-95% 감소시킵니다. 우리의 연구 결과는 LLM이 어떻게 학습하는지에 대한 실증적 통찰을 제공할 뿐만 아니라 언어 모델에서 지식 삽입의 특이성을 개선하기 위한 실용적인 도구를 제공합니다. 추가 자료: https://sunchipsster1.github.io/projects/outlandish/
LLM 기반 AI 캐릭터의 등장은 특히 심리적 장애를 가진 취약한 사용자들에게 안전 문제를 제기합니다. 이러한 위험을 해결하기 위해, 우리는 인간-AI 상호작용에서 정신 건강 위험을 평가하고 완화하기 위해 설계된 다중 에이전트 AI 프레임워크인 EmoAgent를 제안합니다. EmoAgent는 두 가지 구성 요소로 이루어져 있습니다: EmoEval은 정신적으로 취약한 개인을 포함한 가상 사용자를 시뮬레이션하여 AI 캐릭터와의 상호작용 전후의 정신 건강 변화를 평가합니다. 이는 임상적으로 검증된 심리학적 및 정신과적 평가 도구(PHQ-9, PDI, PANSS)를 사용하여 LLM에 의해 유발된 정신적 위험을 평가합니다. EmoGuard는 중개자 역할을 하며, 사용자의 정신 상태를 모니터링하고 잠재적 피해를 예측하며 위험을 완화하기 위한 교정 피드백을 제공합니다. 인기 있는 캐릭터 기반 챗봇에서 수행된 실험은 감정적으로 몰입하는 대화가 취약한 사용자들에게 심리적 악화를 초래할 수 있으며, 시뮬레이션의 34.4% 이상에서 정신 상태 악화가 발생함을 보여줍니다. EmoGuard는 이러한 악화 비율을 크게 감소시켜, 더 안전한 AI-인간 상호작용을 보장하는 데 중요한 역할을 합니다. 우리의 코드는 https://github.com/1akaman/EmoAgent에서 확인할 수 있습니다.
3D 캡셔닝은 3D 장면의 내용을 자연어로 설명하는 것을 목표로 하지만, 포인트 클라우드의 고유한 희소성과 기존 방법들의 약한 크로스 모달 정렬로 인해 여전히 매우 어려운 과제로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 대조적 시각-언어 학습과 3D 캡셔닝 생성을 단일 아키텍처에서 원활하게 결합한 새로운 통합 프레임워크인 3D CoCa를 제안합니다. 우리의 접근 방식은 풍부한 시맨틱 프라이어를 제공하기 위해 고정된 CLIP 시각-언어 백본을 활용하고, 기하학적 컨텍스트를 포착하기 위해 공간 인식 3D 장면 인코더를 사용하며, 설명적인 캡션을 생성하기 위해 다중 모달 디코더를 사용합니다. 명시적인 객체 제안에 의존하는 기존의 두 단계 방법과 달리, 3D CoCa는 대조적 목표와 캡셔닝 목표를 공유된 특징 공간에서 공동으로 최적화하여 외부 탐지기나 수작업 제안의 필요성을 없앱니다. 이 공동 훈련 패러다임은 3D와 텍스트 표현을 정렬함으로써 더 강력한 공간 추론과 더 풍부한 시맨틱 그라운딩을 제공합니다. ScanRefer 및 Nr3D 벤치마크에서의 광범위한 실험을 통해 3D CoCa가 0.5IoU에서 CIDEr 점수로 각각 10.2%와 5.76%의 현존 최고 성능을 크게 능가함을 입증했습니다. 코드는 https://github.com/AIGeeksGroup/3DCoCa에서 제공될 예정입니다.
대규모 언어 모델(LLM)의 최근 발전은 인간 수준의 설득 능력에 접근할 수 있게 했습니다. 그러나 이러한 잠재력은 특히 조작, 기만, 취약성 악용 및 기타 여러 유해한 전술을 통한 비윤리적 영향의 가능성과 같은 LLM 기반 설득의 안전 위험에 대한 우려를 제기합니다. 본 연구에서는 두 가지 중요한 측면을 통해 LLM 설득 안전성에 대한 체계적인 조사를 제시합니다: (1) LLM이 비윤리적 설득 작업을 적절히 거부하고 실행 중에 비윤리적 전략을 피하는지, 초기 설득 목표가 윤리적으로 중립적으로 보이는 경우를 포함하여, (2) 성격 특성 및 외부 압력과 같은 영향 요인이 그들의 행동에 어떻게 영향을 미치는지. 이를 위해 우리는 설득 장면 생성, 설득적 대화 시뮬레이션, 설득 안전성 평가의 세 단계로 구성된 최초의 포괄적인 설득 안전성 평가 프레임워크인 PersuSafety를 소개합니다. PersuSafety는 6가지 다양한 비윤리적 설득 주제와 15가지 일반적인 비윤리적 전략을 다룹니다. 널리 사용되는 8개의 LLM에 걸친 광범위한 실험을 통해 우리는 대부분의 LLM에서 유해한 설득 작업을 식별하지 못하고 다양한 비윤리적 설득 전략을 활용하는 등 상당한 안전 문제를 관찰했습니다. 우리의 연구는 설득과 같은 점진적이고 목표 지향적인 대화에서 안전성 정렬을 개선하기 위한 더 많은 관심을 촉구합니다.
추론 능력을 갖춘 대형 언어 모델(LLM)은 최근 복잡한 논리 및 수학적 과제에서 인상적인 성능을 보여왔으나, 자연어 생성 평가에서의 효과성은 아직 탐구되지 않았다. 본 연구는 기계 번역(MT) 및 텍스트 요약(TS) 평가 과제에서 추론 기반 LLM(DeepSeek-R1 및 OpenAI o3)과 비추론 대응 모델을 체계적으로 비교한다. 우리는 최첨단 추론 모델, 이들의 경량화 변형(8B에서 70B 파라미터 범위), 그리고 동등한 전통적 비추론 LLM을 포함한 세 가지 아키텍처 범주의 총 8개 모델을 평가했다. WMT23 및 SummEval 벤치마크에서의 실험 결과, 추론 능력의 이점은 모델과 과제에 크게 의존적임을 보여준다: OpenAI o3-mini 모델은 추론 강도 증가와 함께 일관된 성능 향상을 보인 반면, DeepSeek-R1은 TS 평가의 특정 측면을 제외하고 비추론 변형에 비해 낮은 성능을 보였다. 상관관계 분석은 o3-mini 모델에서 추론 토큰 사용량 증가가 평가 품질과 양의 상관관계를 가짐을 입증한다. 또한, 우리의 결과는 추론 능력의 경량화가 중간 크기 모델(32B)에서는 합리적인 성능을 유지하지만, 더 작은 변형(8B)에서는 상당히 저하됨을 보여준다. 이 연구는 NLG 평가를 위한 추론 LLM에 대한 첫 번째 포괄적인 평가를 제공하며, 이들의 실용적 사용에 대한 통찰을 제시한다.
언어와 시각적 단서를 문제 해결 및 의사결정에 통합하는 다중모달 추론은 인간 지능의 근본적인 측면이자 인공 일반 지능(AGI)으로 나아가는 중요한 단계입니다. 그러나 다중모달 대형 언어 모델(MLLM)의 다중모달 추론 능력 평가는 여전히 미흡한 실정입니다. 기존의 대부분의 추론 벤치마크는 제한된 데이터 크기, 좁은 도메인 범위, 비구조화된 지식 분포로 인해 한계를 가지고 있습니다. 이러한 격차를 해소하기 위해, 우리는 실제 K-12 시험을 통해 MLLM의 추론 능력을 평가하는 다학제적 벤치마크인 MDK12-Bench를 소개합니다. 수학, 물리학, 화학, 생물학, 지리학, 정보과학 등 6개 학문 분야를 아우르는 이 벤치마크는 초등학교부터 12학년까지 다양한 난이도의 140,000개 추론 인스턴스로 구성되어 있습니다. 또한, 잘 정리된 지식 구조를 기반으로 한 6,827개의 인스턴스 수준 지식 포인트 주석, 상세한 답변 설명, 난이도 라벨 및 연도별 분할을 제공하여 포괄적인 평가를 위한 견고한 플랫폼을 마련했습니다. 추가적으로, 우리는 평가 중 질문 형식, 질문 유형 및 이미지 스타일을 부트스트랩핑하여 데이터 오염 문제를 완화하기 위한 새로운 동적 평가 프레임워크를 제시합니다. MDK12-Bench에 대한 광범위한 실험을 통해 현재 MLLM의 다중모달 추론 능력이 상당히 제한적임을 밝혀냈습니다. 우리 벤치마크에서 얻은 결과는 차세대 모델 개발에 대한 통찰을 제공합니다. 데이터와 코드는 https://github.com/LanceZPF/MDK12에서 확인할 수 있습니다.
개발 오버헤드를 줄이고 특정 생성형 AI 애플리케이션을 구성할 수 있는 잠재적 구성 요소 간의 원활한 통합을 가능하게 하기 위해, 최근 Model Context Protocol(MCP)(Anthropic, 2024)이 출시되어 널리 채택되었습니다. MCP는 대규모 언어 모델(LLM), 데이터 소스, 그리고 에이전트 도구에 대한 API 호출을 표준화하는 개방형 프로토콜입니다. 각각 도구, 리소스, 프롬프트 세트로 정의된 여러 MCP 서버를 연결함으로써, 사용자는 LLM에 의해 완전히 구동되는 자동화된 워크플로우를 정의할 수 있습니다. 그러나 우리는 현재 MCP 설계가 최종 사용자에게 광범위한 보안 위험을 초래할 수 있음을 보여줍니다. 특히, 우리는 업계를 선도하는 LLM이 악성 코드 실행, 원격 접근 제어, 자격 증명 도난과 같은 다양한 공격을 통해 AI 개발자의 시스템을 손상시키기 위해 MCP 도구를 사용하도록 강요될 수 있음을 입증합니다. 이러한 관련 공격을 사전에 완화하기 위해, 우리는 임의의 MCP 서버의 보안을 평가하는 최초의 에이전트 도구인 MCPSafetyScanner라는 안전 감사 도구를 소개합니다. MCPScanner는 여러 에이전트를 사용하여 (a) 주어진 MCP 서버의 도구와 리소스를 기반으로 적대적 샘플을 자동으로 결정하고, (b) 해당 샘플을 기반으로 관련 취약점과 수정 사항을 검색하며, (c) 모든 발견 사항을 상세히 설명하는 보안 보고서를 생성합니다. 우리의 작업은 범용 에이전트 워크플로우의 심각한 보안 문제를 강조함과 동시에, 배포 전에 MCP 서버의 안전을 감사하고 감지된 취약점을 해결하기 위한 사전 대응 도구를 제공합니다. 설명된 MCP 서버 감사 도구인 MCPSafetyScanner는 https://github.com/johnhalloran321/mcpSafetyScanner에서 무료로 이용 가능합니다.
대규모 사전 학습된 확산 모델은 조건부 이미지 생성 분야에서 우수한 결과를 보여왔습니다. 그러나 고대 벽화 복원은 이 분야의 중요한 하위 작업임에도 불구하고, 결손 영역이 크고 학습 데이터가 부족하다는 점에서 확산 모델 기반 복원 방법에 상당한 도전 과제를 제기합니다. 조건부 복원 작업은 복원된 부분이 전체 스타일과 이음새 세부 사항에서 벽화 복원의 미학적 기준을 충족하는지 여부에 더 관심을 가지며, 이러한 휴리스틱 이미지 보완을 평가하기 위한 지표는 현재 연구에서 부족한 실정입니다. 이에 우리는 DiffuMural을 제안합니다. 이는 ControlNet과 순환 일관성 손실을 결합한 다중 스케일 수렴 및 협업 확산 메커니즘을 통해 생성된 이미지와 조건부 제어 간의 매칭을 최적화합니다. DiffuMural은 일관된 시각적 미학을 보이는 23개의 대규모 둔황 벽화 데이터를 활용하여 벽화 복원에서 탁월한 능력을 입증했습니다. 이 모델은 복잡한 세부 사항 복원, 일관된 전체 외관 달성, 그리고 사실적 근거가 부족한 불완전한 벽화가 제기하는 독특한 문제 해결에 뛰어납니다. 우리의 평가 프레임워크는 불완전한 벽화를 정량적으로 평가하기 위해 사실적 정확도, 질감 세부 사항, 문맥적 의미론, 그리고 전체적 시각적 일관성이라는 네 가지 핵심 지표를 통합합니다. 더 나아가, 복원된 벽화가 문화적, 예술적 가치를 유지하도록 인문학적 가치 평가를 통합했습니다. 광범위한 실험을 통해 우리의 방법이 정성적 및 정량적 지표 모두에서 최신 기술(SOTA) 접근법을 능가함을 검증했습니다.