번역이 포함된 일일 선별된 AI 연구 논문
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부 지식을 주입함으로써 대형 언어 모델(LLMs)의 사실성을 향상시키지만, 다단계 추론이 필요한 문제에서는 한계를 보입니다. 반면, 순수 추론 중심 접근법은 종종 사실을 왜곡하거나 잘못된 근거를 제공합니다. 본 조사는 이러한 두 가지 접근법을 통합된 추론-검색 관점에서 종합합니다. 먼저, 고급 추론이 RAG의 각 단계를 어떻게 최적화하는지 매핑합니다(추론 강화 RAG). 그런 다음, 다양한 유형의 검색된 지식이 누락된 전제를 제공하고 복잡한 추론을 위한 맥락을 확장하는 방법을 보여줍니다(RAG 강화 추론). 마지막으로, (에이전트형) LLM이 검색과 추론을 반복적으로 교차하며 지식 집약적 벤치마크에서 최첨단 성능을 달성하는 신흥 시너지 RAG-추론 프레임워크를 조명합니다. 우리는 방법론, 데이터셋, 그리고 열린 과제들을 분류하고, 더 효과적이고 다중 모드에 적응 가능하며 신뢰할 수 있고 인간 중심적인 심층 RAG-추론 시스템을 위한 연구 방향을 제시합니다. 이 컬렉션은 https://github.com/DavidZWZ/Awesome-RAG-Reasoning에서 확인할 수 있습니다.
3D 모델링은 가상에서 물리적 영역으로 이동하고 있습니다. 기존의 3D 생성 기술은 주로 형상과 텍스처에 중점을 두면서 물리적 기반 모델링을 소홀히 해왔습니다. 그 결과, 3D 생성 모델의 급속한 발전에도 불구하고, 합성된 3D 자산들은 종종 풍부하고 중요한 물리적 특성을 간과하여 시뮬레이션 및 구체화된 AI와 같은 물리적 영역에서의 실제 적용을 방해하고 있습니다. 이러한 문제를 해결하기 위한 초기 시도로, 우리는 물리적 기반 3D 자산 생성을 위한 종단 간 패러다임인 PhysX를 제안합니다. 1) 물리적 주석이 달린 3D 데이터셋의 중요한 격차를 해소하기 위해, 우리는 절대적 크기, 재질, 어포던스, 운동학, 기능 설명 등 다섯 가지 기본 차원에 걸쳐 체계적으로 주석이 달린 최초의 물리적 기반 3D 데이터셋인 PhysXNet을 소개합니다. 특히, 우리는 비전-언어 모델을 기반으로 한 확장 가능한 인간 참여형 주석 파이프라인을 고안하여 원시 3D 자산으로부터 물리적 특성을 우선시하는 자산을 효율적으로 생성할 수 있도록 했습니다. 2) 또한, 우리는 사전 학습된 3D 구조 공간에 물리적 지식을 주입하여 물리적 기반 이미지-3D 자산 생성을 위한 순방향 프레임워크인 PhysXGen을 제안합니다. 구체적으로, PhysXGen은 3D 구조와 물리적 특성 간의 잠재적 상관관계를 명시적으로 모델링하기 위해 이중 분기 아키텍처를 사용함으로써, 원래의 형상 품질을 유지하면서도 타당한 물리적 예측을 제공하는 3D 자산을 생성합니다. 광범위한 실험을 통해 우리 프레임워크의 우수한 성능과 유망한 일반화 능력을 검증했습니다. 모든 코드, 데이터, 모델은 생성적 물리적 AI 연구를 촉진하기 위해 공개될 예정입니다.
실제 소프트웨어 엔지니어링에서 코드 성능 최적화는 매우 중요하며, 프로덕션 수준 시스템에 있어서도 핵심적인 요소입니다. 대규모 언어 모델(LLMs)이 코드 생성과 버그 수정에서 인상적인 능력을 보여주었지만, 리포지토리 수준에서 코드 성능을 향상시키는 데 대한 숙련도는 아직까지 크게 탐구되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 실제 리포지토리 컨텍스트 내에서 코드 성능 최적화 작업에 대한 LLMs의 체계적인 평가를 위해 특별히 설계된 첫 번째 벤치마크인 SWE-Perf를 소개합니다. SWE-Perf는 인기 있는 GitHub 리포지토리에서 성능 개선 풀 리퀘스트를 기반으로 한 140개의 신중하게 선별된 인스턴스로 구성됩니다. 각 벤치마크 인스턴스는 관련 코드베이스, 대상 함수, 성능 관련 테스트, 전문가가 작성한 패치, 그리고 실행 가능한 환경을 포함합니다. 파일 수준과 리포지토리 수준 접근법(예: Agentless 및 OpenHands)을 아우르는 대표적인 방법들에 대한 포괄적인 평가를 통해, 우리는 기존 LLMs와 전문가 수준의 최적화 성능 간에 상당한 능력 격차가 있음을 밝혀내며, 이 신흥 분야에서의 중요한 연구 기회를 강조합니다.
인간은 교통 생태계의 핵심 구성 요소이며, 그들의 행동을 이해하는 것은 안전한 운전 시스템 개발을 촉진하는 데 중요합니다. 최근의 연구는 인간의 움직임, 궤적, 의도 등 다양한 측면을 탐구해 왔지만, 자율주행에서 인간 행동 이해를 평가하기 위한 포괄적인 벤치마크는 여전히 부족한 상황입니다. 본 연구에서는 인간 행동 분석을 위한 대규모 벤치마크인 MMHU를 제안합니다. 이 벤치마크는 인간의 움직임과 궤적, 인간 움직임에 대한 텍스트 설명, 인간 의도, 그리고 운전 안전과 관련된 중요한 행동 레이블과 같은 풍부한 주석을 포함합니다. 우리의 데이터셋은 Waymo와 같은 기존 운전 데이터셋, YouTube의 실생활 동영상, 그리고 자체 수집 데이터를 포함한 다양한 출처에서 수집된 57,000개의 인간 움직임 클립과 173만 프레임으로 구성됩니다. 인간이 참여하는 주석 파이프라인을 개발하여 풍부한 행동 설명을 생성했습니다. 우리는 데이터셋에 대한 철저한 분석을 제공하고, 움직임 예측부터 움직임 생성, 인간 행동 질의응답에 이르기까지 다양한 작업을 벤치마크하여 광범위한 평가 도구를 제공합니다. 프로젝트 페이지: https://MMHU-Benchmark.github.io.
다양한 청각 자극에 대해 가상 인간이 동적이고 사실적으로 반응하도록 만드는 것은 캐릭터 애니메이션에서 여전히 주요 과제로, 지각 모델링과 동작 합성의 통합을 요구합니다. 그 중요성에도 불구하고, 이 작업은 대부분 탐구되지 않은 상태로 남아 있습니다. 대부분의 기존 연구는 주로 음성, 오디오, 음악과 같은 양상을 매핑하여 인간 동작을 생성하는 데 초점을 맞추었습니다. 그러나 이러한 모델들은 일반적으로 공간 오디오 신호에 인코딩된 공간적 특징이 인간 동작에 미치는 영향을 간과합니다. 이러한 격차를 해소하고 공간 오디오에 대한 인간 동작의 고품질 모델링을 가능하게 하기 위해, 우리는 다양한 고품질의 공간 오디오와 동작 데이터를 포함한 첫 번째 포괄적인 공간 오디오 기반 인간 동작(SAM) 데이터셋을 소개합니다. 벤치마킹을 위해, 우리는 공간 오디오에 의해 구동되는 인간 동작 생성을 위한 간단하지만 효과적인 확산 기반 생성 프레임워크인 MOSPA를 개발했습니다. 이 프레임워크는 효과적인 융합 메커니즘을 통해 신체 동작과 공간 오디오 간의 관계를 충실히 포착합니다. 한 번 훈련되면, MOSPA는 다양한 공간 오디오 입력에 조건부로 다양한 사실적인 인간 동작을 생성할 수 있습니다. 우리는 제안된 데이터셋에 대한 철저한 조사를 수행하고 벤치마킹을 위한 광범위한 실험을 진행했으며, 우리의 방법은 이 작업에서 최첨단 성능을 달성했습니다. 우리의 모델과 데이터셋은 승인 후 오픈소스로 공개될 예정입니다. 더 자세한 내용은 보충 비디오를 참조하십시오.
대형 언어 모델(LLM) 에이전트는 실제 문제 해결에 있어 큰 잠재력을 보여주며, 산업 분야에서 작업 자동화를 위한 해결책으로 기대받고 있습니다. 그러나 특히 토목 공학과 같은 산업적 관점에서 자동화 에이전트를 체계적으로 평가하기 위한 더 많은 벤치마크가 필요합니다. 이에 따라, 우리는 토목 공학에서의 표현 작업인 기술 도면 수정 작업 맥락에서 LLM 에이전트를 종합적으로 평가하기 위한 DrafterBench를 제안합니다. DrafterBench은 실제 도면 파일에서 요약된 12가지 유형의 작업과 46개의 맞춤형 함수/도구, 총 1920개의 작업으로 구성되어 있습니다. DrafterBench은 오픈소스 벤치마크로, 복잡하고 긴 맥락의 지시를 해석하고, 사전 지식을 활용하며, 암묵적인 정책 인식을 통해 동적 지시 품질에 적응하는 AI 에이전트의 숙련도를 엄격히 테스트합니다. 이 툴킷은 구조화된 데이터 이해, 함수 실행, 지시 따르기, 비판적 사고와 같은 다양한 역량을 종합적으로 평가합니다. DrafterBench은 작업 정확도와 오류 통계에 대한 상세한 분석을 제공하여, 엔지니어링 애플리케이션에 LLM을 통합하는 데 있어 에이전트의 역량을 더 깊이 이해하고 개선 목표를 식별하는 데 목적을 두고 있습니다. 우리의 벤치마크는 https://github.com/Eason-Li-AIS/DrafterBench에서 확인할 수 있으며, 테스트 세트는 https://huggingface.co/datasets/Eason666/DrafterBench에 호스팅되어 있습니다.
대규모 언어 모델(LLM) 커뮤니티는 주로 디코더 전용 언어 모델에 집중하는데, 이는 텍스트 생성에 더 쉽게 사용할 수 있기 때문입니다. 그러나 여전히 많은 연구자들이 분류나 검색과 같은 작업을 위해 인코더 전용 모델을 사용하고 있습니다. 기존 연구에서는 이러한 아키텍처를 비교하려고 시도했지만, 서로 다른 파라미터 수, 훈련 기법, 데이터셋을 가진 모델들을 비교해야 하는 한계가 있었습니다. 우리는 SOTA(State-of-the-Art) 오픈 데이터 Ettin 모델 제품군을 소개합니다: 1,700만 파라미터부터 10억 파라미터까지의 인코더 전용 및 디코더 전용 모델 쌍으로, 최대 2조 토큰으로 훈련되었습니다. 인코더 전용과 디코더 전용 모델 모두에 동일한 레시피를 적용함으로써 각 크기에 맞는 SOTA 레시피를 만들어냈으며, 인코더로서는 ModernBERT를, 디코더로서는 Llama 3.2와 SmolLM2를 능가했습니다. 기존 연구와 마찬가지로, 우리도 인코더 전용 모델이 분류 및 검색 작업에서 뛰어나고 디코더가 생성 작업에서 우수함을 확인했습니다. 그러나 디코더 모델을 인코더 작업에 적응시키거나(그 반대의 경우도 마찬가지) 지속적인 훈련을 통해 적용하는 것은 역방향 목표만 사용하는 것에 비해 성능이 떨어짐을 보여줍니다(예: 4억 파라미터 인코더가 MNLI에서 10억 파라미터 디코더를 능가하며, 생성 작업에서는 그 반대). 우리는 이 연구의 모든 결과물, 훈련 데이터, 체크포인트별로 분할된 훈련 순서, 200개 이상의 체크포인트를 오픈소스로 공개하여 향후 연구가 훈련의 모든 측면을 분석하거나 확장할 수 있도록 합니다.
우리는 사전 학습된 트랜스포머 기반 대형 언어 모델(LLMs)을 무한 컨텍스트 생성을 위한 유연하고 서브쿼드라틱(subquadratic) 구조로 변환하는 선형화 프레임워크인 Lizard를 제안한다. 트랜스포머 기반 LLMs는 소프트맥스 어텐션의 2차 복잡성과 키-값(KV) 캐시의 증가로 인해 컨텍스트 길이가 증가함에 따라 메모리와 계산 병목 현상에 직면한다. Lizard는 이러한 한계를 해결하기 위해 소프트맥스 어텐션을 근사하면서도 출력 품질을 유지하는 서브쿼드라틱 어텐션 메커니즘을 도입한다. 고정된 모델 구조로 인해 게이팅 메커니즘을 배제하는 기존의 선형화 방법과 달리, Lizard는 최신 선형 모델에서 영감을 받은 게이팅 모듈을 통합한다. 이를 통해 적응형 메모리 제어, 상수 메모리 추론 지원, 강력한 길이 일반화, 그리고 더 유연한 모델 설계가 가능해진다. Lizard는 글로벌 컨텍스트 압축을 위한 게이팅 선형 어텐션과 메타 메모리로 강화된 슬라이딩 윈도우 어텐션을 결합하여 장거리 의존성과 세밀한 지역 상호작용을 모두 포착하는 하이브리드 메커니즘을 형성한다. 또한, 우리는 모델의 학습 속도를 가속화하는 하드웨어 인식 알고리즘을 도입한다. 광범위한 실험을 통해 Lizard는 표준 언어 모델링 작업에서 교사 모델의 성능을 거의 손실 없이 복구하면서도 기존의 선형화 방법을 크게 능가하는 것을 보여준다. 5-shot MMLU 벤치마크에서 Lizard는 이전 모델 대비 18점의 향상을 보였으며, 연상 회상 작업에서도 상당한 개선을 보였다.
우리는 단안 비디오를 위한 피드포워드(feed-forward) 방식의 3D 포인트 추적 방법인 SpatialTrackerV2를 제안한다. 기존의 3D 추적을 위해 상용 컴포넌트를 기반으로 구축된 모듈형 파이프라인을 넘어, 이 접근법은 포인트 추적, 단안 깊이, 카메라 포즈 추정 간의 내재적 연결을 통합하여 고성능의 피드포워드 3D 포인트 추적기를 구현한다. 이 방법은 세계 공간에서의 3D 운동을 장면 기하학, 카메라 자체 운동, 픽셀 단위 객체 운동으로 분해하며, 완전히 미분 가능하고 종단 간(end-to-end) 아키텍처를 통해 합성 시퀀스, 포즈된 RGB-D 비디오, 레이블 없는 실외 영상 등 다양한 데이터셋에서 확장 가능한 학습을 가능하게 한다. 이러한 이질적인 데이터로부터 기하학과 운동을 동시에 학습함으로써, SpatialTrackerV2는 기존 3D 추적 방법보다 30% 더 우수한 성능을 보이며, 선도적인 동적 3D 재구성 접근법의 정확도를 유지하면서 50배 더 빠르게 실행된다.
최근 비디오 생성 분야, 특히 확산 모델(diffusion models)의 발전으로 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 합성에서 주목할 만한 진전이 이루어졌습니다. 그러나 동적 모션 신호와 유연한 공간 제약을 효과적으로 통합하는 데는 여전히 과제가 남아 있습니다. 기존의 T2V 방법은 일반적으로 텍스트 프롬프트에 의존하는데, 이는 생성된 콘텐츠의 공간적 레이아웃을 정밀하게 제어할 수 없다는 한계가 있습니다. 반면, I2V 방법은 실제 이미지에 의존하기 때문에 합성된 콘텐츠의 편집 가능성이 제한됩니다. 일부 방법은 ControlNet을 도입하여 이미지 기반 조건을 추가하지만, 명시적인 모션 제어가 부족하고 계산 비용이 많이 드는 학습이 필요합니다. 이러한 한계를 해결하기 위해, 우리는 사용자 정의 모션 궤적을 통해 조건부 이미지를 애니메이션화하는 학습이 필요 없는 프레임워크인 AnyI2V를 제안합니다. AnyI2V는 ControlNet에서 지원하지 않는 메시(mesh) 및 포인트 클라우드(point cloud)와 같은 데이터 유형을 포함하여 더 넓은 범위의 조건부 이미지 모달리티를 지원함으로써 더 유연하고 다용도로 사용 가능한 비디오 생성을 가능하게 합니다. 또한, 혼합 조건부 입력을 지원하고 LoRA 및 텍스트 프롬프트를 통해 스타일 전환 및 편집을 가능하게 합니다. 광범위한 실험을 통해 제안된 AnyI2V가 우수한 성능을 달성하며, 공간 및 모션 제어 비디오 생성에 새로운 관점을 제공함을 입증했습니다. 코드는 https://henghuiding.com/AnyI2V/에서 확인할 수 있습니다.
최근의 발전은 훈련 시간뿐만 아니라 추론 시간에서도 계산 규모를 확장하는 새로운 기계 학습 패러다임을 확립했습니다. 이러한 연구 흐름에서, 합성된 데모에 대한 지도 미세 조정(Supervised Fine-Tuning, SFT)과 검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)의 조합이 사용되어, 대규모 언어 모델이 추론 과정에서 자연어로 표현된 "생각"의 형태로 추가 계산을 수행하도록 훈련됩니다. 본 논문에서는 이러한 토큰들을 상태를 유지하는 도구와의 다중 턴 상호작용 추적으로 형식화할 것을 제안합니다. 각 턴에서 도구의 새로운 상태는 모델의 컨텍스트에 추가되며, 모델의 역할은 사용자 정의 도메인 특화 언어(Domain-Specific Language, DSL)를 통해 도구를 제어하는 데 필요한 토큰을 생성하는 것입니다. 우리는 이 접근법을 오작동하는 파이썬 코드 수정 문제에 적용하여 벤치마킹하였으며, 이러한 제약된 설정이 경험 샘플링을 더 빠르게 하고 보다 밀도 높은 보상 신호를 제공함으로써, 최대 30억 개의 매개변수를 가진 모델들도 작업에 추가 계산을 능숙하게 수행하는 방법을 학습할 수 있음을 보여줍니다.
대규모 언어 모델을 위한 강화 학습(RL)은 에너지 집약적인 작업입니다: 학습 과정이 불안정할 수 있으며, 정책이 사전 학습된 가중치에서 점점 벗어날 가능성이 있습니다. 우리는 RLEP(Reinforcement Learning with Experience rePlay)를 제안합니다. 이는 두 단계로 구성된 프레임워크로, 먼저 검증된 궤적을 수집한 후 이를 후속 학습 과정에서 재생합니다. 각 업데이트 단계에서 정책은 새롭게 생성된 롤아웃과 재생된 성공 사례를 혼합한 미니 배치에 대해 최적화됩니다. RLEP는 고품질 예제를 재생함으로써 모델이 무의미한 탐색에서 벗어나도록 유도하고, 유망한 추론 경로에 학습을 집중시켜 더 빠른 수렴과 더 강력한 최종 성능을 제공합니다. Qwen2.5-Math-7B 기본 모델에서 RLEP는 상당히 적은 업데이트로 기준 최고 정확도에 도달하며, 이를 넘어서는 성과를 보입니다. AIME-2024에서 정확도는 38.2%에서 39.9%로, AIME-2025에서는 19.8%에서 22.3%로, AMC-2023에서는 77.0%에서 82.2%로 향상되었습니다. 재현성과 추가 연구를 위해 우리의 코드, 데이터셋, 체크포인트는 https://github.com/Kwai-Klear/RLEP에서 공개되어 있습니다.
본 논문은 CLEF 2025 CheckThat! Lab의 Task 1: 뉴스 기사에서의 주관성 탐지(Subjectivity Detection)에 대한 AI Wizards의 참여를 소개한다. 이 작업은 단일 언어, 다국어, 그리고 제로샷 설정에서 문장을 주관적/객관적으로 분류하는 것을 목표로 한다. 아랍어, 독일어, 영어, 이탈리아어, 불가리아어에 대한 훈련/개발 데이터셋이 제공되었으며, 최종 평가에서는 일반화 능력을 평가하기 위해 그리스어, 루마니아어, 폴란드어, 우크라이나어와 같은 추가로 보이지 않는 언어가 포함되었다. 우리의 주요 전략은 보조 모델에서 도출된 감정 점수를 문장 표현과 통합하여 표준 미세 조정을 개선하고자 하는 변환기(transformer) 기반 분류기를 강화하는 것이었다. 우리는 이러한 감정 증강 아키텍처를 mDeBERTaV3-base, ModernBERT-base(영어), 그리고 Llama3.2-1B와 함께 탐구하였다. 언어 전반에 걸쳐 흔히 나타나는 클래스 불균형 문제를 해결하기 위해, 개발 세트에서 최적화된 결정 임계값 보정을 사용하였다. 우리의 실험 결과, 감정 특징 통합은 특히 주관적 F1 점수에서 성능을 크게 향상시키는 것으로 나타났다. 이 프레임워크는 높은 순위를 이끌어냈으며, 특히 그리스어에서 1위(Macro F1 = 0.51)를 기록하였다.
소프트웨어 라이브러리의 급속한 발전은 코드 생성에 상당한 장벽으로 작용하며, 빈번한 버전 업데이트에 대한 지속적인 적응과 이전 버전과의 호환성 유지를 필요로 합니다. 기존의 코드 진화 벤치마크는 유용한 통찰을 제공하지만, 특정 라이브러리 버전에 부합하는 코드 생성을 위한 실행 기반 평가가 일반적으로 부족합니다. 이를 해결하기 위해, 우리는 GitChameleon이라는 새로운 데이터셋을 소개합니다. 이 데이터셋은 특정 라이브러리 버전에 맞춰진 328개의 Python 코드 완성 문제로 구성되어 있으며, 각 문제는 실행 가능한 단위 테스트와 함께 제공됩니다. GitChameleon은 최신 대규모 언어 모델(LLM), LLM 기반 에이전트, 코드 보조 도구, 그리고 RAG 시스템이 실행을 통해 기능적 정확성을 입증하는 버전 조건부 코드 생성 능력을 엄격히 평가합니다. 우리의 광범위한 평가 결과, 최첨단 시스템들도 이 작업에 상당한 어려움을 겪는 것으로 나타났으며, 기업용 모델들의 기본 성공률이 48-51% 범위에 머무르는 것으로 확인되어 이 문제의 복잡성을 강조합니다. 코드 라이브러리의 동적 특성을 강조하는 실행 기반 벤치마크를 제공함으로써, GitChameleon은 이 문제에 대한 명확한 이해를 가능하게 하고, 더 적응력 있고 신뢰할 수 있는 AI 코드 생성 방법의 개발을 돕습니다. 우리는 이 데이터셋과 평가 코드를 https://github.com/mrcabbage972/GitChameleonBenchmark에서 공개적으로 제공합니다.
기초 다중 모달 모델은 종종 여러 기존의 사전 학습된 단일 모달 모델을 결합하여 설계됩니다: 예를 들어, 이미지 분류기와 텍스트 모델을 결합하는 방식입니다. 이러한 결합 과정은 단일 모달 모델들의 표현 공간을 다중 모달 목표에 맞춰 정렬하기 위한 커넥터 모듈을 학습함으로써 수행됩니다. 그러나 대규모 웹 기반 데이터셋에서 이러한 커넥터를 학습하는 복잡성과 함께 사용 가능한 사전 학습된 단일 모달 모델의 수가 지속적으로 증가함에 따라, 단일 모달 모델 선택 및 이후의 커넥터 모듈 학습 작업은 계산적으로 매우 부담스러워집니다. 이 잘 연구되지 않은 중요한 문제를 해결하기 위해, 우리는 하이퍼네트워크를 활용하여 최적의 단일 모달 모델 선택과 커넥터 학습을 위한 통합 솔루션인 Hypernetwork Model Alignment (Hyma)를 제안합니다. 구체적으로, 우리의 프레임워크는 하이퍼네트워크의 매개변수 예측 능력을 활용하여 N개의 단일 모달 모델 조합에 대해 공동으로 학습된 커넥터 모듈을 얻습니다. 실험에서 Hyma는 그리드 서치를 통해 얻은 순위와 학습된 커넥터 성능을 유지하면서, 최적의 단일 모달 모델 쌍을 탐색하는 비용을 10배 줄였습니다. 이는 다양한 다중 모달 벤치마크에서 검증되었습니다.
지식 증류(knowledge distillation)는 효율적인 지식 전달 기술로써 단일 모달리티(unimodal) 시나리오에서 주목할만한 성공을 거두었습니다. 그러나 크로스 모달리티(cross-modal) 환경에서는 데이터와 통계적 이질성으로 인해 기존의 증류 방법들이 상당한 어려움에 직면하며, 크로스 모달리티 교사 모델에 내재된 상호 보완적 사전 지식을 활용하지 못하고 있습니다. 본 논문은 기존 접근법에서 두 가지 중요한 문제점, 즉 증류 경로 선택과 지식 드리프트(knowledge drift)를 실증적으로 밝혀냅니다. 이러한 한계를 해결하기 위해, 우리는 전문 교사 모델의 혼합을 특징으로 하는 새로운 크로스 모달리티 지식 증류 프레임워크인 MST-Distill을 제안합니다. 우리의 접근법은 크로스 모달리티와 멀티모달리티(multimodal) 구성 모두에 걸쳐 다양한 교사 모델 앙상블을 활용하며, 적응적이고 동적인 증류를 가능하게 하는 인스턴스 수준의 라우팅 네트워크와 통합됩니다. 이 아키텍처는 단조롭고 정적인 교사 모델에 의존하는 전통적인 방법의 제약을 효과적으로 극복합니다. 또한, 우리는 모달리티 특정 불일치를 억제하고 교사 표현을 재구성하여 지식 드리프트를 완화하고 전달 효과를 향상시키기 위해 독립적으로 훈련된 플러그인 마스킹 모듈을 도입합니다. 시각, 청각, 텍스트를 아우르는 다섯 가지 다양한 멀티모달리티 데이터셋에서의 광범위한 실험을 통해, 우리의 방법이 크로스 모달리티 증류 작업에서 기존의 최첨단 지식 증류 방법들을 크게 능가함을 입증합니다. 소스 코드는 https://github.com/Gray-OREO/MST-Distill에서 확인할 수 있습니다.