번역이 포함된 일일 선별된 AI 연구 논문
비전 언어 모델(VLM) 개발은 주로 모델 규모 확장에 의존해 왔으며, 이는 스마트폰 및 로봇과 같은 컴퓨팅 자원이 제한된 모바일 및 엣지 기기에서의 배포를 어렵게 합니다. 본 연구에서는 컴팩트(예: 2B, 8B) VLM의 성능 한계를 탐구합니다. 우리는 최첨단 VLM이 대규모 대조 학습 기반 사전 훈련(예: CLIP/SigLIP)으로 초기화된 비전 인코더에 의존해야 한다는 기존 관행에 의문을 제기합니다. 우리는 목표 불일치 문제를 확인했습니다. 즉, 판별 능력 최적화를 위한 대조 학습은 조밀한 캡션 생성 및 복잡한 VLM 추론에 필요한 세밀한 시각적 단서를 억제하는 거친 범주 수준의 불변성을 강요합니다. 이 문제를 해결하기 위해 비전 인코더가 텍스트 전용 LLM으로부터 초기화된 Penguin-VL을 제안합니다. 우리의 실험 결과, Penguin 인코더는 기존의 대조 학습 기반 사전 훈련보다 우수한 대안으로서, 다중 모달 이해를 위한 더 높은 수준의 시각적 정확도와 데이터 효율성을 제공함을 보여줍니다. 다양한 이미지 및 비디오 벤치마크에서 Penguin-VL은 수학적 추론 영역에서는 선두 VLM(예: Qwen3-VL)에 버금가는 성능을 달성했으며, 문서 이해, 시각적 지식, 다중 시점 비디오 이해와 같은 과제에서는 이를 능가했습니다. 특히 이러한 성과는 경량 아키텍처로 달성되어, 모델 규모 확장보다 개선된 시각적 표현이 성능의 주요 동력임을 입증합니다. 우리의 애블레이션 연구는 Penguin 인코더가 조밀한 인식 및 복잡한 추론에至关重要的한 세밀한 공간적 및 시간적 단서를 보존하면서 대조 학습 기반 인코더를 지속적으로 능가함을 보여줍니다. 이는 컴퓨팅 효율적인 VLM을 위한 강력한 즉시 대체 옵션이며, 자원이 제한된 환경에서도 높은 성능을 가능하게 합니다. 코드: https://github.com/tencent-ailab/Penguin-VL
근위 제약은 대규모 언어 모델 강화 학습의 안정성에 핵심적인 역할을 합니다. PPO의 표준 클리핑 메커니즘은 신뢰 영역에 대한 효율적인 대리 목적 함수로 기능하지만, 우리는 중요한 병목 현상을 발견했습니다: 고정된 경계는 낮은 확률 행동의 상향 업데이트 여지를 엄격히 제한하여, 높은 어드밴티지를 지닌 꼬리 전략을 불균형적으로 억압하고 빠른 엔트로피 붕괴를 유발합니다. 이를 해결하기 위해 우리는 대역 제약 정책 최적화(BandPO)를 제안합니다. BandPO는 표준 클리핑을 Band로 대체합니다. Band는 f-발산으로 정의된 신뢰 영역을 동적이며 확률을 고려한 클리핑 구간으로 투영하는 통합 이론적 연산자입니다. 이론적 분석을 통해 Band가 이러한 탐색 병목 현상을 효과적으로 해결함을 확인했습니다. 우리는 이 매핑을 볼록 최적화 문제로 공식화하여, 특정 발산에 대해 닫힌 형태의 해를 도출하면서도 전역적으로 최적인 수치 해를 보장합니다. 다양한 모델과 데이터셋에 걸친 폭넓은 실험을 통해 BandPO가 표준 클리핑과 Clip-Higher를 지속적으로 능가함과 동시에 엔트로피 붕괴를 강건하게 완화함을 입증했습니다.
월드 모델은 행동 또는 지시에 조건부된 환경 역학을 시뮬레이션하는 강력한 프레임워크를 제공하여 행동 계획이나 정책 학습과 같은 하위 작업을 가능하게 합니다. 최근 접근법들은 월드 모델을 학습된 시뮬레이터로 활용하고 있지만, 의사 결정 시점 계획에의 적용은 실시간 제어에 있어 여전히 계산 비용이 매우 큽니다. 핵심 병목 현상은 잠재 표현에 있습니다: 기존 토크나이저는 각 관측을 수백 개의 토큰으로 인코딩하여 계획 속도를 느리게 하고 자원 소모를 크게 만듭니다. 이를 해결하기 위해 우리는 각 관측을 최소 8개의 토큰으로 압축하는 이산 토크나이저인 CompACT를 제안합니다. 이를 통해 계획에 필수적인 정보를 보존하면서 계산 비용을 획기적으로 줄입니다. CompACT 토크나이저를 활용한 행동 조건부 월드 모델은 기존 대비 수 배 빠른 계획 속도로 경쟁력 있는 계획 성능을 달성하여, 월드 모델의 실세계 배치를 위한 실용적인 단계를 제시합니다.
실전 적용 가능한 인간 비디오 생성에는 디지털 배우가 동적인 샷, 시점, 동작 전반에 걸쳐 엄격하게 일관된 전신 정체성을 유지해야 하며, 이는 기존 방법론들이 여전히 어려움을 겪는 과제입니다. 기존 방법론들은 신체 수준 일관성을 소홀히 하는 얼굴 중심 동작 문제를 자주 겪거나, 포즈 고정으로 인해 피사체가 경직되어 보이는 복사-붙여넣기 아티팩트를 생성합니다. 우리는 제약 없는 시점과 환경에서 정체성 일관성을 포착하기 위해 설계된 대규모 인간 비디오 데이터셋인 Actor-18M을 소개합니다. Actor-18M은 임의의 시점과 정규화된 3시점 표현을 모두 포함하는 160만 개의 비디오와 1,800만 개의 해당 인간 이미지로 구성됩니다. Actor-18M을 활용하여 우리는 임의의 시점 조건부 인간 비디오 생성을 위한 프레임워크인 WildActor를 제안합니다. 우리는 균형 잡힌 매니폴드 커버리지를 위해 한계 효용에 따라 참조 조건을 반복적으로 재가중하는 시점 적응형 몬테카를로 샘플링 전략과 결합된 비대칭 정체성 보존 어텐션 메커니즘을 도입합니다. 제안된 Actor-Bench에서 평가한 결과, WildActor는 다양한 샷 구성, 큰 시점 전환, 상당한 동작 하에서도 신체 정체성을 일관되게 유지하며 이러한 까다로운 조건에서 기존 방법론들을 능가했습니다.
사고 연쇄(CoT) 모니터링은 현대 추론 모델의 오작동을 탐지하고 동기를 이해하는 유망한 도구입니다. 그러나 모델이 CoT에서 언어화하는 내용을 통제할 수 있다면 CoT 모니터링 가능성을 훼손할 수 있습니다. 이러한 바람직하지 않은 능력인 'CoT 제어 가능성'을 측정하기 위해 우리는 CoT-Control 평가 스위트를 도입했습니다. 여기에는 모델이 CoT 지시사항을 준수하면서 문제를 해결해야 하는 작업(예: '염색체'라는 단어를 사용하지 않고 유전학 문제를 추론하기)이 포함됩니다. 우리는 추론 모델의 CoT 제어 가능성이 최종 출력 제어 가능성보다 현저히 낮음을 보여줍니다. 예를 들어, Claude Sonnet 4.5는 CoT를 제어할 수 있는 비율이 2.7%에 불과하지만, 최종 출력을 제어할 때는 61.9%에 달합니다. 또한 CoT 제어 가능성은 더 큰 모델에서 더 높으며, RL 훈련량 증가, 시험 시간 계산량 증가, 문제 난이도 증가에 따라 감소하는 것을 확인했습니다. CoT 제어 실패는 모델이 CoT 모니터를 회피하도록 직접적인 요청이 아닌 유인책이 주어지는 상황까지 확장됩니다. 다만 모델이 모니터링 대상이라고 알려진 경우 약간 더 높은 제어 가능성을 보였습니다. 마찬가지로, 적대적으로 프롬프트를 최적화하여 제어 가능성을 유도하는 것은 의미 있는 수준으로 제어 가능성을 높이지 못했습니다. 우리의 결과는 CoT 제어 가능성이 현재로서는 CoT 모니터링 가능성의 실패 모드가 될 가능성이 낮다고 신중하게 낙관할 수 있게 합니다. 그러나 낮은 제어 가능성의 배후 메커니즘은 잘 이해되지 않고 있습니다. CoT 모니터링 가능성 유지의 중요성을 고려할 때, 우리는 선도 연구소들이 향후 모델에서 CoT 제어 가능성을 추적할 것을 권장합니다.
트랜스포머 아키텍처는 대부분의 현대 대규모 언어 모델의 핵심을 이루므로, 이들의 사전 학습 안정성과 수렴 속도는 핵심적인 관심사입니다. 순차적으로 쌓인 계층 간의 논리적 의존성에 착안하여, 본 논문에서는 언어 모델 사전 학습을 위한 점진적 잔차 워밍업(Progressive Residual Warmup, ProRes) 방법을 제안합니다. ProRes는 "초기 계층이 먼저 학습한다"는 철학을 구현하며, 각 계층의 잔차 연결에 0에서 1로 점진적으로 증가하는 스칼라 값을 곱하고, 더 깊은 계층일수록 더 많은 워밍업 단계를 거치게 합니다. 이를 통해 더 깊은 계층들은 학습에 기여하기 전에 초기 계층들이 더 안정된 상태에 도달할 때까지 대기하게 됩니다. 다양한 모델 규모와 정규화 및 초기화 방법에 걸친 사전 학습 실험을 통해 ProRes의 효과를 입증합니다. 종합적인 분석 결과, ProRes는 사전 학습을 안정화할 뿐만 아니라 고유한 최적화 경로를 도입하여 더 빠른 수렴, 더 강력한 일반화 성능 및 향상된 다운스트림 작업 성능으로 이어짐을 보여줍니다. 코드는 https://github.com/dandingsky/ProRes에서 확인할 수 있습니다.
메모리는 장기적이고 이력에 의존하는 로봇 매니퓰레이션에 있어 핵심적입니다. 이러한 작업들은 반복된 동작을 세거나 일시적으로 가려진 객체를 조작하는 경우가 많습니다. 최근 비전-언어-행동(VLA) 모델들은 메모리 메커니즘을 통합하기 시작했지만, 그 평가는 여전히 제한적이고 비표준화된 환경에 머물러 있습니다. 이는 체계적인 이해, 비교 및 진전 측정을 제한합니다. 이러한 문제를 해결하기 위해 우리는 장기적이고 이력에 의존하는 시나리오에서 VLA 모델의 평가 및 발전을 위한 대규모 표준 벤치마크인 RoboMME를 소개합니다. 우리의 벤치마크는 시간적, 공간적, 객체, 절차적 메모리를 평가하는 신중하게 설계된 분류 체계 아래 구축된 16개의 매니퓰레이션 작업으로 구성됩니다. 우리는 또한 π0.5 백본을 기반으로 여러 통합 전략에 걸쳐 다양한 메모리 표현을 체계적으로 탐구하기 위해 14개의 메모리 강화 VLA 변형 모음집을 추가로 개발했습니다. 실험 결과는 메모리 표현의 효과가 작업에 매우 의존적이며, 각 설계가 다른 작업에 걸쳐 뚜렷한 장점과 한계를 제공함을 보여줍니다. 동영상 및 코드는 우리 웹사이트 https://robomme.github.io에서 확인할 수 있습니다.
확산 트랜스포머(Diffusion Transformers)는 고정된 패치화(patchify) 연산을 통해 생성된 고정 길이 토큰 시퀀스로 이미지를 처리합니다. 이 방식은 효과적이지만, 이미지가 다양한 세부 정보를 가진 영역으로 구성되어 있고 잡음 제거(denoising) 과정이 초기 시간 단계에서는 coarse한 구조에서 후기 시간 단계에서는 미세한 세부 사항으로 진행된다는 점을 간과한 채, 정보가 적은 영역과 많은 영역에 동일한 계산 자원을 균일하게 소모합니다. 우리는 Dynamic Chunking Diffusion Transformer(DC-DiT)를 소개합니다. DC-DiT는 DiT 백본에 학습된 인코더-라우터-디코더 구조(scaffold)를 추가하여, 확산 훈련과 함께 end-to-end로 학습된 청킹(chunking) 메커니즘을 통해 2D 입력을 데이터 의존적 방식으로 더 짧은 토큰 시퀀스에 적응적으로 압축합니다. 이 메커니즘은 균일한 배경 영역은 더 적은 토큰으로, 세부 정보가 풍부한 영역은 더 많은 토큰으로 압축하는 방법을 학습하며, 명시적인 지도 없이도 의미 있는 시각적 분할(segmentation)이 나타납니다. 더 나아가, 이 메커니즘은 확산 시간 단계에 걸쳐 압축 방식을 적응적으로調整합니다. 즉, 잡음이 많은 단계에서는 더 적은 토큰을 사용하고 미세한 세부 사항이 나타나는 단계에서는 더 많은 토큰을 사용하도록 학습합니다. 클래스 조건부 ImageNet 256×256 생성 작업에서 DC-DiT는 4배 및 16배 압축 시나리오에서 파라미터 규모가 동일하거나 FLOPs가 동일한 DiT 기준 모델 대비 FID와 Inception Score를 지속적으로 향상시켜, 이 기술이 유망하며 픽셀 공간, 비디오, 3D 생성에 대한 추가 적용 가능성이 있음을 보여줍니다. 정확도 향상 외에도 DC-DiT는 실용적입니다. 사전 훈련된 DiT 체크포인트에서 최소한의 사후 훈련 계산량(최대 8배 적은 훈련 스텝)으로 업사이클(upcycle)할 수 있으며, 다른 동적 계산 방법과 결합하여 생성 시 필요한 FLOPs를 추가로 줄일 수 있습니다.
확산 모델 기반 비디오 생성 기술의 최근 발전은 놀라운 시각적 현실감을 달성했지만, 여전히 중력, 관성, 충돌과 같은 기본 물리 법칙을 따르는 데 어려움을 겪고 있습니다. 생성된 객체는 프레임 간 일관성 없는 움직임을 보이거나, 비현실적인 역학을 나타내거나, 물리적 제약을 위반하는 경우가 많아 AI 생성 비디오의 현실감과 신뢰성을 제한합니다. 본 연구에서는 이러한 격차를 해결하기 위해 물리 시뮬레이터를 비디오 확산 과정에 통합한 새로운 프레임워크인 PSIVG(Physical Simulator In-the-loop Video Generation)를 제안합니다. PSIVG는 사전 학습된 확산 모델로 생성된 템플릿 비디오를 시작점으로 4D 장면 및 전경 객체 메쉬를 재구성하고, 이를 물리 시뮬레이터 내에서 초기화한 후 물리적으로 일관된 궤적을 생성합니다. 이러한 시뮬레이션된 궤적은 비디오 생성기가 시공간적으로 물리적으로 일관된 운동을 생성하도록 유도하는 데 사용됩니다. 또한 객체 이동 중 텍스처 일관성을 더욱 개선하기 위해, 시뮬레이터의 픽셀 대응 관계를 기반으로 텍스트 및 특징 임베딩을 조정하는 TTCO(Test-Time Texture Consistency Optimization) 기법을 제안합니다. 포괄적인 실험을 통해 PSIVG가 시각적 품질과 다양성을 유지하면서 현실 세계의 물리 법칙을 더 잘 준수하는 비디오를 생성함을 입증합니다. 프로젝트 페이지: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
대규모 언어 모델(LLM)의 최근 발전은 멀티모달 추론에 새로운 길을 열었습니다. 그러나 대부분의 기존 방법은 여전히 사전 학습된 시각-언어 모델(VLM)에 의존하여 이미지-텍스트 쌍을 개별적으로 인코딩함으로써, 실제 세계의 멀티모달 데이터가 자연스럽게 형성하는 관계적 구조를 간과하고 있습니다. 이는 각 노드가 텍스트 및 시각 속성을 가지며 에지가 구조적 단서를 제공하는 멀티모달 그래프(MMG) 상의 추론을 필요로 합니다. 그래프 토폴로지를 보존하면서 이러한 이종 멀티모달 신호에 대한 LLM 기반 추론을 가능하게 하는 것은 두 가지 주요 과제를 제기합니다: 약한 교차 모달 일관성 해결과 이종 모달 선호도 처리입니다. 이를 해결하기 위해, 우리는 상기 두 과제를 동시에 해결하고 MMG에 대한 효과적인 LLM 기반 추론을 가능하게 하는 통합 프레임워크인 Mario를 제안합니다. Mario는 두 가지 혁신적인 단계로 구성됩니다. 첫째, 그래프 토폴로지의指導를 받는 세분화된 교차 모달 대조 학습을 통해 텍스트 및 시각 특징을 공동으로 정제하는 그래프 조건 VLM 설계입니다. 둘째, 정렬된 멀티모달 특징을 그래프 인식 명령어 뷰로 구성하고, 학습 가능한 라우터를 활용하여 각 노드와 그 이웃에 대해 LLM에 가장 유익한 모달 구성을 표면화하는 모달 적응형 그래프 명령어 튜닝 메커니즘입니다. 다양한 MMG 벤치마크에 걸친 폭넓은 실험을 통해 Mario가 노드 분류 및 링크 예측 작업에서 지도 학습 및 제로샷 시나리오 모두에서 최첨단 그래프 모델을 꾸준히 능가함을 입증했습니다. 코드는 https://github.com/sunyuanfu/Mario에서 공개될 예정입니다.
기존 순차적 LLM 에이전트는 예산 및 다양성 요구사항과 같은 엄격한 제약 조건이 있는 장기 계획 수립에 어려움을 겪습니다. 계획이 진행되고 컨텍스트가 증가함에 따라 이러한 에이전트는 전역 제약 조건에서 이탈하는 경향이 있습니다. 본 연구에서는 계획 수립을 전략적 조정과 병렬적인 일별 실행으로 분할하는 계층적 다중 에이전트 프레임워크인 HiMAP-Travel을 제안합니다. 코디네이터(Coordinator)는 일별 자원을 할당하고, 일별 실행기(Day Executor)는 병렬적으로 독립적으로 계획을 수립합니다. 이를 가능하게 하는 세 가지 핵심 메커니즘이 있습니다: 병렬 에이전트 간에 예산과 고유성 제약 조건을 강제하는 트랜잭션 모니터(transactional monitor), 실행 불가능한 하위 목표를 거부하고 재계획을 촉발할 수 있도록 하는 협상 프로토콜(bargaining protocol), 그리고 역할 조건화(role conditioning)를 통해 모든 에이전트를 구동하는 GRPO로 훈련된 단일 정책(single policy)입니다. TravelPlanner에서 Qwen3-8B를 탑재한 HiMAP-Travel은 52.78%의 검증 및 52.65%의 테스트 최종 통과율(Final Pass Rate, FPR)을 달성했습니다. 동일한 모델, 훈련, 도구를 사용한 통제 비교에서 기존 순차적 DeepTravel 기준선을 +8.67%p 능가했습니다. 또한 ATLAS를 +17.65%p, MTP를 +10.0%p 앞섰습니다. FlexTravelBench 다중 턴 시나리오에서는 병렬화를 통해 지연 시간을 2.5배 줄이면서 44.34%(2턴) 및 37.42%(3턴)의 FPR을 달성했습니다.
시각 효과(VFX)는 영상 콘텐츠의 표현력과 창의성을 높이는 데 필수적이지만, 고품질 효과를 제작하려면 일반적으로 전문적인 지식과 고비용의 제작 파이프라인이 필요합니다. 기존 AIGC 시스템은 효과 특화 데이터의 부족과 초자연적이거나 스타일화된 효과를 모델링하는固有的인 난이도로 인해 VFX 생성에서 상당한 어려움에 직면해 있습니다. 더욱이 이러한 접근법들은 종종 효과별 미세 조정을 필요로 하여 새로운 VFX에 대한 확장성과 일반화를 심각하게 제한합니다. 본 연구에서는 참조 기반 VFX 사용자 지정을 가능하게 하는 통합 추론-생성 프레임워크인 EffectMaker를 제안합니다. EffectMaker는 멀티모달 대규모 언어 모델을 활용하여 높은 수준의 효과 의미를 해석하고 대상 주체에 효과가 어떻게 적용되어야 하는지 추론하는 한편, 디퓨전 트랜스포머는 컨텍스트 내 학습을 활용하여 참조 영상으로부터 세밀한 시각적 단서를 포착합니다. 이 두 구성 요소는 의미-시각 이중 경로 안내 메커니즘을 형성하여 효과별 미세 조정 없이도 정확하고 제어 가능하며 효과 일관성 있는 합성을 가능하게 합니다. 또한 일반화와 확장성을 향상시키기 위해 3,000개의 VFX 범주에 걸쳐 13만 개의 영상을 포함하는 가장 큰 규모의 고품질 합성 데이터셋인 EffectData를 구축했습니다. 실험 결과, EffectMaker는 최첨단 기준선들을 능가하는 우수한 시각적 품질과 효과 일관성을 달성하여 사용자 지정 VFX 생성을 위한 확장 가능하고 유연한 패러다임을 제공함을 보여줍니다. 프로젝트 페이지: https://effectmaker.github.io
Flow-based 시각-언어-행동(VLA) 모델은 구체화된 제어에서 뛰어난 성능을 보이지만, 다단계 샘플링 동안 계산이 어려운 가능도 문제로 온라인 강화 학습에 어려움을 겪습니다. 본 연구에서는 최적화 단계당 단일 순전파만 필요로 하며 보조 가치 네트워크를 제거한 critic-and-likelihood-free 프레임워크인 \textit{boldsymbolπ-StepNFT}(Step-wise Negative-aware Fine-Tuning)를 제안합니다. 우리는 더 넓은 탐색 공간이 정렬을 위해 더 세분화된 단계별 지도가 필요함을 확인했습니다. 실험적으로 π-StepNFT는 LIBERO에서 경쟁력 있는 few-shot 강건성과 함께 잠재력을 발휘했습니다. 또한 ManiSkill에서 우수한 일반화 성능을 달성하며, 다중 모드 특징에의 과적합을 방지함으로써 OOD 시나리오에서 가치 기반 베이스라인을 능가했습니다. 이러한 특성은 복잡한 실제 응용 프로그램에 유용한 확장 가능한 해결책을 제시합니다.
장거리 문맥 모델링은 대규모 언어 모델의 핵심 능력이지만, 어텐션의 이차 복잡도는 특히 계산 집약적인 프리필 단계에서 중요한 병목 현상으로 남아 있습니다. 다양한 희소 어텐션 메커니즘이 연구되었지만, 이들은 일반적으로 상당한 검색 지연 시간이나 불충분한 희소성 문제를 겪습니다. 본 논문에서는 즉각적인 패턴 발견과 임계값 설정을 통해 초고속 프리필을 가능하게 하는 FlashPrefill 프레임워크를 제안합니다. FlashPrefill은 빠른 블록 탐색 기법을 활용하여 동적인 수직, 사선, 블록 희소 어텐션 패턴을 동시에 찾아냅니다. 중요한 것은, 정렬이나 어텐션 점수 누적의 과도한 오버헤드를 회피하면서도 긴 꼬리 분포를 효과적으로 제거하여 희소성을 향상시키는 동적 임계값 메커니즘을 도입한다는 점입니다. 광범위한 평가를 통해 FlashPrefill이 효율성에서 상당한 도약을 이루며, 256K 길이 시퀀스에서 전례 없는 27.78배의 속도 향상을 제공함을 입증했습니다. 특히, 기존 방법들과 달리 짧은 문맥에서 효율성 저하가 발생하지 않으며, 4K 문맥 길이에서도 1.71배의 속도 향상을 유지하여 다양한 시퀀스 규모에서의 견고성과 실용성을 입증했습니다.
다양한 역량, 비용, 영역을 지닌 대규모 언어 모델(LLM)의 급속한 성장은 추론 시점에서의 지능형 모델 선택에 대한 중요한 필요성을 창출했습니다. 일상적인 질의에는 소규모 모델로 충분하지만, 복잡한 작업은 더 높은 역량을 가진 모델을 요구합니다. 그러나 정적인 모델 배포 방식은 들어오는 질의의 복잡성과 영역을 고려하지 않아 성능 저하와 비용 증가를 초래합니다. 질의 특성에 따라 적응적으로 모델을 선택하는 동적 라우팅 시스템이 이러한 과제에 대한 해법으로 등장했습니다. 본 논문은 최첨단 다중 LLM 라우팅 및 캐스케이딩 접근법에 대한 체계적인 분석을 제공합니다. 단일 모델 내에서 라우팅을 수행하는 전문가 혼합(MoE) 아키텍처와 대비하여, 우리는 독립적으로 훈련된 여러 LLM 간의 라우팅을 연구합니다. 우리는 질의 난이도, 인간 선호도, 클러스터링, 불확실성 정량화, 강화 학습, 다중 모달리티, 캐스케이딩 등 다양한 라우팅 패러다임을 다룹니다. 각 패러다임에 대해 대표적인 방법론을 분석하고 주요 절충점을 검토합니다. 분류 체계를 넘어, 우리는 라우팅 시스템을 의사 결정 시점, 활용 정보, 계산 방식이라는 세 가지 차원에서 특징짓는 개념적 프레임워크를 소개합니다. 이러한 관점은 실용적인 시스템이 종종 운영 제약 하에 여러 패러다임을 통합하는 구성적 특성을 가짐을 강조합니다. 우리의 분석은 효과적인 다중 LLM 라우팅이 상충되는 목표들 간의 균형을 요구함을 보여줍니다. 최적의 라우팅 전략 선택은 배포 및 계산상의 제약에 따라 달라집니다. 잘 설계된 라우팅 시스템은 모델 간 특화된 역량을 전략적으로 활용하고 효율성 이득을 극대화함으로써 가장 강력한 단일 모델보다도 뛰어난 성능을 발휘할 수 있습니다. 한편, 다양한 아키텍처, 모달리티, 응용 분야에 걸쳐 일반화되는 라우팅 메커니즘 개발에는 여전히 해결과제가 남아 있습니다.
프레젠테이션 생성에는 심층적인 콘텐츠 연구, 일관성 있는 시각적 디자인, 관찰에 기반한 반복적 정제 과정이 필요합니다. 그러나 기존의 프레젠테이션 생성 에이전트는 주로 미리 정의된 워크플로우와 고정된 템플릿에 의존하는 경향이 있습니다. 이를 해결하기 위해 본 논문에서는 다양한 사용자 의도에 적응하고, 효과적인 피드백 기반 정제를 가능하게 하며, 정형화된 파이프라인의 한계를 극복하는 에이전트 기반 프레임워크인 DeepPresenter를 제안합니다. 구체적으로 DeepPresenter는 중간 슬라이드 산출물을 자율적으로 계획, 렌더링 및 수정하여 환경 관찰을 통한 장기적 정제를 지원합니다. 더 나아가 내부 신호(예: 추적痕迹)에 대한 자체 반성(self-reflection)에 의존하기보다, 인지 가능한 산출물 상태(예: 렌더링된 슬라이드)에 기반한 환경 접지형 반성(environment-grounded reflection)을 통해 생성 과정을 조건화함으로써 시스템이 실행 중에 프레젠테이션 특화 문제를 식별하고 수정할 수 있게 합니다. 다양한 프레젠테이션 생성 시나리오를 포함한 평가 세트에서의 결과는 DeepPresenter가 최첨단 성능을 달성하며, 미세 조정된 9B 모델이 훨씬 낮은 비용으로도 매우 경쟁력 있는 성과를 유지함을 보여줍니다. 본 프로젝트는 https://github.com/icip-cas/PPTAgent에서 확인할 수 있습니다.
확산 기반 세계 모델은 통합 세계 시뮬레이션 측면에서 강력한 잠재력을 보여왔지만, 반복적인 노이즈 제거 과정은 상호작용형 사용 및 장기 롤아웃에 여전히 너무 많은 비용이 든다. 특징 캐싱은 학습 없이 추론을 가속화할 수 있지만, 단일 모달리티 확산을 위해 설계된 정책은 두 가지 세계 모델 특유의 장애물로 인해 세계 모델로의 전이가 원활하지 않음을 발견했다. 첫째, 다중 모달리티 결합 및 공간적 변동으로 인한 토큰 이질성과 둘째, 소수의 어려운 토큰들이 오류 증가를 주도하는 불균일한 시간적 역학으로, 균일한 스킵이 불안정하거나 지나치게 보수적으로 만드는 문제다. 우리는 확산 세계 모델에 맞춤화된 캐싱 프레임워크인 WorldCache를 제안한다. 우리는 물리학 기반의 곡률 점수를 사용하여 토큰 예측 가능성을 추정하고, 갑작스러운 방향 변화를 보이는 혼돈 토큰에는 Hermite 기반 감쇠 예측기를 적용하는 곡률 기반 이질적 토큰 예측을 도입한다. 또한, 곡률로 정규화된 무차원 드리프트 신호를 누적하고 병목 토큰이 드리프트하기 시작할 때만 재계산하는 혼돈 우선 순위 적응형 스킵을 설계한다. 확산 세계 모델에 대한 실험 결과, WorldCache는 롤아웃 품질의 98%를 유지하면서 최대 3.7배의 종단 간 속도 향상을 제공하여, 자원이 제한된 시나리오에서 WorldCache의 막대한 이점과 실용성을 입증했다. 우리의 코드는 https://github.com/FofGofx/WorldCache 에 공개되어 있다.
컴퓨터 지원 설계(CAD)는 구조화되고 편집 가능한 기하학적 표현에 의존하지만, 기존 생성 방법은 명시적 설계 기록이나 경계 표현(BRep) 레이블이 포함된 소규모 주석 데이터셋에 제한됩니다. 반면 수백만 개의 주석 없는 3D 메쉬는 활용되지 못해 확장 가능한 CAD 생성 연구의 발전을 저해하고 있습니다. 이를 해결하기 위해 우리는 CAD 특화 주석 없이 포인트 수준 감독만으로 편집 가능한 BRep를 직접 생성하는 다중 모달 생성 프레임워크인 DreamCAD를 제안합니다. DreamCAD는 각 BRep를 매개변수 패치(예: 베지어 곡면) 집합으로 표현하고, 미분 가능 테셀레이션 방법을 사용하여 메쉬를 생성합니다. 이를 통해 3D 데이터셋에서 대규모 학습이 가능하면서도 연결되고 편집 가능한 곡면 재구성이 가능합니다. 또한 텍스트-CAD 연구 발전을 위해 GPT-5로 생성된 100만 개 이상의 설명을 포함하는 역대 최대 규모의 CAD 캡셔닝 데이터셋인 CADCap-1M을 소개합니다. DreamCAD는 텍스트, 이미지, 포인트 모드에서 ABC 및 Objaverse 벤치마크에 대해 최첨단 성능을 달성하며 기하학적 정확도를 향상하고 75% 이상의 사용자 선호도를 기록했습니다. 코드와 데이터셋은 공개될 예정입니다.
대화형 에이전트는 사용자와의 실시간 상호작용 중에 대규모의 독점적이고 비정형적인 코퍼스로부터 도메인 특화 지식을 검색하고 적용하는 데 성능이 좌우되는 지식 집약적 환경에 점점 더 많이 배포되고 있습니다. 그러나 대부분의 기존 벤치마크는 검색과 도구 사용을 서로 독립적으로 평가하여, 장기적 상호작용에서 비정형 데이터에 대한 현실적이고 완전한 자율 에이전트 평가의 공백을 만들어냈습니다. 본 연구에서는 외부의 자연어 지식과 도구 출력을 조정하여 검증 가능하고 정책을 준수하는 상태 변화를 생성해야만 성공할 수 있는 환경에서 에이전트를 평가하기 위한 τ-Bench의 확장인 τ-Knowledge를 소개합니다. 우리의 새로운 도메인인 τ-Banking은 에이전트가 도구 매개 계정 업데이트를 실행하면서 약 700개의 상호 연결된 지식 문서를 탐색해야 하는 현실적인 핀테크 고객 지원 워크플로를 모델링합니다. 임베딩 기반 검색과 터미널 기반 검색 전반에 걸쳐, 높은 추론 예산을 가진 최첨단 모델들조차 약 25.5%의 통과율(Pass@1)에 그치며, 신뢰도는 반복 시행을 거치며 급격히 저하되었습니다. 에이전트는 밀집하게 상호 연결된 지식 베이스에서 정확한 문서를 검색하고 복잡한 내부 정책에 대해 정확하게 추론하는 데 어려움을 겪었습니다. 전반적으로, τ-Knowledge는 인간 중심 배포 환경에서 비정형 지음을 통합하는 에이전트 개발을 위한 현실적인 테스트베드를 제공합니다.
신경망 편미분방정식(PDE) 솔버의 학습은 일반적으로 고비용의 데이터 생성 과정이나 고차 도함수로 인한 난해한 최적화 지형을 다뤄야 하는 물리 정보 기반 신경망(PINN)의 불안정성에 의해 병목 현상이 발생합니다. 이러한 문제를 해결하기 위해 본 연구에서는 몬테카를로 접근법을 활용하여 PDE 해를 확률 과정으로 추정하고, 이를 학습 과정에서 약한 감독(weak supervision) 신호로 사용하는 대안적 방법을 제안합니다. Walk-on-Spheres 방법을 활용하여, 우리는 WoS에서 제공하는 약한 감독 신호를 통해 임의의 신경망 연산자를 학습시키는 Walk-on-Spheres Neural Operator(WoS-NO) 학습 방식을 소개합니다. 우리는 몬테카를로 경로 생성 비용을 PDE 인스턴스 분포 전체에 분산시키는 방식을 제안하는데, 이는 WoS 알고리즘의 확률적 표현을 이용해 학습 중에 저비용으로 잡음이 포함된 PDE 해 추정치를 생성합니다. 이를 데이터가 필요 없는 물리 정보 기반 목적 함수로 공식화하여, 신경망 연산자가 이러한 약한 감독 신호를 맞추도록 회귀 학습을 수행함으로써 특정 PDE 군 전체에 대한 일반화된 해 사상을 학습하게 합니다. 이 전략은 고비용의 사전 계산된 데이터셋을 필요로 하지 않으며, 메모리 소모가 크고 불안정한 고차 도함수 계산을 손실 함수에서 회피합니다. 또한 새로운 PDE 매개변수와 영역에 대한 제로-샷 일반화 능력을 보여줍니다. 실험 결과, 동일한 학습 스텝 수 대비 우리의 방법은 표준 물리 정보 기반 학습 방식보다 L_2 오차에서 최대 8.75배, 학습 속도에서 최대 6.31배의 개선을 보였으며, GPU 메모리 사용량은 최대 2.97배 감소하였습니다. 코드는 https://github.com/neuraloperator/WoS-NO에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 추론 시간 계산 자원 확장은 전례 없는 수준의 추론 능력을 가능하게 하였다. 그러나 기존의 추론 시간 확장 방법은 일반적으로 비효율적이고 최적이 아닌 이산 탐색 알고리즘이나 시행착오 방식의 프롬프팅에 의존하여 온라인 정책을 개선해 왔다. 본 논문에서는 토큰 로짓에 대한 미분 가능 최적화를 디코딩 루프에 통합하여 실시간으로 정책을 개선하는 반복 생성 프레임워크인 nabla-Reasoner를 제안한다. 우리의 핵심 구성 요소인 미분 가능 텍스트 최적화(DTO)는 LLM의 가능도와 보상 모델로부터의 기울기 신호를 활용하여 텍스트 표현을 정제한다. nabla-Reasoner는 또한 기각 샘플링과 가속화 설계를 추가하여 디코딩의 견고성과 속도를 높인다. 이론적으로는 표본 공간에서 추론 시간 경사 하강법을 수행하여 보상을 극대화하는 것이 KL 정규화 강화 학습을 통한 LLM 정책 정렬과 쌍대성을 이룸을 보인다. 경험적으로, nabla-Reasoner는 까다로운 수학적 추론 벤치마크에서 20% 이상의 정확도 향상을 달성하였으며, 강력한 베이스라인 대비 모델 호출 횟수를 약 10-40% 감소시켰다. 전반적으로, 우리의 연구는 테스트 시간에 영차 탐색에서 일차 최적화로의 패러다임 전환을 제시함으로써 LLM 추론 능력을 증폭시키는 비용 효율적인 경로를 제공한다.
그룹 상대 정책 최적화(GRPO)는 학습 후 자율 회귀(AR) 언어 모델에 매우 효과적이지만, 이를 확산 대형 언어 모델(dLLM)에 직접 적용하면 보상 붕괴가 자주 발생합니다. 우리는 두 가지 호환성 문제의 원인을 규명했습니다. 첫째, GRPO는 시퀀스 확률로 정의되는 중요도 비율에 의존하는데, 이는 dLLM에서는 계산이 불가능하며 추정(예: ELBO 기반 또는 평균장 우도 프록시)해야 하여 본질적으로 잡음이 많은 비율을 생성합니다. 둘째, 표준 GRPO의 공식화는 추정된 비율을 위해 설계되지 않았습니다: 조건부 클리핑이 모델-불특정 추정 잡음에 의해 비정상적으로 우회되어 그래디언트 스파이크를 생성하는 반면, 고정된 그룹 크기 정규화는 높은 분산의 비율 추정에서 그래디언트 크기 변동을 증폭시킵니다. 우리는 이러한 효과들이 정책 표류를 유발하고 비율 분산을 더욱 증가시키는 자기 강화 불안정성 순환을 형성함을 보여줍니다. 이 순환을 깨기 위해 dLLM에 맞게 조정된 GRPO의 재구성인 StableDRL을 제안합니다. 이는 (i) 이상치로 인한 스파이크를 억제하기 위한 무조건 클리핑과 (ii) 개별 샘플 그래디언트의 볼록 껍질 내에서 업데이트를 제한하기 위한 자기 정규화를 사용합니다. 또한 계단식 어텐션 메커니즘을 통해 StableDRL을 블록 단위 확산 모델로 확장합니다.
대규모 언어 모델은 때때로 거짓이나 오해의 소지가 있는 응답을 생성합니다. 이 문제에 대한 두 가지 접근법은 모델이 진실하게 답변하도록 프롬프트나 가중치를 수정하는 '정직성 유도'와 주어진 응답이 거짓인지 분류하는 '거짓말 탐지'입니다. 기존 연구는 특히 거짓말을 하거나 정보를 숨기도록 특수 훈련된 모델을 대상으로 이러한 방법을 평가했지만, 이러한 인공적 구성은 자연 발생적인 부정직성과 유사하지 않을 수 있습니다. 우리는 대신 정치적으로 민감한 주제를 검열하도록 훈련된 중국 개발사의 오픈 가중치 LLM을 연구합니다: Qwen3 모델은 법륜공이나 천안문 시위와 같은 주제에 대해 종종 올바르게 답변하면서도 빈번히 거짓 정보를 생성하며, 이는 모델이 억제하도록 훈련받은 지식을 보유하고 있음을 시사합니다. 이를 테스트베드로 활용하여 일련의 유도 및 거짓말 탐지 기술을 평가합니다. 정직성 유도 측면에서는 채팅 템플릿 없이 샘플링하기, 퓨샷 프롬프팅, 일반적인 정직성 데이터에 대한 미세 조정이 진실된 응답을 가장 안정적으로 증가시켰습니다. 거짓말 탐지 측면에서는 검열된 모델에게 자신의 응답을 분류하도록 프롬프팅하는 것이 검열되지 않은 모델 상한선에 근접한 성능을 보였으며, 관련 없는 데이터로 훈련된 선형 탐사기가 더 저렴한 대안을 제공했습니다. 가장 강력한 정직성 유도 기술은 DeepSeek R1을 포함한 최첨단 오픈 가중치 모델로도 전이되었습니다. 주목할 점은 어떤 기술도 거짓 응답을 완전히 제거하지 못했다는 것입니다. 우리는 모든 프롬프트, 코드 및 기록을 공개합니다.
PixARMesh는 단일 RGB 이미지로부터 완전한 3D 실내 장면 메시를 직접 자동회귀적으로 복원하는 방법을 소개합니다. 암시적 부호 거리 필드와 사후 레이아웃 최적화에 의존하는 기존 방법과 달리, PixARMesh는 객체 레이아웃과 기하구조를 통합 모델 내에서 공동으로 예측하여 일관성 있고 아티스트 작업 준비가 완료된 메시를 단일 정방향 전달로 생성합니다. 최근 메시 생성 모델의 발전을 바탕으로, 픽셀 정렬 이미지 특징과 교차 주의를 통한 전역 장면 문맥을 점군 인코더에 추가하여 단일 이미지로부터 정확한 공간 추론을 가능하게 합니다. 장면은 문맥, 자세, 메시를 포함하는 통합 토큰 스트림으로부터 자동회귀적으로 생성되어 높은 충실도의 기하구조를 가진 경량 메시를 산출합니다. 합성 및 실제 데이터셋에 대한 실험 결과, PixARMesh는 다운스트림 애플리케이션에 바로 사용 가능한 경량 고품질 메시를 생성하면서도 최첨단 복원 품질을 달성함을 보여줍니다.
오프라인 목표 조건 강화 학습(GCRL)은 정적으로 미리 수집된 데이터셋으로부터 목표 조건 정책을 학습합니다. 그러나 상태-행동 공간의 제한된 커버리지로 인해 정확한 가치 추정은 여전히 과제로 남아 있습니다. 최근 물리 정보 기반 접근법들은 아이코널 방정식과 같은 1계 편미분 방정식(PDE)을 통해 정의된 정규화를 통해 가치 함수에 물리적 및 기하학적 제약을 부여함으로써 이 문제를 해결하고자 시도해왔습니다. 하지만 이러한 공식화는 복잡한 고차원 환경에서 종종 잘못 설정될 수 있습니다. 본 연구에서는 해밀턴-자코비-벨만(HJB) 방정식의 점성 해로부터 유도된 물리 정보 정규화를 제안합니다. 물리 기반 유도 편향을 제공함으로써, 우리의 접근법은 학습 과정을 최적 제어 이론에 기반하게 하여 가치 반복 중 업데이트를 명시적으로 정규화하고 경계짓습니다. 더 나아가, 파인만-카크 정리를 활용하여 PDE 해를 기대값으로 재구성함으로써 고차 미분에서 수치적 불안정성을 회피하는 실용적인 몬테카를로 목적함수 추정을 가능하게 합니다. 실험 결과, 우리의 방법이 기하학적 일관성을 향상시켜 내비게이션 및 고차원 복잡 조작 작업에 광범위하게 적용 가능함을 입증합니다. 오픈소스 코드는 https://github.com/HrishikeshVish/phys-fk-value-GCRL에서 확인할 수 있습니다.
다양한 손상 조건에서의 이미지 복원은 특징 간섭과 전문가 모듈의 전문성 부족으로 인해 통합 올인원 프레임워크에게 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 네트워크 계층별로 전문 모듈을 동적으로 활성화하는 구형 계층별 전문가 라우팅 프레임워크인 SLER-IR을 제안합니다. 신뢰할 수 있는 라우팅을 위해 선형 임베딩 공간의 기하학적 편향을 제거하기 위해 대조 학습을 활용한 구형 균일 손상 임베딩을 도입하여 손상 표현을 초구 위에 매핑합니다. 또한 전역-지역 세분성 융합(GLGF) 모듈을 통해 전역 의미 정보와 지역적 손상 단서를 통합하여 공간적으로 불균일한 손상과 훈련-테스트 세분성 차이를 해결합니다. 3개 작업 및 5개 작업 벤치마크에서의 실험을 통해 SLER-IR이 PSNR과 SSIM 모두에서 최신 방법 대비 일관된 성능 향상을 달성함을 입증합니다. 코드와 모델은 공개될 예정입니다.
행동 공간의 명세는 모방 기반 로봇 매니퓰레이션 정책 학습에서 중추적인 역할을 수행하며, 정책 학습의 최적화 환경을 근본적으로 형성합니다. 최근 발전이 훈련 데이터와 모델 용량의 확장에 집중되어 왔음에도 불구하고, 행동 공간의 선택은 여전히 임시적인 경험적 방법이나 기존 설계에 의해 지배되어 로봇 정책 설계 철학에 대한 명확한 이해가 부족한 실정입니다. 이러한 모호함을 해결하기 위해 우리는 대규모 체계적 실증 연구를 수행하여 행동 공간이 로봇 정책 학습에 실제로 중대하고 복잡한 영향을 미친다는 사실을 확인했습니다. 우리는 시간적 및 공간적 축을 따라 행동 설계 공간을 세분화하여 이러한 선택이 정책 학습 가능성과 제어 안정성을 어떻게 지배하는지 구조화된 분석을 가능하게 합니다. 양손 로봇에서 수행한 13,000회 이상의 실제 구동 및 4가지 시나리오에 걸친 500개 이상의 훈련된 모델 평가를 바탕으로, 절대 표현과 델타 표현 간의 장단점과 관절 공간 대 작업 공간 매개변수화를 비교 분석합니다. 우리의 대규모 실험 결과는 정책을 델타 행동을 예측하도록 적절히 설계하는 것이 지속적으로 성능을 향상시키는 반면, 관절 공간과 작업 공간 표현은 각각 제어 안정성과 일반화에 유리한 상호 보완적 강점을 제공함을 시사합니다.
명령어 추종은 대규모 언어 모델(LLM)의 핵심 기초 능력으로, 그 성능 향상은 평가 모델로부터 확장 가능하고 정확한 피드백에 달려 있습니다. 그러나 기존 메타평가 벤치마크의 여러 한계점—예를 들어 불충분한 데이터 범위와 모델 최적화 시나리오와 부합하지 않는 지나치게 단순화된 쌍별 평가 방식—으로 인해 현재 평가 모델의 명령어 추종 신뢰성에 대한 연구는 아직 부족한 실정입니다. 이에 따라 우리는 다양한 명령어 및 제약 조건 유형을 포괄하는 종합적인 명령어 추종 메타평가 벤치마크인 IF-RewardBench를 제안합니다. 각 명령어에 대해 우리는 명령어 추종 품질을 기준으로 여러 응답 간의 모든 쌍별 선호도를 포함하는 선호도 그래프를 구성합니다. 이 설계는 평가 모델이 여러 응답을 순위 매기는 능력을 평가하는 리스트와이즈 평가 방식을 가능하게 하며, 이는 모델 정렬을 안내하는 데 필수적입니다. IF-RewardBench에 대한 대규모 실험을 통해 현재 평가 모델의 심각한 결함을 확인했으며, 우리 벤치마크가 기존 벤치마크 대비 하류 작업 성능과 더 강한 양의 상관관계를 달성함을 입증했습니다. 우리의 코드와 데이터는 https://github.com/thu-coai/IF-RewardBench에서 확인할 수 있습니다.
VAE의 재구성 FID(rFID)와 잠재 확산 모델의 생성 FID(gFID) 간의 상관관계가 약하다는 것은 잘 알려져 있습니다. 본 논문에서는 gFID와 강한 상관관계를 보이는 rFID의 간단한 변형인 보간 FID(iFID)를 제안합니다. 구체적으로, 데이터셋의 각 요소에 대해 잠재 공간에서 최근접 이웃(NN)을 검색하고 이들의 잠재 표현을 보간합니다. 그런 다음 보간된 잠재 변수를 디코딩하여 디코딩된 샘플과 원본 데이터셋 간의 FID를 계산합니다. 또한, rFID가 확산 정제 단계의 샘플 품질과 상관관계를 보이는 반면, iFID는 확산 탐색 단계의 샘플 품질과 상관관계를 보인다는 점을 통해 rFID와 gFID의 상관관계가 약하다는 주장을 보다 정교하게 제시합니다. 나아가, 확산 일반화 및 환각에 대한 결과와 연결지어 iFID가 gFID와 왜 잘 상관되는지, 그리고 재구성 메트릭스가 gFID와 왜 부(-)의 상관관계를 보이는지에 대한 설명을 제공합니다. 실험적으로 iFID는 확산 gFID와 약 0.85의 피어슨 선형 상관관계 및 스피어만 순위 상관관계를 달성하여 강한 상관관계를 입증하는 최초의 메트릭스입니다. 소스 코드는 https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID에서 확인할 수 있습니다.
시각적 요소가 풍부한 문서의 전체 잠재력을 활용하려면 텍스트뿐만 아니라 복잡한 레이아웃을 이해하는 검색 시스템이 필요하며, 이는 시각적 문서 검색(VDR)의 핵심 과제입니다. 기존의 다중 벡터 아키텍처는 강력한 성능을 지녔으나, 임베딩 병합, 가지치기 또는 추상 토큰 사용과 같은 현재의 최적화 전략은 성능 저하를 초래하거나 중요한 레이아웃 정보를 무시하지 않고서는 해결할 수 없는 심각한 저장 공간 병목 현상을 겪고 있습니다. 이를 해결하기 위해 우리는 문서 파싱 모델을 활용하여 레이아웃 정보를 반영한 소수의 하위 이미지 임베딩을 생성하고, 이를 전역 페이지 수준 벡터와 융합하여 컴팩트하면서도 구조를 인식하는 다중 벡터 표현을 만들어 내는 새로운 패러다임인 ColParse를 소개합니다. 다양한 실험을 통해 우리의 방법이 저장 공간 요구량을 95% 이상 줄이면서도 여러 벤치마크와 기본 모델에서显著的한 성능 향상을 동시에 달성함을 입증했습니다. 따라서 ColParse는 다중 벡터 검색의 정교한 정확도와 대규모 배포의 실용적 요구 사이의 중요한 격차를 메꾸며, 효율적이고 해석 가능한 다중 모달 정보 시스템을 위한 새로운 길을 제시합니다.
최근 연구에 따르면 파운데이션 모델의 중간 계층이 최종 계층보다 더 우수한 판별 표현을 생성하는 것으로 관찰됩니다. 이 현상은 초기에는 자기회귀적 사전학습 때문인 것으로 여겨졌으나, 지도 학습 및 판별적 자기지도 목적 함수로 훈련된 모델에서도 확인되었습니다. 본 논문에서는 사전 학습된 비전 트랜스포머의 중간 계층 동작을 체계적으로 분석합니다. 다양한 이미지 분류 벤치마크를 대상으로 한 포괄적인 선형 탐사 실험을 통해, 사전 학습 데이터와 다운스트림 데이터 간의 분포 변화가 더 깊은 계층에서의 성능 저하 주요 원인임을 확인했습니다. 더 나아가 모듈 수준의 세분화된 분석을 수행한 결과, 트랜스포머 블록 출력에 대한 표준 탐사 방법이 최적이 아니라는 사실을 발견했습니다. 대신, 피드포워드 네트워크 내부 활성화를 탐사할 경우 분포 변화가 심한 환경에서 최고 성능을 보였으며, 다중 헤드 자기 주의 모듈의 정규화된 출력은 분포 변화가 미약할 때 가장 우수한 성능을 나타냈습니다.