번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM) 기반 에이전트를 활용한 자율 과학 발견 연구가 최근 상당한 진전을 보이며, 종단간 연구 워크플로우 자동화 능력을 입증하고 있습니다. 그러나 기존 시스템은 대부분 런타임 중심 실행 패러다임에 의존하여 온라인상의 방대한 과학 문헌을 반복적으로 읽고, 요약하고, 추론합니다. 이러한 즉석 계산 전략은 높은 계산 비용을 초래하고, 컨텍스트 윈도우의 한계에 직면하며, 종종 취약한 추론과 환각(hallucination)을 야기합니다. 본 연구에서는 문헌 이해를 온라인 추론에서 오프라인 지식 구축으로 전환하는 자율 과학 발견을 위한 사전 계산 주도 프레임워크인 Idea2Story를 제안합니다. Idea2Story는 동료 검토를 받은 논문과 그 검토 피드백을 지속적으로 수집하고, 핵심 방법론 단위를 추출하며, 재사용 가능한 연구 패턴을 구성하고, 이를 구조화된 방법론 지식 그래프로 체계화합니다. 런타임에는 사용자의 미지정 연구 의도가 확립된 연구 패러다임에 정렬되어, 개방형 생성과 시행착오 대신 고품질 연구 패턴의 효율적인 검색과 재사용이 가능해집니다. 연구 계획 및 실행을 사전 구축된 지식 그래프에 기반함으로써, Idea2Story는 LLM의 컨텍스트 윈도우 병목 현상을 완화하고 문헌에 대한 반복적인 런타임 추론을 크게 줄입니다. 우리는 Idea2Story가 일관성 있고 방법론적으로 근거 있으며 새로운 연구 패턴을 생성할 수 있으며, 종단간 환경에서 여러 고품질 연구 데모를 산출할 수 있음을 보여주는 정성적 분석과 예비 실증 연구를 수행했습니다. 이러한 결과는 오프라인 지식 구축이 신뢰할 수 있는 자율 과학 발견을 위한 실용적이고 확장 가능한 기반을 제공함을 시사합니다.
텍스트-이미지(T2I) 모델은 높은 정밀도의 이미지를 생성하는 데 있어 뛰어난 성과를 보여왔지만, 공간 인지, 추론 또는 상호작용과 같은 복잡한 공간 관계를 처리하는 데는 종종 실패합니다. 이러한 중요한 측면들은 기존 벤치마크의 짧고 정보가 희소한 프롬프트 설계로 인해 크게 간과되어 왔습니다. 본 논문에서는 T2I 모델의 공간 지능을 체계적으로 평가하기 위한 새로운 벤치마크인 SpatialGenEval을 소개합니다. 이는 두 가지 핵심 측면을 다룹니다: (1) SpatialGenEval은 25개의 실제 장면에 걸쳐 1,230개의 길고 정보가 밀집된 프롬프트를 포함합니다. 각 프롬프트는 객체 위치 및 레이아웃부터 오클루전 및 인과관계에 이르기까지 10개의 공간 하위 영역과 이에 상응하는 10개의 객관식 질문-답변 쌍을 통합합니다. 21개의 최첨단 모델에 대한 광범위한 평가 결과, 고차원적인 공간 추론이 여전히 주요 병목 현상임을 확인했습니다. (2) 정보 밀집 설계의 유용성이 단순한 평가를 넘어선다는 것을 입증하기 위해 SpatialT2I 데이터셋도 구축했습니다. 이 데이터셋은 정보 밀집도를 유지하면서 이미지 일관성을 보장하도록 재구성된 프롬프트가 포함된 15,400개의 텍스트-이미지 쌍을 담고 있습니다. 현재의 파운데이션 모델(즉, Stable Diffusion-XL, Uniworld-V1, OmniGen2)에 대한 미세 조정 결과, 일관된 성능 향상(+4.2%, +5.7%, +4.4%)과 공간 관계에서 더 현실적인 효과를 보여주며, T2I 모델에서 공간 지능을 달성하기 위한 데이터 중심 패러다임의 중요성을 강조합니다.
혼합 전문가(MoE) 아키텍처가 대규모 언어 모델의 희소성 확장을 위한 표준으로 자리 잡았지만, 점차 한계 수익 체감과 시스템 수준의 병목 현상에 직면하고 있습니다. 본 연구에서는 희소성 확장을 위한 강력하고 직교적인 차원으로 임베딩 확장을 탐구합니다. 포괄적인 분석과 실험을 통해 전문가 확장 대비 임베딩 확장이 더 우수한 파레토 최적을 달성하는 특정 영역을 규명합니다. 매개변수 예산 책정부터 모델 너비 및 깊이와의 상호작용에 이르기까지, 이러한 효과를 지배하는 중요한 아키텍처 요인들을 체계적으로 분석합니다. 더 나아가 맞춤형 시스템 최적화와 스펙훼티브 디코딩을 통합하여 이러한 희소성을 실제 추론 속도 향상으로 효과적으로 전환합니다. 이러한 통찰력을 바탕으로 약 30억 개의 활성화 매개변수를 가지며 처음부터 훈련된 685억 개 매개변수 규모의 LongCat-Flash-Lite 모델을 소개합니다. 300억 개 이상의 매개변수를 임베딩에 할당했음에도 불구하고, LongCat-Flash-Lite는 매개변수 규모가 동등한 MoE 기준 모델을 능가할 뿐만 아니라, 특히 에이전트 및 코딩 영역에서 동급 규모의 기존 모델들과 비교해도 탁월한 경쟁력을 보여줍니다.
동적 객체 조작은 Vision-Language-Action(VLA) 모델에게 여전히 해결 과제로 남아 있습니다. 정적 조작에서는 강력한 일반화 성능을 보이는 반면, 빠른 인지, 시간적 예측, 지속적 제어가 필요한 동적 시나리오에서는 어려움을 겪기 때문입니다. 본 연구에서는 시간적 추론과 폐루프 적응을 통합한 동적 객체 조작 프레임워크인 DynamicVLA를 제시합니다. 이는 세 가지 핵심 설계로 구성됩니다: 1) 공간 효율적이고 구조적 정확도가 높은 인코딩을 위한 합성곱 비전 인코더를 사용한 간소화된 0.4B 규모 VLA로, 빠른 다중 모드 추론을 가능하게 함, 2) 지연 시간을 낮추고 객체 운동에 대한 적시 적응을 위해 추론과 실행을 중첩시키는 연속 추론(Continuous Inference), 3) 인지-실행 간격을 해소하고 시간적으로 정렬된 액션 실행을 보장하는 잠재 인식 액션 스트리밍(Latent-aware Action Streaming)입니다. 또한 동적 조작 데이터 기반의 부재를 해결하기 위해 자동 데이터 수집 파이프라인으로 처음부터 구축한 Dynamic Object Manipulation(DOM) 벤치마크를 소개합니다. 이 파이프라인은 2.8K 개의 장면과 206 개의 객체에 걸쳐 200K 개의 합성 에피소드를 효율적으로 수집하며, 원격 조작 없이 2K 개의 실제 에피소드를 빠르게 수집할 수 있게 합니다. 폭넓은 평가를 통해 응답 속도, 인지, 일반화 측면에서 현저한 향상을 입증하며, DynamicVLA를 다양한 구현체를 아우르는 통합 동적 객체 조작 프레임워크로 자리매김합니다.
대규모 시각 언어 모델의 발전은 방대한 양의 다중모드 데이터 관리 및 적용에 대한 수요를 촉진하며, 시각 이미지에서 정보를 추출하는 OCR 기술의 중요성을 더욱 부각시키고 있습니다. 그러나 기존 OCR 방법은 주로 이미지나 스캔 문서에서 텍스트 요소를 인식(텍스트 중심 OCR)하는 데 집중하고, 차트, 웹 페이지, 과학 플롯 등과 같이 시각적 정보가 밀집된 이미지 소스에서 시각 요소를 식별(비전 중심 OCR)하는 것을 간과해 왔습니다. 실제로 이러한 시각적 정보 밀집 이미지는 인터넷에 광범위하게 분포하며 데이터 시각화 및 웹 페이지 분석 등 상당한 실용적 가치를 지닙니다. 본 기술 보고서에서는 텍스트 중심 OCR과 비전 중심 OCR을 통합한 최초의 엔드투엔드 방식의 종합적 OCR 방법론인 OCRVerse를 제안합니다. 이를 위해 신문, 잡지, 서적 등 다양한 텍스트 중심 문서와 차트, 웹 페이지, 과학 플롯을 포함한 비전 중심 렌더링 합성물을 포괄하는 종합적인 데이터 엔지니어링을 구축하였습니다. 더불어 OCRVerse를 위한 2단계 SFT-RL 다중 도메인 학습 방법을 제시합니다. SFT는 교차 도메인 데이터를 직접 혼합하여 초기 도메인 지식을 구축하는 반면, RL은 각 도메인의 특성에 맞춰 개인화된 보상 전략 설계에 중점을 둡니다. 구체적으로, 서로 다른 도메인은 다양한 출력 형식과 기대 출력을 요구하므로 RL 단계에서 충분한 유연성을 제공하여 각 도메인에 맞는 적응형 보상 신호를定制함으로써 교차 도메인 융합을 개선하고 데이터 충돌을 방지합니다. 실험 결과 OCRVerse의 효과성이 입증되었으며, 텍스트 중심 및 비전 중심 데이터 유형 전반에 걸쳐 경쟁력 있는 성능을 달성하여 대규모 오픈소스 및 클로즈드소스 모델과 견줄 만한 결과를 보여주었습니다.
비전 언어 모델(VLM)의 최근 발전은 시각적 추론 분야에서 상당한 진전을 이끌어왔습니다. 그러나 오픈소스 VLM은 여전히 독점 시스템에 뒤처져 있는데, 이는 주로 고품질 추론 데이터의 부족 때문입니다. 기존 데이터셋은 STEM 다이어그램이나 시각적 퍼즐과 같은 도전적인 영역의 Coverage가 제한적이며, 강력한 추론 능력을 이끌어내는 데 필수적인 일관된 장문의 사고 연쇄(CoT) 주해를 제공하지 못합니다. 이러한 격차를 해소하기 위해 우리는 Qwen3-VL-235B-A22B-Thinking에서 추출한 고품질 추론 주해를 특징으로 하는 180만 개 샘플과 51억 개의 솔루션 토큰으로 구성된 대규모 멀티모달 추론 데이터셋인 MMFineReason을 소개합니다. 이 데이터셋은 체계적인 3단계 파이프라인을 통해 구축되었습니다: (1) 대규모 데이터 수집 및 표준화, (2) CoT 근거 생성, (3) 추론 품질 및 난이도 인식 기반의 포괄적 선택. 결과적으로 생성된 데이터셋은 STEM 문제, 시각적 퍼즐, 게임, 복잡한 다이어그램 등을 아우르며, 각 샘플은 시각적으로 근거가 명시된 추론 흔적(Reasoning Trace)으로 주해가 달려 있습니다. 우리는 MMFineReason 데이터셋으로 Qwen3-VL-Instruct를 미세 조정하여 MMFineReason-2B/4B/8B 버전을 개발했습니다. 우리 모델들은 해당 규모 등급에서 새로운 최첨단 성능을 기록했습니다. 특히, MMFineReason-4B는 Qwen3-VL-8B-Thinking를 성공적으로 능가했으며, MMFineReason-8B는 Qwen3-VL-30B-A3B-Thinking를 능가하고 Qwen3-VL-32B-Thinking에 근접하는 성능을 보여주어 놀라운 매개변수 효율성을 입증했습니다. 무엇보다도, 우리의 난이도 인식 필터링 전략을 통해 "적은 것이 더 많다"는 현상을 발견했습니다: 전체 데이터셋의 단 7%(12만 3천 개 샘플)에 해당하는 부분집합만으로도 전체 데이터셋과 비슷한 성능을 달성했습니다. 특히, 추론 중심 데이터 구성이 일반 능력까지 동시에 향상시키는 시너지 효과가 있음을 밝혔습니다.
대규모 언어 모델은 모든 토큰에 균일한 계산을 할당하여, 일부 시퀀스는 쉽게 예측 가능한 반면 다른 시퀀스는 깊은 추론이 필요하다는 점을 간과합니다. 본 연구에서는 의미론적으로 유사한 토큰을 개념 표현으로 동적으로 병합하여 암묵적인 토큰 수준 계산 할당을 수행하는 ConceptMoE를 소개합니다. 학습 가능한 청크 모듈은 토큰 간 유사성을 측정하여 최적의 경계를 식별하고, 계산 집약적인 개념 모델에 입력되기 전에 시퀀스를 목표 비율 R로 압축합니다. 중요한 것은 MoE 아키텍처가 통제된 평가를 가능하게 한다는 점입니다. 우리는 절약된 계산을 재할당하여 기준선의 활성화 FLOP(어텐션 맵 계산 제외) 및 전체 매개변수 수와 일치시킴으로써 순수한 아키텍처적 이점을 분리합니다. 이러한 조건에서 ConceptMoE는 언어 및 비전-언어 과제 전반에 걸쳐 표준 MoE를 지속적으로 능가하며, 언어 사전 학습에서 +0.9점, 장문 맥락 이해에서 +2.3점, 멀티모달 벤치마크에서 +0.6점을 달성했습니다. 레이어 루핑을 통한 지속적 학습 중 사전 학습된 MoE를 변환할 때는 향상폭이 +5.5점에 달하여 실용적인 적용 가능성을 입증했습니다. 성능 향상 외에도 ConceptMoE는 어텐션 계산을 최대 R^2배까지, KV 캐시를 R배까지 감소시킵니다. R=2일 때, 장문 시퀀스에서 프리필 속도 향상은 최대 175%, 디코딩 속도 향상은 최대 117%에 달하는 것으로 실증적으로 측정되었습니다. 최소한의 아키텍처 수정으로 기존 MoE에 직관적으로 통합될 수 있으며, 이는 적응형 개념 수준 처리가 대규모 언어 모델의 효과성과 효율성을 근본적으로 개선함을 보여줍니다.
단일 이미지 시퀀스의 실시간 재구성은 기존 방법들이 높은 품질의 렌더링이나 정확한 기하구조 중 한쪽만 중점적으로 개선하여 두 목표를 동시에 달성하기 어려운 과제로 남아있습니다. 본 논문에서는 PLANING을 소개합니다. 이는 명시적 기하 프리미티브와 신경 가우시안을 느슨하게 결합한 하이브리드 표현에 기반한 효율적인 온더플라이 재구성 프레임워크로, 기하구조와 외관을 분리된 방식으로 모델링할 수 있게 합니다. 이러한 분리 방식은 기하구조 업데이트와 외관 업데이트를 구분하는 온라인 초기화 및 최적화 전략을 지원하여, 구조적 중복을 현저히 줄인 안정적인 실시간 재구성을 가능하게 합니다. PLANING은 PGSR 대비 조밀 메쉬 Chamfer-L2를 18.52% 개선했으며, ARTDECO보다 PSNR 1.31dB 높은 성능을 보입니다. 또한 ScanNetV2 장면을 100초 미만으로 재구성하여 2D 가우시안 스플래팅보다 5배 이상 빠른 속도를 내면서도 장면별 오프라인 최적화의 품질에 필적합니다. 재구성 품질을 넘어, PLANING의 구조적 명확성과 계산 효율성은 대규모 장면 모델링 및 구현형 AI를 위한 시뮬레이션 지원 환경 구축과 같은 다양한 다운스트림 애플리케이션에 적합하게 만듭니다. 프로젝트 페이지: https://city-super.github.io/PLANING/
본 보고서에서는 두 가지 강력한 올인원 음성 인식 모델과 새로운 비자회귀 음성 강제 정렬 모델로 구성된 Qwen3-ASR 패밀리를 소개합니다. Qwen3-ASR-1.7B와 Qwen3-ASR-0.6B는 52개 언어 및 방언에 대한 언어 식별과 음성 인식을 지원하는 ASR 모델입니다. 두 모델 모두 대규모 음성 학습 데이터와 기반 모델 Qwen3-Omni의 뛰어난 오디오 이해 능력을 활용합니다. 오픈소스 벤치마크 점수에서는 ASR 모델 간 차이가 미미할 수 있으나 실제 시나리오에서는 품질 차이가 현저히 나타날 수 있으므로, 공개 벤치마크 외에도 포괄적인 내부 평가를 수행했습니다. 실험 결과, 1.7B 버전은 오픈소스 ASR 모델 중 SOTA 성능을 달성하며 최고의 상용 API와 경쟁력을 보인 반면, 0.6B 버전은 최고의 정확도-효율성 균형을 제공합니다. Qwen3-ASR-0.6B는 평균 TTFT 92ms까지 달성하고 동시 접속 128 기준 1초 만에 2000초 분량 음성을 변환할 수 있습니다. Qwen3-ForcedAligner-0.6B는 11개 언어에서 텍스트-음성 쌍을 정렬할 수 있는 LLM 기반 비자회귀 타임스탬프 예측 모델입니다. 타임스탬프 정확도 실험에서 제안 모델은 기존 최고 강제 정렬 모델 3개를 능가하며 효율성과 다양성에서 더 큰 이점을 보입니다. ASR 및 오디오 이해 분야의 커뮤니티 연구 가속화를 위해 본 모델들을 Apache 2.0 라이선스 하에 공개합니다.
대규모 언어 모델(LLM)이 자율 에이전트로 진화함에 따라 방대하고 동적인 콘텍스트 관리가 필수적으로 요구된다. 그러나 현재 벤치마크는 대부분 정적 상태로 남아 있으며, 비선형 추론 및 반복적 피드백과 같은 에이전트-환경 상호작용의 복잡성을 제대로 구현하지 못하는 수동적 정보 검색 과제에 의존하고 있다. 이를 해결하기 위해 우리는 측면 사고 퍼즐(Lateral Thinking Puzzles)을 기반으로 시뮬레이션 환경 롤아웃(rollout)을 통해 에이전트를 평가하는 AgentLongBench를 제안한다. 이 프레임워크는 지식 집약적 시나리오와 지름길(지식 비의존적) 시나리오 전반에 걸쳐 엄격한 상호작용 궤적을 생성한다. 최첨단 모델 및 메모리 시스템(32K~4M 토큰)을 이용한 실험 결과, 정적 검색에는 능숙하지만 워크플로우에 필수적인 동적 정보 통합에는 어려움을 겪는 중요한 취약점이 드러났다. 우리의 분석에 따르면, 이러한 성능 저하는 질의를 해결하는 데 필요한 최소 토큰 수에 기인한다. 이 요인은 대규모 도구 응답에 내재된 높은 정보 밀도가 장문 대화에서 흔히 나타나는 메모리 단편화보다 훨씬 더 큰 도전 과제가 되는 이유를 설명해 준다.
에이전트 강화 학습(Agentic RL)은 에이전트가 복잡한 추론과 도구 사용을 수행하도록 하는 데 주목할만한 성공을 거두었습니다. 그러나 대부분의 방법은 여전히 훈련을 위해 희소한 결과 기반 보상에 의존합니다. 이러한 피드백은 중간 추론 품질을 구분하지 못하여 최적이 아닌 훈련 결과를 초래합니다. 본 논문에서는 에이전트 추론 보상 모델(Agent-RRM)을 소개합니다. 이는 (1) 명시적 추론 경로, (2) 추론 결함을 강조하여 정제 지침을 제공하는 집중 비판, (3) 과정 성능을 평가하는 전체 점수를 포함하여 에이전트 트랙젝토리에 대한 구조화된 피드백을 생성하는 다면적 보상 모델입니다. 이러한 신호를 활용하여 우리는 Reagent-C(텍스트 기반 정제), Reagent-R(보상 기반 지도), Reagent-U(통합 피드백 통합)라는 세 가지 통합 전략을 체계적으로 조사합니다. 다양한 12개 벤치마크에 걸친 포괄적인 평가를 통해 Reagent-U가 GAIA에서 43.7%, WebWalkerQA에서 46.2%를 달성하며 상당한 성능 도약을 가져옴을 입증하여, 우리의 추론 보상 모델과 훈련 방식의 효과성을 검증했습니다. 향후 연구를 위해 코드, 모델 및 데이터셋을 모두 공개합니다.
장편 비디오 생성 분야의 최근 연구는 양방향 모델에서 자기회귀 모델로 전환되고 있으나, 이러한 방법들은 일반적으로 오류 누적 및 장기적 일관성 상실 문제를 겪고 있습니다. 성능 저하를 완화하기 위해 어텐션 싱크 프레임이 도입되었지만, 이는 종종 '싱크 붕괴(sink-collapse)'라고 명명한 심각한 오류 모드를 유발합니다. 즉 생성된 콘텐츠가 반복적으로 싱크 프레임으로 되돌아가 갑작스러운 장면 재설정과 순환적 운동 패턴을 초래합니다. 우리의 분석에 따르면 싱크 붕괴는 현재 생성 모델에서 널리 사용되는 Rotary Position Embedding(RoPE)의 주기적 구조와 다중 헤드 어텐션 메커니즘 간의 본질적 충돌에서 비롯됩니다. 이를 해결하기 위해 우리는 다중 헤드 RoPE 지터를 도입하여 헤드 간 어텐션 동질화를 깨고 장기적 붕괴를 완화하는 경량의 학습 불필요 방식을 제안합니다. 폭넓은 실험을 통해 우리의 방법이 생성 품질을 유지하면서 싱크 붕괴를 효과적으로 억제함을 입증했습니다. 우리가 알고 있는 바에 따르면, 본 연구는 품질 저하 없이 실시간, 스트리밍, 무한 길이 비디오 생성을 최초로 구현한 사례입니다. 이러한 강건성을 입증하기 위해 우리는 최대 12시간 길이의 연속 비디오를 생성했으며, 이는 공개된 스트리밍 비디오 생성 결과물 중 가장 긴 사례에 해당합니다.
뇌전도(EEG) 기반 모델은 대규모 이기록 데이터로부터 전이 가능한 신경 표현을 학습하려는 목적으로 뇌-컴퓨터 인터페이스(BCI) 분야에서 최근 주목받는 패러다임으로 부상했습니다. 급속한 발전에도 불구하고, 사전 훈련 목표, 전처리 방법, 하류 작업 평가 프로토콜의 불일치로 인해 기존 EEG 기반 모델에 대한 공정하고 포괄적인 비교 연구가 부족한 실정입니다. 본 논문은 이러한 격차를 메꾸고자 합니다. 먼저 50개의 대표 모델을 검토하여 데이터 표준화, 모델 구조, 자기 지도 사전 훈련 전략 등 설계 선택 사항을 통합 분류 체계로 정리합니다. 이후 12개의 오픈소스 기반 모델과 경쟁력 있는 전문 모델 베이스라인을 9가지 BCI 패러다임에 걸친 13개 EEG 데이터셋에서 평가합니다. 실제 적용 환경을 고려하여 대상자 한 명을 제외한 교차 검증 프로토콜 하의 교차 대상자 일반화 성능과 대상자 내 소수 샘플 설정 하의 신속 적응 성능을 모두 검토합니다. 더 나아가 전역 매개변수 미세 조정과 선형 탐사법을 비교하여 사전 훈련된 표현의 전이 가능성을 평가하고, 모델 규모와 하류 작업 성능 간의 상관관계를 분석합니다. 실험 결과에 따르면: 1) 선형 탐사법만으로는 종종 불충분하며, 2) 처음부터 훈련된 전문 모델이 다양한 과제에서 여전히 경쟁력을 보이며, 3) 현재 데이터 규모와 훈련 방식 하에서는 더 큰 기반 모델이 반드시 더 나은 일반화 성능을 보장하지 않습니다.
대규모 언어 모델(LLM)은 언어 기반 에이전트 작업에서 뛰어난 성능을 보이지만, 본격적으로 접해보지 않은 비언어적 환경(예: 기호 또는 공간 작업)에의 적용 가능성은 여전히 제한적입니다. 선행 연구는 이러한 성능 격차가 사전 훈련 분포와 테스트 분포 간의 불일치에서 비롯된다고 설명합니다. 본 연구에서는 주요 병목 현상이 탐색의 과도한 비용에 있음을 입증합니다. 이러한 작업을 숙달하려면 방대한 시행착오가 필요하지만, 이는 고차원 의미 공간에서 동작하는 매개변수가 많은 LLM에게는 계산적으로 지속 불가능합니다. 이를 해결하기 위해 우리는 탐색과 활용을 분리하는 새로운 프레임워크인 SCOUT(Sub-Scale Collaboration On Unseen Tasks)를 제안합니다. 경량 "스카우트"(예: 소형 MLP)를 활용하여 LLM을 훨씬 능가하는 속도와 규모로 환경 역학을 탐사합니다. 수집된 궤적은 지도 미세 조정(SFT)을 통해 LLM의 성능을 빠르게 향상시키는 데 활용되며, 이후 다중 턴 강화 학습(RL)을 통해 LLM의 잠재된 세계 지식을 활성화합니다. 실험적으로 SCOUT는 Qwen2.5-3B-Instruct 모델이 평균 점수 0.86을 달성하여 Gemini-2.5-Pro(0.60)를 포함한 독점 모델들을 크게 능가하면서도 GPU 사용 시간을 약 60% 절약할 수 있게 합니다.
공개 저장소에는 수백만 개의 미세 조정 모델이 호스팅되지만, 커뮤니티 사용은 여전히 소수의 기초 체크포인트에 지나치게 집중되어 있습니다. 본 연구는 이러한 집중 현상이 효율적인 시장 선택을 반영하는지, 아니면 우수한 모델이 체계적으로 간과되고 있는지를 조사합니다. 2,000개 이상의 모델에 대한 광범위한 평가를 통해, 우리는 인기 있는 모델을 크게 능가하는 인기 없는 미세 조정 모델인 '숨겨진 보석'이 흔히 존재함을 보여줍니다. 특히 Llama-3.1-8B 모델군 내에서 추론 비용을 증가시키지 않으면서 수학 성능을 83.2%에서 96.0%로 향상시키는 드물게 다운로드되는 체크포인트를 발견했습니다. 그러나 업로드된 모든 모델을 일일이 평가하는 방식으로 이러한 모델을 발견하는 것은 계산상 불가능합니다. 따라서 우리는 모델 발견 문제를 다중 슬롯 머신 문제로 공식화하고, 공통 질의 집합 사용과 공격적인 제거 일정을 통해 순차적 반감 검색 알고리즘의 속도를 향상시킵니다. 우리의 방법은 후보 모델당 최소 50회의 질의만으로 상위 모델을 검색하며, 발견 속도를 50배 이상 가속합니다.
언어 모델에서 원치 않는 역량을 줄이기 위한 현재의 접근법은 대부분 사후적 조치에 그쳐, 악의적 행위자에 의해 쉽게 우회될 수 있습니다. 자연스러운 대안은 사전 학습 단계 자체에서 역량을 형성하는 것입니다. 의료 역량 제거라는 대리 과제를 통해, 사전 학습 데이터를 필터링하는 간단한 개입이 대규모로 매우 효과적이고 견고하며 비용 효율적임을 보여줍니다. 데이터 귀속 분석 연구에서 영감을 받아, 문서 전체를 필터링하는 것보다 토큰을 필터링하는 것이 유사한 수준의 원치 않는 역량 감소 효과를 유지하면서 정상 역량에 대한 손실을 더 낮출 수 있음을 입증합니다. 두 개의 크기 차수를 아우르는 모델을 학습시킨 결과, 필터링의 효과는 모델 규모가 커질수록 증가함을 확인했습니다. 가장 큰 모델의 경우, 토큰 필터링을 통해 제거 대상 영역에서의 계산 속도가 7000배 느려졌습니다. 또한 토큰 필터링으로 학습된 모델도 제거 대상 영역에서 정렬이 가능함을 보여줍니다. 이 과정에서 희소 오토인코더를 이용한 토큰 라벨링 방법론과 저비용 고품질 분류기의 지식을 추출하는 방법을 소개합니다. 더불어 충분한 사전 학습 계산 자원이 주어지면 필터링이 노이즈가 있는 라벨에 대해서도 견고함을 발휘할 수 있음을 입증합니다.
사람의 피드백을 통한 학습은 일반적으로 토큰 수준 정규화를 통해 정책 업데이트를 제한하는 선호도 최적화에 의존합니다. 그러나 언어 모델의 선호도 최적화는 토큰 공간 유사성이 의미론적 또는 행동 유사성을 보장하지 않기 때문에 특히 어려운 과제입니다. 이러한 문제를 해결하기 위해 우리는 언어 모델 선호도 최적화를 위한 잠재 공간 정규화를 활용합니다. 우리는 정책 모델과 참조 모델의 내부 표현 간 차이를 패널티로 부과하여 잠재 공간 정규화를 달성하는 GANPO를 제안합니다. 잠재 표현이 명시적 확률 밀도와 연관되지 않는다는 점을 고려하여, 우리는 GAN에서 영감을 받은 적대적 접근법을 채택하여 잠재 공간 차이를 최소화합니다. GANPO를 기존 오프라인 선호도 최적화 목표에 정규화 항으로 통합합니다. 다양한 모델 아키텍처와 작업에 대한 실험 결과, 잠재 공간 정규화를 통해 지속적인 성능 향상을 확인했습니다. 또한 GANPO에 의해 유도된 추론 편향과 토큰 수준 정규화의 편향을 비교한 결과, GANPO가 분포 변화와 노이즈 하에서 더 강건한 구조적 피드백을 제공하며, 하위 작업 성능은 비슷한 수준을 유지하면서 계산 오버헤드는 미미한 것으로 나타났습니다.
강화학습(RL) 후속 학습은 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 주요 접근법이지만, 그 성능 향상이 새로운 능력의 획득보다는 분포 샤프닝에서 비롯된다는 증거가 점차 늘어나고 있습니다. 최근 연구에서는 마르코프 체인 몬테카를로(MCMC)를 사용하여 LLM의 거듭제곱 분포에서 샘플링하면 외부 보상에 의존하지 않고도 RL 후속 학습에 버금가는 성능을 회복할 수 있음이 입증되었습니다. 그러나 MCMC의 높은 계산 비용으로 인해 이러한 접근법이 널리 채택되기는 어렵습니다. 본 연구에서는 반복적인 MCMC 과정 없이도 이론적으로 타당한 대안을 제시합니다. 우리는 전역 거듭제곱 분포가 토큰 수준의 스케일링된 저온 분포로 근사될 수 있음을 보이는 새로운 공식을 도출했습니다. 여기서 스케일링 인자는 미래 궤적의 품질을 포착합니다. 이러한 통찰을 바탕으로, 기본 모델의 생성 분포를 자기회귀적으로 샤프닝하는 학습 불필요 및 검증기 불필요 알고리즘을 소개합니다. 실험적으로 수학, 질의응답, 코드 작업에 대해 4가지 LLM을 대상으로 본 방법을 평가한 결과, 외부 보상에 전혀 의존하지 않으면서 원샷 GRPO를 능가하거나 그에 버금가는 성능을 달성했으며, MCMC 기반 샘플링 대비 추론 지연 시간을 10배 이상 단축시켰습니다.
대규모 언어 모델(LLM)의 발전 속도는 빠르지만, 대부분의 최첨단 모델은 영어 및 중국어와 같은 고자원 언어를 중심으로 훈련 및 평가되며, 대규모 컴퓨팅 자원과 데이터에 접근할 수 있는 소수 기관에 의해 개발되는 경우가 많습니다. 이러한 진입 장벽은 제한된 자원과 엄격한 투명성 제약 조건 하에서 운영되면서도 지역 또는 국가 규모의 기관이나 도메인 소유자가 모델 가중치, 훈련 데이터, 배포에 대한 통제력과 이해를 유지해야 하는 주권적 환경에서 실질적인 장애물로 작용합니다. 이를 위해 우리는 두 가지 핵심 요구 사항을 확인했습니다: (1) 기본 모델을 일반 목적의 어시스턴트로 변환하는 능력인 도입 가능성(adoptability), 그리고 (2) 현지 언어의 법률 추론 및 문화적 지식과 같이 위험도가 높고 지역별로 특화된 작업을 수행하는 능력인 주권적 역량(sovereign capability). 우리는 이러한 요구 사항이 대규모 명령어 코퍼스의 확장이나 복잡한 선호도 튜닝 파이프라인 및 대규모 강화 미세조정(RFT)에 의존하지 않고도 달성될 수 있는지 조사합니다. 우리는 지도 미세조정, 온-정책 지식 증류, 소규모 RFT를 결합한 최소화되고 개방된 사후 훈련 방법론인 Typhoon S를 제시합니다. 대표 사례 연구로 태국어를 사용하여, 우리의 접근 방식이 주권에 적응된 기본 모델과 일반 목적 기본 모델 모두을 강력한 일반 성능을 가진 명령어 튜닝 모델로 변환함을 입증합니다. 또한, GRPO 손실에 다음 단어 예측 손실을 추가한 InK-GRPO를 이용한 소규모 RFT가 일반 능력을 보존하면서 태국어 법률 추론 및 태국 특화 지식 성능을 향상시킴을 보여줍니다. 우리의 결과는 신중하게 설계된 사후 훈련 전략이 필요한 명령어 데이터와 컴퓨팅의 규모를 줄여, 학술 수준의 자원으로 고품질 주권 LLM을 구현하는 실용적인 경로를 제공할 수 있음을 시사합니다.
사이버보안 분야 최초의 오픈소스 네이티브 추론 모델인 Foundation-Sec-8B-Reasoning을 소개합니다. 이 모델은 이전에 공개한 Foundation-Sec-8B 베이스 모델(Llama-3.1-8B-Base 기반)을 토대로, 지도 미세조정(SFT)과 검증 가능한 보상 강화학습(RLVR)을 결합한 2단계 학습 과정을 통해 훈련되었습니다. 학습에는 사이버보안 분석, 지시 따르기, 수학적 추론을 아우르는 독점 추론 데이터가 활용되었습니다. 10개의 사이버보안 벤치마크와 10개의 일반 목적 벤치마크에서의 평가 결과, 본 모델은 사이버보안 작업에서 훨씬 더 큰 모델들과 경쟁력 있는 성능을 보이면서도 강력한 일반 능력을 유지하는 것으로 나타났습니다. 해당 모델은 다중 논리 추론 작업에서 효과적인 일반화 성능을 보였으며, 적절한 시스템 프롬프트와 가드레일을 적용했을 때 뛰어난 안전성 성능을 나타냈습니다. 본 연구는 도메인 특화 추론 모델이 전문 작업에서 강력한 성능을 달성하면서도 폭넓은 일반 능력을 유지할 수 있음을 입증합니다. 모델은 https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning 에서 공개합니다.
장문 맥락 추론은 대규모 언어 모델(LLM)이 복잡한 작업을 처리하는 능력을 크게 향상시켰지만, 계산 복잡도로 인해 심각한 효율성 병목 현상을 초래합니다. 기존의 효율적 접근법들은 복잡한 추가 학습이나 압축을 위한 외부 모델에 의존하는 경우가 많아 확장성을 제한하고 중요한 세부 정보를 누락시키곤 합니다. 본 논문에서는 시각-텍스트 압축을 추론 과정에 통합한 새로운 효율적 추론 패러다임인 VTC-R1을 제안합니다. VTC-R1은 긴 텍스트 추적 기록을 처리하는 대신, 중간 추론 세그먼트를 간결한 이미지로 렌더링하여 이를 "광학 메모리"로 비전-언어 모델에 반복적으로 피드백합니다. 우리는 OpenR1-Math-220K를 기반으로 3.4배의 토큰 압축률을 달성하는 학습 데이터셋을 구축하고 대표적인 VLM인 Glyph와 Qwen3-VL을 미세 조정했습니다. MATH500, AIME25, AMC23, GPQA-D와 같은 벤치마크에서의 광범위한 실험을 통해 VTC-R1이 표준 장문 맥락 추론을 지속적으로 능가함을 입증했습니다. 더불어, 본 접근법은 추론 효율성을 크게 개선하여 종단 간 지연 시간에서 2.7배의 속도 향상을 달성하며, 추론 집약적 애플리케이션을 위한 확장 가능한 솔루션으로서의 잠재력을 부각했습니다. 우리의 코드는 https://github.com/w-yibo/VTC-R1에서 확인할 수 있습니다.
다중모달 대규모 언어 모델(MLLMs)은 교차 모달 환각 현상으로 어려움을 겪는데, 이는 한 모달리티가 다른 모달리티에 대한 생성을 부적절하게 영향하여 허구적인 출력을 초래하는 문제입니다. 이는 모달리티 상호작용 제어의 보다 근본적인 결함을 드러냅니다. 이를 해결하기 위해 우리는 작업 요구사항에 따라 모달리티별 디코딩 분기를 적응적으로 가중치 부여하는 학습 불필요 방법인 Modality-Adaptive Decoding(MAD)을 제안합니다. MAD는 각 작업에 어떤 모달리티가 필요한지 자체 평가함으로써 모델의 내재된 모달리티 관련성 판단 능력을 활용합니다. 추출된 모달리티 확률은 대비 디코딩 분기에 적응적으로 가중치를 부여하는 데 사용되어, 모델이 관련 정보에 집중하면서 교차 모달 간섭을 억제할 수 있게 합니다. CMM과 AVHBench에서의 광범위한 실험을 통해 MAD가 여러 오디오-비주얼 언어 모델에서 교차 모달 환각을 현저히 감소시킴을 입증했습니다(VideoLLaMA2-AV에서 7.8% 및 2.0% 향상, Qwen2.5-Omni에서 8.7% 및 4.7% 향상). 우리의 접근법은 자체 평가를 통한 명시적 모달리티 인식이 강건한 다중모달 추론에 중요하며, 기존 대비 디코딩 방법에 원칙적인 확장을 제공함을 보여줍니다. 우리의 코드는 https://github.com/top-yun/MAD에서 이용 가능합니다.
현대적인 확산/흐름 기반 이미지 생성 모델은 일반적으로 두 가지 핵심 특성을 보입니다: (i) 다단계 샘플링 사용, (ii) 잠재 공간에서 운영. 최근 발전은 각 측면에서 개별적으로 고무적인 진전을 이루며, 잠재 공간 없이 한 단계로 이루어지는 확산/흐름 모델을 위한 길을 열었습니다. 본 연구에서는 이 목표에 한 걸음 더 나아가 "픽셀 평균 흐름"(pMF)을 제안합니다. 우리의 핵심 지침은 네트워크 출력 공간과 손실 공간을 별도로 구성하는 것입니다. 네트워크 목표는 가정된 저차원 이미지 매니폴드(즉, x-예측)에 위치하도록 설계된 반면, 손실은 속도 공간에서의 평균 흐름을 통해 정의됩니다. 우리는 이미지 매니폴드와 평균 속도장 사이의 간단한 변환을 도입합니다. 실험에서 pMF는 ImageNet에서 256x256 해상도(2.22 FID) 및 512x512 해상도(2.48 FID)의 한 단계 잠재 공간 무관 생성에서 강력한 결과를 달성하여, 이 영역에서 부족했던 핵심 부분을 채웁니다. 우리의 연구가 확산/흐름 기반 생성 모델의 경계를 더욱 발전시키길 바랍니다.
대규모 언어 모델 생성의 안전성, 사실성 및 전반적인 품질 보장은 특히 이러한 모델이 실제 애플리케이션에 점점 더 많이 배포됨에 따라 중요한 과제입니다. 이러한 문제를 해결하기 위한 주요 접근법은 비용이 많이 들고 신중하게 선별된 데이터셋을 수집하고 여러 단계의 미세 조정 및 정렬을 적용하는 것을 포함합니다. 그러나 이러한 복잡한 파이프라인 조차도 사전 학습 중 습득된 패턴의 교정을 보장할 수 없습니다. 따라서 모델의 핵심 행동을 형성하고 안전하지 않거나 허구적인 출력이 깊게 내재되는 것을 방지하기 위해 사전 학습 단계에서 이러한 문제를 해결하는 것이 중요합니다. 이 문제를 해결하기 위해 우리는 문서를 스트리밍하고 각 단계에서 생성될 다음 K개의 토큰을 개선하기 위해 강화 학습(RL)을 사용하는 새로운 사전 학습 방법을 소개합니다. 사후 학습된 강력한 모델이 품질, 안전성 및 사실성 측면에서 후보 생성물(모델 롤아웃, 원본 접미사, 재작성된 접미사 포함)을 판단합니다. 학습 초기에는 원본 및 재작성된 접미사에 의존하지만, 모델이 개선됨에 따라 RL은 고품질 롤아웃을 보상합니다. 이 접근법은 근본적으로 더 높은 품질, 더 안전하고 더 사실적인 모델을 구축합니다. 실험에서 우리의 방법은 사실성과 안전성 측면에서 표준 사전 학습 대비 각각 36.2%, 18.5%의 상대적 개선을 보였으며, 전반적 생성 품질에서 최대 86.3%의 승률 향상을 나타냈습니다.
DeepSearchQA를 소개합니다. 이는 17개 분야에 걸쳐 복잡한 다단계 정보 탐색 작업을 수행하는 에이전트를 평가하기 위한 900개 프롬프트 벤치마크입니다. 단일 답변 검색이나 광범위 사실성 평가를 목표로 하는 기존 벤치마크와 달리, DeepSearchQA는 포괄적인 답변 목록을 생성하기 위해 복잡한 검색 계획을 실행하는 에이전트의 능력을 평가하도록 설계된 난이도 높은 수작업 작업 데이터셋을 특징으로 합니다. 이러한 설계 변화는 다음 세 가지 중요하지만 제대로 평가되지 않은 능력을 명시적으로 테스트합니다: 1) 다양한 출처의 분할된 정보를 체계적으로 수집하는 능력, 2) 정확성을 보장하기 위한 중복 제거 및 개체 결합, 3) 개방형 검색 공간 내에서 중단 기준에 대해 추론하는 능력. 각 작업은 인과 관계 체인으로 구조화되어 있어, 한 단계의 정보 발견이 이전 단계의 성공적 완료에 의존하여 장기 계획 수립과 맥락 유지 능력을 강조합니다. 모든 작업은 객관적으로 검증 가능한 답변 집합을 바탕으로 오픈 웹에 기반을 두고 있습니다. 최첨단 에이전트 아키텍처에 대한 포괄적 평가 결과, 상당한 성능 한계가 드러났습니다: 가장 발전된 모델조차 높은 재현율과 정밀도 사이의 균형을 맞추는 데 어려움을 겪었습니다. 우리는 조기 중단(저조한 검색)부터 회피 행동(재현율을 인위적으로 높이기 위해 신뢰도 낮은 답변을 지나치게 광범위하게 제시하는 현상)에 이르는 뚜렷한 실패 모드를 관찰했습니다. 이러한 결과는 현재 에이전트 설계의 중요한 개선 여지를 강조하며, DeepSearchQA를 보다 강력한 심층 연구 능력을 위한 미래 연구를 주도하는 필수 진단 도구로 위치시킵니다.
효율적이고 밀집된 사고 연쇄(CoT) 추론을 목표로 하는 잠재 추론 방법은 대규모 언어 모델(LLM)을 미세 조정하여 이산적인 언어 토큰을 연속적인 잠재 토큰으로 대체합니다. 이러한 방법은 기존 언어 CoT 추론에 비해 더 적은 토큰을 소비하며 밀집된 잠재 공간에서 계획을 수립할 잠재력을 가지고 있습니다. 그러나 현재 잠재 토큰은 일반적으로 언어 레이블 모방을 기반으로 지도 학습됩니다. 하나의 질문에 대해 동등하지만 다양할 수 있는 여러 CoT 레이블이 존재할 수 있다는 점을 고려할 때, 특정 레이블을 수동적으로 모방하는 것은 열등한 잠재 토큰 표현과 잠재 추론 정책을 초래하여 잠재적인 계획 수립 능력을 저해하고 훈련과 테스트 간에 명확한 격차를 만들어낼 수 있습니다. 본 연구에서는 최적의 잠재 추론 정책을 달성하기 위해 잠재 토큰의 표현 공간을 통한 능동적 계획 수립의 중요성을 강조합니다. 따라서 우리는 더 매끄러운 잠재 공간을 얻기 위해 잠재 토큰의 지도 학습 과정을 조건부 변분 자동인코더(VAE)로 모델링하는 능동적 잠재 계획(ATP-Latent) 방법을 제안합니다. 더 나아가 가장 합리적인 잠재 추론 정책을 촉진하기 위해 ATP-Latent는 보조 일관성 보상과 함께 강화 학습(RL)을 수행합니다. 이 보상은 잠재 토큰의 VAE 디코딩 내용 간 일관성을 기반으로 계산되어 지도된 RL 과정을 가능하게 합니다. LLaMA-1B에 대한 실험에서 ATP-Latent는 선행 베이스라인 대비 4개 벤치마크에서 +4.1%의 정확도와 -3.3%의 토큰 사용량을 보여주었습니다. 코드는 https://github.com/zz1358m/ATP-Latent-master에서 확인할 수 있습니다.
소프트맥스 어텐션 블록과 순환 신경망(RNN)을 결합한 하이브리드 트랜스포머 아키텍처는 장문 컨텍스트 모델링에서 바람직한 성능-처리량 균형을 보여주지만, 대규모 사전 학습에 따른 막대한 비용으로 인해 실제 적용과 연구가 제한되고 있습니다. 최근 연구에 따르면 사전 학습된 소프트맥스 어텐션 블록을 매개변수 이전과 지식 증류를 통해 RNN 블록으로 변환할 수 있음이 입증되었습니다. 그러나 이러한 변환 방법은 상당한 양의 학습 데이터(100억 토큰 이상)를 필요로 할 뿐만 아니라, 결과적인 하이브리드 모델은 하이브리드 모델이 트랜스포머 기반 모델 대비 추론 속도 향상의 이점을 가장 크게 누리는 시나리오인 장문 컨텍스트 성능이 저조한 문제가 있습니다. 본 논문에서는 트랜스포머 모델을 RNN-어텐션 하이브리드 모델로 증류하는 파이프라인인 HALO(Hybrid Attention via Layer Optimization)를 소개합니다. 또한 새로운 위치 인코딩 기법(HyPE)과 다양한 아키텍처 개선을 통해 우수한 길이 일반화 성능을 갖춘 하이브리드 아키텍처인 HypeNet을 제시합니다. HALO를 사용하여 Qwen3 시리즈를 HypeNet으로 변환한 결과, 원본 트랜스포머 모델과 비슷한 성능을 유지하면서도 우수한 장문 컨텍스트 성능과 효율성을 확보했습니다. 이 변환 과정에는 사전 학습 데이터의 0.01% 미만에 해당하는 23억 토큰만으로도 충분했습니다.
감독 학습 훈련 데이터의 한계로 인해 대규모 언어 모델(LLM)은 일반적으로 방대한 양의 비정형 텍스트 데이터에 대해 자기 감독 방식의 "다음 단어 예측" 목표를 통해 사전 훈련됩니다. 결과 모델을 사용자에게 유용하게 만들기 위해, 지시와 응답으로 구성된 감독 학습 예제인 훨씬 적은 양의 "지시 튜닝" 데이터를 추가로 학습합니다. 감독 데이터의 부족을 극복하기 위해, 우리는 인터넷 규모의 사전 훈련 문서에 있는 지식을 수십억 개의 합성 지시 및 응답 훈련 쌍으로 변환하는 절차를 제안합니다. 그 결과 생성된 FineInstructions라는 데이터셋은 실제 사용자가 작성한 쿼리와 프롬프트로부터 생성된 약 1,800만 개의 지시 템플릿을 사용합니다. 이러한 지시 템플릿은 비정형 사전 훈련 코퍼스의 인간이 작성한 소스 문서와 매칭되어 구체적인 내용으로 채워집니다. 이러한 규모로 생성된 "감독" 합성 훈련 데이터를 통해, LLM은 지시 튜닝 목표만으로 처음부터 사전 훈련될 수 있으며, 이는 LLM의 예상 다운스트림 사용(사용자 프롬프트에 응답)과 분포 상 훨씬 더 일치합니다. 우리는 토큰 수준에서 통제된 훈련 실험을 수행했으며, FineInstructions를 이용한 사전 훈련이 자유 형식 응답 품질을 측정하는 표준 벤치마크에서 표준 사전 훈련 및 다른 제안된 합성 사전 훈련 기법들을 능가함을 확인했습니다. 우리의 리소스는 https://huggingface.co/fineinstructions 에서 확인할 수 있습니다.
신경망에서 하이퍼 커넥션(HC)의 성공은 훈련 불안정성과 제한된 확장성과 관련된 문제점도 부각시켰다. 다양체 제약 하이퍼 커넥션(mHC)은 잔차 연결 공간을 Birkhoff 다면체에 투영하여 이러한 문제를 완화하지만, 두 가지 문제에 직면한다: 1) 반복적 Sinkhorn-Knopp(SK) 알고리즘이 항상 정확한 이중 확률적 잔차 행렬을 생성하지는 않음; 2) mHC는 잔차 스트림의 너비를 n, 특징 차원을 C로 할 때 파라미터 복잡도 O(n^3C)로 과도한 비용이 발생함. 최근 제안된 mHC-lite는 Birkhoff-von-Neumann 정리를 통해 잔차 행렬을 재매개변수화하여 이중 확률성을 보장하지만, 파라미터 복잡도 O(nC·n!)에서 계승적 폭발 문제에 직면한다. 이러한 두 가지 과제를 해결하기 위해 우리는 mHC의 잔차 행렬을 매개변수화하기 위해 더 작은 이중 확률 행렬들의 Kronecker 곱을 사용하는 KromHC를 제안한다. KromHC는 텐서화된 잔차 스트림의 각 모드를 따라 인수 잔차 행렬에 다양체 제약을 적용함으로써 잔차 행렬의 정확한 이중 확률성을 보장하면서 파라미터 복잡도를 O(n^2C)로 감소시킨다. 포괄적인 실험을 통해 KromHC가 최신 mHC 변형들과 동등하거나 더 나은 성능을 보이면서도 훨씬 적은 수의 학습 가능한 파라미터를 요구함을 입증하였다. 코드는 https://github.com/wz1119/KromHC에서 이용 가능하다.
기계적 해석 가능성 연구에서 대규모 언어 모델의 해석 가능한 회로를 규명해왔지만, 이러한 회로의 훈련 데이터 내 인과적 기원은 여전히 밝혀지지 않았습니다. 우리는 영향 함수를 활용하여 해석 가능 단위를 특정 훈련 샘플로 추적하는 확장 가능한 프레임워크인 기계적 데이터 귀속(MDA)을 제안합니다. Pythia 모델군을 대상으로 한 광범위한 실험을 통해, 표적 중재(소수의 고영향력 샘플 제거 또는 증강)가 해석 가능한 헤드의 출현을 유의미하게 조절하는 반면 무작위 중재는 효과가 없음을 인과적으로 입증했습니다. 우리의 분석은 반복적 구조 데이터(예: LaTeX, XML)가 기계적 촉매 역할을 함을 보여줍니다. 더 나아가, 귀납 헤드 형성을 표적으로 한 중재가 모델의 문맥 학습 능력에 동반 변화를 유발함을 관찰했습니다. 이는 귀납 헤드와 문맥 학습 간 기능적 연결에 대한 오랜 가설에 대한 직접적인 인과적 증거를 제공합니다. 마지막으로, 모델 규모에 걸쳐 회로 수렴을 일관되게 가속화하는 기계적 데이터 증강 파이프라인을 제안하며, 대규모 언어 모델의 발전 궤적을 조절하는 원칙적인 방법론을 제시합니다.
장기적인 상호작용을 수행하는 언어 모델 기반 에이전트는 시간적 근거 정보를 보존하고 세션 간 행동 일관성을 유지하는 데 지속적인 어려움을 겪으며, 우리는 이러한 실패 모드를 '소울 침식(soul erosion)'이라고 명명합니다. 본 논문에서는 BMAM(Brain-inspired Multi-Agent Memory)을 제안합니다. BMAM은 에이전트 메모리를 단일 비정형 저장소가 아닌 기능적으로 특화된 하위 시스템들의 집합으로 모델링하는 범용 메모리 아키텍처입니다. 인지 메모리 시스템에서 영감을 받은 BMAM은 메모리를 서로 보완적인 시간 규모에서 작동하는 서사적 기억, 의미 기억, 현저성 인식 기억, 제어 지향 기억 구성요소로 분해합니다. 장기 추론을 지원하기 위해 BMAM은 서사적 기억을 명시적 타임라인을 따라 구성하고 여러 보완적 신호를 융합하여 증거를 검색합니다. LoCoMo 벤치마크 실험 결과, BMAM은 표준 장기 평가 설정에서 78.45%의 정확도를 달성하였으며, ablation 분석을 통해 해마에서 영감을 받은 서사적 기억 하위 시스템이 시간적 추론에 중요한 역할을 함을 확인했습니다.
양자화는 대규모 언어 모델(LLM) 학습의 계산 및 메모리 효율을 크게 향상시켰습니다. 그러나 기존 접근법은 여전히 높은 정밀도에서 업데이트를 누적하는 방식에 의존합니다. 구체적으로, 그래디언트 업데이트는 마스터 가중치라고 알려진 높은 정밀도의 가중치 버퍼에 적용되어야 합니다. 이 버퍼는 특히 모델 매개변수와 옵티마이저 상태가 메모리 사용을 지배하는 희소 전문가 혼합(SMoE) 모델에서 상당한 메모리 오버헤드를 초래합니다. 이를 해결하기 위해 우리는 마스터 가중치를 제거하고 업데이트를 양자화된 매개변수에 직접 적용하는 오차 보정 옵티마이저(ECO)를 소개합니다. ECO는 각 단계 후 가중치를 양자화하고 발생한 양자화 오차를 옵티마이저 모멘텀에 신중하게 주입하여 추가 메모리 없이 오차 피드백 루프를 형성합니다. 우리는 표준 가정과 감소하는 학습률 하에서 ECO가 최적점의 일정 반경 내 근방으로 수렴함을 증명하는 반면, 단순한 마스터 가중치 제거는 학습률에 반비례하는 오차를 초래할 수 있음을 보입니다. 우리는 FP8 양자화를 적용한 소형 Transformer(30-800M), Gemma-3 1B 모델, 2.1B 매개변수 희소 MoE 모델의 사전 학습과 INT4 정밀도의 DeepSeek-MoE-16B 미세 조정에 대한 실험 결과를 제시합니다. 전반적으로 ECO는 무손실 정확도에 근접한 수준까지 마스터 가중치를 사용한 기준 모델과 성능을 일치시키며, 정적 메모리 대 검증 손실 파레토 프론티어를 크게 개선합니다.
스케일링은 최근 비전 파운데이션 모델의 발전을 주도해왔지만, 이 패러다임을 메트릭 깊이 추정으로 확장하는 것은 이질적인 센서 노이즈, 카메라 의존적 편향, 그리고 노이즈가 많은 교차 출처 3D 데이터 내의 메트릭 모호성으로 인해 여전히 어려운 과제로 남아 있습니다. 우리는 수동으로 설계된 프롬프트, 카메라 특화 모델링, 또는 작업 특화 아키텍처 없이도 노이즈가 많고 다양한 3D 출처로부터 메트릭 깊이를 학습하는 간단하고 확장 가능한 프리트레인 프레임워크인 Metric Anything을 소개합니다. 우리 접근법의 핵심은 깊이 맵을 무작위로 마스킹하여 생성되는 Sparse Metric Prompt로, 이는 공간 추론을 센서 및 카메라 편향으로부터 분리하는 범용 인터페이스 역할을 합니다. 약 10,000개 카메라 모델에 걸쳐 재구성, 촬영, 렌더링된 3D 데이터로 구성된 약 2천만 개의 이미지-깊이 쌍을 사용하여, 우리는 메트릭 깊이 트랙에서 명확한 스케일링 경향을 처음으로 입증합니다. 프리트레인된 모델은 깊이 완성, 초해상도, 레이더-카메라 융합과 같은 프롬프트 기반 작업에서 탁월한 성능을 보이는 동시에, 이를 통해 추출된 프롬프트 없는 학생 모델은 단안 깊이 추정, 카메라 내재 파라미터 복원, 단일/다중 뷰 메트릭 3D 재구성 및 VLA 계획에서 최첨단 결과를 달성합니다. 또한 Metric Anything의 프리트레인된 ViT를 시각 인코더로 사용하면 다중모달 대형 언어 모델의 공간 지능 능력이 크게 향상됨을 보여줍니다. 이러한 결과는 메트릭 깊이 추정이 현대 파운데이션 모델을 주도하는 것과 동일한 스케일링 법칙의 혜택을 받을 수 있음을 보여주며, 확장 가능하고 효율적인 실세계 메트릭 인식을 위한 새로운 경로를 제시합니다. 우리는 커뮤니티 연구를 지원하기 위해 MetricAnything을 http://metric-anything.github.io/metric-anything-io/ 에 공개합니다.
통합 멀티모달 모델(UMMs)은 시각적 이해와 생성을 단일 프레임워크 내에 통합합니다. 이들의 궁극적인 목표는 이해와 생성이 상호 강화되는 순환 구조를 만드는 것입니다. 최근 사후 훈련 방법론이 이해 능력을 활용해 생성 성능을 향상시키는 데 성공했으나, 생성 능력을 활용해 이해 능력을 개선하는 반대 방향의 연구는 여전히 미개척 분야로 남아 있습니다. 본 연구에서는 간단하면서도 효과적인 아키텍처 비의존적 사후 훈련 방법인 UniMRG(통합 다중 표현 생성)을 제안합니다. UniMRG는 보조 생성 작업을 도입하여 UMMs의 이해 능력을 향상시킵니다. 구체적으로 UMMs가 표준 시각 이해 목표와 함께 입력 이미지의 내재적 표현인 픽셀(재구성), 깊이(기하학), 분할(구조)을 생성하도록 훈련합니다. 이러한 다양한 표현을 종합함으로써 UMMs는 외관, 공간 관계, 구조적 배치에 관한 상호 보완적 정보를 포착합니다. 그 결과 UMMs는 시각 입력에 대해 더 깊고 포괄적인 이해를 발전시킵니다. 다양한 UMM 아키텍처에 대한 폭넓은 실험을 통해 본 방법이 세밀한 인식 성능을 현저히 향상시키고, 환각 현상을 줄이며, 공간 이해력을 개선하는 동시에 생성 능력도 함께 향상시킴을 입증했습니다.
우리는 효율적인 추론을 위한 주의 기반 방법론인 FROST를 제안한다. 기존 접근법과 달리 FROST는 주의 가중치를 활용하여 중요하지 않은 추론 경로를 제거함으로써 더 짧고 신뢰할 수 있는 추론 궤적을 생성한다. 방법론적으로 우리는 추론 이상치 개념을 도입하고 이를 제거하기 위한 주의 기반 메커니즘을 설계하였다. 이론적으로 FROST는 문장 수준에서 이상치를 제거하면서도 모델의 추론 능력을 보존하고 강화한다. 실험적으로 우리는 두 가지 강력한 추론 모델(Phi-4-Reasoning 및 GPT-OSS-20B)을 사용하여 4개 벤치마크에서 FROST를 검증하였으며, TALE 및 ThinkLess와 같은 최신 방법론들을 능가하는 성능을 확인하였다. 특히 FROST는 기본 모델 대비 토큰 사용량을 평균 69.68% 절감하고 정확도를 26.70% 향상시켰다. 더 나아가 주의 이상치 지표 평가에서 FROST는 기본 모델 대비 최대 무한대 노름을 15.97% 감소시키고 평균 첨도를 91.09% 개선하였다. 코드는 https://github.com/robinzixuan/FROST에서 확인할 수 있다.
오디오와 시각 콘텐츠를 함께 생성하도록 사전 학습된 오디오-비주얼 파운데이션 모델은 최근 멀티모달 생성 및 편집을 모델링하는 전례 없는 능력을 보여주며 다운스트림 작업에 새로운 기회를 열었습니다. 이러한 작업 중 하나인 비디오 더빙은 이러한 사전 지식으로부터 큰 이점을 얻을 수 있지만, 대부분의 기존 솔루션은 실제 환경에서 어려움을 겪는 복잡하고 작업별로 특화된 파이프라인에 여전히 의존하고 있습니다. 본 연구에서는 경량 LoRA를 통해 비디오 간 더빙을 위해 기본 오디오-비디오 확산 모델을 적용하는 단일 모델 접근법을 소개합니다. 이 LoRA는 모델이 입력 오디오-비디오를 조건으로 삼아 번역된 오디오와 동기화된 얼굴 움직임을 함께 생성할 수 있게 합니다. 이 LoRA를 학습시키기 위해 생성 모델 자체를 활용하여 동일한 화자의 다국어 페어 비디오를 합성합니다. 구체적으로, 단일 클립 내에서 언어 전환이 이루어진 다국어 비디오를 생성한 후, 각 절반에서 얼굴과 오디오를 인페인팅하여 다른 절반의 언어와 일치하도록 합니다. 오디오-비주얼 모델의 풍부한 생성 사전 지식을 활용함으로써, 우리의 접근법은 화자 식별성과 입 모양 동기화를 유지하면서도 복잡한 움직임과 실제 세계의 역동성에 강건하게 대응합니다. 우리는 제안된 방법이 기존 더빙 파이프라인 대비 향상된 시각적 충실도, 입 모양 동기화 및 강건성을 갖춘 고품질 더빙 비디오를 생성함을 입증합니다.
대규모 언어 모델(LLM)을 훈련시키기 위한 대부분의 강화 학습(RL) 방법은 정답 레이블이나 작업별 검증기가 필요하여, 정확성을 판단하기 어렵거나 비용이 많이 드는 경우 확장성을 제한합니다. 본 연구에서는 메타 평가를 통한 강화 학습(RLME)을 제안합니다. 이 방법은 자연어 메타 질문(예: "답변이 정확한가요?" 또는 "추론이 논리적으로 일관된가요?")에 대한 평가자의 응답에서 도출된 보상을 생성기에 활용합니다. RLME는 평가자의 긍정적 판단 확률을 보상으로 간주하고 그룹 상대 정책 최적화를 통해 생성기를 업데이트하여 레이블 없이도 학습이 가능하게 합니다. 일련의 실험을 통해 RLME가 레이블 기반 훈련과 비슷한 정확도와 샘플 효율성을 달성하며, 다중 목표 간 제어 가능한 트레이드오프를 가능하게 하고, 사후 합리화보다는 신뢰할 수 있는 추론 패턴으로 모델을 이끌며, 정답 레이블을 사용할 수 없는 개방형 도메인 환경으로 일반화되어 RL로 LLM을 훈련시킬 수 있는 영역을 확장함을 보여줍니다.
코드 생성을 위한 강화 학습의 최근 발전은 보상 해킹을 방지하기 위해 견고한 환경을 필수적으로 만들었습니다. LLM이 코드 기반 RL에서 평가자 역할을 점점 더 많이 수행함에 따라, 보상 해킹 탐지 능력에 대한 연구는 여전히 부족한 실정입니다. 본 논문에서는 54개 범주에 걸친 보상 악용에 대한 새로운 분류 체계를 제안하고, 517개의 테스트 궤적을 포함한 합성적으로 구성되고 인간 검증된 벤치마크인 TRACE(Testing Reward Anomalies in Code Environments)를 소개합니다. 고립된 분류 시나리오에서 보상 해킹 탐지를 평가한 기존 연구와 달리, 우리는 TRACE에서 보다 현실적인 대조적 이상 탐지 설정과 이러한 평가를 대비합니다. 우리의 실험 결과, 모델들은 고립된 분류 설정보다 대조적 설정에서 보상 해킹을 더 효과적으로 포착하며, TRACE에서 가장 높은 추론 모드를 가진 GPT-5.2가 45%에서 63%로 가장 높은 탐지율을 달성했습니다. 이러한 통찰을 바탕으로, 최첨단 모델들이 구문적으로 맥락화된 보상 해킹에 비해 의미론적으로 맥락화된 보상 해킹으로 훨씬 더 어려움을 겪는다는 것을 보여줍니다. 또한 모델 행동에 대한 정성적 분석과, 정상 궤적과 해킹된 궤적의 비율 및 분석 클러스터 크기가 탐지 성능에 상당한 영향을 미친다는 것을 보여주는 ablation 연구를 추가로 수행합니다. 우리는 커뮤니티가 TRACE를 확장하고 자체 모델을 평가할 수 있도록 벤치마크와 평가 도구를 공개합니다.
수학에서 극값 구조를 발견하는 것은 분석적 방법으로는 통찰을 얻기 어렵고 무차별 대입 탐색은 비현실적으로 복잡한 방대하고 비볼록한 지형을 탐색해야 하는 과정입니다. 본 연구에서는 세 가지 구성 요소를 결합하여 희귀하고 극값적인 기하학적 구조 발견을 학습하는 폐쇄형 생성 프레임워크인 FlowBoost를 소개합니다: (i) 고품질 구성 샘플링을 학습하는 기하 구조 인식 조건부 흐름 매칭 모델, (ii) 다양성을 유지하면서 생성 과정을 목표에 직접 최적화하는 보안 안내 정책 최적화 및 행동 탐색, (iii) 학습 데이터 생성 및 최종 정제를 위한 확률적 지역 탐색. 필터링된 이산 샘플을 재학습하는 PatternBoost나 진화적 돌연변이 연산자로 고정된 대형 언어 모델(LLM)에 의존하는 AlphaEvolve와 같은 기존의 개방형 접근법과 달리, FlowBoost는 샘플링 과정에서 기하학적 타당성을 강제하고 보상 신호를 생성 모델에 직접 전파하여 최적화 루프를 폐쇄합니다. 이를 통해 훨씬 작은 훈련 세트와 짧은 훈련 시간으로 외부 루프 반복 횟수를 획기적으로 줄이며 LLM 의존성을 제거합니다. 우리는 이 프레임워크를 4가지 기하학적 최적화 문제(초입방체 내 구 채우기, 반지름 합 최대화 원 채우기, Heilbronn 삼각형 문제, 별 불일치 최소화)에 적용하여 입증합니다. 여러 경우에 FlowBoost는 기존 최고 결과에 필적하거나 이를 능가하는 구성을 발견합니다. 원 채우기 문제에서는 LLM 기반 시스템인 AlphaEvolve를 능가하는 새로운 최적 하한을 발견하며 상당히 적은 계산 자원을 사용합니다.
오디오 핑거프린팅은 음향 신호를 식별 가능한 표현으로 변환하여 이후 식별 및 검색 시스템에 활용할 수 있게 합니다. 차별적인 표현을 얻기 위해 입력 오디오는 일반적으로 더 짧은 시간 간격으로 분할되어 지역적 음향 특징을 추출하고 분석할 수 있도록 합니다. 현신 신경망 기반 접근법은 일반적으로 짧고 고정된 길이의 오디오 세그먼트를 사용하지만, 세그먼트 길이 선택은 흔히 경험적으로 이루어지며 깊이 검토되지 않는 경우가 많습니다. 본 논문에서는 세그먼트 길이가 오디오 핑거프린팅 성능에 미치는 영향을 연구합니다. 기존 신경망 핑거프린팅 아키텍처를 확장하여 다양한 세그먼트 길이를 적용할 수 있도록 하고, 다른 세그먼트 길이와 질의 길이에 따른 검색 정확도를 평가합니다. 실험 결과, 짧은 세그먼트 길이(0.5초)가 일반적으로 더 나은 성능을 달성함을 보여줍니다. 또한 최적의 세그먼트 길이 추천에 대한 LLM의 능력을 평가한 결과, 연구된 세 가지 LLM 중 GPT-5-mini가 다섯 가지 고려 사항에 걸쳐 가장 일관된 추천을 제공함을 확인했습니다. 본 연구의 결과는 대규모 신경망 오디오 검색 시스템에서 세그먼트 길이 선택에 대한 실용적인 지침을 제시합니다.
그래픽 디자인은 다양한 스타일적 방향성을 탐구하는 과정을 수반하는데, 이는 비전문가에게는 시간이 많이 소요될 수 있습니다. 본 논문은 자연어 지시를 기반으로 디자인의 스타일을 개선하는 이 문제를 다룹니다. VLM(비전-언어 모델)이 그래픽 디자인 분야에서 초기 성공을 보였지만, 사전 학습된 스타일 지식은 너무 일반적이어서 특정 도메인 데이터와 불일치하는 경우가 많습니다. 예를 들어, VLM은 미니멀리즘을 추상적인 디자인과 연관시키는 반면, 디자이너들은 형태와 색상 선택을 강조합니다. 우리의 핵심 통찰은 디자인 지식을 학습하고 스타일 개선을 안내하기 위해 디자인 데이터(디자이너의 원칙을 암묵적으로 포착한 실제 디자인 컬렉션)를 활용하는 것입니다. 우리는 디자인 지식 베이스를 구축하고 적용하는 세 단계를 통해 동작하는 PRISM(PRior-Informed Stylistic Modification)을 제안합니다: (1) 높은 변동성을 지닌 디자인을 클러스터링하여 스타일 내 다양성을 포착, (2) 각 클러스터를 실행 가능한 디자인 지식으로 요약, (3) 추론 과정에서 관련 지식을 검색하여 스타일 인식 개선을 가능하게 함. Crello 데이터셋에 대한 실험 결과, PRISM은 스타일 정렬 평가에서 기준 모델들 대비 1.49의 가장 높은 평균 순위(1에 가까울수록 좋음)를 달성했습니다. 사용자 연구를 통해서도 이러한 결과가 추가로 검증되었으며, PRISM이 디자이너들에게 지속적으로 선호되는 것으로 나타났습니다.
웹 에이전트는 복잡한 컴퓨터 작업 자동화에 큰 잠재력을 지니지만, 그 상호작용은 되돌릴 수 없는 행동을 포함한 장기적이고 순차적인 의사 결정을 수반합니다. 이러한 환경에서는 결과 기반 지도가 희소하고 지연되어 종종 잘못된 경로를 보상하며 추론 시간 확장을 지원하지 못합니다. 이는 웹 탐색을 위한 과정 보상 모델(WebPRM) 사용을 촉진하지만, 기존 접근법은 여전히 한계가 있습니다: 스칼라 WebPRM은 진행 상황을 거칠고 약하게 근거된 신호로 축소하는 반면, 체크리스트 기반 WebPRM은 레이아웃이나 의미 변화에 취약한 취성 템플릿 매칭에 의존하여 표면적으로 올바른 행동을 성공으로 잘못 라벨링하는 경우가 많아 통찰력이나 해석 가능성을 거의 제공하지 않습니다. 이러한 과제를 해결하기 위해 우리는 보상 모델링을 텍스트 생성으로 공식화하고, 현재 맥락에서 작업 완수에 가장 기여하는 행동을 식별하며 선호 판정으로 결론을 내리는 구조화된 근거를 생성하는, 추론 중심 원칙 유도 WebPRM인 WebArbiter를 소개합니다. 학습은 두 단계 파이프라인을 따릅니다: 추론 증류는 모델에 일관된 원칙 기반 추론 능력을 부여하고, 강화 학습은 판정을 정확도와 직접 정렬하여 교사 편향을 수정하여 더 강력한 일반화를 가능하게 합니다. 체계적인 평가를 지원하기 위해 우리는 다양한 작업과 고품질 선호 주석을 가진 4가지 다양한 웹 환경을 아우르는 포괄적인 벤치마크인 WebPRMBench를 공개합니다. WebPRMBench에서 WebArbiter-7B는 가장 강력한 기준 모델인 GPT-5를 9.1점 차이로 능가했습니다. WebArena-Lite에서의 보안 안내 경로 탐색에서는 기존 최고 WebPRM을 최대 7.2점까지 앞지르며, 실제 세계의 복잡한 웹 작업에서의 견고성과 실용적 가치를 입증했습니다.
시각 기초 모델은 로봇 공학에 강력한 지각 특징을 제공하지만, 이들의 밀집 표현은 명시적인 객체 수준 구조가 부족하여 조작 작업에서 견고성과 계약성이 제한됩니다. 우리는 STORM(Slot-based Task-aware Object-centric Representation for robotic Manipulation)을 제안합니다. 이는 경량 객체 중심 적응 모듈로, 고정된 시각 기초 모델에 소량의 의미 인식 슬롯 세트를 추가하여 로봇 조작 성능을 향상시킵니다. 대규모 백본을 재학습하는 대신, STORM은 다단계 학습 전략을 채택합니다: 객체 중심 슬롯은 먼저 언어 임베딩을 사용한 시각-의미 사전 학습을 통해 안정화된 후, 하위 조작 정책과 공동으로 적응됩니다. 이 단계적 학습은 퇴화된 슬롯 형성을 방지하고 인식을 작업 목표에 정렬하면서 의미 일관성을 유지합니다. 객체 발견 벤치마크 및 시뮬레이션 조작 작업에 대한 실험 결과, STORM이 고정된 기초 모델 특징을 직접 사용하거나 객체 중심 표현을 종단간 학습하는 방법에 비해 시각적 방해 요소에 대한 일반화 및 제어 성능을 향상시킴을 보여줍니다. 우리의 결과는 다단계 적응이 일반적인 기초 모델 특징을 로봇 제어를 위한 작업 인식 객체 중심 표현으로 변환하는 효율적인 메커니즘임을 강조합니다.
로봇 매니퓰레이션 정책의 일반화 성능은 시각적 표현의 선택에 크게 영향을 받습니다. 기존 접근법들은 일반적으로 사전 훈련된 인코더에서 추출한 표현에 의존하며, 두 가지 주요 특징 유형을 사용합니다: 전체 이미지를 단일 풀링된 벡터로 요약하는 전역 특징과 인코더 최종 계층의 패치 단위 임베딩을 보존하는 밀집 특징이 그것입니다. 널리 사용되고 있지만, 두 특징 유형 모두 작업 관련 정보와 무관한 정보를 혼합하여 조명, 질감 변화 또는 방해 요소 출현과 같은 분포 변화 상황에서 낮은 일반화 성능을 보입니다. 본 연구에서는 중간 수준의 구조화된 대안인 객체 중심 슬롯 기반 표현(SBOCR)을 탐구합니다. 이 표현은 밀집 특징을 유한한 개수의 객체 유사 엔티티 집합으로 그룹화합니다. 이를 통해 로봇 매니퓰레이션 정책에 제공되는 노이즈를 자연스럽게 감소시키면서 작업을 효율적으로 수행하기에 충분한 정보를 유지할 수 있습니다. 우리는 단순한 작업부터 복잡한 작업까지 시뮬레이션 및 실제 환경의 다양한 매니퓰레이션 과제군에서 전역 및 밀집 표현과 중간 수준의 슬롯 기반 표현을 벤치마크합니다. 또한 조명, 질감 변화 및 방해 요소 존재를 포함한 다양한 시각적 조건에서의 일반화 성능을 평가합니다. 우리의 연구 결과는 SBOCR 기반 정책이 작업 특화 사전 훈련 없이도 일반화 설정에서 밀집 및 전역 표현 기반 정책을 능가함을 보여줍니다. 이러한 결과는 SBOCR이 역동적인 실제 로봇 환경에서 효과적으로 일반화하는 시각 시스템 설계를 위한 유망한 방향임을 시사합니다.
생성형 기초 모델(일명 "월드 모델")의 최근 발전은 로봇 계획 및 자율 시스템 훈련과 같은 중요한 작업에 이를 적용하려는 관심을 촉진시켰습니다. 안정적인 배포를 위해서는 이러한 모델이 높은 물리적 정확도를 나타내며 현실 세계의 역학을 정확하게 시뮬레이션해야 합니다. 그러나 기존의 물리 기반 비디오 벤치마크는 얽힘 문제를 겪고 있는데, 이는 단일 테스트에서 여러 물리 법칙과 개념을 동시에 평가하여 진단 능력을 근본적으로 제한합니다. 본 연구에서는 개념별로 분리된 평가를 위해 특별히 설계된 새로운 비디오 기반 벤치마크인 WorldBench를 소개합니다. 이를 통해 단일 물리 개념이나 법칙에 대한 이해를 엄격하게 분리하여 평가할 수 있습니다. WorldBench를 포괄적으로 만들기 위해 두 가지 수준의 벤치마크를 설계합니다: 1) 객체 영속성이나 규모/원근법과 같은 개념에 대한 직관적 물리 이해 평가, 2) 마찰 계수나 유체 점성도와 같은 저수준 물리 상수 및 재료 특성 평가. SOTA 비디오 기반 월드 모델을 WorldBench로 평가한 결과, 특정 물리 개념에서 명확한 실패 패턴이 발견되었으며, 테스트된 모든 모델이 신뢰할 수 있는 현실 세계 상호작용을 생성하는 데 필요한 물리적 일관성을 갖추지 못했습니다. 개념별 평가를 통해 WorldBench는 비디오 생성 및 월드 모델의 물리 추론 능력을 엄격하게 평가하기 위한 더욱 세분화되고 확장 가능한 프레임워크를 제공하며, 더욱 강력하고 일반화 가능한 월드 모델 기반 학습의 길을 열어줍니다.