번역이 포함된 일일 선별된 AI 연구 논문
금융 시장은 노이즈가 많고 비정상성을 띠기 때문에 알파 마이닝은 백테스트 결과의 노이즈와 갑작스러운 시장 체제 변화에 매우 민감합니다. 최근 등장한 에이전트 기반 프레임워크들은 알파 마이닝 자동화를 개선하지만, 통제 가능한 다중 라운드 검색과 검증된 경험의 신뢰할 수 있는 재사용이 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 각 종단간 마이닝 실행을 하나의 궤적으로 간주하고 궤적 수준의 변이 및 교차 연산을 통해 팩터를 개선하는 진화형 알파 마이닝 프레임워크인 QuantaAlpha를 제안합니다. QuantaAlpha는 각 궤적에서 최적이 아닌 단계를 국소화하여 표적 수정을 수행하고 상호 보완적인 고수익 세그먼트를 재결합하여 효과적인 패턴을 재사용함으로써, 반복적인 마이닝 과정에서 구조화된 탐색과 정교화를 가능하게 합니다. 팩터 생성 과정에서 QuantaAlpha는 가설, 팩터 표현식, 실행 가능한 코드 간의 의미론적 일관성을 강제하면서 생성된 팩터의 복잡성과 중복성을 제약하여 밀집 현상을 완화합니다. CSI 300(중국 증권 지수 300)에 대한 광범위한 실험을 통해 강력한 기준 모델 및 기존 에이전트 시스템 대비 지속적인 성과 향상을 입증했습니다. GPT-5.2를 활용할 경우, QuantaAlpha는 정보 계수 0.1501, 연간화 수익률 27.75%, 최대 낙폭 7.98%를 달성했습니다. 또한 CSI 300에서 마이닝된 팩터들은 CSI 500(중국 증권 지수 500)과 S&P 500(스탠더드 앤드 푸어스 500 지수)에 효과적으로 전이되어 4년 동안 각각 160%, 137%의 누적 초과수익률을 제공하며, 시장 분포 변화 하에서 QuantaAlpha의 강력한 강건성을 시사합니다.
사후 훈련 최적화가 대규모 언어 모델 성능 향상의 핵심으로 부상함에 따라, 우리는 지속적인 포화 병목 현상을 관찰한다: 모델이 매우 높은 신뢰도에 도달하면 추가 훈련은 한계 수익을 보인다. 기존 방법들이 목표 예측을 계속 강화하는 동안, 우리는 유익한 지도 신호가 모델 자체의 역사적 약한 상태에 잠재되어 있음을 발견했다. 이러한 관찰을 바탕으로, 우리는 약한 체크포인트를 활용하여 지속적인 최적화를 안내하는 사후 훈련 패러다임인 WMSS(Weak Agents Can Make Strong Agents Stronger)를 제안한다. 엔트로피 역학을 통해 복구 가능한 학습 격차를 식별하고 보상 학습을 통해 이를 강화함으로써, WMSS는 강력한 에이전트가 기존 사후 훈련 포화 한계를 넘어 발전할 수 있도록 한다. 수학적 추론 및 코드 생성 데이터셋에 대한 실험 결과, 우리의 접근법으로 훈련된 에이전트는 추가 추론 비용 없이 효과적인 성능 향상을 달성함을 보여준다.
오디오는 현실 세계의 비디오에 필수적이지만, 생성 모델들은 대체로 오디오 구성 요소를 간과해 왔습니다. 오디오-비시각 콘텐츠를 생성하기 위한 현재의 접근법은 종종 캐스케이드 파이프라인에 의존하는데, 이는 비용을 증가시키고 오차를 누적시키며 전반적인 품질을 저하시킵니다. Veo 3 및 Sora 2와 같은 시스템들이 동시 생성을 강조하는 반면, 공동 다중모달 모델링은 아키텍처, 데이터, 훈련 측면에서 독특한 과제를 제기합니다. 더욱이, 기존 시스템들의 폐쇄형 특성은 해당 분야의 발전을 제한합니다. 본 연구에서는 현실적인 립싱크 음성, 환경을 인지한 음향 효과, 콘텐츠에 부합하는 음악을 포함한 고품질의 동기화된 오디오-비시각 콘텐츠를 생성할 수 있는 오픈소스 모델인 MOVA(MOSS Video and Audio)를 소개합니다. MOVA는 Total 32B 파라미터(추론 시 18B 활성)를 가진 Mixture-of-Experts(MoE) 아키텍처를 채택하며, IT2VA(Image-Text to Video-Audio) 생성 작업을 지원합니다. 모델 가중치와 코드를 공개함으로써, 우리는 연구를 촉진하고 활기찬 창작자 커뮤니티를 조성하는 것을 목표로 합니다. 공개된 코드베이스는 효율적인 추론, LoRA 미세 조정, 프롬프트 향상을 위한 포괄적인 지원 기능을 갖추고 있습니다.
다중 모달 대조 학습이 시각 및 언어 표현의 정렬에 성공했음에도 불구하고, 지속적인 기하학적 이상 현상인 모달리티 갭(Modality Gap)이 존재한다: 동일한 의미를 표현하는 서로 다른 모달리티의 임베딩들이 체계적으로 어긋난 영역을 점유하는 현상이다. 이 간극을 해소하려는 기존 접근법들은 지나치게 단순화된 등방성 가정에 크게 제한되어 대규모 시나리오 적용에 어려움을 겪어왔다. 본 논문에서는 모달리티 갭의 기하학적 형태를 정밀하게 규명하고 이를 효율적인 모델 확장에 활용함으로써 이러한 한계를 해결한다. 먼저, 고정된 기준 프레임 내에서 모달리티 갭을 안정적인 편향과 이방성 잔차로 분해하는 고정 프레임 모달리티 갭 이론(Fixed-frame Modality Gap Theory)을 제안한다. 이 정밀 모델링을 바탕으로, 학습이 필요 없는 모달리티 정렬 전략인 ReAlign을 소개한다. ReAlign은 대규모 비대응 데이터에서 추출한 통계량을 활용하여, 앵커(Anchor), 추적(Trace), 중심점(Centroid) 정렬의 3단계 과정을 통해 텍스트 표현을 이미지 표현 분포로 정렬함으로써 기하학적 오정렬을 명시적으로 수정한다. ReAlign을 기반으로, 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 위한 확장 가능한 학습 패러다임인 ReVision을 제안한다. ReVision은 ReAlign을 사전 학습 단계에 통합하여, 모델이 대규모 고품질 이미지-텍스트 쌍 없이도 시각적 명령어 튜닝 전에 비대응 텍스트로부터 시각 표현의 분포를 학습할 수 있게 한다. 우리의 프레임워크는 통계적으로 정렬된 비대응 데이터가 고비용의 이미지-텍스트 쌍을 효과적으로 대체할 수 있음을 보여주며, MLLMs의 효율적인 확장을 위한 견고한 경로를 제시한다.
현재 비전-언어-행동(VLA) 모델은 고정된 계산 깊이에 의존하여 단순한 조정과 복잡한 다단계 조작에 동일한 양의 계산 자원을 소모합니다. 생각의 연쇄(CoT) 프롬프팅은 가변 계산을 가능하게 하지만 메모리 사용량이 선형적으로 증가하며 연속적인 행동 공간에는 적합하지 않습니다. 본 논문에서는 명시적 토큰 생성이 아닌 잠재적 반복 정제를 통해 계산 적응성을 달성하는 RD-VLA(Recurrent-Depth VLA) 아키텍처를 소개합니다. RD-VLA는 재귀적이며 가중치를 공유하는 행동 헤드를 사용하여 일정한 메모리 사용량으로 임의의 추론 깊이를 지원합니다. 이 모델은 시간에 따른 truncated backpropagation (TBPTT)을 사용하여 정제 과정을 효율적으로 지도 학습합니다. 추론 시 RD-VLA는 잠재 공간 수렴에 기반한 적응형 중단 기준을 사용하여 계산 자원을 동적으로 할당합니다. 도전적인 조작 작업에 대한 실험 결과, 재귀적 깊이가 결정적임을 확인했습니다: 단일 반복 추론으로는 완전히 실패(0% 성공률)하는 작업이 4회 반복 시 90%를 넘는 성공률을 보였으며, 더 단순한 작업은 빠르게 성능이 포화되었습니다. RD-VLA는 토큰 기반 추론을 잠재적 추론으로 대체하여 일정한 메모리 사용량과 기존 추론 기반 VLA 모델 대비 최대 80배의 추론 속도 향상을 달성함으로써 로보틱스 분야의 테스트 타임 계산 확장에 대한 확장 가능한 경로를 제공합니다. 프로젝트 페이지: https://rd-vla.github.io/
LLM 에이전트는 과학 연구 발전에 상당한 가능성을 지니고 있습니다. 이러한 진전을 가속화하기 위해 최신 머신러닝 논문에서 발췌한 20개 과업으로 구성된 AIRS-Bench(AI Research Science Benchmark)를 소개합니다. 이러한 과업들은 언어 모델링, 수학, 생물정보학, 시계열 예측 등 다양한 영역을 아우릅니다. AIRS-Bench 과업들은 기준 코드를 제공하지 않은 상태에서 연구 전 주기(아이디어 생성, 실험 분석, 반복적 개선 포함)에 걸친 에이전트 능력을 평가합니다. AIRS-Bench 과업 형식은 다용도로 설계되어 새로운 과업의 쉬운 통합과 다양한 에이전트 프레임워크 간의 엄격한 비교가 가능합니다. 우리는 순차적 및 병렬 스캐폴드와 결합된 최첨단 모델을 사용하여 기준 성능을 설정했습니다. 결과에 따르면, 에이전트는 4개 과업에서 인간 최고 수준을 능가했지만 나머지 16개 과업에서는 이를 따라가지 못했습니다. 에이전트가 인간 벤치마크를 초과하는 경우에도 해당 기본 과업의 이론적 성능 한계에는 도달하지 못했습니다. 이러한 결과는 AIRS-Bench가 포화 상태와는 거리가 멀며 개선을 위한 상당한 여지가 있음을 시사합니다. 우리는 자율 과학 연구의 추가 발전을 촉진하기 위해 AIRS-Bench 과업 정의 및 평가 코드를 오픈소스로 공개합니다.
우리는 계산 및 실증 영역을 아우르는 종단간 과학적 발견을 위해 설계된 통합 시스템인 InternAgent-1.5를 소개한다. 본 시스템은 생성, 검증, 진화를 담당하는 세 개의 조율된 하위 시스템으로 구성된 구조화된 아키텍처를 기반으로 한다. 이러한 하위 시스템은 심층 연구, 솔루션 최적화, 장기 기억이라는 기초 역량에 의해 지원된다. 해당 아키텍처는 InternAgent-1.5가 일관되고 개선되는 동작을 유지하면서 확장된 발견 주기 동안 지속적으로 운영될 수 있도록 한다. 또한 단일 통합 시스템 내에서 계산 모델링과 실험실 실험을 조율할 수 있게 해준다. 우리는 GAIA, HLE, GPQA, FrontierScience와 같은 과학적 추론 벤치마크에서 InternAgent-1.5를 평가했으며,该系统은 강력한 기초 역량을 입증하는 선도적인 성능을 달성했다. 이러한 벤치마크를 넘어 우리는 두 가지 범주의 발견 과제를 추가로 평가한다. 알고리즘 발견 과제에서는 InternAgent-1.5가 핵심 기계 학습 문제에 대한 경쟁력 있는 방법을 자율적으로 설계한다. 실증 발견 과제에서는 지구과학, 생명과학, 생물학, 물리학 영역에서 완전한 계산 또는 웻 랩 실험을 실행하고 과학적 발견을 생성한다. 전반적으로 이러한 결과는 InternAgent-1.5가 자율 과학 발견을 위한 일반적이고 확장 가능한 프레임워크를 제공함을 보여준다.
LLaDA2.0이 100B 규모 블록-확산 모델의 확장 가능성과 내재된 병렬화 잠재력을 입증했으나, 디코딩 속도와 생성 품질 사이의 미묘한 균형은 여전히 달성하기 어려운 과제로 남아 있었습니다. 오늘 우리는 이러한 절충점을 초월하도록 설계된 패러다임 전환인 LLaDA2.1을 공개합니다. 기존의 Mask-to-Token(M2T) 방식에 Token-to-Token(T2T) 편집을 원활하게 결합함으로써, 우리는 구성 가능한 임계값 디코딩을 수행하는 통합 방식을 도입했습니다. 이러한 구조적 혁신은 두 가지 개별 모드를 가능하게 합니다: 기존의 제약을 우회하기 위해 M2T 임계값을 대담하게 낮추고 T2T를 통해 출력을 정제하는 '스피디 모드(S Mode)'; 그리고 관리 가능한 효율성 저하와 함께 우수한 벤치마크 성능을 확보하기 위해 보수적인 임계값을 활용하는 '퀄리티 모드(Q Mode)'가 그것입니다. 이러한 진화를 더욱 발전시켜, 확장된 컨텍스트 창을 기반으로 안정적인 그래디언트 추정을 위한 특화된 기술에 기반한, dLLM에 특화된 최초의 대규모 강화 학습(RL) 프레임워크를 구현했습니다. 이러한 정렬은 추론 정밀도를 높일 뿐만 아니라 지시 따르기의 정확도를 향상시켜, 확산 역학과 복잡한 인간의 의도 사이의 간극을 메웁니다. 우리는 이 연구의 결실로 LLaDA2.1-Mini(16B)와 LLaDA2.1-Flash(100B)를 공개합니다. 33개의 엄격한 벤치마크에서 LLaDA2.1은 강력한 작업 성능과 번개 같은 디코딩 속도를 보여줍니다. 100B라는 규모에도 불구하고, 코딩 작업에서 HumanEval+에서 892 TPS, BigCodeBench에서 801 TPS, LiveCodeBench에서 663 TPS라는 경이로운 속도를 달성했습니다.
물리 세계에서 직접 온라인 정책 학습을 수행하는 것은 구현형 인공지능 분야에서 유망하지만 도전적인 방향입니다. 시뮬레이션과 달리 실제 세계의 시스템은 임의로 가속하거나, 저렴하게 재설정하거나, 대규모로 복제할 수 없어 확장 가능한 데이터 수집, 이기종 배포, 장기적 효과적인 학습이 어렵습니다. 이러한 도전 과제들은 실제 세계 정책 학습이 단순히 알고리즘 문제가 아닌 근본적인 시스템 문제임을 시사합니다. 본 논문에서는 실제 세계 온라인 정책 학습을 위한 통합 및 확장 가능한 시스템인 USER를 제안합니다. USER는 통합 하드웨어 추상화 계층을 통해 물리적 로봇을 GPU와 동등한 1급 하드웨어 자원으로 취급하여 이기종 로봇의 자동 탐지, 관리 및 스케줄링을 가능하게 합니다. 클라우드-에지 통신 문제를 해결하기 위해 USER는 터널링 기반 네트워킹, 트래픽 지역화를 위한 분산 데이터 채널, GPU 측 오버헤드를 조절하는 스트리밍-멀티프로세서 인식 가중치 동기화를 포함하는 적응형 통신 평면을 도입합니다. 이러한 인프라 위에서 USER는 지속적이고 캐시 인식 버퍼를 갖춘 완전 비동기 프레임워크로 학습을 구성하여 견고한 충돌 복구 및 역사적 데이터 재사용이 가능한 효율적인 장기 실험을 지원합니다. 또한 USER는 보상, 알고리즘, 정책에 대한 확장 가능한 추상화를 제공하여 통합 파이프라인 내에서 CNN/MLP, 생성 정책, 대형 시각-언어-행동(VLA) 모델의 온라인 모방 학습 또는 강화 학습을 지원합니다. 시뮬레이션과 실제 세계에서의 실험 결과는 USER가 다중 로봇 협조, 이기종 매니퓰레이터, 대형 모델을 활용한 에지-클라우드 협업, 장기 비동기 학습을 가능하게 하여 실제 세계 온라인 정책 학습을 위한 통합적이고 확장 가능한 시스템 기반을 제공함을 보여줍니다.
인공지능과 재료과학의 융합은 변혁적인 기회를 제시하지만, 발견 과정의 진정한 가속화를 위해서는 작업별로 분리된 미세 조정 모델을 넘어 발견 과정 전반에 걸쳐 계획, 실행, 학습을 수행하는 능동적 시스템으로의 전환이 필요하다. 본 종설은 코퍼스 구축 및 사전 학습부터 도메인 적응과 지시어 튜닝을 거쳐, 시뮬레이션 및 실험 플랫폼과 연동하는 목표 기반 에이전트에 이르기까지 파이프라인 중심의 독창적인 관점을 제시한다. 기존 연구 동향과 달리 우리는 전체 과정을 실질적인 발견 성과를 위해 최적화해야 할 종단간 시스템으로 간주한다. 이러한 관점을 통해 데이터 구축 및 학습 목표와 같은 상류 설계 선택이 효과적 신용 할당을 통해 하류 실험 성공과 어떻게 연계될 수 있는지 추적할 수 있다. 분야 간 소통을 촉진하고 공유된 참조 체계를 확립하기 위해, 우리는 먼저 인공지능과 재료과학 간 용어, 평가, 작업 흐름 단계를 조정하는 통합적 렌즈를 제시한다. 이후 두 가지 초점 렌즈를 통해 해당 분야를 분석한다: 인공지능 관점에서는 문헌 마이닝, 재료 특성 분석, 물성 예측을 위한 패턴 인식, 예측 분석, 자연어 처리 분야에서의 LLM 강점을 상세히 검토한다. 재료과학 관점에서는 재료 설계, 공정 최적화, 외부 도구(예: DFT, 로봇 실험실) 연동을 통한 계산 작업 흐름 가속화 등 적용 사례를 부각한다. 마지막으로 수동적·반응적 접근법과 능동적 설계를 대비하며, 자율성, 메모리, 도구 활용을 통해 장기 목표를 추구하는 시스템의 필요성을 제고하면서 현재 기여도를 분류한다. 본 종설은 새롭고 유용한 재료 발견을 목표로 하는 안전 인식 자율 LLM 에이전트를 위한 실질적인 로드맵을 제시한다.
GRPO를 Flow Matching 모델에 적용하는 것은 텍스트-이미지 생성에 효과적인 것으로 입증되었습니다. 그러나 기존 패러다임은 일반적으로 결과 기반 보상을 모든 선행 노이즈 제거 단계에 전파할 뿐, 각 단계의 지역적 효과를 구분하지 않습니다. 더욱이 현재의 그룹 단위 순위 지정은 주로 일치하는 시간 단계에서의 trajectory를 비교하며, 특정 초기 노이즈 제거 작업이 지연되고 암시적인 상호작용을 통해 후기 상태에 영향을 미칠 수 있는 trajectory 내 종속성을 간과합니다. 우리는 단계별 보상 희소성을 완화하고 노이즈 제거 trajectory 내 장기적 효과를 명시적으로 모델링하는 GRPO 프레임워크인 TurningPoint-GRPO(TP-GRPO)를 제안합니다. TP-GRPO는 두 가지 핵심 혁신을 도입합니다: (i) 결과 기반 보상을 단계 수준의 증분 보상으로 대체하여 각 노이즈 제거 작업의 '순수' 효과를 더 잘 분리하는 조밀하고 단계 인식 학습 신호를 제공하며, (ii) 지역적 보상 추세를 반전시키고 후속 보상 진화를 전체 trajectory 추세와 일관되게 만드는 단계인 turning point를 식별하여 이러한 작업에 지연된 영향을 포착하기 위해 집계된 장기 보상을 할당합니다. Turning point는 증분 보상의 부호 변화만을 통해 감지되므로 TP-GRPO는 효율적이고 하이퍼파라미터가 필요 없습니다. 폭넓은 실험을 통해 TP-GRPO가 보상 신호를 더 효과적으로 활용하고 생성 품질을 일관적으로 개선함을 입증하였습니다. 데모 코드는 https://github.com/YunzeTong/TurningPoint-GRPO에서 확인할 수 있습니다.
최근 이미지 생성 모델의 발전으로 사용자 지시에 기반한 미래 그래픽 사용자 인터페이스(GUI) 상태 예측이 가능해졌습니다. 그러나 기존 벤치마크는 주로 일반 영역의 시각적 정확도에 초점을 맞추고 있어, GUI 특화 컨텍스트에서의 상태 전환 및 시간적 일관성 평가는 충분히 연구되지 않았습니다. 이러한 격차를 해결하기 위해 본 논문에서는 GUI 생성의 동적 상호작용 및 시간적 일관성 평가를 위한 포괄적인 벤치마크인 GEBench를 소개합니다. GEBench는 현실 및 가상 시나리오, 그리고 접지점 위치 지정을 아우르는 5개 작업 범주에 걸쳐 신중하게 선별된 700개 샘플로 구성되며, 단일 단계 상호작용과 다중 단계 궤적을 모두 포함합니다. 체계적인 평가를 지원하기 위해 목표 달성, 상호작용 논리, 내용 일관성, UI 타당성, 시각적 품질의 5가지 차원을 평가하는 새로운 지표인 GE-Score를 제안합니다. 최신 모델에 대한 포괄적 평가 결과, 단일 단계 전환에서는 우수한 성능을 보이지만, 긴 상호작용 시퀀스에 걸쳐 시간적 일관성과 공간적 접지점 유지에는 상당한 어려움을 겪는 것으로 나타났습니다. 본 연구의 결과는 아이콘 해석, 텍스트 렌더링, 위치 지정 정밀도를 주요 병목 현상으로 규명합니다. 이 연구는 체계적 평가의 기반을 마련하고, 고충실도 생성형 GUI 환경 구축을 위한 향후 연구 방향을 제시합니다. 코드는 https://github.com/stepfun-ai/GEBench에서 확인할 수 있습니다.
자유형 과학 문제 해결은 특히 본질적으로 신뢰하기 어려운 감독(supervision)과 평가로 인해 대규모 언어 모델에게 여전히 어려운 과제입니다. 이 문제의 병목 현상은 과학적 사후 학습(post-training)을 위한 데이터 구축과 보상 설계에 있습니다. 우리는 이질적인 오픈소스 과학 데이터를 체계적으로 처리하는 대규모 파이프라인을 개발하여 Dr. SCI 데이터셋을 구축했습니다. 이 데이터셋은 8개의 STEM 분야에 걸쳐 100만 개의 질문으로 구성되며, 명시적인 검증 가능/자유형 분할, 확장 가능한 난이도 주석, 그리고 자유형 답변 평가를 구체화하는 세분화된 채점 기준(rubric)을 포함합니다. 이 데이터셋을 기반으로 우리는 Dr. SCI 사후 학습 파이프라인을 제안합니다. 이 파이프라인은 표준 SFT -> RL 워크플로우를 세 가지 구성 요소를 통해 재설계합니다: (i) 탐색 확장 SFT(Exploration-Expanding SFT): RL 단계 전에 모델의 추론 패턴 범위를 확장합니다. (ii) 동적 난이도 커리큘럼(Dynamic Difficulty Curriculum): 모델의 진화하는 과학적 역량에 맞춰 학습 데이터를 조정합니다. (iii) 과학 채점 기준 기반 RL(SciRubric-Guided RL): 명시적인 답변 정확도를 바탕으로 한 채점 기준 평가를 통해 자유형 과학 문제에 대한 안정적인 강화 학습을 가능하게 합니다. Dr. SCI 파이프라인을 사용해 학습된 Qwen3-4B-Base 모델은 GPQA-diamond에서 63.2점, GPQA-general에서 32.4점을 달성하여 o1-mini 및 GPT-4o와 같은 강력한 사후 학습 기준 모델들을 꾸준히 능가하며, 특히 자유형 설정에서 과학적 추론 능력에서 상당한 향상을 입증했습니다.
최근 멀티모달 대규모 언어 모델(MLLM)의 비디오 이해 능력이 향상되고 있음에도 불구하고, 기존 비디오 벤치마크는 주로 모델의 정적이고 내부적인 지식을 바탕으로 한 이해도를 평가할 뿐, 소수의 예시로부터 동적이고 새로운 맥락을 학습하고 적응하는 능력은 측정하지 못합니다. 이러한 격차를 해소하기 위해 본 연구에서는 인컨텍스트 데모를 학습하여 대상 비디오에 대한 질문에 답변하는 데 중점을 둔 새로운 과제인 데모 주도 비디오 인컨텍스트 학습을 제시합니다. 동시에 데모 기반 비디오 인컨텍스트 학습 능력을 평가하기 위해 설계된 도전적인 벤치마크인 Demo-ICL-Bench를 제안합니다. Demo-ICL-Bench는 관련 질문이 포함된 1,200개의 YouTube 교육용 비디오로부터 구성되었으며, 여기서 두 가지 유형의 데모가 파생됩니다: (i) 텍스트 데모를 위한 비디오 자막 요약; (ii) 비디오 데모로서의 대응 교육용 비디오. 이 새로운 도전 과제를 효과적으로 해결하기 위해 2단계 학습 전략(비디오 지도 미세 조정 및 정보 지원 직접 선호도 최적화)을 갖춘 MLLM인 Demo-ICL을 개발하였으며, 이는 공동으로 모델의 인컨텍스트 예시 학습 능력을 향상시킵니다. 최첨단 MLLM을 이용한 폭넓은 실험을 통해 Demo-ICL-Bench의 어려움을 확인하고, Demo-ICL의 효과성을 입증함으로써 향후 연구 방향을 제시합니다.
단일 컨텍스트 윈도우를 넘어서 동작하는 대규모 언어 모델(LLM) 에이전트에서 메모리의 중요성이 점점 더 커지고 있지만, 기존 시스템 대부분은 비효율적이고 질의-중요 정보를 누락시킬 수 있는 오프라인 방식의 질의-무관 메모리 구축에 의존하고 있습니다. 런타임 메모리 활용이 자연스러운 대안이지만, 기존 연구에서는 상당한 오버헤드가 발생하고 성능-비용 절충에 대한 명시적 제어가 제한되는 경우가 많았습니다. 본 연구에서는 명시적이고 질의-인식 성능-비용 제어를 위한 런타임 에이전트 메모리 프레임워크인 BudgetMem을 제안합니다. BudgetMem은 메모리 처리를 일련의 메모리 모듈 집합으로 구성하며, 각 모듈은 세 가지 예산 계층(즉, Low/Mid/High)으로 제공됩니다. 경량 라우터가 모듈 간에 예산 계층 라우팅을 수행하여 작업 성능과 메모리 구축 비용을 균형 있게 조절하며, 이는 강화 학습으로 훈련된 컴팩트 신경망 정책으로 구현됩니다. BudgetMem을 통합 테스트베드로 활용하여 예산 계층을 실현하는 세 가지 상호 보완적 전략, 즉 구현 방식(메서드 복잡도), 추론 방식(추론 행동), 용량(모듈 모델 크기)을 연구합니다. LoCoMo, LongMemEval, HotpotQA 벤치마크에서 BudgetMem은 성능을 최우선시할 때(즉, 높은 예산 설정) 강력한 베이스라인을 능가하며, 더 제한된 예산 하에서도 더 나은 정확도-비용 경계를 제공합니다. 또한, 우리의 분석은 서로 다른 계층화 전략의 강점과 약점을 분리하여 다양한 예산 체제 하에서 각 축이 가장 유리한 절충점을 제공하는 조건을 명확히 합니다.
대규모 언어 모델(LLM)은 장기간 실행되는 실제 업무를 수행하는 능력이 점차 향상되고 있습니다. 그러나 컨텍스트 양이 증가함에 따라 그 신뢰도는 종종 저하되는데, 이는 "컨텍스트 부패(context rot)" 현상으로 알려져 있습니다. 기존의 장문 컨텍스트 벤치마크는 주로 긴 내용에서 정보를 검색하는 모델의 능력을 평가하는 단일 단계 설정에 중점을 둡니다. 그러나 현실적인 시나리오에서는 LLM이 환경을 탐색하고, 지시와 계획을 따르며, 유용한 정보를 추출하고, 동적으로 증가하는 컨텍스트 하에서 올바른 행동을 예측하는 에이전트 역할을 해야 하는 경우가 많습니다. 이러한 설정에서 언어 에이전트를 평가하기 위해 우리는 LOCA-bench(LOng-Context Agents를 위한 벤치마크)를 소개합니다. 작업 지시문이 주어지면, LOCA-bench는 환경 상태를 자동화 및 확장 가능하게 제어하여 에이전트의 컨텍스트 길이를 조절합니다. 이 설계를 통해 LOCA-bench는 기본 작업 의미론을 고정한 상태로 컨텍스트 길이를 통제된 방식으로 잠재적으로 무한히 확장할 수 있습니다. LOCA-bench는 다양한 컨텍스트 관리 전략을 포함한 모델과 스캐폴드(scaffolds)의 조합으로 언어 에이전트를 평가합니다. 환경 상태가 더 복잡해질수록 에이전트 성능은 일반적으로 저하되지만, 고급 컨텍스트 관리 기술은 전체 성공률을 크게 향상시킬 수 있습니다. 우리는 LOCA-bench를 오픈소스로 공개하여 장문 컨텍스트 에이전트 시나리오에서 모델과 스캐폴드를 평가할 수 있는 플랫폼을 제공합니다: https://github.com/hkust-nlp/LOCA-bench
대규모 언어 모델(LLM)의 발전으로 다중 턴 웹 상호작용을 통해 자율적으로 정보를 수집하는 검색 에이전트 개발이 크게 가속화되었습니다. 이러한 에이전트를 평가하기 위해 다양한 벤치마크가 제안되었습니다. 그러나 기존 벤치마크는 종종 답변으로부터 역방향으로 질의를 구성하여 실제 요구와 일치하지 않는 비자연스러운 과제를 생성합니다. 더욱이 이러한 벤치마크는 특정 정보 찾기 또는 여러 출처의 정보 통합 중 한 가지에 치우치는 경향이 있으며, 데이터 오염에 취약한 정적 답변 집합에 의존합니다. 이러한 격차를 해소하기 위해 우리는 실제 정보 탐색 시나리오를 반영한 373개의 인간이 작성한 질의로 구성된 일반 정보 탐색 도우미 벤치마크인 GISA를 소개합니다. GISA는 결정론적 평가가 가능한 4가지 구조화된 답변 형식(항목, 집합, 목록, 표)을 특징으로 합니다. 심층 추론과 광범위한 정보 통합을 통합된 과제 내에 통합하고, 암기를 방지하기 위해 주기적으로 업데이트되는 라이브 서브셋을 포함합니다. 특히 GISA는 모든 질의에 대해 완전한 인간 검색 궤적을 제공하여 프로세스 수준 감독 및 모방 학습을 위한 금본위 기준 참조를 제공합니다. 주류 LLM과 상용 검색 제품에 대한 실험 결과, 가장 성능이 좋은 모델조차도 정확 일치 점수가 19.30%에 불과하며, 복잡한 계획과 포괄적인 정보 수집이 필요한 과제에서 성능이 현저히 저하되는 것으로 나타났습니다. 이러한 결과는 향후 개선이 필요함을 보여줍니다.
복잡한 터미널 작업 실행은 오픈 웨이트 LLM에게 여전히 큰 과제로 남아 있으며, 두 가지 근본적인 한계에 의해 제약을 받습니다. 첫째, 높은 정확도의 실행 가능한 훈련 환경이 부족합니다: 실제 저장소에서 합성된 환경은 다양성과 확장성이 부족한 반면, LLM이 생성한 실행 궤적은 환각 문제를 겪습니다. 둘째, 표준 지시 튜닝은 더 작은 모델에서 흔히 발생하는 단순한 실수를 거의 보여주지 않는 전문가 궤적을 사용합니다. 이는 분포 불일치를 초래하여 학생 모델이 자체 런타임 오류로부터 복구하는 데 필요한 역량을 갖추지 못하게 합니다. 이러한 격차를 해소하기 위해 우리는 검증 가능한 환경과 회복력 있는 전문가 궤적을 합성하는 종단 간 파이프라인인 TermiGen을 소개합니다. TermiGen은 먼저 반복적인 다중 에이전트 정제 루프를 통해 기능적으로 유효한 작업과 Docker 컨테이너를 생성합니다. 이후 우리는 궤적 수집 과정에서 적극적으로 오류를 주입하여 오류 수정 주기가 풍부한 데이터를 합성하는 Generator-Critic 프로토콜을 활용합니다. 이렇게 TermiGen으로 생성된 데이터셋으로 미세 조정된 우리의 TermiGen-Qwen2.5-Coder-32B는 TerminalBench에서 31.3%의 통과율을 달성했습니다. 이는 새로운 오픈 웨이트 최첨단 기술을 수립하며, 기존 기준선을 능가하고 o4-mini와 같은 강력한 독점 모델을 뛰어넘는 성과입니다. 데이터셋은 https://github.com/ucsb-mlsec/terminal-bench-env에서 이용 가능합니다.
깊이 있는 연구 보고서 생성은 대규모 정보 수집과 통찰력 기반 분석의 종합을 요구하므로, 현재의 언어 모델에게는 상당한 과제로 남아 있습니다. 기존 대부분의 접근법은 계획-작성(plan-then-write) 패러다임을 따르는데, 이 방식의 성능은 초기 개요의 질에 크게 의존합니다. 그러나 포괄적인 개요를 구성하는 작업 자체가 강력한 추론 능력을 요구하기 때문에, 현재의 심층 연구 시스템은 거의 전적으로 폐쇄형 또는 온라인 대형 모델에 의존하는 상황입니다. 이러한 의존성은 실제 배포에 실질적인 장벽을 만들고 사용자 생성 데이터에 대한 보안 및 개인정보 보호 문제를 야기합니다. 본 연구에서는 인간의 작성 과정을 모방한 프레임워크와 80억 파라미터 규모의 심층 연구 에이전트로 구성된 경량이면서도 높은 성능을 지닌 로컬 솔루션인 AgentCPM-Report를 제안합니다. 우리의 프레임워크는 보고서 생성 중에 동적으로 개요를 수정할 수 있게 하는 Writing As Reasoning Policy(WARP)를 사용합니다. 이 정책 하에서 에이전트는 증거 기반 초안 작성(Evidence-Based Drafting)과 추론 주도 심화(Reasoning-Driven Deepening)를 번갈아 수행하며, 정보 수집, 지식 정제 및 반복적 개요 발전을 함께 지원합니다. 소규모 모델에 이러한 능력을 효과적으로 부여하기 위해 콜드 스타트(cold-start), 원자적 기술 강화 학습(atomic skill RL), 전체 파이프라인 강화 학습(holistic pipeline RL)으로 구성된 다단계 에이전트 학습(Multi-Stage Agentic Training) 전략을 도입했습니다. DeepResearch Bench, DeepConsult, DeepResearch Gym에 대한 실험 결과, AgentCPM-Report는 주요 폐쇄형 시스템을 능가하며, 특히 통찰력(Insight) 측면에서 상당한 성능 향상을 보였습니다.
공간적 구현 지능은 부분적 관측 가능성 하에서 에이전트가 정보를 획득하기 위해 행동할 것을 요구한다. 다중모달 기초 모델은 수동적 인지에서 뛰어난 성능을 보이지만, 능동적이고 자기 주도적인 탐색 능력은 아직 충분히 연구되지 않았다. 우리는 '공간 이론'을 제안하는데, 이는 에이전트가 자기 주도적 능동 탐색을 통해 정보를 능동적으로 획득하고, 순차적 부분 관측으로부터 공간적 신념을 구성·수정·활용하는 능력으로 정의된다. 우리는 호기심 주도 탐색을 통해 정확한 인지 지도를 구축하는 것을 목표로 하는 벤치마크를 통해 이를 평가한다. 핵심 혁신은 공간 신념 프로빙으로, 각 단계에서 모델이 내부 공간 표현을 드러내도록 유도한다. 최첨단 모델 평가를 통해 몇 가지 중요한 병목 현상을 발견했다. 첫째, 에이전트가 자율적으로 정보를 수집해야 할 때 성능이 크게 떨어지는 능동-수동 간극을 확인했다. 둘째, 프로그램 기반 대조군에 비해 모델이 체계적이지 않은 탐색을 수행함에 따른 높은 비효율성을 발견했다. 신념 프로빙을 통해 진단한 결과, 인지가 초기 병목 현상이긴 하지만 전역 신념이 불안정하여 시간이 지남에 따라 공간 지식이 저하되는 문제가 있음을 확인했다. 마지막으로 오류 신념 패러다임을 사용하여, 에이전트가 새로운 증거로 낡은 사전 지식을 업데이트하지 못하는 '신념 관성'을 발견했다. 이 문제는 텍스트 기반 에이전트에도 존재하지만 시각 기반 모델에서 특히 심각했다. 우리의 연구 결과는 현재 기초 모델이 능동적 탐색 동안 일관되고 수정 가능한 공간 신념을 유지하는 데 어려움을 겪고 있음을 시사한다.
본 연구에서는 장기적이고 상호작용적인 비디오 기반 월드 모델을 위한 새로운 강화학습(RL) 후처리 프레임워크인 WorldCompass를 제안한다. 이 프레임워크는 상호작용 신호를 기반으로 월드 모델이 세계를 더 정확하고 일관성 있게 탐색할 수 있도록 한다. 월드 모델의 탐색을 효과적으로 "조종"하기 위해 자기회귀 비디오 생성 패러다임에 맞춰 세 가지 핵심 혁신을 도입했다: 1) 클립 단위 롤아웃 전략: 단일 목표 클립에서 여러 샘플을 생성 및 평가하여 롤아웃 효율을 크게 높이고 세분화된 보상 신호를 제공한다. 2) 상호 보완적 보상 함수: 상호작용 추종 정확도와 시각적 품질 모두를 위한 보상 함수를 설계하여 직접적인 지도를 제공하고 보상 해킹 행위를 효과적으로 억제한다. 3) 효율적인 RL 알고리즘: 다양한 효율성 최적화와 결합된 네거티브 인식 미세 조정 전략을 적용하여 모델 성능을 효율적이고 효과적으로 향상시킨다. 최첨단 오픈소스 월드 모델인 WorldPlay에 대한 평가 결과, WorldCompass가 다양한 시나리오에서 상호작용 정확도와 시각적 정확도를 크게 개선함을 입증하였다.
화학 분야 대규모 언어 모델(LLM)은 복잡한 추론을 수행하기 위해 주로 자연어 형태의 명시적 사고의 연쇄(CoT)에 의존합니다. 그러나 화학 추론은 본질적으로 연속적이고 구조적인 특성을 지니며, 이를 이산적인 언어 토큰으로 강제 변환하는 것은 효율성과 성능을 제한하는 근본적인 표현 불일치를 초래합니다. 우리는 LatentChem을 소개합니다. 이는 화학 계산을 텍스트 생성에서 분리하는 잠재 추론 인터페이스로, 모델이 최종 출력에만 언어를 사용하면서 다단계 추론을 연속 잠재 공간에서 직접 수행할 수 있게 합니다. 주목할 만하게도, 우리는 과제 성공만을 위해 최적화되었을 때 모델이 자발적으로 추론을 내재화하여 장황한 텍스트 유도를 점차 포기하고 암묵적인 잠재 계산을 선호하는 일관된 창발적 행동을 관찰했습니다. 이러한 변화는 단순히 스타일의 문제가 아닌 계산적 이점을 제공합니다. 다양한 화학 추론 벤치마크에서 LatentChem은 ChemCoTBench에서 강력한 CoT 기반 베이스라인 대비 59.88%의 무승부 제외 우승률을 달성했으며, 평균 10.84배의 추론 속도 향상을 제공했습니다. 우리의 결과는 화학 추론이 이산화된 언어 궤적보다 연속적인 잠재 역학으로 구현될 때 더 자연스럽고 효과적으로 실현된다는 경험적 증거를 제시합니다.
대규모 언어 모델(LLM)의 장문 컨텍스트 추론은 2차 복잡도의 어텐션과 증가하는 키-값 캐시로 인해 비용이 많이 들어 컨텍스트 압축의 필요성을 부각시킵니다. 본 연구에서는 긴 컨텍스트를 소수의 연속적 표현으로 응축하는 소프트 컵텍스트 압축을 다룹니다. 기존 방법은 일반적으로 LLM 자체를 학습 가능한 압축기로 재활용하며, 계층별 자기 어텐션을 통해 정보를 반복적으로 종합하는 데 의존합니다. 우리는 이러한 패러다임이 두 가지 구조적 한계를 가진다고 주장합니다: (i) 계층 간 점진적인 표현 덮어쓰기, (ii) 토큰 간 압축 용량의 비조정적 할당. 우리는 소프트 압축을 새로운 패러다임, 즉 고정된 LLM 은닉 상태를 통한 명시적 정보 전송으로 공식화하는 경량 프레임워크인 ComprExIT(명시적 정보 전송을 통한 컨텍스트 압축)를 제안합니다. 이는 압축을 모델의 내부적 자기 어텐션 역학으로부터 분리합니다. ComprExIT는 (i) 다층 정보를 토큰 앵커에 선택적으로 전송하여 점진적 덮어쓰기를 완화하는 깊이 방향 전송과, (ii) 전역 최적화된 전송 계획을 통해 앵커들을 소수의 슬롯으로 종합하여 정보의 조정된 할당을 보장하는 너비 방향 전송을 수행합니다. 6개의 질의응답 벤치마크에서 ComprExIT는 약 1%의 추가 매개변수만을 도입하면서도 최신 컨텍스트 압축 방법들을 지속적으로 능가하여, 명시적이고 조정된 정보 전송이 더 효과적이고 강력한 장문 컨텍스트 압축을 가능하게 함을 입증했습니다.
연역, 귀납, 그리고 귀추는 인간 논리 사고의 핵심인 기본 추론 패러다임입니다. 대규모 언어 모델(LLM)의 추론 능력 향상은 상당한 연구 노력을 끌어왔으나, 이러한 기본 패러다임이 일반화를 유도하는 정도는 체계적으로 탐구되지 않았습니다. 본 연구에서는 이러한 핵심 패러다임 간의 상호작용이 LLM의 추론 행동에 미치는 영향을 규명합니다. 이를 위해 먼저 구체적 세계 지식에서 벗어나기 위해 세 가지 기본 패러다임 각각을 대상으로 하는 기호 작업(symbolic task)에서 새로운 추론 경로 데이터 세트를 수집합니다. 그런 다음 이러한 기술을 LLM에 효과적으로 주입하는 방법을 탐구합니다. 단순 미세 조정(fine-tuning)부터 모델 깊이 증가, 조밀 모델(dense model)을 전문가 혼합 모델(mixture-of-experts)로 변환하는 등 더 복잡한 접근법에 이르기까지 다양한 방법을 실험합니다. 우리는 자연어로 완전히 구성되고 실제 세계 지식을 포함하는 현실적인 도메인 외 작업(out-of-domain task)에서 주입된 모델을 포괄적으로 평가합니다. 우리의 결과는 제안된 접근법이 현실적 작업 전반에 걸쳐 상당한 성능 향상(최대 14.60점)과 함께 강력한 일반화 능력을 보여준다는 것을 입증합니다.
대규모 추론 모델(LRMs)은 긴 다단계 추론 경로를 생성하여 복잡한 추론 과제에서 높은 성능을 달성하지만, 추론 시 스케일링으로 인해 상당한 배포 비용이 발생합니다. 핵심 과제는 생성 난이도가 단일 출력 내에서 가변적인 반면, 기존 효율성 중심 접근법들은 이러한 생성 내 변동성을 무시하거나 높은 시스템 복잡성을 가진 지도 방식의 토큰 수준 라우팅에 의존한다는 점입니다. 본 논문에서는 장문 추론에서의 난이도 변동성을 활용하는 학습 불필요 세그먼트 수준 런타임 모델 전환 프레임워크인 RelayGen을 제시합니다. 토큰 확률 마진을 이용한 생성 불확실성의 오프라인 분석을 통해, 추론 경로 내 난이도 전환을 포착하는 데에는 세그먼트 수준의 비교적粗粒한 제어만으로도 충분함을 보입니다. RelayGen은 낮은 난이도 세그먼트로의 전환을 알리는 모델별 전환 신호를 식별하고 해당 부분의 생성을 더 작은 모델에 동적으로 위임하는 동시에, 고난이도 추론은 대형 모델에서 유지합니다. 여러 추론 벤치마크에서 RelayGen은 대형 모델의 정확도 대부분을 보존하면서 추론 지연 시간을 상당히 줄였습니다. 스펙추레이티브 디코딩과 결합 시, RelayGen은 추가 학습이나 학습된 라우팅 구성 요소 없이 정확도 저하를 2% 미만으로 억제하면서 최대 2.2배의 종단 간 속도 향상을 달성합니다.
가중치 전용 양자화는 대규모 언어 모델(LLM)을 효율적으로 서빙하기 위한 표준 접근법으로 자리 잡았습니다. 그러나 기존 방법들은 대량의 데이터와 컴퓨팅 자원을 요구하거나 추가 저장 공간을 필요로 하기 때문에 모델을 이진(1비트) 수준으로 효율적으로 압축하지 못합니다. 본 연구에서는 사후 학습 양자화(PTQ) 방식으로 LLM을 이진 및 1비트 미만 수준으로 압축하는 최초의 방법인 NanoQuant를 제안합니다. NanoQuant는 양자화를 낮은 계수를 가진 이진 행렬 분해 문제로 공식화하고, 전체 정밀도 가중치를 낮은 계수의 이진 행렬과 스케일로 압축합니다. 구체적으로, 효율적인 교번 방향 승수법(ADMM)을 활용하여 잠재 이진 행렬과 스케일을 정밀하게 초기화한 후, 블록 및 모델 재구성 과정을 통해 초기화된 매개변수를 미세 조정합니다. 그 결과 NanoQuant는 낮은 메모리 사후 학습 양자화 분야에서 새로운 파레토 최적점을 수립하며, 1비트 미만 압축률에서도 최고 수준의 정확도를 달성합니다. NanoQuant는 소비자용 하드웨어에서 대규모 모델 배포를 가능하게 합니다. 예를 들어, 단일 H100 GPU에서 단 13시간 만에 Llama2-70B 모델을 25.8배 압축하여 70B 규모의 모델을 8GB 용량의 소비자용 GPU에서 구동할 수 있게 합니다.
대규모 언어 모델(LLM), 다중 모달 대규모 언어 모델(MLLM), 이미지 생성 모델(즉, 텍스트-이미지 모델 및 이미지 편집 모델), 비디오 생성 모델을 포함한 파운데이션 모델은 법률, 의학, 교육, 금융, 과학 등 다양한 분야에 걸쳐 광범위하게 응용되는 필수 도구로 자리 잡았습니다. 이러한 모델들이 실제 환경에 점차 배포됨에 따라, 그 신뢰성과 책임성을 확보하는 것은 학계, 산업계, 정부에 있어 중요한 과제가 되었습니다. 본 종설은 파운데이션 모델의 신뢰할 수 있고 책임 있는 개발을 다룹니다. 우리는 편향 및 공정성, 보안 및 프라이버시, 불확실성, 설명 가능성, 분포 변화를 비롯한 핵심 이슈들을 탐구합니다. 또한 환각(hallucination)과 같은 모델의 한계와 정렬(alignment), 인공지능 생성 콘텐츠(AIGC) 탐지와 같은 방법론도 연구 범위에 포함합니다. 각 분야에 대해 우리는 해당 분야의 현재 현황을 검토하고 구체적인 향후 연구 방향을 제시합니다. 더 나아가, 이러한 분야들 간의 교차점을 논의하며 그 상호 연관성과 공통된 과제를 부각합니다. 본 종설이 강력할 뿐만 아니라 윤리적이고 신뢰할 수 있으며, 믿음직스럽고 사회적으로 책임 있는 파운데이션 모델의 발전에 기여하기를 바랍니다.
최근 자기회귀(AR) 비디오 확산 모델이 놀라운 성능을 달성했습니다. 그러나 제한된 학습 기간으로 인해 더 긴 시간대에서 테스트할 때 학습-테스트 간극이 발생하며, 이는 빠른 시각적 저하로 이어집니다. 학습 기간 내의 학습-테스트 간극을 연구한 Self Forcing에 이어, 본 연구는 학습 기간을 넘어선 학습-테스트 간극, 즉 학습 중의 제한된 시간대와 테스트 중의 무제한 시간대 사이의 간극을 연구합니다. 무제한 테스트는 어떤 유한한 학습 창을 넘어 확장될 수 있으며, 장시간 비디오 학습은 계산 비용이 많이 들기 때문에, 우리는 이 간극을 해결하기 위한 학습 없는 솔루션을 추구합니다. 학습 없는 솔루션을 탐구하기 위해 우리는 AR 캐시 유지에 대한 체계적인 분석을 수행합니다. 이러한 통찰력은 Rolling Sink를 제안하게 합니다. 단 5초 클립으로 학습된 Self Forcing을 기반으로 하는 Rolling Sink는 테스트 시 AR 비디오 합성을 초장기간(예: 16 FPS 기준 5-30분)으로 효과적으로 확장하며, 일관된 객체, 안정된 색상, 통일된 구조, 부드러운 동작을 달성합니다. 광범위한 실험을 통해 입증된 바와 같이, Rolling Sink는 SOTA 베이스라인 대비 우수한 장기간 시각적 정확도와 시간적 일관성을 달성합니다. 프로젝트 페이지: https://rolling-sink.github.io/
멀티모달 대규모 언어 모델(MLLM)의 급속한 발전에도 불구하고, 시각적 공간 추론은 정답이 보이지 않거나 대체 시점에서 장면이 어떻게 나타날지에 따라 달라질 경우 여전히 신뢰할 수 없는 상태입니다. 최근 연구는 시각적 상상을 위한 세계 모델을 통해 추론을 강화하는 방식으로 이 문제를 해결하고 있지만, 언제 상상이 실제로 필요한지, 어느 정도의 상상이 유익한지, 언제 해가 되는지 등의 의문은 여전히 명확히 이해되지 않고 있습니다. 실제로 무분별한 상상은 계산량을 증가시키고 오해의 소지가 있는 증거를 도입함으로써 성능을 저하시킬 수도 있습니다. 본 연구에서는 공간 추론을 위한 제어 가능한 자원으로서 테스트 시점 시각적 상상에 대한 심층 분석을 제시합니다. 우리는 정적 시각 증거만으로 충분한 경우, 상상이 추론을 개선하는 경우, 그리고 과도하거나 불필요한 상상이 정확도와 효율성에 미치는 영향을 연구합니다. 이러한 분석을 지원하기 위해 AVIC을 도입하는데, 이는 세계 모델을 갖춘 적응형 테스트 시점 프레임워크로, 선택적으로 시각적 상상을 호출하고 확장하기 전에 현재 시각 증거의 충분성에 대해 명시적으로 추론합니다. 공간 추론 벤치마크(SAT, MMSI)와 구현된 내비게이션 벤치마크(R2R)에서 우리의 결과는 상상이 결정적이거나, 보조적이거나, 해로운 명확한 시나리오를 보여주며, 선택적 제어가 상당히 적은 세계 모델 호출과 언어 토큰으로 고정된 상상 전략과 동등하거나 더 나은 성능을 낼 수 있음을 입증합니다. 전반적으로, 우리의 연구 결과는 효율적이고 신뢰할 수 있는 공간 추론을 위해 테스트 시점 상상을 분석하고 제어하는 것의 중요성을 강조합니다.
단계별 "방법" 절차 생성은 LLM의 핵심 능력입니다: 챗봇에서는 방법 관련 조언이 자주 요청되며, 복잡한 작업에 대한 추론에는 단계별 계획 수립이 중요합니다. 그러나 실제 작업에서 절차의 타당성을 대규모로 측정하고 개선하는 것은 여전히 어려운 과제이며 충분히 연구되지 않았습니다. 이를 해결하기 위해 우리는 목표 기반 절차 생성의 평가 및 개선을 위한 확장 가능한 프레임워크인 How2Everything을 소개합니다. 우리의 프레임워크는 14개 주제에 걸쳐 980K개의 웹 페이지에서 351K개의 절차를 추출하며 더 큰 코퍼스로 쉽게 확장 가능한 How2Mine을 포함합니다. 이 풀에서 우리는 주제 간 균형이 잡힌 7K개의 평가 세트인 How2Bench를 구축합니다. 모델 출력을 신뢰할 수 있게 평가하기 위해, 우리는 LLM 평가자를 사용하여 생성 결과가 목표 달성을 방해하는 치명적 결함을 포함하는지 탐지하는 평가 프로토콜인 How2Score를 개발했습니다. 저비용으로 재현 가능한 평가를 위해 최첨단 모델을 오픈 소스 8B 모델로 지식 증류하여 인간 주석자와 80.5% 일치율을 달성했습니다. How2Bench는 모델 크기와 학습 단계에 따른 명확한 확장 경향을 보여주며 사전 학습 초기부터 신호를 제공합니다. 마지막으로, How2Score를 보상으로 활용한 강화 학습은 세 가지 모델에서 How2Bench 성능을 10점 이상 향상시켰으며, 표준 벤치마크에서 체계적인 저하 없이 표면적 소스 문서 암기나 형식 준수에 강건한 개선 효과를 보였습니다. 종합하면, How2Everything은 웹 데이터 사전 학습이 어떻게 대규모 능력 평가와 개선의 폐쇄형 루프를 지원할 수 있는지 보여줍니다.
사고 유도(eliciting reasoning)는 복잡한 과제에서 대규모 언어 모델(LLM)의 성능을 사고를 통해 향상시키는 강력한 기법으로 부상했습니다. 그러나 실제 사용자 참여 에이전트 시나리오에서의 효과는 여전히 불분명합니다. 본 논문에서는 사용자 참여형 LLM 에이전트에서 명시적 사고의 효과에 대한 포괄적 연구를 수행합니다. 실험은 7개 모델, 3개 벤치마크, 2가지 사고 구현체에 걸쳐 진행되었으며, 정량적 응답 분류 분석과 정성적 실패 전파 사례 연구를 통해 평가합니다. 예상과 달리, 사용자 참여 환경에서 의무적 사고는 종종 에이전트에 역효과를 내어 다양한 LLM에서 비정상적인 성능 저하를 초래하는 것으로 나타났습니다. 핵심 발견은 사고가 에이전트의 응답을 단축하고 사용자에 대한 정보 공개를 감소시켜 에이전트를 더 "내향적"으로 만들며, 이로 인해 에이전트-사용자 간 정보 교환이 약화되어 하류 과제 실패로 이어진다는 점입니다. 더 나아가, 정보 공개를 명시적으로 요구하는 프롬프트가 다양한 모델 패밀리에서 안정적으로 성능을 향상시킴을 입증하여, 능동적 투명성이 에이전트 최적화의 핵심 요소임을 시사합니다. 전반적으로 본 연구는 정보 투명성 인식이 현실 세계 시나리오에서 추론 에이전트의 미래 설계를 위한 중요하면서도 충분히 탐구되지 않은 관점임을 시사합니다. 코드는 https://github.com/deeplearning-wisc/Thinking-Agent에서 확인할 수 있습니다.
현재 코드 검증 패러다임은 실행 기반 단위 테스트나 보조 LLM 판단과 같은 외부 메커니즘에 크게 의존하고 있으며, 이는 종종 노동 집약적이거나 판단 모델 자체의 능력에 의해 제한됩니다. 이는 근본적이면서도 아직 탐구되지 않은 질문을 제기합니다: LLM의 기능적 정확성을 순수하게 내부 계산 구조만으로 평가할 수 있을까? 우리의 주요 목표는 코드 생성 과정에서 모델의 신경 역학이 논리적 타당성을 예측할 수 있는 내부적으로 디코딩 가능한 신호를 인코딩하는지 조사하는 것입니다. 기계론적 해석성에서 영감을 받아, 우리는 코드 검증을 기계론적 진단 작업으로 간주하고 모델의 명시적 알고리즘 궤적을 라인 수준 귀속 그래프로 매핑하는 방법을 제안합니다. 복잡한 잔차 흐름을 분해함으로써, 모델 내부 회로 내에서 건전한 추론과 논리적 오류를 구별하는 구조적 특징을 식별하는 것을 목표로 합니다. Python, C++ 및 Java에 대한 분석을 통해 다양한 구문에서 내재적 정확성 신호가 강력하게 존재함을 확인했습니다. 이러한 내부 그래프의 위상학적 특징은 표면적 휴리스틱보다 정확성을 더 신뢰성 있게 예측하며, 오류가 있는 논리를 수정하기 위한 표적 인과 관계 개입을 가능하게 합니다. 이러한 발견들은 생성된 코드를 검증하기 위한 디코딩 가능한 속성으로서 내성적 검증의 기초를 마련합니다. 코드는 https://github.com/bruno686/CodeCircuit에서 확인할 수 있습니다.
인공지능의 발전은 데이터 중심 학습 패러다임의 진화로 볼 수 있으며, 데이터 조직화와 활용 방식의 지속적인 변화가 모델 능력 향상을 끊임없이 주도해왔다. 현재 LLM 연구는 데이터 규모의 단방향 확장에 크게 의존하는 패러다임이 지배적이며, 이는 데이터 가용성, 확보 비용, 훈련 효율성 측면에서 점점 더 많은 병목 현상에 직면하고 있다. 본 연구에서는 AGI 발전이 데이터-모델 공진화의 새로운 단계에 진입하고 있다고 주장한다. 이 단계에서는 모델이 데이터 관리에 적극적으로 기여하는 동시에 고품질 데이터가 모델 능력을 증폭시키는 상호 진화가 이루어진다. 이러한 비전을 구현하기 위해 우리는 이질적인 학습 목표와 비용 제약을 포괄하는 전체 LLM 훈련 생애주기를 지원하도록 설계된 계층적 데이터 관리 프레임워크를 제안한다. 구체적으로, 원시 비정제 자원부터 체계화되고 검증 가능한 지식에 이르기까지 L0-L4 계층적 데이터 관리 프레임워크를 소개한다. 중요한 점은 LLM이 품질 점수 매기기 및 콘텐츠 편집과 같은 데이터 관리 과정 전반에 완전히 활용되어 각 계층의 데이터를 정제한다는 것이다. 각 계층은 고유한 데이터 특성, 관리 전략, 훈련 역할을 가지며, 이를 통해 사전 훈련, 중간 훈련, 정렬을 포함한 LLM 훈련 단계 전반에 데이터를 전략적으로 배분할 수 있다. 본 프레임워크는 데이터 품질, 확보 비용, 한계 훈련 이익을 균형 있게 조정하여 확장 가능하고 지속 가능한 데이터 관리에 대한 체계적인 접근법을 제공한다. 우리는 원시 코퍼스로부터 계층별 데이터셋을 구축하고 여러 훈련 단계에 활용한 실증 연구를 통해 제안된 프레임워크의 효과를 검증한다. 실험 결과, 계층 인식 데이터 활용이 훈련 효율성과 모델 성능을 크게 향상시킴을 확인했다. 향후 연구를 촉진하기 위해 계층별 데이터셋과 처리 도구를 커뮤니티에 공개한다.
강화 학습(RL)은 휴머노이드 제어에 널리 사용되며, PPO(Proximal Policy Optimization)와 같은 온-정책 방법을 통해 대규모 병렬 시뮬레이션을 통한 강건한 학습과 경우에 따라 실제 로봇으로의 제로샷 배치를 가능하게 합니다. 그러나 온-정책 알고리즘의 낮은 샘플 효율성은 새로운 환경에 대한 안전한 적응을 제한합니다. 오프-정책 RL 및 모델 기반 RL이 향상된 샘플 효율성을 보여주지만, 휴머노이드에 대한 대규모 사전 학습과 효율적인 미세 조정 간의 격차는 여전히 존재합니다. 본 논문에서는 대규모 배치 업데이트와 높은 UTD(Update-To-Data) 비율을 갖춘 오프-정책 SAC(Soft Actor-Critic)가 휴머노이드 운동 정책의 대규모 사전 학습을 안정적으로 지원하며 실제 로봇에서 제로샷 배치를 달성함을 확인했습니다. 적응을 위해, 이러한 SAC로 사전 학습된 정책이 모델 기반 방법을 사용하여 새로운 환경 및 분포 외 작업에서 미세 조정될 수 있음을 입증합니다. 새로운 환경에서의 데이터 수집은 결정론적 정책을 실행하는 반면, 확률적 탐험은 물리 정보 기반 월드 모델 내로 제한됩니다. 이러한 분리는 적응 과정에서 무작위 탐험의 위험을 완화하면서 개선을 위한 탐험 범위를 보존합니다. 전반적으로 이 접근 방식은 사전 학습 단계의 대규모 시뮬레이션의 실제 시간 효율성과 미세 조정 단계의 모델 기반 학습의 샘플 효율성을 결합합니다.
MotionCrafter는 단안 비디오에서 4D 기하구조를 복원하고 조밀한 운동을 추정하는 비디오 확산 기반 프레임워크입니다. 우리 방법의 핵심은 공유 좌표계에서 조밀한 3D 포인트 맵과 3D 장면 흐름을 함께 표현하는 새로운 결합 표현과, 이를 효과적으로 학습하는 새로운 4D VAE입니다. 기본적으로 분포가 다른 RGB VAE 잠재 공간과 3D 값 및 잠재 변수를 엄격하게 정렬하도록 강제하는 기존 연구와 달리, 우리는 이러한 정렬이 불필요하며 오히려 성능 저하를 초래함을 보여줍니다. 대신 확산 사전 지식을 더 효과적으로 전달하고 복원 품질을 크게 향상시키는 새로운 데이터 정규화 및 VAE 학습 전략을 도입했습니다. 다양한 데이터셋에서의 광범위한 실험을 통해 MotionCrafter는 사후 최적화 없이도 기하구조 복원 및 조밀한 장면 흐름 추정 모두에서 최첨단 성능을 달성하며, 각각 38.64% 및 25.0%의 향상을 보여줍니다. 프로젝트 페이지: https://ruijiezhu94.github.io/MotionCrafter_Page
최근 몇 년간 음성 합성 기술이 급속도로 발전했지만, 오픈소스 노래 음성 합성(SVS) 시스템은 특히 견고성과 제로샷 일반화 측면에서 산업적 배포에 상당한 장벽에 직면해 있습니다. 본 보고서에서는 실질적인 배포를 고려하여 설계된 고품질 오픈소스 SVS 시스템인 SoulX-Singer를 소개합니다. SoulX-Singer는 기호 악보(MIDI) 또는 멜로디 표현을 조건으로 하는 제어 가능한 노래 생성을 지원하여 실제 프로덕션 워크플로우에서 유연하고 표현력丰富的한 제어를 가능하게 합니다. 42,000시간 이상의 보컬 데이터로 학습된 이 시스템은 중국어(만다린), 영어, 광둥어를 지원하며 다양한 음악적 조건에서 언어에 관계없이 일관되게 최첨단 합성 품질을 달성합니다. 나아가 실제 시나리오에서 제로샷 SVS 성능을 신뢰성 있게 평가할 수 있도록, 엄격한 훈련-테스트 분리를 갖춘 전용 벤치마크인 SoulX-Singer-Eval을 구축하여 제로샷 환경에서의 체계적인 평가를 용이하게 합니다.
안정적이고 에너지 효율적인 보행 달성은 휴머노이드 로봇이 실제 환경에서 지속적으로 작동하기 위한 필수 요소입니다. 기존의 MPC 및 RL 접근법은 다중 목적 최적화 프레임워크 내에 에너지 관련 메트릭을 포함하는 경우가 많으며, 이는 광범위한 하이퍼파라미터 조정을 필요로 하고 종종 최적이 아닌 정책을 초래합니다. 이러한 문제를 해결하기 위해 본 연구에서는 에너지 관련 메트릭을 보상에서 분리하여 명시적 불평등 제약 조건으로 재구성하는 제약 RL 프레임워크인 ECO(Energy-Constrained Optimization)를 제안합니다. 이 방법은 에너지 비용에 대한 명확하고 해석 가능한 물리적 표현을 제공하여 에너지 효율 향상을 위한 더 효율적이고 직관적인 하이퍼파라미터 조정을 가능하게 합니다. ECO는 라그랑지 승수법으로 강화되는 에너지 소비 및 기준 동작에 대한 전용 제약 조건을 도입하여 휴머노이드 로봇의 안정적이고 대칭적이며 에너지 효율적인 보행을 달성합니다. ECO를 MPC, 보상 형상을 적용한 표준 RL, 그리고 4가지 최신 제약 RL 방법과 비교 평가했습니다. kid-size 휴머노이드 로봇 BRUCE를 이용한 시뮬레이션-시뮬레이션 전이 및 시뮬레이션-현실 전이 실험을 포함한 실험 결과, ECO는 견고한 보행 성능을 유지하면서 기준 방법 대비 에너지 소비를 크게 줄이는 것으로 나타났습니다. 이러한 결과는 에너지 효율적인 휴머노이드 보행 기술의 중요한 진전을 보여줍니다. 모든 실험 데모는 프로젝트 웹사이트(https://sites.google.com/view/eco-humanoid)에서 확인할 수 있습니다.
보상 모델(RM)은 대규모 언어 모델(LLM) 훈련에 있어 핵심적이지만, 일반적으로 대규모 인간 주석 선호도 쌍에 의존합니다. LLM의 광범위한 배포와 함께, 실제 상호작용 환경에서 암묵적 보상 신호의 풍부한 원천이 등장했습니다. 이로 인해 '실제 상호작용 데이터로부터 직접 보상 모델을 개발할 수 있을까?'라는 의문이 제기됩니다. 본 연구에서는 WildChat을 상호작용 원천으로 채택하고 신뢰할 수 있는 인간 피드백을 추출하는 파이프라인을 제안하여, 선호도 쌍 없이 직접 사용자 피드백에 대한 순서형 회귀를 통해 WildReward를 훈련시키는 데 사용할 186k개의 고품질 인스턴스를 생성함으로써 이러한 가능성을 탐구합니다. 광범위한 실험을 통해 WildReward가 기존 보상 모델과 비교하여 견줄 만하거나 오히려 우수한 성능을 달성하며, 향상된 보정 및 교차 샘플 일관성을 보여줍니다. 또한 WildReward가 사용자 다양성으로부터 직접 이점을 얻으며, 더 많은 사용자가 더 강력한 보상 모델로 이어진다는 점을 관찰했습니다. 마지막으로 WildReward를 온라인 DPO 훈련에 적용했을 때 다양한 작업에서 상당한 개선이 관찰되었습니다. 코드와 데이터는 https://github.com/THU-KEG/WildReward에서 공개됩니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 핵심 방법으로 부상했습니다. 그러나 지속적인 학습은 정책 엔트로피 붕괴를 초래하는 경우가 많으며, 이는 엔트로피의 급격한 감소로 인해 조기 과신, 출력 다양성 저하, 학습을 저해하는 소실 기울기 노름을 특징으로 합니다. 기울기 보존 클리핑은 이러한 역학에 영향을 미치는 주요 요소이지만, 기존 완화 전략은 대부분 정적이며 클리핑 메커니즘과 정밀한 엔트로피 제어를 연결하는 체계가 부족합니다. 본 논문은 기울기 보존 클리핑 관점에서 RL의 엔트로피 제어를 재정립합니다. 먼저 특정 중요도 샘플링 비율 영역이 엔트로피 증가 및 감소에 기여하는 방식을 이론 및 실증적으로 검증합니다. 이러한 발견을 바탕으로 동적 클리핑 임계값을 사용한 새로운 규제 메커니즘을 도입하여 엔트로피를 정밀하게 관리합니다. 더 나아가 증가-후-감소, 감소-증가-감소, 진동 감소를 포함한 동적 엔트로피 제어 전략을 설계 및 평가합니다. 실험 결과, 이러한 전략이 엔트로피 붕괴를 효과적으로 완화하고 여러 벤치마크에서 우수한 성능을 달성함을 보여줍니다.
대규모 추론 모델(LRMs)에서의 테스트 시점 계산 자원 할당은 수학 문제 해결, 코드 합성, 계획 수립 등에 널리 활용되고 있습니다. 최근 연구는 자기 일관성과 병렬 사고의 확장, 일반적인 "사고 토큰"의 추가, 모델에 답변 전 질문 재확인을 촉구하는 방식으로 이 문제를 다루었습니다. 그러나 이러한 접근법들은 작업에 무관한 토큰을 주입하거나, 많은 LRM이 내부 사고 체인 시작 부분에서 보이는 자발적 반복 현상을 설명하지 못하고 오히려 무시하는 휴리스틱을 강요하는 한계가 있습니다. 이와 대조적으로, 우리는 모델의 질문 재진술 경향성을 분석하고 이를 에코 오브 프롬프트(Echo of Prompt, EOP)로 명명하여 전방 부하 방식의 계산 형성 메커니즘으로 활용합니다. 우리는 에코 제거를 기각 기반 조건화로 규정하고 계산 가능한 대리 지표인 에코 가능도 갭(ΔL)을 정의함으로써 EOP의 확률적 비용을 공식화합니다. 이는 초기 반복 현상과 가능도 향상, 하류 작업 정확도 간의 이론적 연결고리를 제공합니다. 하지만 이것만으로 EOP를 활용하는 구체적 방법을 제시하지는 못합니다. 이에 따라 우리는 지도 미세 조정을 통해 "에코 후 추론" 패턴을 주입하는 에코 증류 지도 미세 조정(ED-SFT)과, 추가 학습 없이 추론 과정 중 모델의 토대를 재설정하는 에코식 프롬프팅(EP)을 개발했습니다. 유망하나, 단순한 장문화를 넘어선 이점을 정량화하는 것은 간단하지 않습니다. 따라서 우리는 길이 및 접미사 통제 가능도 분석과 계층별 어텐션 연구를 병행하여 EOP가 중간 계층에서 답변-대-답변 접두어 어텐션을 증가시키며, 이는 어텐션 재집중 메커니즘과 일관됨을 보여줍니다. 우리는 GSM8K, MathQA, Hendrycks-MATH, AIME24, MATH-500 데이터셋에서 동일한 디코딩 설정과 예산 하에 평가를 수행했으며, 기준선 대비 일관된 성능 향상을 확인했습니다. 코드는 https://github.com/hhh2210/echoes-as-anchors에서 이용 가능합니다.
에이전트 시스템은 과제 해결을 위해 환경과 상호작용하는 벤치마크에서 평가됩니다. 대부분의 논문은 각 과제당 단일 실행으로 계산된 pass@1 점수를 보고하며, 이로써 신뢰할 수 있는 성능 추정치를 얻을 수 있다고 가정합니다. 본 연구는 이러한 가정을 검증하기 위해 SWE-Bench-Verified에서 세 가지 모델과 두 가지 스캐폴드에 걸쳐 60,000개의 에이전트 트랙토리를 수집했습니다. 우리는 상당한 변동성을 확인했습니다: 단일 실행 pass@1 추정치는 선택된 실행에 따라 2.2~6.0% 포인트까지 변하며, temperature 0에서도 표준편차가 1.5% 포인트를 초과합니다. 이러한 변동성은 중요한 함의를 가집니다: 보고된 2~3% 포인트의 개선은 실제 알고리즘적 진보가 아닌 평가 노이즈를 반영할 수 있습니다. 토큰 수준 분석을 통해 트랙토리는 초기, 종종 첫 몇 %의 토큰 내에서 분기하며, 이러한 작은 차이가 서로 다른 해결 전략으로 이어짐을 확인했습니다. 에이전트 시스템의 신뢰할 수 있는 평가를 위해 우리는 세 가지 구체적인 실천 방안을 제안합니다: (1) 특히 작은 개선을 측정할 때 과제당 여러 독립 실행을 통해 pass@1을 추정할 것, (2) 기대 효과 크기를 탐지하는 데 필요한 실행 횟수를 결정하기 위해 통계적 검정력 분석을 사용할 것, (3) k>1인 pass@k(낙관적 경계) 및 pass^k(비관적 경계) 같은 지표를 고려하여 전체 성능 포락선을 더 잘 특성화할 것. 이러한 실천은 평가 비용을 증가시키지만, 진정한 과학적 진보와 통계적 노이즈를 구분하는 데 필수적입니다.
토큰화는 튀르키예어와 같은 형태론적으로 풍부한 언어(MRL)에서 신경망 언어 모델링의 핵심 설계 선택으로, 생산적인 교착 현상이 어휘 효율성과 형태론적 정확성 모두에 도전을 제기합니다. 선행 연구들은 토크나이저 계열과 어휘 크기를 탐구해왔으나 일반적으로 (i) 토크나이저 훈련 코퍼스를 체계적으로 통제하지 않은 채 어휘를 변화시키고, (ii) 제한된 내적 진단을 제공하며, (iii) 좁은 범위의 다운스트림 작업만 평가합니다. 본 연구는 튀르키예어 서브워드 토큰화에 대한 최초의 체계적이고 원칙적인 연구, 즉 '서브워드 선언문'을 제시합니다. 이는 어휘 크기와 토크나이저 훈련 코퍼스 크기를 함께 변화시키고(데이터와 어휘의 결합), 매칭된 매개변수 예산 하에서 여러 토크나이저 계열(WordPiece, 형태소 수준, 문자 기준 모델)을 비교하며, 의미론적(NLI, STS, 감정 분석, NER), 구문론적(POS, 의존 구문 분석), 형태론에 민감한 프로브 평가를 포괄적으로 수행합니다. 토크나이저의 성공과 실패 원인을 설명하기 위해, 우리는 형태론 인식 진단 도구 키트를 도입합니다. 이는 단순한 총괄 수치를 넘어 경계 수준의 미시/거시 F1, 분리된 표제어 원자성 대 표면 경계 적중, 과소/과다 분할 지수, 문자/단어 편집 거리(CER/WER), 연속률, 그리고 접사 유형 커버리지 및 토큰 수준 원자성을 분석합니다. 우리의 기여는 네 가지입니다: (i) 어휘-코퍼스-성공 삼중주에 대한 체계적 연구; (ii) 내적 진단과 외적 결과를 연결하는 통합된 형태론 인식 평가 프레임워크; (iii) 문자 수준 및 형태소 수준 토큰화의 효과가 나타나는 조건을 규명하는 통제 비교; (iv) 평가 코드, 토크나이저 파이프라인 및 모델의 오픈소스 공개. 이러한 유형의 최초 연구로서, 이 '서브워드 선언문'은 MRL에서 효과적인 토크나이저 구축을 위한 실질적인 지침을 제공하고 향후 연구를 위한 재현 가능한 기반을 마련합니다.
감정 이해는 사회적으로 지능적인 에이전트 구축에 필수적입니다. 최근 멀티모달 대규모 언어 모델이 이 과제에서 강력한 성능을 보였지만, 두 가지 주요 과제가 남아 있습니다. 바로 감정과 무관한 시청각 단서 간의 허위 연관성과 언어 모델 백본의 텍스트 사전 지식에 의해 유발되는 시청각 단서의 환각 현상입니다. 이러한 문제를 정량화하고 이해하기 위해, 우리는 MLLM의 단서-감정 연관성, 환각 현상 및 모달리티 일치성을 평가하도록 설계된 벤치마크인 EmoReAlM을 소개합니다. 또한 AVEm-DPO라는 선호도 최적화 기법을 제안하며, 이는 모델 응답을 시청각 입력과 감정 중심 질의에 정렬합니다. 구체적으로는 허위 연관성이나 환각 현상을 보이는 응답과 텍스트 프롬프트에 기반한 시청각 입력 쌍에 대한 선호도를 구성합니다. 또한 텍스트 사전 지식 의존성을 억제하는 정규화 항을 포함하여 모달리티 특정 단서 환각 현상을 완화합니다. DFEW, RAVDESS 및 EMER에 대한 실험 결과는 우리 방법이 기준 베이스라인 모델의 성능을 제로샷 설정에서 6-19%의 상대적 성능 향상으로 유의미하게 개선함을 보여줍니다. 이 연구는 엄격한 벤치마크와 강력한 최적화 프레임워크를 함께 제공함으로써, 감정 이해 및 사회적 AI를 위한 MLLM의 원칙적인 평가와 개선을 가능하게 합니다. 코드, 모델 및 벤치마크는 https://avere-iclr.github.io에서 공개될 예정입니다.
최근 전문가 혼합 구조의 발전은 공통 기본 모델을 활용해 조정을 용이하게 함으로써 개별 전문가 모델을 연합 학습 방식으로, 즉 다른 전문가와 격리된 상태에서 훈련할 수 있음을 보여주었습니다. 그러나 우리는 모든 도메인에 대해 완전한 규모의 전문가가 필요하지 않을 수 있으며, 그 대신 낮은 계층의 어댑터로 충분할 수 있다고 가정합니다. 본 논문에서는 완전한 규모의 전문가 또는 적절한 계층을 가진 어댑터로 구성될 수 있는 유연한 계층 이질 전문가 혼합 모델인 FlexMoRE를 소개합니다. 우리는 계층 2^0부터 2^14까지의 6가지 전문가를 평가하여 전문가 계층과 다운스트림 작업 성능 간의 절충 관계를 체계적으로 조사했으며, 이는 2개 전문가로 구성된 96개 혼합과 7개 전문가로 구성된 54개 혼합, 총 150개 혼합 실험을 120개 작업에 걸쳐 평가한 결과입니다. 실험을 위해 FlexOlmo를 기반으로 삼아 사전 훈련된 전문가를 낮은 계층 버전으로 변환했습니다. 전문가 계층부터 다운스트림 작업 성능까지의 회귀 분석 결과, 추론 중심 벤치마크에서 최적의 성능을 내는 계층이 지식 중심 벤치마크보다 현저히 높은 것으로 나타났습니다. 이러한 계층 민감도에 대한 발견은 메모리 효율성과 직접적인 관련이 있습니다. 최적의 계층을 사용할 경우 FlexMoRE는 기준인 FlexOlmo 스타일의 완전 규모 전문가 혼합 모델(평균 점수 45.46) 대비 매개변수 수를 3분의 1 미만(FlexMoRE 10.75B 대 FlexOlmo 33.27B)으로 줄이면서도 향상된 다운스트림 작업 성능(평균 점수 47.18)을 달성했습니다. 모든 코드는 공개될 예정입니다.
현대 언어 모델(LM)은 학습 데이터의 일부를 암기하여 원문을 그대로 생성하는 경향이 있습니다. 기반 자료가 민감하거나 저작권으로 보호되는 경우, 이러한 재생산은 창작자의 동의 및 보상 문제와 개발자의 규정 준수 위험을 야기합니다. 본 논문은 원문 복사를 억제하기 위한 플러그 앤 플레이 방식의 추론 시점 방법인 Anchored Decoding을 제안합니다: 이 방법은 혼합 라이선스 데이터로 학습된 위험 LM으로부터의 디코딩을 가능하게 하며, 허용적으로 학습된 안전 LM에 대한 생성 범위를 제한합니다. Anchored Decoding은 사용자가 선택한 정보 예산을 생성 궤적에 따라 적응적으로 할당하고 단계별 제약을 적용하여 시퀀스 수준의 보장을 제공함으로써 조정 가능한 위험-유용성 트레이드오프를 가능하게 합니다. Anchored Decoding을 실질적으로 유용하게 만들기 위해, 우리는 새롭게 허용적으로 학습된 안전 모델(TinyComma 1.8B)과 ByteSampler 프레임워크(Hayase et al., 2025)를 통한 어휘 간 융합을 가능하게 하는 바이트 수준 변형 방법인 Anchored_{Byte} Decoding을 소개합니다. 우리는 저작권 위험과 유용성에 대한 장문 평가에서 6개의 모델 쌍에 걸쳐 본 방법을 평가합니다. Anchored 및 Anchored_{Byte} Decoding은 새로운 파레토 최적선을 정의하며, 원본에 가까운 유창성과 사실성을 유지하면서 위험 기준선과 안전 참조 모델 간의 측정 가능한 복사 격차(6개 복사 메트릭 평균)를 최대 75% 제거합니다. 이는 적절한 수준의 추론 오버헤드에서achieved됩니다.
대규모 언어 모델은 자기회귀 디코딩 과정에서 중복 계산을 피하기 위해 kv 캐시에 의존하지만, 컨텍스트 길이가 증가함에 따라 캐시 읽기 및 쓰기 작업이 GPU 메모리 대역폭을 빠르게 포화시킬 수 있습니다. 최근 연구들은 KV 캐시 압축을 탐구해 왔으나, 대부분의 접근법은 kv 캐시의 데이터 의존적 특성과 계층별 변동성을 간과합니다. 본 연구에서는 kv 캐시의 데이터 의존적 저랭크 압축 가능성을 정량화하는 SVD 기반 방법인 KV-CoRE(KV-cache Compressibility by Rank Evaluation)를 소개합니다. KV-CoRE는 프로베니우스 놈(Frobenius norm) 기준 최적의 저랭크 근사치를 계산하며, 그래디언트 불필요 및 점진적 특성으로 인해 효율적인 데이터셋 수준의 계층별 평가를 가능하게 합니다. 이 방법을 활용하여 다섯 개 영어 도메인과 열여섯 개 언어에 걸친 여러 모델과 데이터셋을 분석함으로써, 압축 가능성과 모델 아키텍처, 훈련 데이터, 언어 커버리지 간의 체계적인 패턴을 발견했습니다. 이러한 분석 과정에서 압축 가능성 지표로 정규화 유효 랭크(Normalized Effective Rank)를 채택하였으며, 이 지표가 압축 하의 성능 저하와 강한 상관관계를 보임을 입증했습니다. 본 연구는 LLM의 kv 캐시 압축 가능성에 대한 원칙적인 평가 프레임워크와 최초의 대규모 벤치마크를 구축하여, 동적이고 데이터 인식형 압축 및 데이터 중심 모델 개발에 대한 통찰을 제공합니다.
ColBERT와 같은 다중 벡터 후기 상호작용 검색기는 최고 수준의 검색 품질을 달성하지만, 쿼리 시간 비용은 모든 후보 문서에 대해 토큰 수준 MaxSim 상호작용을 완전히 계산하는 데 주로 소요됩니다. 단일 벡터 표현으로 후기 상호작용을 근사화하면 비용은 줄어들지만, 종종 상당한 정확도 손실이 발생합니다. 본 연구에서는 재순위화를 유한 모집단 Top-K 식별 문제로 전환하여 이 계산 부담을 줄이는 쿼리 시간 가지치기 알고리즘인 Col-Bandit을 소개합니다. Col-Bandit은 부분적으로 관찰된 문서 점수에 대해 불확실성 인지 경계를 유지하며, 조정 가능한 완화 조건의 통계적 결정 경계 하에서 상위 결과를 결정하는 데 필요한 (문서, 쿼리 토큰) MaxSim 항목만 적응적으로 추출합니다. 문서 전체나 토큰을 오프라인에서 대략적으로 제거하는 방식과 달리, Col-Bandit은 상호작용 행렬을 실시간으로 희소화합니다. 이는 표준 다중 벡터 시스템 위에 제로-샷, 즉시 적용 가능한 계층으로 작동하며, 인덱스 수정, 오프라인 전처리 또는 모델 재학습이 필요하지 않습니다. 텍스트(BEIR) 및 멀티모달(REAL-MM-RAG) 벤치마크 실험 결과, Col-Bandit은 MaxSim FLOPs를 최대 5배까지 줄이면서도 순위 충실도를 유지하는 것으로 나타나, 밀집 후기 상호작용 점수 계산에는 쿼리 시간에 효율적으로 식별 및 제거 가능한 상당한 중복성이 포함되어 있음을 시사합니다.
에이전트 스킬은 트리거 조건, 절차적 논리, 도구 상호작용을 정의하는 재사용 가능한 프로그램형 모듈로 대규모 언어 모델(LLM) 에이전트의 기능을 확장합니다. 이러한 스킬이 공개 마켓플레이스에서 확산됨에 따라 어떤 유형이 존재하는지, 사용자가 어떻게 채택하는지, 어떤 위험이 발생하는지가 불분명합니다. 이러한 질문에 답하기 위해 우리는 주요 마켓플레이스의 공개된 스킬 40,285개를 대상으로 대규모 데이터 기반 분석을 수행합니다. 분석 결과, 스킬 출시는 커뮤니티 관심의 변화를 따라가는 짧은 집중 형태로 발생하는 경향이 있음을 보여줍니다. 또한 스킬 콘텐츠가 소프트웨어 엔지니어링 워크플로우에 높은 집중도를 보이는 반면, 정보 검색 및 콘텐츠 생성 분야가 실제 채택에서 상당한 비중을 차지함을 발견했습니다. 콘텐츠 동향을 넘어서, 우리는 범주별로 뚜렷한 공급-수요 불균형을 밝혀냈으며, 스킬 길이 분포가 꼬리가 두꺼운 분포를 보임에도 대부분의 스킬이 일반적인 프롬프트 예산 내에 머무른다는 점을 보여줍니다. 마지막으로, 우리는 의도 수준의 중복이 광범위하게 퍼진 강한 생태계 동질성을 관찰하고, 상태 변경 또는 시스템 수준의 행동을 가능하게 하는 스킬을 포함하여 상당한 안전 위험을 식별합니다. 전반적으로, 우리의 연구 결과는 에이전트를 위한 새로운 인프라 계층으로서의 에이전트 스킬에 대한 정량적 현황을 제공하며, 향후 스킬 재사용, 표준화 및 안전 인식 설계에 관한 연구에 정보를 제공합니다.
편미분방정식은 물리적, 생물학적, 그래픽 현상을 정밀하게 모델링합니다. 그러나 수치해법은 차원의 저주, 높은 계산 비용, 영역 특화적 이산화 문제에 직면해 있습니다. 본 연구는 다양한 PDE 솔버의 장단점을 탐구하고, 순수 해 구하기, 역문제, 방정식 발견을 포함한 특정 과학 시뮬레이션 문제에 적용하는 것을 목표로 합니다. 특히, 최근 CNF(NeurIPS 2023) 프레임워크 솔버를 다중 종속 변수 및 비선형 설정으로 확장하고 다운스트림 응용 프로그램을 함께 탐구합니다. 결과로는 선별된 방법의 구현, 자동 조정 기법, 벤치마크 문제에 대한 평가, 그리고 신경망 PDE 솔버 및 과학 시뮬레이션 응용에 대한 포괄적인 조사가 포함됩니다.
검색 증강 생성(RAG)은 지식 집약적 작업에서 대규모 언어 모델의 추론 능력을 향상시키지만, 기존 RAG 파이프라인은 대규모 개체 매칭에 적용할 경우 상당한 검색 및 생성 오버헤드가 발생합니다. 이러한 한계를 해결하기 위해 본 연구에서는 블로킹 기반 일괄 검색 및 생성을 통해 연산 비용을 절감한 비용 효율적 RAG 아키텍처인 CE-RAG4EM을 제안합니다. 또한 블로킹 인식 최적화와 검색 세분화에 초점을 맞춘 개체 매칭용 RAG 시스템 분석 및 평가를 위한 통합 프레임워크를 제시합니다. 대규모 실험 결과, CE-RAG4EM은 강력한 베이스라인 대비 종단 간 실행 시간을 상당히 단축하면서도 유사하거나 향상된 매칭 품질을 달성할 수 있음을 보여줍니다. 우리의 분석은 핵심 구성 매개변수가 성능과 오버헤드 간의 본질적 트레이드오프를 초래함을 추가로 밝혀내며, 개체 매칭 및 데이터 통합을 위한 효율적이고 확장 가능한 RAG 시스템 설계에 실용적인 지침을 제공합니다.
우리는 기존 프레임워크보다 최대 20배 이상 빠른 속도로 운영 가능한 자율 과학 발견 AI 에이전트인 Aster를 소개합니다. 주어진 작업, 초기 프로그램, 그리고 프로그램 성능을 평가하는 스크립트를 바탕으로 Aster는 프로그램을 반복적으로 개선하며 종종 새로운 최첨단 성능을 달성합니다. Aster는 새로운 발견에 필요한 반복 횟수를 크게 줄여 평가 시간이 긴 문제(예: 수 시간이 소요되는 머신러닝 학습 실행)까지도 처리 가능한 영역으로 확장합니다. 우리는 Aster를 수학, GPU 커널 엔지니어링, 생물학, 신경과학, 언어 모델 학습 분야의 문제에 적용했습니다. 구체적으로는 에르되시 최소 중복 문제, TriMul 커널 최적화, 단일 세포 분석 노이즈 제거 문제, ZAPBench에서 우수한 성능을 보이는 신경 활동 예측 모델 학습, 그리고 NanoGPT 스피드런 경쟁을 다뤘습니다. Aster는 ZAPBench를 제외한 모든 작업에서 SOTA 성능을 달성했으며, ZAPBench에서는 최고의 인간 솔루션과 동등한 성능을 컴퓨팅 자원을 1/190 미만으로 사용하여 달성했습니다. Aster는 asterlab.ai에서 웹 인터페이스와 API를 통해 이용할 수 있습니다.
대규모 언어 모델(LLM)은 확장되는 과학 지형을 가로지르는 추론을 통해 발견을 가속화할 것을 약속합니다. 그러나 현재의 과제는 더 이상 정보에 대한 접근이 아니라, 의미 있는 방식으로 다양한 영역을 아우르는 연결에 있습니다. 분자 화학에서 기계적 성능에 이르기까지 개념 통합을 요구하는 재료 과학에서 이 문제는 특히 심각합니다. 인간이나 단일 에이전트 LLM 모두 이러한 정보의 홍수를 완전히 감당할 수 없으며, 후자는 종종 환각(hallucination)에 취약합니다. 이러한 병목 현상을 해결하기 위해 우리는 대규모 지식 그래프에 기반한 다중 에이전트 프레임워크를 도입하여 현재 규제 기관의 집중적인 조사를 받고 있는 과불화알킬물질(PFAS) 대체 지속가능 물질을 찾습니다. 프레임워크 내 에이전트들은 문제 분해, 증거 검색, 설계 매개변수 추출, 그래프 탐색에 특화되어 있으며, 서로 다른 지식 영역 간의 잠재적 연결 관계를 발견하여 가설 생성을 지원합니다. 제거 연구(ablation study) 결과, 전체 다중 에이전트 파이프라인이 단일 프롬프팅보다 성능이 뛰어나며, 이는 분산된 특화와 관계적 추론의 가치를 강조합니다. 우리는 그래프 탐색 전략을 조정함으로써 시스템이 영역-중요 결과에 초점을 맞춘 탐색적 탐사와 새로운 교차 연결을 발견하는 탐험적 탐사 사이를 전환함을 보여줍니다. 생의학용 튜빙 사례를 통해 이 프레임워크는 마찰학적 성능, 열안정성, 내화학성, 생체적합성을 균형 있게 갖춘 지속가능한 PFAS-free 대체물질을 생성합니다. 본 연구는 지식 그래프와 다중 에이전트 추론을 결합하여 재료 설계 공간을 확장하는 프레임워크를 정립하며, 해당 접근법을 입증하는 몇 가지 초기 설계 후보를 제시합니다.
텍스트 임베딩은 다양한 NLP 응용을 가능하게 하지만, 임베딩 역전 공격을 통해 민감한 속성이 노출되거나 원본 텍스트가 재구성될 수 있는 심각한 프라이버시 위험에 직면합니다. 기존 차등 프라이버시 방어 기법은 임베딩 차원 전반에 걸쳐 균일한 민감도를 가정함에 따라 과도한 노이즈가 추가되어 유틸리티가 저하되는 문제가 있습니다. 본 논문에서는 텍스트 임베딩에서 사용자 정의 개념에 대한 개념 특화형 프라이버시 보호를 위한 사용자 중심 프레임워크인 SPARSE를 제안합니다. SPARSE는 (1) 사용자 정의 개념에 대해 프라이버시 민감 차원을 식별하는 미분 가능 마스크 학습과 (2) 차원별 민감도에 따라 조정된 타원형 노이즈를 적용하는 Mahalanobis 메커니즘을 결합합니다. 기존의 구형 노이즈 주입 방식과 달리, SPARSE는 프라이버시 민감 차원을 선택적으로 교란하면서 비민감 의미를 보존합니다. 3가지 임베딩 모델과 공격 시나리오, 6개 데이터셋에 걸쳐 평가한 결과, SPARSE는 최신 DP 방법론 대비 우수한 하류 작업 성능을 달성하면서도 프라이버시 누출을 지속적으로 감소시키는 것으로 나타났습니다.
최근 연구에 따르면 선호도 정렬(PA) 목적 함수는 정렬된(선택된) 응답 분포와 비정렬된(거부된) 응답 분포 간의 발산 추정기 역할을 합니다. 본 연구에서는 이러한 발산 기반 관점을 검증 가능한 보상을 활용한 강화 학습(RLVR)과 같이 환경적 보상만 사용 가능한 일반적인 정렬 설정으로 확장합니다. 우리는 이 통합 프레임워크 내에서 f-발산의 변분 표현을 기반으로 일반적인 LLM 정렬을 위한 온-정책 강화 학습 클래스인 f-그룹 상대 정책 최적화(f-GRPO)와 하이브리드 온/오프-정책 목적 함수인 f-하이브리드 정렬 손실(f-HAL)을 제안합니다. 우리는 이러한 목적 함수 클래스들이 정렬 후 평균 보상을 향상시킨다는 이론적 보장을 제공합니다. 실험적으로 RLVR(수학적 추론) 및 PA(안전성 정렬) 과제 모두에서 우리의 프레임워크를 검증하며, 기존 방법 대비 향상된 성능과 유연성을 입증합니다.
우리는 경험적 과정 이론에 기반한 통계적 학습 이론(SLT)의 최초의 포괄적인 Lean 4 형식화를 제시한다. 우리의 종단간 형식 인프라는 가우시안 립시츠 농도에 대한 완전한 전개, 부분 가우시안 과정을 위한 더들리 엔트로피 적분 정리의 최초 형식화, 그리고 날카로운 수렴 속도를 갖는 최소제곱(희소) 회귀 분석에의 응용을 포함하여 최신 Lean 4 Mathlib 라이브러리의 누락된 내용을 구현한다. 이 프로젝트는 인간이 증명 전략을 설계하고 AI 에이전트가 전술적 증명 구성을 실행하는 인간-AI 협업 워크플로우를 통해 수행되었으며, 이를 통해 인간이 검증한 SLT용 Lean 4 도구 상자를 구축하였다. 구현을 넘어, 이 형식화 과정은 표준 SLT 교과서에 내재된 암묵적 가정과 누락된 세부 사항을 드러내고 해결함으로써 이론에 대한 세밀한, 줄 단위의 이해를 강제한다. 이 작업은 재사용 가능한 형식 기초를 마련하고 향후 기계 학습 이론 발전의 문을 연다. 코드는 https://github.com/YuanheZ/lean-stat-learning-theory 에서 확인할 수 있다.
범용 멀티모달 검색(UMR)은 텍스트와 비전 간의 임의 대 임의 검색을 목표로 하지만, 현대 임베딩 모델들은 쿼리에 잠재적 추론(예: 불충분하게 명시된 참조 해결 또는 구성적 제약 조건 매칭)이 필요할 때 취약성을 보입니다. 우리는 이러한 취약성이 종종 데이터에서 기인한다고 주장합니다: 이미지가 "침묵하는" 증거를 포함하고 쿼리가 핵심 의미를 암묵적으로 남길 때, 단일 임베딩 과정은 추론과 압축을 동시에 수행해야 하며 이는 잘못된 특징 매칭을 유도합니다. 우리는 검색 전 추론을 외부화하여 이러한 역할을 분리하는 데이터 중심 프레임워크를 제안합니다. 강력한 비전-언어 모델을 사용하여 코퍼스 항목의 시각적 증거를 집중적으로 캡션화하고, 쿼리의 모호한 멀티모달 참조를 해결하며, 장황한 지시문을 간결한 검색 제약 조건으로 재구성함으로써 암묵적 의미를 명시적으로 만듭니다. 추론 시점 향상만으로는 부족합니다. 분포 변화를 피하고 추가된 신호를 완전히 활용하려면 검색기를 이러한 의미론적으로 밀도 높은 표현으로 훈련해야 합니다. M-BEIR 벤치마크에서 우리의 추론 증강 훈련 방법은 강력한 베이스라인 대비 지속적인 성능 향상을 보여주며, 어블레이션 연구를 통해 코퍼스 향상은 주로 지식 집약적 쿼리에 도움이 되는 반면 쿼리 향상은 구성적 수정 요청에 중요함을 확인했습니다. 우리는 코드를 https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval 에 공개했습니다.
물고기 떼의 집단 운동은 능동 물질 시스템에서 나타나는 자발적 자기 구축의 전형적 사례지만, 이러한 동역학을 시뮬레이션하고 분석하기 위한 계산 도구는 여전히 연구 그룹별로 분산되어 있다. 본 연구에서는 해양 집단 행동 연구에 특화된 종합적 엔트로피 진단 기법과 함께 3차원 Couzin 영역 기반 모델을 구현한 오픈소스 Python 라이브러리인 dewi-kadita를 소개한다. 이 라이브러리는 기존 질서 매개변수로는 접근할 수 없는 독특한 조직적 특성을 규명하는 7가지 정보 이론적 측정치——떼 응집성 엔트로피, 분극화 엔트로피, 수심 성층화 엔트로피, 각운동량 엔트로피, 최근접 이웃 엔트로피, 속도 상관 엔트로피, 떼 형태 엔트로피——를 도입한다. 이러한 측정치는 집단적 무질서도를 단일 스칼라 값으로 제공하는 Oceanic Schooling Index(OSI)로 통합된다. 네 가지 표준 구성(군집, 토러스, 동적 병렬, 고도 병렬)에 대한 검증 결과, 알려진 위상 행동이 정확히 재현됨을 확인하였다: 군집 상태는 분극화 P < 0.1 및 OSI approx 0.71로 무질서를 유지하는 반면, 고도 병렬 상태는 P = 0.998, OSI = 0.24에 도달하고 속도 상관 엔트로피는 0으로 수렴한다. 엔트로피 프레임워크는 유사한 질서 매개변수 크기를 보이지만 서로 다른 조직 메커니즘을 갖는 토러스와 동적 병렬 구성을 성공적으로 구별한다. Numba JIT(Just-In-Time) 컴파일을 통해 쌍별 상호작용 계산 속도가 10~100배 가속화되어, 표준 워크스테이션에서 150~250개체에 대한 1000~2000시간 단계 시뮬레이션을 5분 내에 수행할 수 있다. NetCDF4 출력 형식은 해양학 분석 도구와의 상호운용성을 보장한다. 이 라이브러리는 확립된 분자 동역학 코드와 유사하게 집단 행동 모델링 분야에서 표준화되고 재현 가능한 인프라 필요성을 해결한다.
인과 관계 발견은 과학적 AI 및 데이터 분석과 같은 데이터 중심 분야의 발전에 필수적이지만, 기존 방법론은 대규모 그래프로 확장 시 시간 및 공간 효율성에서 심각한 병목 현상을 겪습니다. 이러한 문제를 해결하기 위해 우리는 최대 1000개 노드까지의 그래프에서 효율적인 인과 관계 추론을 가능하게 하는 신경망 아키텍처인 CauScale을 제안합니다. CauScale은 데이터 임베딩을 압축하는 reduction unit을 통해 시간 효율성을 향상시키고, 축별 어텐션 맵 유지 불필요를 위한 tied attention weight 도입으로 공간 효율성을 개선합니다. 높은 인과 발견 정확도를 유지하기 위해 CauScale은 이중 스트림 설계를 채택합니다: 데이터 스트림은 고차원 관측값에서 관계적 증거를 추출하는 반면, 그래프 스트림은 통계적 그래프 사전 정보를 통합하고 핵심 구조적 신호를 보존합니다. CauScale은 공간 제한으로 인해 기존 연구가 실패한 500개 노드 그래프까지 학습 과정에서 성공적으로 확장되었습니다. 다양한 그래프 규모와 인과 메커니즘을 가진 테스트 데이터에서 CauScale은 내부 분포 데이터에서 99.6%의 mAP, 외부 분포 데이터에서 84.4%의 mAP를 달성하면서 기존 방법 대비 4~13,000배의 추론 속도 향상을 보였습니다. 프로젝트 페이지는 https://github.com/OpenCausaLab/CauScale에서 확인할 수 있습니다.