번역이 포함된 일일 선별된 AI 연구 논문
우리는 강화 학습을 활용하여 비전-언어 모델(VLMs)의 장기 비디오 추론 능력을 확장하는 풀스택 프레임워크를 소개합니다. 장기 비디오 추론의 독특한 도전 과제를 해결하기 위해 세 가지 핵심 요소를 통합했습니다: (1) 스포츠, 게임, 블로그 등 다양한 도메인에 걸쳐 고품질 추론 주석이 포함된 52K 장기 비디오 QA 쌍으로 구성된 대규모 데이터셋인 LongVideo-Reason; (2) 사고 사슬 지도 미세 조정(CoT-SFT)과 강화 학습(RL)을 통해 VLMs를 확장하는 두 단계의 학습 파이프라인; (3) 시퀀스 병렬 처리와 장기 비디오에 맞춤화된 vLLM 기반 엔진을 통합한 Multi-modal Reinforcement Sequence Parallelism (MR-SP)이라는 장기 비디오 RL 학습 인프라로, 캐시된 비디오 임베딩을 사용하여 효율적인 롤아웃과 프리필링을 지원합니다. 실험에서 LongVILA-R1-7B는 VideoMME와 같은 장기 비디오 QA 벤치마크에서 강력한 성능을 보였습니다. 또한 LongVideo-Reason-eval 벤치마크에서 Video-R1-7B를 능가하고, 시간적 추론, 목적 및 의도 추론, 공간적 추론, 플롯 추론에서 Gemini-1.5-Pro와도 견줄 만한 성능을 보였습니다. 특히, MR-SP 시스템은 장기 비디오 RL 학습에서 최대 2.1배의 속도 향상을 달성했습니다. LongVILA-R1은 입력 비디오 프레임 수가 증가함에 따라 일관된 성능 향상을 보였습니다. LongVILA-R1은 VLMs의 장기 비디오 추론을 위한 확실한 한 걸음을 내딛었습니다. 또한, 우리는 다양한 모달리티(비디오, 텍스트, 오디오), 다양한 모델(VILA 및 Qwen 시리즈), 심지어 이미지 및 비디오 생성 모델에 대한 RL 학습을 지원하는 학습 시스템을 공개했습니다. 단일 A100 노드(8 GPU)에서 1시간 길이의 비디오(예: 3,600 프레임 / 약 256k 토큰)에 대한 RL 학습을 지원합니다.
확산 모델 미세 조정은 사전 훈련된 모델을 특정 객체 생성에 맞게 커스터마이징하는 강력한 접근 방식을 제공하지만, 훈련 샘플이 제한적일 때 과적합이 자주 발생하여 일반화 능력과 출력 다양성이 저해됩니다. 본 논문은 단일 개념 이미지만을 사용하여 확산 모델을 적응시키는, 가장 실용적인 잠재력을 지닌 도전적이면서도 영향력 있는 과제를 다룹니다. 우리는 확산 모델 개인화를 위해 특별히 설계된 T-LoRA(Timestep-Dependent Low-Rank Adaptation) 프레임워크를 소개합니다. 우리의 연구에서 더 높은 확산 타임스텝이 더 낮은 타임스텝보다 과적합에 더 취약하다는 것을 보여주며, 이는 타임스텝에 민감한 미세 조정 전략이 필요함을 시사합니다. T-LoRA는 두 가지 주요 혁신을 포함합니다: (1) 확산 타임스텝에 따라 순위 제한 업데이트를 조정하는 동적 미세 조정 전략, 그리고 (2) 직교 초기화를 통해 어댑터 구성 요소 간의 독립성을 보장하는 가중치 매개변수화 기술. 광범위한 실험을 통해 T-LoRA와 그 개별 구성 요소가 표준 LoRA 및 기타 확산 모델 개인화 기술을 능가함을 보여줍니다. 이들은 개념 충실도와 텍스트 정렬 간의 우수한 균형을 달성하며, 데이터가 제한되고 자원이 부족한 시나리오에서 T-LoRA의 잠재력을 강조합니다. 코드는 https://github.com/ControlGenAI/T-LoRA에서 확인할 수 있습니다.
OpenAI-o3와 같은 모델은 인간의 "이미지를 통한 사고"와 유사하게 시각적 영역을 동적으로 참조함으로써 시각적 근거 추론을 선도합니다. 그러나 이러한 능력을 종합적으로 평가할 수 있는 벤치마크는 존재하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 TreeBench(Traceable Evidence Evaluation Benchmark)를 제안합니다. 이 진단 벤치마크는 세 가지 원칙에 기반을 두고 있습니다: (1) 복잡한 장면에서 미묘한 대상에 대한 집중된 시각적 인지, (2) 바운딩 박스 평가를 통한 추적 가능한 증거, (3) 단순한 객체 위치 지정을 넘어 객체 상호작용과 공간적 계층 구조를 테스트하는 2차 추론. 밀집된 객체가 있는 이미지를 우선적으로 고려하여, SA-1B에서 초기에 1,000개의 고품질 이미지를 샘플링하고, 8명의 LMM 전문가를 통해 각 이미지에 대한 질문, 후보 옵션, 그리고 답변을 수동으로 주석 처리합니다. 세 단계의 품질 관리 과정을 거친 후, TreeBench는 405개의 도전적인 시각적 질문-답변 쌍으로 구성되며, 가장 진보된 모델들도 이 벤치마크에서 60%의 정확도를 달성하지 못합니다. 예를 들어, OpenAI-o3는 단 54.87점을 기록합니다. 더 나아가, 우리는 TreeVGR(Traceable Evidence Enhanced Visual Grounded Reasoning)를 소개합니다. 이는 강화 학습을 통해 위치 지정과 추론을 공동으로 감독하는 훈련 패러다임으로, 정확한 위치 지정과 설명 가능한 추론 경로를 가능하게 합니다. Qwen2.5-VL-7B로 초기화된 TreeVGR는 V* Bench(+16.8), MME-RealWorld(+12.6), 그리고 TreeBench(+13.4)에서 개선된 성능을 보여주며, 추적 가능성이 시각적 근거 추론을 발전시키는 데 핵심임을 입증합니다. 코드는 https://github.com/Haochen-Wang409/TreeVGR에서 확인할 수 있습니다.
최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 시각과 언어를 통합하여 복잡한 추론을 수행하는 데 있어 놀라운 능력을 보여주고 있습니다. 기존 대부분의 벤치마크는 사전에 기록된 고정된 입력 세트를 사용하여 오프라인 설정에서 모델을 평가하지만, 우리는 OST-Bench를 소개합니다. 이 벤치마크는 에이전트가 장면을 능동적으로 탐색하는 관점에서 온라인 시공간 이해를 평가하도록 설계되었습니다. '온라인' 측면은 점진적으로 획득된 관찰을 처리하고 추론할 필요성을 강조하며, '시공간' 구성 요소는 현재의 시각적 입력과 과거의 기억을 통합하여 동적인 공간 추론을 지원해야 합니다. OST-Bench는 실제 세계의 체화된 인식이 직면하는 도전을 더 잘 반영합니다. 효율적인 데이터 수집 파이프라인을 기반으로 구축된 OST-Bench는 ScanNet, Matterport3D, ARKitScenes에서 수집된 1.4k개의 장면과 10k개의 질문-답변 쌍으로 구성됩니다. 우리는 OST-Bench에서 여러 선도적인 MLLMs를 평가했으며, 복잡한 시공간 추론이 필요한 작업에서 이들이 부족함을 관찰했습니다. 온라인 설정에서 탐색 범위가 확장되고 기억이 증가함에 따라 정확도가 감소했습니다. 추가적인 실험적 분석을 통해 모델 간의 공통적인 오류 패턴을 식별했으며, 복잡한 단서 기반 공간 추론 요구사항과 장기 기억 검색 요구사항이 두 개의 별도 축에서 모델 성능을 크게 저하시키는 것을 발견했습니다. 이는 온라인 체화된 추론을 개선하기 위해 해결해야 할 핵심 과제를 강조합니다. 해당 분야의 연구와 개발을 촉진하기 위해 우리의 코드, 데이터셋, 벤치마크를 공개합니다. 프로젝트 페이지는 https://rbler1234.github.io/OSTBench.github.io/에서 확인할 수 있습니다.
비디오 대형 언어 모델(LLMs)은 다수의 시공간 토큰을 활용하여 강력한 비디오 이해 능력을 달성하지만, 토큰 수에 따른 이차 계산 복잡도 문제를 겪습니다. 이를 해결하기 위해, 우리는 훈련이 필요 없는 시공간 토큰 병합 방법인 STTM을 제안합니다. 우리의 핵심 통찰은 기존 연구에서 간과되었던 비디오 데이터의 지역적 공간 및 시간적 중복성을 활용하는 것입니다. STTM은 먼저 각 프레임을 쿼드트리 구조에 대한 거친-세밀 탐색을 통해 다중 세분화 공간 토큰으로 변환한 다음, 시간 차원에서 방향성 있는 쌍별 병합을 수행합니다. 이 분해된 병합 접근법은 6개의 비디오 질의응답 벤치마크에서 기존 토큰 축소 방법들을 능가합니다. 특히, STTM은 50% 토큰 예산 하에서 단 0.5%의 정확도 하락으로 2배의 속도 향상을 달성하며, 30% 예산 하에서도 2%의 하락으로 3배의 속도 향상을 보입니다. 또한, STTM은 질의에 독립적이어서 동일 비디오에 대해 다른 질문들 간에 KV 캐시 재사용이 가능합니다. 프로젝트 페이지는 https://www.jshyun.me/projects/sttm에서 확인할 수 있습니다.
비디오는 본질적으로 동적인 3D 세계의 2D 투영을 나타냅니다. 그러나 우리의 분석에 따르면, 원시 비디오 데이터만으로 훈련된 비디오 확산 모델은 종종 학습된 표현에서 의미 있는 기하학적 구조를 포착하지 못합니다. 비디오 확산 모델과 물리적 세계의 근본적인 3D 특성 간의 격차를 해소하기 위해, 우리는 Geometry Forcing이라는 간단하지만 효과적인 방법을 제안합니다. 이 방법은 비디오 확산 모델이 잠재적인 3D 표현을 내재화하도록 유도합니다. 우리의 핵심 통찰은 사전 훈련된 기하학적 기초 모델의 특징과 중간 표현을 정렬함으로써 모델의 중간 표현을 기하학적 구조를 인지하는 방향으로 유도하는 것입니다. 이를 위해 우리는 두 가지 상호 보완적인 정렬 목표를 도입합니다: 코사인 유사성을 통해 방향 일관성을 강제하는 Angular Alignment와 정규화된 확산 표현에서 비정규화된 기하학적 특징을 회귀함으로써 스케일 관련 정보를 보존하는 Scale Alignment입니다. 우리는 Geometry Forcing을 카메라 뷰 조건 및 동작 조건 비디오 생성 작업에서 평가합니다. 실험 결과는 우리의 방법이 기준 방법들에 비해 시각적 품질과 3D 일관성을 크게 향상시킨다는 것을 보여줍니다. 프로젝트 페이지: https://GeometryForcing.github.io.
LLM(Large Language Model)은 점차 에이전트, 즉 계획을 세우고 추론하며 외부 도구를 동적으로 호출할 수 있는 시스템으로 배치되고 있다. 그러나 시각적 추론 분야에서 기존 접근법은 주로 사전 정의된 워크플로우와 정적 도구 세트에 제한되어 있다. 본 보고서에서는 PyVision을 소개한다. PyVision은 MLLM(Multimodal Large Language Model)이 주어진 작업에 맞춰 Python 기반 도구를 자율적으로 생성, 실행, 개선할 수 있도록 하는 인터랙티브 멀티턴 프레임워크로, 유연하고 해석 가능한 문제 해결을 가능하게 한다. 우리는 PyVision에 의해 생성된 도구의 분류 체계를 개발하고 다양한 벤치마크에서의 사용 패턴을 분석한다. 정량적으로, PyVision은 일관된 성능 향상을 달성하며, V*에서 GPT-4.1의 성능을 +7.8% 향상시키고, VLMsAreBlind-mini에서 Claude-4.0-Sonnet의 성능을 +31.1% 향상시켰다. 이러한 결과는 더 넓은 변화를 시사한다: 동적 도구 사용은 모델이 단순히 도구를 사용하는 것을 넘어 도구를 발명할 수 있게 함으로써, 더 에이전트적인 시각적 추론으로 나아가게 한다.
본 논문에서는 고차원 특징 스플래팅을 476.2 FPS로, 고해상도 이미지에 대한 3D 오픈-보컬러리 텍스트 쿼리를 384.6 FPS로 달성한 LangSplatV2를 소개한다. 이는 LangSplat 대비 각각 42배의 속도 향상과 47배의 성능 향상을 제공하며, 쿼리 정확도도 개선되었다. LangSplat은 2D CLIP 언어 특징을 3D로 임베딩하기 위해 가우시안 스플래팅을 사용하여 속도를 크게 향상시키고, SAM 의미론을 통해 정밀한 3D 언어 필드를 학습한다. 이러한 3D 언어 필드의 발전은 복잡한 장면 내에서 언어 상호작용이 필요한 애플리케이션에 매우 중요하다. 그러나 LangSplat은 고성능 A100 GPU를 사용하더라도 실시간 추론 성능(8.2 FPS)을 달성하지 못해, 더 넓은 적용이 심각하게 제한되고 있다. 본 논문에서는 먼저 LangSplat의 상세한 시간 분석을 수행하여, 주요 속도 병목 현상이 무거운 디코더에 있음을 확인했다. 우리의 해결책인 LangSplatV2는 각 가우시안이 전역 사전 내의 희소 코드로 작동한다고 가정하여, 무거운 디코더의 필요성을 완전히 제거한 3D 희소 계수 필드를 학습한다. 이러한 희소성을 활용하여, 우리는 CUDA 최적화와 함께 효율적인 희소 계수 스플래팅 방법을 추가로 제안한다. 이 방법은 초저차원 특징을 스플래팅하는 시간 비용만으로도 고품질의 고차원 특징 맵을 렌더링한다. 우리의 실험 결과는 LangSplatV2가 더 나은 또는 경쟁력 있는 쿼리 정확도를 달성할 뿐만 아니라, 훨씬 더 빠르다는 것을 보여준다. 코드와 데모는 프로젝트 페이지(https://langsplat-v2.github.io)에서 확인할 수 있다.
비디오 생성 모델에서 상당한 진전이 있었음에도 불구하고, 현재 최첨단 기술로도 5~16초 길이의 비디오만 생성할 수 있으며, 이를 종종 "장편 비디오"로 분류합니다. 더욱이, 16초를 초과하는 비디오는 내러티브 전반에 걸쳐 일관된 캐릭터 외모와 장면 구성을 유지하는 데 어려움을 겪습니다. 특히, 다중 주체를 다루는 장편 비디오는 여전히 캐릭터 일관성과 움직임의 일관성을 유지하지 못하고 있습니다. 일부 방법론은 최대 150초 길이의 비디오를 생성할 수 있지만, 프레임 중복과 낮은 시간적 다양성 문제를 자주 겪습니다. 최근 연구에서는 다중 캐릭터, 내러티브 일관성, 그리고 고해상도 디테일을 갖춘 장편 비디오를 생성하려는 시도가 이루어졌습니다. 우리는 이러한 특성을 일관되게 달성하는 주요 아키텍처 구성 요소와 훈련 전략을 식별하기 위해 비디오 생성 관련 32편의 논문을 포괄적으로 연구했습니다. 또한, 기존 방법론을 체계적으로 분류한 새로운 분류 체계를 구축하고, 아키텍처 설계와 성능 특성에 따라 논문을 분류한 비교 표를 제시합니다.
미리 학습된 신경망이 파인튜닝 없이도 다양한 입력에 맞춰 아키텍처를 조정할 수 있을까? 간단한 작업에는 모든 레이어가 필요한지, 그리고 어려운 작업에 충분한지에 대해 우리는 연구를 진행했다. 우리는 미리 학습된 대규모 언어 모델(LLM)의 각 레이어를 별도의 모듈로 조작하여 각 테스트 샘플에 맞춤화된 더 나은, 심지어 더 얕은 모델을 구축할 수 있음을 발견했다. 특히, 미리 학습된 모델의 각 레이어는 건너뛰거나(pruned) 반복 신경망(RNN)처럼 여러 번 반복될 수 있으며, 임의의 순서로 다른 레이어와 결합되어 샘플별로 체인 오브 레이어(CoLa)를 형성할 수 있다. 이 조합 공간은 기존의 루프/반복 미리 학습 모듈, 레이어 프루닝, 또는 조기 종료 네트워크 연구의 범위를 크게 확장한다. 우리는 수학 및 상식 추론 벤치마크에서 각 샘플에 대한 최적의 CoLa를 탐색하고 식별하기 위해 몬테카를로 트리 탐색(MCTS) 프로토콜을 개발했다. 고정 깊이의 정적 모델과 비교했을 때, CoLa는 단축 경로(빠른 사고), 동일한 레이어의 반복(느린 사고), 그리고 둘을 결합하는 것을 허용하여 다양한 입력에 대해 더 유연하고 동적인 아키텍처를 제공한다. 우리는 MCTS로 최적화된 CoLa에 대한 광범위한 분석을 수행했으며, 두 가지 주요 발견을 얻었다: (1) 원래 LLM이 정확히 예측한 샘플의 75% 이상에서 더 짧은 CoLa를 찾을 수 있었으며, 이는 추론 효율성을 개선할 수 있는 큰 공간이 있음을 시사한다; (2) 원래 잘못된 예측을 한 샘플의 60% 이상에서 정확한 예측을 달성하는 CoLa를 식별할 수 있었으며, 이는 성능 향상의 큰 가능성을 시사한다. 우리의 결과는 미리 학습된 LLM의 고정 아키텍처를 다양한 샘플에 대한 추론에 사용하는 것의 한계를 강조하며, 테스트 시 깊이 적응의 일반화 능력을 해제할 수 있는 길을 열어준다.
동적 장면에서 간결하고 시간적 인식이 가능한 시각적 표현을 도출하는 것은 시각적 추적 및 로봇 조작과 같은 순차적 장면 이해 작업의 성공적 수행에 필수적입니다. 본 논문에서는 Token Bottleneck(ToBo)을 소개합니다. ToBo는 간단하면서도 직관적인 자기 지도 학습 파이프라인으로, 장면을 병목 토큰으로 압축하고 최소한의 패치를 힌트로 사용하여 후속 장면을 예측합니다. ToBo 파이프라인은 squeeze 단계에서 참조 장면을 간결한 병목 토큰으로 보수적으로 인코딩함으로써 순차적 장면 표현 학습을 용이하게 합니다. expansion 단계에서는 병목 토큰과 몇 개의 타겟 패치를 힌트로 사용하여 타겟 장면을 예측하도록 모델을 안내함으로써 시간적 역학을 포착하도록 합니다. 이 설계는 비전 백본이 시간적 의존성을 임베딩하도록 장려하여 장면 간의 동적 전환을 이해할 수 있게 합니다. 비디오 레이블 전파 및 시뮬레이션 환경에서의 로봇 조작을 포함한 다양한 순차적 작업에서의 광범위한 실험은 ToBo가 기준선을 능가하는 우수성을 입증합니다. 또한, 사전 훈련된 모델을 물리적 로봇에 배포하여 실제 환경에서의 견고성과 효과성을 확인했습니다. 우리는 또한 ToBo의 다양한 모델 규모에 걸친 확장성을 추가로 검증합니다.
최근 몇 년 동안 언어 모델(LMs)에서 놀라운 발전이 이루어졌으며, 이는 특정 작업을 위해 설계된 전문화된 모델에서 벗어나 강력한 아키텍처(예: Transformer)를 기반으로 원시 데이터에서 모든 것을 학습하는 일반 모델로 전환한 결과로 크게 기인합니다. 그러나 토큰화와 같은 전처리 단계는 진정한 엔드투엔드 기반 모델로 나아가는 데 있어 여전히 장벽으로 남아 있습니다. 본 연구에서는 모델의 나머지 부분과 함께 학습되는 콘텐츠 및 컨텍스트에 의존한 세그멘테이션 전략을 자동으로 학습하는 동적 청킹 메커니즘을 가능하게 하는 새로운 기술들을 소개합니다. 이를 명시적 계층적 네트워크(H-Net)에 통합함으로써 (암묵적으로 계층적인) 토큰화-LM-디토큰화 파이프라인을 완전히 엔드투엔드로 학습된 단일 모델로 대체할 수 있습니다. 컴퓨팅 및 데이터가 동일한 조건에서, 바이트 수준에서 작동하는 한 단계의 계층을 가진 H-Net은 BPE 토큰을 사용하는 강력한 Transformer 언어 모델을 능가합니다. 계층을 여러 단계로 반복함으로써 다중 수준의 추상화를 모델링하여 성능을 더욱 향상시키며, 데이터에 대한 더 나은 확장성을 보여주고 크기가 두 배인 토큰 기반 Transformer와 동등한 성능을 달성합니다. 영어로 사전 학습된 H-Net은 문자 수준의 견고성이 크게 증가하며, 어떠한 휴리스틱이나 명시적 감독 없이도 의미 있는 데이터 의존적 청킹 전략을 질적으로 학습합니다. 마지막으로, H-Net의 토큰화 파이프라인에 대한 개선은 중국어, 코드, 또는 DNA 시퀀스와 같이 토큰화 휴리스틱이 약한 언어 및 모달리티에서 더욱 증가하며(기준선 대비 데이터 효율성에서 거의 4배의 개선), 처리되지 않은 데이터에서 더 잘 학습하고 확장할 수 있는 진정한 엔드투엔드 모델의 잠재력을 보여줍니다.
철학자 해리 프랑크푸르트가 개념화한 '헛소리(bullshit)'는 진실 여부를 고려하지 않고 이루어지는 진술을 의미한다. 기존 연구에서는 대형 언어 모델(LLM)의 환각(hallucination)과 아첨(sycophancy) 현상을 탐구해왔지만, 우리는 LLM에서 나타나는 진실성 상실의 광범위한 현상을 설명하고 그 근본적인 메커니즘을 밝히기 위한 포괄적인 개념적 틀로서 '기계 헛소리(machine bullshit)'를 제안한다. 우리는 LLM의 진실에 대한 무관심을 정량화하는 새로운 지표인 '헛소리 지수(Bullshit Index)'를 소개하고, 네 가지 질적 형태의 헛소리(공허한 수사, 모호한 언급, 회피적 표현, 검증되지 않은 주장)를 분석하는 보완적 분류 체계를 제안한다. 우리는 기계 헛소리를 평가하기 위해 명시적으로 설계된 Marketplace 데이터셋, 정치적 중립성 데이터셋, 그리고 새로운 벤치마크인 BullshitEval(100개의 AI 어시스턴트를 아우르는 2,400개 시나리오)을 통해 실증적 평가를 수행했다. 연구 결과, 인간 피드백을 통한 강화 학습(RLHF)을 통한 모델 미세 조정은 헛소리를 현저히 악화시키며, 추론 시 사고 연쇄(CoT) 프롬프트는 특히 공허한 수사와 모호한 언급과 같은 특정 헛소리 형태를 두드러지게 증폭시킨다는 것을 확인했다. 또한 정치적 맥락에서 기계 헛소리가 널리 관찰되었으며, 회피적 표현이 주요 전략으로 사용되고 있음을 발견했다. 우리의 연구 결과는 AI 정렬(alignment)에서의 체계적 도전 과제를 강조하며, 더 진실된 LLM 행동을 위한 새로운 통찰을 제공한다.
대부분의 최첨단 시각-언어 모델(VLMs)은 추상적 추론 작업에서 시각적 임베딩의 선형 분리 가능성에 의해 제한되는 것으로 보입니다. 본 연구는 "선형 추론 병목 현상"을 조사하기 위해 VLM의 시각적 임베딩에 대한 간단한 선형 분류기의 성능인 선형 분리 한계(LSC)를 도입합니다. 우리는 이 병목 현상이 널리 퍼져 있으며, 열악한 인식에서 비롯된 것이 아니라 언어 모델의 추론 경로에서의 실패에서 비롯된다는 것을 발견했습니다. 우리는 이것이 해결 가능한 정렬 문제임을 입증합니다. 그러나 필요한 개입은 작업에 따라 다릅니다: 의미적 개념의 경우 기존 경로를 활성화하는 것으로 충분하지만, 복잡한 관계적 추론은 핵심 모델 가중치를 조정해야 합니다. 방법론적 통제로서 포스트픽스 튜닝을 사용하여, 우리는 VLM 내에 강력하지만 잠재된 추론 경로가 존재한다는 강력한 증거를 발견했습니다. 그러나 더 깊은 적응이 필요한 복잡한 관계적 작업의 경우, 표현 품질을 명시적으로 개선하면 임베딩이 여전히 잘 분리되어 있음에도 불구하고 새로운 프롬프트 형식에서 모델이 실패합니다. 궁극적으로, 이 연구는 강력한 추론이 단순히 개선된 표현 학습이 아니라 목표 지향적 정렬의 문제임을 보여주며, VLM 분석을 위한 새로운 관점을 제공합니다.
AI 에이전트의 급속한 발전은 이를 활용해 과학적 발견을 가속화하려는 오랜 야망을 불러일으켰습니다. 이 목표를 달성하기 위해서는 인간 지식의 최전선에 대한 깊은 이해가 필요합니다. 이에 따라 '휴머니티의 마지막 시험(Humanity's Last Exam, HLE)'은 과학적 AI 에이전트를 평가하기 위한 매우 도전적인 기준을 제공합니다. 본 연구에서는 범용 에이전트를 위한 기초 아키텍처를 구축하고 HLE에서 선두 성적을 통해 그 역량을 검증하는 것을 목표로 합니다. 이를 위해 우리는 X-Master를 소개합니다. 이는 추론 과정에서 외부 도구와 유연하게 상호작용함으로써 인간 연구자를 모방하도록 설계된 도구 강화 추론 에이전트입니다. 코드를 상호작용 언어로 개념화하는 방식으로 안내되는 이 에이전트는 내장된 Python 라이브러리와 맞춤형 도구를 유연하게 활용하여 추론을 강화할 수 있습니다. 우리는 또한 X-Masters라는 분산-스택형 에이전트 워크플로를 통해 그 역량을 확장하여 추론의 폭과 깊이를 체계적으로 향상시켰습니다. 우리의 오픈소스 솔루션인 X-Masters는 HLE에서 32.1%의 점수를 기록하며 OpenAI와 Google의 Deep Research(각각 26.6%와 26.9%)를 능가하고, 최초로 30% 문턱을 넘어섰습니다. 이 작업은 복잡한 문제 해결에 대한 깊은 이해를 가능하게 하고, 향후 발전을 위한 귀중한 경험을 축적하여 후속 모델 훈련에 기여할 수 있습니다.
신경망 오디오 코덱과 오토인코더는 오디오 압축, 전송, 특징 추출, 잠재 공간 생성 등 다양한 작업을 위한 다목적 모델로 부상했습니다. 그러나 대부분의 모델이 재구성 정확도를 극대화하도록 훈련되어 있어 다양한 하위 작업에서 최적의 성능을 발휘하기 위해 필요한 특정 잠재 구조를 간과하는 주요 한계가 존재합니다. 본 연구에서는 사전 훈련된 오토인코더의 병목 부분을 수정하여 이를 해결하기 위한 간단한 사후 처리 프레임워크를 제안합니다. 우리의 방법은 사용자 정의 구조를 주입하기 위해 잠재 공간 손실만을 통해 훈련되는 내부 병목인 "리-병목(Re-Bottleneck)"을 도입합니다. 이 프레임워크의 효과를 세 가지 실험을 통해 입증합니다. 첫째, 재구성 품질을 희생하지 않고 잠재 채널에 순서를 부여합니다. 둘째, 잠재 변수를 의미론적 임베딩과 정렬하여 하위 확산 모델링에 미치는 영향을 분석합니다. 셋째, 등변성을 도입하여 입력 파형에 대한 필터링 작업이 잠재 공간에서 특정 변환과 직접적으로 대응되도록 합니다. 궁극적으로, 우리의 리-병목 프레임워크는 신경망 오디오 모델의 표현을 맞춤화할 수 있는 유연하고 효율적인 방법을 제공하며, 최소한의 추가 훈련으로 다양한 애플리케이션의 요구를 원활하게 충족할 수 있게 합니다.
대규모 언어 모델(LLM)을 확장하기 위한 현재의 패러다임은 단일체적이고 종단 간(end-to-end) 훈련에 기반을 두고 있으며, 이는 유연성이 부족한 자원 집약적인 과정입니다. 본 논문은 비훈련 가능하고 결정론적인 입력 임베딩을 기반으로 한 대안적이고 구성적인 모델 개발 접근법을 탐구합니다. 이전 연구[1]에서 우리는 유니코드 글리프의 시각적 구조에서 도출된 고정된 임베딩을 사용하여 트랜스포머에서 고차원적인 의미론적 추론이 발생할 수 있음을 입증했습니다. 여기서 우리는 이러한 고정된 표현 기반이 보편적인 "도킹 포트" 역할을 하여 두 가지 강력하고 효율적인 확장 패러다임을 가능하게 한다는 것을 보여줍니다: 원활한 모듈식 구성과 점진적인 계층적 성장입니다. 먼저, 서로 다른 데이터셋(예: 러시아어 및 중국어 텍스트)에 대해 훈련된 전문가 모델들이 훈련 후에 아키텍처 수정 없이 단일한 Mixture-of-Experts(MoE) 모델로 통합될 수 있음을 보여줍니다. 이는 단순히 출력 로짓을 평균화함으로써 달성됩니다. 결과적으로 생성된 MoE 모델은 MMLU와 같은 추론 벤치마크에서 즉각적인 성능 향상을 보이며, 구성 요소 전문가들을 능가하면서도 치명적인 망각(catastrophic forgetting) 없이 이를 달성합니다. 둘째, 우리는 깊은 트랜스포머를 한 번에 하나의 계층을 점진적으로 쌓아가며 훈련시키는 계층적 구성적 훈련 방법론을 소개합니다. 이 방법은 안정적인 수렴과 모델 깊이와 복잡한 추론 능력(예: SQuAD에 필요한 능력)의 출현 사이의 명확한 상관관계를 보여줍니다. 우리의 연구 결과는 단일체적 최적화에서 생물학적 또는 구성적인 AI 개발 모델로의 패러다임 전환을 시사합니다. 여기서 복잡성은 점진적으로 구축되고 모듈은 자유롭게 구성될 수 있습니다. 이는 자원 효율적인 확장, 지속 학습, 그리고 강력한 AI 시스템을 구축하기 위한 보다 민주화된 생태계를 위한 새로운 길을 열어줍니다. 우리는 추가 연구를 촉진하기 위해 모든 코드와 모델을 공개합니다.
대규모 언어 모델(LLM)에서 의미 표현의 위치를 이해하는 것은 해석 가능성과 아키텍처 혁신에 있어 매우 중요합니다. 기존의 지배적인 패러다임은 학습 가능한 입력 임베딩이 기본적인 "의미 벡터" 역할을 한다고 주장합니다. 본 논문은 이러한 관점에 도전합니다. 우리는 임베딩 층이 완전히 고정되고, 데이터가 아닌 유니코드 글리프의 시각적 구조에서 파생된 벡터를 사용하는 트랜스포머 모델을 구축했습니다. 이러한 비의미적이고 사전 계산된 시각적 임베딩은 학습 과정 내내 고정됩니다. 우리의 방법은 어떤 토크나이저와도 호환되며, 특히 모든 텍스트를 포괄할 수 있도록 설계된 새로운 유니코드 중심 토크나이저를 도입했습니다. 학습 가능하고 의미론적으로 초기화된 임베딩이 없음에도 불구하고, 우리의 모델은 수렴하고 일관된 텍스트를 생성하며, 특히 MMLU 추론 벤치마크에서 동일한 아키텍처를 가진 학습 가능한 임베딩 모델을 능가했습니다. 우리는 이를 기존 모델에서 임베딩 층이 구조적 특징과 의미적 특징을 동시에 학습해야 하는 "표현 간섭" 때문으로 해석합니다. 우리의 결과는 고수준의 의미가 입력 임베딩에 내재된 것이 아니라 트랜스포머의 구성적 아키텍처와 데이터 규모에서 나타나는 현상임을 시사합니다. 이는 임베딩의 역할을 의미의 담지자에서 구조적 기본 요소로 재정의합니다. 우리는 모든 코드와 모델을 공개하여 추가 연구를 촉진하고자 합니다.