번역이 포함된 일일 선별된 AI 연구 논문
모든 에이전트 상호작용은 다음 상태 신호, 즉 사용자 응답, 도구 출력, 터미널 또는 GUI 상태 변화와 같은 액션 이후의 결과를 생성합니다. 그러나 기존의 에이전트 강화학습 시스템은 이를 실시간 온라인 학습 소스로 활용하지 못했습니다. 우리는 OpenClaw-RL을 제안합니다. 이 프레임워크는 단순한 관찰에 기반합니다: 다음 상태 신호는 보편적이며, 정책은 이들을 동시에 학습할 수 있습니다. 개인 대화, 터미널 실행, GUI 상호작용, SWE 작업, 도구 호출 추적은 별개의 훈련 문제가 아닙니다. 이들은 모두 동일한 루프에서 동일한 정책을 훈련하는 데 사용될 수 있는 상호작용입니다. 다음 상태 신호는 두 가지 형태의 정보를 인코딩합니다: 평가 신호는 액션 수행 정도를 나타내며 PRM 평가자를 통해 스칼라 보상으로 추출됩니다; 지시 신호는 액션이 어떻게 달라져야 하는지를 나타내며 후견 안내 온-정책 증류를 통해 복원됩니다. 우리는 다음 상태에서 텍스트 단서를 추출하고 강화된 교사 컨텍스트를 구성하며, 어떤 스칼라 보상보다 풍부한 토큰 수준의 방향성 이점 지도를 제공합니다. 비동기 설계 덕분에 모델은 실시간 요청을 처리하고, PRM은 진행 중인 상호작용을 평가하며, 트레이너는 정책을 동시에 업데이트합니다. 이들 간 조정 오버헤드는 전혀 없습니다. 개인 에이전트에 적용 시, OpenClaw-RL은 에이전트가 단순히 사용됨으로써 개선되게 하며, 사용자 재질의, 수정, 명시적 피드백에서 대화 신호를 복원합니다. 일반 에이전트에 적용 시, 동일한 인프라가 터미널, GUI, SWE, 도구 호출 환경에서 확장 가능한 강화학습을 지원하며, 여기서 우리는 프로세스 보상의 유용성을 추가로 입증합니다. 코드: https://github.com/Gen-Verse/OpenClaw-RL
k-means는 역사적으로 주로 오프라인 처리 기본 요소로 위치해 왔으며, 온라인 시스템의 주요 구성 요소라기보다는 데이터셋 구성이나 임베딩 전처리에 일반적으로 사용되었습니다. 본 연구에서는 현대 AI 시스템 설계의 관점에서 이 고전적인 알고리즘을 재조명하고 k-means를 온라인 기본 요소로 구현합니다. 우리는 기존 GPU k-means 구현이 이론적 알고리즘 복잡성보다는 낮은 수준의 시스템 제약에 의해 근본적으로 병목 현상이 발생한다는 점을 지적합니다. 구체적으로, 할당 단계는 고대역폭 메모리(HBM) 내 N x K 거리 행렬의 방대한 명시적 구체화로 인해 심각한 입출력 병목 현상을 겪습니다. 동시에, 센트로이드 업데이트 단계는 불규칙하고 분산형 스타일의 토큰 집계로 인한 하드웨어 수준의 원자적 쓰기 경합으로 인해 심각한 성능 저하가 발생합니다. 이러한 성능 격차를 해결하기 위해 우리는 현대 GPU 워크로드를 위한 입출력 인식 및 경합 없는 k-means 구현체인 flash-kmeans를 제안합니다. Flash-kmeans는 두 가지 핵심 커널 수준 혁신을 도입합니다: (1) 중간 메모리 구체화를 완전히 우회하기 위해 거리 계산과 온라인 argmin을 융합한 FlashAssign; (2) 높은 경합을 일으키는 원자적 분산 연산을 고대역폭의 세그먼트 수준 지역적 리덕션으로 변환하기 위해 명시적 역매핑을 구성하는 정렬-역방향 업데이트. 더 나아가 실제 배포 가능성을 보장하기 위해 청크 스트림 중첩 및 캐시 인식 컴파일 휴리스틱을 포함한 알고리즘-시스템 공동 설계를 통합했습니다. NVIDIA H200 GPU에서의 광범위한 평가 결과, flash-kmeans가 최고의 기준선 대비 최대 17.9배의 종단 간 속도 향상을 달성했으며, cuML 및 FAISS와 같은 산업 표준 라이브러리보다 각각 33배, 200배 이상 우수한 성능을 보여주었습니다.
구현형 AI 모델의 성능이 향상됨에 따라 인간은 미래에 직장이나 가정에서 여러 구현형 AI 에이전트와 협업하게 될 것입니다. 인간 사용자와 다중 에이전트 시스템 간의 원활한 의사소통을 보장하기 위해서는 에이전트로부터 동시에 수신되는 정보를 해석하고 각 질의에 적합한 맥락을 참조하는 것이 중요합니다. 기존 과제로는 비디오 형태의 개별 감각 입력 정보를 효과적으로 압축하고 전달하는 것, 그리고 시스템 수준의 메모리를 구축하기 위해 여러 에이전트 중심(egocentric) 비디오를 정확하게 통합하는 문제가 있습니다. 본 연구에서는 구현형 에이전트로부터 동시에 수집된 여러 장기(Long-Horizon) 에이전트 중심 비디오를 이해하는 새로운 문제를 먼저 공식적으로 정의합니다. 이 방향의 연구를 촉진하기 위해 우리의 시나리오에서 기존 모델을 체계적으로 평가하도록 설계된 벤치마크인 MultiAgent-EgoQA(MA-EgoQA)를 소개합니다. MA-EgoQA는 사회적 상호작용, 작업 조정, 마음이론, 시간적 추론, 환경 상호작용의 다섯 가지 범주에 걸쳐 여러 에이전트 중심 스트림에 고유한 1,700개의 질문을 제공합니다. 우리는 또한 구현형 에이전트 간의 공유 메모리와 에이전트 단위 동적 검색을 활용하는 EgoMAS라는 MA-EgoQA용 간단한 기준 모델을 제안합니다. MA-EgoQA에 대한 다양한 기준 모델과 EgoMAS의 포괄적 평가를 통해, 우리는 현재의 접근 방식이 여러 에이전트 중심 스트림을 효과적으로 처리하지 못함을 발견했으며, 이는 에이전트 간 시스템 수준 이해에 대한 향후 발전의 필요성을 강조합니다. 코드와 벤치마크는 https://ma-egoqa.github.io에서 확인할 수 있습니다.
LLM 기반 텍스트 임베더는 일반적으로 입력의 의미적 내용을 인코딩합니다. 그러나 임베딩 작업은 다양한 입력을 유사한 출력에 매핑해야 합니다. 일반적으로 이러한 입력-출력 문제는 대조 학습을 사용하여 짝을 이룬 데이터로 임베딩 모델을 훈련시킴으로써 해결됩니다. 본 연구에서는 새로운 자기 지도 접근법인 LLM2Vec-Gen을 제안하며, 이는 입력을 인코딩하는 대신 모델의 잠재적 응답을 표현하도록 학습하는 다른 패러다임을 채택합니다. 구체적으로, 우리는 LLM의 어휘 사전에 훈련 가능한 특수 토큰을 추가하고 이를 입력에 첨부한 후, 이 토큰들이 LLM의 응답을 고정 길이 시퀀스로 표현하도록 최적화합니다. 훈련은 쿼리에 대한 LLM 자체의 완성본과 함께, 증류 목표를 제공하는 비지도 임베딩 교사 모델에 의해 안내됩니다. 이 공식화는 입력-출력 간격을 해소하는 데 도움이 되며, 안전성 정렬 및 추론과 같은 LLM의 능력을 임베딩 작업으로 전이시킵니다. 중요한 점은 LLM 백본은 동결된 상태로 유지되며 훈련에는 레이블이 없는 쿼리만 필요하다는 것입니다. LLM2Vec-Gen은 Massive Text Embedding Benchmark(MTEB)에서 최첨단 자기 지도 성능을 달성하여 최고의 비지도 임베딩 교사 모델 대비 9.3% 향상되었습니다. 또한 유해 콘텐츠 검색이 최대 43.2% 감소하고 임베딩 작업의 추론 능력이 29.3% 향상된 것을 관찰했습니다. 마지막으로, 학습된 임베딩은 해석이 가능하며 텍스트로 디코딩되어 그 의미적 내용을 드러낼 수 있습니다.
로우랭크 어댑터(LoRA)는 사전 학습된 모델을 새로운 작업에 적응시키기 위해 훈련 가능한 로우랭크 행렬을 주입하는 파라미터 효율적 미세조정 기법입니다. LoRA 혼합 모델은 각 계층 입력을 해당 계층의 전문 LoRA 소규모 하위 집합으로 라우팅하여 신경망을 효율적으로 확장합니다. 기존 LoRA 혼합 라우터는 각 LoRA에 학습된 라우팅 가중치를 할당하여 라우터의 종단간 학습을 가능하게 합니다. 이러한 방법론이 경험적으로 유망함에도 불구하고, 실제로는 라우팅 가중치가 LoRA 간에 극도로 불균형하여 종종 하나 또는 두 개의 LoRA만이 라우팅 가중치를 지배하는 현상을 관찰합니다. 이는 본질적으로 유효한 LoRA의 수를 제한하여 기존 LoRA 혼합 모델의 표현력을 심각하게 저해합니다. 본 연구에서는 이러한 약점이 학습 가능한 라우팅 가중치의 본질에서 기인한다고 보고 라우터의 근본적 설계를 재고합니다. 이 중요한 문제를 해결하기 위해 우리는 ReMix(Reinforcement Routing for Mixture-of-LoRAs)라고 명명한 새로운 라우터 설계를 제안합니다. 우리의 핵심 아이디어는 비학습적(non-learnable) 라우팅 가중치를 사용하여 특정 LoRA가 라우팅 가중치를 지배하지 않도록 하면서 모든 활성 LoRA가 동등하게 효과를 발휘하도록 보장하는 것입니다. 그러나 비학습적 라우팅 가중치로 인해 우리의 라우터는 경사 하강법을 통해 직접 학습될 수 없습니다. 따라서 우리는 강화 학습에서 감독 손실을 보상으로, 라우터를 정책(policy)으로 간주하는 reinforce leave-one-out(RLOO) 기법을 적용하여 라우터에 대한 편향되지 않은 경사 추정기를 추가로 제안합니다. 우리의 경사 추정기는 훈련 계산량을 확장하여 ReMix의 예측 성능을 향상시키는 것도 가능하게 합니다. 광범위한 실험을 통해 제안된 ReMix가 유사한 수의 활성화된 파라미터 하에서 최신 파라미터 효율적 미세조정 방법들을 크게 능가함을 입증합니다.
대규모 언어 모델(LLM)은 강력한 추론 능력을 보여주지만, 복잡한 작업에서의 성능은 종종 내부 지식의 한계에 의해 제약을 받습니다. 이러한 과제를 극복하기 위한 효과적인 접근법은 외부 도구를 활용하여 모델을 보강하는 것입니다. 예를 들어 수학적 계산을 위한 파이썬 인터프리터나 사실 정보 검색을 위한 검색 엔진이 여기에 해당합니다. 그러나 모델이 이러한 도구를 효과적으로 사용하도록 만드는 것은 여전히 중요한 과제로 남아 있습니다. 기존 방법들은 일반적으로 지도 미세 조정(SFT)으로 시작하여 강화 학습(RL)을 이어가는 콜드-스타트 파이프라인에 의존합니다. 이러한 접근법은 SFT를 위해 상당한 양의 레이블 데이터를 필요로 하는 경우가 많으며, 이 데이터는 주석 처리나 합성에 비용이 많이 듭니다. 본 연구에서는 RL의 롤아웃 단계에서 퓨샷 프롬프팅을 활용하여 SFT 필요성을 제거하는 RL-전용 프레임워크인 In-Context Reinforcement Learning(ICRL)을 제안합니다. 구체적으로 ICRL은 롤아웃 프롬프트 내에 인-컨텍스트 예시를 도입하여 모델이 외부 도구를 호출하는 방법을 학습하도록 합니다. 더 나아가, 훈련이 진행됨에 따라 인-컨텍스트 예시의 수를 점진적으로 줄여 결국 모델이 도구를 독립적으로 호출하는 방법을 학습하는 제로샷 환경에 도달하도록 합니다. 다양한 추론 및 도구 사용 벤치마크를 통해 광범위한 실험을 수행한 결과, ICRL이 최첨단 성능을 달성하여 기존 SFT 기반 파이프라인에 대한 확장성 있고 데이터 효율적인 대안으로서의 효과성을 입증했습니다.
확산 변환기(Diffusion Transformers, DiTs)는 비디오 생성 분야에서 주요 백본으로 자리 잡았으나, 이차 복잡도의 어텐션 비용이 여전히 큰 병목 현상으로 남아 있습니다. 희소 어텐션은 어텐션 블록의 일부만 계산하여 이 비용을 줄입니다. 그러나 기존 방법은 종종 나머지 블록을 제거하여 정보 손실을 초래하거나, 학습된 예측기를 통해 이를 근사화하여 학습 오버헤드와 출력 분포 변화 가능성을 야기했습니다. 본 논문에서는 누락된 기여도를 추가 학습 없이 복구할 수 있음을 보입니다. 의미론적 클러스터링 후 각 블록 내 키와 값은 강한 유사성을 보이며 소수의 클러스터 중심점으로 잘 요약될 수 있습니다. 이 관찰을 바탕으로, 중심점을 사용하여 생략된 블록을 근사화하고 그 기여도를 복구하는 매개변수 없는 선형 보상 브랜치인 SVG-EAR을 제안합니다. 중심점 보상은 대부분의 블록에 대해 정확하지만 소수 블록에서는 실패할 수 있습니다. 일반적인 희소화는 주로 어텐션 점수에 따라 블록을 선택하는데, 이는 모델이 어텐션을 집중시키는 위치는 나타내지만 근사 오차가 가장 클 위치를 나타내지는 않습니다. 따라서 SVG-EAR은 오차 인식 라우팅을 수행합니다. 경량 프로브가 각 블록의 보상 오차를 추정하며, 우리는 생략된 블록을 보상하면서 오차 대 비용 비율이 가장 높은 블록들을 정확하게 계산합니다. 우리는 어텐션 재구성 오차와 클러스터링 품질 간의 관계를 이론적으로 보장하며, SVG-EAR이 품질-효율 트레이드오프를 개선하고 동일한 생성 충실도 하에서 비디오 확산 작업의 처리량을 증가시킴을 실증적으로 보입니다. 전반적으로 SVG-EAR은 기존 접근법 대비 명확한 파레토 최적선을确立하며, Wan2.2와 HunyuanVideo에서 각각 최대 29.759와 31.043의 PSNR을 유지하면서 최대 1.77배 및 1.93배의 속도 향상을 달성합니다.
동적인 현실 세계 맥락에서 작동하는 LLM은 지속적으로 진화하거나 점진적으로 출현하는 지식을 자주 접합니다. 모델이 정확하고 효과적으로 작동하려면 새로 유입되는 정보에 실시간으로 적응해야 합니다. 우리는 이러한 능력을 평가하기 위해 OAKS(Online Adaptation to Continual Knowledge Streams)를 소개하며, 지속적으로 갱신되는 스트리밍 지식에 대한 온라인 적응 능력 벤치마크를 확립합니다. 구체적으로, 이 벤치마크는 시간 간격에 따라 사실이 동적으로 변화하는 세분화된 컨텍스트 청크들의 연속으로 구성됩니다. OAKS는 OAKS-BABI와 OAKS-Novel 두 가지 데이터셋으로 구성되며, 각 데이터셋에서 개별 사실들이 여러 컨텍스트 청크에 걸쳐 여러 번 진화합니다. 이 데이터셋들은 모델이 변화를 정확하게 추적하는지 측정하기 위한 밀집된 주석을 포함합니다. 다양한 추론 방식을 가진 14개의 모델을 평가한 결과, 현재 방법론들의 심각한 한계를 관찰했습니다. 최첨단 모델과 에이전시 기억 시스템 모두 OAKS에서 강건하게 적응하지 못하며, 스트리밍 환경 내에서 상태 추적의 지연과 방해 요소에 대한 취약성을 보여줍니다.
프롬프트 하이라이팅은 대규모 언어 모델이 생성 과정에서 사용자가 지정한 텍스트 범위를 우선적으로 고려하도록 유도하는 기술입니다. 핵심 과제는 관련 컨텍스트와 무관한 컨텍스트 모두에 공통적으로 나타나는 구조적 패턴이 아닌, 양자 간의 차이를 포착하는 방향성(steeering direction)을 추출하는 것입니다. 본 연구에서는 긍정적 및 부정적 교차 공분산 행렬 간의 차이를 분해하여 공유 방향을 제거함과 동시에 판별 에너지를 최대화하는 PRISM-Δ(Projection-based Relevance-Informed Steering Method)를 제안합니다. 각 어텐션 헤드에는 연속적인 소프트플러스(softplus) 중요도 가중치가 부여되어, 약하지만 유용한 헤드도 낮은 강도로 기여할 수 있습니다. 본 프레임워크는 Value 표현으로 자연스럽게 확장되어 Key-Only 방법들이 활용하지 못하는 콘텐츠 채널 신호를 포착합니다. 4개의 벤치마크와 5개의 모델에서 PRISM-Δ는 20개 구성 중 19개에서 기존 최고 방법을 능가하거나 동등한 성능을 보였으며, 상대적 성능 향상은 최대 +10.6%에 달했으며 하이라이팅으로 인한 유창성 저하는 절반으로 감소했습니다. PRISM-Δ는 장문 컨텍스트 검색으로도 확장 적용 가능하며, 기존 최고 방법 대비 최대 +4.8%의 상대적 성능 향상을 보입니다. PRISM-Δ는 FlashAttention과 호환되며 메모리 오버헤드는 무시할 수준입니다.
기존 비디오 개인화 방법은 시각적 유사성을 보존하지만 비디오와 오디오를 별도로 처리합니다. 시각적 장면 정보에 접근할 수 없는 오디오 모델은 화면 속 행동과 사운드를 동기화할 수 없으며, 기존 음성 복제 모델은 참조 녹음 파일에만 조건을 두기 때문에 텍스트 프롬프트로 발화 스타일이나 음향 환경을 제어할 수 없습니다. 본 연구에서는 단일 모델에서 피사체의 외모와 음성을 함께 생성하여 텍스트 프롬프트, 참조 이미지, 짧은 오디오 클립이 두 양식을 함께 통제하도록 하는 ID-LoRA(Identity-Driven In-Context LoRA)를 제안합니다. ID-LoRA는 매개변수 효율적인 In-Context LoRA를 통해 LTX-2 연동 오디오-비디오 디퓨전 백본을 적용하며, 저자가 알기로는 단일 생성 과정으로 시각적 외모와 음성을 개인화하는 최초의 방법입니다. 여기에는 두 가지 과제가 발생합니다. 참조 토큰과 생성 토큰이 동일한 위치 인코딩 공간을 공유하여 구분이 어려운 문제는, 참조 토큰의 내부 시간 구조를 보존하면서 이들을 분리된 RoPE 영역에 배치하는 음의 시간 위치를 통해 해결합니다. 또한 화자 특성이 잡음 제거 과정에서 희석되는 경향은, 참조 신호의 유무에 따른 예측을 대조하여 화자별 특성을 증폭하는 classifier-free guidance 변형인 identity guidance로 해결합니다. 인간 선호도 연구에서 ID-LoRA는 음성 유사성에 대해 Kling 2.6 Pro보다 73%, 발화 스타일에서는 65%의 주석자에게 선호되었습니다. 교차 환경 설정에서 화자 유사성은 Kling 대비 24% 향상되었으며, 조건이 달라질수록 격차는 커졌습니다. 예비 사용자 연구는 또한 연동 생성이 물리적으로 타당한 사운드 합성에 유용한 귀납적 편향을 제공함을 시사합니다. ID-LoRA는 단일 GPU로 약 3,000개의 훈련 쌍만으로 이러한 결과를 달성합니다. 코드, 모델 및 데이터는 공개될 예정입니다.
강화 학습(RL)으로 훈련된 대규모 언어 모델(LLM) 기반 에이전트는 복잡한 상호작용 과제에서 강력한 잠재력을 보여왔다. 그러나 표준 RL 패러다임은 지속적인 적응보다는 정적 문제 해결에 치우치는 경향이 있다: 에이전트는 불충분한 탐색으로 인해 종종 차선책 전략으로 수렴하며, 습득된 지식은 매개변수 내에 암묵적으로 남아 명시적으로 검색이 불가능하여 효과적인 경험 학습을 제한한다. 이러한 한계를 해결하기 위해 우리는 에이전트가 단순히 문제를 해결하는 것을 넘어 진화함으로써 복잡한 상호작용 환경을 숙달하도록 하는 온라인 RL 프레임워크인 RetroAgent를 소개한다. 구체적으로 RetroAgent는 사후 자기 성찰(hindsight self-reflection) 메커니즘을 특징으로 하며, 이는 두 가지 내재적 피드백을 생성한다: (1) 이전 시도 대비 점진적 하위 과제 완료도를 추적하여 유망한 탐색에 보상을 주는 내재적 수치 피드백, 그리고 (2) 재사용 가능한 교훈을 메모리 버퍼에 정제하여 저장하고, 제안된 유사성 및 유틸리티 인식 상한 신뢰 구간(SimUtil-UCB) 전략을 통해 관련성, 유용성, 탐색을 균형 있게 조정하여 과거 경험을 효과적으로 활용하도록 하는 내재적 언어 피드백. 4개의 도전적인 에이전트 과제에 걸쳐 두 모델 패밀리를 대상으로 한 광범위한 실험을 통해 RetroAgent가 기존 방법을 크게 능가하는 우수한 성능을 보여주며, 예를 들어 ALFWorld에서 GRPO(Group Relative Policy Optimization)로 훈련된 에이전트 대비 +18.3%, WebShop에서 +15.4%, Sokoban에서 +27.1%, MineSweeper에서 +8.9% 향상된 최첨단 결과를 달성함과 동시에 강력한 테스트 시간 적응 능력과 분포 외 시나리오에 대한 일반화 능력을 보여줌을 입증하였다.
MLLM(다중언어언어모델)이 STEM(과학, 기술, 공학, 수학) 시각적 추론에 실패할 때 근본적인 의문이 제기된다: 이는 지각 결함 때문인가, 아니면 추론의 한계 때문인가? 지각과 추론 구성 요소를 독립적으로 확장하는 체계적인 확장 분석을 통해 우리는 중요한 통찰력을 발견했다: 지각 확장이 일관되게 추론 확장을 능가한다는 것이다. 이는 지각이 현재 STEM 시각적 추론을 제한하는 진정한 핵심 요소임을 보여준다. 이러한 통찰에 기반하여, 우리의 연구는 코드를 강력한 지각 매체로 확립함으로써 MLLM의 지각 능력을 체계적으로 향상시키는 데 중점을 둔다. 실행 가능한 코드는 STEM 시각 자료의 구조화된 특성과 자연스럽게 조응하는 정밀한 의미론을 제공한다. 구체적으로, 우리는 두 가지 상호 보완적 접근법을 통해 이 코드-지각 패러다임을 구현하는 100만 개의 이미지-캡션-코드 삼중항으로 구성된 대규모 데이터셋 ICC-1M을 구축했다: (1) 코드 기반 캡션 생성은 실행 가능한 코드를 이미지 캡션의 기준 진실로 간주하여 기존 지식 증류 방법에 내재된 환각을 제거한다; (2) STEM 이미지-코드 변환은 모델이 재구성 코드를 생성하도록 유도하여 지각 향상을 위한 자연어의 모호성을 완화한다. 이 패러다임을 검증하기 위해, 우리는 STEM 영역에서 시각적 지각을 직접 평가하는 새로운 벤치마크인 STEM2Code-Eval을 추가로 도입한다. 문제 관련 이해만을 측정하는 대리 지표로 문제 해결 정확도에 의존하는 기존 연구와 달리, 우리의 벤치마크는 이미지 재구성을 위한 실행 가능한 코드 생성을 통해 포괄적인 시각적 이해를 요구하며, 결정론적이고 검증 가능한 평가를 제공한다. 코드는 https://github.com/TongkunGuan/Qwen-CodePercept 에서 이용 가능하다.
검증 가능한 보상을 활용한 강화 학습(RLVR)에서 강력한 어드밴티지 기준선을 구축하는 것은 정책 경사법에 있어 핵심적이며, 정책 모델이 원하는 행동을 강화하도록 효과적으로 유도합니다. 최근 연구에서는 일반적 가치 모델(V_0 등)이 도입되었는데, 이는 모델 능력을 컨텍스트 내에서 명시적으로 인코딩하여 사전 학습된 가치 추정을 달성함으로써 정책 모델과 동기화하여 가치 모델을 업데이트할 필요를 없앱니다. 본 논문에서는 이러한 가치 모델이 예측한 기준선(사전 정보 역할)과 희소 롤아웃에서 도출된 경험적 평균을 적응적으로 융합하는 V_{0.5}를 제안합니다. 이를 통해 계산 효율성과 극도로 낮은 분산을 균형 있게 맞추는 강력한 기준선을 구축합니다. 구체적으로, 우리는 실시간 통계 검정과 동적 예산 할당을 도입합니다. 이는 희소 샘플링으로 인한 높은 분산과 가치 모델의 사전 정보에 내재된 시스템적 편향(또는 환각)을 상쇄합니다. 사전 정보의 신뢰도를 실시간으로 평가하기 위한 가설 검정을 구성함으로써, 시스템은 필요에 따라 추가 롤아웃 예산을 동적으로 할당합니다. 이 메커니즘은 기준선 추정기의 평균 제곱 오차(MSE)를 최소화하며, 그룹 크기가 4인 극한의 희소 조건 하에서도 안정적인 정책 경사를 보장합니다. 6개의 수학적 추론 벤치마크에 걸친 폭넓은 평가 결과, V_{0.5}가 GRPO 및 DAPO를 크게 능가하며 더 빠른 수렴과 약 10% 이상의 성능 향상을 달성함을 입증했습니다.
대규모 언어 모델(LLM)은 동료 평가 보고서 초안 작성에 이르기까지 과학 연구 워크플로 전반에 걸쳐 점점 더 많이 활용되고 있습니다. 그러나 많은 AI 생성 평가는 피상적이고 실행 가능성이 부족하여 저자에게 구체적이고 실천 가능한 지침을 제공하지 못하며, 이러한 격차를 해결하려는 본 연구의 동기가 됩니다. 우리는 실행 가능한 평가 피드백 생성을 목표로 기존 동료 평가 반론(rebuttal)을 학습의 중심에 두는 RbtAct를 제안합니다. 반론은 어떤 평가자 의견이 구체적인 수정이나 특정 계획으로 이어졌고, 어떤 의견이 단순히 방어만 되었는지를 보여줍니다. 이러한 통찰을 바탕으로, 우리는 실행 가능성을 위해 피드백 생성기를 직접 최적화하는 암시적 감독(supervision)으로서 반론을 활용합니다. 이 목표를 지원하기 위해, 모델이 논문 전체와 실험, 글쓰기와 같은 지정된 관점(perspective)을 바탕으로 단일 집중 코멘트를 생성해야 하는 '관점 조건 세그먼트 수준 평가 피드백 생성'이라는 새로운 과제를 제안합니다. 또한 평가 세그먼트를 해당 세그먼트를 다루는 반론 세그먼트로 매핑하고, 관점 레이블과 저자의 수용 정도를 구분하는 영향 범주(impact category)를 포함하는 RMR-75K라는 대규모 데이터셋을 구축했습니다. 그런 다음 Llama-3.1-8B-Instruct 모델을 평가 세그먼트에 대해 지도 미세 조정(supervised fine-tuning)으로 학습시킨 후, 반론에서 도출된 쌍을 사용한 선호도 최적화(preference optimization)를 수행합니다. 인간 전문가와 LLM-as-a-judge를 이용한 실험 결과, 강력한 베이스라인 대비 근거성과 관련성을 유지하면서 실행 가능성과 구체성 측면에서 일관된 향상을 보여주었습니다.
대규모 언어 모델(LLM)은 일반적으로 환경과의 상호작용을 통해 다양한 자연어(NL) 피드백을 수신합니다. 그러나 현재의 강화 학습(RL) 알고리즘은 스칼라 보상에만 의존하여 NL 피드백의 풍부한 정보를 제대로 활용하지 못하고 비효율적인 탐색을 초래합니다. 본 연구에서는 그룹 수준 언어 피드백을 명시적으로 활용하여 실행 가능한 개선점을 통해 목표 지향적 탐색을 유도하는 RL 프레임워크인 GOLF를 제안합니다. GOLF는 두 가지 상호 보완적인 피드백 소스를 통합합니다: (i) 오류를 지적하거나 대상별 수정을 제안하는 외부 비평과 (ii) 대체 부분 아이디어와 다양한 실패 패턴을 제공하는 그룹 내 시도. 이러한 그룹 수준 피드백은 고품질 개선점을 생성하기 위해 통합되며, 이는 오프-폴리시 스캐폴드로 훈련 과정에 적응적으로 주입되어 희소 보상 영역에서 대상별 지침을 제공합니다. 동시에 GOLF는 통합 RL 루프 내에서 생성과 개선을 공동으로 최적화하여 두 능력을 지속적으로 향상시키는 선순환을 만듭니다. 검증 가능 및 비검증 가능 벤치마크에서의 실험 결과, GOLF가 우수한 성능과 탐색 효율을 달성하며 스칼라 보상만으로 훈련된 RL 방법 대비 2.2배의 샘플 효율 향상을 보였습니다. 코드는 https://github.com/LuckyyySTA/GOLF에서 확인할 수 있습니다.
확산 트랜스포머는 이미지 합성 분야에서 새로운 최첨단 기술을确立했지만, 반복적 샘플링의 높은 계산 비용으로 인해 실제 적용이 심각하게 제한되고 있습니다. 기존 가속 방법들은 주로 시간 영역에 집중하는 반면, 생성 과정 내재적인 상당한 공간적 중복성, 즉 미세한 세부 묘사가 형성되기 훨씬 전에 전역 구조가 나타나는 현상을 간과해 왔습니다. 모든 공간 영역을 균일하게 계산하는 방식은 중요한 비효율성을 나타냅니다. 본 논문에서는 공간 영역에서의 가속화를 통해 이 문제를 해결하는 새로운 학습 불필요 프레임워크인 Just-in-Time(JiT)을 소개합니다. JiT는 동적으로 선택된 희소 앵커 토큰들의 계산을 기반으로 전체 잠재 상태의 진화를 이끄는 공간적으로 근사화된 생성 상미분방정식을 공식화합니다. 새로운 토큰이 통합되어 잠재 상태의 차원이 확장될 때 원활한 전환을 보장하기 위해, 우리는 구조적 일관성과 통계적 정확성을 모두 유지하는 간단하면서 효과적인 유한 시간 ODE인 결정론적 마이크로-플로우를 제안합니다. 최첨단 FLUX.1-dev 모델에 대한 광범위한 실험을 통해 JiT가 거의 손실 없는 성능으로 최대 7배의 가속화를 달성하며, 기존 가속 방법들을 크게 능가하고 추론 속도와 생성 정확도 사이에 새로운 그리고 우수한 트레이드오프를确立함을 입증합니다.
우리는 《새터데이 나이트 라이브》와 같은 스케치 코미디 프로그램에 버금가는 단편 희극 영상을 제작하는 완전 자동화 AI 시스템을 제안한다. 캐릭터 레퍼런스를 시작으로, 본 시스템은 실제 제작 스튜디오 역할을 바탕으로 구성된 에이전트 집단을 활용하여 반복적인 경쟁, 평가, 개선을 통해 아이디어와 결과물의 질적 다양성을 극대화한다. 주요 기여점은 YouTube 코미디 영상 코퍼스 분석을 통해 실제 시청자 선호도에 부합하도록 조정된 LLM 비평가를 도입하여 유머를 자동 평가하는 것이다. 실험 결과, 우리의 프레임워크는 전문적으로 제작된 스케치에 근접한 품질의 결과물을 생성하면서도 비디오 생성 분야에서 최첨단 성능을 보여주었다.
현재의 통합 멀티모달 모델들은 일반적으로 모달리티 간 차이를 해소하기 위해 이산적 시각 토크나이저에 의존합니다. 그러나 이산화 과정에서는 필연적으로 세밀한 의미 정보가 손실되어 시각 이해 과제에서 최적의 성능을 달성하지 못하는 한계가 있습니다. 반면, 연속적 의미 표현(예: CLIP, SigLIP)을 직접 모델링하는 방식은 고차원 생성 모델링에서 심각한 어려움을 겪으며, 수렴 속도가 느리고 훈련 불안정성을 초래합니다. 이러한 딜레마를 해결하기 위해 우리는 압축된 연속적 표현을 통해 멀티모달 이해와 생성을 조화롭게 통합하는 UniCom 프레임워크를 제안합니다. 실험적으로 채널 차원 축소가 공간적 다운샘플링보다 재구성 및 생성 성능에 훨씬 효과적임을 입증하였습니다. 이에 따라 우리는 집중 기반 의미 압축기를 설계하여 고밀도 특징을 컴팩트한 통합 표현으로 정제합니다. 더 나아가 수혈 아키텍처가 쿼리 기반 설계보다 수렴성과 일관성에서 우수함을 검증하였습니다. 실험 결과 UniCom은 통합 모델 중 최고 수준의 생성 성능을 달성함을 보여줍니다. 특히, 풍부한 의미 사전 정보를 보존함으로써 이미지 편집에서 탁월한 제어 가능성을 제공하며 VAE 의존 없이도 이미지 일관성을 유지합니다.
대규모 언어 모델(LLM) 에이전트는 희소한 보상으로 인해 장기적이고 다단계 작업에서 중요한 크레딧 할당 문제에 직면하는 경우가 많습니다. 기존의 가치-무관(value-free) 방법론들, 예를 들어 GRPO(Group Relative Policy Optimization)는 두 가지 근본적인 한계점을 가지고 있습니다: 부정확한 단계별 Q-값 추정과 중간 상태에 대한 잘못 정렬된 가치 기준선입니다. 이러한 한계를 해결하기 위해, 우리는 후견적(hindsight) 크레딧 할당을 LLM 에이전트에 통합한 최초의 프레임워크인 HCAPO를 소개합니다. HCAPO는 LLM 자체를 사후 비평가(post-hoc critic)로 활용하여 후견적 추론을 통해 단계별 Q-값을 정제합니다. 더 나아가, HCAPO의 다중 규모 이점(multi-scale advantage) 메커니즘은 중요한 결정 상태에서 부정확한 가치 기준선을 효과적으로 보완합니다. WebShop과 ALFWorld를 포함한 세 가지 도전적인 벤치마크에서의 평가 결과, HCAPO가 최신 RL(강화학습) 방법론들을 지속적으로 능가하는 것으로 나타났습니다. 특히, Qwen2.5-7B-Instruct 모델을 사용했을 때 HCAPO는 WebShop에서 GRPO 대비 7.7%, ALFWorld에서 13.8%의 성공률 향상을 달성했습니다. 이러한 결과는 HCAPO가 탐색 효율성을 크게 향상시키고, 간결한 의사 결정을 촉진하며, 복잡한 장기적 작업에서 확장성을 보장함을 시사합니다.
희소 자동인코더는 언어 모델 내에서 개념의 위치를 특정할 수 있지만, 다단계 추론 과정에서 개념들이 어떻게 상호작용하는지는 파악하지 못합니다. 우리는 Causal Concept Graph(CCG)를 제안합니다: CCG는 희소하고 해석 가능한 잠재 특성들로 구성된 방향성 비순환 그래프로, 간선은 학습된 개념 간 인과적 의존성을 포착합니다. 우리는 개념 발견을 위한 작업 조건부 희소 자동인코더와 그래프 복원을 위한 DAGMA 방식의 미분 가능 구조 학습을 결합하고, 그래프 기반 개입이 무작위 개입보다 더 큰 하류 작업 효과를 유발하는지 평가하는 Causal Fidelity Score(CFS)를 도입했습니다. GPT-2 Medium을 사용한 ARC-Challenge, StrategyQA, LogiQA에서 5개의 시드에 걸쳐(n=15 쌍별 실행) CCG는 CFS=5.654±0.625를 달성하여 ROME 방식의 추적(3.382±0.233), SAE만을 이용한 순위 지정(2.479±0.196), 무작위 기준(1.032±0.034)을 능가했으며, 보퍼로니 수정 후 p<0.0001을 보였습니다. 학습된 그래프는 희소성(5-6% 간선 밀도), 도메인 특수성, 그리고 시드 간 안정성을 나타냈습니다.
신경망 언어 모델(LM)의 마지막 층은 차원 D의 출력 특징을 어휘 집합의 크기인 차원 V의 로짓으로 투사하며, 일반적으로 D는 V에 비해 매우 작습니다. 이러한 불일치는 신경망 LM의 표현력 제한 위험을 초래하는 소위 소프트맥스 병목 현상으로 알려져 있습니다. 우리는 소프트맥스 병목 현상이 단순히 표현력의 병목이 아닌 최적화의 병목이기도 함을 보입니다. V차원 그래디언트를 rank-D 선형 층을 통해 역전파하면 불가피한 압축이 발생하며, 이는 대다수 매개변수에 제공되는 훈련 피드백을 왜곡합니다. 우리는 이 현상에 대한 이론적 분석을 제시하고, 출력 층에 의해 그래디언트 노름의 95-99%가 억제되어 심각하게 비최적의 업데이트 방향이 초래됨을 실증적으로 측정합니다. 통제된 사전 훈련 실험을 통해 그래디언트 병목 현상이 사소한 패턴의 학습을 불가능하게 하며, 대규모 언어 모델(LLM)의 훈련 역학에 극적인 영향을 미친다는 것을 확인합니다. 우리는 이 본질적 결함이 모델 아키텍처와 무관하게 대규모 훈련 비효율성에 기여하며, 새로운 LM 헤드 설계의 필요성을 제기한다고 주장합니다.
다중 모달 대규모 언어 모델(MM-LLM)은 의료 영상 이해 및 임상 추론 분야에서 강력한 성능을 보여주고 있습니다. 최근 의료 에이전트 시스템은 도구 사용 및 다중 에이전트 협업 기능을 추가하여 복잡한 의사 결정을 가능하게 합니다. 그러나 이러한 시스템은 거의 전적으로 최첨단 모델(예: GPT)에 의존하며, API 기반 배포 방식은 높은 비용, 높은 지연 시간, 그리고 온프레미스 임상 요구사항과 상충되는 개인정보 보호 위험을 초래합니다. 본 논문은 에이전트 능력을 오프라인으로 제공하는 경량 4B 파라미터 의료 MM-LLM인 Meissa를 제안합니다. Meissa는 정적 답변을 모방하는 대신, 최첨단 모델에서 구조화된 궤적을 추출하여 언제 외부 상호작용을 시작할지(전략 선택)와 어떻게 다단계 상호작용을 실행할지(전략 실행)를 모두 학습합니다. 구체적으로 다음을 제안합니다: (1) 통합 궤적 모델링: (추론 및 행동 흔적을 포함한) 궤적이 단일 상태-행동-관찰 형식으로 표현되어 하나의 모델이 이기종 의료 환경에 걸쳐 일반화될 수 있도록 합니다. (2) 3계층 계층적 감독: 모델 자체의 오류가 직접 추론에서 도구 강화 및 다중 에이전트 상호작용으로 점진적으로 확대되도록 하여 난이도 인식 전략 선택을 명시적으로 학습합니다. (3) 예측-회고적 감독: 탐색적인 순방향 흔적과 사후 합리화된 실행 흔적을 결합하여 효과적인 상호작용 정책을 안정적으로 학습합니다. 40,000개의 정제된 궤적으로 학습된 Meissa는 방사선학, 병리학, 임상 추론에 걸친 13개 의료 벤치마크에서 총 16개 평가 설정 중 10가지에서 독점 최첨단 에이전트와 동등하거나 더 나은 성능을 보였습니다. Gemini-3와 같은 일반적인 최첨단 모델 대비 25배 이상 적은 파라미터를 사용하는 Meissa는 완전히 오프라인으로 작동하며 API 기반 배포 대비 22배 낮은 종단간 지연 시간을 보입니다. 데이터, 모델 및 환경은 https://github.com/Schuture/Meissa에서 공개됩니다.
기존 텍스트-음악 생성 모델은 세밀한 시간적 제어가 부족하여 비디오 이벤트와 시간적으로 정렬된 음악을 생성하는 데 어려움을 겪습니다. 본 연구에서는 비디오에 시간적으로 정렬된 음악을 출력하는 제로-페어 비디오-음악 생성 접근법인 V2M-Zero를 소개합니다. 우리의 방법은 중요한 관찰에서 비롯되었습니다. 즉, 시간적 동기화는 '무엇이' 변화하는지가 아니라 '언제', '얼마나' 변화가 발생하는지를 맞추는 것을 요구한다는 점입니다. 음악적 사건과 시각적 사건은 의미론적으로 다르지만, 각 양식 내에서 독립적으로 포착될 수 있는 공유된 시간적 구조를 보여줍니다. 우리는 사전 학습된 음악 및 비디오 인코더를 사용하여 양식 내 유사성으로부터 계산된 이벤트 곡선을 통해 이 구조를 포착합니다. 각 양식 내의 시간적 변화를 독립적으로 측정함으로써, 이러한 곡선들은 양식 간에 비교 가능한 표현을 제공합니다. 이는 간단한 학습 전략을 가능하게 합니다. 즉, 텍스트-음악 모델을 음악 이벤트 곡선에 대해 미세 조정한 후, 교차 양식 학습이나 짝 지어진 데이터 없이 추론 시에 비디오 이벤트 곡선으로 대체하는 것입니다. OES-Pub, MovieGenBench-Music, AIST++ 데이터셋에서 V2M-Zero는 짝 지어진 데이터 기반 모델 대비 상당한 성능 향상을 보였습니다. 오디오 품질은 5-21% 더 높았고, 의미론적 정렬은 13-15% 더 우수했으며, 시간적 동기화는 21-52% 개선되었고, 댄스 비디오에서 비트 정렬은 28% 더 높았습니다. 대규모 크라우드소싱 주관적 청취 테스트를 통해서도 유사한 결과를 확인했습니다. 전반적으로, 우리의 결과는 짝 지어진 교차 양식 지도 학습보다 양식 내 특징을 통한 시간적 정렬이 비디오-음악 생성에 효과적임을 입증합니다. 결과는 https://genjib.github.io/v2m_zero/에서 확인할 수 있습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시켰습니다. 그러나 RLVR은 최종 답변만을 결과 보상으로 삼아 중간 추론 단계의 정확성을 간과합니다. 과정은 틀렸지만 결과는 맞는 롤아웃 데이터로 학습할 경우, 환각(hallucination) 현상과 답변 복사 문제가 발생해 모델의 일반화 성능과 강건성을 심각하게 저해할 수 있습니다. 이를 해결하기 위해 우리는 정책 최적화에 대조 학습 기법을 접목한 CLIPO를 도입하여 RLVR 과정을 일반화합니다. 성공적인 롤아웃에 대한 대조 손실을 최적화함으로써, CLIPO는 LLM이 올바른 추론 경로들 간에 공유되는 불변의 구조를 포착하도록 유도합니다. 이는 RLVR의 기존 단일 경로 감독 방식보다 강건한 교차 궤적 정규화(cross-trajectory regularization)를 제공하며, 단계별 추론 불일치를 효과적으로 완화하고 환각 아티팩트를 억제합니다. 실험에서 CLIPO는 다양한 추론 벤치마크에서 여러 RLVR 기준 모델들을 일관되게 개선하며, LLM 정책 최적화의 일반화와 강건성 측면에서 균일한 성능 향상을 입증했습니다. 코드와 학습 레시피는 https://github.com/Qwen-Applications/CLIPO에서 확인할 수 있습니다.
대규모 인터넷 데이터로 사전 학습된 비디오 생성 모델(VGM)은 풍부한 객체 동역학을 포착한 시간적 일관성을 갖춘 롤아웃 비디오를 생성할 수 있어, 제로샷 로봇 매니픽레이션에 대한 매력적인 기반을 제공합니다. 그러나 VGM은 종종 물리적으로 비현실적인 롤아웃을 생성하며, 기하학적 재타게팅을 통해 픽셀 공간의 운동을 로봇 동작으로 변환할 때는 불완전한 깊이 추정 및 키포인트 추적로 인한 누적 오류가 추가로 발생합니다. 이러한 문제를 해결하기 위해, 우리는 추론 시점에 시각-언어 모델(VLM)이 생성한 구성적 제약 조건을 VGM 출력과 정렬하는 데이터 무료 프레임워크인 을 제시합니다. 핵심 통찰은 VLM이 VGM과 상호 보완적인 능력, 즉 매니픽레이션 실행의 성공과 안전에 중요한 물리적 제약 조건을 식별할 수 있는 구조화된 공간 추론 능력을 제공한다는 점입니다. 은 언어 명령이 주어지면 VLM을 사용하여 작업별 요구 사항을 포착하는 일련의 구성적 제약 조건을 자동으로 추출하며, 이는 두 단계에 적용됩니다: (1) 제약 조건 기반 롤아웃 선택: 여러 VGM 롤아웃 배치를 점수화 및 필터링하여 가장 물리적으로 현실적인 후보를 남깁니다. (2) 제약 조건 기반 궤적 최적화: 선택된 롤아웃을 초기값으로 사용하고 동일한 제약 조건 집합 하에서 로봇 궤적을 개선하여 재타게팅 오류를 수정합니다. 우리는 정밀하고 제약 조건에 민감한 실행이 필요한 6가지 실제 로봇 매니픽레이션 작업에서 을 평가하였으며, 작업별 훈련 데이터 없이 가장 강력한 베이스라인 대비 전체 성공률을 43.3%p 향상시켰습니다.
개인화 AI 어시스턴트는 이미지, 동영상, 이메일 등 다양한 양식과 출처에 걸친 장기 사용자 메모리를 기억하고 추론해야 합니다. 그러나 기존 장기 메모리 벤치마크는 주로 대화 기록에 초점을 맞추어 실제 경험에 기반한 현실적인 개인화 참조를 포착하지 못하고 있습니다. 본 연구에서는 다중 양식 및 다중 출처 개인화 참조 메모리 질의응답을 위한 최초의 벤치마크인 ATM-Bench를 소개합니다. ATM-Bench는 약 4년간의 개인 메모리 데이터와 인간이 주석을 단 질문-답변 쌍을 포함하며, 여기에는 개인적 참조 해결, 다중 출처 증거 추론, 상충되는 증거 처리 등이 필요한 질의와 이를 뒷받침하는 근거 메모리가 포함됩니다. 또한 서로 다른 출처의 메모리 항목을 구조적으로 표현하기 위해 스키마 기반 메모리(Schema-Guided Memory, SGM)를 제안합니다. 실험에서는 5개의 최신 메모리 시스템과 표준 RAG 베이스라인을 구현하고, 다양한 메모리 수집, 검색 및 답변 생성 기술을 적용한 변형 모델을 평가합니다. 그 결과 ATM-Bench-Hard 세트에서 낮은 성능(20% 미만 정확도)을 확인했으며, SGM이 기존 연구에서 일반적으로 사용된 기술보다 성능을 향상시킴을 발견했습니다. 코드는 https://github.com/JingbiaoMei/ATM-Bench에서 확인할 수 있습니다.
최근 다중 에이전트 강화학습, 특히 정책 공간 응답 오라클(PSRO)의 발전으로 점점 더 복잡한 영역에서 근사적 게임 이론적 균형을 계산할 수 있게 되었습니다. 그러나 이러한 방법들은 '블랙박스' 신경망 정책을 생성하는 심층 강화학습 오라클에 의존하여 해석, 신뢰 또는 디버깅이 어렵다는 한계가 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 강화학습 오라클을 대형 언어 모델(LLM)로 대체하는 새로운 프레임워크인 코드 공간 응답 오라클(CSRO)을 소개합니다. CSRO는 최적 응답 계산을 코드 생성 작업으로 재구성하여 LLM이 정책을 직접 인간이 읽을 수 있는 코드로 생성하도록 유도합니다. 이 접근법은 본질적으로 해석 가능한 정책을 산출할 뿐만 아니라, LLM의 사전 학습된 지식을 활용하여 복잡하고 인간과 유사한 전략을 발견합니다. 우리는 LLM 기반 오라클을 구축하고 향상시키는 여러 방법(제로샷 프롬프팅, 반복적 정제, 분산형 LLM 기반 진화 시스템인 AlphaEvolve)을 탐구합니다. CSRO가 다양한 설명 가능한 정책 집합을 생성하면서 기준 모델과 경쟁력 있는 성능을 달성함을 입증합니다. 본 연구는 불투명한 정책 매개변수 최적화에서 해석 가능한 알고리즘 행동 합성으로 초점을 전환하는 다중 에이전트 학습에 대한 새로운 관점을 제시합니다.
정확하고 조밀한 깊이 추정은 로봇 인식에 있어 핵심적이지만, 상용 센서는 하드웨어 한계로 인해 흔히 희소하거나 불완전한 측정값만을 제공합니다. 기존 RGB-D 융합 깊이 완성 방법은 훈련 RGB 분포와 특정 깊이 패턴에 결합된 사전 지식을 학습하므로 도메인 일반화와 다양한 깊이 패턴에 대한 강건성이 제한됩니다. 최근 연구에서는 단안 깊이 추정(MDE) 모델을 활용하여 도메인 일반적인 기하학적 사전 지식을 도입하려 하지만, 명시적 상대-절대 정렬에 의존하는 현재의 2단계 통합 전략은 추가 계산을 필요로 하고 구조적 왜곡을 유발합니다. 이를 위해 우리는 사전 훈련된 MDE 모델의 스케일 프롬프트 적응으로 완성 문제를 재정의하는 1단계, 도메인 일반적, 패턴 불가지론적 프레임워크인 Any2Full을 제안합니다. 다양한 깊이 희소성 수준과 불규칙한 공간 분포를 해결하기 위해 우리는 스케일 인식 프롬프트 인코더를 설계했습니다. 이는 희소 입력에서 스케일 단서를 통합된 스케일 프롬프트로 추출하여 MDE 모델이 기하학적 사전 지식을 유지하면서 전역적으로 스케일 일관성 있는 예측을 하도록 유도합니다. 폭넓은 실험을 통해 Any2Full이 우수한 강건성과 효율성을 달성함을 입증했습니다. 평균 AbsREL에서 OMNI-DC보다 32.2% 우수한 성능을 보였으며, 동일한 MDE 백본을 사용한 PriorDA 대비 1.4배의 속도 향상을 제공하여 범용 깊이 완성을 위한 새로운 패러다임을 정립했습니다. 코드와 체크포인트는 https://github.com/zhiyuandaily/Any2Full에서 확인할 수 있습니다.
비전 언어 모델(VLM)은 시각적 인식과 언어적 추론을 연결합니다. 자율 주행(AD) 분야에서는 이러한 시너지 효과를 통해 고수준의 다중 모달 이해를 주행 행동(일반적으로 미래 궤적으로 표현됨)으로 변환하는 비전 언어 행동(VLA) 모델이 가능해졌습니다. 그러나 기존 VLA 모델은 주로 일반적인 충돌 회피 궤적을 생성합니다. 충돌 회피를 넘어 다양한 주행 스타일(예: 스포티함, 편안함)에 적응하는 것은 개인 맞춤형 주행에 필수적입니다. 또한 많은 방법론들이 궤적 생성을 단순한 토큰 예측으로 취급하여 운동학적으로 실현 불가능한 행동을 생성할 수 있습니다. 이러한 한계를 해결하기 위해 본 논문은 다양하고 물리적으로 타당한 주행 행동을 생성하기 위한 물리 정보 기반 VLA 프레임워크인 StyleVLA를 제시합니다. 우리는 운동학적 일관성 제약 조건과 연속 회귀 헤드를 결합한 하이브리드 손실 함수를 도입하여 궤적의 실현 가능성을 향상시킵니다. Qwen3-VL-4B를 기반으로 구축된 StyleVLA를 학습시키기 위해, 5가지 주행 스타일과 자연어 명령어에 대한 실제 궤적 데이터가 포함된 1,200개 이상의 시나리오, 76,000개의 조감도(BEV) 샘플, 42,000개의 1인칭 시점(FPV) 샘플로 구성된 대규모 명령어 데이터셋을 구축했습니다. 실험 결과, 40억 개의 파라미터를 가진 우리의 StyleVLA는 사적 모델(예: Gemini-3-Pro)과 최첨단 VLA 모델들을 크게 능가하는 것으로 나타났습니다. 성공률, 물리적 실현 가능성, 스타일 준수도를 측정하는 복합 주행 점수를 사용했을 때, StyleVLA는 BEV에서 0.55, FPV에서 0.51을 달성한 반면 Gemini-3-Pro는 각각 0.32와 0.35를 기록했습니다. 이러한 결과는 특화된, 물리 정보 기반의 경량 모델이 도메인 특화 작업에서 폐쇄형 모델을 능가할 수 있음을 보여줍니다.