번역이 포함된 일일 선별된 AI 연구 논문
최근 멀티모달 대규모 언어 모델의 발전으로 GUI 자동화에 있어 전례 없는 기회가 열렸습니다. 그러나 근본적인 과제는 여전히 남아 있습니다: 주석 신뢰성을 유지하면서 고품질 훈련 데이터를 효율적으로 확보하는 방법은 무엇일까요? 우리는 교정된 단계 보상 시스템으로 구동되는 자가 진화 훈련 파이프라인을 소개합니다. 이 파이프라인은 모델 생성 궤적을 궤적 수준 교정을 통해 신뢰할 수 있는 훈련 신호로 변환하여 10-100배 낮은 비용으로 90% 이상의 주석 정확도를 달성합니다. 이 파이프라인을 활용하여 우리는 최첨단 GUI 성능(8B: AndroidWorld 80.2%, OSWorld 48.5%, ScreenShot-Pro 62.6%)을 달성하면서도 강력한 일반 능력을 유지하는 Step-GUI 모델 패밀리(4B/8B)를 선보입니다. GUI 에이전트 능력이 향상됨에 따라 실질적인 배포에는 사용자 프라이버시를 보호하면서 이기종 디바이스 간 표준화된 인터페이스가 요구됩니다. 이를 위해 우리는 GUI 자동화를 위한 최초의 모델 컨텍스트 프로토콜인 GUI-MCP를 제안합니다. 이는 저수준 원자 연산과 고수준 작업을 현지 전문 모델에 위임하는 계층적 아키텍처를 결합하여 민감한 데이터가 기기 내에 유지되는 높은 수준의 프라이버시 실행을 가능하게 합니다. 마지막으로, 에이전트가 실제 일상 사용을 처리할 수 있는지 평가하기 위해 우리는 실제 모바일 사용 패턴에 기반한 벤치마크인 AndroidDaily를 소개합니다. 이 벤치마크는 고빈도 일상 시나리오에서 3146개의 정적 액션과 235개의 종단간 작업으로 구성됩니다(8B: 정적 89.91%, 종단간 52.50%). 우리의 연구는 실용적인 GUI 에이전트 개발을 진전시키고 일상적인 디지털 상호작용에서 실세계 배포의 강력한 잠재력을 입증합니다.
효율성은 LLM 기반 에이전트 및 추론 시스템의 핵심적인 실용적 과제로서, 점차 자기회귀(AR) 디코딩의 고유 지연 시간에 의해 제한을 받고 있다. 스페큘레이티브 디코딩은 초안 생성-검증 방식을 통해 이러한 비용을 완화하지만, 기존 접근법은 AR 초안 모델(드래프터)에 의존하여 두 가지 근본적인 문제를 야기한다: (1) 단계별 불확실성 누적으로 인해 대상 모델과 드래프터 간 신뢰도가 점진적으로 붕괴되고, (2) AR 드래프터의 본질적으로 순차적인 디코딩. 이러한 요인들이 결합되어 제한된 속도 향상만을 가져온다. 본 논문에서는 확산 대형 언어 모델(dLLM) 드래프터가 근본적으로 다른 확률적 모델링과 효율적인 병렬 디코딩 전략을 통해 이러한 문제들을 자연스럽게 극복할 수 있음을 보인다. 이 통찰을 바탕으로 우리는 확산으로 초안을 생성하고 AR 모델로 검증하는 효율적인 스페큘레이티브 디코딩 프레임워크인 DEER를 소개한다. 고품질 초안 생성을 위해 DEER는 dLLM 기반 드래프터를 대상 AR 모델과 정렬시키는 2단계 학습 파이프라인을 사용하며, 긴 초안 세그먼트를 생성하기 위해 단일 단계 디코딩을 추가로 채택한다. 실험 결과 DEER는 최대 32토큰의 초안 수용 길이에 도달하여 EAGLE-3가 달성한 10토큰을 크게 능가한다. 또한 HumanEval에서 Qwen3-30B-A3B를 사용할 때 DEER는 5.54배의 속도 향상을 달성한 반면, EAGLE-3는 단지 2.41배의 속도 향상만을 보였다. 코드, 모델, 데모 등은 https://czc726.github.io/DEER/에서 확인할 수 있다.
멀티 토큰 생성은 트랜스포머 기반 대형 모델 추론 속도 향상을 위한 유망한 패러다임으로 부상하고 있습니다. 최근 연구는 주로 병렬 디코딩을 통해 추론 지연 시간을 줄이기 위한 확산 대형 언어 모델(dLLMs)을 탐구합니다. AR 수준의 생성 품질을 달성하기 위해 많은 기법들이 AR 모델을 dLLMs로 변환하여 병렬 디코딩을 가능하게 합니다. 그러나 이러한 방법들은 사전 학습과 사후 학습 간의 불일치로 인해 AR 모델 대비 제한된 속도 향상만을 보입니다. 구체적으로, 사후 학습에서 사용된 마스킹된 데이터 분포는 사전 학습 시 접한 실제 데이터 분포와 크게 차이가 나며, dLLMs는 양방향 어텐션에 의존하기 때문에 사전 학습期间 습득된 인과적 사전 지식과 충돌하여 정확한 KV 캐시 재사용의 통합을 방해합니다. 이를 해결하기 위해 우리는 Jacobi Forcing을 도입합니다. 이는 점진적 지식 증류 패러다임으로, 모델이 자신이 생성한 병렬 디코딩 궤적에 대해 학습되며, 사전 학습된 인과적 추론 특성을 보존하면서 AR 모델을 효율적인 병렬 디코더로 원활하게 전환합니다. 이 패러다임 아래 훈련된 모델인 Jacobi Forcing Model은 코딩 및 수학 벤치마크에서 성능 저하를 최소화하면서 월클럭 기준 3.8배의 추론 가속을 달성했습니다. 또한 Jacobi Forcing Model의 궤적 특성에 기반하여, 우리는 반복당 최대 4.5배 높은 토큰 수용량과 약 4.0배의 월클럭 가속을 가능하게 하는 기각 재순환 다중 블록 디코딩을 도입하여 추가 계산을 통해 추론 지연 시간을 효과적으로 낮춥니다. 우리의 코드는 https://github.com/hao-ai-lab/JacobiForcing에서 확인할 수 있습니다.
현재의 멀티모달 대규모 언어 모델은 강력한 인지 및 추론 능력을 보유하고 있으나, 높은 계산 및 메모리 요구량으로 인해 온디바이스 환경에 직접 배포하기 어렵습니다. 소규모 매개변수 모델들이 점차 강력한 일반 능력을 갖추게 되었지만, 표준 Vision Transformer(ViT) 인코더는 여전히 중요한 병목 현상으로 남아 고해상도 입력 처리 시 과도한 지연 시간과 메모리 소비를 겪고 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 온디바이스 추론에 특화된 효율적인 멀티모달 대규모 언어 모델인 HyperVL을 제안합니다. HyperVL은 이미지 타일링 전략을 통해 최대 메모리 사용량을 제한하고 두 가지 새로운 기술을 도입합니다: (1) 중복 계산을 제거하기 위해 최적의 인코딩 해상도를 적응적으로 예측하는 Visual Resolution Compressor(VRC)와 (2) 공유 LLM 하에서 시각적 브랜치 간 동적 전환을 가능하게 하는 통합 프레임워크 내에서 다중 스케일 ViT 인코더를 정렬하는 Dual Consistency Learning(DCL)입니다. 광범위한 실험을 통해 HyperVL이 다양한 벤치마크에서 동일 규모 모델 중 최첨단 성능을 달성함을 입증했습니다. 더 나아가 실제 모바일 기기에서 지연 시간과 전력 소비를 현저히 감소시켜 온디바이스 멀티모달 추론의 실용성을 입증했습니다.
최근 결과 지도 GRPO와 같은 강화학습(RL) 접근법이 비전 언어 모델(VLM)의 사고 연쇄 추론을 발전시켰으나, 다음과 같은 핵심 문제점이 남아있다: (i) 비용이 많이 들고 노이즈가 있는 수작업 주석 또는 외부 검증기에 대한 의존성; (ii) GRPO의 평편하고 희소한 보상 체계; (iii) 연쇄의 추론과 최종 답변 간의 논리적 불일치. 본 논문에서는 주석이나 외부 검증기 없이 VLM의 시각적 추론 능력을 강화하는 검증 가능한 보상을 통한 강화학습(RLVR)을 위한 자가 지도 방식인 Puzzle Curriculum GRPO(PC-GRPO)를 제안한다. PC-GRPO는 레이블을 세 가지 자가 지도 퍼즐 환경으로 대체한다: PatchFit, 회전(Rotation, 이진 보상) 및 직소(Jigsaw, 등급화된 부분 점수로 보상 희소성 완화). 평편한 보상과 사라지는 그룹 상대적 이점을 해결하기 위해, 샘플을 동적으로 가중치 부여하고 중간 난이도에서 정점을 이루는 난이도 인식 커리큘럼을 도입한다. 추가로 사후 학습 중 추론-답변 일관성(RAC)을 모니터링한다: LLM의 일반 GRPO에 대한 보고서를 반영하면, RAC는 일반적으로 초기에 상승하다가 저하된다; 우리의 커리큘럼은 이러한 저하를 지연시키며, 일관성 강화 보상 체계는 RAC를 추가로 향상시킨다. RAC는 하류 작업 정확도와 상관관계가 있다. 다양한 벤치마크와 Qwen-7B 및 Qwen-3B 백본에서 PC-GRPO는 추론 품질, 학습 안정성 및 최종 작업 정확도를 향상시켜 VLM을 위한 확장 가능하고 검증 가능하며 해석 가능한 RL 사후 학습의 실용적인 경로를 제시한다.
유니버설 트랜스포머(UT)는 ARC-AGI 및 스도쿠와 같은 복잡한 추론 과제에 널리 사용되어 왔으나, 그 성능 향상의 구체적 원인은 아직 충분히 연구되지 않았다. 본 연구에서는 UT 변형 모델들을 체계적으로 분석하고, ARC-AGI에서의 성능 향상이 정교한 구조 설계보다는 트랜스포머의 순환적 편향과 강력한 비선형 구성 요소에서 주로 기원함을 보인다. 이러한 발견에 기반하여 우리는 단순 컨볼루션과 단축 역전파를 통해 UT를 강화한 Universal Reasoning Model(URM)을 제안한다. 우리의 접근법은 추론 성능을 크게 향상시켜 ARC-AGI 1에서 53.8% pass@1, ARC-AGI 2에서 16.0% pass@1의 최첨단 성능을 달성한다. 코드는 https://github.com/zitian-gao/URM에서 확인할 수 있다.
최근의 시각 생성 모델은 모든 시각 콘텐츠가 단일 캔버스에 융합되는 래스터 이미지의 복잡한 특성으로 인해 이미지 편집 과정에서 일관성을 유지하는 데 어려움을 겪습니다. 이와 대조적으로 전문 디자인 도구는 계층적 표현을 사용하여 일관성을 유지하면서도 개별적인 편집을 가능하게 합니다. 이러한 점에 착안하여, 우리는 단일 RGB 이미지를 의미론적으로 분리된 여러 개의 RGBA 레이어로 분해함으로써 고유한 편집 가능성을 제공하는 end-to-end 확산 모델인 Qwen-Image-Layered를 제안합니다. 각 RGBA 레이어는 다른 콘텐츠에 영향을 주지 않고 독립적으로 조작될 수 있습니다. 가변 길이 분해를 지원하기 위해 우리는 세 가지 핵심 구성 요소를 도입했습니다: (1) RGB와 RGBA 이미지의 잠재 표현을 통합하는 RGBA-VAE; (2) 가변적인 수의 이미지 레이어를 분해할 수 있는 VLD-MMDiT(Variable Layers Decomposition MMDiT) 아키텍처; (3) 사전 학습된 이미지 생성 모델을 다중 레이어 이미지 분해기로 전환하는 Multi-stage Training 전략. 더 나아가, 고품질 다중 레이어 학습 이미지의 부족 문제를 해결하기 위해 Photoshop 문서(PSD)에서 다중 레이어 이미지를 추출하고 주석을 다는 파이프라인을 구축했습니다. 실험 결과, 우리의 방법이 분해 품질에서 기존 접근법을 크게 능가하며 일관된 이미지 편집을 위한 새로운 패러다임을 정립함을 확인했습니다. 우리의 코드와 모델은 https://github.com/QwenLM/Qwen-Image-Layered 에 공개되어 있습니다.
본 논문에서는 소량의 데이터만으로 비디오 VFX 편집을 수행하는 instruction-guided, DiT 기반 프레임워크인 IC-Effect를 제안한다. 제안된 방법은 복잡한 효과(예: 화염, 입자, 캐릭터 애니메이션)를 합성하면서 공간적 및 시간적 일관성을 엄격하게 유지한다. 비디오 VFX 편집은 주입된 효과가 배경과 자연스럽게 어우러져야 하고, 배경은 완전히 변경되지 않은 상태로 유지되어야 하며, 제한된 paired 데이터로부터 효과 패턴을 효율적으로 학습해야 하므로 매우 어려운 과제다. 그러나 기존 비디오 편집 모델들은 이러한 요구사항을 충족하지 못한다. IC-Effect는 DiT 모델의 contextual learning 능력을 활용하여 소스 비디오를 깨끗한 맥락적 조건으로 이용함으로써 정확한 배경 보존과 자연스러운 효과 주입을 달성한다. 일반적인 편집 적응 단계와 Effect-LoRA를 통한 효과 특화 학습 단계로 구성된 2단계 학습 전략은 강력한 지시문 준수 능력과 견고한 효과 모델링을 보장한다. 효율성 향상을 위해 시공간적 희소 토큰화를 도입하여 계산량을 대폭 줄이면서도 높은 fidelity를 가능하게 했다. 또한 15가지 고품질 시각적 스타일을 아우르는 paired VFX 편집 데이터셋을 공개한다. 폭넓은 실험을 통해 IC-Effect가 고품질, 제어 가능하며 시간적으로 일관된 VFX 편집 결과를 제공하여 비디오 제작에 새로운 가능성을 열어줌을 입증한다.
연속적인 시각 입력에 대한 공간 이해는 MLLM이 물리적 환경에서 범용 어시스턴트로 진화하기 위해 중요합니다. 그러나 이 목표를 향한 진전을 종합적으로 평가하는 벤치마크는 아직 부재합니다. 본 연구에서는 MLLM의 비디오 기반 공간 지능을 평가하기 위해 완전히 인간이 주석을 달은 벤치마크인 MMSI-Video-Bench를 소개합니다. 이 벤치마크는 25개 데이터셋과 자체 제작 비디오에서 추출한 1,278개 클립을 바탕으로 한 1,106개의 질문을 통해 지각(Perception), 계획(Planning), 예측(Prediction), 크로스-비디오 추론(Cross-Video Reasoning)이라는 4단계 프레임워크를 운영화합니다. 각 항목은 3DV 전문가들이 설명적 근거와 함께 신중하게 설계 및 검토하여 정확하고 모호함 없는 근거를 확보했습니다. 다양한 데이터 소스와 포괄적인 과제 범위를 활용하는 MMSI-Video-Bench는 또한 대상 능력 평가를 위한 세 가지 도메인 지향 하위 벤치마크(실내 장면 지각 벤치, 로봇 벤치, 그라운딩 벤치)를 지원합니다. 우리는 25개의 강력한 오픈소스 및 독점 MLLM을 평가하여 놀라운 인간-AI 간격을 확인했습니다: 많은 모델이 거의 추측 수준에 머물고, 가장 성능이 좋은 추론 모델도 인간보다 약 60%나 뒤처집니다. 우리는 더 나아가 공간적으로 미세 조정된 모델들도 우리 벤치마크에서 효과적으로 일반화하지 못함을 발견했습니다. 세분화된 오류 분석은 기하학적 추론, 운동 그라운딩, 장기 예측, 크로스-비디오 대응에서의 체계적 실패를 드러냈습니다. 우리는 또한 일반적인 프레임 샘플링 전략이 우리의 추론 집약적 벤치마크로 잘 전이되지 않으며, 3D 공간 단서나 사고 연쇄(chain-of-thought) 프롬프팅도 의미 있는 성능 향상을 가져오지 않음을 보여줍니다. 우리는 우리의 벤치마크가 비디오 기반 공간 지능 발전을 위한 견고한 테스트베드를 마련할 것으로 기대합니다.
AI 기반 영상 생성 기술의 오남용은 심각한 사회적 우려를 불러일으키며, 신뢰할 수 있는 AI 생성 영상 탐지기의 필요성을 절실히 부각시키고 있습니다. 그러나 기존 대부분의 방법은 이진 분류에 국한되어 있으며 인간이 이해할 수 있는 필요한 설명을 제공하지 못하는 한계가 있습니다. 본 논문에서는 AI 생성 영상에서 인간이 인지할 수 있는 시각적 아티팩트를 식별하고 이를 탐지와 설명을 위한 근거 증거로 활용하는 전문 멀티모달 대규모 언어 모델(MLLM)인 Skyra를 제안합니다. 이를 위해 세분화된 인간 주석이 달린 최초의 대규모 AI 생성 영상 아티팩트 데이터셋인 ViF-CoT-4K을 구축하여 지도 미세 조정(SFT)에 활용합니다. 그런 다음 2단계 학습 전략을 통해 모델의 시공간적 아티팩트 인지 능력, 설명 능력 및 탐지 정확도를 체계적으로 향상시킵니다. Skyra를 종합적으로 평가하기 위해 10개 이상의 최첨단 영상 생성기로 생성된 3,000개의 고품질 샘플로 구성된 벤치마크인 ViF-Bench를 도입합니다. 광범위한 실험을 통해 Skyra가 여러 벤치마크에서 기존 방법을 능가하는 동시에, 우리의 평가가 설명 가능한 AI 생성 영상 탐지 기술 발전에 유용한 통찰력을 제공함을 입증합니다.
생성 모델은 매우 사실적인 콘텐츠, 이른바 딥페이크를 합성할 수 있으며, 이는 이미 디지털 미디어의 진위를 훼손하기 위해 대규모로 악용되고 있습니다. 현재의 딥페이크 탐지 방법은 두 가지 이유로 신뢰할 수 없습니다. (i) 부정확한 콘텐츠를 사후에 구분하는 것은 (예: 기억된 샘플의 경우) 종종 불가능하여 무한한 위양성률(FPR)을 초래합니다. (ii) 탐지 방법은 강건성이 부족한데, 이는 공격자가 최소한의 계산 자원으로 알려진 탐지기를 거의 완벽한 정확도로 적응하여 회피할 수 있기 때문입니다. 이러한 한계를 해결하기 위해, 우리는 어떤 샘플이 진본인지 또는 그 진위를 설득력 있게 부인할 수 있는지를 판단하는 재합성 프레임워크를 제안합니다. 우리는 효율적인(즉, 계산 자원이 제한된) 공격자를 대상으로 하는 고정밀도, 저재현율 설정에 초점을 맞춰 두 가지 주요 기여를 합니다. 첫째, 우리의 보정된 재합성 방법이 통제 가능한 낮은 FPR을 유지하면서 진본 샘플을 검증하는 가장 신뢰할 수 있는 접근법임을 입증합니다. 둘째, 우리의 방법이 효율적인 공격자에 대해 적대적 강건성을 달성하는 반면, 기존 방법들은 동일한 계산 예산 하에서 쉽게 회피됨을 보여줍니다. 우리의 접근법은 다중 모달리티를 지원하며 최첨단 인버전 기술을 활용합니다.
인간은 본질적으로 임의 시간 범위(any-horizon) 추론자입니다. 즉, 주어진 작업에 필요할 경우 긴 동영상을 반복적으로 훑어보거나 짧은 동영상을 완전히 시청할지 유연하게 결정할 수 있습니다. 이러한 점을 고려하면, 동영상 추론 모델도 서로 다른 지속 시간에 걸쳐 유연하게 추론할 수 있을 것이라 기대할 수 있습니다. 그러나 최첨단(SOTA) 모델들은 여전히 긴 동영상 전체를 시청하는 것처럼 많은 수의 프레임을 처리하면서 단일 턴(turn) 내에서 답변을 예측하도록 훈련되어 상당한 자원을 요구합니다. 이는 다음과 같은 의문을 제기합니다: 성능이 우수한 임의 시간 범위 동영상 추론 시스템을 개발하는 것이 가능할까? 인간의 행동에서 영감을 받아, 우리는 먼저 긴 동영상에 대해 다중 턴(multi-turn) 추론을 수행하면서도 간단한 문제는 단일 턴으로 처리하는 에이전트 시스템인 SAGE를 제안합니다. 두 번째로, SAGE의 핵심에 있는 오케스트레이터(orchstrator)인 SAGE-MM을 훈련시키기 위해 Gemini-2.5-Flash를 사용하는 쉬운 합성 데이터 생성 파이프라인을 소개합니다. 또한 SAGE-MM에 임의 시간 범위 추론 능력을 함양시키는 데 필수적인 효과적인 강화 학습(RL) 사후 훈련 방법을 제안합니다. 세 번째로, 실제 엔터테인먼트 사용 사례에서 동영상 추론 능력을 평가하기 위해 평균 지속 시간 700초 이상의 SAGE-Bench를 정밀하게 구축합니다. 마지막으로, 우리는 우리 시스템, 데이터 및 RL 방법의 효과를 실증적으로 검증하여, 개방형 동영상 추론 작업에서 최대 6.1%의 뚜렷한 개선과 10분 이상의 긴 동영상에서는 인상적인 8.2%의 향상을 관찰했습니다.
최근 멀티모달 연구에서 디퓨전 패러다임은 고유한 디코딩 장점으로 인해 자기회귀 패러다임(AR)에 대한 유망한 대안으로 부상했습니다. 그러나 기본 디퓨전 언어 모델의 성능 한계로 인해 디퓨전 비전 언어 모델(dVLM)의 성능은 여전히 주류 모델들에 비해 크게 뒤처지고 있습니다. 이로 인해 단순하지만 근본적인 질문이 제기됩니다: 기존의 강력한 AR 모델을 기반으로 dVLM을 구축하는 것이 가능할까요? 이에 대해 우리는 어떤 강력한 AR 모델에서든 변환이 가능한 dVLM 패밀리인 DiffusionVL을 제안합니다. 간단한 미세 조정을 통해 AR 사전 학습 모델을 디퓨전 패러다임으로 성공적으로 적응시킵니다. 이 접근 방식은 두 가지 주요 관찰 결과를 도출했습니다: (1) AR 기반 멀티모달 모델에서 디퓨전으로의 패러다임 전환은 매우 효과적입니다. (2) AR 언어 모델을 dVLM으로 직접 변환하는 것도 가능하며, LLaVA 스타일의 시각-지시-튜닝과 경쟁력 있는 성능을 달성합니다. 더 나아가, 우리는 임의 길이 생성과 KV 캐시 재사용을 지원하는 블록 디코딩 설계를 dVLM에 도입하여 추론 속도를 크게 가속화했습니다. 대량의 실험을 수행한 결과, 기존 방법들이 필요로 하는 데이터의 5% 미만으로 학습했음에도 불구하고 DiffusionVL은 MMMU-Pro(비전) 벤치에서 34.4%, MME(인지) 벤치에서 37.5%의 성능 향상이라는 포괄적인 성능 개선과 함께 추론 속도 2배 가속을 동시에 달성했습니다. 모델과 코드는 https://github.com/hustvl/DiffusionVL에서 공개되었습니다.
강화 학습은 대규모 언어 모델의 추론 능력 강화에 필수적인 도구가 되었으나, 현재의 탐색 메커니즘은 이러한 모델의 실제 학습 방식과 근본적으로 불일치합니다. 엔트로피 보너스와 외부 의미론적 비교자들은 표면적 변이를 장려하지만, 최적화를 형성하는 업데이트 방향에서 샘플링된 경로가 실제로 차이를 보장하지는 않습니다. 우리는 탐색이 외부 휴리스틱이 아닌 모델 자체의 1차 업데이트 기하학에 의해 주도되는 그래디언트 기반 강화 학습 프레임워크인 G2RL을 제안합니다. G2RL은 각 응답에 대해 모델의 최종 레이어 민감도(표준 순전파만으로도 극히 낮은 비용으로 획득 가능)에서 시퀀스 수준 특징을 구성하고, 샘플링된 그룹 내에서 이러한 특징들을 비교하여 각 경로가 정책을 어떻게 재구성할지 측정합니다. 새로운 그래디언트 방향을 도입하는 경로에는 제한된 승수 보조 인자가 부여되는 반면, 중복되거나 매니폴드를 벗어난 업데이트는 약화되어 PPO 스타일 안정성 및 KL 제어와 자연스럽게 조화되는 자기 참조적 탐색 신호를 생성합니다. Qwen3 base 1.7B 및 4B 모델을 활용한 수학 및 일반 추론 벤치마크(MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro)에서 G2RL은 엔트로피 기반 GRPO 및 외부 임베딩 방법 대비 pass@1, maj@16, pass@k를 지속적으로 향상시켰습니다. 유도된 기하학을 분석한 결과, G2RL은 의미론적 일관성을 유지하면서도 훨씬 더 직교적이고 종종 상반된 그래디언트 방향으로 탐색을 확장하며, 정책 자체의 업데이트 공간이 대규모 언어 모델 강화 학습에서 탐색을 안내하는 훨씬 더 정확하고 효과적인 기반을 제공함을 확인했습니다.
최근 다국어 개체명 인식(NER) 연구에서는 대규모 언어 모델(LLM)이 효과적인 합성 감독을 제공할 수 있음이 입증되었으나, 이러한 데이터셋은 체계적이고 재사용 가능한 자원이라기보다 광범위한 실험의 부산물로 등장하는 경우가 대부분이었습니다. 본 연구에서는 교사-학생 패러다임을 91개 언어와 25개 문자 체계로 확장하는 데이터셋 생성 파이프라인인 FiNERweb을 소개합니다. FineWeb-Edu를 기반으로 하는 우리의 접근법은 NER 관련 문서를 식별하기 위한 회귀 모델을 훈련시키고 다국어 LLM을 사용하여 주석을 추가하며, 약 225,000개의 문서와 235,000개의 고유 개체명 레이블을 생성합니다. 우리의 실험에 따르면 회귀 모델은 84 F1 이상의 성능을 달성했으며, FiNERweb으로 훈련된 모델은 강력한 기준 모델 대비 19배 적은 데이터로 훈련되었음에도 불구하고 영어, 태국어, 스와힐리어에 대한 제로샷 전이 설정에서 비슷하거나 향상된 성능을 얻었습니다. 또한 LLM-as-a-judge를 사용하여 주석 품질을 평가한 결과, 신뢰도(5점 만점에 3.99)와 완전성(5점 만점에 4.05) 모두에서 일관되게 높은 점수를 관찰하여 신뢰할 수 있고 유익한 주석이 생성되었음을 확인했습니다. 더 나아가, 현재 최첨단 모델의 성능이 영어 레이블 대신 대상 언어 레이블을 사용하여 평가될 때 0.02에서 0.09 F1만큼 하락하는 것을 관찰했기 때문에, 영어 레이블과 각 대상 언어로 번역된 레이블 세트를 모두 포함한 데이터셋을 공개합니다. 우리는 다국어 개체명 인식을 위한 보다 효과적인 교사-학생 훈련을 촉진하기 위해 FiNERweb과 모든 관련 아티팩트를 연구 커뮤니티에 공개합니다.
대규모 언어 모델(LLM)은 하위 모델의 평가 및 훈련을 위한 합성 데이터셋 생성에 점점 더 많이 활용되고 있습니다. 그러나 기존 연구에서는 이러한 생성 데이터가 다양성을 결여한다는 점을 지적해왔습니다. 본 논문에서는 다양한 데이터셋을 생성하기 위한 새로운 원리 기반 접근법인 Voyager를 제안합니다. 우리의 접근법은 반복적이며, 결정점 과정 기법을 활용하여 데이터셋의 다양성을 최적화하는 수학적 양을 직접 최적화합니다. 더불어, 이 방법은 훈련이 필요하지 않으며, 비공개 모델에도 적용 가능하고 확장성이 있습니다. 우리의 방법이 작동하는 이론적 근거를 제시하는 것뿐만 아니라, 포괄적인 실험을 통해 Voyager가 다양성 측면에서 1.5~3배의 향상을 제공하여 일반적인 기준 방법들을 크게 능가함을 입증합니다.
자동회귀 비디오 확산 모델은 세계 시뮬레이션 가능성으로 주목받지만 훈련-테스트 불일치에서 비롯된 노출 편향에 취약합니다. 기존 연구에서는 사후 훈련을 통해 이 문제를 해결하지만, 대부분 양방향 교사 모델이나 온라인 판별자에 의존합니다. 우리는 종단간 해결책을 위해 교사 모델 없이도 처음부터 대규모로 자동회귀 비디오 모델을 훈련할 수 있는 Resampling Forcing를 제안합니다. 우리 접근법의 핵심은 훈련 중 과거 프레임에 추론 시 모델 오류를 시뮬레이션하는 자체 리샘플링 기법입니다. 이렇게 저하된 과거 프레임을 조건으로 희소 인과 마스크는 시간적 인과성을 보장하면서 프레임 수준 확산 손실을 통한 병렬 훈련을 가능하게 합니다. 또한 효율적인 장기간 생성 구현을 위해 매 쿼리마다 가장 관련성 높은 상위 k개 과거 프레임을 동적으로 추출하는 매개변수 무료 메커니즘인 기록 라우팅을 도입했습니다. 실험 결과, 우리의 접근법은 증류 기반 기준선과 유사한 성능을 달성하면서 원래 길이 훈련 덕분에 더 긴 비디오에서 우수한 시간적 일관성을 보여주었습니다.
자율 주행은 오랫동안 모듈식 '인지-판단-행동' 파이프라인에 의존해 왔으며, 수작업으로 설계된 인터페이스와 규칙 기반 구성 요소들은 복잡하거나 꼬리 긴(Long-tailed) 시나리오에서 종종 제 기능을 상실합니다. 이들의 계단식 설계는 인지 오류를 추가로 전파하여 하류의 경로 계획 및 제어 성능을 저하시킵니다. 비전-행동(VA) 모델은 시각적 입력에서 행동으로의 직접적인 매핑을 학습함으로써 일부 한계를 해소하지만, 여전히 불투명하고 분포 변화에 민감하며 구조화된 추론이나 지시 따르기 능력이 부족합니다. 대규모 언어 모델(LLM) 및 멀티모달 학습의 최근 발전은 언어 기반 의사 결정과 인지를 통합하는 비전-언어-행동(VLA) 프레임워크의 등장을 촉진했습니다. 시각적 이해, 언어적 추론, 실행 가능한 출력을 통합함으로써 VLA는 더 해석 가능하고 일반화 가능하며 인간과 조율된 주행 정책을 구현할 수 있는 길을 제시합니다. 본 논문은 자율 주행을 위한 새롭게 부상하는 VLA 환경을 구조적으로 규명합니다. 초기 VA 접근법에서 현대 VLA 프레임워크로의 진화를 추적하고 기존 방법을 두 가지 주요 패러다임으로 체계화합니다. 단일 모델 내에서 인지, 추론, 계획을 통합하는 단일형 VLA와 느린 숙고(VLMs 통해)와 빠르고 안전에 중요한 실행(계획기 통해)을 분리하는 이중형 VLA입니다. 이러한 패러다임 내에서 텍스트 기반 대 수치 기반 행동 생성기, 명시적 대 암묵적 안내 메커니즘과 같은 하위 클래스를 추가로 구분합니다. 또한 VLA 기반 주행 시스템 평가를 위한 대표적인 데이터셋과 벤치마크를 요약하고, 견고성, 해석 가능성, 지시 준수성 등을 포함한 주요 과제와 미해결 방향을 강조합니다. 전반적으로, 본 연구는 인간과 조화되는 자율 주행 시스템 발전을 위한 일관된 기초를 마련하는 것을 목표로 합니다.
최근 비디오 생성 기술은 눈에 띄게 발전하여 시각적으로 매력적인 비디오와 동기화된 오디오를 생성하는 모델이 등장했습니다. 기존 비디오 생성 벤치마크는 시각적 품질에 대한 포괄적인 평가 지표를 제공하지만, 특히 동기화된 오디오-비디오 출력을 목표로 하는 모델에 대한 설득력 있는 오디오-비디오 생성 평가가 부족합니다. 이러한 격차를 해결하기 위해 우리는 동기식 오디오-비디오 생성 능력을 체계적으로 평가하도록 설계된 포괄적이고 다차원적인 벤치마크 프레임워크인 VABench를 소개합니다. VABench는 텍스트-오디오-비디오(T2AV), 이미지-오디오-비디오(I2AV), 스테레오 오디오-비디오 생성이라는 세 가지 주요 작업 유형을 포괄합니다. 또한 15개 차원을 아우르는 두 가지 주요 평가 모듈을 구축했습니다. 이러한 차원들은 특히 쌍별 유사성(텍스트-비디오, 텍스트-오디오, 비디오-오디오), 오디오-비디오 동기화, 입모양-음성 일관성, 그리고 신중하게 선별된 오디오 및 비디오 질의응답(QA) 쌍 등을 평가합니다. 더 나아가 VABench는 동물, 인간 소리, 음악, 환경 음향, 동기화된 물리적 소리, 복잡한 장면, 가상 세계 등 일곱 가지 주요 콘텐츠 범주를 다룹니다. 우리는 평가 결과에 대한 체계적인 분석과 시각화를 제공하여 동기식 오디오 기능을 갖춘 비디오 생성 모델 평가의 새로운 표준을 수립하고 해당 분야의 포괄적인 발전을 촉진하는 것을 목표로 합니다.
가장 기본적인 수준에서 픽셀은 우리가 세계를 인지하는 시각 정보의 원천입니다. 픽셀에는 저수준 속성부터 고수준 개념에 이르기까지 모든 수준의 정보가 포함되어 있습니다. 오토인코더는 픽셀이나 다른 원시 입력으로부터 표현을 학습하는 고전적이면서도 오랜 패러다임을 대표합니다. 본 연구에서는 오토인코더 기반 자기지도 학습이 여전히 현시점에서 경쟁력을 유지하며, 간단하고 안정적이며 효율적인 동시에 다운스트림 작업에 강력한 표현을 생성할 수 있음을 입증합니다. "Pixio"라는 코드명을 가진 우리 모델은 더 어려운 사전 학습 작업과 더 우수한 아키텍처를 갖춘 향상된 마스크드 오토인코더(MAE)입니다. 이 모델은 최소한의 인간 개입으로 자체 선별 전략을 적용하여 웹에서 크롤링한 20억 장의 이미지로 학습되었습니다. Pixio는 단안 깊이 추정(예: Depth Anything), 피드포워드 3D 재구성(MapAnything), 의미론적 분할, 로봇 학습 등 실제 다양한 다운스트림 작업에서 경쟁력 있는 성능을 보이며, 유사한 규모로 학습된 DINOv3를 능가하거나 동등한 성과를 냅니다. 우리의 결과는 픽셀 공간 자기지도 학습이 잠재 공간 접근법에 대한 유망한 대안이자 보완책이 될 수 있음을 시사합니다.
텍스트-이미지 생성 모델의 급속한 발전은 시각 콘텐츠 제작에 혁명을 가져왔습니다. Nano Banana Pro와 같은 상용 제품이 상당한 관심을 받았지만, 전통적인 저수준 컴퓨터 비전(low-level vision) 과제에 대한 범용 솔루션(generalist solver)으로서의 잠재력은 여전히 크게 탐구되지 않았습니다. 본 연구에서는 'Nano Banana Pro는 저수준 비전 올라운더(All-Rounder)인가?'라는 핵심 질문을 탐구합니다. 우리는 40개의 다양한 데이터셋에 걸친 14개의 distinct한 저수준 작업에 대한 포괄적인 제로샷(zero-shot) 평가를 수행했습니다. 미세 조정(fine-tuning) 없이 간단한 텍스트 프롬프트(prompt)를 활용하여, Nano Banana Pro를 최첨단 전문(specialist) 모델들과 비교 평가했습니다. 우리의 광범위한 분석은 뚜렷한 성능 이분법(dichotomy)을 보여줍니다: Nano Banana Pro는 우수한 주관적 시각 질감을 보여주며, 전문 모델을 능가하는 그럴듯한 고주파수 세부 사항(high-frequency details)을 종종 생성(hallucinating)하지만, 전통적인 참조 기반(reference-based) 정량적 지표에서는 뒤처집니다. 우리는 이러한 불일치를 생성 모델의 내재적 확률론적 특성(inherent stochasticity)으로 귀인합니다. 이 특성은 기존 지표들이 요구하는 엄격한 픽셀 수준 일관성(pixel-level consistency)을 유지하는 데 어려움을 겪기 때문입니다. 본 보고서는 Nano Banana Pro가 저수준 비전 작업에 유능한 제로샷 경쟁자임을 확인하는 동시에, 해당 분야 전문 모델들의 높은 정확도(fidelity)를 달성하는 것은 여전히 큰 과제로 남아 있음을 강조합니다.
저희는 FrontierCS를 소개합니다. 이는 컴퓨터과학 박사 및 최상위 경쟁 프로그래밍 참가자·출제자 등 전문가들이 설계하고 검토한 다양한 컴퓨터과학 분야의 156개 개방형 문제로 구성된 벤치마크입니다. 기존 벤치마크가 알려진 최적 해법이 있는 과제에 집중하는 반면, FrontierCS는 최적 해법은 알려지지 않았지만 해법의 질을 객관적으로 평가할 수 있는 문제를 대상으로 합니다. 모델은 직접적인 답을 출력하는 대신 실행 가능한 프로그램을 구현하여 이러한 과제를 해결합니다. FrontierCS에는 객관적인 부분 채점이 가능한, 종종 NP-난해 변형인 경쟁 프로그래밍 문제인 알고리즘 문제와 동일한 특성을 지닌 연구 문제가 포함됩니다. 각 문제에 대해 전문가 참조 해법과 자동 평가기를 제공합니다. 개방형 설계, 측정 가능한 진전, 전문가 큐레이션을 결합한 FrontierCS는 컴퓨터과학 난이도 최전선에 있는 벤치마크를 제공합니다. 실증적으로는 최첨단 추론 모델이 알고리즘 및 연구 트랙 모두에서 여전히 인간 전문가에 크게 뒤처지며, 추론 예산만 늘리는 것으로는 이 격차를 해소할 수 없으며, 모델이 고품질 알고리즘과 시스템 설계를 발견하기보다 단순히 작동 가능한 코드 생성에 지나치게 최적화되는 경우가 많다는 사실을 확인했습니다.
LLM의 컨텍스트 윈도우 확장과 관련된 계산 및 메모리 오버헤드는 확장성을 심각하게 제한합니다. 주목할 만한 해결책으로는 DeepSeek-OCR 및 Glyph와 같은 프레임워크에서 예시되는 시각-텍스트 압축(VTC)이 있으며, 이는 긴 텍스트를 고밀도 2D 시각적 표현으로 변환하여 3~20배의 토큰 압축률을 달성합니다. 그러나 이러한 높은 정보 밀도가 시각-언어 모델(VLM)의 핵심 장문 컨텍스트 능력에 미치는 영향은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해결하기 위해 우리는 VTC를 위한 최초의 벤치마크를 도입하고 세 가지 장문 컨텍스트 이해 설정에서 VLM의 성능을 체계적으로 평가합니다: 정보를 검색 및 통합하는 모델의 능력을 평가하는 VTC-검색, 최소한의 어휘 중복으로 사실을 찾기 위해 잠재적 연관성을 추론해야 하는 VTC-추론, 그리고 장기 대화 메모리 내 포괄적인 질의응답을 측정하는 VTC-메모리입니다. 더 나아가 다양한 입력 시나리오를 모의 실험하기 위해 VTCBench-Wild를 구축했습니다. 우리는 벤치마크를 통해 주요 오픈소스 및 독점 모델을 포괄적으로 평가했습니다. 결과에 따르면, 대부분의 VLM이 텍스트 정보(예: OCR)는 잘 디코딩할 수 있지만, VTC로 압축된 정보에 대한 장문 컨텍스트 이해 능력은 놀랍도록 낮아 컨텍스트 내 긴 연관성이나 의존성을 파악하지 못하는 것으로 나타났습니다. 본 연구는 VTC에 대한 깊은 이해를 제공하며, 더 효율적이고 확장 가능한 VLM 설계의 기초를 마련합니다.
대규모 언어 모델(LLM) 에이전트는 방대하고 동적인 컨텍스트를 생성하는 환경에 점점 더 많이 배포되고 있습니다. 그러나 중요한 병목 현상은 여전히 존재합니다. 에이전트가 이러한 컨텍스트에 접근할 수 있지만, 정적인 프롬프트는 이를 효과적으로 관리할 수 있는 메커니즘이 부족하여 반복적인 수정(Corrective) 및 향상(Enhancement) 실패로 이어집니다. 이러한 역량 격차를 해결하기 위해 우리는 SCOPE(Self-evolving Context Optimization via Prompt Evolution)를 소개합니다. SCOPE는 컨텍스트 관리를 온라인 최적화 문제로 규정하고, 실행 흔적(execution traces)에서 지침을 종합하여 에이전트의 프롬프트를 자동으로 발전시킵니다. 우리는 전술적 특수성(즉각적인 오류 해결)과 전략적 일반성(장기적 원칙 발전)의 균형을 맞추는 이중 스트림(Dual-Stream) 메커니즘을 제안합니다. 더 나아가, 전략 적용 범위를 극대화하여 에이전트가 주어진 작업에 대해 올바른 전략을 보유할 가능성을 높이는 관점 주도 탐색(Perspective-Driven Exploration)을 도입합니다. HLE 벤치마크에서의 실험 결과, SCOPE는 인간의 개입 없이 작업 성공률을 14.23%에서 38.64%로 향상시키는 것으로 나타났습니다. 우리는 코드를 https://github.com/JarvisPei/SCOPE 에 공개했습니다.
자동식별시스템(AIS)은 데이터 기반 해상 감시를 가능하게 하지만 신뢰성 문제와 불규칙한 간격으로 데이터가 수집된다는 한계가 있습니다. 본 연구는 긴 항로 간 궤적을 중첩된 시퀀스 구조로 재구성하는 차별화된 접근법을 통해 전 세계적 범위의 AIS 데이터를 이용한 선박 목적지 추정 문제를 다룹니다. 공간 그리드를 활용하는 이 방법은 상세한 해상도를 유지하면서 시공간적 편향을 완화합니다. 우리는 이러한 재구성된 궤적을 처리하여 수일에서 수주 전에 장기 목적지 추정이 가능한 WAY라는 새로운 딥러닝 아키텍처를 제안합니다. WAY는 궤적 표현 계층과 채널-집계 순차 처리(CASP) 블록으로 구성됩니다. 표현 계층은 운동학적 및 비운동학적 특성으로부터 다중 채널 벡터 시퀀스를 생성합니다. CASP 블록은 다중 헤드 채널 어텐션과 자기 어텐션을 활용하여 정보를 집계하고 순차적 정보를 전달합니다. 또한 단일 레이블에 대한 다대다 훈련을 가능하게 하는 작업 전용 기울기 드롭아웃(GD) 기법을 제안합니다. GD는 샘플 길이를 기반으로 기울기 흐름을 확률적으로 차단하여 편향된 피드백 급증을 방지합니다. 5년간의 AIS 데이터에 대한 실험 결과, WAY는 궤적 진행 정도에 관계없이 기존의 공간 그리드 기반 접근법보다 우수한 성능을 보였습니다. 결과는 GD 채택이 성능 향상으로 이어짐을 추가로 확인합니다. 마지막으로, ETA 추정을 위한 다중 작업 학습을 통해 WAY의 실세계 적용 가능성을 탐구합니다.
강화학습(RL) 에이전트의 성능은 기본이 되는 특징 표현(feature representation)의 질에 크게 의존합니다. 쌍곡선 특징 공간은 복잡한 RL 환경에 흔히 존재하는 계층적 및 관계적 구조를 자연스럽게 포착하기 때문에 이 목적에 매우 적합합니다. 그러나 이러한 공간을 활용하는 것은 RL의 비정상성(nonstationarity)으로 인해 일반적으로 최적화 문제에 직면합니다. 본 연구에서는 쌍곡선 심층 RL 에이전트 훈련의 성공과 실패를 결정하는 핵심 요인을 규명합니다. 쌍곡선 기하학의 포앵카레 볼(Poincaré Ball) 및 쌍곡면(Hyperboloid) 모델에서 핵심 연산의 그래디언트를 분석함으로써, 큰 노름(norm)을 가진 임베딩이 그래디언트 기반 훈련을 불안정하게 만들고 근위 정책 최적화(PPO)에서 신뢰 구역(trust-region) 위반을 초래한다는 것을 보여줍니다. 이러한 통찰을 바탕으로 세 가지 구성 요소로 이루어진 새로운 쌍곡선 PPO 에이전트인 Hyper++를 소개합니다: (i) 회귀 분석 대신 범주형 가치 손실(categorical value loss)을 통한 안정적인 비평가(critic) 훈련; (ii) 클리핑(clipping)으로 인한 차원의 저주(curse of dimensionality)를 피하면서 노름이 제한되도록 보장하는 특징 정규화; (iii) 최적화에 더 친화적인 쌍곡선 네트워크 계층 공식을 사용. ProcGen에 대한 실험에서 Hyper++가 안정적인 학습을 보장하며, 기존 쌍곡선 에이전트를 능가하고, 실제 소요 시간(wall-clock time)을 약 30% 단축시킴을 보여줍니다. Double DQN을 사용한 Atari-5에서 Hyper++는 유클리드 및 쌍곡선 기준선(baseline)을 크게 능가합니다. 우리는 코드를 https://github.com/Probabilistic-and-Interactive-ML/hyper-rl 에 공개합니다.
소규모 언어 모델(SLM)은 낮은 지연 시간과 경량화된 배포가 필요한 작업, 특히 분류 작업에서 널리 사용됩니다. 해석 가능성과 강건성의 중요성이 커짐에 따라, 설명 기반 학습은 훈련 과정에 속성 기반 감독을 도입하는 효과적인 프레임워크로 부상했습니다. 그러나 일반적이고 신뢰할 수 있는 속성 사전 지식을 도출하는 것은 여전히 큰 과제로 남아 있습니다. 분류 설정에서 대표적인 속성 방법을 분석한 결과, 이러한 방법들이 클래스 관련 토큰을 신뢰성 있게 강조할 수는 있지만, 의미적으로 유사한 클래스들이 공유하는 일반적인 키워드에 주로 집중하는 경향이 있음을 발견했습니다. 이러한 클래스들은 표준 훈련 하에서도 이미 구분하기 어려우므로, 해당 속성들은 판별에 필요한 충분한 단서를 제공하지 못해 모델의 차별화 능력 향상에 한계가 있습니다. 이러한 한계를 극복하기 위해, 본 연구에서는 언어 모델이 세분화된 클래스 차이를 포착하고 더욱 두드러지며 판별력 있는 속성 사전 지식을 생성하도록 유도하는 새로운 속성 사전 지식 추출 프레임워크인 Class-Aware Attribution Prior(CAP)를 제안합니다. 이 아이디어를 바탕으로, CAP에서 도출된 사전 지식과 기존 속성 기법들의 사전 지식을 결합하여 보다 포괄적이고 균형 잡힌 감독 신호를 형성하는 CAP Hybrid를 추가로 소개합니다. 모델의 자기 속성이 이러한 향상된 사전 지식과 일치하도록 함으로써, 우리의 접근 방식은 다양하고 결정과 관련된 특징의 학습을 촉진합니다. 전체 데이터, 소수 샘플, 적대적 시나리오에서 진행된 폭넓은 실험을 통해 본 방법이 해석 가능성과 강건성을 모두 지속적으로 향상시킴을 입증했습니다.
전문가 혼합(MoE) 모델은 계산 비용을 크게 증가시키지 않고 언어 모델의 규모를 확장하기 위한 사실상의 표준 아키텍처로 부상했습니다. 최근 MoE 모델은 높은 전문가 세분화(더 작은 전문가 중간 차원)와 더 높은 희소성(전체 전문가 수는 더 많으면서 활성화되는 전문가 수는 일정)을 향한 뚜렷한 추세를 보이며, FLOP당 모델 품질을 향상시키고 있습니다. 그러나 세분화된 MoE는 높은 IO 비용으로 인해 활성화 메모리 사용량이 증가하고 하드웨어 효율이 저하되는 문제가 있으며, 더 희소한 MoE는 Grouped GEMM 커널 내 패딩으로 인한 계산 낭비 문제가 있습니다. 이에 대응하여, 우리는 역전파를 위한 활성화 캐싱을 최소화하면서 MoE의 순전파와 역전파를 계산하는 메모리 효율적인 알고리즘을 제안합니다. 또한 모든 MoE 아키텍처에 도움이 되는 메모리 IO와 계산을 중첩시키는 GPU 커널을 설계합니다. 마지막으로, Grouped GEMM 커널 내 패딩으로 인한 계산 낭비를 최소화하는 새로운 "토큰 라운딩" 방법을 제안합니다. 그 결과, 우리의 방법인 SonicMoE는 세분화된 7B MoE에 대해 ScatterMoE의 BF16 MoE 커널 대비 활성화 메모리를 45% 절감하고 Hopper GPU에서 1.86배의 계산 처리량 향상을 달성했습니다. 구체적으로, lm-engine 코드베이스와 FSDP-2를 사용한 7B MoE 모델 학습에서 SonicMoE는 H100 64개로 일일 2,130억 토큰의 학습 처리량을 달성하며, 이는 H100 96개를 사용하는 ScatterMoE의 일일 2,250억 토큰 처리량에 버금가는 성능입니다. 높은 MoE 희소성 설정에서 우리의 타일 인식 토큰 라운딩 알고리즘은 기존 상위-K 라우팅 대비 유사한 다운스트림 성능을 유지하면서 커널 실행 시간에서 추가로 1.16배의 속도 향상을 가져옵니다. 더 빠른 MoE 모델 학습을 위해 모든 커널을 오픈소스로 공개합니다.
개인화된 LLM은 사용자 정보를 기억하고, 이를 정확히 적용하며, 시간이 지남에 따라 적응하여 사용자가 선호하는 응답을 제공해야 합니다. 기존 LLM 개인화 벤치마크는 주로 두 가지 축을 중심으로 이루어집니다: 사용자 정보를 정확히 회상하는 것과 기억된 정보를 다운스트림 작업에 정확히 적용하는 것입니다. 우리는 세 번째 축인 '호감도'가 주관적이면서도 사용자 경험의 핵심임에도 불구하고, 현재 벤치마크에서 충분히 측정되지 않고 있다고 주장합니다. 호감도를 종합적으로 측정하기 위해 우리는 LikeBench를 도입했습니다. LikeBench는 다중 세션, 동적 평가 프레임워크로, LLM이 시간이 지남에 따라 사용자의 선호도에 적응하여 더 호감 가는 응답을 제공할 수 있는 정도를 여러 차원에서 측정합니다. LikeBench에서 LLM은 시뮬레이션된 사용자와 대화를 나누며, 진행 중인 대화에서만 선호도를 학습합니다. 상호작용이 전개됨에 따라 모델은 응답에 적응하려고 시도하며, 각 차례 후 동일한 시뮬레이션 사용자에 의해 7가지 차원에서 호감도를 평가받습니다. 우리가 아는 한, 우리는 최초로 호감도를 여러 진단 메트릭으로 분해했습니다: 정서적 적응, 격식도 맞춤, 지식 적응, 언급 이해, 대화 길이 적합도, 유머 적합도, 그리고 콜백입니다. 이를 통해 모델의 부족한 부분을 정확히 파악하기 쉬워집니다. 시뮬레이션 사용자를 더 현실적이고 판별력 있게 만들기 위해, LikeBench는 기존 연구에서 사용된 단순한 고/저 특성 평점 기반 페르소나가 아닌, 심리학적으로 근거를 둔 세분화된 서술형 페르소나를 사용합니다. 우리의 벤치마크는 강력한 기억 성능이 높은 호감도를 보장하지 않음을 보여줍니다: 기억 정확도가 낮은(86%, 프로필당 17개 사실) DeepSeek R1이 기억 정확도가 더 높은(93%, 프로필당 43개 사실) Qwen3보다 호감도 점수에서 28% 앞섰습니다. GPT-5와 같은 SOTA 모델들도 짧은 교환에서는 잘 적응하지만, 더 길고 노이즈가 많은 상호작용에서는 제한된 견고성만을 보였습니다.
로봇 매니퓰레이션은 복잡한 실제 환경 과제를 처리하기 위해 풍부한 다중 모달 인지와 효과적인 학습 프레임워크가 모두 필요합니다. 촉각 및 시각 인지를 결합한 투과성 피부(STS) 센서는 유망한 감지 능력을 제공하는 반면, 현대적 모방 학습은 정책 획득을 위한 강력한 도구를 제공합니다. 그러나 기존 STS 설계는 동시 다중 모달 인지가 부족하고 신뢰할 수 없는 촉각 추적 문제를 겪고 있습니다. 더욱이 이러한 풍부한 다중 모달 신호를 학습 기반 매니퓰레이션 파이프라인에 통합하는 것은 여전히 해결 과제로 남아 있습니다. 본 연구에서는 동시 시각 인지와 강력한 촉각 신호 추출을 가능하게 하는 STS 센서 TacThru와, 이러한 다중 모달 신호를 매니퓰레이션에 활용하는 모방 학습 프레임워크 TacThru-UMI를 소개합니다. 우리의 센서는 완전 투명 탄성중합체, 지속적 조명, 새로운 키라인 마커 및 효율적 추적을 특징으로 하며, 학습 시스템은 트랜스포머 기반 Diffusion Policy를 통해 이러한 신호를 통합합니다. 5가지 까다로운 실제 과제에 대한 실험에서 TacThru-UMI는 평균 85.5%의 성공률을 달성하여 촉각-시각 교차(66.3%) 및 시각 단독(55.4%) 기준선을 크게 능가했습니다. 본 시스템은 얇고 부드러운 객체의 접촉 감지 및 다중 모달 조정이 필요한 정밀 매니퓰레이션을 포함한 중요 시나리오에서 탁월한 성능을 보였습니다. 이 연구는 동시 다중 모달 인지와 현대적 학습 프레임워크의 결합이 더 정밀하고 적응적인 로봇 매니퓰레이션을 가능하게 함을 입증합니다.
인간 대화는 주의와 감정을 전달하는 말과 고개 끄덕임, 시선 이동, 표정 같은 비언어적 단서의 지속적인 교류로 이루어집니다. 이러한 양방향 역학을 3차원으로 모델링하는 것은 표현력이 풍부한 아바타와 상호작용 로봇을 구축하는 데 필수적입니다. 그러나 기존 프레임워크는 말하기와 듣기를 독립적인 과정으로 취급하거나 인과관계를 고려하지 않은 전체 시퀀스 모델링에 의존하는 경우가 많아, 발화 차례 간의 시간적 일관성을 저해합니다. 본 논문에서는 대화를 교차된 오디오-시각적 컨텍스트로 모델링하는 3차원 대화 헤드 생성용 인과적 프레임워크인 TIMAR(턴 단위 교차 마스크드 자동회귀)을 제안합니다. TIMAR는 각 발화 차례 내에서 다중 모드 정보를 융합하고, 턴 단위 인과적 주의 메커니즘을 적용하여 대화 기록을 누적하며, 경량 디퓨전 헤드가 조화와 표현적 변동성을 모두 포착하는 연속적인 3차원 헤드 동역학을 예측합니다. DualTalk 벤치마크 실험 결과, TIMAR는 테스트 세트에서 프레셰 거리와 평균 제곱 오차를 15-30% 감소시켰으며, 분포 외 데이터에서도 유사한 성능 향상을 달성했습니다. 소스 코드는 GitHub 저장소(https://github.com/CoderChen01/towards-seamleass-interaction)에서 공개될 예정입니다.