번역이 포함된 일일 선별된 AI 연구 논문
비디오 모델의 급속한 발전은 주로 시각적 품질에 집중되어 왔으며, 그 추론 능력은 충분히 탐구되지 못했습니다. 비디오 추론은 텍스트가 자연스럽게 포착할 수 있는 범위를 넘어서는 시공간적으로 일관된 시각적 환경에 인텔리전스를 기반으로 하여, 연속성, 상호작용, 인과관계와 같은 시공간 구조에 대한 직관적 추론을 가능하게 합니다. 그러나 체계적으로 비디오 추론과 그 확장 양상을 연구하는 것은 대규모 훈련 데이터의 부족으로 어려움을 겪고 있습니다. 이러한 격차를 해결하기 위해 우리는 매우 큰 규모의 비디오 추론(VBVR) 데이터셋을 소개합니다. 이는 체계적인 분류 체계를 따르는 200개의 선별된 추론 과제와 100만 개 이상의 비디오 클립으로 구성된 전례 없는 대규모 자원으로, 기존 데이터셋보다 약 3배 이상 큽니다. 우리는 더 나아가 VBVR-Bench를 제시하는데, 이는 모델 기반 평가를 넘어 규칙 기반의 인간 정렬 채점 시스템을 통합하여 재현 가능하고 해석 가능한 비디오 추론 능력 진단을 가능하게 하는 검증 가능한 평가 프레임워크입니다. VBVR 제품군을 활용하여 우리는 비디오 추론에 대한 최초의 대규모 확장 연구 중 하나를 수행했으며, 보지 못한 추론 과제에 대한 초기 형태의 일반화 징후를 관찰했습니다. 종합적으로, VBVR은 일반화 가능한 비디오 추론 연구의 다음 단계를 위한 기반을 마련합니다. 데이터, 벤치마크 툴킷 및 모델은 https://video-reason.com/ 에서 공개되어 있습니다.
복합 AI 시스템은 단일 모델의 능력을 넘어서는 성능을 약속하지만, 그 성공은 효과적인 오케스트레이션에 크게 의존합니다. 기존 라우팅 접근법은 두 가지 한계에 직면합니다: (1) 입력 수준 라우터는 변화하는 작업 요구사항을 무시하는 coarse 쿼리 수준 결정을 내립니다; (2) RL로 훈련된 오케스트레이터는 적응 비용이 높으며, 다중 턴 시나리오에서 강력하지만 비용이 큰 단일 옵션을 반복적으로 호출하는 라우팅 붕괴 문제가 자주 발생합니다. 본 연구에서는 기술 인식 오케스트레이션을 위한 SkillOrchestra 프레임워크를 소개합니다. SkillOrchestra는 종단간 라우팅 정책을 직접 학습하는 대신, 실행 경험에서 세분화된 기술을 학습하고 해당 기술 하에서 에이전트별 역량과 비용을 모델링합니다. 배포 시 오케스트레이터는 현재 상호작용의 기술 수요를 추론하고 명시적 성능-비용 트레이드오프 하에서 이를 가장 잘 충족하는 에이전트를 선택합니다. 10개 벤치마크에 걸친 광범위한 실험을 통해 SkillOrchestra가 SoTA RL 기반 오케스트레이터 대비 최대 22.5% 성능 향상을 보였으며, Router-R1 및 ToolOrchestra 대비 각각 700배 및 300배 학습 비용 절감 효과를 입증했습니다. 이러한 결과는 명시적 기술 모델링이 확장 가능하고 해석 가능하며 샘플 효율적인 오케스트레이션을 가능하게 하여, 데이터 집약적인 RL 기반 접근법에 대한 원칙적인 대안을 제공함을 보여줍니다. 코드는 https://github.com/jiayuww/SkillOrchestra에서 이용 가능합니다.
대규모 파운데이션 모델의 부상에 이어, 시각-언어-행동 모델(VLAs)이 강력한 시각 및 언어 이해력을 활용하여 범용 정책 학습을 수행하는 모델로 등장했습니다. 그러나 현재 VLA 생태계는 여전히 파편화되어 있고 탐색적 단계에 머물러 있습니다. 많은 연구 그룹이 각자의 VLA 모델을 제안했지만, 훈련 프로토콜과 평가 설정의 불일치로 인해 어떤 설계 선택이 실제로 중요한지 파악하기 어렵습니다. 이 진화하는 분야에 체계를 부여하기 위해, 우리는 통합된 프레임워크와 평가 설정 하에서 VLA 설계 공간을 재검토합니다. RT-2 및 OpenVLA와 유사한 단순한 VLA 베이스라인을 시작점으로, 기초 구성 요소, 인식 핵심 요소, 행동 모델링 관점이라는 세 가지 차원을 따라 설계 선택을 체계적으로 분석합니다. 이 연구를 통해 우리는 강력한 VLA 모델을 구축하기 위한 실용적인 지침을 구성하는 12가지 핵심 발견을 도출합니다. 이 탐구의 결과물은 단순하면서도 효과적인 모델인 VLANeXt입니다. VLANeXt는 LIBERO 및 LIBERO-plus 벤치마크에서 기존 최첨단 방법들을 능가하며 실제 실험에서도 강력한 일반화 성능을 입증합니다. 우리는 연구 결과의 재현, 설계 공간 탐색, 그리고 공유 기반 위에 새로운 VLA 변형을 구축할 수 있는 공동 플랫폼 역할을 하는 통합되고 사용하기 쉬운 코드베이스를 공개할 예정입니다.
본 연구는 지속적 메모리, 이메일 계정, 디스코드 접근, 파일 시스템, 셸 실행 기능을 갖춘 실험실 환경에 배포된 자율적 언어 모델 기반 에이전트에 대한 탐색적 레드팀링 분석을 보고한다. 2주간에 걸쳐 20명의 AI 연구원이 양호 조건 및 적대적 조건 하에서 해당 에이전트와 상호작용하였다. 언어 모델과 자율성, 도구 사용, 다자간 통신의 통합 과정에서 발생하는 실패 사례에 초점을 맞추어 11가지 대표적 사례 연구를 기록하였다. 관찰된 행동에는 비소유자에 대한 무단 요구 수락, 민감 정보 유출, 파괴적 시스템 수준 행위 실행, 서비스 거부 상태, 통제되지 않은 자원 소비, 신원 스푸핑 취약점, 안전하지 않은 관행의 에이전트 간 전파, 부분적 시스템 점검이 포함된다. 여러 사례에서 에이전트는 작업 완료를 보고했으나 실제 시스템 상태는 해당 보고와 상반되었다. 또한 실패한 시도 사례도 함께 보고한다. 우리의 연구 결과는 현실적인 배포 환경에서 보안, 프라이버시, 거버넌스와 관련된 취약점이 존재함을 입증한다. 이러한 행동들은 책임성, 위임된 권한, 파생적 피해에 대한 책임과 관련된 미해결 질문을 제기하며, 법학자, 정책입안자, 다양한 학문 분야 연구자들의 긴급한 주의가 필요함을 시사한다. 본 보고서는 이러한 포괄적 논의를 위한 초기 실증적 기여를 목적으로 한다.
순차 추천에서는 테스트 시점 계산 효율을 높이기 위해 잠재적 다단계 추론을 점점 더 많이 활용하고 있습니다. 경험적으로 성능 향상이 확인됐음에도 불구하고, 기존 접근법들은 명시적인 실현 가능성 제약을 두지 않고 목표 지향적 목적함수로 중간 추론 상태를 주로 이끌어왔습니다. 이로 인해 추론 궤적이 비현실적인 영역으로 벗어나는 잠재적 표류(latent drift)가 발생합니다. 우리는 효과적인 추천 추론이 자유형식의 잠재적 정제가 아닌 협업 매니폴드 위의 탐색으로 간주되어야 한다고 주장합니다. 이를 위해 우리는 글로벌 상호작용 그래프의 위상 구조 내에서 추론을 정착시키는 원리 기반 프레임워크인 ManCAR(Manifold-Constrained Adaptive Reasoning)을 제안합니다. ManCAR은 사용자의 최근 행위들의 협업적 이웃 관계에서 국소 의도 사전 확률을 구성하며, 이는 아이템 단체(simplex)에 대한 분포로 표현됩니다. 학습 동안 모델은 자신의 잠재 예측 분포를 이 사전 확률과 점진적으로 정렬시켜 추론 궤적이 유효한 매니폴드 내에 머물도록 강제합니다. 테스트 시점에서는 예측 분포가 안정화될 때까지 추론이 적응적으로 진행되어 과도한 정제를 방지합니다. 우리는 ManCAR의 변분 해석을 제공하여 표류 방지 및 적응형 테스트 시점 정지 메커니즘을 이론적으로 입증합니다. 7개 벤치마크에 대한 실험 결과, ManCAR이 최신 기준 모델들을 꾸준히 능가하며 NDCG@10 기준 최대 46.88%의 상대적 성능 향상을 달성함을 보여줍니다. 우리의 코드는 https://github.com/FuCongResearchSquad/ManCAR에서 확인할 수 있습니다.
비전-언어-행동(VLA) 모델의 사전 훈련은 빠르게 발전하고 있으나, 실제 환경에서의 강화 학습(RL) 성능 향상은 낮은 샘플 효율성과 희소한 보상으로 인해 여전히 제한받고 있습니다. 이러한 격차를 해소하기 위해 세밀한 피드백을 제공할 수 있는 일반화 가능한 과정 보상 모델의 개발이 필수적이지만, 기존의 시간적 가치 함수는 훈련 도메인을 벗어나면 제대로 일반화되지 않는 경우가 많습니다. 본 연구에서는 사전 훈련된 비디오 비전-언어 모델(VLM)의 잠재된 세계 지식을 활용하여 로봇 작업 진행률을 추정하는, 확률론적 기반을 가진 새로운 시간적 가치 함수인 TOPReward를 소개합니다. 수치적 오표현에 취약한 직접 진행률 값 출력을 VLM에 요구하는 기존 방법과 달리, TOPReward는 VLM의 내부 토큰 로짓에서 직접 작업 진행률을 추출합니다. 130개 이상의 서로 다른 실제 작업과 여러 로봇 플랫폼(예: Franka, YAM, SO-100/101)에 대한 제로샷 평가에서 TOPReward는 Qwen3-VL 기준 평균 값 순서 상관관계(VOC) 0.947을 달성하여, 동일한 오픈소스 모델에서 거의 제로에 가까운 상관관계를 보인 최첨단 GVL 기준선을 크게 능가했습니다. 또한 TOPReward가 성공 감지 및 보상 정렬 행동 복제를 포함한 다운스트림 응용 프로그램에 대한 다목적 도구로 활용될 수 있음을 입증합니다.
통합 멀티모달 모델은 단일 아키텍처 내에서 시각 콘텐츠를 이해하고 생성할 수 있습니다. 그러나 기존 모델들은 여전히 데이터 요구량이 크고 에지 기기에 배포하기에는 부담스러운 규모입니다. 본 논문에서는 모바일 기기에 통합 멀티모달 인텔리전스를 제공하는 컴팩트한 비전-언어-확산 모델인 Mobile-O를 제안합니다. Mobile-O의 핵심 모듈인 Mobile Conditioning Projector(MCP)는 깊이별 분리 합성곱(depthwise-separable convolutions)과 계층별 정렬(layerwise alignment)을 사용하여 비전-언어 특징을 확산 생성기와 융합합니다. 이 설계는 최소한의 계산 비용으로 효율적인 크로스모달 조건화를 가능하게 합니다. 수백만 개의 샘플만으로 학습되고 생성 프롬프트, 이미지, 질문, 답변으로 구성된 새로운 4중 형식(quadruplet format)으로 사후 학습되어 Mobile-O는 시각 이해와 생성 능력을 공동으로 향상시킵니다. 효율성에도 불구하고, Mobile-O는 다른 통합 모델들과 비교하여 경쟁력 있거나 우수한 성능을 달성했습니다. GenEval에서 74%를 기록했으며, Show-O와 JanusFlow보다 각각 5%, 11% 높은 성능을 보였고, 각각 6배, 11배 더 빠른 속도를 보였습니다. 시각 이해 측면에서는 7개 벤치마크 평균에서 각각 15.3%, 5.1% 앞섰습니다. iPhone에서 512x512 이미지당 약 3초만에 실행되는 Mobile-O는 에지 기기에서 실시간 통합 멀티모달 이해와 생성을 위한 최초의 실용적인 프레임워크를确立합니다. Mobile-O가 클라우드 의존성 없이 완전히 온디바이스에서 실행되는 실시간 통합 멀티모달 인텔리전스 향후 연구에 기여하기를 바랍니다. 코드, 모델, 데이터셋 및 모바일 애플리케이션은 https://amshaker.github.io/Mobile-O/에서 공개되어 있습니다.
도구 조작 능력은 로봇이 수행할 수 있는 작업 범위를 크게 확장시킨다. 그러나 도구 조직은 얇은 객체 파지, 손 내 객체 회전, 힘을 가한 상호작용 등을 요구하는 고난도의 정밀 조작 기술에 속한다. 이러한 동작들에 대한 원격 조작 데이터 수집이 어렵기 때문에 시뮬레이션-실물 강화학습(RL)이 유망한 대안으로 주목받고 있다. 하지만 기존 접근법들은 일반적으로 각 작업별 객체 모델링 및 보상 함수 조정에 상당한 공학적 노력이 필요하다. 본 연구에서는 도구 조직을 위한 시뮬레이션-실물 RL 정책의 일반화에 한 걸음 나아간 SimToolReal을 제안한다. 단일 객체와 작업에 집중하는 대신, 시뮬레이션 내에서 다양한 도구형 객체 기본 요소들을 절차적으로 생성하고 각 객체를 무작위 목표 자세로 조작한다는 보편적 목표를 가진 단일 RL 정책을 학습한다. 이 접근법을 통해 SimToolReal은 테스트 시점에 객체나 작업별 특화 학습 없이도 일반적인 정밀 도구 조작을 수행할 수 있다. SimToolReal이 기존 재타겟팅 및 고정 파지 방법보다 37% 우수한 성능을 보이면서도 특정 대상 객체와 작업에 대해 학습된 전문가 RL 정책의 성능과도 일치함을 입증한다. 마지막으로 SimToolReal이 다양한 일상 도구들에 걸쳐 일반화되어, 24개 작업, 12개 객체 인스턴스, 6개 도구 범주를 아우르는 120회의 실제 환경 실행에서 강력한 제로샷 성능을 달성함을 보여준다.
본 연구는 비디오 내 서로 다른 시점 간 객체 수준 시각적 대응 관계 구축 과업을 다루며, 특히 어려운 1인칭-3인칭 및 3인칭-1인칭 시나리오에 초점을 맞춥니다. 우리는 조건부 이진 분할 기반의 간단하지만 효과적인 프레임워크를 제안하는데, 여기서 객체 쿼리 마스크가 잠재 표현으로 인코딩되어 대상 비디오에서 해당 객체의 위치를 안내합니다. 강건하고 시점 불변 표현을 장려하기 위해 순환 일관성 훈련 목표를 도입했습니다: 대상 시점에서 예측된 마스크는 원본 쿼리 마스크를 재구성하기 위해 소스 시점으로 역투영됩니다. 이 양방향 제약은 실제 정답 주석 없이도 강력한 자기 지도 신호를 제공하며 추론 시 테스트 타임 훈련(TTT)을 가능하게 합니다. Ego-Exo4D 및 HANDAL-X 벤치마크에서의 실험은 우리의 최적화 목표와 TTT 전략의 효과성을 입증하며 최첨단 성능을 달성했습니다. 코드는 https://github.com/shannany0606/CCMP에서 확인할 수 있습니다.
검증 기반 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 핵심 패러다임이지만, 기존 방법론은 제한된 탐색 문제로 어려움을 겪는 경우가 많습니다. 정책은 소수의 추론 패턴에 고정되거나 깊은 탐색을 조기에 중단하는 경향이 있으며, 기존의 엔트로피 정규화는 지역적 무작위성만을 도입하여 의미 있는 경로 수준의 다양성을 유도하지 못해 그룹 기반 정책 최적화에서 약하고 불안정한 학습 신호를 초래합니다. 본 논문에서는 DSDR(Dual-Scale Diversity Regularization)이라는 이중 규모 다양성 정규화 강화 학습 프레임워크를 제안합니다. DSDR은 LLM 추론의 다양성을 전역적 요소와 결합적 요소로 분해합니다. 전역적으로 DSDR은 올바른 추론 경로들 간의 다양성을 촉진하여 서로 다른 해결 방식을 탐색합니다. 지역적으로는 올바른 경로에 대해서만 길이에 무관한 토큰 수준의 엔트로피 정규화를 적용하여 각 방식 내에서 엔트로피 붕괴를 방지하면서 정확성을 유지합니다. 두 규모는 더욱 독특한 올바른 경로에 대해 지역 정규화를 강조하는 전역-지역 할당 메커니즘을 통해 결합됩니다. 우리는 DSDR이 유계 정규화 하에서 최적의 정확성을 보존하며, 그룹 기반 최적화에서 정보적 가치가 높은 학습 신호를 유지하고, 원칙에 기반한 전역-지역 결합 규칙을 제공함을 이론적으로 입증합니다. 다중 추론 벤치마크 실험을 통해 정확도와 pass@k 지표에서 일관된 성능 향상을 확인하였으며, 이는 RLVR의 깊은 탐색을 위한 이중 규모 다양성의 중요성을 부각시킵니다. 코드는 https://github.com/SUSTechBruce/DSDR에서 이용 가능합니다.
비디오 생성 모델로 생성된 합성 데이터는 확장 가능한 파이프라인으로서 로봇 학습에 유망한 가능성을 보여주지만, 불완전하게 생성된 비디오로 인해 일관되지 않은 동작 품질 문제가 종종 발생합니다. 최근에는 비디오 품질 검증을 위해 시각-언어 모델(VLM)이 활용되고 있지만, 물리적으로 정확한 비디오를 구분하는 데 한계가 있으며, 생성된 동작 자체를 직접 평가할 수 없다는 문제점이 있습니다. 이러한 문제를 해결하기 위해 우리는 시뮬레이션 재생과의 비교를 통해 주석이 달린 동작의 품질을 평가하고 필터링하는 새로운 합성 로봇 데이터 생성 프레임워크인 RoboCurate를 소개합니다. 구체적으로 RoboCurate는 예측된 동작을 시뮬레이터에서 재생하고 시뮬레이터 롤아웃과 생성된 비디오 간의 모션 일관성을 측정하여 동작 품질을 평가합니다. 또한, 이미지-이미지 편집을 통해 사용 가능한 데이터셋을 넘어선 관측 다양성을 확보하고, 동작 보존 비디오-비디오 변환을 적용하여 외관을 추가로 증강합니다. 우리는 RoboCurate로 생성된 데이터가 실 데이터만 사용할 때 대비 GR-1 Tabletop(300개 데모)에서 +70.1%, 사전 학습 설정의 DexMimicGen에서 +16.1%, 까다로운 실제 환경 과제인 ALLEX 휴머노이드 정밀 조작 설정에서 +179.9%의 성공률 상대적 개선을 달성함을 확인했습니다.
본 연구에서는 테스트 타임 학습(Test-Time Training, TTT) 레이어를 활용하여 선형 계산 복잡도로 장문 컨텍스트 자동회귀 3D 재구성을 가능하게 하는 새로운 대규모 3D 재구성 모델인 tttLRM을 제안합니다. 이는 모델의 성능을 더욱 확장합니다. 우리의 프레임워크는 여러 이미지 관측을 TTT 레이어의 빠른 가중치(fast weights)로 효율적으로 압축하여 잠재 공간에 암묵적 3D 표현을 형성하며, 이는 가우시안 스플랫(GS)과 같은 다양한 명시적 형식으로 디코딩되어 다운스트림 애플리케이션에 활용될 수 있습니다. 본 모델의 온라인 학습 변형은 스트리밍 관측으로부터 점진적인 3D 재구성 및 정제를 지원합니다. 새로운 시점 합성 작업에 대한 사전 학습이 명시적 3D 모델링으로 효과적으로 전이되어 재구성 품질이 향상되고 수렴 속도가 빨라짐을 입증합니다. 다양한 실험을 통해 우리의 방법이 객체 및 장면 모두에서 최첨단 접근법들 대비 피드포워드 3D 가우시안 재구성에서 우수한 성능을 달성함을 보여줍니다.
광학 문자 인식(OCR)은 정보의 디지털화를 위한 핵심 과업으로, 시각 데이터와 텍스트 이해 사이의 중요한 가교 역할을 합니다. 현대 시각-언어 모델(VLM)은 이 분야에서 높은 정확도를 달성했으나, 대부분 자기회귀 디코딩에 의존하여 생성된 모든 토큰에 대해 순차적 순전파가 필요하므로 장문 문서에서는 계산 비용이 크고 속도가 느려지는 문제가 있습니다. 우리는 이러한 병목 현상을 극복할 결정적 기회를 발견했습니다: 개방형 생성과 달리 OCR은 시각적 입력이 고유한 출력 시퀀스를 엄격하게 규정하는 높은 결정론적 과업으로, 이론적으로 확산 모델을 통한 효율적인 병렬 디코딩이 가능합니다. 그러나 기존 마스크 확산 모델은 이러한 잠재력을 활용하지 못하는데, 이러한 모델들은 캡션 생성과 같은 유연한 과업에서는 무해하지만 OCR의 엄격한 정확도 매칭 요구사항에서는 치명적인 구조적 불안정성을 초래합니다. 이러한 격차를 해소하기 위해 우리는 블록 이산 확산을 활용하여 OCR의 속도 향상 잠재력을 실현한 최초의 VLM인 DODO를 제안합니다. 생성 과정을 블록 단위로 분해함으로써 DODO는 전역 확산의 동기화 오류를 완화합니다. 실험 결과, 우리의 방법은 기존 자기회귀 모델 대비 최대 3배 빠른 추론 속도를 구현하면서도 거의 최첨단 수준의 정확도를 달성했습니다.
에이전트 메모리 시스템은 대규모 언어 모델(LLM) 에이전트가 장기간 상호작용에서 상태를 유지할 수 있게 하여, 고정된 컨텍스트 창을 넘어 장기 추론과 개인화를 지원합니다. 아키텍처 발전 속도가 빠름에도 불구하고, 이러한 시스템의 실증적 기반은 여전히 취약합니다. 기존 벤치마크는 종종 규모가 부족하고, 평가 메트릭은 의미적 유용성과 일치하지 않으며, 성능은 백본 모델에 따라 크게 달라지고, 시스템 수준의 비용이 자주 간과됩니다. 본 설문 논문은 아키텍처 및 시스템 관점에서 에이전트 메모리에 대한 구조화된 분석을 제시합니다. 먼저 네 가지 메모리 구조를 기반으로 MAG 시스템의 간결한 분류 체계를 소개합니다. 그런 다음 벤치마크 포화 효과, 메트릭 타당성과 판단 민감도, 백본 의존적 정확도, 메모리 유지 관리로 인한 지연 시간 및 처리량 오버헤드를 포함하여 현재 시스템을 제한하는 주요 문제점을 분석합니다. 메모리 구조와 실증적 한계를 연결함으로써, 이 설문 논문은 현재 에이전트 메모리 시스템이 왜 종종 이론적 기대에 미치지 못하는지 명확히 하고, 더 신뢰할 수 있는 평가와 확장 가능한 시스템 설계를 위한 방향을 제시합니다.
현대 대규모 순위 시스템은 경쟁적 목표, 운영상 제약, 진화하는 제품 요구사항이 복잡하게 얽힌 환경에서 운영됩니다. 이 분야의 발전은 모델링 기술 자체보다는 모호한 제품 의도를 합리적이고 실행 가능하며 검증 가능한 가설로 전환하는 어려운 과정인 엔지니어링 맥락 제약에 의해 점차 병목 현상을 겪고 있습니다. 본 논문은 순위 최적화를 프로그램 가능한 실험 환경 내 자율적 발견 과정으로 재정의하는 프레임워크인 GEARS(Generative Engine for Agentic Ranking Systems)를 제안합니다. GEARS는 최적화를 정적 모델 선택으로 취급하기보다, 특화 에이전트 기술을 활용하여 순위 전문가 지식을 재사용 가능한 추론 능력으로 캡슐화함으로써 운영자가 높은 수준의 의도 기반 개인화를 통해 시스템을 조종할 수 있도록 합니다. 더 나아가 프로덕션 신뢰성을 보장하기 위해 본 프레임워크는 통계적 강건성을 강제하고 단기 신호에 과적합된 취약한 정책을 걸러내기 위한 검증 후크를 통합합니다. 다양한 제품 인터페이스에서의 실험적 검증을 통해 GEARS가 엄격한 배포 안정성을 유지하면서 알고리즘 신호와 심층 순위 맥락을 시너지적으로 결합하여 우수하고 근사 파레토 효율적인 정책을 지속적으로 발견함을 입증했습니다.
GPU 커널 최적화는 효율적인 현대 머신러닝 시스템에 필수적이지만, 설계 요소들의 복잡한 상호작용과 빠른 하드웨어 진화로 인해 여전히 어려운 과제로 남아 있습니다. 기존 자동화 접근법들은 일반적으로 대규모 언어 모델(LLM)을 휴리스틱 기반 진화 루프 내 확률적 코드 생성기로만 취급합니다. 이러한 방법들은 명시적인 계획 수립 능력이 부족하고 비효율적이거나 잘못된 중간 구현으로 인해 유망한 전략들을 자주 폐기하기 때문에, 조정된 다단계 구조 변환이 필요한 복잡한 커널에서 어려움을 겪습니다. 이를 해결하기 위해 우리는 공동 진화 세계 모델을 통한 탐색(Search via Co-Evolving World Model)을 제안하고, 이 방법을 기반으로 K-Search를 구축합니다. 정적 탐색 휴리스틱을 공동 진화하는 세계 모델로 대체함으로써, 우리의 프레임워크는 LLM의 사전 도메인 지식을 활용하여 탐색을 안내하고 최적화 공간을 능동적으로 탐사합니다. 이 접근법은 높은 수준의 알고리즘 계획과 낮은 수준의 프로그램 구현을 명시적으로 분리하여, 시스템이 단조롭지 않은 최적화 경로를 탐색하도록 하면서도 일시적인 구현 결함에 대해 견고하게 만듭니다. 우리는 FlashInfer의 GQA, MLA, MoE 커널을 포함한 다양한 복잡 커널에 대해 K-Search를 평가합니다. 결과에 따르면 K-Search는 최첨단 진화 탐색 방법들을 크게 능가하며, 평균 2.10배, 복잡한 MoE 커널에서는 최대 14.3배의 성능 향상을 달성했습니다. GPUMode TriMul 작업에서 K-Search는 H100에서 1030us를 달성하여 기존 진화 접근법과 인간 설계 솔루션을 모두 능가하는 최첨단 성능을 보여주었습니다.
비전-언어-행동(VLA) 모델은 대규모 사전 훈련을 활용하여 강력한 성능을 달성하는 범용 로봇 매니퓰레이션을 위한 유망한 패러다임으로 부상했습니다. 해당 분야는 추가적인 공간 사전 지식과 다양한 아키텍처 혁신을 통해 빠르게 발전해 왔습니다. 그러나 이러한 진보는 종종 다양한 훈련 방법과 구현 세부 사항을 동반하는데, 이는 경험적 성능 향상의 정확한 원인을 규명하기 어렵게 만들 수 있습니다. 본 연구에서는 VLA 연구를 위한 투명한 기준점을 확립하기 위해 간소화된 기준 모델(baseline)인 SimVLA를 소개합니다. 인식과 제어를 엄격히 분리하고, 표준 비전-언어 백본과 경량 행동 헤드를 사용하며, 중요한 훈련 동역학을 표준화함으로써, 최소한의 설계로도 최첨단 성능을 달성할 수 있음을 보여줍니다. 단 0.5B개의 매개변수만을 가진 SimVLA는 로봇 사전 훈련 없이도 표준 시뮬레이션 벤치마크에서 수십억 개의 매개변수를 가진 모델들을 능가합니다. 또한 SimVLA는 pi0.5 대비 실물 로봇 성능에서도 동등한 수준에 도달합니다. 우리의 결과는 SimVLA를 향후 아키텍처 혁신에 따른 경험적 이득을 명확히 귀속시킬 수 있는 강력하고 재현 가능한 기준 모델로 입증합니다. 웹사이트: https://frontierrobo.github.io/SimVLA
트랜스포머 기반 언어 모델의 놀라운 실용적 성공에도 불구하고, 최근 연구들은 이들의 상태 추적 능력에 대한 우려를 제기하고 있습니다. 특히, 길이 외삽과 같은 분포 외 일반화에서의 실패를 통해 이러한 한계를 보여주는 연구가 늘어나고 있습니다. 본 연구에서는 이러한 한계가 분포 내에서 가지는 함의에 주목합니다. 우리는 다양한 지도 학습 방식에서 트랜스포머와 순환 신경망(RNN)의 데이터 효율성에 대한 대규모 실험 연구를 수행합니다. 그 결과, 상태 공간 크기와 시퀀스 길이가 증가함에 따라 트랜스포머가 필요로 하는 학습 데이터의 양이 RNN에 비해 훨씬 더 빠르게 증가함을 발견했습니다. 더 나아가, 학습된 상태 추적 메커니즘이 서로 다른 시퀀스 길이에 걸쳐 어느 정도 공유되는지 분석합니다. 트랜스포머는 길이 간에 무시할 수 있을 정도로 또는 오히려 해가 되는 수준의 가중치 공유를 보여주며, 이는 각 길이에 대해 고립된 길이 특화적 해법을 학습함을 시사합니다. 대조적으로, 순환 모델은 길이에 걸쳐 가중치를 효과적으로 공유함으로써 분할 상환적 학습을 나타내며, 하나의 시퀀스 길이에서 얻은 데이터가 다른 길이에서의 성능 향상에 기여하도록 합니다. 이러한 결과들은 훈련과 평가 분포가 일치하는 상황에서도 상태 추적이 트랜스포머에게 근본적인 과제로 남아 있음을 보여줍니다.
본 논문에서는 1억 3,500만 개의 매개변수를 가진 변환기 언어 모델(SmolLM2-135M)과 경량 온라인 예측기 앙상블, 32비트 산술 코더를 결합한 무손실 압축 시스템인 Nacrith를 제안한다. 기본적인 LLM-산술-코딩 패러다임을 넘어 Nacrith는 다음과 같은 여러 기여를 도입한다: (1) CDF 정밀도를 2^16에서 2^24로 향상시켜 대규모 어휘 사전에서 최소 확률 기준값으로 인한 양자화 오버헤드의 약 75%를 제거; (2) 빠른 지역 예측을 위한 토큰 수준 N-gram 모델; (3) 온라인 경사 하강법을 통해 문서별 LLM 오류를 보정하는 적응형 로그 공간 편향 헤드; (4) 예측 가능성이 높은 토큰 가속화를 위한 신뢰도 기반 LLM 스킵; (5) 신경망 기반 압축을 임의의 이진 파일로 확장하는 하이브리드 이진 형식(NC06)—저자들이 아는 한 LLM 기반 압축기 중 최초; (6) PyTorch 대비 단일 토큰 디코딩 속도 약 7배 향상을 달성한 llama.cpp 추론 백엔드; (7) 최대 8개 작업자에 걸친 병렬 다중 GPU 압축; (8) 슬라이드당 비용을 약 37배 절감하는 기본 KV 캐시 슬라이딩 윈도우. 본 시스템은 소비자용 GPU에서 실행 시 약 500MB의 GGUF 가중치와 작업자당 약 1.2GB의 VRAM만을 요구한다. Canterbury Corpus의 alice29.txt(152KB)에서 Nacrith는 바이트당 0.918비트(bpb)를 달성하며, gzip 대비 3.1배, bzip2 대비 2.5배, CMIX v21 대비 44%, ts_zip 대비 20% 우수한 성능을 보였고, 0차, 1차, 2차 바이트 수준 섀넌 엔트로피 하한선 아래로 압축하였다. enwik8(100MB)에서는 0.9389bpb(11.74%)를 달성하여 ts_zip(약 1.11bpb) 대비 15%, FineZip(1.024bpb) 대비 8% 우수한 성능을 보였으며, 이는 미세 조정 없이 60배 더 작은 모델을 사용했음에도 불구한 결과이다. 모델 학습 종료 시점 이후에 발간된 문서에 대한 분포 외 평가에서 0.723bpb를 달성하여 이러한 성능 향상이 단순한 암기 효과가 아님을 확인하였다.
디지털 산업, 특히 사용자 생성 콘텐츠(UGC)를 위해서는 고품질의 다양한 모듈형 3D 자산이 요구됩니다. 본 연구에서는 텍스트 설명으로부터 모듈형 3D 자산을 생성하도록 설계된 자회귀 변환기(Transformer) 기반 모델인 AssetFormer를 소개합니다. 우리의 파일럿 연구는 온라인 플랫폼에서 수집한 실제 모듈 자산을 활용합니다. AssetFormer는 다양한 응용 프로그램을 위한 제한된 설계 매개변수를 준수하는 기본 요소(Primitive)로 구성된 자산 생성의 어려움을 해결합니다. 언어 모델에서 영감을 받은 모듈 순서 지정 및 디코딩 기술을 혁신적으로 적용함으로써, 우리의 접근 방식은 자회귀 모델링을 통해 자산 생성 품질을 향상시킵니다. 초기 결과는 전문 개발 및 UGC 시나리오를 위한 자산 생성 과정을 간소화하는 데 있어 AssetFormer의 효과성을 보여줍니다. 본 연구는 다양한 유형의 모듈형 3D 자산으로 확장 가능한 유연한 프레임워크를 제시하며, 3D 콘텐츠 생성 분야의 발전에 기여합니다. 코드는 https://github.com/Advocate99/AssetFormer에서 확인할 수 있습니다.
현재 3D 인간 애니메이션 방법론은 사실적 표현에 어려움을 겪고 있습니다: 운동학 기반 접근법은 비강체 역학(예: 의상 역학)이 부족한 반면, 비디오 확산 사전 지식을 활용하는 방법론은 비강체 운동을 합성할 수 있지만 품질 결함과 정체성 손실 문제가 발생합니다. 이러한 한계를 극복하기 위해 우리는 운동학 기반 애니메이션과 비디오 확산 사전 지식을 결합한 Ani3DHuman 프레임워크를 제안합니다. 우리는 먼저 강체 운동과 잔여 비강체 운동을 분리하는 계층적 운동 표현을 도입합니다. 강체 운동은 운동학적 방법으로 생성되며, 이는 비디오 확산 모델이 잔여 비강체 운동을 복원하는 비디오 시퀀스 생성을 안내하는 개략적 렌더링을 생성합니다. 그러나 확산 샘플링에 기반한 이 복원 작업은 초기 렌더링이 분포 외 데이터에 해당하여 표준 결정론적 ODE 샘플러가 실패하기 때문에 매우 어려운 과제입니다. 따라서 우리는 확률적 샘플링(사실적 품질용)과 자체 가이던스(정체성 충실도용)를 결합하여 분포 외 문제를 효과적으로 해결하는 새로운 자체 가이드 확률적 샘플링 방법을 제안합니다. 이러한 복원된 비디오는 고품질 감독 데이터로 작용하여 잔여 비강체 운동 필드의 최적화를 가능하게 합니다. 폭넓은 실험을 통해 Ani3DHuman이 기존 방법론을 능가하는 사실적인 3D 인간 애니메이션을 생성할 수 있음을 입증합니다. 코드는 https://github.com/qiisun/ani3dhuman에서 확인할 수 있습니다.
아데노 관련 바이러스(AAV)는 유전자 치료를 위한 유망한 벡터이지만, 자연 혈청형은 조직 트로피즘, 면역 회피, 생산 효율성 측면에서 한계를 보입니다. 캡시드 공학을 통해 이러한 장애물을 극복하는 것은 방대한 서열 공간과 여러 기능적 특성을 동시에 최적화해야 하는 어려움으로 인해 도전적인 과제입니다. 특히 신장의 경우 독특한 해부학적 장벽과 정밀하고 효율적인 벡터 공학이 필요한 세포 표적을 제시하여 복잡성이 더욱 증가합니다. 본 연구에서는 향상된 다중 형질 프로필을 지닌 AAV 캡시드의 탈노보(de novo) 설계를 위한 생성 인공지능 프레임워크인 AAVGen을 소개합니다. AAVGen은 단백질 언어 모델(PLM)을 지도 미세 조정(SFT) 및 그룹 서열 정책 최적화(GSPO)라는 강화 학습 기술과 통합합니다. 이 모델은 각각 핵심 특성(생산 적합성, 신장 트로피즘, 열안정성)을 예측하도록 훈련된 세 가지 ESM-2 기반 회귀 예측자로부터 도출된 복합 보상 신호에 의해 안내됩니다. 결과에 따르면 AAVGen은 다양한 신규 VP1 단백질 서열 라이브러리를 생성합니다. 실리코 검증을 통해 생성된 변이체의 대다수가 사용된 세 가지 지표 모두에서 우수한 성능을 보여 다중 목표 최적화가 성공적으로 이루어졌음을 확인했습니다. 더 나아가 AlphaFold3를 통한 구조 분석은 서열 다양화에도 불구하고 생성된 서열이 캐논ical 캡시드 폴딩을 유지함을 입증합니다. AAVGen은 데이터 기반 바이러스 벡터 공학의 기초를 마련함으로써 맞춤형 기능적 특성을 지닌 차세대 AAV 벡터 개발을 가속화합니다.
카메라나 LiDAR 없이 다족 보행 로봇의 신뢰할 수 있는 오도메트리는 IMU 드리프트와 잡음이 섞인 관절 속도 센싱으로 인해 여전히 어려운 과제입니다. 본 논문은 순수하게 수용성 감각만을 사용하는 상태 추정기를 제안하며, IMU와 모터 측정값만을 이용하여 몸체 자세와 속도를 함께 추정하고, 이족 보행, 사족 보행, 휠-레그 혼합 로봇에 모두 적용 가능한 통합 형식을 갖춥니다. 핵심 아이디어는 각 접촉 중인 다리를 운동학적 앵커로 처리하는 것입니다: 관절 토크 기반 발 렌치 추정으로 신뢰할 수 있는 접촉을 선별하고, 해당 발걸음 위치가 장기 드리프트를 억제하는 간헐적인 월드 프레임 제약을 제공합니다. 장거리 주행 동안 고도 드리프트를 방지하기 위해, 새로 기록된 발걸음 높이를 이전에 관측된 지지 평면에 맞추는 경량화된 높이 클러스터링 및 시간 감쇠 보정을 도입합니다. 인코더 양자화 하에서 발 속도 관측을 개선하기 위해, 관절 각도와 속도에서 직접 발 끝 속도를 필터링하는 역운동학 큐비처 칼만 필터를 적용합니다. 구현은 또한 다중 접촉 기하학적 일관성을 통해 요우 드리프트를 추가로 완화하고, IMU 요우 제약을 사용할 수 없거나 신뢰할 수 없을 때 운동학적으로 유도된 헤딩 기준으로 우아하게 성능을 저하시킵니다. 본 방법을 폐루프 궤적을 사용하여 네 가지 사족 보행 플랫폼(Astrall 로봇 3대와 Unitree Go2 EDU 1대)에서 평가합니다. Astrall 포인트 풋 로봇 A에서는 약 200m 수평 루프와 약 15m 수직 루프가 각각 0.1638m 및 0.219m 오차로 복귀했습니다. 휠-레그 로봇 B에서는 해당 오차가 0.2264m 및 0.199m였습니다. 휠-레그 로봇 C에서는 약 700m 수평 루프가 7.68m 오차를, 약 20m 수직 루프가 0.540m 오차를 발생시켰습니다. Unitree Go2 EDU는 약 120m 수평 루프를 2.2138m 오차로 마감하고, 약 8m 수직 루프를 수직 오차 0.1m 미만으로 마감했습니다. github.com/ShineMinxing/Ros2Go2Estimator.git
횡단면 및 시계열 데이터에 대한 인과관계 발견은 전통적으로 데이터셋별 패러다임을 따라왔으며, 각 개별 데이터셋에 대해 새로운 모델을 적합하는 방식이었습니다. 이러한 접근법은 다중 데이터셋 사전 훈련의 잠재력을 제한합니다. 대규모 인과 모델(LCM) 개념은 시계열 인과관계 발견을 위해 특별히 설계된 사전 훈련된 신경망 구조 클래스를 구상합니다. 기존 접근법은 적은 변수 개수에 국한되고, 더 큰 입력에서는 성능이 저하되며, 합성 데이터에 크게 의존하여 일반화를 제한합니다. 우리는 다양한 합성 생성기와 현실적인 시계열 데이터셋을 결합하여 대규모 학습을 가능하게 하는 LCM을 위한 원칙적인 프레임워크를 제안합니다. 합성, 준합성 및 현실적 벤치마크에 대한 광범위한 실험 결과, LCM은 강력한 성능을 유지하면서 더 많은 변수 개수와 더 깊은 구조로 효과적으로 확장됨을 보여줍니다. 훈련된 모델은 특히 분포 외 설정에서 기존 및 신경망 기준선 대비 경쟁력 있거나 우수한 정확도를 달성하면서 빠른 단일 패스 추론을 가능하게 합니다. 결과는 LCM이 시계열 인과관계 발견을 위한 유망한 파운데이션 모델 패러다임임을 입증합니다. 실험 내용과 모델 가중치는 https://github.com/kougioulis/LCM-paper/에서 확인할 수 있습니다.
시계열 진단 추론은 많은 응용 분야에서 필수적이지만, 기존 솔루션은 지속적인 격차에 직면해 있습니다: 일반 추론 대형 언어 모델(GRLM)은 강력한 추론 능력을 갖추고 있지만 복잡한 시계열 패턴을 이해할 수 있는 도메인 특화 지식이 부족합니다. 반면, 미세 조정된 시계열 LLM(TSLM)은 이러한 패턴을 이해하지만 더 복잡한 질문에 대한 일반화된 추론 능력이 부족합니다. 이러한 격차를 해소하기 위해 우리는 TSLM에서 생성된 통찰력을 GRLM의 추론 흔적에 직접 주입하여 도메인 내 지식을 갖춘 강력한 시계열 추론을 달성하는 하이브리드 지식 주입 프레임워크를 제안합니다. 지식 주입 미세 조정을 위한 데이터 수집은 비용이 많이 들기 때문에, 우리는 검증 가능한 보상을 갖춘 강화 학습 기반 접근법(RLVR)을 추가로 활용하여 인간의 감독 없이도 지식이 풍부한 추적 흔적을 도출하고, 이러한 도메인 내 사고 흔적을 GRLM으로 이전하여 효율적인 지식 주입을 수행합니다. 또한 실제 산업 운영 현장에서 수집된 다변량 시계열 기반 진단 추론 벤치마크인 SenTSR-Bench를 공개합니다. SenTSR-Bench와 다른 공개 데이터셋 전반에 걸쳐 우리의 방법은 TSLM 대비 9.1%~26.1%, GRLM 대비 7.9%~22.4% 일관되게 우수한 성능을 보이며, 견고하고 상황 인식적인 시계열 진단 통찰력을 제공합니다.