번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 분리된 온-정책 최적화의 비효율성을 해결하는 새로운 학습 패러다임인 이기종 에이전트 협력 강화 학습(Heterogeneous Agent Collaborative Reinforcement Learning, HACRL)을 소개한다. HACRL은 독립적 실행과 협력적 최적화를 동시에 가능하게 한다: 이기종 에이전트들은 훈련 중 검증된 롤아웃을 공유하여 상호 개선하지만, 추론 시점에서는 독립적으로 운영된다. LLM 기반 다중 에이전트 강화 학습(MARL)과 달리 HACRL은 협력적 배포를 필요로 하지 않으며, 온/오프-정책 지식 증류와 달리 이기종 에이전트 간 단방향 교사-학생 전달이 아닌 쌍방향 상호 학습을 가능하게 한다. 이 패러다임을 기반으로, 본 연구는 표본 활용도와 에이전트 간 지식 전달을 극대화하기 위한 원칙적인 롤아웃 공유가 가능한 협력적 RL 알고리즘인 HACPO를 제안한다. 능력 격차와 정책 분포 변화를 완화하기 위해 HACPO는 편향되지 않은 어드밴티지 추정과 최적화 정확성에 대한 이론적 보장을 지닌 네 가지 특화 메커니즘을 도입한다. 다양한 이기종 모델 조합과 추론 벤치마크에서의 광범위한 실험을 통해 HACPO가 모든 참여 에이전트를 지속적으로 개선하며, 롤아웃 비용의 절반만 사용하면서 GSPO 대비 평균 3.3% 우수한 성능을 보임을 입증하였다.
Helios를 소개합니다. 단일 NVIDIA H100 GPU에서 19.5 FPS로 동작하는 최초의 140억 파라미터 비디오 생성 모델로, 강력한 베이스라인 대비 동등한 품질을 유지하면서 분 단위 생성이 가능합니다. 우리는 세 가지 핵심 차원에서 돌파구를 마련했습니다: (1) self-forcing, error-banks, keyframe sampling 등 일반적으로 사용되는 표류 방지 휴리스틱 없이도 긴 비디오 생성 시 표류 현상에 대한 강건성, (2) KV-cache, sparse/linear attention, 양자화 등 표준 가속 기술 없이도 실시간 생성, (3) 병렬화 또는 샤딩 프레임워크 없이도 학습이 가능하며, 이미지 디퓨전 규모의 배치 크기를 유지하면서 80GB GPU 메모리 내에 최대 4개의 140억 파라미터 모델을 적재. 구체적으로 Helios는 T2V(텍스트-비디오), I2V(이미지-비디오), V2V(비디오-비디오) 작업을 기본적으로 지원하는 통합 입력 표현을 갖춘 140억 파라미터 자회귀 디퓨전 모델입니다. 긴 비디오 생성 시 표류 현상을 완화하기 위해 우리는 일반적인 실패 모드를 규명하고, 학습 중 명시적으로 표류를 시뮬레이션하는 동시에 반복적 운동을 근원적으로 제거하는 간단하면서 효과적인 학습 전략을 제안합니다. 효율성 측면에서는 잡음이 포함된 과거 컨텍스트를 강력히 압축하고 샘플링 단계 수를 줄여, 13억 파라미터 비디오 생성 모델과 동등하거나 더 낮은 계산 비용을 달성했습니다. 또한 추론과 학습을 모두 가속화하면서 메모리 소비를 줄이는 인프라 수준의 최적화를 도입했습니다. 폭넓은 실험을 통해 Helios가 단편 및 장편 비디오 생성 모두에서 기존 방법을 꾸준히 능가함을 입증했습니다. 커뮤니티의 추가 발전을 지원하기 위해 코드, 베이스 모델, 경량화 모델을 공개할 계획입니다.
인간이 복잡한 읽기 과제를 어떻게 처리하는지 생각해보자: 핵심 포인트를 표시하고, 그들 간의 관계를 추론하며, 이해와 응답을 안내하기 위해 정보를 구조화한다. 마찬가지로, 대규모 언어 모델도 텍스트 처리 성능을 향상시키기 위해 텍스트 구조로부터 이점을 얻을 수 있을까? 이를 탐구하기 위해, 본 연구에서는 먼저 '사고 구조(Structure of Thought, SoT)'를 소개한다. 이는 모델이 중간 텍스트 구조를 구축하도록 명시적으로 안내하는 프롬프팅 기법으로, 8가지 과제와 3가지 모델 패밀리 전반에 걸쳐 성능을 지속적으로 향상시켰다. 이러한 통찰을 바탕으로, 모델의 텍스트-구조 변환 능력을 평가하고 개선하기 위해 설계된 최초의 벤치마크인 T2S-Bench를 제시한다. T2S-Bench는 6개의 과학 분야와 32가지 구조 유형에 걸친 1,800개의 샘플을 포함하며, 정확성, 공정성, 질을 보장하기 위해 엄격하게 구축되었다. 45개의 주류 모델에 대한 평가 결과 상당한 개선 잠재력이 드러났다: 다중 홉 추론 과제의 평균 정확도는 52.1%에 불과했으며, 심지어 가장 진보된 모델도 종단간 추출에서 노드 정확도 58.1%에 그쳤다. 더 나아가, Qwen2.5-7B-Instruct 모델에서 SoT 단독으로 8가지 다양한 텍스트 처리 과제 전반에 걸쳐 평균 +5.7%의 성능 향상을 가져왔으며, T2S-Bench로 미세 조정을 수행하면 이 이득이 +8.6%로 더욱 증가했다. 이러한 결과는 명시적 텍스트 구조화의 가치와 SoT와 T2S-Bench의 상호 보완적 기여를 강조한다. 데이터셋과 평가 코드는 https://t2s-bench.github.io/T2S-Bench-Page/에서 공개되었다.
사람과 같은 AI 동반자를 구현하기 위해서는 사전적이고 실시간적인 상호작용 경험이 필수적이지만, 여기에는 세 가지 주요 과제가 존재합니다: (1) 연속적인 스트리밍 입력 조건에서의 저지연 추론 달성, (2) 응답 시점의 자율적 결정, (3) 실시간 제약 조건을 충족하기 위해 생성 콘텐츠의 질과 양을 동시에 제어. 본 연구에서는 자동 평가에 적합한 두 가지 게임 시나리오, 즉 해설자와 가이드를 통해 AI 동반자를 구체화합니다. 우리는 단독 해설, 공동 해설, 사용자 안내라는 세 가지 대표 시나리오를 포함한 대규모 데이터셋인 Live Gaming Benchmark를 소개하고, 다중 모달 언어 모델을 인간과 유사한 환경 인식 및 상호작용이 가능한 사전적 실시간 상호작용 에이전트로 변환하는 일반 프레임워크인 Proact-VL을 제안합니다. 대규모 실험을 통해 Proact-VL이 우수한 비디오 이해 능력을 유지하면서도 응답 지연 시간과 품질에서 뛰어난 성능을 달성함을 보여주며, 실시간 상호작용 애플리케이션으로서의 실용성을 입증합니다.
대규모 언어 모델(LLM)이 장기간 작업에 점차 활용되면서 효과적인 장기 메모리 유지가 중요한 과제로 대두되고 있습니다. 기존 방법은 일반적으로 비용과 정확도 간의 상충 관계에 직면해 있습니다. 단순한 저장 방식은 관련 정보 검색에 실패하는 경우가 많으며, 복잡한 인덱싱 방법(메모리 그래프 등)은 높은 계산량을 요구하고 정보 손실을 초래할 수 있습니다. 더욱이 작업 주체 LLM이 모든 메모리를 처리하도록 의존하는 것은 계산 비용이 많이 들고 속도가 느립니다. 이러한 한계를 해결하기 위해 본 연구에서는 메모리 검색 과정을 소규모 프록시 모델에 위임하는 새로운 프레임워크인 MemSifter를 제안합니다. MemSifter는 주 작업 LLM의 부담을 증가시키는 대신, 더 작은 모델을 사용하여 필요한 정보를 검색하기 전에 작업에 대해 추론합니다. 이 접근 방식은 인덱싱 단계에서 높은 계산량을 요구하지 않으며 추론 시 최소한의 오버헤드만 추가합니다. 프록시 모델을 최적화하기 위해 메모리 특화 강화학습(RL) 훈련 패러다임을 도입했습니다. 작업 주체 LLM의 실제 작업 수행 성능을 기반으로 한 작업 결과 지향 보상을 설계하였으며, 이 보상은 작업 주체 LLM과의 다중 상호작용을 통해 검색된 메모리의 실제 기여도를 측정하고 단계적으로 감소하는 기여도에 따라 검색 순위를 구분합니다. 또한 Curriculum Learning 및 Model Merging과 같은 훈련 기법을 활용하여 성능을 향상시켰습니다. Deep Research 작업을 포함한 8개의 LLM 메모리 벤치마크에서 MemSifter를 평가한 결과, 본 방법이 검색 정확도와 최종 작업 완성도 모두에서 기존 최첨단 접근법의 성능을 충족하거나 능가하는 것으로 나타났습니다. MemSifter는 장기 LLM 메모리를 위한 효율적이고 확장 가능한 솔루션을 제공합니다. 향후 연구를 지원하기 위해 모델 가중치, 코드 및 훈련 데이터를 오픈소스로 공개하였습니다.
3D/4D 감독 없이 물리적으로 타당한 관절형 인간-객체 상호작용(HOI)을 합성하는 것은 근본적인 과제로 남아 있다. 최근 제로샷 접근법들이 비디오 확산 모델을 활용하여 인간-객체 상호작용을 합성하고 있지만, 이들은 주로 강체 객체 조작에 국한되며 명시적인 4D 기하학적 추론이 부족하다. 이 차이를 해소하기 위해 우리는 관절형 HOI 합성을 단안 비디오 사전 정보로부터의 4D 재구성 문제로 공식화한다: 확산 모델이 생성한 비디오만을 입력으로 하여, 어떠한 3D 감독 없이 완전한 4D 관절형 장면을 재구성한다. 이 재구성 기반 접근법은 생성된 2D 비디오를 역렌더링 문제에 대한 감독 신호로 취급하여, 접촉, 관절 운동, 시간적 일관성을 자연스럽게 따르는 기하학적으로 일관되고 물리적으로 타당한 4D 장면을 복원한다. 우리는 비디오 사전 정보로부터의 4D 재구성을 통한 관절형 인간-객체 상호작용 합성을 위한 최초의 제로샷 프레임워크인 ArtHOI를 소개한다. 우리의 핵심 설계는 다음과 같다: 1) 광류 기반 부위 분할: 단안 비디오에서 동적 영역과 정적 영역을 분리하기 위한 기하학적 단서로 광류 활용; 2) 분리된 재구성 파이프라인: 단안 모호성 하에서 인간 운동과 객체 관절 운동의 공동 최적화는 불안정하므로, 먼저 객체 관절 운동을 복원한 후 재구성된 객체 상태에 조건화된 인간 운동을 합성한다. ArtHOI는 비디오 기반 생성과 기하학 인식 재구성을 연결하여 의미론적으로 정렬되고 물리적으로 근거 있는 상호작용을 생성한다. 다양한 관절형 장면(예: 냉장고, 캐비닛, 전자레인지 열기)에서 ArtHOI는 접촉 정확도, 관통 감소, 관절 운동 정확도 측면에서 기존 방법들을 크게 능가하며, 재구형 정보 기반 합성을 통해 제로샷 상호작용 합성을 강체 조작을 넘어 확장한다.
Phi-4-reasoning-vision-15B는 소규모 오픈 가중치 멀티모달 추론 모델로서, 본 논문은 해당 모델의 개발 동기, 설계 선택, 실험 결과 및 개발 과정에서 얻은 교훈을 공유합니다. 우리의 목표는 보다 작고 효율적인 멀티모달 추론 모델 구축에 관한 실용적인 통찰력을 연구 커뮤니티에 제공하고, 이러한 교훈의 결과물을 일반적인 시각 및 언어 작업에 능하며 과학/수학적 추론 및 사용자 인터페이스 이해에 탁월한 오픈 가중치 모델로 공개하는 것입니다. 우리의 핵심 기여는 신중한 아키텍처 선택과 엄격한 데이터 큐레이션을 통해 더 작은 규모의 오픈 가중치 멀티모달 모델이 훨씬 적은 학습 및 추론 단계의 컴퓨팅 자원과 토큰으로도 경쟁력 있는 성능을 달성할 수 있음을 입증한 데 있습니다. 가장 큰 성능 향상은 체계적인 필터링, 오류 수정 및 합성 데이터 증강에서 비롯되었으며, 이는 데이터 품질이 여전히 모델 성능의 주된 결정 요인임을 재확인시켜 줍니다. 체계적인 애블레이션 실험을 통해 고해상도 및 동적 해상도 인코더가 지속적인 성능 향상을 가져옴을 확인했는데, 이는 정확한 인식이 고품질 추론의 필수 조건이기 때문입니다. 마지막으로, 추론 데이터와 비추론 데이터를 명시적 모드 토큰과 함께 혼합하여 학습하면 단일 모델이 간단한 작업에 대해서는 빠른 직접 응답을, 복잡한 문제에 대해서는 사고 사슬(Chain-of-Thought) 추론을 모두 제공할 수 있게 됩니다.
복잡한 추론 과제를 위한 시험 시간 규모 확장(Test-time scaling) 연구에 따르면, 독립적으로 여러 해결책을 샘플링하고 집계하는 등의 방법으로 추론 시간 연산을 활용하면 과제 성과가 크게 향상됩니다. 그러나 중요한 병목 현상은 검증(verification)에 있습니다: 샘플링은 후보 해결책 중 올바른 해결책을 신뢰성 있게 식별할 수 있을 때만 효과적입니다. 기존 접근법은 일반적으로 스칼라 점수 매기기를 통해 후보를 독립적으로 평가하지만, 우리는 모델이 쌍별 자기 검증(pairwise self-verification)에서 훨씬 더 강력한 성능을 보인다는 것을 입증합니다. 이러한 통찰력을 바탕으로, 우리는 효율적인 쌍별 순위 매기기를 통해 생성과 검증을 통합하는 프레임워크인 V_1을 소개합니다. V_1은 두 가지 구성 요소로 이루어집니다: 첫째, 토너먼트 기반 순위 매기기를 사용하여 상대적 정확도가 가장 불확실한 후보 쌍에 자기 검증 연산을 동적으로 할당하는 불확실성 주도 알고리즘인 V_1-Infer입니다. 둘째, 단일 모델을 생성기이자 쌍별 자기 검증기로 공동 훈련시키며, 검증기가 생성기의 진화하는 분포에 적응하도록 보장하는 RL 프레임워크인 V_1-PairRL입니다. 코드 생성(LiveCodeBench, CodeContests, SWE-Bench) 및 수학 추론(AIME, HMMT) 벤치마크에서 V_1-Infer는 점별 검증(pointwise verification) 대비 Pass@1을 최대 10%까지 향상시켰으며, 최근의 시험 시간 규모 확장 방법들을 능가하면서도 훨씬 더 효율적이었습니다. 더 나아가, V_1-PairRL은 표준 RL 및 점별 공동 훈련 대비 7-9%의 시험 시간 규모 확장 이득을 달성했으며, 코드 생성 환경에서 표준 RL 대비 기본 Pass@1을 최대 8.7%까지 향상시켰습니다.
시점 입력으로부터 고품질 360° 파노라마 비디오를 생성하는 것은 가상 현실(VR)의 핵심 응용 분야 중 하나로, 고해상도 비디오는 몰입형 경험에 특히 중요합니다. 기존 방법은 기본 디퓨전 모델의 계산적 한계로 인해 기본 생성 해상도가 1K 이하로 제한되고, 해상도를 높이기 위해 차선책인 후처리 초해상도 기술에 의존해야 했습니다. 본 연구에서는 기본적으로 4K 해상도의 360° 비디오를 생성하는 새로운 시공간 자기회귀 디퓨전 모델인 CubeComposer를 소개합니다. 비디오를 6개의 면으로 구성된 큐브맵 표현으로 분해함으로써, CubeComposer는 잘 계획된 시공간 순서로 콘텐츠를 자기회귀적으로 합성하여 메모리 요구량을 줄이면서 고해상도 출력을 가능하게 합니다. 특히 다차원 자기회귀의 과제를 해결하기 위해 다음을 제안합니다: (1) 큐브 면과 시간 창에 걸쳐 일관된 합성을 위한 360° 비디오 생성을 조율하는 시공간 자기회귀 전략; (2) 효율성을 개선하기 위한 희소 컨텍스트 어텐션 설계를 갖춘 큐브 면 컨텍스트 관리 메커니즘; (3) 경계 이음매를 제거하기 위한 큐브 인식 위치 인코딩, 패딩, 블렌딩을 포함한 연속성 인식 기법. 벤치마크 데이터셋에 대한 광범위한 실험을 통해 CubeComposer가 기본 해상도와 시각적 품질 모두에서 최첨단 방법을 능가하며 실용적인 VR 응용 시나리오를 지원함을 입증합니다. 프로젝트 페이지: https://lg-li.github.io/project/cubecomposer
대규모 언어 모델(LLM) 에이전트는 장기적 과제 수행 시 유한한 컨텍스트 윈도우에 의해 근본적으로 병목 현상이 발생합니다. 작업 궤적이 길어질수록 도구 출력 및 중간 추론 과정을 컨텍스트 내에 보유하는 것은 빠르게 불가능해집니다: 작업 컨텍스트가 지나치게 길어지고, 결국 컨텍스트 예산을 초과하며, 멀리 떨어진 증거가 여전히 존재하더라도 이를 활용하기가 더 어려워집니다. 기존 솔루션은 일반적으로 잘라내기나 실행 요약을 통해 컨텍스트를 단축하지만, 이러한 방법들은 과거 증거 자체를 압축하거나 폐기하기 때문에 근본적으로 정보 손실이 발생합니다. 본 연구에서는 증거를 폐기하지 않고 컨텍스트를 압축하는 색인화된 경험 메모리 메커니즘인 Memex를 소개합니다. Memex는 간결한 구조화된 요약과 안정적인 색인으로 구성된 컴팩트한 작업 컮텍스트를 유지하는 동시에, 완전한 충실도의 기반 상호작용을 해당 색인 아래 외부 경험 데이터베이스에 저장합니다. 그러면 에이전트는 색인을 역참조하여 현재 하위 목표에 필요한 정확한 과거 증거를 복원할 시점을 결정할 수 있습니다. 우리는 MemexRL이라는 강화 학습 프레임워크를 통해 쓰기 및 읽기 동작을 최적화하며, 컨텍스트 예산 하에서 색인화된 메모리 사용에 맞춰 조정된 보상 형성을 사용하여 에이전트가 무엇을 요약하고, 무엇을 보관하며, 어떻게 색인을 생성하고, 언제 검색할지 학습하도록 합니다. 이는 요약만 사용하는 접근법보다 훨씬 적은 정보 손실 형태의 장기적 메모리를 제공합니다. 또한 우리는 Memex 루프가 역사가 증가함에 따라 효과적인 컨텍스트 내 계산을 유지하면서 제한된 역참조로 의사 결정 품질을 보존할 수 있는 잠재력을 이론적으로 분석합니다. 실험적으로, 도전적인 장기적 과제에서 MemexRL로 훈련된 Memex 에이전트는 상당히 작은 작업 컨텍스트를 사용하면서도 과제 성공률을 향상시켰습니다.
개방형 환경(즉, 미리 정의된 레이블 집합 없이)에서 세분화된 시각 개념을 분류하려면 모델이 정확하면서도 구체적이어야 합니다. 최근의 추론 대규모 멀티모달 모델(LMM)은 강력한 시각 이해 능력을 보여주지만, 세분화된 이미지 분류를 수행할 때 지나치게 일반적인 예측을 생성하는 경향이 있습니다. 우리의 예비 분석에 따르면, 모델은 본질적으로 세분화된 도메인 지식을 보유하고 있음이 확인되었습니다. 그러나 올바른 예측(정확성)을 훼손하지 않으면서 더 구체적인 예측(구체성)을 촉진하는 것은 여전히 사소하지 않으며 충분히 연구되지 않은 과제로 남아 있습니다. 본 연구에서는 추론 LMM이 정확하고 구체적인 예측을 하도록 유도하는 방법을 탐구합니다. 우리는 개방형 환경에서 세분화된 이미지 분류에 대해 추론 LMM을 미세 조정하기 위해 새로운 구체성 인식 강화 학습 프레임워크인 SpeciaRL을 제안합니다. SpeciaRL은 온라인 롤아웃 내 최상의 예측에 기반한 동적 검증자 기반 보상 신호를 도입하여 모델의 능력을 존중하며 부정확한 예측을 방지하고 구체성을 촉진합니다. 도메인 외부 실험 결과, SpeciaRL은 다양한 세분화 벤치마크에서 정확성과 구체성 간 최상의 균형을 제공하며 기존 방법을 능가하고 개방형 세분화 이미지 분류를 발전시킴을 보여줍니다. 코드와 모델은 https://github.com/s-angheben/SpeciaRL에서 공개적으로 이용할 수 있습니다.
대규모 시각-언어 모델(LVLMs)은 방대한 시각 토큰 시퀀스로 인한 상당한 계산 부담을 완화하기 위해 시각 토큰 프루닝(pruning) 전략을 채택해 왔습니다. 기존 연구들은 주로 어텐션(attention) 기반 또는 다양성(diversity) 기반 프루닝 방법에 초점을 맞추었으나, 이러한 접근법의 특성과 한계에 대한 심층적인 분석은 거의 이뤄지지 않았습니다. 본 연구에서는 효과적 랭크(effective rank, erank)를 특징 다양성의 측정치로, 그리고 어텐션 점수 엔트로피(entropy)를 활용하여 시각 토큰 처리 메커니즘을 조사하고 각 접근법의 강점과 약점을 분석하는 체계적인 실증 분석을 수행합니다. 우리의 분석은 두 가지 통찰을 보여줍니다: (1) erank 기반 정량 분석에 따르면, 다양성 중심 프루닝 방법들 중 상당수가 의도한 것보다 훨씬 적은 특징 다양성을 보존합니다. 더 나아가 CHAIR 데이터셋을 이용한 분석은, 이들이 보존하는 다양성이 어텐션 기반 프루닝에 비해 증가된 환각(hallucination) 발생 빈도와 밀접하게 연관되어 있음을 보여줍니다. (2) 우리는 또한 어텐션 기반 접근법이 시각적 증거가 집중된 단순한 이미지에서 더 효과적인 반면, 다양성 기반 방법은 특징이 분산된 복잡한 이미지를 더 잘 처리한다는 점을 관찰합니다. 이러한 실증적 통찰을 바탕으로, 기존의 하이브리드(hybrid) 프루닝 전략에 이미지 인식(image-aware) 조정을 도입하면 그 성능이 지속적으로 향상됨을 보여줍니다. 또한, 우리는 간단한 적응형 프루닝 메커니즘을 통해 우리의 실증 결과를 최소한으로 구현하며, 이 메커니즘이 표준 벤치마크와 환각 특화 평가 모두에서 강력하고 안정적인 성능을 달성함을 입증합니다. 우리의 프로젝트 페이지는 https://cvsp-lab.github.io/AgilePruner에서 확인할 수 있습니다.
일관된 시각적 내러티브를 갖춘 장편 스토리텔링 동영상 생성은 비디오 합성 분야에서 여전히 중요한 과제로 남아 있습니다. 본 연구는 세 가지 주요 한계점—촬영 간 배경 일관성, 다중 주체 간 원활한 숏-투-숏 전환, 시간 단위 장편 내러티브 확장성—를 해결하는 새로운 프레임워크, 데이터셋 및 모델을 제안합니다. 우리의 접근 방식은 캐릭터 정체성과 공간 관계를 보존하면서 장면 전반에 걸쳐 시각적 일관성을 유지하는 배경 일관성 생성 파이프라인을 도입합니다. 더 나아가 단일 주체에 국한된 기존 연구의 한계를 넘어, 여러 주체가 프레임에 진입하거나 퇴장하는 복잡한 시나리오에서 부드러운 숏 전환을 생성하는 전환 인식 비디오 합성 모듈을 제안합니다. 이를 지원하기 위해 저희는 기존에 충분히 다루어지지 않은 동적 장면 구성을 포함하는 10,000개의 다중 주체 전환 시퀀스로 구성된 합성 데이터셋을 공개합니다. VBench에서 InfinityStory는 가장 높은 배경 일관성(88.94), 가장 높은 주체 일관성(82.11), 그리고 최고의 전체 평균 순위(2.80)를 기록하여 향상된 안정성, 더 부드러운 전환, 더 나은 시간적 일관성을 입증했습니다.
다중 모달 대규모 언어 모델의 급속한 발전은 인상적인 능력을 보여주고 있지만, 거의 모든 모델이 오프라인 패러다임으로 운영되어 실시간 상호작용성을 저해하고 있습니다. 이러한 격차를 해소하기 위해 우리는 온라인 비디오 이해 평가를 위해 설계된 실시간 비디오 상호작용 벤치마크(RIVER Bench)를 소개합니다. RIVER Bench는 회고적 기억, 실시간 인지, 선제적 예측 과업으로 구성된 새로운 프레임워크를 도입하여 전체 비디오에 한 번에 응답하는 대신 상호작용적 대화를 밀접하게 모방합니다. 우리는 다양한 출처와 길이의 비디오를 사용하여 상세한 주석을 수행하고 실시간 상호작용 형식을 정확히 정의했습니다. 다양한 모델 범주에 대한 평가 결과, 오프라인 모델은 단일 질의응답 과업에서는 우수한 성능을 보이지만 실시간 처리에는 어려움을 겪는 것으로 나타났습니다. 기존 모델들의 온라인 비디오 상호작용 한계, 특히 장기 기억과 미래 인식 능력의 부족함을 해결하기 위해 우리는 모델이 실시간으로 사용자와 더 유연하게 상호작용할 수 있는 일반적인 개선 방법을 제안했습니다. 이 연구가 실시간 상호작용 비디오 이해 모델의 발전을 크게 촉진하고 이 신흥 분야의 미래 연구에 영감을 줄 것이라고 믿습니다. 데이터셋과 코드는 https://github.com/OpenGVLab/RIVER에서 공개되어 있습니다.
대규모 언어 모델(LLM) 기반 에이전트는 SWE-bench와 같은 벤치마크를 통해 정적 버그 수정과 같은 소프트웨어 엔지니어링 작업 자동화에서 강력한 능력을 입증했습니다. 그러나 현실 세계에서 성숙한 소프트웨어의 개발은 일반적으로 복잡한 요구사항 변경과 장기적인 기능 반복을 전제로 진행됩니다. 이는 정적이고 단일 시점의 수정 패러다임으로는 포착하기 어려운 과정입니다. 이러한 격차를 해소하기 위해 우리는 지속적 통합(Continuous Integration) 루프를 기반으로 구축된 최초의 저장소 수준 벤치마크인 SWE-CI를 제안합니다. 이를 통해 코드 생성에 대한 평가 패러다임을 정적이고 단기적인 기능적 정확성에서 동적이고 장기적인 유지보수성으로 전환하고자 합니다. 해당 벤치마크는 100개의 작업으로 구성되며, 각 작업은 평균 233일에 걸친 진화 기록과 실제 코드 저장소의 71개의 연속 커밋에 대응됩니다. SWE-CI는 에이전트가 수십 차례의 분석 및 코딩 반복을 통해 이러한 작업들을 체계적으로 해결하도록 요구합니다. SWE-CI는 에이전트가 장기적인 진화 과정 전반에 걸쳐 코드 품질을 얼마나 잘 유지할 수 있는지에 대한 유용한 통찰력을 제공합니다.
구현된 대화 에이전트(ECA)는 음성, 제스처, 얼굴 표정을 통해 인간의 대면 상호작용을 모방하는 것을 목표로 합니다. 현재 대규모 언어 모델(LLM) 기반 대화 에이전트는 구현성과 자연스러운 상호작용에 필수적인 표현적 제스처가 부족합니다. 기존 ECA 솔루션은 종종 경직되고 다양성이 낮은 동작을 생성하여 인간과 유사한 상호작용에 부적합합니다. 또는 동시 발화 제스처 합성을 위한 생성적 방법은 자연스러운 신체 동작을 만들어내지만 미래의 발화 문맥에 의존하며 긴 실행 시간이 필요합니다. 이러한 격차를 해소하기 위해 우리는 실시간 구어 대화와 동기화된 표현적 전신 제스처와 얼굴 표정을 생성하는 최초의 온라인 인과적 프레임워크인 MIBURI를 제시합니다. 우리는 계층적 동작 세부 사항을 다중 수준 이산 토큰으로 인코딩하는 신체 부위 인식 제스처 코덱을 활용합니다. 이러한 토큰은 LLM 기반 발화-텍스트 임베딩에 조건화된 2차원 인과적 프레임워크에 의해 자동회귀적으로 생성되며, 시간적 역동성과 부위 수준 동작 계층 구조를 실시간으로 모델링합니다. 더 나아가 표현적이고 다양한 제스처를 장려하면서 정적 자세로의 수렴을 방지하기 위한 보조 목적 함수를 도입합니다. 비교 평가 결과, 우리의 인과적 실시간 접근법이 최근 기준선 대비 자연스럽고 문맥에 부합하는 제스처를 생성함을 입증합니다. 독자 여러분은 https://vcai.mpi-inf.mpg.de/projects/MIBURI/에서 데모 영상을 확인하시기 바랍니다.
대규모 언어 모델의 안전성 평가와 레드 팀링은 여전히 주로 텍스트 중심으로 이루어지며, 기존 프레임워크는 정렬(alignment)이 오디오, 이미지, 비디오 입력까지 일반화되는지를 체계적으로 테스트할 수 있는 인프라가 부족합니다. 본 논문에서는 MUSE(Multimodal Unified Safety Evaluation)를 소개합니다. MUSE는 오픈소스이며 실행(run) 중심의 플랫폼으로, 자동 교차 모달 페이로드 생성, 세 가지 다중 턴 공격 알고리즘(Crescendo, PAIR, Violent Durian), 공급자에 독립적인 모델 라우팅, 그리고 5단계 안전성 분류 체계를 갖춘 LLM 판단기를 단일 브라우저 기반 시스템에 통합했습니다. 이중 지표 프레임워크는 강성 공격 성공률(순수 Compliance만)과 연성 공격 성공률(Partial Compliance 포함)을 구분하여 이진 지표가 놓치는 부분적 정보 유출을 포착합니다. 정렬이 모달리티 경계를 가로질러 일반화되는지 탐구하기 위해 턴 간 모달리티 전환(Inter-Turn Modality Switching, ITMS)을 도입했습니다. ITMS는 다중 턴 공격을 턴별 모달리티 순환으로 확장합니다. 4개 공급자의 6개 다중 모달 LLM을 대상으로 한 실험 결과, 단일 턴에서는 거의 완벽하게 요청을 거부하는 모델에 대해서도 다중 턴 전략을 통해 최대 90-100%의 공격 성공률을 달성할 수 있음을 보여줍니다. ITMS는 이미 포화 상태인 기준선에서 최종 공격 성공률을 균일하게 높이지는 않지만, 초기 턴의 방어 체계를 불안정하게 만들어 수렴 속도를 가속화합니다. 또한 ablation 실험을 통해 모달리티 효과의 방향이 보편적이기보다 모델 패밀리별로 특정적임을 밝혀, 공급자 인식 교차 모달 안전성 테스트의 필요성을 강조합니다.
3D 장면을 탐색하면서 즉시 이해하는 것은 에이전트가 온라인 및 준 실시간 방식으로 3D 장면을 구성하고 이해해야 하는 구체적 임무(embodied tasks)에 필수적입니다. 본 연구에서는 스트리밍 이미지로부터 동시에 온라인 3D 재구성과 3D 의미론적 이해를 가능하게 하는 개방형 어휘(open-vocabulary) 장면 이해를 위한 온라인 순전파(online feed-forward) 3DGS 방법론인 EmbodiedSplat을 제안합니다. 일반적으로 오프라인 또는 장면별 최적화(per-scene optimization) 설정에 국한된 기존의 개방형 어휘 3DGS 방법론과 달리, 본 연구의 목표는 두 가지입니다: 1) 300개 이상의 스트리밍 이미지로부터 전체 장면의 의미 정보가 내재된(semantic-embedded) 3DGS를 온라인 방식으로 재구성한다. 2) 순전파 설계로 새로운 장면에 대해 높은 일반화 성능을 가지며, 실시간 2D 모델과 결합 시 준 실시간 3D 의미론적 재구성을 지원한다. 이러한 목표를 달성하기 위해, 우리는 메모리 소비를 최소화하면서 CLIP의 완전한 의미론적 일반화 성능을 유지한 상태로 2D CLIP 임베딩을 각 3D 가우시안에 연결하는 CLIP 글로벌 코드북을 갖춘 온라인 희소 계수 필드(Online Sparse Coefficients Field)를 제안합니다. 더 나아가, 3D U-Net을 통해 3DGS의 부분 점군(partial point cloud)을 집계하여 2D 중심 언어 임베딩에 3D 기하학적 사전 정보(geometric prior)를 보완하는 3D 기하학 인식 CLIP 특징을 생성합니다. ScanNet, ScanNet++, Replica를 포함한 다양한 실내 데이터셋에서의 광범위한 실험을 통해 우리 방법의 효과성과 효율성을 입증합니다. 자세한 내용은 우리의 프로젝트 페이지(https://0nandon.github.io/EmbodiedSplat/)에서 확인하세요.
단단하고 검증 가능한 보상을 활용한 강화 학습이 컴팩트 언어 모델에게 물리 추론을 가르칠 수 있는가, 아니면 정답을 향한 패턴 매칭을 주로 학습하는가? 우리는 이 질문을 연구하기 위해 1.5B 파라미터 추론 모델을 고전 공학 문제인 보 정역학에 대해 훈련시켰다. 이때 교사 생성 추론 궤적 없이 기호 해석기(symbolic solver)의 이진 정확도 보상을 사용한 파라미터 효율적 RLVR(Reinforcement Learning with Verifiable Rewards) 방법을 적용했다. 최고의 BeamPERL 체크포인트는 기본 모델 대비 Pass@1에서 66.7% 향상을 달성했다. 그러나 학습된 능력은 이방성(anisotropic)을 보였다: 모델은 구성적으로(더 많은 하중)는 일반화했지만, 동일한 평형 방정식을 필요로 하는 위상학적 변화(지지대 이동) 상황에서는 실패했다. 중간 체크포인트에서 가장 강력한 추론 능력을 보였으나, 최적화가 지속되면 보상은 유지되지만 강건성은 저하되었다. 이러한 결과는 결과 수준 정렬(outcome-level alignment)의 핵심 한계를 드러낸다: 정확한 물리 보상을 이용한 강화 학습은 지배 방정식의 내재화보다는 절차적 해법 템플릿을 유도한다. 보상 신호의 정밀도(분석적으로 정확할지라도)만으로는 이전 가능한 물리 추론을 보장하지 않는다. 우리의 결과는 검증 가능한 보상이 강건한 과학적 추론을 위해 템플릿 매칭을 넘어서기 위해 구조화된 추론 비계(scaffolding)와 결합되어야 할 수 있음을 시사한다.
Detection Transformer(DETR)와 그 변형 모델들은 자율 시스템의 핵심 과제인 객체 탐지에서 강력한 성능을 보여줍니다. 그러나 이러한 모델들의 중요한 한계점은 신뢰도 점수가 의미론적 불확실성만 반영할 뿐, 동등하게 중요한 공간적 불확실성을 포착하지 못한다는 것입니다. 이로 인해 탐지 신뢰성에 대한 평가가 불완전해집니다. 한편, 딥 앙상블은 고품질의 공간적 불확실성 추정치를 제공하여 이 문제를 해결할 수 있습니다. 하지만 막대한 메모리 소비로 인해 실제 응용 프로그램에는 비현실적입니다. 더 저렴한 대안인 Monte Carlo(MC) Dropout은 불확실성 추정을 위해 추론 과정에서 다수의 순전파 과정이 필요해 높은 지연 시간 문제가 있습니다. 이러한 한계점을 해결하기 위해 우리는 DETR 유사 모델들을 위한 효율적이고 효과적인 불확실성 추정 방법인 GroupEnsemble을 소개합니다. GroupEnsemble은 추론 시 트랜스포머 디코더에 객체 쿼리의 추가적이고 다양한 그룹을 입력하여 여러 개별 탐지 세트를 동시에 예측합니다. 각 쿼리 그룹은 공유 디코더에 의해 독립적으로 변환되어 동일한 입력에 대한 완전한 탐지 세트를 예측합니다. 디코더에는 어텐션 마스크가 적용되어 그룹 간 쿼리 상호 작용을 방지함으로써 각 그룹이 독립적으로 탐지하여 신뢰할 수 있는 앙상블 기반 불확실성 추정을 달성합니다. 디코더의 내재적 병렬 처리 능력을 활용함으로써, GroupEnsemble은 순차적 반복 없이 단일 순전파만으로 불확실성을 효율적으로 추정합니다. 우리는 Cityscapes와 COCO 데이터셋을 각각 사용하여 자율 주행 환경과 일반 일상 환경에서 본 방법론을 검증했습니다. 결과에 따르면 MC-Dropout과 GroupEnsemble을 결합한 하이브리드 접근법이 훨씬 적은 비용으로 여러 메트릭에서 딥 앙상블을 능가하는 것으로 나타났습니다. 코드는 https://github.com/yutongy98/GroupEnsemble에서 확인할 수 있습니다.
최근 오픈-보케뷸러리 객체 탐지에 대한 관심이 높아지고 있지만, 기존 대부분의 방법은 수동으로 정제된 세분화된 학습 데이터셋과 리소스 집약적인 계층별 크로스 모달 특징 추출에 크게 의존합니다. 본 논문에서는 이러한 구성 요소에 대한 의존성을 제거한 간결하면서도 효율적인 오픈-보케뷸러리 객체 탐지기인 HDINO를 제안합니다. 구체적으로, 트랜스포머 기반 DINO 모델 위에 구축된 2단계 학습 전략을 제안합니다. 첫 번째 단계에서는 노이즈 샘플을 추가적인 긍정 객체 인스턴스로 간주하여 시각 모달리티와 텍스트 모달리티 간의 일대다 의미 정렬 메커니즘(O2M)을 구성함으로써 의미 정렬을 촉진합니다. 또한 초기 탐지 난이도를 기반으로 난이도 가중 분류 손실(DWCL)을 설계하여 난이도 높은 예제를 발굴하고 모델 성능을 더욱 향상시킵니다. 두 번째 단계에서는 정렬된 표현에 경량 특징 융합 모듈을 적용하여 언어적 의미에 대한 민감도를 향상시킵니다. Swin Transformer-T 설정에서 HDINO-T는 두 개의 공개 탐지 데이터셋에서 220만 장의 학습 이미지를 사용하여 COCO에서 49.2 mAP를 달성했으며, 어떠한 수동 데이터 정제나 grounding 데이터 사용 없이도 540만 장과 650만 장의 이미지로 학습된 Grounding DINO-T 및 T-Rex2를 각각 0.8 mAP, 2.8 mAP 앞질렀습니다. COCO에 대한 미세 조정 후 HDINO-T와 HDINO-L은 각각 56.4 mAP와 59.2 mAP를 추가로 달성하여 본 접근법의 효과성과 확장성을 입증했습니다. 코드와 모델은 https://github.com/HaoZ416/HDINO에서 이용할 수 있습니다.