번역이 포함된 일일 선별된 AI 연구 논문
자율형 소프트웨어 엔지니어링(SWE) 에이전트가 프로그래밍 패러다임을 재편하고 있지만, 현재는 "폐쇄형 세계" 한계를 안고 있습니다. 즉, 이러한 에이전트는 처음부터 또는 로컬 컨텍스트만을 이용해 버그를 수정하려고 시도하며, GitHub와 같은 플랫폼에서 이용 가능한 방대한 역사적 인간 경험을 활용하지 못합니다. 이러한 개방형 세계의 경험에 대한 접근은 실제 이슈 추적 데이터의 비정형적이고 파편화된 특성으로 인해 제약을 받습니다. 본 논문에서는 원시 GitHub 데이터를 에이전트가 실행 가능한 경험 메모리로 변환 및 관리하기 위한 프레임워크인 MemGovern을 소개합니다. MemGovern은 경험 거버넌스를 통해 인간의 경험을 에이전트 친화적인 경험 카드로 변환하고, 인간 전문 지식의 논리 기반 검색을 가능하게 하는 에이전트형 경험 검색 전략을 도입합니다. 135,000개의 관리된 경험 카드를 생성함으로써, MemGovern은 SWE-bench Verified의 해결율을 4.65% 향상시키는 상당한 성능 향상을 달성합니다. 플러그인 방식으로 동작하는 MemGovern은 에이전트 친화적 메모리 인프라에 대한 해결책을 제시합니다.
저희는 저자원 언어를 위한 102B 파라미터 규모의 이중 언어 전문가 혼합(Solar Open) 모델을 소개합니다. Solar Open은 상호 연계된 세 가지 과제를 해결함으로써 경쟁력 있는 대규모 언어 모델을 구축하는 체계적인 방법론을 보여줍니다. 첫째, 저자원 언어의 데이터 부족 문제를 극복하기 위해 고품질의 도메인 특화적이며 강화학습 지향적인 4.5T 토큰 규모의 데이터를 합성했습니다. 둘째, 20조 토큰에 걸쳐 데이터 구성, 품질 임계값, 도메인 커버리지를 종합적으로 최적화하는 점진적 커리큘럼을 통해 이 데이터를 체계적으로 조정했습니다. 셋째, 확장성 있는 강화학습을 통한 추론 능력 구현을 위해 효율적 최적화를 위한 SnapPO 프레임워크를 적용했습니다. 영어 및 한국어 벤치마크에서 Solar Open은 경쟁력 있는 성능을 달성하며, 저자원 언어 AI 개발을 위한 본 방법론의 효과성을 입증했습니다.
기존의 장기 기억 벤치마크는 대부분 다중 회차 대화나 합성 사용자 기록을 사용하여, 검색 성능이 사람 이해의 불완전한 대리 지표가 되는 문제가 있습니다. 본 논문에서는 장편 자서전 서사를 기반으로 공개 가능한 벤치마크인 \BenchName을 제시합니다. 여기서는 행동, 맥락, 내적 사고가 안정적인 동기와 의사 결정 원리를 추론하기 위한 풍부한 증거를 제공합니다. \BenchName은 각 서사를 플래시백을 고려한 시간 기준 스트림으로 재구성하고, 사실적 회상, 주관적 상태 귀속, 원리 수준 추론에 걸친 증거 연계 질문을 통해 모델을 평가합니다. 다양한 서사 출처에서 검색 증강 시스템은 주로 사실적 정확도를 향상시키지만, 시간적 근거가 필요한 설명과 높은 수준의 추론에서는 오류가 지속되어 검색 이상의 메모리 메커니즘이 필요함을 강조합니다. 우리의 데이터는 KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}에서 확인할 수 있습니다.
대규모 추론 모델(LRM)을 자율 에이전트로 활용하는 최근의 패러다임 전환은 정교한 다중 턴 도구 사용 능력에 대한 수요를 가속화하고 있습니다. 그러나 기존 데이터셋과 데이터 생성 방법론은 정적이고 미리 정의된 도구 세트에 한정되어 개방형 인간-에이전트 협업의 복잡성을 따라가지 못하는 한계가 있습니다. 이를 해결하기 위해 우리는 먼저 LRM 기반 시뮬레이터를 활용하여 특정 작업을 해결하기 위해 영역 특화적 고부가가치 도구를 동적으로 생성함으로써 대규모 작업 지향 다중 턴 대화 자동 생성 프레임워크를 개발했습니다. 그러나 순수하게 작업 지향적인 설계는 종종 "단순 작업 해결" 궤적을 초래하여, 에이전트가 최소한의 상호작용으로 목표를 달성함으로써 실제 시나리오에서 관찰되는 높은 턴 수의 대화를 생성하지 못하는 문제점을 관찰했습니다. 이러한 격차를 해소하기 위해 우리는 사용자 지향 시뮬레이션 패러다임으로 전환했습니다. 점진적 요청 및 턴별 피드백과 같은 인간의 행동 규칙을 모방하는 전용 사용자 시뮬레이터에 작업 생성을 분리함으로써, 실제 문제 해결의 반복적 특성을 반영한 보다 진정성 있고 장기화된 다중 턴 대화를 가능하게 합니다. 우리의 생성 파이프라인은 어떤 상태에서도 생성을 시작할 수 있는 유연한 플러그 앤 플레이 모듈로 작동하여 확장된 도구 사용 데이터 생산에 높은 확장성을 보장합니다. 더 나아가 단일 궤적 내에서 여러 작업 완료를 가능하게 함으로써, 실제 인간-에이전트 상호작용의 다면적 요구를 반영한 고밀도 데이터셋을 산출합니다.
로봇 공학 및 디지털 환경에서 인간 수준의 자동화를 실현하기 위해서는 정교한 조작이 가능한 지능형 에이전트 구축이 필수적입니다. 그러나 기존 GUI 에이전트는 이산적인 클릭 예측(x,y)에 의존하여, 연속적인 실시간 인지와 조정이 필요한 자유 형식의 폐루프 궤적(예: 진행률 막대 끌기) 구현을 제한합니다. 본 연구에서는 다음과 같은 설계를 특징으로 하는 최초의 흐름 기반 생성 모델인 ShowUI-π를 GUI 정교한 핸드로 개발합니다: (i) **통합 이산-연속 액션**: 다양한 상호작용 모드에 유연하게 적응할 수 있도록 공유 모델 내에서 이산적 클릭과 연속적 끌기를 통합합니다. (ii) **끌기 모델링을 위한 흐름 기반 액션 생성**: 경량 액션 전문가를 통해 연속적인 시각 관찰로부터 증분적 커서 조정을 예측하여 부드럽고 안정적인 궤적을 보장합니다. (iii) **끌기 훈련 데이터 및 벤치마크**: PowerPoint, Adobe Premiere Pro 등 5개 도메인에서 20K개의 끌기 궤적을 수동으로 수집 및 합성하고, GUI 에이전트의 끌기 능력을 평가하기 위한 포괄적인 온라인 및 오프라인 평가 프로토콜을 갖춘 ScreenDrag 벤치마크를 소개합니다. 실험 결과, 독점 GUI 에이전트들은 ScreenDrag에서 여전히 어려움을 겪는 반면(Operator 13.27점, 최고 성능 Gemini-2.5-CUA 22.18점), ShowUI-π는 4.5억 개의 매개변수만으로 26.98점을 달성하여 과제의 난이도와 우리 접근법의 효과성을 동시에 입증했습니다. 본 연구가 디지털 세계에서 GUI 에이전트가 인간과 유사한 정교한 제어로 나아가는 데 기여하기를 바랍니다. 코드는 https://github.com/showlab/showui-pi에서 이용 가능합니다.
도구 증강 에이전트 프레임워크에서의 복잡한 추론은 본질적으로 장기적 특성을 지녀, 추론 흔적과 일시적인 도구 산출물이 누적되며 대규모 언어 모델의 제한된 작업 문맥에 부하를 가합니다. 명시적인 메모리 메커니즘이 없을 경우, 이러한 누적은 논리적 연속성을 해치고 작업 정렬을 약화시킵니다. 이는 메모리를 단순한 보조적 효율성 문제가 아닌, 장기적 관점에서 일관된 목표 지향적 추론을 유지하기 위한 핵심 구성 요소로 위치 짓습니다. 본 논문에서는 도구 증강 에이전트를 위한 실행 메모리 모델인 MemoBrain을 제안합니다. MemoBrain은 추론 단계에 걸쳐 의존성 인식 메모리를 구축하여 주요 중간 상태들과 그 논리적 관계를 포착합니다. 추론 에이전트와 협력(co-pilot) 역할을 하며 MemoBrain은 실행을 차단하지 않으면서 추론 진행을 구성하고 작업 문맥을 능동적으로 관리합니다. 구체적으로, 고정된 문맥 예산 내에서 무효한 단계를 제거하고 완료된 하위 궤적을 접으며, 간결하고 높은 중요도를 지닌 추론의 중추를 보존합니다. 이러한 메커니즘들은 수동적인 문맥 누적이 아닌, 추론 궤적에 대한 명시적인 인지 제어를 가능하게 합니다. MemoBrain을 GAIA, WebWalker, BrowseComp-Plus를 포함한 까다로운 장기 벤치마크에서 평가한 결과, 강력한 베이스라인 대비 일관된 성능 향상을 확인하였습니다.
강화 학습은 검증 가능한 결과를 가진 작업에서 LLM 에이전트의 성능을 크게 향상시켰지만, 방대한 해결 공간을 가진 개방형 에이전트 작업(예: 복잡한 여행 계획 수립)에서는 여전히 어려움을 겪고 있습니다. 이러한 작업에는 객관적인 기준치가 부재하기 때문에, 현재의 RL 알고리즘은 개별 응답에 스칼라 점수를 부여하는 보상 모델에 크게 의존하고 있습니다. 우리는 이러한 점별 점수 부여 방식이 본질적인 **판별력 붕괴** 문제를 겪는다고 주장합니다: 보상 모델이 서로 다른 경로들 사이의 미묘한 장점을 구분하는 데 어려움을 겪어, 동일 그룹 내 점수들이 좁은 범위로 압축되는 현상이 발생합니다. 결과적으로, 효과적인 보상 신호는 보상 모델의 노이즈에 의해 지배되며, 이는 최적화 정체로 이어집니다. 이를 해결하기 위해 우리는 점별 스칼라 점수 부여에서 그룹 내 상대적 순위 결정으로 전환하는 강화 학습 패러다임인 **ArenaRL**을 제안합니다. ArenaRL은 다단계 평가 기준표를 활용하여 경로에 세분화된 상대 점수를 부여하는 **과정 인식 쌍별 평가 메커니즘**을 도입합니다. additionally, 우리는 그룹 내 적대적 아레나를 구성하고 토너먼트 기반 순위 결정 방식을 고안하여 안정적인 이점 신호를 얻습니다. 실험 결과에 따르면, 구축된 시드 단일 elimination 방식은 O(N²) 복잡도를 가진 전체 쌍별 비교와 거의 동등한 이점 추정 정확도를 달성하면서 오직 O(N) 복잡도로 운영되어 효율성과 정밀도 사이의 최적의 균형을 찾습니다. 더 나아가, 개방형 에이전트를 위한 전주기 벤치마크 부재 문제를 해결하기 위해, SFT, RL 훈련 및 다차원 평가를 아우르는 포괄적인 파이프라인을 특징으로 하는 두 가지 고품질 벤치마크인 **Open-Travel**과 **Open-DeepResearch**를 구축했습니다.广泛的 실험을 통해 ArenaRL이 표준 RL 기준선을 크게 능가하여 LLM 에이전트가 복잡한 현실 세계 작업에 대해 더욱 견고한 해결책을 생성할 수 있게 함을 확인했습니다.
저희는 컴퓨팅 및 메모리 제약이 있는 애플리케이션을 위해 설계된 매개변수 효율적인 고밀도 언어 모델 패밀리인 Ministral 3 시리즈를 소개합니다. 이 시리즈는 3B, 8B, 14B 매개변수의 세 가지 모델 크기로 제공됩니다. 각 모델 크기에 대해 일반 목적으로 사용할 수 있는 사전 학습된 기본 모델, 지침 미세 조정 모델, 복잡한 문제 해결을 위한 추론 모델 등 세 가지 변형을 공개합니다. 또한, Cascade Distillation(계단식 지식 증류) 기법을 통한 반복적 프루닝과 지속적인 학습을 통해 Ministral 3 모델을 도출하는 방법론을 제시합니다. 모든 모델은 Apache 2.0 라이선스 하에 이미지 이해 기능을 갖추고 있습니다.
대규모 언어 모델(LLM) 기반 자율 에이전트가 다중 터닝 작업을 처리하기 위해 빠르게 발전하고 있지만, 신뢰성을 보장하는 것은 여전히 중요한 과제로 남아 있습니다. 이러한 신뢰성의 근간을 이루는 것은 캘리브레이션(calibration)으로, 이는 에이전트의 실제 성능을 신뢰할 수 있게 반영하는 자신감을 표현하는 능력을 의미합니다. 정적 모델에 대한 캘리브레이션은 잘 정립되어 있지만, 도구 통합 에이전트 워크플로우에서의 동적 특성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 도구 사용 에이전트의 언어화된 캘리브레이션을 체계적으로 조사하여 도구 유형에 의해 발생하는 근본적인 자신감 이분법을 밝혀냅니다. 구체적으로, 파일럿 연구를 통해 증거 도구(예: 웹 검색)는 검색된 정보의 본질적 노이즈로 인해 체계적인 심각한 과신을 유발하는 반면, 검증 도구(예: 코드 인터프리터)는 결정론적 피드백을 통해 추론을 근거 삼고 캘리브레이션 오류를 완화할 수 있음을 확인했습니다. 다양한 도구 유형에 걸쳐 캘리브레이션을 강건하게 개선하기 위해, 우리는 보상 설계에 대한 포괄적 벤치마크를 바탕으로 작업 정확도와 캘리브레이션을 공동 최적화하는 강화 학습(RL) 미세 조정 프레임워크를 제안합니다. 훈련된 에이전트가 우수한 캘리브레이션을 달성할 뿐만 아니라, 로컬 훈련 환경에서 노이즈가 많은 웹 설정으로, 그리고 수학적 추론과 같은 별개의 도메인으로 강건하게 일반화됨을 입증합니다. 우리의 결과는 도구 사용 에이전트를 위한 도메인 특화 캘리브레이션 전략의 필요성을 강조합니다. 더 넓게 보면, 본 연구는 위험이 높은 실제 배포 환경에서 불확실성을 신뢰성 있게 전달할 수 있는 자의식적 에이전트 구축의 기초를 마련합니다.
SAM2와 같은 비디오 객체 분할 방법은 메모리 기반 아키텍처를 통해 강력한 성능을 달성하지만, 외형 특징에 의존하기 때문에 큰 시점 변화가 발생하는 상황에서는 어려움을 겪습니다. 기존의 3D 인스턴스 분할 방법은 시점 일관성을 해결하지만 카메라 포즈, 깊이 맵 및 고비용의 전처리가 필요합니다. 본 논문에서는 MUSt3R의 3D 인식 특징을 SAM2에 통합하는 학습 시간 향상 기법인 3AM을 소개합니다. 우리의 경량화된 특징 병합기(Feature Merger)는 암묵적인 기하학적 대응 관계를 인코딩하는 MUSt3R의 다중 수준 특징을 융합합니다. 이를 SAM2의 외형 특징과 결합함으로써 공간 위치와 시각적 유사성에 기반한 기하학적 일관성을 갖는 인식을 달성합니다. 또한, 신뢰할 수 있는 3D 대응 관계 학습을 위해 공간적으로 일관된 객체 영역을 관찰하는 프레임을 보장하는 시야각 인식 샘플링 전략을 제안합니다. 중요한 점은 우리의 방법은 추론 시 RGB 입력만 필요로 하며, 카메라 포즈나 전처리가 필요하지 않다는 것입니다. 광베이스라인 운동이 있는 어려운 데이터셋(ScanNet++, Replica)에서 3AM은 SAM2 및 그 확장 방법들을 크게 능가하며, ScanNet++의 선별된 부분 집합에서 90.6% IoU와 71.7% Positive IoU를 달성하여 최첨단 비디오 객체 분할 방법 대비 각각 +15.9점, +30.4점의 성능 향상을 보였습니다. 프로젝트 페이지: https://jayisaking.github.io/3AM-Page/
검색 증강 생성은 딜레마에 직면해 있습니다: 긴 프롬프트에 문서들을 연결하면 다중 문서 추론이 가능하지만 프리필 병목 현상을 일으키고, 반면 문서별 KV 캐시를 별도로 인코딩하면 속도는 개선되지만 문서 간 상호작용이 단절됩니다. 본 연구에서는 증거 집계를 어텐션 메커니즘에서 디코딩 과정으로 전환하는 학습 불필요 프레임워크인 병렬 전문가 컨텍스트 디코딩(Pced)을 제안합니다. Pced는 검색된 문서를 고립된 "전문가"로 간주하고, 전문가 로짓을 모델 사전 확률과 대조하여 가중치를 부여하는 새로운 검색 인식 대조 디코딩 규칙을 통해 이들의 예측을 동기화합니다. 이 접근법은 문서 간 공유 어텐션을 구성하지 않으면서도 다중 문서 추론 능력을 회복합니다.
검색 증대 생성(RAG) 파이프라인은 단일 문서 검색 이상의 과제를 해결해야 하며, 여기에는 시각적 요소(표, 차트, 이미지) 해석, 여러 문서에 걸친 정보 종합, 정확한 출처 기반 마련 등이 포함됩니다. 기존 벤치마크는 텍스트 데이터나 단일 문서 이해에 집중하거나 검색과 생성을 별도로 평가하는 등 이러한 복잡성을 제대로 반영하지 못하고 있습니다. 본 연구에서는 시각적으로 풍부한 문서 컬렉션에 대한 다양한 유형의 질의를 특징으로 하는 종합적인 멀티모달 RAG 벤치마크인 ViDoRe v3를 소개합니다. 이 벤치마크는 다양한 전문 분야의 10개 데이터셋을 아우르며, 약 26,000개의 문서 페이지와 3,099개의 인간 검증 질의로 구성되어 있으며, 각 질의는 6개 언어로 제공됩니다. 12,000시간에 달하는 인간 주석 작업을 통해 검색 관련성, 바운딩 박스 위치 지정, 검증된 참조 답변에 대한 고품질 주석을 제공합니다. 최첨단 RAG 파이프라인 평가 결과, 시각적 검색 모델이 텍스트 기반 검색 모델보다 성능이 우수하며, 후기 상호작용 모델과 텍스트 재순위 지정이 성능을 크게 향상시키고, 하이브리드 또는 순수 시각적 컨텍스트가 답변 생성 품질을 높이는 것으로 나타났습니다. 그러나 현재 모델들은 비텍스트 요소, 개방형 질의, 세밀한 시각적 기반 학습에서 여전히 어려움을 겪고 있습니다. 이러한 과제 해결을 위한 발전을 촉진하기 위해 본 벤치마크는 상용 허가 라이선스 하에 https://hf.co/vidore에서 공개되었습니다.
디퓨전 트랜스포머(DiT)의 최근 발전은 이미지 생성 분야에서 새로운 기준을 제시했지만, 높은 컴퓨팅 및 메모리 비용으로 인해 온디바이스 배치에는 여전히 실용적이지 않습니다. 본 연구에서는 엄격한 자원 제약 하에서도 트랜스포머 수준의 생성 품질을 달성하는 모바일 및 엣지 디바이스용 효율적인 DiT 프레임워크를 제안합니다. 우리의 설계는 세 가지 핵심 구성 요소를 결합합니다. 첫째, 전역 콘텍스트 모델링과 지역적 세부 사항 보존 간의 균형을 맞추는 적응형 전역-지역 희소 어텐션 메커니즘을 갖춘 컴팩트한 DiT 아키텍처를 제안합니다. 둘째, 통합 슈퍼네트워크 내에서 다양한 성능을 지닌 하위 DiT들을 공동으로 최적화하는 탄력적 학습 프레임워크를 제안하여 단일 모델이 다양한 하드웨어에서 효율적인 추론을 위해 동적으로 조정될 수 있도록 합니다. 마지막으로, DMD 목적 함수와 Few-Step 교사 모델의 지식 전이를 통합하는 단계별 지식 증류 파이프라인인 Knowledge-Guided Distribution Matching Distillation을 개발하여 실시간 온디바이스 사용에 적합한 고품질 저지연 생성(예: 4-스텝)을 가능하게 합니다. 이러한 기여들을 종합하면 다양한 하드웨어에 배치 가능한 확장성 있고 효율적이며 고품질의 디퓨전 모델을 구현할 수 있습니다.
비디오 생성 모델의 급속한 발전에도 불구하고, 모션에 영향을 미치는 데이터의 역할은 제대로 이해되지 않고 있습니다. 본 논문에서는 현대적이고 규모가 크며 고품질인 비디오 데이터셋과 모델에 확장 적용 가능한 모션 중심의 그래디언트 기반 데이터 귀속 프레임워크인 Motive(MOTIon attribution for Video gEneration)를 제안합니다. 이를 통해 어떤 파인튜닝 클립이 시간적 역학을 개선하거나 저하시키는지 연구합니다. Motive는 모션 가중 손실 마스크를 통해 정적 외관과 시간적 역학을 분리하여 효율적이고 확장 가능한 모션 특화 영향력 계산을 제공합니다. 텍스트-비디오 모델에서 Motive는 모션에 강한 영향을 미치는 클립을 식별하고, 시간적 일관성과 물리적 타당성을 개선하는 데이터 큐레이션을 안내합니다. Motive로 선별한 고영향력 데이터를 사용한 우리의 방법론은 VBench에서 모션 부드러움과 동적 정도를 모두 개선하여 사전 학습된 기본 모델 대비 74.1%의 인간 선호도 승률을 달성했습니다. 우리가 알기로, 이는 비디오 생성 모델에서 시각적 외관이 아닌 모션을 귀속시키고 이를 파인튜닝 데이터 큐레이션에 활용하는 최초의 프레임워크입니다.
VLA 모델은 대규모 VLM의 강력한 일반화 능력을 계승하면서 인식과 계획을 통합함으로써 구현형 내비게이션 분야에서 유망한 잠재력을 보여주고 있습니다. 그러나 기존 VLA 모델 대부분은 관측에서 행동으로의 반응적 매핑에 의존하여, 복잡하고 장기적인 내비게이션 작업에 필요한 명시적 추론 능력과 지속적 메모리가 부족합니다. 이러한 문제를 해결하기 위해 우리는 언어 기반 인지에 기반한 구현형 내비게이션용 VLA 모델인 VLingNav를 제안합니다. 첫째, 인간 인지의 이중 과정 이론에서 영감을 받아 적응형 사고의 사슬(Chain-of-Thought) 메커니즘을 도입했습니다. 이는 필요할 때만 명시적 추론을 동적으로 촉발하여 에이전트가 빠르고 직관적인 실행과 느리고 신중한 계획 사이를 유연하게 전환할 수 있게 합니다. 둘째, 장기간의 공간적 의존성을 처리하기 위해 시각 지원 언어 메모리 모듈을 개발했습니다. 이는 지속적이고 교차 모드적인 의미론적 메모리를 구축하여 에이전트가 과거 관측을 상기하여 반복적 탐색을 방지하고 동적 환경에서 이동 경향을 추론할 수 있게 합니다. 학습 방법론으로는, 현재까지 역대 최대 규모의 추론 주석이 달린 구현형 내비게이션 데이터셋인 Nav-AdaCoT-2.9M을 구축했습니다. 이 데이터셋은 언제 생각할지와 무엇에 대해 생각할지를 모두 조정할 수 있는 추론 패러다임을 유도하는 적응형 CoT 주석으로 풍부하게 보강되었습니다. 또한 온라인 전문가 지도 강화학습 단계를 도입하여 모델이 순수 모방 학습을 넘어서 더욱 견고하고 자체 탐색된 내비게이션 행동을 습득할 수 있게 했습니다. 광범위한 실험을 통해 VLingNav가 다양한 구현형 내비게이션 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 특히, VLingNav는 제로샷 방식으로 실제 로봇 플랫폼에 전이되어 다양한 내비게이션 작업을 수행하며 강력한 크로스도메인 및 크로스태스크 일반화 능력을 보여줍니다.
사용자가 제공한 신원 정보를 기반으로 한 제어 가능한 비디오 캐릭터 교체는 짝을 이루는 비디오 데이터 부족으로 인해 여전히 어려운 과제로 남아 있습니다. 기존 연구들은 주로 프레임별 분할 마스크와 명시적 구조적 지도(예: 골격, 깊이)를 필요로 하는 재구성 기반 패러다임에 의존해왔습니다. 그러나 이러한 의존성은 가림, 캐릭터-객체 상호작용, 비정형적인 자세, 또는 어려운 조명 조건을 포함하는 복잡한 시나리오에서 일반화 성능을 심각하게 제한하며, 종종 시각적 아티팩트와 시간적 불일치를 초래합니다. 본 논문에서는 단일 임의 프레임 마스크만을 요구하여 이러한 한계를 우회하는 선도적인 프레임워크인 MoCha를 제안합니다. 다중 모드 입력 조건을 효과적으로 적용하고 얼굴 신원 정보를 향상시키기 위해 조건 인식 RoPE를 도입하고 RL 기반 사후 훈련 단계를 활용합니다. 더 나아가, 적합한 짝을 이루는 훈련 데이터의 부족 문제를 극복하기 위해 포괄적인 데이터 구축 파이프라인을 제안합니다. 구체적으로 Unreal Engine 5(UE5)로 구축된 고품질 렌더링 데이터셋, 현재의 초상화 애니메이션 기술로 합성된 표정 주도 데이터셋, 그리고 기존 비디오-마스크 쌍에서 파생된 증강 데이터셋이라는 세 가지 특화된 데이터셋을 설계합니다. 광범위한 실험을 통해 우리의 방법이 기존 최첨단 접근법을 크게 능가함을 입증합니다. 향후 연구를 촉진하기 위해 코드를 공개할 예정입니다. 자세한 내용은 프로젝트 페이지(orange-3dv-team.github.io/MoCha)를 참조하십시오.
대규모 언어 모델(LLM)의 추론 능력 향상은 주로 모델 생성 데이터를 활용한 반복적 자기 훈련에 의존해 왔습니다. 정확도 향상에는 효과적이지만, 기존 접근법은 주로 성공적인 추론 경로를 강화하여 상당한 보정 비용을 초래합니다. 즉, 모델이 과도하게 자신감을 갖게 되고 불확실성을 표현하는 능력을 상실합니다. 이러한 실패는 정렬 과정에서의 일종의 모델 붕괴로 특징지어지며, 예측 분포가 낮은 분산을 가진 점 추정치로 퇴화하게 됩니다. 우리는 이 문제를 인식론적 학습 문제로 재구성하여 모델이 추론 방법뿐만 아니라 언제 자신의 추론을 신뢰해야 하는지도 학습해야 한다는 관점으로 접근합니다. 우리는 추론 성능과 보정을 함께 최적화하는 훈련 목표로서 인식론적으로 보정된 추론(EpiCaR)을 제안하고, 명시적 자기 평가 신호를 사용하는 반복적 지도 미세 조정 프레임워크 내에서 이를 구현합니다. Llama-3 및 Qwen-3 모델군에 대한 실험 결과, 우리의 접근 방식이 특히 충분한 추론 능력을 가진 모델(예: 3B+)에서 정확도와 보정 측면 모두에서 표준 기준선 대비 파레토 우월성을 달성함을 보여줍니다. 이 프레임워크는 OOD 수학 추론(GSM8K) 및 코드 생성(MBPP)에도 효과적으로 일반화됩니다. 궁극적으로, 우리의 접근 방식은 추론 시 필요한 계산량을 3분의 1로 줄이는 동시에, 능력 있는 모델에서 K=10 샘플만으로 STaR의 K=30 성능에 맞출 수 있게 합니다.
검증 가능한 보상 강화 학습(RLVR)은 대규모 언어 모델의 추론을 위한 표준 패러다임으로 자리 잡았습니다. 그러나 최종 답변의 정확성만을 최적화하면 모델이 구조화된 계획 없이 무분별한 시행착오 전략에 의존하는 장황하고 방향성 없는 탐색에 빠지기 쉽습니다. 길이 제한과 같은 경험적 제약은 장황함을 줄일 수 있지만, 필수적인 추론 단계를 생략하게 하여 효율성과 검증 가능성 사이의 어려운 상충 관계를 만들어냅니다. 본 논문에서는 판별 능력이 효율적 생성의 전제 조건이라고 주장합니다. 즉, 모델이 유효한 해결책을 구별하는 법을 학습함으로써 탐색 공간을 정제하는 안내 신호를 내재화할 수 있습니다. 우리는 2단계 판단 후 생성 패러다임인 JudgeRLVR을 제안합니다. 첫 번째 단계에서는 모델이 검증 가능한 답변이 포함된 솔루션 응답을 판단하도록 학습시킵니다. 두 번째 단계에서는 판단 모델로 초기화된 기본 생성 RLVR을 사용하여 동일한 모델을 미세 조정합니다. 동일한 수학 도메인 훈련 데이터를 사용하는 기본 RLVR과 비교했을 때, JudgeRLVR은 Qwen3-30B-A3B 모델에서 더 나은 품질-효율성 균형을 달성했습니다: 동일 도메인 수학 문제에서는 평균 생성 길이를 42% 줄이면서 평균 정확도를 약 3.7점 향상시켰으며, 다른 도메인 벤치마크에서는 평균 정확도를 약 4.5점 향상시켜 향상된 일반화 능력을 입증했습니다.
이미지 생성 기술의 급속한 발전과 함께 자연어 명령어를 이용한 시각적 텍스트 편집이 점차 주목받고 있다. 이 과제의 주요 난제는 명령어와 참조 이미지를 완전히 이해하여 이미지와 스타일 일관성이 있는 시각적 텍스트를 생성하는 것이다. 기존 방법들은 주로 텍스트 내용과 글꼴 크기, 색상, 레이아웃 등의 속성을 지정하는 복잡한 단계를 수반하며, 참조 이미지와의 스타일 일관성을 고려하지 않는 경우가 많았다. 이를 해결하기 위해 본 논문에서는 자연어 명령어에 의한 맥락 이해와 시각적 텍스트 편집을 위한 통합 멀티모달 모델인 UM-Text를 제안한다. 구체적으로, 시각 언어 모델(VLM)을 도입하여 명령어와 참조 이미지를 처리함으로써 맥락 정보에 따라 텍스트 내용과 레이아웃을 정교하게 설계할 수 있도록 한다. 정확하고 조화로운 시각적 텍스트 이미지를 생성하기 위해 다양한 조건 정보의 임베딩을 결합하는 UM-인코더를 추가로 제안하며, 이 결합 방식은 VLM이 입력 명령어에 따라 자동으로 구성한다. 학습 과정에서는 잠재 공간과 RGB 공간 모두에서 글리프 생성에 더 효과적인 감독을 제공하기 위한 지역 일관성 손실을 제안하고, 모델 성능을 추가로 향상시키기 위해 맞춤형 3단계 학습 전략을 설계한다. 또한 모델 학습을 위해 다양한 장면의 대규모 시각적 텍스트 이미지 데이터셋인 UM-DATA-200K를 구축하였다. 여러 공개 벤치마크에서 수행한 포괄적인 정성 및 정량적 실험 결과, 우리 방법이 최첨단 성능을 달성함을 입증한다.
본 논문은 공간-시간적 통합 이해를 위한 통합 비디오 대규모 언어 모델(Video LLM)인 VideoLoom을 제안한다. 세밀한 공간 및 시간 위치 지정 능력 개발을 위해, 우리는 시간적으로 근거 있고 공간적으로 지역화된 캡션으로 구성된 인간 중심 비디오 데이터셋인 LoomData-8.7k를 구축하였다. 이를 통해 VideoLoom은 다양한 공간 및 시간 벤치마크에서 최첨단 또는 매우 경쟁력 있는 성능을 달성한다(예: 참조 비디오 객체 분할을 위한 ReVOS에서 63.1 J&F, 시간적 위치 지정을 위한 Charades-STA에서 48.3 R1@0.7). 또한, 우리는 시간적, 공간적, 구성적 비디오-질문 쌍으로 구성된 새로운 벤치마크인 LoomBench을 소개하며, 다양한 측면에서 Video LLM의 포괄적 평가를 가능하게 한다. 종합적으로, 이러한 기여들은 공간-시간적 비디오 이해를 위한 보편적이고 효과적인 도구 세트를 제공하며, 다중 모드 인텔리전스 분야에 새로운 기준을 제시한다.
텍스트-시각화(Text2Vis) 시스템은 표 형식의 데이터에 대한 자연어 질의를 간결한 답변과 실행 가능한 시각화로 변환합니다. 독점적인 대형 언어 모델(LLM)은 기능적인 코드를 생성하지만, 결과 차트는 종종 의미론적 정렬과 명확성이 부족한데, 이러한 품질은 실행 후에만 평가할 수 있습니다. 오픈소스 모델은 더욱 어려움을 겪으며, 실행 불가능하거나 시각적으로 열악한 출력을 빈번히 생성합니다. 지도 미세 조정은 코드 실행 가능성을 향상시킬 수 있지만, 기존의 지도 미세 조정 손실은 실행 후 피드백을 포착할 수 없어 전반적인 시각화 품질 향상에는 실패합니다. 이러한 격차를 해결하기 위해 우리는 Text2Vis 생성을 위한 최초의 강화 학습 프레임워크인 RL-Text2Vis를 제안합니다. Group Relative Policy Optimization(GRPO)을 기반으로 하는 우리의 방법은 실행 후 피드백을 사용하여 텍스트 정확도, 코드 유효성 및 시각화 품질을 공동으로 최적화하는 새로운 다중 목표 보상 함수를 활용합니다. Qwen2.5 모델(7B 및 14B)을 학습시킨 결과, RL-Text2Vis는 Text2Vis 벤치마크에서 GPT-4o 대비 차트 품질이 22% 상대적으로 향상되었으며, 제로샷 기준선 대비 코드 실행 성공률을 78%에서 97%로 끌어올렸습니다. 우리의 모델은 강력한 제로샷 및 지도 학습 기준선을 크게 능가하며, VIS-Eval 및 NVBench와 같은 외부 도메인 데이터셋에 대한 견고한 일반화 능력도 보여줍니다. 이러한 결과는 GRPO가 시각화 생성에서 구조화된 다중 모달 추론을 위한 효과적인 전략임을 입증합니다. 우리는 코드를 https://github.com/vis-nlp/RL-Text2Vis 에 공개합니다.
이산 운동 토큰화는 최근 대규모 언어 모델(LLM)이 운동 이해와 운동-언어 추론을 위한 다목적 백본으로 활용될 수 있게 했습니다. 그러나 기존 파이프라인은 일반적으로 운동 양자화와 의미 임베딩 학습을 분리하고, 토큰 ID를 통해서만 이들을 연결합니다. 이 접근법은 운동 공간의 내재적 기하구조를 임베딩 공간과 효과적으로 정렬하지 못하여 LLM의 세밀한 운동 추론 능력을 저해합니다. 우리는 두 양식이 통합된 기하학적 기반을 공유할 때 정렬이 가장 효과적이라고 주장합니다. 따라서 LLM이 운동 토큰 간의 복잡한 기하구조를 처음부터 재구성하도록 강제하는 대신, 우리는 운동 코드북과 LLM 임베딩 공간 양쪽에 명시적으로 직교성을 부과하여 그 관계적 구조가 자연스럽게 서로를 반영하도록 보장하는 새로운 프레임워크를 제시합니다. 구체적으로, 우리는 미분 가능한 학습과 균형 잡힌 코드북 사용을 위해 Gumbel-Softmax를 적용한 디코더 전용 양자화기를 사용합니다. 양식 간의 간극을 메우기 위해, 우리는 직교성을 보존하면서 운동 코드를 LLM 임베딩 공간으로 매핑하는 희소 투영을 사용합니다. 마지막으로, 두 단계의 정규직교 정규화 스케줄은 의미 적응을 방해하지 않으면서 기하학적 정렬을 유지하기 위해 토크나이저 학습과 LLM 미세 조정 동안 소프트 제약 조건을 적용합니다. HumanML3D에 대한 광범위한 실험을 통해 우리 프레임워크가 현재 최첨단 방법들보다 20%의 성능 향상을 달성함을 입증하여, 통합된 기하학적 기반이 LLM의 세밀한 운동 추론 능력을 효과적으로 강화한다는 점을 검증했습니다.
대규모 언어 모델(LLM)이 실제 팩트체킹 시스템에 점점 더 많이 배포되고 있지만, 기존 평가는 주로 주장 검증에 초점을 맞추고, 주장 추출 및 증거 수집을 포함한 더 넓은 팩트체킹 워크플로우를 간과해 왔습니다. 이러한 편향된 초점으로 인해 현재 벤치마크는 현대 LLM의 체계적 추론 실패, 사실적 맹점 및 강건성 한계를 드러내지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 완전한 팩트체킹 파이프라인 전반에 걸쳐 LLM의 포괄적이고 단계별 벤치마킹을 수행하는 완전 자동화된 아레나 스타일 평가 프레임워크인 FactArena을 제시합니다. FactArena은 세 가지 핵심 구성요소를 통합합니다: (i) 주장 분해, 도구 기반 상호작용을 통한 증거 수집, 근거 기반 판단 예측을 표준화하는 LLM 기반 팩트체킹 프로세스; (ii) 이질적인 판단 에이전트 간의 편향되지 않고 일관된 쌍별 비교를 보장하기 위해 통합 참조 가이드라인에 따라 진행되는 아레나 스타일 판단 메커니즘; (iii) 고정된 시드 데이터를 넘어 LLM의 사실적 강건성을 탐구하기 위해 더 도전적이고 의미론적으로 통제된 주장을 적응적으로 생성하는 아레나 기반 주장 진화 모듈. 7개 모델 패밀리에 걸친 16개의 최신 LLM을 대상으로 한 평가에서 FactArena은 안정적이고 해석 가능한 순위를 생성합니다. 우리의 분석은 정적 주장 검증 정확도와 종단간 팩트체킹 능력 사이에 상당한 차이가 있음을 추가로 밝혀내며, 전체론적 평가의 필요성을 강조합니다. 제안된 프레임워크는 LLM의 사실적 추론 진단, 향후 모델 개발 지도, 그리고 안전이 중요한 팩트체킹 애플리케이션에서 LLM의 신뢰할 수 있는 배포를 앞당기기 위한 확장 가능하고 신뢰할 수 있는 패러다임을 제공합니다.