시드댄스 2.0(Seedance 2.0)은 2026년 2월 초 중국에서 공식 출시된 새로운 네이티브 멀티모달 오디오-비디오 생성 모델입니다. 이전 버전인 시드댄스 1.0 및 1.5 프로와 비교하여, 시드댄스 2.0은 통합적이고 효율적이며 대규모 구조의 멀티모달 오디오-비디오 연합 생성 방식을 채택했습니다. 이를 통해 텍스트, 이미지, 오디오, 비디오라는 네 가지 입력 모달리티를 지원하며, 현재 업계에서 가장 포괄적인 멀티모달 콘텐츠 참조 및 편집 기능 세트를 통합했습니다. 이 모델은 비디오 및 오디오 생성의 모든 주요 하위 차원에서 전반적이고 상당한 향상을 제공합니다. 전문가 평가와 일반 사용자 테스트 모두에서 이 모델은 해당 분야 최고 수준에 버금가는 성능을 입증했습니다. 시드댄스 2.0은 4초에서 15초 길이의 오디오-비디오 콘텐츠를 직접 생성할 수 있으며, 네이티브 출력 해상도는 480p와 720p를 지원합니다. 참조용 멀티모달 입력의 경우, 현재 오픈 플랫폼은 최대 3개의 비디오 클립, 9개의 이미지, 3개의 오디오 클립을 지원합니다. 또한 저지연 시나리오를 위한 생성 속도 향상을 위해 설계된 시드댄스 2.0의 가속화 변형인 시드댄스 2.0 패스트 버전을 제공합니다. 시드댄스 2.0은 기본 생성 능력과 멀티모달 생성 성능을 크게 개선하여 최종 사용자에게 향상된 창작 경험을 선사합니다.
ByMingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
105
3
실세계 상호작용을 위한 구체화된 일반 지능체로 나아가는 과정에서, 멀티모달 대규모 언어 모델(MLLM) 에이전트는 여전히 높은 지연 시간, 희소한 피드백, 되돌릴 수 없는 실패와 같은 도전 과제에 직면해 있습니다. 비디오 게임은 풍부한 시각 관측과 폐루프 상호작용을 제공하며, 세밀한 인식, 장기적 계획 수립, 정밀한 제어를 요구하므로 이상적인 테스트베드 역할을 합니다. 그러나 이러한 능력을 체계적으로 평가하는 것은 현재 이기종 액션 인터페이스와 휴리스틱 검증 방식으로 인해 어려움을 겪고 있습니다. 이를 위해 우리는 브라우저 환경에서 MLLM을 일반적인 게임 에이전트로 표준화되고 검증 가능하게 평가하기 위해 설계된 벤치마크인 GameWorld를 소개합니다. 두 가지 게임 에이전트 인터페이스를 연구했습니다: (i) 키보드와 마우스 제어를 직접 출력하는 컴퓨터 사용 에이전트, (ii) 결정론적 의미론적 액션 파싱을 통해 의미론적 액션 공간에서 행동하는 일반 멀티모달 에이전트. GameWorld는 34개의 다양한 게임과 170개의 과제를 포함하며, 각 과제는 결과 기반 평가를 위한 상태 검증 가능 지표와 쌍을 이룹니다. 18개의 모델-인터페이스 쌍에 대한 결과는 최고 성능의 에이전트조차도 비디오 게임에서 인간의 능력을 달성하는 것과는 거리가 멀다는 것을 시사합니다. 반복된 전체 벤치마크 재실행을 통한 광범위한 실험은 벤치마크의 견고함을 입증하는 한편, 실시간 상호작용, 컨텍스트-메모리 민감도, 액션 유효성에 대한 추가 연구는 게임 에이전트를 위한 더 많은 도전 과제를 드러냅니다. 종합적으로, 표준화되고 검증 가능하며 재현 가능한 평가 프레임워크를 제공함으로써 GameWorld는 멀티모달 게임 에이전트 및 그 이상의 연구 발전을 위한 견고한 기반을 마련합니다. 프로젝트 페이지는 https://gameworld-bench.github.io 에서 확인할 수 있습니다.
시각 생성 분야의 대부분의 보상 모델은 풍부한 인간의 판단을 단일한 설명 없는 점수로 축소하여 선호도 뒤에 있는 논리를 버립니다. 우리는 보상 모델이 점수를 매기기 전에 명시적이고 다차원적인 비판을 생성하도록 가르치면, 이를 수동적인 평가자에서 능동적인 최적화 도구로 변환하여 생성기를 두 가지 상호 보완적인 방식으로 개선할 수 있음을 보여줍니다: 훈련 시에는 구조화된 근거가 강화 학습을 위한 해석 가능하고 세분화된 보상을 제공하며, 테스트 시에는 '생성-비판-수정' 루프가 비판을 대상 명령어 수정으로 전환하여 매개변수 업데이트 없이 출력을 개선합니다. 이러한 보상 모델을 비용이 많이 드는 근거 주석 없이 훈련시키기 위해, 우리는 앵커 생성, 일관성 필터링 및 증류를 통해 기존에 쉽게 이용 가능한 선호도 데이터로부터 고품질 근거를 복원하는 원칙적인 프레임워크인 Preference-Anchored Rationalization (PARROT)을 소개합니다. 그 결과물인 RationalRewards (8B) 모델은 오픈소스 보상 모델 중에서 최첨단 선호도 예측 성능을 달성하며, 유사한 기준 모델보다 10-20배 적은 훈련 데이터를 사용하면서 Gemini-2.5-Pro에 버금가는 성능을 보입니다. RL 보상으로 사용될 때, 이 모델은 텍스트-이미지 및 이미지 편집 생성기를 스칼라 대안들보다 지속적으로 개선합니다. 가장 놀라운 점은, 테스트 단계의 비판-수정 루프가 여러 벤치마크에서 RL 기반 미세 조정을 능가하거나 그에 버금가는 성능을 보여준다는 것입니다. 이는 구조화된 추론이 최적이 아닌 명령어가 이끌어내지 못하는 기존 생성기의 잠재 능력을 해제할 수 있음을 시사합니다.
3차원 장면에 대한 공간 추론은 구현형 인텔리전스의 핵심 능력이지만, 지속적인 모델 개선은 기하학적 주석 비용으로 인해 병목 현상을 겪고 있습니다. 자기 진화 패러다임은 유망한 방향을 제시하지만, 모델 간 합의를 통해 의사 레이블을 구성하는 방식은 훈련 과정에서 모델의 기하학적 오류를 수정하기보다 강화하는 문제가 있습니다. 본 연구는 이러한 한계를 극복할 수 있는 3D 공간 추론만의 독특한 특성을 확인했습니다. 바로 실측 정답이 기본 기하학의 결정론적 결과물로서, 모델 개입 없이 점군과 카메라 포즈로부터 정확하게 계산 가능하다는 점입니다. 이러한 통찰을 바탕으로 우리는 Deterministic Geometric Environment(DGE)를 중심으로 한 3D 공간 추론용 자기 진화 프레임워크인 SpatialEvo를 제시합니다. DGE는 16가지 공간 추론 작업 범주를 명시적인 기하학적 검증 규칙 하에 체계화하고, 주석이 달리지 않은 3D 장면을 잡음이 전혀 없는 상호작용 오라클로 변환하여 모델 합의를 객관적인 물리적 피드백으로 대체합니다. 단일 공유 매개변수 정책이 DGE 제약 하에 질문자와 해결자 역할을 동시에 수행하며 공진화합니다. 질문자는 장면 관측에 기반하여 물리적으로 타당한 공간 질문을 생성하고, 해결자는 DGE가 검증한 실측 정답을 기준으로 정확한 답을 도출합니다. 작업 적응형 스케줄러는 모델의 가장 약한 범주에 훈련을 내생적으로 집중시켜 수동 설계 없이도 동적 교육 과정을 생성합니다. 9개 벤치마크에 대한 실험 결과, SpatialEvo는 3B 및 7B 규모 모두에서 최고의 평균 점수를 달성했으며, 공간 추론 벤치마크에서 일관된 향상을 보였고 일반적인 시각 이해 작업에서는 성능 저하가 없었습니다.
ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1
AI 에이전트는 수백 개의 직업 영역(응급실 환자 분류부터 원자로 안전 모니터링, 관세 신고 처리까지)에서 전문 업무를 수행할 것으로 기대되지만, 기존 벤치마크는 공개 환경이 존재하는 소수 영역에서만 에이전트를 평가할 수 있습니다. 우리는 언어 세계 모델(LWM)을 통해 LLM 기반 도구 응답 생성으로 도메인 특화 환경을 시뮬레이션하여, 10개 산업 범주와 65개 전문 분야에 걸친 100개의 실제 전문 작업 시나리오를 포괄하는 벤치마크인 OccuBench을 소개합니다. 우리의 다중 에이전트 합성 파이프라인은 해결 가능성 보장, 조정된 난이도, 문서 기반 다양성을 갖춘 평가 인스턴스를 자동으로 생성합니다. OccuBench은 두 가지 상호 보완적인 차원에서 에이전트를 평가합니다: 전문 분야별 작업 완수도와 통제된 오류 주입(명시적 오류, 암묵적 데이터 열화, 복합 오류) 하의 환경 견고성입니다. 우리는 8개 모델 패밀리의 15개 최신 모델을 평가하여 다음과 같은 사실을 발견했습니다: (1) 단일 모델이 모든 산업을 지배하지 않으며, 각 모델마다 고유한 직무 역량 프로필을 보유합니다; (2) 암묵적 오류(잘림 데이터, 누락 필드)는 명시적 오류(시간 초과, 500 오류) 및 복합 오류보다 어렵습니다. 이는 명확한 오류 신호가 부족하고 에이전트가 데이터 열화를 독자적으로 탐지해야 하기 때문입니다; (3) 더 큰 모델, 최신 세대, 높은 추론 노력은 일관되게 성능을 향상시킵니다. GPT-5.2는 최소 추론 노력 대비 최대 추론 노력 시 27.5점이 향상됩니다; (4) 강력한 에이전트가 반드시 강력한 환경 시뮬레이터는 아닙니다. 시뮬레이터 품질은 LWM 기반 평가 신뢰성에 중요합니다. OccuBench은 전문 직무 작업에 대한 AI 에이전트의 첫 번째 체계적인 크로스-인더스트리 평가를 제공합니다.
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1
검증 가능한 보상을 활용한 강화 학습(RLVR)은 조건부 분포 P(y|x)를 최적화하여 LLM 추론을 크게 향상시키지만, 그 잠재력은 기본 모델의 기존 출력 분포에 의해 근본적으로 제한됩니다. 한계 분포 P(y)를 사전 학습 공간에서 최적화하는 접근법은 추론 능력을 인코딩하고 광범위한 탐색 능력을 보존함으로써 이러한 병목 현상을 해결합니다. 그러나 기존의 사전 학습은 정적 코퍼스에 의존한 수동적 학습으로 인해 분포 변화가 발생하며, 이는 표적 추론 향상을 저해합니다. 본 논문에서는 보상 주도 온라인 업데이트를 P(y)에 직접 적용하는 PreRL(사전 학습 공간 강화 학습)을 소개합니다. 우리는 log P(y)와 log P(y|x) 간의 강력한 그래디언트 정렬을 이론 및 실증적으로 입증하여 PreRL이 표준 강화 학습의 실질적 대안이 될 수 있음을 확인했습니다. 더 나아가, PreRL 내부의 부정 샘플 강화(NSR) 메커니즘이 추론 향상의 매우 효과적인 동인으로 작용함을 발견했습니다. NSR-PreRL은 잘못된 추론 공간을 신속히 제거하면서 내생적 성찰 행동을 촉진하여 전환 사고와 반성 사고를 각각 14.89배, 6.54배 증가시켰습니다. 이러한 통찰을 바탕으로, 정교한 최적화를 위한 표준 강화 학습으로 전환하기 전에 NSR-PreRL로 모델을 초기화하여 추론 지평을 확장하는 정책 재탄생 전략인 이중 공간 강화 학습(DSRL)을 제안합니다. 광범위한 실험을 통해 DSRL이 강력한 베이스라인을 지속적으로 능가함을 입증하였으며, 사전 학습 공간 정제가 정책을 세련된 정확한 추론 부분 공간으로 효과적으로 유도함을 증명했습니다.
ByKangsan Kim, Minki Kang, Taeil Kim, Yanlai Yang, Mengye Ren, Sung Ju Hwang
23
1
메모리 기반 자기 진화는 코딩 에이전트를 위한 유망한 패러다임으로 부상하고 있습니다. 그러나 기존 접근법들은 일반적으로 동종 작업 영역으로 메모리 활용을 제한하여, 다양한 실제 코딩 문제들 간에 존재하는 런타임 환경 및 프로그래밍 언어와 같은 공유 인프라 기반을 활용하지 못하고 있습니다. 이러한 한계를 해결하기 위해 우리는 이종 도메인들로부터 통합 메모리 풀을 활용한 메모리 전이 학습(MTL)을 연구합니다. 우리는 구체적인 실행 흔적부터 추상적인 통찰력까지 네 가지 메모리 표현을 사용하여 6개의 코딩 벤치마크에서 성능을 평가합니다. 우리의 실험은 교차 도메인 메모리가 검증 루틴과 같은 메타 지식을 전이함으로써 평균 성능을 3.7% 향상시킨다는 것을 보여줍니다. 중요한 것은, 추상화 수준이 전이 가능성을 결정한다는 점입니다. 높은 수준의 통찰력은 잘 일반화되는 반면, 낮은 수준의 실행 흔적은 지나친 구체성으로 인해 부정적 전이를 유발하는 경우가 많습니다. 더 나아가, 전이 효과는 메모리 풀의 크기에 따라 확장되며, 서로 다른 모델 간에도 메모리를 전이할 수 있음을 보여줍니다. 우리의 연구는 단일 도메인 실루에 머물렀던 메모리 활용을 확장하기 위한 경험적 설계 원칙을 수립합니다. 프로젝트 페이지: https://memorytransfer.github.io/
ByJaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
21
2
언어 모델(LM) 에이전트는 AI 코딩부터 물리적 AI에 이르기까지 복잡한 개방형 의사 결정 작업에 점점 더 많이 활용되고 있습니다. 이러한 환경에서 핵심 요구 사항은 문제 공간을 탐색하고 습득한 지식을 효과적으로 활용하는 능력입니다. 그러나 에이전트의 내부 정책에 접근하지 않고 관찰된 행동으로부터 탐색과 활용을 체계적으로 구분하고 정량화하는 것은 여전히 어려운 과제입니다. 이를 해결하기 위해 우리는 실용적인 구체화된 AI 시나리오에서 영감을 받은 제어 가능한 환경을 설계했습니다. 각 환경은 부분적으로 관찰 가능한 2D 그리드 맵과 알려지지 않은 작업 방향성 비순환 그래프(DAG)로 구성됩니다. 맵 생성은 탐색 또는 활용 난이도를 강조하도록 프로그램 방식으로 조정할 수 있습니다. 정책 독립적인 평가를 가능하게 하기 위해, 우리는 에이전트의 행동으로부터 탐색 및 활용 오류를 정량화하는 지표를 설계했습니다. 다양한 최첨단 LM 에이전트를 평가한 결과, 심지어 최신 모델들도 우리의 작업에 어려움을 겪으며, 서로 다른 모델이 뚜렷한 실패 모드를 보이는 것을 확인했습니다. 또한 추론 모델이 작업을 더 효과적으로 해결하며, 최소한의 하네스 엔지니어링을 통해 탐색과 활용이 모두 크게 개선될 수 있음을 관찰했습니다. 우리는 코드를 https://github.com/jjj-madison/measurable-explore-exploit 에 공개합니다.
강화 학습에서 주어진 프롬프트에 대해 모델로부터 여러 개의 완성문을 샘플링하고 점수를 매깁니다. 이어지는 두 가지 질문은 다음과 같습니다: 어떤 완성문이 확률 질량을 획득해야 하는지, 그리고 그 변화를 실현하기 위해 매개변수는 어떻게 이동해야 하는지입니다. 표준 정책 경사 방법은 두 질문을 동시에 답하므로, 학습률, 클리핑 및 기타 옵티마이저 선택에 따라 업데이트가 과도하거나 부족할 수 있습니다. 우리는 두 질문을 분리하는 Target Policy Optimization(TPO)을 소개합니다. 점수가 매겨진 완성문이 주어지면, TPO는 대상 분포 q_i ∝ p_i^{,old} exp(u_i)를 구성하고 교차 엔트로피를 통해 정책을 이에 맞춥니다. 샘플링된 완성문 로짓에 대한 손실 기울기는 p^θ - q이며, 정책이 대상과 일치하면 사라집니다. 표 형식의 밴딧 문제, 변환기 시퀀스 작업, 그리고 수십억 개의 매개변수를 가진 LLM RLVR에서 TPO는 쉬운 작업에서는 PG, PPO, GRPO, DG와 성능이 비슷하지만, 희소 보상 조건에서는 이들 방법을 크게 능가합니다. 코드는 https://github.com/JeanKaddour/tpo에서 확인할 수 있습니다.
ByHuacan Wang, Jie Zhou, Ningyan Zhu, Shuo Zhang, Feiyu Chen, Jiarou Wu, Ge Chen, Chen Liu, Wangyi Chen, Xiaofeng Mou, Yi Xu
18
1
AI 코딩 에이전트는 개발자 워크플로우의 중심이 되었지만, 기존 모든 솔루션은 CLI, IDE 플러그인, 웹 애플리케이션 등 특정 전달 형태에 추론 기능을 고정시켜왔습니다. 이러한 한계는 기업이 이기종 엔지니어링 환경에서 해당 기능을 재사용하려고 시도할 때 시스템적 장벽을 생성합니다. 이 문제를 해결하기 위해 우리는 임베디드, 플러그 가능, 프레임워크 퍼스트 원칙에 기반한 오픈 AI 코딩 프레임워크인 Sema Code를 제시합니다. Sema Code는 코어 에이전트 엔진을 모든 클라이언트 계층으로부터 완전히 분리하여 어떠한 런타임에서도 프로그래밍 방식으로 구동할 수 있는 독립형 npm 라이브러리로 공개합니다. 이 아키텍처를 기반으로 우리는 8가지 핵심 메커니즘을 설계했습니다: 다중 테넌트 엔진 격리, 안전한 세션 재구성을 지원하는 FIFO 입력 큐잉, 적응형 컨텍스트 압축, 다중 에이전트 협업 스케줄링, 지능형 Todo 기반 프로세스 관리, 4계층 비동기 권한 제어, MCP, Skills, Plugins를 아우르는 3계층 생태계 통합, 그리고 실행과 관찰 권한이 분리된 백그라운드 태스크 프레임워크입니다. 이러한 메커니즘들은 복잡한 에이전트 엔진을 공유 가능하고 프로그래밍 가능한 코어로 변환하는 엔지니어링 과제를 종합적으로 해결합니다. 동일한 Sema Core 엔진이 VSCode 확장 프로그램과 Telegram 및 Feishu와 같은 플랫폼 간 에이전트 상호작용을 통합하는 다중 채널 메시징 게이트웨이(SemaClaw로 명명)를 동시에 구동하는 것은 그 아키텍처 다양성을 입증합니다. 이들은 동일한 추론 커널을 공유하되 클라이언트 계층에서만 차이가 나는 근본적으로 다른 두 가지 제품 형태를 대표합니다.
ByNingyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
15
1
2026년 초 OpenClaw의 부상은 수백만 사용자가 여행 계획부터 다단계 연구에 이르기까지 다양한 업무를 위임하며 개인 AI 에이전트를 일상에 본격적으로 도입하기 시작한 전환점을 의미합니다. 이러한 규모의 채택은 두 가지 병행 발전 궤적이 변곡점에 도달했음을 시사합니다. 첫째는 AI 엔지니어링의 패러다임 전환으로, 단순한 프롬프트 및 컨텍스트 엔지니어링에서 무제한 에이전트를 제어 가능하고 감사 가능하며 프로덕션 신뢰성이 높은 시스템으로 전환하는 데 필요한 완전한 인프라를 설계하는 '하네스 엔지니어링'으로 진화하고 있습니다. 모델 역량이 수렴됨에 따라 이 하네스 계층이 아키텍처 차별화의 주요 영역이 되고 있습니다. 둘째는 인간-에이전트 상호작용이 개별 작업에서 지속적이고 컨텍스트를 인지하는 협력 관계로 진화하는 것이며, 이는 개방적이고 신뢰할 수 있으며 확장 가능한 하네스 인프라를 요구합니다. 본 논문은 하네스 엔지니어링을 통해 범용 개인 AI 에이전트로 나아가는 한 걸음으로 이러한 변화를 해결하는 오픈소스 다중 에이전트 애플리케이션 프레임워크인 SemaClaw를 소개합니다. 우리의 주요 기여점으로는 DAG 기반의 2단계 하이브리드 에이전트 팀 오케스트레이션 방법, PermissionBridge 행동 안전 시스템, 3계층 컨텍스트 관리 아키텍처, 그리고 자동화된 개인 지식 베이스 구축을 위한 에이전틱 위키 스킬이 포함됩니다.
피드-포워드(feed-forward) 3D 복원 모델은 효율적이지만 경직되어 있습니다: 일단 훈련되면 제로-샷(zero-shot) 방식으로 추론을 수행하며 테스트 장면에 적응할 수 없습니다. 그 결과, 시각적으로 그럴듯한 복원 결과에도 특히 폐색, 경면 반사, 모호한 단서 상황에서 오류가 포함되는 경우가 많습니다. 이를 해결하기 위해 우리는 피드-포워드 3D 복원 모델이 3D 실측 데이터 없이도 테스트 시간에 자기 진화(self-evolve)할 수 있도록 하는 프레임워크인 Free Geometry를 소개합니다. 우리의 핵심 통찰은 모델이 더 많은 시점을 수신할수록 더 신뢰할 수 있고 시점 일관성 있는(view-consistent) 복원 결과를 생성한다는 것입니다. 이 특성을 활용하여, 주어진 테스트 시퀀스에서 프레임의 부분 집합을 마스킹하여 자기-지도(self-supervised) 작업을 구성합니다. Free Geometry는 전체 관측과 부분 관측에서 얻은 표현 간의 교차-시점 특징 일관성(cross-view feature consistency)을 강화하면서, 생략된(hidden-out) 프레임들이 함의하는 쌍별 관계(pairwise relations)를 유지합니다. 이 자기-지도 학습을 통해 경량 LoRA 업데이트를 통한 빠른 재조정(recalibration)이 가능하며, 단일 GPU에서 데이터셋당 2분 미만이 소요됩니다. 우리의 접근 방식은 Depth Anything 3 및 VGGT를 포함한 최첨단 파운데이션 모델(foundation model)들을 4개의 벤치마크 데이터셋에서 일관되게 개선하며, 카메라 포즈 정확도에서는 평균 3.73%, 포인트 맵 예측에서는 평균 2.88%의 향상을 가져옵니다. 코드는 https://github.com/hiteacherIamhumble/Free-Geometry 에서 이용 가능합니다.
ByYuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu
11
1
연속 확산은 이미지와 같은 다양한 데이터 양식에서 고품질, 제어 가능하며 적은 단계의 생성을 위한 기반이 되어왔습니다. 그러나 언어 모델링 분야에서는 데이터 공간의 희소성과 미흡하게 탐구된 설계 공간으로 인해 기존 연속 확산 언어 모델(DLM)이 이산 확산 모델에 뒤처져 왔습니다. 본 연구에서는 Bregman 발산을 통해 임베딩 공간 DLM을 Flow Matching에 연결하고 세 가지 핵심 혁신을 통해 이러한 격차를 해소하는 최초의 연속 DLM인 LangFlow를 제안합니다: (1) 연속 흐름 기반 언어 모델의 원칙적인 평가를 위한 새로운 ODE 기반 NLL 하한을 유도합니다; (2) 정보 균일 원칙에 기반한 노이즈 스케줄 설정 방법을 제안하며, 이는 Gumbel 분포 기반의 학습 가능한 노이즈 스케줄러로 이어집니다; (3) 자기 조건화를 통합하여 기존 훈련 프로토콜을 개선하며, 이산 확산과는 상당히 다른 효과로 임베딩 공간 DLM의 가능도와 샘플 품질을 모두 향상시킵니다. 이를 종합한 LangFlow는 LM1B에서 30.0, OpenWebText에서 24.6의 PPL을 기록하여 복잡도(PPL)와 생성 복잡도(Gen. PPL) 모두에서 최고 수준의 이산 DLM과 대등한 성능을 보입니다. 또한 7개 벤치마크 중 4개에서 제로샷 전이 평가 시 자기회귀 기반 모델을 능가합니다. LangFlow는 연속 확산이 언어 모델링에 유망한 패러다임임을 입증하는 첫 명확한 증거를 제시합니다. 홈페이지: https://github.com/nealchen2003/LangFlow
온-정책 지식 증류(OPD)는 교사 모델의 토큰 수준 감독 하에 학생 모델을 자신의 롤아웃 데이터로 학습시킵니다. 모든 토큰 위치가 동등하게 중요하지는 않지만, 기존의 토큰 중요도에 대한 관점은 불완전합니다. 우리는 다음과 같은 직접적인 질문을 던집니다: OPD에서 가장 유용한 학습 신호를 전달하는 토큰은 무엇인가? 우리의 답은 정보성 높은 토큰이 두 가지 영역에서 나온다는 것입니다: 학생 모델의 엔트로피가 높은 위치, 그리고 학생 모델의 엔트로피가 낮으면서 교사-학생 모델 간 발산도가 높은 위치(즉, 학생 모델이 과도하게 확신하면서 틀리는 경우)입니다.
실험적으로, 학생 모델의 엔트로피는 강력한 1차 근사치입니다: 엔트로피 기반 샘플링으로 상위 50% 토큰만 유지했을 때 전체 토큰 학습 성능을 맞추거나 넘어섰으며, 최대 메모리 사용량을 47%까지 줄였습니다. 그러나 엔트로피만으로는 두 번째 중요한 영역을 놓칭니다. 낮은 엔트로피와 높은 발산도를 동시에 보이는 토큰만 분리하여 학습할 경우, 전체 토큰의 10% 미만으로도 전체 토큰 기준선에 근접하는 성능을 보여, 과신 토큰이 엔트로피 단일 규칙에서는 거의 보이지 않더라도 매우 집약된 수정 신호를 운반함을 입증했습니다.
우리는 이러한 발견을 TIP(온-정책 증류에서의 토큰 중요도)라는 학생 엔트로피와 교사-학생 발산도라는 두 축을 가진 분류 체계로 체계화하고, 엔트로피가 유용하지만 구조적으로 불완전한 이유에 대한 이론적 설명을 제시합니다. 이 관점은 불확실성과 불일치를 결합한 유형 인식 토큰 선택 규칙의 동기가 됩니다. 우리는 이 관점을 Qwen3, Llama, Qwen2.5를 아우르는 세 가지 교사-학생 모델 쌍과 MATH-500, AIME 2024/2025 데이터셋, 그리고 장기 행동 계획을 위한 DeepPlanning 벤치마크에서 검증했습니다. 특히 DeepPlanning에서는 전체 토큰의 20% 미만에 대한 Q3 전용 학습이 전체 토큰 OPD를 능가했습니다. 우리의 실험은 OPD 저장소(https://github.com/HJSang/OPSD_OnPolicyDistillation)를 확장하여 구현되었으며, 이 저장소는 제한된 GPU 예산 하에서 더 큰 모델의 메모리 효율적 증류를 지원합니다.
자연어 질의가 주어진 스크린샷에서 인터페이스 요소를 찾아내는 GUI 그라운딩은 작은 아이콘과 조밀한 레이아웃에서 여전히 어려운 과제입니다. 테스트 타임 확대 방법은 영역을 자르고 더 높은 해상도로 추론을 재수행하여 위치 정확도를 향상시키지만, 모든 인스턴스에 고정된 자르기 크기로 균일하게 적용하여 모델이 각 경우에 실제로 불확실한지를 무시합니다. 우리는 확대 트리거와 규모를 모두 예측 불확실성 정량화 문제로 취급하는 학습이 필요 없는 적응형 확대 프레임워크인 UI-Zoomer를 제안합니다. 신뢰도 인식 게이트는 확률적 후보들 간의 공간적 일치성과 토큰 수준 생성 신뢰도를 융합하여 위치 추정이 불확실할 때만 선택적으로 확대를 트리거합니다. 트리거되면 불확실성 기반 자르기 크기 조정 모듈이 예측 분산을 샘플 간 위치 분포와 샘플 내 바운딩 박스 범위로 분해하여 총분산 법칙을 통해 인스턴스별 자르기 반경을 도출합니다. ScreenSpot-Pro, UI-Vision, ScreenSpot-v2에 대한 광범위한 실험을 통해 여러 모델 아키텍처에서 강력한 베이스라인 대비 각각 최대 +13.4%, +10.3%, +4.2%의 성능 향상을 달성하며 일관된 개선을 입증했으며, 추가 학습이 필요하지 않습니다.
ByZerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li
9
1
대규모 언어 모델(LLM)이 AI 연구 에이전트가 개별 과학적 과제를 수행할 수 있도록 지원하고 있지만, LLM 훈련과 같은 복잡한 실제 업무 흐름의 자동화는 여전히 큰 과제로 남아 있습니다. 본 논문에서는 LLM 훈련 전 주기를 자동화하는 다중 에이전트 시스템인 TREX를 소개합니다. 연구자(Researcher)와 실행자(Executor)라는 두 가지 핵심 모듈 간의 협업을 조정함으로써, 본 시스템은 요구 사항 분석, 오픈 도메인 문헌 및 데이터 연구, 훈련 전략 수립, 데이터 레시피 준비, 모델 훈련 및 평가를 원활하게 수행합니다. 다중 실험 프로세스는 탐색 트리로 모델링되어, 시스템이 탐색 경로를 효율적으로 계획하고 역사적 결과를 재사용하며 반복적 시행으로부터 높은 수준의 통찰력을 도출할 수 있게 합니다. 자동화된 LLM 훈련 능력을 평가하기 위해, 기본 모델 능력 최적화부터 도메인 특화 과제 성능 향상에 이르기까지 실제 시나리오에서 도출된 10개 과제로 구성된 FT-Bench 벤치마크를 구축했습니다. 실험 결과는 TREX 에이전트가 목표 과제에서 모델 성능을 지속적으로 최적화함을 입증합니다.
물리적 타당성을 갖춘 비강체 객체 재구성은 여전히 중요한 과제로 남아 있습니다. 기존 방법들은 미분 가능 렌더링을 활용한 장면별 최적화를 통해 기하학적 구조와 역학을 복원하지만, 높은 수준의 튜닝이나 수동 주석이 필요하여 실용성과 일반화가 제한됩니다. 이를 해결하기 위해 우리는 단일 단안 비디오에서 물리적 속성 추정과 3D 가우시안 스플래팅 재구성을 함께 학습하는 최초의 순전파 프레임워크인 ReconPhys를 제안합니다. 우리의 방법은 실제 물리 레이블 없이 자가 지도 학습 전략으로 훈련된 이중 분기 구조를 채택합니다. 비디오 시퀀스가 주어지면 ReconPhys는 기하학, 외관 및 물리적 속성을 동시에 추론합니다. 대규모 합성 데이터셋에서의 실험 결과, 우리 방법이 미래 예측에서 최첨단 최적화 기준 방법의 13.27 PSNR에 비해 21.64 PSNR을 달성했으며, Chamfer Distance를 0.349에서 0.004로 크게 감소시키는 우수한 성능을 입증했습니다. 무엇보다도 ReconPhys는 기존 방법이 수 시간 소요되는 것과 비교해 빠른 추론(1초 미만)이 가능하여 로보틱스 및 그래픽스 분야에서 시뮬레이션 준비 자산의 신속한 생성을 가능하게 합니다.
ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1
불완전하게 명시되고 다중 도약(multi-hop) 특성을 지닌 검색 쿼리와 실제 웹 검색 결과의 다중 양식(multimodal), 이질적, 그리고 종종 상충하는 특성에 동기를 부여받아, 우리는 검색 강화 에이전트 평가를 위한 인간 주석 벤치마크인 MERRIN(Noisy Web Environments에서의 다중 양식 증거 검색 및 추론)을 소개한다. MERRIN은 AI 에이전트가 관련 양식을 식별하고, 다중 양식 증거를 검색하며, 노이즈가 많은 웹 소스에 대해 다중 도약 추론을 수행하는 능력을 측정한다. 이는 세 가지 중요한 측면에서 기존 연구와 차별된다: (1) 명시적 양식 단서 없이 자연어 쿼리를 사용, (2) 비디오 및 오디오와 같이 상대적으로 덜 탐구된 양식을 포함, (3) 웹 검색 중 복잡하고 종종 노이즈가 많거나 상충하는 다중 양식 증거의 검색을 요구. 우리는 강력한 클로즈드 소스 모델(GPT-5.4-mini, Gemini 3/3.1 Flash/Pro 등)과 오픈 웨이트 모델(Qwen3-4B/30B/235B)을 포함한 10개 모델로 구동되는 다양한 검색 에이전트를 세 가지 검색 설정(검색 없음, 기본 검색, 에이전트 검색)에서 평가했다. 우리의 결과는 MERRIN이 매우 도전적임을 보여준다: 모든 에이전트의 평균 정확도는 22.3%에 불과하며, 최고 성능 에이전트도 40.1%에 그친다. 우리는 Gemini Deep Research와 같은 강력한 에이전트가 더 높은 성능을 달성하지만, 과도한 탐색으로 인해 향상 폭이 제한적임을 추가로 관찰했다; 이러한 에이전트는 더 많은 단계를 거치고 더 많은 도구를 사용하지만, 종종 상충하거나 부분적으로 관련된 웹 콘텐츠에 주의가 분산되어 잘못된 답변을 내놓는다. 인간과 비교했을 때, 이러한 에이전트는 더 많은 리소스를 소비하면서도 정확도는 낮은데, 이는 비효율적인 소스 선택과 텍스트 양식에 대한 지나친 의존이 주요 원인이다. 이러한 발견은 노이즈가 많은 웹 환경에서 다양한 양식에 걸쳐 강건한 검색과 추론이 가능한 검색 에이전트의 필요성을 강조하며, MERRIN이 그러한 능력을 평가하는 데 유용한 테스트베드가 되게 한다.
ByTarik Can Ozden, Sachidanand VS, Furkan Horoz, Ozgur Kara, Junho Kim, James Matthew Rehg
5
1
우리는 논문-슬라이드 생성을 구조화된 서사 재구성 작업으로 공식화하는 다중 에이전트 프레임워크인 ArcDeck을 소개한다. 기존 방법들이 원본 텍스트를 슬라이드로 직접 요약하는 것과 달리, ArcDeck은 소스 논문의 논리적 흐름을 명시적으로 모델링한다. 먼저 입력을 파싱하여 담화 트리를 구축하고 글로벌 커밋먼트 문서를 생성함으로써 상위 수준의 의도가 보존되도록 한다. 이러한 구조적 사전 정보는 반복적인 다중 에이전트 정제 과정을 안내하며, 특화된 에이전트들이 최종 시각적 레이아웃과 디자인을 렌더링하기 전에 프레젠테이션 개요를 반복적으로 비평하고 수정한다. 우리의 접근법을 평가하기 위해 새롭게 구축된 학술 논문-슬라이드 쌍 벤치마크인 ArcBench도 함께 소개한다. 실험 결과, 명시적 담화 모델링과 역할 기반 에이전트 조정이 결합되었을 때 생성된 프레젠테이션의 서사 흐름과 논리적 일관성이 현저히 향상됨을 확인하였다.
현재 검증 가능한 환경의 사후 훈련 방법은 크게 두 가지 범주로 나뉩니다. 강화 학습(RLVR)은 널리 적용 가능하고 강력한 이진 보상을 활용하지만, 훈련 중에 희소한 지도만 제공합니다. 증류는 일반적으로 외부 교사 모델이나 고품질 데모에서 얻은 조밀한 토큰 수준 지도를 제공합니다. 그러나 이러한 지도를 수집하는 데는 비용이 많이 들거나 불가능할 수 있습니다. 본 논문은 RL보다 훈련 샘플 효율성이 현저히 높으며 외부 교사나 고품질 데모가 필요 없는 Self-Distillation Zero(SD-Zero) 방법을 제안합니다. SD-Zero는 단일 모델이 두 가지 역할(초기 응답을 생성하는 생성기와 해당 응답과 이진 보상을 조건으로 하여 개선된 응답을 생성하는 수정자)을 수행하도록 훈련합니다. 그런 다음 온-폴리시 자기 증류를 수행하여 생성기의 응답과 그 보상을 조건으로 한 수정자의 토큰 분포를 지도 신호로 사용해 수정자를 생성기에 증류합니다. 결과적으로 SD-Zero는 이진 보상을 조밀한 토큰 수준 자기 지도로 변환하도록 모델을 훈련시킵니다. Qwen3-4B-Instruct 및 Olmo-3-7B-Instruct를 사용한 수학 및 코드 추론 벤치마크에서 SD-Zero는 기본 모델 대비 최소 10% 이상의 성능 향상을 보였으며, 동일한 질문 세트와 훈련 샘플 예산 하에서 Rejection Fine-Tuning(RFT), GRPO, Self-Distillation Fine-Tuning(SDFT) 등의 강력한 베이스라인을 능가했습니다. 폭넓은 애블레이션 연구를 통해 제안 알고리즘의 두 가지 새로운 특성, 즉 (a) 보상을 바탕으로 생성기 응답에서 수정이 필요한 핵심 토큰을 수정자가 식별할 수 있는 토큰 수준 자기 지역화와 (b) 답안 수정 능력의 개선이 정기적인 교사 동기화를 통해 생성 성능으로 증류되는 반복적 자기 진화를 확인했습니다.
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan
4
1
비전-언어(VL) 분야가 다중 언어 및 도메인에서 시각 정보와 텍스트 정보의 통합에 있어 놀라운 성과를 거두었음에도 불구하고, 비전-언어 시스템의 인간 중심 정렬을 평가하기 위한 전용 프레임워크는 여전히 부재합니다. 본 논문은 이러한 격차를 해소하기 위해 두 가지 기여를 제안합니다. 첫째, 특정 지역적 맥락에 대한 모델의 관련성을 최적화하면서 전역 일반화 능력의 유지를 보장하는 새로운 패러다임인 '인류지역적 적응(Anthropogenic Regional Adaptation)'을 소개합니다. 둘째, 지역 데이터 필터링과 모델 병합을 활용하는 간단하면서 효과적인 적응 방법인 GG-EZ(Geographical-generalization-made-easy)를 제시합니다. 대규모 비전-언어 모델, 텍스트-이미지 확산 모델, 비전-언어 임베딩 모델이라는 3가지 VL 아키텍처에 대한 포괄적인 실험과 동남아시아(SEA) 지역 적응 사례 연구를 통해, 우리는 인류지역적 적응의 중요성과 GG-EZ의 효과를 입증하였습니다. SEA 전역에서 문화적 관련성 지표가 5-15% 향상되었으며, 전역 성능의 98% 이상을 유지하면서 경우에 따라 이를 능가하기도 했습니다. 우리의 연구 결과는 인류지역적 정렬을 다양한 지역에서의 다중 모달 비전-언어 모델 적용 가능성을 위한 기초 패러다임으로 정립하며, 전역 일반화를 보존하면서 지역적 가치 정렬을 최적화하는 간단하면서 효과적인 기준 방법을 보여줍니다.
MLLM 기반 GUI 에이전트는 복잡한 사용자 인터페이스 상호작용 과제에서 강력한 능력을 입증했습니다. 그러나 장기적 시나리오에서는 이러한 에이전트가 본래 능력을 벗어난 과제를 부담하게 되어 메모리 저하, 진행 상황 혼동, 수학적 환각 문제를 겪으면서 여전히 어려움에 직면해 있습니다. 이러한 문제를 해결하기 위해 우리는 GUI 에이전트가 작업 실행에 집중하는 동안 경량 코파일럿이 메모리 검색 및 수치 계산을 위한 주문형 지원을 제공하는 협업 프레임워크인 UI-Copilot을 제안합니다. 우리는 지속적인 관찰 정보와 일시적인 실행 컨텍스트를 분리하는 메모리 디커플링을 도입하고, 정책 에이전트가 작업 요구에 따라 코파일럿을 검색기(Retriever) 또는 계산기(Calculator)로 선택적으로 호출하도록 학습시킵니다. 효과적인 도구 호출 학습을 위해 우리는 단일 턴 예측을 통해 도구 선택을, 온-정책 다중 턴 롤아웃을 통해 작업 실행을 각각 최적화하는 TIPO(Tool-Integrated Policy Optimization)를 제안합니다. 실험 결과, UI-Copilot-7B는 도전적인 MemGUI-Bench에서 GUI-Owl-7B 및 UI-TARS-1.5-7B와 같은 강력한 7B 규모 GUI 에이전트들을 능가하는 최첨단 성능을 달성했습니다. 또한 UI-Copilot-7B는 AndroidWorld에서 기본 Qwen 모델 대비 17.1%의 절대적 성능 향상을 보여주며, 실제 GUI 작업에 대한 UI-Copilot의 강력한 일반화 능력을 입증했습니다.
LLM 에이전트는 점차 재사용 가능한 구성 단위로서 스킬을 채택하고 있습니다. 다양한 에이전트 플랫폼에서 스킬이 공유되지만, 현재 시스템은 이를 원시 컨텍스트(raw context)로 취급하여 동일한 스킬이 다른 에이전트에 대해 일관되지 않게 동작하는 문제를 야기합니다. 이러한 취약성은 스킬의 이식성과 실행 효율성을 저해합니다.
이 문제를 해결하기 위해 우리는 118,000개의 스킬을 분석하고 전통적인 컴파일러 설계에서 영감을 얻었습니다. 우리는 스킬을 코드로, LLM을 이기종 프로세서로 간주합니다. 이식성을 실현 가능하게 만들기 위해 스킬의 요구 사항을 일련의 기본 기능(Primitive Capability)으로 분해하고, 각 모델-하네스(Model-Harness) 조합이 이를 얼마나 잘 지원하는지 측정합니다. 이러한 기능 프로필을 바탕으로 우리는 이식적이고 효율적인 스킬 실행을 위해 설계된 컴파일 및 런타임 시스템인 SkVM을 제안합니다. 컴파일 타임에 SkVM은 기능 기반 컴파일, 환경 바인딩, 동시성 추출을 수행합니다. 런타임에는 성능 최적화를 위해 JIT 코드 고형화(Code Solidification) 및 적응형 재컴파일을 적용합니다.
우리는 다양한 규모의 8개 LLM과 3가지 에이전트 하네스, SkillsBench 및 대표적인 스킬 작업을 대상으로 SkVM을 평가했습니다. 결과는 SkVM이 서로 다른 모델과 환경에서 작업 완료율을 크게 향상시키면서 토큰 소비를 최대 40%까지 줄임을 보여줍니다. 성능 측면에서 SkVM은 향상된 병렬성을 통해 최대 3.2배의 속도 향상을 달성했으며, 코드 고형화를 통해 19-50배의 지연 시간 감소를 이루었습니다.
ByYoussef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan
2
1
소프트웨어 로깅은 복잡한 시스템의 유지보수와 디버깅에 필수적이지만, AI 코딩 에이전트가 이러한 비기능적 요구사항을 어떻게 처리하는지는 여전히 불분명합니다. 기존 연구는 인간의 로깅 관행을 규명했으나, AI 코딩 에이전트의 행동과 이를 제어하는 자연어 지시의 효율성은 연구되지 않았습니다. 이러한 격차를 해결하기 위해 우리는 81개의 오픈소스 저장소에서 4,550개의 에이전트 풀 리퀘스트에 대한 실증적 연구를 수행합니다. 에이전트의 로깅 패턴을 인간 기준과 비교하고 명시적 로깅 지시의 영향을 분석합니다. 그 결과, 에이전트는 58.4%의 저장소에서 인간보다 로깅 변경 빈도가 낮았으나, 변경을 가할 때는 더 높은 로그 밀도를 보였습니다. 또한 명시적 로깅 지시는 드물게(4.7%) 나타났으며 효과적이지 않았는데, 에이전트는 건설적인 요청의 67%를 이행하지 못했습니다. 마지막으로, 인간이 생성 후 로그 수정의 72.5%를 수행하며 명시적 리뷰 피드백 없이 로깅 및 가시성 문제를 해결하는 "침묵하는 관리인" 역할을 한다는 점을 관찰했습니다. 이러한 발견은 자연어 지시의 이중적 실패(즉, 로깅 지시의 부족과 낮은 에이전트 준수도)를 나타내며, 일관된 로깅 관행을 보장하기 위해서는 결정론적 가드레일이 필요할 수 있음을 시사합니다.
ByNaomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
2
1
고다이내믹 레인지(HDR) 영상은 장면의 복사조도를 풍부하고 정확하게 표현하지만, 생성 모델이 학습된 경계가 지정되고 지각적으로 압축된 데이터와 불일치하여 생성 모델에게는 여전히 어려운 과제로 남아 있습니다. 자연스러운 해결책은 HDR을 위한 새로운 표현을 학습하는 것이지만, 이는 추가적인 복잡성과 데이터 요구 사항을 초래합니다. 본 연구에서는 사전 학습된 생성 모델이 이미 포착한 강력한 시각적 사전 지식을 활용하여 훨씬 더 간단한 방법으로 HDR 생성을 달성할 수 있음을 보여줍니다. 시네마틱 파이프라인에서 널리 사용되는 로그 인코딩이 HDR 영상을 이러한 모델들의 잠재 공간과 자연스럽게 정렬되는 분포로 매핑함으로써, 인코더를 재학습시키지 않고도 경량 파인튜닝을 통한 직접적인 적용이 가능함을 관찰했습니다. 입력에서 직접 관찰할 수 없는 디테일을 복원하기 위해, 모델이 학습된 사전 지식으로부터 누락된 고다이내믹 레인지 콘텐츠를 추론하도록 유도하는 카메라 모방 열화 기반 훈련 전략을 추가로 도입했습니다. 이러한 통찰력을 결합하여, 최소한의 적용으로 사전 학습된 비디오 모델을 사용한 고품질 HDR 비디오 생성이 가능함을 입증하며, 다양한 장면과 까다로운 조명 조건에서 강력한 결과를 달성했습니다. 우리의 결과는 HDR이 근본적으로 다른 이미지 형성 체계를 나타냄에도 불구하고, 표현이 학습된 사전 지식과 일치하도록 선택된다면 생성 모델을 재설계하지 않고도 효과적으로 처리될 수 있음을 시사합니다.
ByLin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
2
1
스트리밍 3D 재구성은 비디오 스트림에서 카메라 포즈 및 포인트 클라우드와 같은 3D 정보를 복원하는 것을 목표로 하며, 이를 위해 기하학적 정확도, 시간적 일관성 및 계산 효율성이 필요합니다. 동시적 위치 추정 및 매핑(SLAM) 원리에 기반하여, 우리는 기하학적 컨텍스트 변환기(GCT) 아키텍처를 기반으로 스트리밍 데이터에서 장면을 재구성하는 피드포워드 3D 파운데이션 모델인 LingBot-Map을 제안합니다. LingBot-Map의 핵심 특징은 좌표 기반 정착, 조밀한 기하학적 단서, 장거리 드리프트 보정을 각각 처리하기 위해 앵커 컨텍스트, 포즈 참조 창, 궤적 메모리를 통합하는 신중하게 설계된 어텐션 메커니즘에 있습니다. 이 설계는 풍부한 기하학적 컨텍스트를 유지하면서 스트리밍 상태를 간결하게 유지하여 10,000프레임을 초과하는 긴 시퀀스에서 518 x 378 해상도 입력에 대해 약 20 FPS의 안정적이고 효율적인 추론을 가능하게 합니다. 다양한 벤치마크에 걸친 포괄적인 평가 결과, 우리의 접근 방식이 기존의 스트리밍 방식 및 반복적 최적화 기반 접근 방식과 비교하여 우수한 성능을 달성함을 입증하였습니다.
기존 LISA와 같은 멀티모달 대규모 언어 모델(MLLM) 기반 분할 모델은 최신 지식을 통합하지 못해 새로운 개체나 신규 등장 개체를 정확히 분할하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해 우리는 NEST(Novel Emerging Segmentation Task)를 제안합니다. NEST는 (i) 학습 데이터에 포함되지 않아 MLLM이 인식하지 못하는 새로운(novel) 개체와 (ii) 모델의 지식 범위 내에 있지만 정확한 인식을 위해 최신 외부 정보가 필요한 신규 등장(emerging) 개체의 분할에 중점을 둡니다. NEST 연구를 지원하기 위해 우리는 뉴스 관련 데이터 샘플을 생성하여 포괄적 평가가 가능한 자동화 파이프라인으로 NEST 벤치마크를 구축했습니다. 또한 모든 MLLM 기반 분할 모델의 성능을 향상시키도록 설계된 플러그 앤 플레이 프레임워크인 ROSE(Retrieval-Oriented Segmentation Enhancement)를 제안합니다. ROSE는 네 가지 핵심 구성 요소로 이루어집니다. 첫째, 사용자가 제공한 멀티모달 입력을 활용해 실시간 웹 정보를 검색하는 인터넷 검색 증강 생성 모듈을 도입했습니다. 둘째, 텍스트 프롬프트 향상기는 최신 정보와 풍부한 배경 지식을 제공하여 모델의 신규 등장 개체 인식 능력을 개선합니다. 또한, 인터넷에서 획득한 이미지를 활용해 MLLM이 새로운 개체에 대해 부족한 노출을 보완하는 시각 프롬프트 향상기를 제안합니다. 효율성 유지를 위해 사용자 입력을 기반으로 검색 메커니즘 호출 시기를 지능적으로 결정하는 WebSense 모듈을 도입했습니다. 실험 결과, ROSE는 NEST 벤치마크에서 성능을 크게 향상시키며, 강력한 Gemini-2.0 Flash 기반 검색 베이스라인 대비 gIoU 기준 19.2의 성능 차이로 우수함을 입증했습니다.
대규모 언어 모델이 과학 연구 보조 도구로 부상하고 있지만, 경험적 데이터를 기반으로 추론하는 능력을 평가하는 것은 여전히 어려운 과제입니다. 출판된 연구와 인간의 주석에서 파생된 벤치마크는 출판 편향, 알려진 지식 편향, 레이블 노이즈 및 상당한 저장 공간 요구 사항을 그대로 물려받습니다. 본 논문에서는 절차적으로 생성된 과학 리포지토리 벤치마크와 검증 가능한 질의응답 과제를 결합한 InfiniteScienceGym을 제시합니다. 시드(seed)를 기반으로 시뮬레이터는 현실적인 디렉토리 구조, 파일, 표 형식의 데이터를 갖춘 독립적인 리포지토리를 결정론적으로 생성하며, 특권을 가진 QA 생성기는 정확한 정답(ground truth)을 갖는 답변 가능 및 답변 불가능한 질문을 모두 생성합니다. 이를 통해 대규모 정적 코퍼스를 배포하지 않고도 통제된 환경에서 증거 기반 추론, 응답 회피, 도구 매개 분석을 평가할 수 있습니다. InfiniteScienceGym은 출판된 데이터셋만으로 평가하기 어려운 블라인드 스팟과 실패 모드를 대상으로 삼아 실제 과학 벤치마크를 보완합니다. 독점 모델과 오픈 웨이트 모델을 모두 평가한 결과, 전체 정확도가 45%를 넘는 모델은 없었으며, 답변 불가능한 질문을 인식하는 것은 여전히 주요 약점으로 드러났습니다. 또한 더 강력한 모델일수록 단순히 더 많은 토큰을 소비하기보다 도구를 더 효과적으로 사용하는 경향이 있었습니다.
ByGuohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
1
1
최근 대규모 언어 모델(LLM) 기반 모바일 GUI 에이전트가 빠르게 발전하며, 자연어 지시에 따라 다양한 기기 제어 작업을 자율적으로 수행할 수 있게 되었습니다. 표준 벤치마크에서 이러한 에이전트의 정확도가 지속적으로 향상되면서 대규모 실전 배포에 대한 기대가 높아졌으며, 이미 몇 가지 상용 에이전트가 선도 사용자들에게 출시 및 활용되고 있습니다. 그러나 GUI 에이전트가 시스템 구성 요소로 일상 기기에 통합되기에 우리는 정말 준비가 되었을까요? 우리는 에이전트가 실제 위협 상황에서도 성능을 유지할 수 있는지 검증하는 중요한 배포 전 확인 절차가 누락되어 있다고 주장합니다. 구체적으로, 단순한 정적 애플리케이션 콘텐츠를 기반으로 하는(다양한 테스트 간 환경 일관성을 유지하기 위해 어쩔 수 없이 이러한 방식을 취함) 기존 일반 벤치마크와 달리, 실제 애플리케이션은 광고 이메일, 사용자 생성 게시물 및 미디어 등 신뢰할 수 없는 제3자로부터의 콘텐츠로 가득 차 있습니다. ... 이를 위해 우리는 기존 애플리케이션 내에서 유연하고 목적 지향적인 콘텐츠 수정을 가능하게 하는 확장 가능한 앱 콘텐츠 계측 프레임워크를 소개합니다. 이 프레임워크를 활용하여 동적 작업 실행 환경과 도전적인 GUI 상태의 정적 데이터셋으로 구성된 테스트 스위트를 구축했습니다. 동적 환경은 122개의 재현 가능한 작업을 포함하며, 정적 데이터셋은 상용 앱으로부터 구성된 3,000개 이상의 시나리오로 이루어져 있습니다. 우리는 오픈소스 및 상용 GUI 에이전트를 대상으로 실험을 수행했습니다. 연구 결과, 조사된 모든 에이전트가 제3자 콘텐츠로 인해 성능이 크게 저하될 수 있음이 밝혀졌으며, 동적 및 정적 환경에서 각각 평균 42.0%, 36.1%의 오작동 비율을 보였습니다. 본 프레임워크와 벤치마크는 https://agenthazard.github.io에서 공개되었습니다.
ByEmmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
1
0
대규모 언어 모델(LLM)은 놀랍도록 복잡한 작업을 수행할 수 있지만, 사전 학습 과정에서 이러한 능력이 어떻게 발현되는지에 대한 세부적인 메커니즘은 아직 명확히 이해되지 않고 있습니다. 검증 손실에 대한 확장 법칙은 추가 계산 자원에 따라 모델이 얼마나 개선되는지는 알려주지만, 어떤 순서로 어떤 기술을 습득하는지는 설명하지 못합니다. 이를 해결하기 위해 우리는 '암시적 커리큘럼 가설'을 제안합니다: 사전 학습은 모델과 데이터 조합에 걸쳐 구성적이고 예측 가능한 커리큘럼을 따른다는 것입니다. 우리는 이를 검증하기 위해 검색, 형태론적 변환, 공지시, 논리적 추론, 수학을 아우르는 간단하고 구성 가능한 작업 세트를 설계했습니다. 이 작업들을 사용하여 410M~13B 매개변수 규모의 4개 모델 패밀리에서 능력 발현 시점을 추적했습니다. 그 결과, 모델이 고정 정확도 임계값에 도달하는 발현 순서가 놀라울 정도로 일관적이며(45개 모델 쌍에서 ρ= .81), 복합 작업은 대부분 구성 요소 작업 이후에 발현된다는 것을 발견했습니다. 더 나아가, 이러한 구조가 모델 표현에 인코딩되어 있음을 확인했습니다: 기능 벡터 표현이 유사한 작업들은 훈련 과정에서도 유사한轨迹를 따르는 경향이 있었습니다. 우리의 작업 세트에서 도출된 표현 공간을 활용하면, 사전 평가 없이도 사전 학습 전 과정에 걸쳐 간단한 보유 구성 작업의 훈련轨迹를 효과적으로 예측할 수 있었습니다(모델별 R^2 = .68-.84). 이러한 결과들은 종합적으로 사전 학습이 손실 곡선이 보여주는 것보다 더 구조화되어 있음을 시사합니다. 즉, 기술은 모델 간에 일관된 구성적 순서로 발현되며, 이는 모델의 내부 상태를 통해 읽어낼 수 있습니다.