번역이 포함된 일일 선별된 AI 연구 논문
네이티브 컴퓨터 사용 에이전트(CUA)의 발전은 멀티모달 AI의 중요한 도약을 의미합니다. 그러나 그 잠재력은 현재 정적 데이터 확장의 한계에 의해 병목 현상을 겪고 있습니다. 주로 정적 데이터셋의 수동적 모방에 의존하는 기존 패러다임은 장기간의 컴퓨터 작업에 내재된 복잡한 인과적 역학을 포착하는 데 어려움을 겪습니다. 본 연구에서는 정적 모방과 달리 데이터 생성과 정책 최적화를 자체 지속 가능한 진화 사이클로 통합하는 네이티브 컴퓨터 사용 에이전트 모델인 EvoCUA를 소개합니다. 데이터 부족 문제를 완화하기 위해 다양한 작업과 실행 가능한 검증기를 자율적으로 생성하는 검증 가능한 합성 엔진을 개발했습니다. 대규모 경험 획득을 가능하게 하기 위해 수만 개의 비동기 샌드박스 롤아웃을 조정하는 확장 가능한 인프라를 설계했습니다. 이러한 대규모 궤적 데이터를 바탕으로, 이 경험을 효율적으로 내재화하기 위한 반복적 진화 학습 전략을 제안합니다. 이 메커니즘은 능력 한계를 식별하여 정책 업데이트를 동적으로 조절합니다. 즉, 성공적인 루틴을 강화하는 동시에 오류 분석 및 자기 수정을 통해 실패 궤적을 풍부한 감독 신호로 전환합니다. OSWorld 벤치마크에 대한 실험적 평가 결과, EvoCUA는 56.7%의 성공률을 달성하여 새로운 오픈소스 최첨단 기술을 확립했습니다. 특히 EvoCUA는 이전 최고 오픈소스 모델인 OpenCUA-72B(45.0%)를 크게 앞섰을 뿐만 아니라 UI-TARS-2(53.1%)와 같은 주요 폐쇄형 가중치 모델도 능가했습니다. 무엇보다도 우리의 결과는 이 접근법의 일반화 가능성을 강조합니다. 경험 학습에 의해 주도되는 진화 패러다임은 다양한 규모의 파운데이션 모델 전반에 걸쳐 일관된 성능 향상을 가져와 네이티브 에이전트 능력 향상을 위한 견고하고 확장 가능한 경로를 제시합니다.
확산 대형 언어 모델(dLLM)은 기존 LLM의 경직된 좌측-우측 제약을 깨고 임의의 순서로 토큰 생성을 가능하게 합니다. 직관적으로 볼 때, 이러한 유연성은 고정된 자기회귀적 궤적을 엄격하게 포함하는 더 넓은 해법 공간을 의미하며, 이론적으로 수학 및 코딩과 같은 일반 과제에서 더 우수한 추론 잠재력을 제공합니다. 이에 따라 많은 연구에서 강화 학습(RL)을 활용하여 dLLM의 추론 능력을 이끌어내고자 했습니다. 본 논문에서는 직관과 반대로, 현재 형태의 임의 순서 생성이 dLLM의 추론 경계를 확장하기보다는 오히려 축소한다는 사실을 밝힙니다. 우리는 dLLM이 탐색에 중요한 고불확도 토큰을 회피하기 위해 이러한 순서 유연성을 이용하는 경향이 있어, 해법 공간이 조기에 붕괴된다는 점을 발견했습니다. 이 관찰은 기존 dLLM RL 접근법의 전제에 도전합니다. 해당 접근법에서는 조합적 궤적 처리와 다루기 힘든 가능도 같은 상당한 복잡성을 감수하면서까지 이러한 유연성을 유지하려고 합니다. 우리는 효과적인 추론을 이끌어내기 위해 오히려 임의 순서 생성을 의도적으로 포기하고 표준 GRPO(Group Relative Policy Optimization)를 적용하는 것이 더 낫다는 것을 입증합니다. 우리의 접근법인 JustGRPO는 극도로 간결하면서도 놀라울 정도로 효과적이며(예: GSM8K에서 89.1% 정확도), dLLM의 병렬 디코딩 능력을 완전히 보존합니다. 프로젝트 페이지: https://nzl-thu.github.io/the-flexibility-trap
최근 멀티모달 대규모 언어 모델(MLLMs)의 발전으로 오프라인 비디오 이해 능력이 크게 향상되었습니다. 그러나 이러한 능력을 스트리밍 비디오 입력으로 확장하는 것은 기존 모델이 안정적인 이해 성능, 실시간 응답, 낮은 GPU 메모리 오버헤드를 동시에 유지하는 데 어려움을 겪음에 따라 여전히 과제로 남아 있습니다. 이러한 문제를 해결하기 위해 우리는 실시간으로 정확한 비디오 스트림 이해가 가능한 새로운 학습 불필요(non-training) 아키텍처인 HERMES를 제안합니다. 메커니즘 어텐션 분석을 바탕으로 우리는 KV 캐시를 여러 세분화 수준에서 비디오 정보를 캡슐화하는 계층적 메모리 프레임워크로 개념화합니다. 추론 과정에서 HERMES는 컴팩트한 KV 캐시를 재사용하여 자원 제약 조건 내에서 효율적인 스트리밍 이해를 가능하게 합니다. 특히 HERMES는 사용자 쿼리 도착 시 추가적인 계산이 필요하지 않아 연속적인 비디오 스트림 상호작용에 대한 실시간 응답을 보장하며, 이는 기존 SOTA 대비 TTFT를 10배 이상 단축합니다. 균일 샘플링 대비 비디오 토큰을 최대 68%까지 감소시키는 경우에도 HERMES는 모든 벤치마크에서 우수하거나 비슷한 정확도를 달성하며, 스트리밍 데이터셋에서 최대 11.4%의 성능 향상을 보입니다.
비전-언어-행동(VLA) 모델은 로봇 매니퓰레이션 분야에서 유망한 성과를 보여왔지만, 새로운 지시나 복잡한 다중 작업 시나리오로의 일반화에는 어려움을 겪는 경우가 많습니다. 본 연구는 목표 주도형 데이터 수집 방식이 데이터셋 편향을 초래하는 현재 훈련 패러다임의 근본적인 문제점을 규명합니다. 이러한 데이터셋에서는 시각 관찰만으로도 언어 지시를 높은 확률로 예측할 수 있어, 지시와 행동 간 조건부 상호 정보가 소실되는 '정보 붕괴(Information Collapse)' 현상이 발생합니다. 그 결과 모델은 언어 제약 조건을 무시하는 시각 전용 정책으로 퇴화하며 분포 외(OOD) 설정에서 실패하게 됩니다. 이를 해결하기 위해 우리는 베이지안 분해를 통해 지시 따르기를 강제하는 새로운 프레임워크인 BayesianVLA를 제안합니다. 학습 가능한 잠재 행동 쿼리(Latent Action Queries)를 도입하여 시각 전용 사전 분포 p(a|v)와 언어 조건부 사후 분포 π(a|v,ℓ)를 모두 추정하는 이중 브랜치 구조를 구성합니다. 그런 다음 정책을 최적화하여 행동과 지시 간 조건부 점별 상호 정보(PMI)를 최대화합니다. 이 목적 함수는 시각 단축 경로(vision shortcut)를 효과적으로 억제하고 언어 명령을 명시적으로 설명하는 행동을 보상합니다. 새로운 데이터 없이도 BayesianVLA는 일반화 성능을 크게 향상시킵니다. SimplerEnv와 RoboCasa에서 진행한 폭넓은 실험을 통해 특히 까다로운 OOD SimplerEnv 벤치마크에서 11.3%의 성능 향상을 포함한 상당한 개선을 입증하며, 우리 접근법이 언어를 행동에 견고하게 정착시키는 능력을 검증했습니다.
우리는 LLM-in-Sandbox를 소개합니다. 이는 LLM이 코드 샌드박스(즉, 가상 컴퓨터) 내에서 탐색하며 비코드 영역에서 일반 지능을 발현하도록 합니다. 우리는 먼저 강력한 LLM이 추가 학습 없이도 비코드 작업을 위해 코드 샌드박스를 활용하는 일반화 능력을 보인다는 점을 입증합니다. 예를 들어, LLM은 새로운 지식을 습득하기 위해 외부 리소스에 자발적으로 접근하고, 장문 컨텍스트를 처리하기 위해 파일 시스템을 활용하며, 형식 요구사항을 충족시키기 위해 스크립트를 실행합니다. 우리는 더 나아가 이러한 에이전트 능력이 LLM-in-Sandbox 강화 학습(LLM-in-Sandbox-RL)을 통해 향상될 수 있음을 보입니다. 이 방법은 샌드박스 탐색을 위한 모델을 훈련시키기 위해 비에이전트 데이터만을 사용합니다. 실험 결과, 훈련 불요 및 사후 훈련 설정 모두에서 LLM-in-Sandbox가 수학, 물리학, 화학, 생물의학, 장문 컨텍스트 이해, 지시 따르기를 아우르는 강력한 일반화 성능을 달성함을 확인했습니다. 마지막으로, 우리는 계산 및 시스템 관점에서 LLM-in-Sandbox의 효율성을 분석하고, 실제 배포를 용이하게 하기 위해 이를 Python 패키지로 오픈소스화했습니다.
표현 자동인코더(RAE)는 고차원 의미론적 잠재 공간에서의 학습을 통해 ImageNet 확산 모델링에서 뚜렷한 장점을 보여왔습니다. 본 연구에서는 이러한 프레임워크가 대규모 자유 형식 텍스트-이미지(T2I) 생성으로 확장 가능한지 조사합니다. 먼저 웹, 합성 및 텍스트 렌더링 데이터를 학습하여 고정된 표현 인코더(SigLIP-2) 기반 RAE 디코더를 ImageNet 이상으로 확장한 결과, 규모 확대가 일반적인 충실도는 향상시키지만 텍스트와 같은 특정 영역에는 대상 데이터 구성이 필수적임을 확인했습니다. 다음으로 ImageNet용으로 제안된 RAE 설계 선택 사항을 엄격하게 스트레스 테스트합니다. 우리의 분석에 따르면 규모 확대는 프레임워크를 단순화합니다: 차원 의존적 노이즈 스케줄링은 여전히 중요하지만, 넓은 확산 헤드나 노이즈 증강 디코딩과 같은 구조적 복잡성은 규모가 커지면 미미한 이점만 제공합니다. 이 단순화된 프레임워크를 바탕으로 0.5B부터 9.8B 매개변수에 이르는 확산 트랜스포머 규모에서 RAE와 최첨단 FLUX VAE를 체계적으로 비교합니다. RAE는 모든 모델 규모에서 사전 학습 동안 일관되게 VAE를 능가했습니다. 더 나아가 고품질 데이터셋에 대한 미세 조정 시 VAE 기반 모델은 64 epoch 이후 치명적인 과적합을 보인 반면, RAE 모델은 256 epoch 동안 안정적으로 유지되며 일관되게 더 나은 성능을 달성했습니다. 모든 실험에서 RAE 기반 확산 모델은 더 빠른 수렴 속도와 우수한 생성 품질을 보여주며, 대규모 T2I 생성에 VAE보다 더 간단하고 강력한 기반으로 RAE를 입증했습니다. 또한 시각적 이해와 생성이 모두 공유 표현 공간에서 작동할 수 있으므로 다중모달 모델이 생성된 잠재 변수를 직접 추론할 수 있어 통합 모델에 새로운 가능성을 열어줍니다.
확산 기반 언어 모델(DLLM)은 자기회귀(AR) 모델 대비 비순차적 블록 단위 생성과 더 풍부한 데이터 재사용이 가능하지만, 동일 예산 기준 기존 코드 DLLM은 여전히 강력한 AR 베이스라인에 뒤처집니다. 본 연구는 통제된 환경에서 이 설정을 재검토하고, Seed-Coder 아키텍처·데이터·학습 파이프라인을 재활용하는 블록 확산 코드 모델 Stable-DiffCoder를 제안합니다. 효율적인 지식 학습과 안정적인 학습을 위해 맞춤형 워밍업 및 블록 단위 클리핑 노이즈 스케줄로 강화된 블록 확산 연속 사전학습(CPT) 단계를 도입했습니다. 동일 데이터와 아키텍처에서 Stable-DiffCoder는 다양한 코드 벤치마크 전체에서 AR 대조군을 능가했습니다. 나아가 CPT와 지도 미세조정 단계만으로 Stable-DiffCoder는 다양한 ~8B 규모 AR 및 DLLM보다 우수한 성능을 달성하며, 확산 기반 학습이 코드 모델링 품질을 AR 단독 학습을 넘어 개선할 수 있음을 입증했습니다. 또한 확산 기반 임의 순서 모델링은 편집 및 추론을 위한 구조화된 코드 모델링을 개선하고, 데이터 증강을 통해 저자원 프로그래밍 언어에도 이점을 제공합니다.
픽셀 단위 기능은 상호작용형 지능 시스템 구축에 필수적입니다. 그러나 픽셀 단위 다중 모달 LLM(MLLM)은 복잡한 영역 수준 인코더, 전문화된 분할 디코더, 그리고 상호 호환되지 않는 훈련 목표로 인해 확장하기 어려운 실정입니다. 이러한 문제를 해결하기 위해 우리는 SAMTok를 제안합니다. 이는 임의의 영역 마스크를 두 개의 특수 토큰으로 변환하고, 이러한 토큰을 사용하여 높은 정확도로 마스크를 재구성하는 이산 마스크 토크나이저입니다. 마스크를 새로운 언어 토큰으로 취급함으로써, SAMTok는 기본 MLLM(예: QwenVL 시리즈)이 아키텍처 수정이나 전문화된 손실 설계 없이도 표준 다음 토큰 예측과 간단한 강화 학습을 통해 픽셀 단위 기능을 학습할 수 있게 합니다. SAMTok는 SAM2를 기반으로 하며, 마스크 인코더와 잔여 벡터 양자화기를 사용하여 2억 900만 개의 다양한 마스크에 대해 훈련되어 이산적이고 간결하며 정보가 풍부한 토큰을 생성합니다. 500만 개의 SAMTok 형식 마스크 이해 및 생성 데이터 샘플을 통해, QwenVL-SAMTok는 영역 설명, 영역 VQA, 접지된 대화, 참조 분할, 장면 그래프 구문 분석, 다중 라운드 상호작용 분할 작업에서 최첨단 또는 이에 준하는 결과를 달성했습니다. 또한 우리는 마스크 생성을 위한 효율적인 강화 학습을 가능하게 하는 텍스트 응답 매칭 보상을 도입하여 GRES 및 GCG 벤치마크에서 상당한 성능 향상을 보여줍니다. 우리의 결과는 MLLM에 강력한 픽셀 단위 기능을 부여하는 확장 가능하고 직관적인 패러다임을 입증합니다. 우리의 코드와 모델은 공개되어 있습니다.
과학적 문제에 대한 새로운 최첨단 기술을 발견하기 위해 AI를 어떻게 활용할 수 있을까요? 기존의 테스트 타임 스케일링 연구(예: AlphaEvolve)는 고정된 LLM에 프롬프팅을 수행하여 탐색을 진행했습니다. 우리는 테스트 타임에 강화 학습을 수행함으로써 LLM이 계속 학습할 수 있도록 하지만, 이제는 테스트 문제에 특화된 경험을 바탕으로 합니다. 이러한 형태의 지속적 학습은 매우 특별한데, 그 이유는 평균적으로 여러 좋은 해법을 내는 것보다 하나의 훌륭한 해법을 도출하는 것, 그리고 다른 문제로 일반화하는 것보다 바로 이 특정 문제를 해결하는 것을 목표로 하기 때문입니다. 따라서 우리의 학습 목표와 탐색 서브루틴은 가장 유망한 해결책을 우선시하도록 설계되었습니다. 우리는 이 방법을 '발견을 위한 테스트 타임 트레이닝(TTT-Discover)'이라고 부릅니다. 선행 연구를 따라 우리는 연속적 보상이 있는 문제에 집중합니다. 우리는 수학, GPU 커널 엔지니어링, 알고리즘 설계, 생물학 분야에 걸쳐 시도한 모든 문제에 대한 결과를 보고합니다. TTT-Discover는 거의 모든 분야에서 새로운 최첨단 기술을 수립했습니다: (i) 에르되시의 최소 중복 문제 및 자기상관 부등식; (ii) GPUMode 커널 경쟁(기존 기술 대비 최대 2배 빠름); (iii) 과거 AtCoder 알고리즘 경진대회; (iv) 단일 세포 분석에서의 노이즈 제거 문제. 우리의 해법은 전문가나 주최자에 의해 검토되었습니다. 우리의 모든 결과는 오픈 모델인 OpenAI gpt-oss-120b를 사용하여 달성되었으며, 공개된 코드를 통해 재현이 가능합니다. 이는 폐쇄형 최첨단 모델이 필요했던 이전의 최고 결과와 대조적입니다. 우리의 테스트 타임 트레이닝 실행은 Thinking Machines의 API인 Tinker를 사용하여 수행되었으며, 문제당 수백 달러의 비용만이 소요됩니다.
본 보고서에서는 고급 다국어, 제어 가능, 강건 및 스트리밍 텍스트-음성 변환 모델 군인 Qwen3-TTS 시리즈를 소개합니다. Qwen3-TTS는 최첨단 3초 음성 복제 및 설명 기반 제어를 지원하여 완전히 새로운 음성 생성과 출력 음성의 세밀한 조작을 모두 가능하게 합니다. 10개 언어에 걸쳐 500만 시간 이상의 음성 데이터로 학습된 Qwen3-TTS는 실시간 합성을 위한 듀얼 트랙 LM 아키텍처와 두 가지 음성 토크나이저를 채택했습니다: 1) Qwen-TTS-Tokenizer-25Hz는 의미론적 콘텐츠를 중시하는 단일 코드북 코덱으로, Qwen-Audio와의 원활한 통합을 제공하며 블록 단위 DiT를 통한 스트리밍 파형 재구성을 가능하게 합니다. 2) Qwen-TTS-Tokenizer-12Hz는 12.5Hz, 16계층 멀티 코드북 설계와 경량 인과적 ConvNet을 통해 극단적인 비트레이트 감소 및 초저지연 스트리밍을 달성하여 첫 패킷 즉시 전송(97ms)을 가능하게 합니다. 다양한 객관적 및 주관적 벤치마크(예: TTS 다국어 테스트 세트, InstructTTSEval, 장문 음성 테스트 세트)에서의 광범위한 실험은 최첨단 성능을 입증합니다. 커뮤니티 연구 및 개발을 촉진하기 위해 두 토크나이저와 모델을 Apache 2.0 라이선스 하에 공개합니다.
AI 에이전트가 가까운 미래에 다양한 분야에서 가치 있는 장기 과제를 자율적으로 수행할 수 있을 것으로 예상됩니다. 현재 벤치마크는 실제 업무를 측정하지 않거나, 최첨단 모델의 성능을 의미 있게 평가하기에 충분히 어렵지 않습니다. 이를 위해 우리는 실제 워크플로우에서 영감을 받은 컴퓨터 터미널 환경의 89개 과제로 구성된 신중하게 선별된 고난이도 벤치마크인 Terminal-Bench 2.0을 소개합니다. 각 과제는 고유한 환경, 인간이 작성한 솔루션, 검증을 위한 포괄적인 테스트를 특징으로 합니다. 최첨단 모델과 에이전트가 이 벤치마크에서 65% 미만의 점수를 기록함을 보여주며, 모델과 에이전트 개선이 필요한 영역을 파악하기 위한 오류 분석을 수행합니다. 향후 연구를 위한 개발자와 연구자 지원을 위해 데이터셋과 평가 도구를 https://www.tbench.ai/ 에 공개합니다.
본 논문은 이미지 이해와 이미지 생성 모두에 활용 가능한 단일 통합 시각 표현을 학습하는 고급 비전 인코더 패밀리인 OpenVision 3를 제안한다. 우리의 핵심 아키텍처는 단순하다: VAE로 압축된 이미지 잠재 변수를 ViT 인코더에 입력하고, 그 출력이 두 가지 상호 보완적인 역할을 수행하도록 학습시킨다. 첫째, 인코더 출력은 ViT-VAE 디코더로 전달되어 원본 이미지를 재구성함으로써 표현이 생성적 구조를 포착하도록 유도한다. 둘째, 동일한 표현은 대조 학습 및 이미지-캡션 학습 목적 함수를 통해 최적화되어 의미론적 특징을 강화한다. 재구성 및 의미론에 기반한 신호를 공유 잠재 공간에서 공동으로 최적화함으로써, 인코더는 두 영역 모두에서 시너지를 발휘하고 우수한 일반화 성능을 보이는 표현을 학습한다. 우리는 인코더를 고정한 상태로 광범위한 하류 과제 평가를 통해 이 통합 설계를 검증한다. 다중 모달 이해를 위해 인코더를 LLaVA-1.5 프레임워크에 적용했을 때, 표준 CLIP 비전 인코더와 유사한 성능을 보였다(예: SeedBench에서 62.4 대 62.2, POPE에서 83.7 대 82.9). 생성 과제에서는 RAE 프레임워크 하에서 테스트한 결과, 우리의 모델이 표준 CLIP 기반 인코더를 크게 능가했다(예: ImageNet에서 gFID: 1.89 대 2.54). 본 연구가 통합 모델링에 대한 향후 연구를 촉진하기를 기대한다.
컴포지트 이미지 검색(CIR)은 멀티모달 이해 분야에서 핵심적이면서도 복잡한 과제입니다. 기존 CIR 벤치마크는 일반적으로 제한된 질의 범주를 특징으로 하며, 실제 시나리오의 다양한 요구사항을 충분히 반영하지 못합니다. 이러한 평가 격차를 해소하기 위해 우리는 이미지 편집을 활용하여 수정 유형과 콘텐츠를 정밀하게 제어함으로써 광범위한 범주에 걸쳐 질의를 합성하는 파이프라인을 구현했습니다. 이 파이프라인을 이용해 우리는 새로운 세분화된 CIR 벤치마크인 EDIR을 구축했습니다. EDIR은 5개의 주요 범주와 15개의 하위 범주로 구성된 5,000개의 고품질 질의를 포함합니다. 13개의 멀티모달 임베딩 모델에 대한 포괄적 평가를 통해 상당한 능력 격차가 확인되었습니다. 최첨단 모델(예: RzenEmbed, GME)조차 모든 하위 범주에서 일관된 성능을 발휘하는 데 어려움을 겪으며, 우리 벤치마크의 엄격한 특성이 부각되었습니다. 비교 분석을 통해 우리는 모달리티 편향 및 불충분한 범주 coverage와 같은 기존 벤치마크의 본질적 한계를 추가적으로 규명했습니다. 더 나아가, 인-도메인 학습 실험을 통해 우리 벤치마크의 실현 가능성을 입증했습니다. 해당 실험은 특화된 데이터로 해결 가능한 범주와 현재 모델 아키텍처의 본질적 한계를 드러내는 범주를 구분함으로써 과제의 난이도를 명확히 합니다.
현대 AI 시스템의 성능은 근본적으로 고수준 알고리즘 의미론을 저수준 하드웨어 연산으로 변환하는 기반 커널의 품질에 의해 제약받습니다. 최적에 가까운 커널을 달성하려면 하드웨어 아키텍처와 프로그래밍 모델에 대한 전문가 수준의 이해가 필요하며, 이로 인해 커널 엔지니어링은 중요하지만 악명 높게 시간이 많이 소요되고 확장성이 부족한 과정이 되었습니다. 대규모 언어 모델(LLM)과 LLM 기반 에이전트의 최근 발전은 커널 생성 및 최적화 자동화에 새로운 가능성을 열었습니다. LLM은 형식화하기 어려운 전문가 수준의 커널 지식을 압축하는 데 적합하며, 에이전트 시스템은 커널 개발을 반복적이고 피드백 주도적인 루프로 전환함으로써 확장 가능한 최적화를 더욱 가능하게 합니다. 이 분야에서 빠른 진전이 이루어졌으나, 여전히 연구가 단편적으로 진행되어 LLM 주도 커널 생성에 대한 체계적인 관점이 부족한 실정입니다. 본 설문 논문은 LLM 기반 접근법과 에이전트 최적화 워크플로우를 아우르는 기존 방법론들의 구조적 개요를 제공하고, 이 분야의 학습과 평가를 뒷받침하는 데이터셋 및 벤치마크를 체계적으로 정리함으로써 이러한 격차를 해소하고자 합니다. 더 나아가 주요 미해결 과제와 향후 연구 방향을 추가로 제시함으로써 차세대 자동화 커널 최적화를 위한 포괄적인 참고자료를 마련하는 것을 목표로 합니다. 본 분야의 동향을 파악하기 위해 https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation 에서 오픈소스 GitHub 저장소를 유지 관리하고 있습니다.
작업 진행도 추정은 정적인 시각적 내용을 인식하는 것이 아닌 장기적 역학에 대한 추론을 필요로 합니다. 현대 시각-언어 모델(VLM)은 가시적인 내용을 설명하는 데 뛰어나지만, 부분적 관찰로부터 작업이 얼마나 진행되었는지를 추론할 수 있는지는 여전히 불분명합니다. 이를 위해 우리는 VLM의 진행 추론을 체계적으로 평가하기 위한 벤치마크인 Progress-Bench를 소개합니다. 벤치마킹을 넘어서, 우리는 훈련이 필요 없는 프롬프팅 방식과 정제된 데이터셋 ProgressLM-45K를 기반으로 한 훈련 기반 방식을 통해 인간에서 영감을 받은 2단계 진행 추론 패러다임을 추가로 탐구합니다. 14개 VLM에 대한 실험 결과, 대부분의 모델이 데모 방식과 시점 변화에 민감하고 응답 불가 경우를 제대로 처리하지 못하는 등 작업 진행도 추정에 아직 준비되지 않았음을 보여줍니다. 구조화된 진행 추론을 강제하는 훈련 없는 프롬프팅은 제한적이고 모델에 종속적인 성능 향상을 가져온 반면, 소규모 모델인 훈련 기반 ProgressLM-3B는 평가 작업과 완전히 분리된 작업 세트에서 훈련되었음에도 불구하고 일관된 개선을 달성했습니다. 추가 분석은 특징적인 오류 패턴을 밝히고 진행 추론이 성공하거나 실패하는 시점과 이유를 명확히 합니다.
레이블된 데이터의 부족으로 인해 비디오 매팅 모델을 실제 비디오에 일반화하는 것은 여전히 큰 과제로 남아 있습니다. 이를 해결하기 위해 우리는 사전 학습된 비디오 확산 모델을 활용하여 조잡한 분할 마스크를 픽셀 단위 정확도의 알파 매트로 변환하는 Video Mask-to-Matte Model(VideoMaMa)을 제안합니다. VideoMaMa는 합성 데이터만으로 훈련되었음에도 불구하고 실제 영상에 대한 강력한 제로샷 일반화 성능을 보여줍니다. 이 능력을 바탕으로 우리는 대규모 비디오 매팅을 위한 확장 가능한 의사 레이블링 파이프라인을 개발하고, 다양한 장면과 동작을 아우르는 5만 개 이상의 실제 비디오에 대한 고품질 매팅 주석을 제공하는 Matting Anything in Video(MA-V) 데이터셋을 구축했습니다. 이 데이터셋의 효과를 검증하기 위해 SAM2 모델을 MA-V로 미세 조정하여 SAM2-Matte를 얻었으며, 이는 기존 매팅 데이터셋으로 훈련된 동일 모델보다 실제 영상에 대한 견고성 측면에서 더 우수한 성능을 보였습니다. 이러한 결과는 대규모 의사 레이블링 비디오 매팅의 중요성을 강조하며, 생성적 사전 지식과 접근 가능한 분할 단서가 비디오 매팅 연구의 확장 가능한 발전을 이끌 수 있음을 보여줍니다.
최근 비디오 생성 모델은 시간에 따른 복잡한 물리적 상호작용과 장면 변화를 놀라울 정도로 잘 포착합니다. 로봇공학 연구에서는 이러한 시공간적 사전 지식을 활용하기 위해 비디오 모델을 정책 학습에 적용하고 있지만, 행동 생성을 위해 사후 훈련 단계를 여러 번 거치고 새로운 아키텍처 구성 요소를 도입해야 하는 복잡성이 있습니다. 본 연구에서는 대규모 사전 훈련 비디오 모델(Cosmos-Predict2)을 대상 플랫폼에서 수집한 로봇 데모 데이터에 대해 단일 단계의 사후 훈련만으로 아키텍처 수정 없이 효과적인 로봇 정책(Cosmos Policy)으로 적용하는 간단한 접근법을 소개합니다. Cosmos Policy는 비디오 모델의 잠재 확산 과정 내에서 잠재 프레임으로 인코딩된 로봇 행동을 직접 생성하도록 학습하여, 모델의 사전 훈련된 사전 지식과 핵심 학습 알고리즘을 활용해 복잡한 행동 분포를 포착합니다. 또한 Cosmos Policy는 유사하게 잠재 프레임으로 인코딩된 미래 상태 이미지와 가치(기대 누적 보상)를 생성하여, 성공 가능성이 더 높은 행동 궤적을 시험 시간에 계획할 수 있게 합니다. 평가 결과, Cosmos Policy는 LIBERO 및 RoboCasa 시뮬레이션 벤치마크에서 각각 98.5%, 67.1%의 평균 성공률로 최첨단 성능을 달성했으며, 까다로운 실제 양손 조작 작업에서도 가장 높은 평균 점수를 기록했습니다. 이는 처음부터 학습된 강력한 확산 정책, 비디오 모델 기반 정책, 그리고 동일한 로봇 데모로 미세 조정된 최첨단 비전-언어-행동 모델보다 우수한 성과입니다. 더 나아가 정책 실행 데이터가 주어지면 Cosmos Policy는 경험으로부터 학습하여 세계 모델과 가치 함수를 개선하고 모델 기반 계획을 활용하여 까다로운 작업에서 더 높은 성공률을 달성할 수 있습니다. 코드, 모델 및 학습 데이터는 https://research.nvidia.com/labs/dir/cosmos-policy/에서 공개합니다.
원근 이미지와 동영상을 360° 파노라마로 변환하는 것은 몰입형 3D 세계 생성의 핵심 기술입니다. 기존 접근법들은 주로 원근법과 등장방형 투영(ERP) 공간 간의 명시적인 기하학적 정합에 의존합니다. 그러나 이는 카메라 메타데이터를 요구하므로, 보정 정보가 일반적으로 부재하거나 노이즈가 많은 실제 환경 데이터 적용에 한계가 있습니다. 본 연구에서는 사전 학습된 디퓨전 트랜스포머 기반의 기하학적 제약이 없는 프레임워크인 360Anything을 제안합니다. 원근 입력과 파노라마 타겟을 단순히 토큰 시퀀스로 간주함으로써, 360Anything은 순수하게 데이터 주도 방식으로 원근-등장방형 매핑을 학습하여 카메라 정보 필요성을 제거합니다. 제안 방법은 이미지 및 동영상 원근-360° 생성 과제에서 정답 카메라 정보를 사용하는 기존 연구들을 능가하는 최첨단 성능을 달성합니다. 또한 ERP 경계에서 발생하는 이음매 아티팩트의 근본 원인이 VAE 인코더의 제로 패딩에 있음을 규명하고, 원활한 생성을 위한 순환 잠재 인코딩을 도입합니다. 마지막으로 제로샷 카메라 시야각 및 방향 추론 벤치마크에서 경쟁력 있는 결과를 보여줌으로써 360Anything의 심층 기하학적 이해와 컴퓨터 비전 작업에서의 광범위한 유용성을 입증합니다. 추가 결과는 https://360anything.github.io/에서 확인할 수 있습니다.
애니메이션 3D 객체 생성은 많은 애플리케이션의 핵심이지만, 대부분의 최신 연구는 설정의 제한성, 긴 실행 시간 또는 제한된 품질로 인해 실제 적용이 어려운 경우가 많습니다. 우리는 피드-포워드 방식으로 제작 준비가 된 "동작 중인" 3D 메시를 예측하는 생성 모델인 ActionMesh를 소개합니다. 초기 비디오 모델에서 영감을 얻은 우리의 핵심 통찰은 기존 3D 확산 모델에 시간 축을 포함하도록 수정하여 "시간적 3D 확산"이라고 명명한 프레임워크를 만드는 것입니다. 구체적으로, 우리는 먼저 3D 확산 단계를 조정하여 시간에 따라 변화하고 독립적인 3D 형태를 나타내는 동기화된 잠재 변수 시퀀스를 생성합니다. 두 번째로, 독립적인 형태의 시퀀스를 사전 정의된 참조 형태의 해당 변형으로 변환하는 시간적 3D 오토인코더를 설계하여 애니메이션을 구축할 수 있도록 합니다. 이 두 구성 요소를 결합한 ActionMesh는 단안 비디오, 텍스트 설명, 또는 애니메이션을 설명하는 텍스트 프롬프트가 포함된 3D 메시와 같은 다양한 입력으로부터 애니메이션 3D 메시를 생성합니다. 또한, 기존 접근법과 비교하여 우리의 방법은 빠르며, 리깅이 필요 없고 토폴로지가 일관된 결과를 생성하므로 신속한 반복 작업과 텍스처링 및 리타겟팅과 같은 원활한 응용이 가능합니다. 우리는 표준 비디오-to-4D 벤치마크(Consistent4D, Objaverse)에서 우리 모델을 평가하고 기하학적 정확도와 시간적 일관성 모두에서 최첨단 성능을 보고하며, 우리 모델이 전례 없는 속도와 품질로 애니메이션 3D 메시를 제공할 수 있음을 입증합니다.
다양한 비디오 영역으로의 다중모달 대규모 언어 모델(MLLM) 일반화는 실제 환경 적용에 필수적이지만, 레이블된 데이터 부족으로 인해 여전히 어려운 과제로 남아 있습니다. 상황 내 학습(ICL)은 추가 훈련 없이 적응할 수 있는 방법을 제공하지만, 기존 방법은 대규모 주석 데이터 풀에 의존하며, 이는 산업 현장이나 수술실 같은 전문 환경에서는 전문가의 주석이 필요하기 때문에 실제로 적용하기 어려운 경우가 많습니다. 이러한 격차를 해소하기 위해 우리는 최소한의 전문가 감독과 풍부한 레이블 없는 데이터를 시너지 효과로 결합하는 레이블 효율 프레임워크인 VIOLA(최소 주석 비디오 상황 내 학습)를 소개합니다. 첫째, 엄격한 주석 예산의 효율을 극대화하기 위해 밀도-불확실성 가중 샘플링을 제안합니다. 시각적 이상치를 선택할 위험이 있는 기존의 다양성이나 불확실성 전략과 달리, 우리의 방법은 밀도 추정을 활용하여 동시에 다양하고, 대표성 있으며, 정보성이 높은 샘플을 식별합니다. 둘째, 잡음 전파 없이 남아 있는 레이블 없는 데이터를 활용하기 위해 하이브리드 풀을 구성하고 신뢰도 인식 검색 및 신뢰도 인식 프롬프팅을 도입합니다. 이러한 메커니즘은 레이블 신뢰도를 명시적으로 모델링하여 유사도와 신뢰도의 복합 점수를 기반으로 데모를 검색하는 동시에 MLLM이 검증된 실제 정답과 잡음이 포함된 의사 레이블을 적응적으로 구분할 수 있도록 합니다. 4가지 MLLM을 사용하여 9개의 다양한 벤치마크에서 수행한 광범위한 실험 결과, 우리의 프레임워크가 저자원 환경에서 다양한 기준선을 크게 능가하며 최소한의 주석 비용으로 강력한 적응력을 달성함을 입증했습니다.
대규모 언어 모델(LLM)은 대화 시스템 평가와 미세 조정 데이터 생성 모두를 위해 인간 시뮬레이터로 점점 더 많이 활용되고 있습니다. 그러나 단순한 "사용자 역할 수행" 방식의 프롬프팅은 종종 장황하고 비현실적인 발화를 생성하며, 이는 소위 사용자 프록시 에이전트에 대한 체계적인 평가의 필요성을 강조합니다. 본 논문에서는 다양한 대화 작업에서 인간과 유사한 사용자 발화를 생성하는 능력만을 기준으로 사용자 프록시를 평가하는 재현 가능하고 확장성 있는 벤치마킹 프레임워크인 MIRRORBENCH를 소개합니다. 이는 하류 작업 성공 여부와 명시적으로 분리됩니다. MIRRORBENCH는 타입 인터페이스, 메타데이터 기반 레지스트리, 다중 백엔드 지원, 캐싱, 강력한 관찰 가능성을 갖춘 모듈식 실행 엔진을 특징으로 합니다. 본 시스템은 플러그인 방식의 사용자 프록시, 데이터셋, 작업, 메트릭을 지원하여 연구자들이 통일되고 분산 인식(variance-aware)된 환경 하에서 임의의 시뮬레이터를 평가할 수 있게 합니다. 여기에는 세 가지 어휘 다양성 메트릭(MATTR, YULE'S K, HD-D)과 세 가지 LLM-판단 기반 메트릭(GTEval, Pairwise Indistinguishability, Rubric-and-Reason)이 포함됩니다. 4개의 공개 데이터셋을 대상으로 한 실험에서 MIRRORBENCH는 분산을 고려한 결과를 제공하며 사용자 프록시와 실제 인간 사용자 간의 체계적인 격차를 보여줍니다. 본 프레임워크는 오픈 소스이며, 실험 실행, 구성 관리 및 캐싱, 보고서 생성을 위한 간단한 명령줄 인터페이스를 포함합니다. 해당 프레임워크는 https://github.com/SAP/mirrorbench 에서 접근할 수 있습니다.
본 논문에서는 Numba로 가속화된 파이썬을 이용해 2차원 확산 제한 집적(Diffusion-Limited Aggregation, DLA) 현상을 시뮬레이션하는 고성능 프레임워크인 dla-ideal-solver를 제안한다. 저희는 Just-In-Time(JIT) 컴파일을 활용하여 높은 수준의 유연성을 유지하면서도 기존 정적 구현체에 버금가는 계산 처리량을 달성했다. 다양한 주입 기하학 구조와 워커(walker) 농도에 걸쳐 라플라시안 성장 불안정성을 연구하였다. 분석 결과, 희박 영역에서 프랙탈 차원 D_f ≈ 1.71이라는 표준 값이 위튼-샌더 준보편성 클래스와 일관되게 강건하게 나타남을 확인했다. 그러나 고농도 환경에서는 스크리닝 길이의 포화로 인해 에덴 모델과 유사한 조밀 성장(D_f ≈ 1.87)으로의 뚜렷한 교차 현상을 관측하였다. 표준 질량-반경 스케일링을 넘어, 일반화된 레니 차원과 라쿠너리티(lacunarity) 지표를 활용하여 집적체의 단일 프랙탈 특성과 공간적 이질성을 정량화했다. 본 연구는 비평형 통계 역학의 상전이를 탐구하기 위한 재현 가능한 오픈소스 테스트베드를 마련하였다.
대규모 언어 모델(LLM)이 교육 애플리케이션에서 점점 더 보편화됨에 따라, 개인화되고 교육학적으로 정렬된 결과를 생성하는 LLM 프롬프트를 설계하고 평가하기 위한 근거 기반 방법론에 대한 필요성이 커지고 있습니다. 본 연구는 구조화된 대화 활동에서 LLM이 생성한 후속 질문 분석을 통해 입증된, 일반화 가능하고 체계적인 프롬프트 평가 접근법을 제시합니다. 6개의 프롬프트 템플릿을 설계하고 테스트하였으며, 이 템플릿들은 확립된 프롬프트 엔지니어링 패턴을 통합하고 각각 뚜렷한 교육 전략을 강조하였습니다. 프롬프트 템플릿은 다른 교육 애플리케이션에도 적용 가능한 토너먼트 방식의 평가 프레임워크를 통해 비교되었습니다. 토너먼트는 Glicko2 등급 시스템을 활용하여 8명의 평가자가 형식, 대화 지원, 학습자 적합성이라는 세 가지 차원에서 질문 쌍을 평가했습니다. 데이터는 세 가지 서로 다른 교육 배포 환경에서 수집된 120개의 실제 사용자 상호작용에서 도출되었습니다. 결과에 따르면, 전략적 읽기와 관련된 단일 프롬프트가 다른 템플릿들을 능가하였으며, pairwise 비교에서 81%에서 100%에 이르는 승률을 기록했습니다. 이 프롬프트는 페르소나와 컨텍스트 관리자 패턴을 결합했으며, 자기 주도적 학습과 같은 메타인지 학습 전략을 지원하도록 설계되었습니다. 본 방법론은 교육 기술 연구자들이 임시적인 프롬프트 엔지니어링을 넘어 교육 애플리케이션을 위한 근거 기반 프롬프트 개발로 나아가며 프롬프트 설계를 체계적으로 평가하고 개선할 수 있는 방법을 보여줍니다.
대규모 언어 모델(LLM)이 놀라운 능력을 보여주고 있지만, 그 신뢰성 부족 문제는 높은 위험을 수반하는 분야에의 배치를 가로막는 중요한 장벽으로 남아있다. 본 고는 이러한 과제 해결을 위한 기능적 진화, 즉 불확실성이 수동적 진단 지표에서 실시간 모델 행동을 안내하는 능동적 제어 신호로 진화하는 과정을 조명한다. 우리는 불확실성이 세 가지 최전선 영역에서 어떻게 능동적 제어 신호로 활용되는지 보여준다: 계산 최적화 및 자기 수정 촉발을 위한 고급 추론 분야, 도구 사용 및 정보 탐색에 대한 메타인지적 결정을 관리하는 자율 에이전트 분야, 보장 해킹 완화 및 내재적 보상을 통한 자기 개선을 가능하게 하는 강화 학습 분야. 베이지안 방법 및 콘포멀 예측과 같은 신흥 이론적 프레임워크에 이러한 발전을 근거하여 우리는 이러한 변혁적 추세에 대한 통합적 관점을 제시한다. 본 고는 포괄적 개요, 비판적 분석 및 실용적 설계 패턴을 제공하며, 불확실성이라는 새로운 추세를 숙달하는 것이 확장 가능하고 신뢰할 수 있으며 신뢰성 있는 차세대 AI 구축에 필수적임을 주장한다.
AI 에이전트는 수동적 언어 모델에서 복잡한 다단계 작업을 수행하는 자율 시스템으로 빠르게 진화하고 있습니다. 그러나 실패 상황에서의 과도한 자신감은 높은 위험을 수반하는 환경에 배치하는 데 근본적인 장애물로 남아있습니다. 정적인 단일 턴 출력을 위해 설계된 기존 보정 방법은 궤적을 따라 누적되는 오류, 외부 도구로 인한 불확실성, 불명확한 실패 모드와 같은 에이전트 시스템의 고유한 문제를 해결할 수 없습니다. 이러한 문제를 해결하기 위해 우리는 최초로 에이전트 신뢰도 보정 문제를 제안하고, 에이전트 전체 궤적에 걸쳐 거시적 역학에서 미시적 안정성에 이르는 풍부한 프로세스 수준 특징을 추출하는 새로운 진단 프레임워크인 Holistic Trajectory Calibration(HTC)을 소개합니다. 간단하고 해석 가능한 모델을 기반으로 하는 HTC는 8개의 벤치마크, 다양한 LLM, 여러 에이전트 프레임워크에서 보정 및 판별 능력 모두에서 강력한 기준선을 일관되� 능가했습니다. 성능을 넘어 HTC는 세 가지 핵심 진전을 제공합니다: 실패 배후의 신호를 밝혀 해석 가능성을 제공하고, 재학습 없이 다양한 도메인에 적용하여 이전 가능성을 확보하며, 도메인 외 GAIA 벤치마크에서 최고의 보정(최저 ECE)을 달성하는 General Agent Calibrator(GAC)를 통해 일반화를 실현합니다. 이러한 공헌을 통해 신뢰도 보정에 대한 새로운 프로세스 중심 패러다임을 정립함으로써 AI 에이전트의 신뢰성을 진단하고 향상시키는 프레임워크를 제공합니다.
인공지능 에이전트는 장기적 추론에서 인상적인 능력을 보여왔지만, 초기 인식 오류가 되돌릴 수 없이 확장되는 "환상의 소용돌이"로 인해 그 신뢰성이 심각하게 저해되고 있습니다. 기존 방법론은 딜레마에 직면해 있습니다: 불확실성 정량화(UQ) 방법은 일반적으로 위험을 진단만 할 뿐 해결하지 못하는 수동적 센서 역할에 그치는 반면, 자기 반성 메커니즘은 지속적이거나 목적 없는 수정에 시달립니다. 이러한 차이를 해소하기 위해, 우리는 언어화된 불확실성을 능동적인 양방향 제어 신호로 변환하는 통합된 이중 과정 에이전트 불확실성 정량화(AUQ) 프레임워크를 제안합니다. 우리의 아키텍처는 두 가지 상호 보완적 메커니즘으로 구성됩니다: 암묵적으로 언어화된 신뢰도와 의미론적 설명을 전파하여 맹목적 의사 결정을 방지하는 시스템 1(불확실성 인지 메모리, UAM); 그리고 이러한 설명을 합리적 단서로 활용하여 필요할 때만 표적 추론 시간 해결을 촉발하는 시스템 2(불확실성 인지 반성, UAR). 이를 통해 에이전트는 효율적 실행과 심층 숙고를 동적으로 균형 있게 조정할 수 있습니다. 폐쇄형 벤치마크와 개방형 심층 연구 과제에 대한 광범위한 실험을 통해 우리의 학습 불요 접근법이 우수한 성능과 궤적 수준 보정을 달성함을 입증했습니다. 우리는 이 원칙 기반 프레임워크 AUQ가 신뢰할 수 있는 에이전트로 나아가는 중요한 진전을 나타낸다고 믿습니다.
IBM Quantum 하드웨어에서 Violaris가 제안한 회로 패밀리를 구현 및 벤치마킹하여, 컴파일된 위그너의 친구 스타일 회로에서 생성된 고전적 측정 기록의 상관관계로 정의되는 운영적 분기 간 통신 증표(witness)를 추정하였다. 우리는 이 프로토콜의 5-큐비트 인스턴스를 물리적 신호 전달이 아닌 단일 회로 내의 레지스터 간 메시지 전송 패턴으로 구현하고, 현실적인 디바이스 노이즈 및 컴파일 제약 조건에서의 동작을 평가했다. 이 회로는 제어 큐비트에 의해 동역학이 결정되는 관찰자 하위 시스템의 분기-조건부 진화를 인코딩하며, 이후 조건부 측정 맥락 간 상관관계를 탐색하는 제어 전송 연산이 뒤따른다. ibm_fez 백엔드에서 20,000샷으로 실행한 결과, 집단 기반 가시도는 0.877, 직교 축을 따른 간섭성 증표는 0.840과 -0.811, 위상 민감 크기는 약 1.17으로 관찰되었다. 가시도 메트릭은 일부 유형의 디페이징에 무감각하지만, 간섭성 증표는 비대각 노이즈에 대한 보완적 민감도를 제공한다. 본 연구는 양자역학의 해석을 검증하거나 변별하지 않는다. 대신, 이 연구는 교정된 디바이스 노이즈 대비 비이상적 채널의 탐지 가능성을 평가하기 위한 재현 가능한 운영적 제약 파이프라인을 제공한다.