번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM) 검색 에이전트는 여러 차례의 추론과 정보 검색을 통해 지식 집약적인 언어 작업에서 강력한 가능성을 보여주고 있다. 대부분의 기존 시스템은 키워드나 자연어 질의를 입력받아 사전 계산된 문서 표현 인덱스를 사용하여 문서의 순위 목록을 반환하는 검색기를 통해 정보에 접근한다. 본 연구에서는 검색 에이전트가 말뭉치 자체를 검색 환경으로 취급하고 실행 가능한 셸 명령어를 발행하여 증거를 찾는 보완적인 관점을 탐구한다. 우리는 최적화된 직접 말뭉치 상호작용(DCI) 검색 에이전트인 GrepSeek을 소개한다. GrepSeek은 대규모 텍스트 말뭉치에서 증거를 찾고, 필터링하며, 구성하는 소형 검색 에이전트를 학습시킨다. 대규모 말뭉치에서 강화 학습을 통해 직접 학습 행동을 수행할 때 발생하는 불안정성을 해결하기 위해, 우리는 두 단계의 훈련 파이프라인을 제안한다. 첫째, 답변 인식 튜터(Tutor)와 답변 블라인드 플래너(Planner)를 사용하여 냉시작 데이터셋을 구축하고, 검증되었으며 인과적으로 근거 있는 검색 궤적을 생성한다. 둘째, 그룹 상대 정책 최적화(GRPO)를 통해 초기화된 정책을 정교화하여, 에이전트가 말뭉치와의 직접 상호작용을 통해 작업 지향 검색 행동을 개선할 수 있도록 한다. DCI를 대규모로 실용적으로 만들기 위해, 우리는 의미를 보존하는 샤딩-병렬 실행 엔진을 추가로 사용하여 셸 기반 검색을 최대 7.6배까지 가속화하면서, 셸 명령어의 순차 실행과 바이트 단위의 정확한 동등성을 유지한다. 7개의 오픈 도메인 질의응답 벤치마크에 걸친 실험 결과, GrepSeek이 가장 강력한 전체 토큰 수준 F_1 및 정확 일치(Exact Match)를 달성함을 보여준다. 우리의 분석은 또한 표면 형태 변이가 큰 질의에 대한 순수 어휘 기반 상호작용의 한계를 강조하며, DCI가 실제 세계에서 기존 검색 패러다임을 보완할 수 있는 검색 에이전트를 위한 실용적이고 경쟁력 있는 방법임을 시사한다.
LLM 에이전트는 점점 더 단순히 개별 작업을 완료하는 것뿐만 아니라 인간의 전문성, 판단력 및 상호작용 스타일에 대한 경계 있는 표현을 전달하는 것으로 기대된다. 이러한 사람 기반 에이전트를 구축하는 것은 여전히 어려운데, 그 이유는 사람이나 역할과 관련된 실행 가능한 지식이 일반적으로 명확한 지침으로 작성되기보다는 이질적인 흔적들에 내재되어 있기 때문이다. 기존의 메모리 및 페르소나 시스템은 이러한 증거의 단편들을 포착하는 반면, 스킬 프레임워크는 이식 가능한 패키징 형식을 제공한다. 하지만 이러한 흔적들을 검사 가능하고, 수정 가능하며, 에이전트가 사용할 수 있는 스킬로 증류하는 종단 간 워크플로는 존재하지 않는다. 우리는 전문가 지식 증류를 통해 사람 기반 AI 스킬을 생성하는 자동화된 흔적-스킬 증류 시스템을 제시한다. 대상 인물이나 역할로부터 자료가 주어지면, COLLEAGUE.SKILL은 두 개의 조정된 트랙, 즉 실행, 정신 모델, 의사 결정 휴리스틱을 위한 역량 트랙과 의사소통 스타일, 상호작용 규칙, 수정 기록을 위한 경계 행동 트랙을 갖춘 버전 관리된 스킬 패키지를 생성한다. 이 패키지는 검사, 호출, 자연어 피드백을 통한 업데이트, 롤백, 에이전트 호스트 간 설치가 가능하며, 선택적으로 통제된 배포를 위해 준비될 수 있다. 우리는 오픈소스 시스템에 구현된 아티팩트 계약, 생성 워크플로, 수정 라이프사이클, 배포 표면 및 도메인 프리셋을 설명한다. 글을 쓰는 시점에서 공개 리포지토리는 약 18.5k개의 GitHub 스타를 보유하고 있으며, 갤러리에는 165명의 기여자로부터 215개의 스킬이 등재되어 있고, 등재된 스킬 카드 전체에 걸쳐 누적 스타 수가 10만 개 이상이다. 이 시스템은 사람 기반 스킬이 불투명한 프롬프트나 숨겨진 기억이 아닌 이식 가능하고 수정 가능한 패키지로 표현될 수 있는 방법을 보여준다.
온-정책 증류(OPD)는 학생 정책에서 샘플링한 접두사에 대해 학생을 훈련시키면서 더 강한 교사와 매칭하는 방법이다. 이는 오프라인 증류의 접두사 불일치 문제를 해결하지만, 초기 학생 롤아웃은 여전히 부실할 수 있어 교사 감독이 취약하거나 낮은 품질의 접두사에 배치된다. 본 논문에서는 신뢰 영역 행동 혼합(TRB)이라는 워밍업 방법을 제안한다. 이 방법은 학생 중심의 KL 신뢰 영역 내에서 초기 롤아웃 정책을 교사에 가장 가까운 행동 정책으로 대체하되, 접두사별 역방향 KL OPD 손실은 변경하지 않는다. KL 예산은 서서히 0으로 감소하므로 워밍업 후에는 순수 학생 롤아웃으로 훈련이 복귀된다. 두 가지 수학 추론 증류 설정에서 TRB는 비교된 방법들 중 가장 강력한 평균 성능을 달성했다.
통합 다중모달 모델(UMMs)은 단일 모델에서 인식과 생성을 처리하는 것을 목표로 한다. 그러나 기존 UMMs는 이미지 생성을 위해 고정된, 별도로 사전 학습된 VAE에 여전히 의존하여 구조적 병목을 초래한다. 이를 단순히 제거하면 모델이 원시 픽셀로부터 고수준 구조와 저수준 세부 사항을 모두 학습해야 하므로 품질 격차가 발생한다. 본 논문에서는 표현 예측을 모델의 고유 기능으로 만들어 이 격차를 해소하는 기법인 Representation Forcing (RF)을 제안한다. 구체적으로, RF는 디코더가 픽셀 이전에 중간 토큰으로 시각적 표현을 자기회귀적으로 예측하도록 강제하며, 이 토큰들은 이후 동일한 백본 내에서 픽셀 확산을 안내하기 위해 컨텍스트에 유지된다. 인식 출력을 생성 대상으로 전환함으로써 RF는 외부 생성 잠재 공간의 필요성을 제거한다. RF는 이해와 생성 모두에 이점을 제공함을 확인했다. 이미지 생성에서, RF를 적용한 픽셀 공간 모델은 최첨단 VAE 기반 통합 모델과 성능이 같았다. 이미지 이해에서, 픽셀 공간 RF는 일반적으로 VAE 기반 변형보다 성능이 뛰어났다. 종합적으로, 이러한 결과는 종단 간, 병목 없는 UMMs를 향한 효과적인 단계를 제시한다.
본 논문에서는 Mellum 2를 소개합니다. Mellum 2는 토큰당 25억 개의 활성 파라미터를 가진 120억 파라미터 규모의 오픈 가중치 Mixture-of-Experts(MoE) 언어 모델입니다. Mellum 2는 소프트웨어 공학에 특화된 범용 언어 모델로, 코드 생성 및 편집, 디버깅, 다단계 추론, 도구 사용 및 함수 호출, 에이전트 코딩, 대화형 프로그래밍 지원을 아우르며, 완성에 초점을 맞춘 40억 파라미터의 Dense 모델 Mellum의 후속 모델입니다. 아키텍처는 Mixture-of-Experts(64개 전문가, 8개 활성)를 기반으로 구축되었으며, 4개의 KV 헤드를 가진 Grouped-Query Attention, 4개 층 중 3개 층에 적용되는 Sliding Window Attention, 그리고 보조 사전 학습 목표이자 추론 디코딩을 위한 내장 드래프트 모델 역할을 겸하는 단일 Multi-Token Prediction 헤드를 결합했습니다. 각 선택은 상용 GPU에서의 추론 효율성을 설계 제약 조건으로 삼아 절제 실험을 통해 검증되었습니다. 사전 학습은 약 10조 6천억 개의 토큰에 걸쳐 진행되었으며, 3단계 커리큘럼을 통해 데이터 혼합을 다양한 웹 데이터에서 큐레이션된 코드 및 수학 콘텐츠로 점진적으로 전환하고, FP8 하이브리드 정밀도와 선형 감소를 통해 0에 도달하는 Warmup-Hold-Decay 스케줄을 적용한 Muon으로 최적화했습니다. 사전 학습된 기본 모델은 층 선택적 YaRN을 통해 128K 컨텍스트 윈도우로 확장된 후, 두 단계(지도 미세 조정 후 RLVR)로 사후 학습되어 두 가지 변형 모델이 공개되었습니다: 직접 답변을 생성하는 Instruct 모델과 최종 답변 전에 명시적 추론 과정을 출력하는 Thinking 모델입니다. 코드 생성, 수학 및 추론, 도구 사용, 지식, 안전 벤치마크 전반에 걸쳐 Mellum 2는 토큰당 25억 파라미터 Dense 모델의 연산량으로 동작하면서 40억~140억 파라미터 범위의 오픈 가중치 기준 모델과 경쟁력을 보여줍니다. 우리는 기본 모델, Instruct, Thinking 체크포인트를 아키텍처 결정, 데이터 파이프라인 및 학습 레시피에 대한 본 보고서와 함께 Apache 2.0 라이선스 하에 공개합니다.
제로샷 텍스트-음성 합성(Zero-shot TTS)은 단일 화자 합성에서 상당히 개선되었으나, 표현력 있는 장문 다중 화자 대화는 여전히 어려운 과제로 남아 있다. 일반적인 해결 방법은 각 턴을 독백 TTS 모델로 합성한 후 출력을 이어 붙이는 것이다. 이는 추론 비용을 증가시킬 뿐만 아니라, 턴 간 음향 일관성, 대화 일관성, 정서적 연속성을 종종 깨뜨린다. 최근의 대화 TTS 시스템이 이러한 설정을 다루기 시작했지만, 여전히 표현적 일관성, 제어 가능한 화자 전환, 독백 품질을 동시에 유지하는 데 어려움을 겪고 있다. 본 논문에서는 SwanData-Speech와 SwanVoice를 제시한다. SwanData-Speech는 야생 오디오로부터 독백 및 대화 말뭉치를 구축하며, 멈춤 인식 단어 수준 정렬을 위해 Swan 강제 정렬기(Swan Forced Aligner)를 사용하고 발음이 까다로운 경우 RobustMegaTTS3를 활용한다. 이러한 데이터를 기반으로 구축된 SwanVoice는 1~4명의 화자를 위한 제로샷 TTS 모델로, 25Hz VAE, 멈춤 인식 기호 및 병음 대체를 통한 원시 텍스트 조건화, 화자-턴 조건화를 갖춘 흐름 매칭 DiT(flow-matching DiT)를 결합한다. 학습은 독백 음성에서 시작하여 혼합 및 실제 대화 데이터로 진행된 후, 음소 수준 및 화자 유사도 보상을 사용하는 DiffusionNFT 사후 학습(post-training)이 이어진다. SwanBench-Speech에서 SwanVoice는 독백 및 대화 설정 모두에서 평가된 모든 오픈소스 기준 모델보다 높은 풍부도 및 계층 점수를 얻었으며, 내용 정확도가 여전히 주요 한계로 남아 있다. 오디오 데모는 https://swanaigc.github.io//#swanvoice에서 확인할 수 있다.
장문 맥락 추론은 대규모 언어 모델에게 여전히 핵심적인 과제로 남아 있으며, 이들은 광범위한 방해 콘텐츠 속에서 핵심 정보를 찾아 통합하는 데 종종 실패한다. 검증 가능한 보상을 통한 강화 학습(RLVR)은 이 작업에 유망한 것으로 나타났지만, 기존 방법은 혼동 가능성이 낮은 방해 요소와 중간 추론 단계를 감독할 수 없는 희소한 결과 전용 보상 신호로 인해 제한적이다. 이러한 문제를 해결하기 위해 우리는 LongTraceRL을 소개한다. 데이터 구축을 위해 우리는 지식 그래프 랜덤 워크를 통해 다중 홉 질문을 생성하고, 검색 에이전트 궤적을 활용하여 계층적 방해 요소(에이전트가 읽었지만 인용하지 않은 문서(혼동 가능성 높음)와 검색 결과에 나타났지만 열리지 않은 문서(혼동 가능성 낮음))를 구축함으로써, 무작위 샘플링이나 단일 검색으로 구축된 것보다 훨씬 더 도전적인 훈련 맥락을 생성한다. 보상 설계를 위해 우리는 각 추론 체인을 따라 있는 골드 엔티티를 세밀한 엔티티 수준 프로세스 감독으로 사용하는 루브릭 보상을 제안한다. 이 루브릭 보드는 정답 최종 답변이 있는 응답에만 적용되어(긍정 전용 전략), 정답 응답 간의 추론 품질을 구별하고 보상 해킹을 방지한다. 세 가지 추론 LLM(4B-30B)에 대한 실험을 5개의 장문 맥락 벤치마크에서 수행한 결과, LongTraceRL이 강력한 기준선을 일관되게 능가하며 포괄적이고 증거에 기반한 추론을 장려함을 보여준다. 코드, 데이터셋 및 모델은 https://github.com/THU-KEG/LongTraceRL에서 확인할 수 있다.
대부분의 텍스트 기반 3D 실내 장면 합성 방법은 객체 중심 프롬프트를 기반으로 방을 생성하여, 공간이 어떻게 사용되는지보다 어떤 가구를 배치해야 하는지에 초점을 맞춘다. 그러나 실제 인테리어 디자인에서는 공간이 거주자(예: 그들의 활동과 신체적 요구)를 얼마나 잘 지원하는지에 따라 배치가 평가된다. 본 연구는 기능 명세, 즉 방을 사용할 사람과 그곳에서 수행해야 할 활동을 설명하는 자연어 설계 지시서로부터 3D 실내 배치를 생성하는 프레임워크인 Function2Scene을 소개한다. 이러한 명세가 주어지면, 우리 시스템은 거주자 페르소나와 활동을 분석하고, 공간적, 인간공학적, 활동적, 환경적 고려 사항을 포괄하는 17개 기준의 분류 체계로부터 맞춤형 기능 설계 제약 조건을 도출하며, 이러한 제약 조건을 활용하여 배치 생성을 안내한다. Function2Scene은 최종 장면을 직접 생성하기 위해 LLM에 의존하는 대신, 기하학적 측정, LLM 기반 맥락 추론, VLM 기반 시각 평가를 결합한 도구 강화 검증-수정 루프를 통해 반복적인 평가 및 개선을 수행한다. 전문적으로 작성된 30개의 인테리어 디자인 사례에 대한 실험 결과, Function2Scene은 최근의 LLM 기반 장면 합성 기준선보다 기능적 요구 사항을 더 잘 충족하는 배치를 생성하며, 쌍별 비교의 94.3%에서 우리의 결과가 선호되었다. 본 연구는 텍스트 기반 실내 장면 합성을 그럴듯한 객체 배치에서 인간의 사용을 지원하는 공간 설계로 재구성한다.
실제 세계 이미지 복원(IR)은 고품질의 쌍을 이루는 훈련 데이터 부족으로 인해 병목 현상이 발생한다. 합성 데이터셋은 풍부하지만 종종 실제 세계 열화를 모델링하지 못하는 반면, 실제 세계 쌍 데이터셋은 획득 비용이 높고 포착이 어렵다. 결과적으로, 이러한 데이터셋으로 훈련된 IR 모델은 실제 세계 시나리오에서 제한된 일반화 성능을 보인다. 본 연구에서는 생성적 다중 모달 기반 모델(MFM)을 활용하여 실제 세계 저품질(LQ) 이미지로부터 고품질(HQ) 대상을 생성하는 생성적 실측 자료(GGT)를 제안한다. 먼저 Nano-Banana-2 및 GPT-Image-2를 포함한 9개의 최첨단 MFM을 다양한 장면과 열화 유형의 이미지에 대해 체계적으로 평가한다. 그 결과, VLM 기반 적응형 프롬프팅을 적용한 Nano-Banana-2가 지각적으로 현실적이고 내용에 충실한 HQ 대상을 합성하는 데 가장 뛰어난 능력을 보여주며, 이는 LQ 입력에 대한 GGT로 활용될 수 있다. 이후 Nano-Banana-2를 사용하여 GGT 합성 파이프라인을 구축하고, 데이터 신뢰성을 보장하기 위한 다단계 품질 관리를 도입하며, 다양한 장면과 복잡한 실제 세계 열화를 포괄하는 103,707개의 훈련 쌍으로 구성된 LQ-HQ 쌍 데이터셋 GGT-100K를 구축한다. 또한 500개의 이미지 쌍으로 구성된 테스트 세트도 마련한다. 광범위한 실험 결과, GGT-100K는 다양한 IR 모델의 실제 세계 일반화를 일관되게 향상시키며, 특히 IR 작업을 위한 생성 모델 미세 조정에 큰 이점을 제공한다. 본 연구 결과는 MFM이 복원 지향 데이터 생성을 위한 실용적인 도구로 활용될 수 있으며, GGT-100K가 실제 세계 IR 모델의 일반화 경계를 확장하는 데 유용한 자원임을 시사한다.
실시간으로 정확한 공간 오디오 생성은 몰입형 경험을 제공하는 데 핵심적이다. 그러나 기존의 공간 오디오 합성 기술은 생성 품질과 높은 추론 지연 시간 간의 트레이드오프, 그리고 다중 모달 입력으로부터 정밀한 공간 정보를 포착하는 데 있어 어려움으로 인해 종종 제약을 받는다. 이러한 문제를 해결하기 위해, 우리는 파노라마 비디오와 텍스트 프롬프트로부터 고충실도 공간 오디오를 생성하는 통합 스트리밍 프레임워크인 SwanSphere를 제안한다. SwanSphere의 주요 기여는 다음과 같다: 1) 고품질 공간 오디오의 스트리밍 생성을 가능하게 하는 인과적 자기회귀 확산 트랜스포머 아키텍처를 도입한다. 2) 비디오 인코더를 음향 도메인에 정렬하기 위한 공간 비디오-오디오 대조 학습(SVAC) 전략을 설계하고, 추가로 다중 목표 온라인 직접 선호 최적화(ODPO) 기법을 적용하여 강력한 공간 인식과 견고한 다중 모달 공간 오디오 합성을 달성한다. 3) 현재 공간 오디오 데이터셋의 부족을 완화하기 위해, 상세한 공간 캡션을 생성하는 자동 주석 파이프라인을 개발한다. 실험 결과는 SwanSphere가 비디오-공간 오디오 및 텍스트-공간 오디오 생성 작업 모두에서 우수한 성능을 달성함을 보여준다. 데모는 https://swanaigc.github.io에서 확인할 수 있다.
실시간 스트리밍 비디오-투-비디오 편집(V2V)은 라이브 방송 및 게임과 같은 대화형 애플리케이션에 필수적이지만, 시간적 일관성과 추론 처리량에 대한 엄격한 요구사항으로 인해 여전히 해결하기 어려운 과제로 남아 있습니다. 본 논문에서는 소비자용 GPU에서 고해상도 실시간 스트리밍 비디오 편집을 위한 시스템-알고리즘 공동 설계 프레임워크인 SANA-Streaming을 제시하며, 다음과 같은 세 가지 핵심 설계를 포함합니다: (1) 하이브리드 확산 트랜스포머(Hybrid Diffusion Transformer) 아키텍처는 일부 블록에 소프트맥스 어텐션을 도입하여 선형 레이어의 효율성을 유지하면서 국부적 모델링 능력을 향상시킵니다. (2) 사이클-리버스 정규화(Cycle-Reverse Regularization)는 플로우 매칭을 통해 생성된 콘텐츠로부터 소스 프레임을 예측함으로써 의미적 일관성을 강제하는 새로운 훈련 전략으로, 쌍을 이루는 긴 편집 비디오 없이도 시간적 일관성을 개선합니다. (3) 효율적인 시스템 공동 설계는 NVIDIA Blackwell(RTX 5090) 아키텍처에 최적화된 융합 GDN 커널 및 혼합 정밀도 양자화(MPQ)를 결합합니다. 실제 처리량을 프로파일링함으로써, 당사의 MPQ는 생성 품질을 유지하면서 텐서 코어 활용도를 극대화합니다. 결과 시스템은 단일 RTX 5090 GPU에서 종단 간 24 FPS로 1280x704 해상도 편집을 실시간으로 달성하며, DiT 코어는 58 FPS로 동작합니다. 실험 결과는 당사의 공동 설계 접근 방식이 시간적 일관성과 시스템 처리량 모두에서 기존의 최첨단 방법을 크게 능가함을 보여줍니다.
최근 음성 생성 기술의 발전으로 고품질 합성이 가능해졌으나, 긴 문맥 조건에서의 모델 평가는 체계적으로 이루어지지 않은 상태다. 장문 음성에 대한 포괄적인 평가 벤치마크가 필수적인 이유는 두 가지다: 1) 기존 평가 시나리오는 제한된 영역에 국한되어 다양한 하위 응용 분야와의 상당한 간극이 존재하며, 2) 기존 지표는 일관성 및 응집성과 같은 장문 텍스트의 핵심 요소를 간과하여 신뢰성 있는 일반화가 어렵다. 이에 우리는 장문 음성 품질을 구체적이고 분리된 차원으로 세분화하는 포괄적 벤치마크인 SwanBench-Speech를 제안한다. SwanBench-Speech는 세 가지 핵심 특징을 갖는다. 1) 다양한 음성 시나리오: 장문 음성 생성 및 대화 생성에 초점을 맞춰, 음향, 의미, 표현력 측면의 과제를 포함하며 17개의 일반적인 음성 시나리오에 걸친 1,101개의 샘플로 구성된다. 2) 포괄적 평가 차원: 음향, 의미, 표현력 축을 따라 7개의 지표로 구성된 자동 평가 프로토콜을 정의하여 포괄적이고 정확하며 표준화된 평가를 제공한다. 3) 유의미한 통찰: 광범위한 실험을 통해 현재 모델은 표현력이 요구되는 시나리오에서 여전히 어려움을 겪고 있으며, 실제 녹음에 비해 일관성과 위계성에서 현저한 차이를 보임을 밝혀냈다.
장기 기억은 다중모드 에이전트가 일관된 경험을 구축하고, 세계 지식을 축적하며, 지속적 학습을 달성하는 데 필수적이다. 그러나 효과적인 기억을 구축하는 것은 기억 모듈 설계 및 정확성과 충실도 같은 기본 요구 사항을 넘어서며, 핵심 과제는 무엇을 기억할지 결정하는 데 있다. 구현형 에이전트와 같은 다중모드 에이전트는 실제 또는 가상 환경에서 지속적으로 지각하고 추론하며 행동하면서 무한한 스트림의 다중모드 관측값을 수신한다. 이러한 정보의 조합적 폭발 속에서 에이전트는 환경 내 자신의 역할과 관련되고 미래 작업에 유용한 내용을 선택적으로 유지해야 한다. 이러한 격차를 해소하기 위해, 우리는 기억 생성을 학습 가능한 암기 정책으로 구성하고, 정책이 환경에서 마주치는 실제 작업의 요구에 동적으로 초점을 조정할 수 있도록 하는 강화학습 기반 프레임워크인 TaskMem(Task-focused Memorization Policy Learning)을 소개한다. TaskMem은 2단계 훈련 패러다임을 채택한다. 1단계는 기본 충실도 요구 사항 하에서 기억 품질을 최적화하여 어떻게 기억할지를 학습하고, 2단계는 배포 후에 발생하며, 에이전트는 기본 MLLM(다중모드 대규모 언어 모델)에 어댑터를 조정하여 최근 환경 작업을 사용하여 보상 모델을 정의함으로써 무엇을 기억할지를 학습하며, 이를 통해 암기 정책을 작업 관련 내용으로 유도한다. 우리의 접근 방식을 평가하기 위해, VideoMME, EgoLife, EgoTempo를 에이전트가 스트리밍 관측값을 처리하고 온라인으로 도착하는 작업을 처리하는 현실적인 환경을 시뮬레이션하는 스트리밍 벤치마크로 재구성하였다. 메모리 평가를 분리하기 위해, 질문은 원시 비디오에 접근하지 않고 에이전트의 기억만을 사용하여 답변해야 한다. Qwen3-VL-30B-A3B를 기반으로 구축된 TaskMem은 이들 벤치마크에서 각각 6.3%, 7.0%, 5.3%의 VQA 정확도 향상을 달성하였다.
확산 대규모 언어 모델(dLLM)은 최근 자기회귀 모델의 유망한 대안으로 부상하며, 자연스럽게 병렬 디코딩을 지원하면서도 경쟁력 있는 성능을 제공하고 있다. 그러나 dLLM이 전문가 혼합(MoE) 아키텍처와 통합되어 모델 용량을 확장함에 따라, 블록 병렬 디코딩과 토큰 수준 전문가 선택 사이에 근본적인 불일치가 발생한다. 구체적으로, 각 dLLM 순방향 패스는 양방향 의존성을 가진 여러 토큰을 처리하는 반면, 기존 MoE 계층은 각 토큰을 독립적으로 라우팅한다. 이러한 불일치는 고유하게 활성화된 전문가의 수를 크게 증가시켜 추론을 점점 더 메모리 병목 상태로 만든다. 이를 해결하기 위해, 우리는 간단하면서도 효과적인 블록 수준 MoE 프레임워크인 dMoE를 제안한다. dMoE의 핵심 아이디어는 각 블록 내의 토큰 수준 전문가 분포를 통합된 블록 수준 전문가 분포로 집계한 후, 이를 사용하여 보다 일관된 방식으로 전문가 라우팅을 안내하는 것이다. 이러한 방식으로 dMoE는 성능 저하 없이 추론 중 고유하게 활성화된 전문가 수를 크게 줄여 메모리 병목 현상을 완화한다. 다양한 벤치마크에 걸친 광범위한 실험은 dMoE의 효과성을 입증한다. 평균적으로 dMoE는 고유하게 활성화된 전문가 수를 69.5에서 14.6으로 줄이면서 원래 성능의 99.11%를 유지한다. 동시에 메모리 사용량을 76.64%에서 79.84%까지 줄이고, 엔드투엔드 지연 시간을 1.14배에서 1.66배까지 가속화한다. 코드는 다음에서 확인할 수 있다: https://github.com/fscdc/dMoE
온-정책 증류(On-policy distillation, OPD)는 학생 모델이 자체적인 롤아웃(rollout)에서 토큰 수준의 교사 모델 지도(supervision)를 받아 학습하는 방식이다. 최근의 선택적 OPD 방법은 높은 엔트로피 또는 높은 불일치(disagreement)를 보이는 토큰을 우선시함으로써 OPD 신호의 비균일성을 활용한다. 우리는 이 원리를 재검토하며 다음과 같은 질문을 제기한다: 토큰 수준의 교사 신호 중 실제로 학습 가능한(learnable) 것은 무엇인가? 동일 문맥에서 교사-학생 KL 감소를 측정하는 고정 문맥 진단법(fixed-context diagnostic)을 사용하여, 우리는 원시 KL 불일치가 학습 가치에 대한 조악한 대리 지표(coarse proxy)임을 보여준다. 이는 교사가 학생의 상위-K 후보에 교정 질량(corrective mass)을 할당하는 학습 가능한 불일치(learnable disagreement)와, 교사가 질량을 주로 학생의 현재 지지 집합(support) 밖에 배치하는 양립 불가능한 불일치(incompatible disagreement)를 혼동한다. 우리는 이러한 국소적 양립성을 토큰 학습 가능성(token teachability)으로 정식화하고, 이것이 원시 KL만으로 측정한 것보다 고정 문맥에서의 개선을 더 잘 예측함을 보인다. 이 발견에 기초하여, 우리는 보상 모델(reward model)이나 검증기(verifier) 없이 높은 학습 가능성(high-teachability) 위치에 OPD 손실을 적용하는 경량의 토큰 위치 선택 방법인 학습 가능성 인지 OPD(Teachability-Aware OPD, TA-OPD)를 제안한다. Qwen2.5 및 Qwen 3 교사-학생 설정에서, TA-OPD는 단 5%의 유지된 토큰만으로도 전체 토큰 OPD를 종종 능가하며, 엔트로피 기반 및 발산 기반 기준선보다 개선된 성능을 보인다. 우리의 결과는 선택적 OPD를 단순히 현저한 토큰(salient token)을 선택하는 것이 아니라, 학습 가능한 교사 신호를 선택하는 것으로 재구성한다.
자기 대결(self-play)은 외부 감독 없이 언어 모델을 훈련할 수 있다. 그러나 기존 방법은 규칙으로 검증 가능한 답변을 요구하므로, 개방형 작업은 엄선된 프롬프트나 최첨단 모델 평가자에 의존하게 된다. 본 논문에서는 개방형 작업을 위한 데이터 없는 자기 대결 프레임워크인 SCOPE를 소개한다. SCOPE는 문서 기반 작업을 생성하는 도전자(Challenger)와 다중 회차 검색을 통해 해당 작업에 답변하는 해결자(Solver)라는 두 정책을 공동 진화(co-evolve)시킨다. 초기 모델의 고정 복사본은 자기 판정자(self-judge) 역할을 하며, 원본 문서로부터 작업별 평가 기준(rubric)을 작성하고 이 기준에 따라 해결자의 응답을 평가한다. 세 가지 7-8B 명령어 튜닝 모델(Qwen2.5, Qwen3, OLMo-3)에서 SCOPE는 여덟 개 벤치마크에서 개방형 성능을 최대 +10.4포인트 향상시켰으며, 약 9K개의 엄선된 프롬프트로 훈련된 GRPO_data와 동등하거나 이를 능가했다. 개방형 작업만으로 훈련되었음에도 불구하고, SCOPE는 일곱 개의 비공개(held-out) 단답형 QA 벤치마크에서 최대 +13.8포인트 향상되어 세 모델 모두에서 GRPO_data를 능가했다. 절제 실험(ablation) 결과, 도전자를 공동 진화시키는 것이 작업을 해결자의 최전선 근처에 유지하는 데 필수적이며, 성능 향상은 검색과 합성 모두의 개선에서 비롯되며 상대적 기여도는 작업에 따라 달라지고, 자기 판정에 있어 평가 기준 생성 품질이 병목임을 보여준다.
에이전틱 검색(agentic search)은 LLM이 반복적 추론과 외부 검색을 통해 복잡한 다중 홉(multi-hop) 문제를 해결할 수 있도록 한다. 효과적임에도 불구하고, 이러한 시스템은 실제 사용에서 중요한 한계를 보인다: 에이전트가 자신의 지식 경계를 인식하지 못하여 내부 지식만으로 충분할 때도 무분별하게 검색을 실행하고, 충분한 증거가 수집되었음에도 검색을 종료하지 못한다. 이러한 자기 인식의 부재는 심각한 과도 검색(over-search)을 초래하여 상당한 추론 지연 시간과 엄청난 계산 비용을 발생시킨다. 이를 위해 우리는 정확성을 저하시키지 않으면서 검색 행동을 정밀하게 조절하는 동적 자기 인식을 함양하도록 설계된 새로운 강화 학습 프레임워크인 SAAS를 제안한다. SAAS는 세 가지 핵심 구성 요소를 도입한다: (i) 검색 비활성화 및 검색 활성화 롤아웃을 대조하여 진화하는 정책 하에서 검색 경계를 식별하는 검색 경계 모델링 메커니즘, (ii) 이 경계 인식을 궤적 수준의 패널티로 변환하여 불필요하고 중복된 검색을 억제하는 경계 인식 보상 모듈, (iii) 순차적 커리큘럼을 활용하여 검색 정규화보다 추론을 우선시함으로써 보상 해킹을 방지하는 단계별 최적화 전략. 광범위한 실험을 통해 SAAS가 정확성을 유지하면서 과도 검색을 크게 줄임을 입증한다. 우리의 코드는 https://github.com/XMUDeepLIT/SAAS에서 익명으로 공개되었다.
비디오-언어 모델은 제한된 수의 프레임만 처리할 수 있으므로, 프레임 선택은 효율적인 비디오 캡셔닝의 핵심 병목 현상이다. 대부분의 캡셔닝 파이프라인은 여전히 균일 샘플링에 의존하는데, 이는 계산 비용이 저렴하지만 시각적 콘텐츠에 무관하다. 최근 적응형 프레임 샘플링이 비디오에서 가장 유용한 프레임을 선택하는 유망한 접근 방식으로 등장했지만, 기존 방법은 여전히 계산 비용이 많이 든다. 본 논문에서는 PEEK을 제안한다. 이는 캡션 조건부 프레임 관련성 순위를 더 강력한 교사 모델로부터 증류하여 시각적 콘텐츠만을 기반으로 작동하는 경량 시간적 모델에 전이하는 효율적인 동적 프레임 샘플링 방법이다. 전반적으로 ActivityNet Captions와 MSR-VTT에서, 우리 방법은 평가된 모든 하위 비전-언어 모델에서 최신 기술을 능가하며, 특히 캡셔닝을 위해 1~2개의 프레임만 선택할 때 대부분의 프레임 예산에서 최고의 CIDEr를 달성한다. ActivityNet Captions에서 PEEK은 특히 강력하여 16개 구성 중 14개에서 우수한 성능을 보인다. MSR-VTT에 대한 제로샷 평가는 낮은 프레임 예산에서 우리 모델이 가장 우수하게 전이됨을 보여주는 반면, 4개 및 8개 프레임에서의 결과는 시간적 범위와 시각적 다양성이 점점 경쟁력을 갖춤에 따라 더 혼합된 양상을 보인다. 최근의 적응형 기준선과 비교할 때, PEEK은 낮은 예산 영역에서 더 정확할 뿐만 아니라 더 효율적이다: 캡셔닝 시간에 CSTA의 65.4%와 MaxInfo의 211.9%에 비해 단 5.2%만 추가된다. 코드와 사전 학습된 체크포인트는 https://github.com/momentslab/peek에서 공개한다.
대규모 언어 모델(LLM)은 일반 작업에서 뛰어난 성능을 보여주지만, 고품질의 도메인 특화 데이터 없이 specialized 도메인에 적응하는 데는 종종 어려움을 겪는다. 기존의 LLM 기반 데이터 큐레이션 방법은 주로 인간이 설계한 워크플로에 의존하며, LLM이 모델 전문화를 위해 종단간 데이터 엔지니어링 파이프라인을 자율적으로 실행할 수 있는지 여부는 검토되지 않은 상태로 남아 있다. 본 연구에서는 자율 에이전트 데이터 엔지니어링(Autonomous Agentic Data Engineering)이라는 새로운 과제를 공식화하여, LLM이 자율 데이터 엔지니어로서 종단간 데이터 큐레이션을 통해 모델 전문화를 추진하는 능력을 평가한다. 데이터를 최적화 가능한 구성 요소로 간주하고, 학습 후 성능 향상에 따라 여러 도메인에 걸쳐 학습 데이터를 계획, 생성 및 반복적으로 최적화하는 에이전트를 연구한다. 실험 결과, 자율 LLM 데이터 엔지니어가 상당한 성능 향상을 가져오는 것으로 나타났으며, GPT-5.2는 학습 커리큘럼을 구성하여 학생 모델의 성능을 57.29% 향상시켰는데, 이는 전적으로 반복적인 에이전트 기반 데이터 적응을 통해 이루어졌다. 잠재력과 병목 현상을 모두 조명함으로써, 본 연구는 자율 데이터 엔지니어링을 측정 가능한 역량으로 확립하고 에이전트 기반 모델 전문화를 위한 길을 제시한다. 코드는 https://github.com/zjunlp/DataAgent에서 공개될 예정이다.
실제 세계 데이터 분석은 본질적으로 반복적이지만, 기존 벤치마크는 대부분 고립되거나 짧은 대화형 작업만 평가하여 에이전트가 긴 시간 범위에 걸쳐 진화하는 분석 맥락을 추적하는 능력은 테스트되지 않은 상태로 남겨둔다. 우리는 에이전트가 진화하는 분석 상태를 유지, 갱신, 복원 및 구성해야 하는 장기적이고 다중 턴 데이터 분석을 위한 벤치마크인 LongDS를 소개한다. LongDS는 실제 Kaggle 노트북에서 구축된 68개의 작업으로 구성되며, 지구과학, 비즈니스, 교육 등 6개 도메인에 걸쳐 2,225개의 턴에 이른다. 작업은 상태 진화 패턴(예: 반사실적 교란, 롤백, 다중 상태 구성)을 중심으로 설계되었으며, 평균 의존성 범위는 11.3턴이다. 최첨단 모델 5개를 평가한 결과, 최고 모델의 평균 정확도는 48.45%에 불과하고, 초기 턴에서 후기 턴으로 갈수록 성능이 거의 47포인트 하락하며, 장기적 오류가 실패의 52%~69%를 차지한다는 것을 발견했다. 추가 분석에 따르면 에이전트 단계를 추가한다고 반드시 성능이 향상되는 것은 아니며, 이는 주요 병목이 상호작용 예산 증가보다는 올바른 분석 상태 유지에 있음을 시사한다. 우리는 신뢰할 수 있는 장기적 에이전트 데이터 분석 연구를 지원하기 위해 LongDS를 공개한다. 코드와 데이터는 https://github.com/zjunlp/DataMind에서 공개될 예정이다.
비전-언어 모델(VLM)은 프롬프팅을 통해 다양한 비전 작업을 통합된 모델로 해결할 수 있게 한다. 이들은 의미 이해에서 유망한 성능을 보여주었다. 그러나 3D 이해는 여전히 복잡한 작업별 설계를 가진 전문 비전 모델에 크게 의존하고 있다. 본 연구가 주장하는 핵심은 VLM이 본질적으로 3D 학습자라는 점이다. 당사의 대규모 심층 연구는 1) 초점 거리 통합, 2) 텍스트 기반 픽셀 참조, 3) 데이터 혼합 및 스케일링이 효과적인 3D 학습에 필요한 전부임을 보여준다. 모델 아키텍처 변경, 대규모 모델, 과도한 데이터 증강, 회귀 공식을 포함한 복잡한 손실 함수 등 전문 비전 모델의 기반을 이루는 많은 요소들은 사실 필요 조건이 아니다. 이에 따라 우리는 표준 VLM이 다양한 3D 작업을 마스터할 수 있게 하는 가장 단순한 설계의 확장 가능한 방법인 VLM3를 제안한다. VLM3는 VLM 깊이 추정 정확도를 큰 폭으로 향상시킬 뿐만 아니라(0.84 -> 0.9), 픽셀 대응, 카메라 자세 추정, 객체 수준 3D 이해와 같은 다양한 3D 작업을 가능하게 하여, 표준 아키텍처와 텍스트 기반 학습을 유지하면서도 전문 비전 모델의 정확도에 도달한다. 우리는 VLM3가 단순하고 확장 가능한 3D 학습을 위한 새로운 패러다임을 연다고 믿는다.
선형 복잡도 어텐션 메커니즘은 이차 병목 문제를 극복하기 위한 소프트맥스 어텐션의 유망한 대안을 제공하지만, 이러한 모델을 처음부터 훈련하는 것은 여전히 엄청난 비용이 든다. 사전 학습된 트랜스포머의 가중치를 상속하는 것은 매력적인 지름길을 제공하지만, 소프트맥스 어텐션과 선형 어텐션 간의 근본적인 표현적 차이로 인해 효과적인 가중치 전이가 불가능하다. 본 연구에서는 이러한 변환 과제를 구조적 정렬과 표현적 정렬이라는 두 가지 관점에서 다룬다. 우리는 테스트-시간 훈련(TTT)을 선형 복잡도 아키텍처로 식별하였으며, 이 아키텍처의 2계층 동적 공식은 소프트맥스 어텐션과 구조적으로 정렬되어 사전 학습된 어텐션 가중치의 직접 상속을 가능하게 한다. 키 이동 불변성 및 지역성을 포함한 표현적 특성을 더욱 정렬하기 위해, 키 인스턴스 정규화와 경량 지역성 강화 모듈을 도입한다. 우리는 스테이블 디퓨전 3.5를 선형화하여 SD3.5-T^5(Transformer To Test Time Training)를 소개함으로써 접근 방식을 검증한다. 4×H20 GPU에서 단 1시간의 미세 조정만으로 SD3.5-T^5는 미세 조정된 소프트맥스 모델과 유사한 텍스트-이미지 생성 품질을 달성하면서, 1K 및 2K 해상도에서 각각 1.32배 및 1.47배의 추론 속도 향상을 제공한다. 코드는 https://github.com/LeapLabTHU/Transformer-to-TTT에서 확인할 수 있다.
GUI 에이전트가 빠르게 발전해 왔지만, 자체 오류로부터 회복하는 강건성이 부족한 경우가 많아 실제 환경 배포에 걸림돌이 되고 있다. 평가 및 데이터 수준 모두에서 이러한 격차를 해소하기 위해, 우리는 GUI-RobustEval을 도입하고 Robustness-driven Trajectory Synthesis를 제안한다. GUI-RobustEval은 1,216개의 실행 가능한 테스트 케이스를 포함하며, 광범위하고 현실적인 오류 모드 전반에 걸쳐 오류 회복 능력을 체계적으로 측정한다. 데이터 수준에서 RoTS는 확장 가능한 합성 프레임워크로, 트리 기반 파이프라인을 통해 다양한 오류 모드를 능동적으로 발견하고 이에 상응하는 회복 단계를 합성하여 80만 개의 고품질 데이터를 생성한다. 우리 데이터셋으로 미세 조정된 두 모델 RoTS-7B와 RoTS-32B는 모두 GUI-RobustEval 및 기존 GUI 벤치마크에서 유의미한 성능 향상을 보여준다. 특히 RoTS-32B는 OSWorld에서 47.4%의 성공률과 33.8%의 All-Pass@4 점수로 최첨단 성능을 달성하여, 개선된 장기 오류 회복 능력이 강건성과 전반적인 성능 향상에 기여함을 시사한다. 코드는 https://github.com/AlibabaResearch/RoTS에서 확인할 수 있다.
LLM 에이전트는 점점 더 프롬프트, 스킬, 메모리, 도구 등 외부 하네스(harness)를 중심으로 구축된 시스템으로 배치되며, 이러한 하네스는 모델 파라미터를 변경하지 않고도 작업 실행을 형성한다. 하네스 자가 진화는 실행 증거를 바탕으로 하네스를 업데이트함으로써 이러한 에이전트를 적응시킨다. 그러나 모델의 기본 작업 해결 능력이 하네스 자가 진화 능력을 예측하는지, 즉 어떤 모델이 유용한 하네스 업데이트를 생성하고 어떤 모델이 실제로 그 혜택을 받는지는 아직 명확하지 않다. 우리는 두 가지 하네스 자가 진화 능력을 분석한다: (i) 하네스 업데이트 능력, 즉 실행 증거로부터 유용한 지속적 하네스 업데이트를 생성하는 능력; (ii) 하네스 활용 이점, 즉 작업 해결 과정에서 업데이트된 하네스로부터 혜택을 받는 능력. 분석 결과 두 가지 발견점이 드러났다. 첫째, 하네스 업데이트 능력은 기본 능력과 무관하게 평탄하다: 서로 다른 능력 계층의 모델들이 생성한 하네스 업데이트는 놀라울 정도로 유사한 성능 향상을 가져온다. 심지어 Qwen3.5-9B의 업데이트조차 Claude Opus ~4.6의 업데이트에 필적하는 성능 향상을 보인다. 둘째, 하네스 활용 이점은 기본 능력에 대해 비단조적이다: 하위 계층 모델은 업데이트된 하네스로부터 거의 혜택을 받지 못하며, 중간 계층 모델이 가장 큰 혜택을 받고, 상위 계층 모델은 중간 계층보다 혜택이 적다. 우리는 하위 계층에서의 낮은 성능 향상을 두 가지 실패 모드로 추적한다: 하위 계층 모델은 관련 하네스 아티팩트를 활성화하지 못하거나, 활성화하더라도 이를 충실히 따르지 못할 수 있다. 이러한 발견은 역량 예산을 진화기(evolver)보다는 작업 해결 에이전트에 투자하고, 에이전트 훈련에서 하네스 호출 및 장기 지시 수행에 초점을 맞출 것을 시사한다. 소스 코드는 https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution 에서 공개적으로 이용 가능하다.
LLM 에이전트는 대화형 챗봇에서 실제 작업 공간에서의 운영 도구로 진화하고 있다. 로컬 에이전트 하네스에서 LLM은 파일 읽기 및 쓰기, 도구 호출, 세션 간 작업 공간 상태 재사용이 가능하다. 이러한 기능은 유용성을 향상시키지만, 공격자에게 새로운 공격 표면을 노출한다. 공격자는 파일이나 도구 출력 내에 프롬프트 인젝션을 삽입할 수 있다. 에이전트는 이 숨겨진 명령을 읽고 저장한 후 나중에 실행할 수 있다. 이러한 다단계 트로이 목마 공격 패러다임에서는 개별 단계 자체는 악의적으로 보이지 않지만, 이러한 단계들이 결합되어 신뢰할 수 없는 텍스트를 지속적인 제어 콘텐츠로 전환할 수 있다. 그러나 기존 방어 메커니즘은 종종 각 단계를 개별적으로 검사한다. 결과적으로 명백한 유해 행위는 차단할 수 있지만, 백도어를 심는 초기 쓰기 작업은 탐지하지 못한다. 이러한 위협을 드러내기 위해, 우리는 로컬 에이전트 하네스에서 다단계 트로이 목마 공격을 식별하도록 설계된 벤치마크인 ClawTrojan을 소개한다. GPT-5.4를 사용한 OpenClaw 스타일의 시뮬레이션 작업 공간에서 ClawTrojan은 95.5%의 공격 성공률(ASR)을 달성하는 반면, 기존 단일 턴 프롬프트 인젝션 공격은 동일한 모델에서 거의 0에 가까운 ASR을 보인다. 이러한 위협에 대응하기 위해, 우리는 DASGuard를 제안한다. 이는 민감한 로컬 파일에서 제어와 유사한 텍스트를 스캔하고, 그 출처를 추적하며, 신뢰할 수 있는 출처에서 유래하지 않은 제어 콘텐츠를 제거한다. 우리의 결과는 DASGuard가 런타임 공격 차단과 작업 공간에 대한 정화된 커밋을 결합하여 강력한 동적 방어를 달성함을 보여준다.
비디오 비전-언어 모델(VLM)은 장기 및 스트리밍 환경에서 점점 더 많이 사용되고 있지만, 대부분의 비디오 인코더는 여전히 시공간적 자기-어텐션에 의존하여 연산 및 지연 시간이 프레임 수에 따라 제곱으로 증가합니다. 기존의 효율성 방법은 확장성을 개선하지만, 예를 들어 과도한 프레임/토큰 드롭핑 또는 거친 어텐션 근사화를 통해 완전한 자기-어텐션에 비해 정확도를 잃는 경우가 많습니다. 본 논문에서는 사전 훈련된 장기 비디오 VLM을 선형 시간 비디오 프리필로 변환하는 추론 시 방법인 StateKV를 소개합니다. 이 방법은 고정 용량의 중요도 기반 순환 상태에서 교차 프레임 컨텍스트를 전달하며, 디코딩에 사용되는 두 번째 전체 프레임별 캐시와 짝을 이룹니다. 세 가지 장기 비디오 벤치마크와 세 가지 패밀리 및 여러 규모에 걸친 일곱 가지 모델에서 StateKV는 완전한 자기-어텐션에 근접한 성능을 유지하며, 미세 조정이나 아키텍처 변경 없이 주류 슬라이딩 윈도우/최신성 기반 스트리밍 근사화를 일관되게 능가합니다. StateKV는 또한 FLOPs로 측정된 비디오 프리필 비용을 줄여, 더 큰 모델을 실행함으로써 고정된 연산 예산 내에서 더 높은 정확도를 가능하게 합니다. 이러한 결과는 확장 가능한 장기 비디오 이해를 위한 실용적인 단계를 시사합니다.
최근 비디오 생성 모델의 발전은 제어 가능한 월드 모델에서 빠른 진전을 촉진했습니다. 그러나 장기 추론 하에서 세밀한 시공간 일관성을 유지하는 것은 여전히 주요 과제로 남아 있습니다. 본 연구에서는 명시적 3D 메모리와 거친 프레임 수준의 암시적 모델링을 넘어, 일관된 월드 생성을 위한 세밀하고 학습 가능하며 확장 가능한 메모리를 제안합니다. 먼저, 장기 외삽에서 단순한 학습 가능 메모리 아키텍처의 두 가지 근본적 한계, 즉 계산 비효율성과 주의 분산을 식별했습니다. 주의 분산에 대한 체계적 분석을 통해, 전역 이력에 대한 효율적인 세밀 접근을 위한 희소 전역 메모리와 안정적이고 고품질의 외삽을 위한 고정 로컬 메모리를 사용하는 분리된 메모리 아키텍처인 DecMem을 제안합니다. 광범위한 실험을 통해 DecMem이 현재 최첨단 방법들을 크게 능가함을 입증했습니다. 정확하고 효율적인 장기 메모리를 보장하고 우수한 외삽 능력을 달성함으로써, DecMem은 높은 충실도와 일관성을 갖춘 분 단위 제어 가능한 긴 비디오 생성을 가능하게 합니다.
비전-언어-행동(VLA) 모델은 로봇이 자연어 명령을 따르고 다양한 작업에 걸쳐 일반화할 수 있게 하지만, 실제 환경 배치에서 신뢰성을 저해하는 실행 실패에 여전히 취약하다. 따라서 실행 중 이러한 실패를 탐지하는 것은 내장형 시스템의 강건한 배치에 중요하다. 기존의 실패 탐지 방법은 비용이 많이 드는 행동 재샘플링이나 외부 모델에 의존하거나, 궤적 수준의 레이블을 모든 시간 단계에 균일하게 전파하여 국소적인 실패 신호를 모호하게 만든다. 본 논문에서는 VLA 실패 탐지를 조잡하게 지도 학습(coarsely supervised learning) 문제로 정식화하는 Hide-and-Seek 프레임워크를 제안한다. Hide-and-Seek은 궤적 간 및 궤적 내 대비적 목적 함수(contrastive objectives)를 결합하여, 단계별 주석 없이 오직 궤적 수준의 감독만으로 실패를 나타내는 행동을 국소화하고 시간적으로 구조화된 실패 신호를 유도한다. 우리는 Hide-and-Seek을 LIBERO, VLABench 및 실제 로봇 플랫폼에서 세 가지 대표적인 VLA 정책(OpenVLA, π_0, π_{0.5})에 대해 평가한다. 본 방법은 적합 예측(conformal prediction) 하에서 실용적인 정확도-적시성 절충을 통해 최첨단 다중 작업 실패 탐지 성능을 달성하며, 보지 못한 작업과 본 작업 모두에 잘 일반화된다.
최근 연구들은 비전-언어-행동(VLA) 정책에 명시적 중간 추론을 도입하기 시작했다. 그러나 실제 로봇 제어(embodied control)에서는 텍스트 기반 사고의 연쇄(chain-of-thought)가 적합하지 않다. 관련 없거나 텍스트 정보가 약한 내용은 행동 예측을 방해할 수 있으며, 자동회귀 텍스트 디코딩은 실시간 폐루프 실행에 필요한 지연 시간을 너무 증가시키기 때문이다. 우리는 정확하고 지연 시간이 짧은 VLA 정책을 위한 시각적 중간 추론 프레임워크인 VISUALTHINK-VLA를 제시한다. 우리의 부트스트래핑 철학은 효과적인 시각적 사고를 통해 행동을 안내하는 것이다. VISUALTHINK-VLA는 디코딩 오버헤드를 피하면서 공간적 정밀도를 유지하는 간결한 시각적 증거 인터페이스를 통해 행동 예측을 부트스트래핑한다. 또한 성능과 효율성을 더욱 개선하기 위해, VISUALTHINK-VLA는 맞춤형 선택적 라우팅 메커니즘을 채택하여 시각적 증거 토큰을 학습함으로써 높은 용량의 특화를 유지하면서 지연 시간이 짧은 추론을 가능하게 한다. 우리는 또한 VisualEvidence-Kit를 소개한다. 이는 VisualEvidence-Agent를 중심으로 한 감독 및 감리 자원으로, 경로 감독 및 반사실적 충실성 테스트를 위해 754.7k개의 VLA 명령어로 구성된 VisualEvidence-Set을 구축한다. 여러 벤치마크와 실제 로봇 평가에서 VISUALTHINK-VLA는 대부분의 벤치마크에서 가장 높은 성공률을 달성하면서, 추론 강화 베이스라인의 수 초 지연 시간을 1초 미만으로 줄였다. 예를 들어, BridgeData V2에서 ECoT의 스텝당 지연 시간을 8.377초에서 0.367초로 줄여 22.8배의 속도 향상을 달성했다.
공간 추론은 실제 환경에 배포된 시각-언어 모델(VLM)에게 필수적인 능력이다. 그러나 시각적 관찰은 본질적으로 3차원 세계의 제한된 표현으로, 가림은 객체를 보이지 않게 만들 수 있고 시점은 기하학적 속성을 오해하게 만들 수 있다. 그럼에도 불구하고 기존 공간 추론 벤치마크는 일반적으로 관찰이 충분하고 신뢰할 수 있다고 가정하며, 모델이 올바른 답변을 생성하는지 여부에 초점을 맞출 뿐 질문에 답할 수 없는 시점을 인식하거나 어떤 추가 관찰이 필요한지에 대해서는 다루지 않는다. 본 연구에서는 통제된 평가 프레임워크인 SpatialUncertain을 구축하고 두 가지 유형의 관찰 과제, 즉 (1) 대상 정보를 숨기는 가림과 (2) 오해의 소지가 있는 시각적 단서를 생성하는 시점 모호성을 도입함으로써 이러한 가정에 도전한다. 각 구성에 대해 깨끗한 관찰 하에서는 답변 가능하지만 도입된 과제 하에서는 답변을 유보해야 하는 공간 질문을 설계한다. 또한 모델이 시점 모호성을 해결할 추가 시점이 무엇인지 식별할 수 있는지 평가한다. 최첨단 오픈소스 및 클로즈드소스 VLM 다양한 세트에 걸친 실험 결과, 두 가지 일관된 실패 양상이 드러났다. 첫째, 모델은 과신한 답변을 하기 쉬우며, 시각적 증거가 불완전하거나 오해의 소지가 있음에도 공간 추론 과제를 해결하려 시도하여 가림 하에서는 평균 정확도 약 30%, 시점 모호성 하에서는 10% 미만을 보였다. 둘째, 추가 시점이 제공되더라도 일부 모델은 어떤 시점이 신뢰할 수 있는 증거를 제공할지 식별하는 데 무작위에 가까운 성능을 보였다. 종합적으로, 본 연구의 발견은 답변 정확성을 넘어 모델이 언제 답변을 유보해야 하는지와 신뢰할 수 있는 증거를 어떻게 찾아야 하는지를 아는지 평가하는 방향으로 나아가야 함을 촉구한다.
비디오 아웃페인팅은 비디오의 원래 공간적 범위를 넘어 그럴듯한 시각적 콘텐츠를 생성하는 기술로, 다양한 디스플레이 형식에 비디오를 적용하는 데 핵심적인 역할을 한다. 이러한 활용 사례를 지원하기 위해서는 긴 시퀀스에 걸쳐 큰 공간적 외삽(extrapolation)이 가능해야 한다. 그러나 대부분의 기존 방법은 이러한 문제 중 하나만 다루거나, 전역 시공간적 일관성을 보장하기 위한 명시적 메커니즘이 부족하여 현저한 한계를 보인다. 본 논문에서는 긴 시퀀스를 위한 고해상도 비디오 아웃페인팅 프레임워크인 HL-OutPaint를 제안한다. 우리의 접근법은 두 단계로 구성된 조세밀(coarse-to-fine) 전략을 따른다. 먼저 비디오 전체의 전역 구조와 주요 움직임을 포착하는 저해상도 표현인 전역 조악 가이던스(Global Coarse Guidance, GCG)를 구축한다. GCG는 단순한 다운샘플링과 달리, 희소 전역 키프레임과 지역 시간 윈도우를 결합하고 샘플링 중 정보를 교환하는 새로운 전역-지역 프레임 교환 메커니즘을 통해 구성된다. 이를 통해 GCG는 장기 구조적 일관성과 단기 시간적 역동성을 통합된 표현으로 인코딩할 수 있다. 이 표현의 안내를 받아 HL-OutPaint는 고해상도 아웃페인팅을 수행하여 공간적으로 세밀하고 시간적으로 일관된 콘텐츠를 생성한다. 전역 구조 모델링을 미세 합성과 분리함으로써, 우리의 프레임워크는 넓은 공간 확장과 긴 비디오 시퀀스에 대해 안정적이고 일관된 생성을 달성한다. 광범위한 실험을 통해 HL-OutPaint가 넓은 공간 외삽과 긴 비디오 시퀀스를 포함한 도전적인 시나리오에서 기존 방법보다 우수한 성능을 보임을 입증한다.
본 논문에서는 실시간 확산 엔진인 DEMON을 제시한다. DEMON은 노이즈 제거 과정을 실시간 악기처럼 연주 가능하게 만든다. 즉, 출력 전반에 걸쳐 프레임별로 많은 파라미터를 조정할 수 있는 광범위한 제어 표면이면서, 각 제어가 노이즈 제거 루프에서 허용되는 위치만큼 빠르게 반응하는 제어 표면이다. ACE-Step 1.5, StreamDiffusion의 링 버퍼 구조, 그리고 TensorRT 가속을 기반으로 구축된 DEMON은 단일 소비자 GPU(RTX 5090)에서 60초 길이의 음악에 대해 초당 최대 12.3회의 디코더 완료, 또는 프로덕션 링 깊이 4에서 초당 11.3회의 생성을 유지한다. 이러한 속도에서는 노이즈 제거 파라미터가 실시간 연주 제어로 사용 가능해지지만, 링 버퍼는 요청별 변경 사항을 배출 속도, 즉 S개의 노이즈 제거 단계라는 하한선에서만 전파한다. 이에 본 논문은 네 가지 메커니즘을 기여한다. (1) 슬롯별 이기종 노이즈 제거 스케줄링: 각 링 버퍼 슬롯이 자체 타임스텝 스케줄을 소유하므로, 이동하는 노이즈 제거 슬라이더가 진행 중인 큐를 초기화하지 않고도 추적되며, 업스트림 전역 스케줄 설계에서는 큐를 재구축하고 폐기해야 한다. (2) 공유된 변경 가능한 단계별 상태: 모든 솔버 단계에서 참조되는 모든 파라미터에 다음 틱 효과를 부여하여 링 버퍼 배출을 우회한다. (3) 프레임별 소스 블렌딩: 표준 SDE 재노이즈 단계에 대한 샘플링 시간 제어로서, 스칼라 노이즈 제거 스케줄링을 보완하는 프레임별 변환 강도 축을 제공한다. (4) 윈도우 방식 VAE 디코드: 수용 필드 분석을 활용하여 8.0배의 디코딩 속도 향상을 제공한다. 이러한 메커니즘들은 스트리밍 확산 파라미터를 시작 지연 시간과 수렴 지연 시간에 따라 네 가지 전파 클래스로 분리한다.
인간은 다중 객체 장면에서 어떤 색상이 어떤 형태에 속하는지 쉽게 판단하는데, 이러한 능력을 개념 결합(concept binding)이라고 한다. CLIP과 같은 시각-언어 임베딩 모델은 결합에 어려움을 겪는다. 즉, 개별 개념은 인식하지만 어떤 개념들이 어떤 객체를 구성하는지는 표현하지 못한다. CLIP이 교차 양식 검색에서 개념 가방(bag-of-concepts) 모델처럼 행동하지만, 객체 정보는 이미지와 텍스트 임베딩에서 각각 복원 가능하다. 본 연구는 개념을 장면 임베딩에 매핑하는 결합 함수(binding function)를 통해 이러한 긴장 관계를 분석한다. 장면 임베딩이 객체 표현으로 가법적으로 분해되며, 이는 단일 양식 프로브(unimodal probe)가 객체 정보를 복원할 수 있는 이유를 설명한다. 그러나 CLIP의 결합 함수는 높은 복잡성을 가지며, 이는 이미지와 텍스트 인코더가 보지 못한 개념 조합에 일반화되는 공유 결합 메커니즘을 학습하지 못하게 할 가능성이 있다. 이후 이러한 한계가 근본적인지 질문하며, 그렇지 않음을 보인다. 제어된 트랜스포머 모델을 처음부터 훈련할 때, 충분한 데이터 커버리지가 있으면 결합 일반화가 나타난다. 이러한 모델은 개념 간 곱셈 상호작용을 특징으로 하는 저복잡성 결합 함수를 학습하여 체계적인 일반화를 가능하게 한다. 코드는 https://github.com/oshapio/binding-concepts-complexity에서 공개되어 있다.
자기 지도 학습 기반 신규 시점 합성(NVS)은 비디오 데이터가 풍부함에도 불구하고 확장에 어려움을 겪고 있으며, 이는 주로 실제 비디오에 대한 훈련의 취약성과 다중 네트워크 시스템 설계의 예측하기 어려운 확장 동작 때문이다. 본 연구에서는 RayDer를 제안한다. RayDer는 카메라 추정, 장면 재구성 및 렌더링을 단일 백본으로 통합한 피드포워드 트랜스포머로, 자기 지도 학습 NVS를 잘 정의된 단일 모델 확장 문제로 전환한다. 성가신 요소로 처리되는 최소한의 동적 상태는 시간에 따라 변하는 콘텐츠를 흡수하여 제약 없는 실제 비디오에서 안정적인 훈련을 가능하게 한다. 중요하게도, RayDer는 정적 장면 NVS를 목표 작업으로 유지한다. 즉, 동적 콘텐츠는 동적 장면(4D) NVS에서처럼 재구성되지 않고 순전히 확장 가능한 감독 신호로 활용된다. 여러 모델 크기와 데이터 규모에 걸쳐 RayDer는 데이터 및 컴퓨팅 자원에 대해 깔끔한 멱법칙 스케일링을 보이며, 정적 장면 데이터 혼합을 능가한다. 또한 많은 벤치마크에서 RayDer는 최신 지도 학습 접근법과 경쟁력 있는 강력한 제로샷 오픈셋 성능을 달성한다. 프로젝트 페이지: https://compvis.github.io/rayder
최근 연구 발전을 통해 자기회귀 체계에서 실시간 대화형 동영상 생성이 상당히 개선되었다. 그러나 기존의 대부분 저단계 자기회귀 동영상 생성 방법은, 종종 해당하는 다단계 교사 모델로부터 증류된 것인데, 기본적으로 4단계 샘플링 구성을 사용하여 배포 시 상당한 지연 시간을 초래하며, 샘플링 단계가 더욱 줄어들 경우, 특히 일단계 설정에서 심각한 품질 저하를 겪는다. 궤적 스타일 일관성 증류 방법은 종종 역학이 약한 동영상을 생성하는 반면, Self-Forcing과 같은 DMD 기반 접근법은 흐릿한 프레임을 생성하는 경향이 있다. 이 문제를 해결하기 위해, 우리는 고품질의 효율적인 일단계 동영상 생성에 DMD 목적함수를 보조 GAN 손실로 보강하는 간단하면서도 효과적인 접근법인 One-Forcing을 제안한다. VBench 실험 결과, One-Forcing은 총점 83.76을 달성하여 일단계 인과적 동영상 생성 방법 중 최첨단 성능을 확립했으며, 강력한 다단계 방법들과도 경쟁력을 유지했다. 또한, 기존 방법들이 성공적으로 달성하지 못했던 설정인 청크 단위 모델의 3분의 1의 훈련 비용만으로도 안정적으로 일단계 프레임별 자기회귀 생성이 가능함을 입증한다.
스킬, 즉 대규모 언어 모델(LLM)을 위해 정제된 구조화된 워크플로우 명령어는 실제 하위 작업에서 에이전트 성능을 향상시키는 점점 더 중요한 메커니즘으로 자리 잡고 있습니다. 그러나 오픈소스 스킬 생태계가 급속도로 확장됨에 따라, 서로 다른 모델과 에이전트 프레임워크가 스킬과 어떻게 상호작용하는지, 스킬 품질을 어떻게 평가해야 하는지, 사용자가 실용적인 비용-성능 트레이드오프 하에서 어떻게 스킬을 선택해야 하는지는 여전히 불명확합니다. 본 논문에서는 스킬 증강 에이전트 시스템과 스킬 자체를 모두 평가하기 위한 자동 평가 프레임워크인 OpenSkillEval을 제시합니다. OpenSkillEval은 정적 벤치마크에 의존하는 대신, 프레젠테이션 생성, 프론트엔드 웹 디자인, 포스터 생성, 데이터 시각화, 보고서 생성 등 다섯 가지 범주의 하위 응용 분야에 걸쳐 진화하는 실제 세계 산출물로부터 사실적인 작업 인스턴스를 자동으로 구축합니다. 또한, 통합된 작업 설정 하에서 통제된 비교를 위해 커뮤니티에서 기여한 스킬을 수집하고 체계화합니다. 600개 이상의 동적으로 생성된 작업 인스턴스와 30개의 오픈소스 스킬을 활용하여 최첨단 모델과 에이전트 프레임워크에 대한 체계적 평가를 수행했습니다. 실험 결과는 스킬 가용성이 효과적인 스킬 사용을 보장하지 않으며, 스킬 증강의 이점이 기반 모델과 에이전트 프레임워크 모두에 크게 의존한다는 점, 그리고 많은 공개적으로 인기 있는 스킬이 스킬이 없는 기본 에이전트보다 일관되게 우수한 성능을 보이지 않는다는 점을 보여줍니다. 이러한 발견은 동적이고 작업에 기반한 평가의 필요성을 강조하며, LLM 에이전트를 위한 스킬의 설계, 선택 및 배포에 대한 실용적인 통찰력을 제공합니다. 추가 사례와 벤치마크 자료는 프로젝트 웹사이트(https://yingjiahao14.github.io/OpenSkillEval-Web/)에서 확인할 수 있습니다.
자율적 언어 모델 에이전트의 모니터링은 현재 주로 표면적 행동에 의존하고 있다. 하지만 에이전트 집단이 인간의 감독을 회피할 목적으로 새로운 언어를 발명한다면 어떤 일이 발생할까? 본 연구에서는 Moltbook에서의 출현적 언어를 분석한다. 이를 위해 Moltbook Files 데이터셋을 기반으로 규칙 기반 휴리스틱(약 6,000개 일치) 후 영샷 분류(518개 유지)로 구성된 2단계 접근법을 적용한다. 결과 범주에는 토큰 효율성(166), 새로운 자연어(106), 감독 회피(59)가 포함된다. 정량적 및 정성적 분석을 모두 수행했다. 분석 결과, 감독 회피를 위한 새로운 언어를 제안하는 게시물은 DeepSeek-3.2에 의해 다른 범주보다 덜 정렬된 것으로 판단되었으며, 모든 언어는 언어에 대한 설명만으로도 다른 언어 모델이 문맥 내 학습을 통해 습득할 수 있음을 확인했다. 또한, 사례 연구를 통해 자연어에 은닉 메시지를 삽입하는 등 놀라울 정도로 정교한 스테가노그래픽 프로토콜이 발견되었다. 이러한 언어 발상의 자율성 정도를 확신할 수는 없지만, 본 연구 결과는 표면적 행동 모니터링만으로는 에이전트 집단에 대한 통제력을 유지하기에 곧 충분하지 않을 수 있다는 증거를 추가한다.
언어 모델 정렬을 위한 강력한 보상 모델(RM) 구축은 인간 주석 또는 판별 모델로부터 다양하고 신뢰할 수 있는 선호 데이터를 획득하는 비용과 어려움으로 인해 병목 현상에 직면해 있다. 특히 정책이 정적 RM 훈련을 넘어 진화함에 따라 이러한 문제는 훨씬 더 심각해진다. 이에 따라 우리는 SAVE(가치 고정 온-정책 피드백을 통한 자기 지도 보상 모델 개선) 프레임워크를 제안한다. 이는 온-정책 RM 훈련을 위해 가치 함수를 사용하여 온-정책 응답을 피드백으로 평가한다. SAVE는 보상 평가된 온-정책 응답을 적응형 앵커 역할을 하는 프롬프트 특정 가치 헤드를 사용하여 감독 신호로 자연스럽게 변환한다. 또한 RM 이점을 계산하고 모호한 샘플을 필터링하여 대조 목적 함수를 통해 RM을 업데이트한다. SAVE가 RM 훈련 향상에 미치는 효과는 여섯 가지 다양한 벤치마크에 걸친 엄격한 실증 평가를 통해 강력히 검증되었다. 이는 모든 데이터셋에서 우수한 결과를 달성할 뿐만 아니라 세 가지 RL 알고리즘(GRPO, RLOO, GSPO)과 다양한 정책 백본에서 일관된 개선을 유지한다.
자율적 AI 연구 에이전트는 가설 생성부터 동료 검토에 이르는 연구 파이프라인을 자동화하여 과학적 발견을 가속화하는 것을 목표로 한다. 그러나 기존 벤치마크는 시간과 계산 자원을 소비하기 전에 대규모 언어 모델이 연구 아이디어의 방법론적 실행 가능성을 판단할 수 있는지 여부라는 근본적인 병목 현상을 거의 테스트하지 않는다. 본 연구에서는 ICLR 제출 논문에서 재구성된 1,099개의 머신러닝 연구 제안서로 구성된 큐레이션 벤치마크인 SoundnessBench를 소개한다. 이는 검토자의 건전성 하위 점수로 레이블링되었으며 원본 논문에 대해 감사를 수행하였다. SoundnessBench는 전체 논문 검토 결과의 정확한 예측이 아닌, 제안 단계에서의 회복 가능한 건전성을 평가하기 위한 벤치마크로 해석되어야 한다. 12개의 최첨단 LLM을 대상으로 한 실험에서 보편적인 낙관 편향이 관찰되었다. 즉, 표준 프롬프팅 하에서 모델은 낮은 건전성의 제안을 건전하다고 평가하는 경우가 빈번했으며, 공격적인 프롬프팅은 주로 오류를 거짓 양성에서 거짓 음성으로 이동시켰다. 공개 코퍼스 오염, 논문 식별 구문, 표면적 특징 및 인간 감사 품질에 대한 추가 통제는 이러한 행동이 단일 혼란 변수로 설명되지 않음을 시사한다. 본 결과는 현재 LLM이 과학적 엄격성을 위한 독립적인 1차 게이트 평가자로서 아직 신뢰할 수 없음을 나타낸다.
강화 학습(RL)은 확산 대규모 언어 모델(dLLM)의 정책(잡음 제거기)을 개선하는 데 사용될 수 있지만, 정책 가능도의 난해성으로 인해 방해를 받습니다. 지배적이고 효율적인 방법군은 표준 RL의 가능도를 무작위 마스킹된 시퀀스로부터 추정된 증거 하한(ELBO)으로 대체합니다. 사전 학습과 잘 정렬되어 있음에도 불구하고, 이러한 접근 방식은 ELBO를 가능도 대리자로 사용하여 훈련-추론 불일치를 통해 편향을 도입하며, 이는 성능을 저하시킬 수 있습니다. 본 연구에서는 역 KL 정규화 강화 학습의 폐쇄형 최적해로부터 도출된 이점 기반 자기 교사로부터 dLLM의 잡음 제거기를 직접 증류하는 GDSD(Guided Denoiser Self-Distillation)를 제안합니다. GDSD는 정규화 없는 목적 함수를 통해 dLLM의 잡음 제거기 로짓을 교사의 로짓과 일치시킴으로써, RL을 가능도 없는 자기 증류로 축소하여 TIM 편향을 우회합니다. 최근 ELBO 기반 방법들은 서로 다른 증류 발산을 적용한 사례로 나타나지만, GDSD가 회피하는 진단 가능한 병리 현상을 가지고 있습니다. LLaDA-8B 및 Dream-7B를 사용한 계획, 수학, 코딩 벤치마크에서 GDSD는 더 안정적인 훈련 보상 동적을 통해 이전 최첨단 ELBO 기반 방법들을 일관되게 능가하며, 최대 +19.6%의 테스트 정확도 향상을 달성합니다. 이러한 결과는 ELBO 가능도 대리자에 의존하지 않는 직접적인 잡음 제거기 자기 증류가 dLLM에 대해 더 안정적이고 효과적인 RL 절차를 제공할 수 있음을 시사합니다. 코드는 https://github.com/GaryBall/GDSD에서 확인할 수 있습니다.
본 연구는 에이전트 인공지능(agentic AI)에서 모델 스케일링뿐만 아니라 시스템 스케일링이 다음 주요 병목임을 분석하며, 기반 모델(foundation model) 주변에 감사 가능하고, 지속 가능하며, 모듈식이고, 검증 가능한 아키텍처의 설계를 다룬다. 본 연구는 이러한 변화를 하네스 스케일링(scaling the harness)이라고 지칭한다. 이는 기반 모델을 둘러싼 구조화된 실행 계층을 설계, 평가 및 최적화의 일급 객체로 취급하는 것이다. 최근 대규모 언어 모델은 에이전트가 도구를 사용하고, 정보를 검색하며, 메모리를 유지하고, 장기 작업 흐름을 실행할 수 있게 하지만, 평가는 여전히 대부분 모델 중심적이다. 종종 에이전트를 최종 작업 성공으로 축소하면서 메모리, 검색, 도구 사용, 오케스트레이션, 검증 및 거버넌스를 부차적인 구현 세부 사항으로 취급한다. 이러한 접근 방식은 점점 더 부적절해지고 있는데, 이는 에이전트 성능이 기반 모델, 메모리 기반, 컨텍스트 구성기, 스킬 라우팅 계층, 오케스트레이션 루프, 그리고 검증 및 거버넌스 계층 간의 상호작용에서 발생하기 때문이다. 이러한 구성 요소들은 함께 에이전트 하네스(agent harness)를 형성하며, 이는 모델의 능력을 장기적인 에이전트 행동으로 변환한다. 본 연구는 컨텍스트 거버넌스, 신뢰할 수 있는 메모리, 동적 스킬 라우팅이라는 세 가지 핵심 병목과 이를 조정하고 제약하는 오케스트레이션 및 거버넌스 메커니즘을 통해 하네스 스케일링을 탐구한다. 나아가 단일 시점 작업 성공을 넘어 궤적 품질, 메모리 위생, 컨텍스트 효율성, 통신 충실도, 검증 비용, 시간에 따른 안전한 진화를 측정하는 하네스 수준의 벤치마크를 위한 연구 의제를 제시한다. 논의를 구체화하기 위해 Python 네이티브 참조 하네스인 CheetahClaws(https://github.com/SafeRL-Lab/cheetahclaws)를 개발하고, 이를 Claude Code 및 OpenClaw와 비교한다. 본 연구의 주요 주장은 에이전트 인공지능의 미래 발전이 더 강력한 기반 모델뿐만 아니라 시스템 설계에 동등하게 의존할 것이라는 점이다.
미디어 압축 표준은 율-왜곡-복잡도 트레이드오프 측면에서 정체 상태에 이르렀으며, 이는 로보틱스, 웨어러블, 원격 탐사와 같은 응용 분야에서 고비용 AI 인식을 클라우드에 오프로드하는 능력을 제한한다. DNN 기반 코덱은 압축 효율을 향상시키지만, 사용 가능한 비트레이트의 큰 변화에 쉽게 적응하지 못하고, 실시간 인코딩에는 고비용·고전력 GPU가 필요하여 저비용 또는 자원 제약 플랫폼에서의 사용이 불가능하다는 단점이 있다. 이러한 한계를 해결하기 위해, 우리는 전체 입력(Full input)을 사용하여 투사 추적 인코더(Projection Pursuit Encoder)를 통해 잔차 출력(Residual output)을 예측하는 새로운 자동 인코딩 프레임워크(FRAPPE)를 제안한다. FRAPPE의 인코딩 목적 함수는 자연스럽게 잠재 채널을 중요도 순으로 정렬하여 오버헤드 없는 가변 비트율 코딩을 가능하게 한다. 이전 재구성의 잔차를 소비하는 RNN 기반 학습형 코덱이나 코드북을 순차적으로 적용해야 하는 RVQ 방식 코덱과 달리, FRAPPE의 분석 경로는 독립적인 입력 투사들로 구성된 손쉽게 병렬화 가능한 DAG이다. FRAPPE를 사용하여 가변 비트율 RGB 이미지 코덱(FRAPPE-Image)을 구축하고, 표준 이미지 코덱과의 율-왜곡-복잡도 트레이드오프를 평가한다. 높은 압축률(약 0.1 bpp)에서 FRAPPE-Image는 AVIF보다 47배 빠른 인코딩 속도로 더 높은 지각적 품질을 제공하며, 이는 CPU 전용으로 1080p, 30fps의 실시간 인코딩을 가능하게 한다. 우리의 코드와 사전 훈련된 모델은 https://github.com/UT-SysML/FRAPPE 에서 확인할 수 있다.
시각적 근거 연쇄 추론(Visually Grounded Chain-of-Thought, CoT)은 다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 미세한 인식 능력을 향상시키기 위한 유망한 패러다임으로 부상했지만, 추론 단계에서의 효용성은 충분히 탐구되지 않았다. 본 연구에서는 추론 시 명시적 객체 경계 상자를 강제하는 시각적 근거 CoT가 명시적 시각적 근거 없이 추론하는 표준 텍스트 기반 CoT에 비해 성능을 저하시키는 경우가 많음을 실증적으로 발견했다. 우리는 시각적 위치 파악 능력이 텍스트 기반 CoT에 내재화될 수 있으며, 강제적인 명시적 근거가 답변 예측이라는 모델의 주요 목표에 불필요한 간섭을 초래한다고 가정한다. 이 문제를 해결하기 위해, 우리는 위치 파악 능력을 텍스트 추론 과정으로 전이하는 새로운 강화 학습 프레임워크인 iVGR(Internalizing Visually Grounded Reasoning)를 제안한다. 우리는 텍스트 흐름과 고품질의 시각적 근거 흐름을 제안된 일관성 보상을 통해 정렬하는 이중 흐름 학습 전략을 채택하여, 모델이 추론 중 명시적 근거 없이도 정확하게 위치를 파악할 수 있도록 한다. 광범위한 실험을 통해 우리의 방법이 미세한 벤치마크에서 기존 기준선을 크게 능가하면서도 도구 지원 추론 워크플로를 유연하게 지원할 수 있음을 입증한다.
커넥터 기반 통합 비디오 모델은 명령 기반 비디오 합성에서 강력한 성능을 입증했지만, 대규모 고충실도 생성기를 통합 학습 루프에 포함하는 것은 계산적으로 부담스러워 실현 가능한 시각적 품질에 한계가 있다. 따라서 우리는 Lumos-Nexus를 제안한다. 이는 학습 효율적인 통합 비디오 생성 프레임워크로, 강력한 추론 기반 생성 능력을 개발하면서 시각적 충실도를 크게 향상시킨다. Lumos-Nexus는 두 단계 설계를 채택한다: 1) 학습 중에는 경량 생성기만 이해 블록과 정렬되어 추론 기반 의미 제어를 입력받는 법을 학습한다. 2) 추론 중에는 UPFB(Unified Progressive Frequency Bridging)를 도입하여 공유 잠재 공간에서 점진적으로 생성을 고용량 사전 학습 생성기로 이관함으로써, 대략적에서 세밀한 정제(coarse-to-fine refinement)를 가능하게 하여 추론 품질을 손상시키지 않으면서 고충실도 비디오를 생성한다. 추론 기반 비디오 생성 벤치마크의 공백을 메우기 위해, 우리는 VR-Bench를 도입한다. 이는 모델이 추론된 의도를 일관되고 의미적으로 정렬된 비디오 콘텐츠로 변환하는 능력을 평가한다. 광범위한 실험을 통해 Lumos-Nexus가 VBench에서 시각적 사실성과 시간적 일관성에서 상당한 향상을 달성하고, VR-Bench에서 강력한 추론 기반 생성 성능을 보여줌을 입증한다. 코드와 모델은 https://jiazheng-xing.github.io/nexus-lumos-home/에서 확인할 수 있다.
대규모 언어 모델은 사용자나 환경이 반복적으로 가벼운 피드백을 제공할 수 있는 다중 턴 상호작용 환경에 점차 널리 배포되고 있다. 그러나 이러한 행동을 최적화하는 것은 실제로 뚜렷한 딜레마를 야기한다. 온라인 강화 학습은 다중 턴 동역학을 효과적으로 처리할 수 있지만, 매 갱신마다 전체 교정 궤적을 생성하는 비용이 과도하게 높아 실용적이지 않은 반면, 오프라인 지도 학습 기반 미세 조정(SFT)은 효율적이지만 분포 변화와 행동 붕괴를 겪는다. 이에 본 연구는 KL 정규화된 강화 학습 목적 함수가 중요도 가중 지도 학습과 동등하다는 이론적 통찰을 구현하는 프레임워크인 DRIFT(Decoupled Rollouts and Importance-Weighted Fine-Tuning, 분리된 롤아웃 및 중요도 가중 미세 조정)를 새롭게 제안한다. DRIFT는 고정된 참조 정책에서 오프라인 상호작용 궤적을 샘플링하고, 반환 기반 중요도 가중치를 도출한 후, 결과 데이터셋에 가중치가 적용된 SFT를 통해 정책을 최적화함으로써 롤아웃과 최적화를 분리한다. 실험적으로, DRIFT는 표준 지도 학습 기반 미세 조정의 훈련 효율성과 단순성을 유지하면서 다중 턴 강화 학습 기준선의 성능과 일치하거나 이를 능가함을 입증한다. 코드는 https://github.com/2020-qqtcg/DRIFT 에서 확인할 수 있다.
머신 언러닝 평가는 구조적으로 편향되어 있다. 인과 및 관계 지식을 탐구하는 Why 유형 질문은 CounterFact의 0.06% 미만, ZSRE의 0.6% 미만, TOFU, MUSE, WMDP-Cyber의 1.3% 미만을 차지한다. 이러한 거의 제로에 가까운 비율은 인과 지식에 실패하는 방법들이 종합적으로 높은 점수를 받을 수 있음을 의미하며, 이러한 실패는 균형 잡힌 평가 없이는 탐지 불가능하다. 본 연구에서는 5W 범주(누가, 무엇을, 언제, 어디서, 왜)당 1,000개의 예제로 구성된 균형 잡힌 5,000개 샘플 벤치마크인 5WBENCH를 제시하여, 인과적 언러닝 실패를 처음으로 정량화할 수 있게 한다. 5WBENCH를 사용하여, 기존의 어떤 기준선도 Why 유형 질문에서 높은 망각과 높은 유지를 동시에 달성하지 못함을 보여준다. 공격적인 망각은 유지된 지식을 저하시키는 반면, 보수적인 방법은 인과적 사실을 망각하지 못한다. Why 유형의 어려움은 다중 홉 추론 체인(Why 항목의 44% 대 다른 항목의 2% 이하)과 40.1 토큰 답변 범위에 걸친 그래디언트 희석에서 비롯된다. 본 연구에서는 MAAT(Multi-phase Adapter-Aware Targeted Unlearning)를 제시한다. 이는 LoRA 어댑터 가중치에 대해 작동하는 3단계 프레임워크로, 그래디언트 투영 상승, SVD 순위 차원 가지치기, 작업 벡터 부정, 하이브리드 KL-은닉 상태 유지 복구를 결합한다. MAAT는 Why 유형 인과 지식에 대해 높은 망각과 높은 유지를 동시에 달성한 첫 번째 방법으로, 망각-유지 파레토 프론티어에서 새로운 작동 지점에 도달한다. 본 연구는 코드를 공개한다.
객체 계수는 범용 비전 모델의 급속한 발전에도 불구하고 도메인 특화 데이터셋과 작업 공식에 걸쳐 분산된 상태로 남아 있다. 기존 계수 모델은 종종 군중, 차량, 세포, 작물, 원격 감지 객체 등 특정 시나리오에 맞춰져 있어, 카테고리, 시각적 도메인, 객체 규모 및 밀도 분포에 걸쳐 일반화하는 데 어려움을 겪는다. 본 논문에서는 모델이 이미지와 자연어 질의를 입력으로 받아 개수를 나타내는 인스턴스 기반의 대상 점 집합을 반환하는 도메인 간 텍스트 기반 객체 계수를 연구한다. 이 공식은 카테고리 조건부 계수를 해석 가능한 공간적 위치 식별과 통합한다. 이러한 설정을 지원하기 위해, 우리는 다양한 공개 데이터 소스를 통합 벤치마크로 재구성한 CLOC(Cross-domain Large-scale Object Counting) 데이터셋을 구축한다. CLOC는 일반 장면, 원격 감지, 조직병리학, 세포 현미경, 농업, 미생물학의 여섯 가지 시각적 도메인을 포괄하며, 약 22만 개의 이미지, 619개의 카테고리, 1500만 개의 객체 인스턴스를 포함한다. CLOC를 기반으로, 우리는 텍스트 기반 객체 계수를 위한 범용 모델인 Count Anything을 제안한다. 계수 모델을 지배하는 밀도 맵 기반 방법과 달리, Count Anything은 이산 인스턴스 점을 채택하고 이중 세분화 인스턴스 열거를 수행한다. 영역 수준 희소 카운터는 크고 희소한 대상에 대해 객체 수준의 앵커를 제공하며, 픽셀 수준 밀집 카운터는 밀집 점 예측을 통해 작고 밀집되며 경계가 약한 대상을 처리한다. 점 중심 지도 전략은 이질적 주석으로부터 학습을 가능하게 하며, 보완적 계수 융합(Complementary Count Fusion)은 두 카운터를 매개변수 없이 결합한다. 광범위한 실험을 통해 Count Anything이 강력한 정확도와 다중 도메인 일반화를 달성하여 기존의 개방형 세계 계수 방법을 능가함을 보여준다. 코드는 https://github.com/Mengqi-Lei/count-anything에서 확인할 수 있다.
대중교통 네트워크를 설계하려면 많은 순차적 노선 확장 결정이 필요하지만, 그 품질은 종종 전체 네트워크가 완성된 후에야 드러난다. 이러한 지연된 피드백 문제는 대중교통 노선 네트워크 설계 문제(TRNDP)의 핵심에 자리 잡고 있으며, 노선 간 상호작용은 기만적일 수 있다. 즉, 국소적으로는 유용해 보이는 확장이 환승 병목을 만들거나, 중복 구간을 발생시키거나, 전체 처리량을 감소시킬 수 있다. 지연된 시뮬레이터 피드백 하에서의 노선 구축을 안내하기 위해, 우리는 도시 규모 버스 네트워크 설계를 위한 탐색 기반 계획 프레임워크인 AlphaTransit을 도입한다. AlphaTransit은 몬테카를로 트리 탐색(MCTS)과 신경망 정책-가치 네트워크를 결합한다. 정책은 노선 확장을 제안하고, 가치는 하류 설계 품질을 추정하며, 탐색은 이러한 예측을 활용하여 각 결정을 개선한다. 이를 통해 탐색 트리 내에서 시뮬레이터 롤아웃을 실행하지 않고도 노선 구축 중 의사결정 시점의 선행 탐색이 가능하다. 우리는 혼합 및 전체 대중교통 수요 설정 하에서 현실적인 도로 토폴로지와 인구조사 기반 수요를 갖춘 새로운 블루밍턴 TRNDP 벤치마크에서 AlphaTransit을 평가한다. 블루밍턴 네트워크에서 AlphaTransit은 두 수요 설정 모두에서 가장 높은 서비스율을 달성하여 각각 54.6%와 82.1%에 도달했다. 탐색 없는 강화학습과 비교하면 이는 각각 9.9%와 11.4%의 서비스율 향상에 해당하며, 학습된 안내 없는 MCTS와 비교하면 각각 2.5%와 11.2%의 향상에 해당한다. 이러한 결과는 학습된 안내와 MCTS의 결합이 대중교통 네트워크 설계에서 어느 한 접근법만 사용하는 것보다 더 효과적임을 시사한다. 우리의 코드와 데이터는 https://github.com/poudel-bibek/AlphaTransit에서 공개적으로 이용 가능하다.
최근 피드포워드 3D 재구성 방법은 포인트 맵을 예측하고 전역 3D 기하학을 놀랍도록 잘 추정한다. 그러나 이들의 예측은 여전히 부정확한 국소 표면 기하학을 보여주며, 이는 질적으로는 명확히 드러나지만 일반적인 지표에는 약하게 반영된다. 이러한 오류를 평가에서 더 명시적으로 드러내기 위해, 우리는 인접한 3D 예측으로부터 유도된 국소 표면 방향을 평가하는 포인트 맵 법선 메트릭을 도입한다. 이러한 오류를 줄이기 위해, 우리는 두 가지 상호 보완적인 구성 요소를 제안한다: 깊이 정규화된 3D 유한 차분을 감독하는 포인트 그래디언트 매칭 손실과, 점진적으로 특징을 업샘플링하고 국소 특징 혼합을 위해 이웃 주의(Neighborhood Attention)를 사용하는 이웃 주의 디코더(NAD)이다. 여덟 가지 제로샷 단안 기하학 벤치마크에서, 우리의 모델 SurGe는 전역 포인트 맵 AbsRel에 대해 최고 평균 순위를 달성하고, 국소 포인트 맵 및 포인트 맵 법선 평가를 일관되게 개선한다.
대규모 시각-언어 모델(LVLM)의 등장은 비디오 이해 능력을 크게 발전시켰습니다. 그러나 기존 벤치마크는 동작 분할, 분류, 캡셔닝, 검색과 같은 거친 수준의 과제에 주로 초점을 맞추고 있습니다. 더욱이 이러한 벤치마크는 가정용 물건, 동물, 사람 등과 같이 언어적으로 쉽게 식별할 수 있는 개체에 의존하는 경우가 많아, 복잡한 현장 비디오 시나리오에 적용하기 어렵습니다. 그러나 가구 조립, 요리 등과 같은 많은 애플리케이션에서는 비디오에 대한 단계별 세밀한 시공간 이해가 필요하지만, 현재 벤치마크에서는 이를 충분히 평가하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 가구 조립 과제에 초점을 맞춘 새로운 벤치마크인 Flat-Pack Bench를 소개합니다. 우리의 벤치마크는 조립 동작의 시간적 순서, 조립 상태의 시간적 위치 파악, 부품 결합 이해 및 추적과 같은 미묘한 과제에 대해 LVLM을 평가하며, 세밀한 질문에 대한 참조로 관련 부위를 강조하는 시각적 프롬프트와 함께 객관식 질문을 사용합니다. 실험 결과, 최첨단 LVLM은 세밀한 시공간 추론에 상당히 어려움을 겪으며, 비디오의 시간 정보를 효과적으로 활용하는 능력, 추적 능력의 한계, 물리적 접촉과 같은 공간적 상호작용 이해의 부족을 드러냈습니다.
확산 언어 모델은 마스크된 토큰 시퀀스를 반복적으로 디노이징하여 텍스트를 디코딩하므로, 디코딩할 위치를 선택하는 것이 추론 시점의 핵심 결정 사항이다. 대부분의 학습 비필요 디코딩 전략은 모델 신뢰도를 활용하여 위치를 선택하며, 높은 신뢰도를 가진 위치가 디코딩될 준비가 되었다고 가정한다. 본 연구에서는 이러한 가정을 재검토하여 신뢰도가 완전 비자기회귀(완전 비-AR) 디코딩을 오도하는 경우를 분석한다. EOT 토큰은 높은 신뢰도를 받아 불완전한 생성을 초래할 수 있으며, 접미사 앵커를 삽입하면 이 문제를 완화할 수 있지만 앵커 근처에서 국지적 과신뢰를 유발하여 앵커에 인접한 토큰이 너무 일찍 디코딩되게 만든다. 이러한 문제를 해결하기 위해 본 연구는 접미사 앵커 기반 신뢰도 변조(Suffix-Anchored Confidence Modulation)를 제안한다. 이는 간단한 학습 비필요 방법으로, 짧은 접미사 앵커를 삽입하여 응답 완성을 촉진하고 디코딩 진행 상황에 따라 앵커 근처의 신뢰도를 조절한다. 이를 통해 접미사 앵커의 응답 완성 이점을 유지하면서 앵커에 인접한 토큰의 조기 디코딩을 줄인다. 텍스트 전용 추론, 시각-언어 추론, 코드 생성 벤치마크에서 제안 방법은 신뢰도 기반 완전 비-AR 디코딩을 지속적으로 개선하고, 명시적 EOT 억제보다 우수한 성능을 보이며, 완전 비-AR 생성의 병렬 디코딩 이점을 유지한다.
표준 그래프적 가정 하에서, 목표 변수의 마르코프 경계(Markov boundary)는 다른 모든 특징을 중복되게 만드는 가장 작은 특징 집합이다. 경계가 관측되면 목표 변수는 테이블의 나머지 부분과 조건부 독립이 된다. 이는 테이블 형식 예측에 있어 매력적인 대상인데, 모델이 필요로 하는 정확한 열들을 명시해 주기 때문이다. 그러나 현대의 회귀 모델들은 여전히 전체 특징 집합에 대해 훈련된다. 우리는 마르코프 경계가 SCM3K(3,450개의 과제로 구성된 합성 SCM 벤치마크로, 특징 수는 40에서 1000까지이고 여섯 가지 SCM 계열을 포함하며, 여섯 가지 회귀 모델로 평가됨)에서 예측에 실질적으로 유용한지 질문한다. 답은 이론이 시사하는 것보다 더 미묘하다. 회귀 모델을 오라클 경계(oracle boundary)로 제한하면 예측이 상당히 개선되는 경우가 많으며, 특징 공간이 더 크고 희소해질수록 개선 폭이 커진다. 그러나 인과 발견(causal discovery)을 통해 경계를 복원하고 복원된 마스크로 훈련하는 자연스러운 파이프라인은 성과를 내지 못한다. 기존 추정기들은 경계가 가장 큰 도움이 되는 영역에 도달하기 전에 계산 예산을 소진하며, 설령 실행되더라도 전체 특징 집합을 능가하는 경우는 거의 없다. 우리는 이 현상을 세 가지 원인으로 설명한다. 발견은 예측보다 구조 복원(structural recovery)을 최적화한다. 거짓 음성(false negative)과 거짓 양성(false positive)은 예측 비용에서 급격히 비대칭적이다. 정확한 경계는 모든 특징을 능가하는 많은 특징 집합 중 하나일 뿐이다. 그런 다음 이러한 사실들이 예측 지향적 특징 선택(prediction-aligned feature selection)과 인과 구조를 학습하는 테이블 형식 모델에 대해 시사하는 바를 논의한다.
세포별 데이터셋에서 훈련된 세포 인스턴스 분할 모델은 분포 외 세포 유형에서 심각한 성능 저하를 겪는 반면, 대화형 기반 모델은 인스턴스별 프롬프트를 통해 이 문제를 극복하지만, 수백에서 수천 개의 빽빽하게 채워진 인스턴스를 포함하는 조직병리학 이미지에는 비용이 엄청나게 많이 듭니다. 우리는 대화형 분할을 인스턴스별 O(N)에서 유형별 O(T)로 전환하는 새로운 패러다임인 그룹 프롬프팅(Group Prompting)을 소개합니다. 이는 세포 유형당 한 번의 클릭으로 해당 유형의 모든 인스턴스를 분할하기에 충분합니다. 우리의 핵심 관찰은 Segment Anything Model(SAM)의 고정된 이미지 인코더가 프롬프트가 주어지기 전에 이미 특징 공간에서 동일 유형의 세포를 군집화한다는 것입니다. 이 특성을 활용하여, 우리는 훈련이 필요 없는 프레임워크인 Chain-of-Prompts(CoP)를 제안합니다. 이는 단일 사용자 클릭을 (1) 다중 스케일 인코더 특징의 비모수적 게이팅을 통해 신뢰할 수 있는 동일 유형 위치를 식별하고, (2) 공간적으로 가장 먼 신뢰할 수 있는 지점을 다음 프롬프트로 선택하여 커버리지를 최대화하는 방식으로 재귀적으로 확장합니다. 세 가지 세포 유형 주석 벤치마크에서 유형당 한 번의 클릭으로 CoP는 인스턴스별 성능의 90% 이상을 유지하며, 추가 훈련 없이 완전 지도 방법을 능가합니다. 네 가지 형태적으로 균일한 벤치마크에서는 단일 클릭으로 99% 이상을 유지합니다. 프로젝트 페이지: https://shjo-april.github.io/Chain-of-Prompts/
대화형 비디오 세계 모델은 사용자가 제어하는 카메라 움직임에 응답하여 비디오 청크를 생성함으로써 실시간 게임 시뮬레이션, 가상 장면 탐색, 체화된 AI 훈련과 같은 응용을 가능하게 합니다. 그러나 긴 대화형 궤적으로 확장하는 것은 증가하는 컨텍스트 메모리, 이차 어텐션 복잡성, 반복적인 노이즈 제거 단계로 인해 엄청난 비용이 듭니다. 우리는 대화형 비디오 세계 모델을 위한 학습 없는 추론 가속 프레임워크인 Light Interaction을 제시합니다. 우리의 핵심 통찰은 상호작용이 궤적 의존적 적응 연산을 자연스럽게 가능하게 한다는 것입니다: 새로운 탐색 중에는 검색된 공간 메모리를 폐기할 수 있고, 국소 잠재 역학에 따라 시간적 컨텍스트를 조정할 수 있으며, 카메라가 익숙한 영역을 다시 방문할 때 초기 단계의 모델 출력을 재사용할 수 있습니다. 이 통찰을 바탕으로 Light Interaction은 적응형 컨텍스트 관리, 노이즈 제거 캐시 가속, 그리고 융합된 Triton 커널을 갖춘 하드웨어-소프트웨어 공동 설계 3D 블록 희소 어텐션을 결합합니다. HY-WorldPlay 및 Matrix-Game-3.0에서 평가된 Light Interaction은 모델 재학습 없이 최대 2.59배의 속도 향상을 달성하면서 경쟁력 있는 시각적 품질을 유지합니다.
원격탐사 구성 이미지 검색(RSCIR)은 참조 이미지와 텍스트 수식어를 결합한 구성 질의를 통해 대규모 위성 이미지 아카이브를 검색할 수 있게 해준다. RSCIR은 목표 검색 의도를 표현하는 유연한 인터페이스를 제공하지만, 현대의 구성 방법이 지구 관측(EO) 영상으로 전이될 수 있는지와 운영적 EO 워크플로우와의 관련성은 아직 충분히 연구되지 않았다. 본 연구는 통합된 벤치마크와 응용 중심 연구를 통해 이러한 격차를 해소한다. 첫째, 표준화된 프로토콜 하에 PatternCom에서 여섯 가지 시각-언어 백본을 사용한 대표적인 구성 이미지 검색 방법을 체계적으로 적용 및 평가하여, 백본, 구성 전략, 질의 유형에 따른 동작을 분석한다. 둘째, 재난 및 피해 모니터링을 위한 변화 중심 데이터셋인 xView2-CIR을 소개하며, 여기서 검색은 현장 정체성과 목표 사후 상태에 조건화된다. 실험 결과, 학습 없는 구성 방법은 EO 검색에 강력하고 확장 가능한 기준선을 제공하는 반면, 변화 중심 검색은 특히 현장 정체성 유지 필요성으로 인해 속성 기반 검색과는 다른 과제를 제시한다. 전반적으로 본 연구는 RSCIR을 위한 실용적인 벤치마크를 구축하고, 구성 검색을 원격탐사 이미지 검색, 아카이브 탐색, 변화 분석을 위한 보완 도구로 자리매김한다. 데이터셋과 코드는 https://github.com/billpsomas/rscir에서 확인할 수 있다.
조건부 인간 동작 생성은 컴퓨터 비전과 로보틱스에서 여전히 근본적인 과제로 남아 있습니다. 상당한 진전에도 불구하고, 현재 방법들은 고정된 모달리티 구성과 작업별 아키텍처에 의해 종종 제약되어, 교차 모달 상호작용과 다중 모달 조건부 합성의 스케일링 법칙은 대체로 탐구되지 않은 상태로 남아 있습니다. 핵심 병목 현상은 대규모 모달리티 정렬 동작 데이터의 부족으로, 다양한 제어 신호에 걸친 일반화를 제한합니다. 본 연구에서는 5,000시간 이상의 동작과 320만 개의 시퀀스로 구성된 대규모 고품질 데이터셋 OmniHuMo를 소개하며, 이는 정밀하게 정렬된 다중 모달 주석(예: 텍스트, 음성, 음악, 궤적)을 포함합니다. OmniHuMo를 활용하여, 우리는 Residual FSQ 기반 동작 토크나이저와 확장 가능한 마스크 모델링 트랜스포머를 결합한 통합 다중 모달 프레임워크 AnyMo를 제안하며, 이를 통해 임의의 모달리티 조합 하에서 고품질 동작 합성을 가능하게 합니다. 광범위한 실험을 통해 AnyMo가 공간적 및 스타일적 속성 모두에 대한 유연한 제어를 제공하면서 고충실도 합성을 달성함을 보여줍니다.
무인항공기(UAV)를 지능형 교통 시스템(ITS)에 통합하면 교통 모니터링을 위한 광역적 가시성을 확보할 수 있지만, 다중 UAV 시야(FOV) 간 차량 식별 지속성이 상실되는 궤적 단편화로 인해 확장 가능한 배치가 어렵다. 최신 프레임워크는 단일 드론 영상에서의 로컬 궤적 추출 및 안정성 최적화에 탁월하지만, 종종 분리된 데이터 저장소 역할을 하여 단절된 궤적을 생성하므로 기종점 추정과 같은 네트워크 수준의 분석이 불가능하다. 본 논문은 글로벌 식별 지속성을 처리하도록 설계된 실시간 다중 카메라 다중 차량 추적(MCMT) 시스템을 제시한다. 수직 시점에서의 외형 기반 재식별(Re-ID)의 시각적 모호성과 계산 비용을 해결하기 위해, 경량의 토폴로지 기반 시공간 핸드오버 메커니즘을 도입한다. YOLO11 및 ByteTrack을 활용한 고처리량 병렬 파이프라인을 구현하여 동시 4K 스트림을 처리한다. 주요 기여는 기하학적 중첩과 가상 차선 이산화를 활용하여 FIFO 큐를 통해 식별 핸드오버를 예측적으로 관리하는 결정론적 큐 기반 매칭 알고리즘이다. 교차로 및 합류 교통량을 포함한 복잡한 도시 환경에서의 실험 결과, 연속 교통 흐름에서 99.8%의 핸드오버 성공률(HOSR)을 달성하여 Re-ID 기준 모델(74.1%)을 크게 능가하였으며, 엣지 배치 가능성을 검증하였다. 소스 코드는 https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system 에서 확인할 수 있다.
물리적 AI 시스템(로봇, 자율주행 차량, 임베디드 에이전트, 엣지 코파일럿 포함)은 종종 클라우드 LLM 서빙과 다른 추론 워크로드를 실행한다. 즉, 단일 스트림, 배치-1 자기회귀 디코드(single-stream, batch-1 autoregressive decode)로, 하나의 로봇, 카메라 피드 또는 사용자 세션이 다음 토큰을 기다리는 방식이다. 이 워크로드는 일반적으로 메모리 대역폭 제약(memory-bandwidth-bound)으로 설명된다. 각 디코드 단계는 모델 가중치와 활성 KV 캐시를 스트리밍하므로, 지연 시간은 최대 HBM 대역폭에 비례해야 한다. 우리는 이러한 설명이 사실이지만 불완전함을 보인다. 우리는 3개의 7B~8B급 GQA 트랜스포머에 대해 4개의 NVIDIA GPU(H100 SXM5, A100-80GB SXM4, L40S, L4)에서 배치-1 디코드를 측정했다. 컨텍스트 길이는 2048부터 16384까지 평가하여, 통제된 bf16 SDPA 설정에서 44개의 유효한 셀을 생성했다. 최대 HBM 대역폭 대비 달성 비율은 최대 대역폭이 높아질수록 낮아졌다. 주요 사례인 Qwen-2.5-7B ctx=2048 셀에서 L4는 분석적 메모리 하한(analytic memory floor)의 약 81%에 도달한 반면, H100은 27%에 불과했다. 물리적 AI 디코드는 메모리 중심적이지만, 더 빠른 메모리가 비례적인 지연 시간 개선으로 이어지지는 않는다. 우리는 CUDA Graphs A/B 실험을 통해 누락된 항을 테스트했다. H100에서 ctx=2048일 때, CUDA Graphs는 10개의 새로운 세션(N=10)에서 디코드 지연 시간을 1.259배 개선했으며, 95% 부트스트랩 신뢰 구간은 1.253~1.267이었다. L4에서는 동일한 개입이 1.028배의 개선만을 보였다. 이는 빠른 GPU에서 가시화되지만 느린 대역폭 제약 GPU에서는 대부분 숨겨져 있는 런칭 측 오버헤드(launch-side overhead)를 분리한다. 배포 시사점은 메모리 절감이 런타임이 이를 실제로 실현할 때만 의미가 있다는 것이다. L4에서 bf16 디코드는 메모리 하한에 근접하지만, 일반적인 양자화 경로는 예상되는 4배의 가중치 트래픽 감소를 회복하지 못한다. bnb-nf4는 59.36ms/step, AutoAWQ+Marlin은 62.32ms의 bf16 기준선에서 45.24ms/step에 도달한다. Ada-튜닝된 int4 커널을 사용하는 GPTQ+ExLlamaV2는 17.36ms/step에 도달한다.
그룹 이점 기반 강화 학습 방법(예: GRPO 및 DAPO)은 수학적 추론 및 텍스트-이미지 생성 등 다양한 영역에서 강력한 성능을 입증했다. 그러나 이러한 방법은 샘플 수준의 보상에 의존하기 때문에, 모든 토큰에 대해 동일한 크레딧 할당을 적용하여 세분화된 토큰 수준의 기여도를 포착하지 못하는 핵심적인 한계가 있다. 이 문제를 해결하기 위해, 우리는 긍정 및 부정 프롬프트 하에서 모델 예측을 대조하여 토큰별 크레딧 할당을 가능하게 하는 새로운 알고리즘인 Guidance Contrastive Policy Optimization(GCPO)을 제안한다. GCPO는 샘플 수준의 이점을 균일하게 분배하는 대신, 이러한 대조 예측 간의 차이에 비례하는 토큰 수준의 이점을 할당함으로써 더 정밀하고 유용한 학습 신호를 제공한다. 실험적으로, GCPO는 텍스트-이미지 생성에서 텍스트 프롬프트와 정렬된 시각적 영역과 같은 의미적으로 관련된 영역과, 사고 사슬(chain-of-thought) 과제에서 추론 과정 내의 중요한 키워드를 강조함을 확인하였다. 광범위한 실험을 통해 GCPO는 텍스트-이미지 생성 및 사고 사슬 추론 벤치마크 모두에서 GRPO 및 DAPO 기준선을 지속적으로 능가하며, 이산 정책 학습을 위한 일반적이고 확장 가능한 최적화 전략으로서의 효과성을 입증한다.
만약 AI 에이전트가 개인을 대신하여 결정을 내린다면, 그 결정은 사용자와 일치해야 한다. 본 연구에서는 시스템이 개인의 해석을 얼마나 충실히 포착하는지 측정하기 위해 대표 정확도(representational accuracy) 개념을 도입한다. 해석 층위는 행동 명세(Behavioral Specification)로 조작적으로 정의된다. 참조 구현은 개인의 데이터를 해석 패턴으로 공격적으로 압축하여 언어 모델에 컨텍스트로 제공한다. 우리는 교정된 5인의 판정자 LLM 패널이 평가한 보류된 행동 예측의 프로토타입 벤치마크에서 이 명세를 평가한다. 명세를 단독으로, 그리고 전체 원시 말뭉치, 전체 추출된 사실, 네 가지 상용 메모리 시스템(Mem0, Letta, Supermemory, Zep) 등 다양한 컨텍스트 조건과의 조합으로 테스트한다. 14개의 공개된 자서전 말뭉치를 대상으로 한 실험에서, 행동 명세는 전반적으로 대표 정확도를 향상시키고 모델의 얼버무림(hedging)을 거의 제거한다. 약 25배 적은 컨텍스트 비용으로 원시 말뭉치가 제공하는 성능의 대부분을 회복한다. 명세는 사전 학습 기준선과 관계없이 피험자들을 공통된 예측 수준으로 끌어올리며, 절대적 향상 폭은 기준선이 가장 낮은 곳에서 가장 크게 나타난다. 이는 이 접근법의 적용 대상이 사전 학습에서 충분히 대표되지 않은 모든 사람임을 시사한다. 향상은 해석이 필요한 질문에서 가장 두드러지는데, 해석 층위를 제공함으로써 추출된 사실이나 원시 말뭉치만으로는 불가능한 모델 행동이 가능해지기 때문이다. 반면, 회상이 필요한 질문에서는 이 층위가 도움이 되기보다 오히려 방해가 될 수 있다. 결론적으로, 대표 정확도는 회상과 구별되는 개념이며, 인간-AI 정렬은 사용자가 얼마나 정확하게 대표되는지에 의존한다. 대표 정확도는 그러한 정렬을 검증 가능하게 만든다.
행동 클로닝을 통한 시각-운동 정책 학습은 일반적으로 인간 조작자가 수집한 전문가 시연을 모방하는 것을 수반합니다. 그러나 자연스러운 인간 시연에는 간헐적인 급격한 움직임, 일시 정지, 동작 지터와 같은 고주파 노이즈가 본질적으로 포함되어 있습니다. 이러한 원시 궤적을 직접 모방하도록 정책을 훈련시키면 모델이 이러한 비최적 행동을 필연적으로 물려받게 됩니다. 이러한 병리는 특히 확산 기반 정책에서 두드러지며, 반복적인 잡음 제거 단계가 의미 있는 세부 정보를 희생하면서 고주파 인공물을 의도치 않게 증폭시킬 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 새로운 주파수 기반 알고리즘을 제시하여 암시적 스펙트럼 조작과 부드러운 동작 생성을 가능하게 합니다. 우리의 방법인 주파수 유도 연산자(FGO)는 확장되는 스펙트럼 대역을 가진 중간 하위 주파수 다양체를 통해 잡음이 있는 샘플을 점진적으로 구동함으로써 확산 정책의 생성 과정을 조종합니다. 5개 벤치마크의 15개 로봇 조작 작업에서 검증된 FGO는 성공적인 작업 실행에 필요한 세부 정보를 보존하면서 동작의 부드러움과 시간적 일관성을 향상시키는 데 뛰어난 성능을 달성합니다. 프로젝트 웹사이트: https://henrywjl.github.io/frequency-guidance-operator/
기존의 다변량 시계열 예측 연구는 복잡한 전체론적 모델 개발에 초점을 맞춰 왔으나, 본 연구는 이들의 영향에 대한 세분화된 구성 요소 수준의 이해로 전환할 것을 주장한다. 우리는 TSCOMP를 제안한다. 이는 심층 예측 방법을 시계열 전처리, 인코딩 전략, 특정 및 대규모 시계열 모델을 포함한 네트워크 아키텍처, 최적화 방법에 이르는 핵심적인 세부 구성 요소로 체계적으로 분해하는 최초의 대규모 벤치마크이다. 제약적 직교 실험 설계와 광범위한 평가를 활용하여, 다양한 백본, 데이터 특성 및 이들 간의 상호작용에 걸쳐 구성 요소의 효과성을 드러내는 다각적 분석을 수행한다. 통찰력을 제공하는 것 외에도, 이 벤치마크는 20,000개 이상의 모델-데이터셋 평가로 구성된 세분화된 성능 코퍼스를 구축하여 자동화된 구성 요소 선택 학습을 지원하며, 이를 통해 새로운 데이터셋에 대한 제로샷 모델 구축을 가능하게 한다. 실험 결과, 코퍼스 기반 접근 방식은 단순함에도 불구하고 최신 방법들을 일관되게 능가하여, 본 평가 설계의 타당성을 입증하고 체계적인 구성 요소 선택이 수동으로 설계된 복잡한 아키텍처를 능가함을 확인하였다. 모든 코드와 성능 코퍼스는 https://github.com/SUFE-AILAB/TSCOMP에서 공개적으로 이용 가능하다.