번역이 포함된 일일 선별된 AI 연구 논문
온-정책 자기 증류(on-policy self-distillation)는 학생 모델이 특권 맥락(privileged context, 예: 검증된 솔루션이나 피드백)에 조건화된 자신의 복사본으로 유도되는 방식으로, 더 강력한 외부 교사 없이 추론 능력을 향상시키는 유망한 방향을 제시한다. 그러나 수학 추론에서는 동일한 접근법이 다른 영역에서 성공함에도 불구하고 성능 향상이 일관되지 않는다. 점별 상호 정보량(pointwise mutual information) 분석은 이러한 실패의 원인이 특권 맥락 자체에 있음을 밝혀낸다. 이는 교사가 솔루션에 이미 함축된 토큰(구조적 접속사, 검증 가능한 주장)에 대한 신뢰도를 부풀리고, 다단계 탐색을 추진하는 숙고 토큰(deliberation tokens, "Wait", "Let", "Maybe")에 대한 신뢰도를 낮춘다. 우리는 학생과 교사 간의 발산(divergence)을 내려가는 대신 올라가는 Anti-Self-Distillation(AntiSD)을 제안한다. 이는 토큰별 부호를 반전시키고 한 단계에서 자연스럽게 경계 지어진 이점을 제공한다. 엔트로피 트리거 게이트(entropy-triggered gate)는 교사 엔트로피가 붕괴되면 항을 비활성화하여 기본 자기 증류의 드롭인 대체(drop-in replacement)를 완성한다. 4B에서 30B 파라미터까지의 다섯 가지 모델을 수학 추론 벤치마크에서 평가한 결과, AntiSD는 GRPO 기준선 정확도에 도달하는 데 필요한 훈련 단계 수를 2~10배 줄이고 최종 정확도를 최대 11.5포인트 향상시킨다. AntiSD는 언어 모델이 자체 훈련 신호를 통해 추론을 부트스트래핑하는 확장 가능한 자기 개선 경로를 연다.
과학적 발견의 자동화는 단순히 아이디어로부터 논문을 생성하는 것을 넘어선다. 실제 연구는 반복적이다. 가설은 여러 관점에서 도전받고, 실험은 실패하여 다음 시도에 정보를 제공하며, 교훈은 주기를 거쳐 축적된다. 기존의 자율 연구 시스템은 종종 이 과정을 선형 파이프라인으로 모델링한다. 즉, 단일 에이전트 추론에 의존하고, 실행 실패 시 중단하며, 실행 간에 경험을 전달하지 않는다. 우리는 AutoResearchClaw를 제시한다. 이는 다섯 가지 메커니즘으로 구축된 다중 에이전트 자율 연구 파이프라인이다: 가설 생성 및 결과 분석을 위한 구조화된 다중 에이전트 토론, 실패를 정보로 전환하는 Pivot/Refine 결정 루프를 갖춘 자가 치유 실행기, 조작된 수치와 환각 인용을 방지하는 검증 가능한 결과 보고, 완전 자율에서 단계별 감독까지 포함하는 일곱 가지 개입 모드를 통한 인간-루프 협업, 그리고 과거 실수를 미래 보호 장치로 전환하는 실행 간 진화. 25개 주제의 실험 단계 벤치마크인 ARC-Bench에서 AutoResearchClaw는 AI Scientist v2보다 54.7% 더 우수한 성능을 보인다. 일곱 가지 개입 모드에 걸친 인간-루프 제거 연구는 높은 영향력(high-leverage) 의사 결정 지점에서의 정확하고 표적화된 협업이 완전 자율성과 철저한 단계별 감독보다 일관되게 우수함을 보여준다. 우리는 AutoResearchClaw를 인간의 과학적 판단을 대체하기보다는 증강하는 연구 증폭기로 자리매김한다. 코드는 https://github.com/aiming-lab/AutoResearchClaw에서 확인할 수 있다.
비디오 이해가 가능한 다중모드 대규모 언어 모델(MLLM)의 급속한 발전에도 불구하고, 이러한 모델들의 동영상 내 오디오 이해는 종종 시각 중심적이라는 사실을 발견했다. 즉, 모델들은 오디오 스트림을 검증하기보다는 시각적 단서에 의존하여 청각 정보를 추론하거나 환각을 일으킨다. 이 문제는 최첨단 오픈소스 옴니 모델뿐만 아니라 Google 및 OpenAI와 같은 업체의 주요 클로즈드소스 모델에서도 나타난다. 우리는 이러한 실패 양상을 시청각적 클레버 한스(Clever Hans) 효과로 특징짓는데, 이는 모델이 (거짓으로) 오디오에 기반한 것처럼 보이지만 실제로는 오디오와 비디오 스트림이 진정으로 정렬되어 있는지 검증하지 않고 시각-청각 상관관계를 악용하는 경우를 말한다. 이러한 행동을 체계적으로 연구하기 위해 우리는 세 가지 반사실적 오디오 편집에 기반한 개입 중심 탐사 프레임워크인 Thud를 도입한다. Shift(시간적 동기화 테스트), Mute(소리 존재 여부 테스트), Swap(시청각 일관성 테스트)이 그것이다. 진단을 넘어, 우리는 2단계 정렬 레시피를 추가로 연구한다. 즉, 개입에서 파생된 선호 쌍은 오디오 검증을 학습시키고, 이벤트 수준의 일반 비디오 선호는 과도한 전문화에 대한 모델을 정규화한다. 최상의 10K 샘플 레시피는 세 가지 개입 차원에서 평균 성능을 28% 포인트 향상시키면서 일반 비디오 및 시청각 질의응답 벤치마크에서의 성능을 소폭 개선한다.
쌍대 비교 랭킹 프롬프팅(PRP)은 LLM으로부터 쌍대 선호 판단을 이끌어내며, 이를 일반적으로 고전적인 정렬 알고리즘을 통해 순위로 집계한다. 그러나 판단에는 잡음이 있고 순서에 민감하며 때로는 비이행적이므로, 정렬 가정은 이러한 설정에 부합하지 않는다. 정렬은 전체 순열을 복원하는 것을 목표로 하기 때문에, 호출 예산을 맞추기 위해 이를 잘라내면 신뢰할 수 있는 상위-K를 생성하지 못한다. 따라서 우리는 PRP 재순위화를 잡음이 있는 쌍대 비교로부터의 능동 학습으로 재정의하고, 능동 순위화 도구가 호출 제한 환경에서 호출당 NDCG@10을 개선하는 대체 가능한 방법임을 보여준다. 우리의 잡음 강건 프레임워크는 또한 쌍당 하나의 LLM 호출을 사용하는 무작위 방향 오라클을 도입한다. 이 접근 방식은 체계적인 위치 편향을 평균 0 잡음으로 변환하여, 양방향 호출 비용 없이 편향되지 않은 집계 순위를 가능하게 한다.
본 논문에서는 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 환경을 구축하는 검증기 기반 프레임워크인 OpenComputer를 제시한다. OpenComputer는 다음 네 가지 구성 요소를 통합한다: (1) 실제 애플리케이션에 대해 구조화된 검사 엔드포인트를 노출하는 애플리케이션별 상태 검증기, (2) 실행 기반 피드백을 활용하여 검증기 신뢰성을 개선하는 자기 진화형 검증 계층, (3) 현실적이고 기계적으로 확인 가능한 데스크톱 작업을 합성하는 작업 생성 파이프라인, (4) 전체 궤적을 기록하고 감사 가능한 부분 점수 보상을 계산하는 평가 하네스. 현재 형태의 OpenComputer는 33개의 데스크톱 애플리케이션과 브라우저, 사무 도구, 창작 소프트웨어, 개발 환경, 파일 관리자, 커뮤니케이션 애플리케이션에 걸친 1,000개의 완성된 작업을 포함한다. 실험 결과, OpenComputer의 하드코딩된 검증기는 특히 성공 여부가 세분화된 애플리케이션 상태에 의존할 때, LLM 심사 평가보다 인간의 판단과 더 밀접하게 일치하는 것으로 나타났다. 최첨단 에이전트는 부분적인 진전에도 불구하고 종단 간 완료에 어려움을 겪으며, 오픈소스 모델은 OSWorld-Verified 점수에서 급격한 하락을 보여 견고한 컴퓨터 자동화에 지속적인 격차가 존재함을 드러낸다.
본 논문에서는 완전한 오픈소스이자 역량 중심의 롱컨텍스트 강화학습(검증 가능한 보상 기반, RLVR) 사후 학습 레시피인 GoLongRL을 제시한다. 기존 롱컨텍스트 강화학습 방법들은 데이터 구성을 점점 더 복잡한 검색 경로를 설계하는 문제로 접근하는 경향이 있어, 작업 범위가 단조롭고 실제 롱컨텍스트 요구사항을 충분히 반영하지 못하는 보상 공식을 초래한다. 본 연구는 두 가지 기여를 한다. (1) 완전한 공개 릴리즈를 동반한 역량 중심의 데이터 구성. 23,000개의 RLVR 샘플로 구성된 데이터셋, 전체 구축 파이프라인, 그리고 모든 훈련 코드를 공개한다. 롱컨텍스트 역량의 분류 체계에 따라, 데이터셋은 9가지 작업 유형을 포괄하며, 각 유형은 자연스러운 평가 지표와 연결된다. 여기에는 기존 말뭉치에서 선별한 오픈소스 샘플과 책, 학술 논문, 다중 턴 대화와 같은 실제 원본 문서에서 QA 쌍을 생성한 합성 샘플이 포함된다. 동일한 기본 GRPO 설정 하에서, 우리의 데이터셋만으로도 폐쇄 소스인 QwenLong-L1.5 데이터셋보다 뛰어난 성능을 보인다. 또한, 이 데이터로 훈련된 Qwen3-30B-A3B 모델은 DeepSeek-R1-0528 및 Qwen3-235B-A22B-Thinking-2507과 유사한 롱컨텍스트 성능을 제공하며, 이는 더 넓은 작업 범위와 더 큰 보상 다양성이 롱컨텍스트 역량 향상에 상당히 기여함을 시사한다. (2) 이종 다중 작업 최적화를 위한 TMN-Reweight. 이종 보상으로 인한 최적화 문제를 해결하기 위해 TMN-Reweight을 제안한다. 이는 작업 수준 평균 정규화(task-level mean normalization)를 통한 교차 작업 보상 척도 정렬과 난이도 적응 가중치(difficulty-adaptive weighting)를 결합하여 더 신뢰할 수 있는 이점 추정(advantage estimation)을 가능하게 한다. TMN-Reweight은 기본 GRPO 대비 평균 성능을 추가로 개선하며, 보고된 평가 전반에 걸쳐 일반 역량이 유지되거나 향상된다.
프로세스 보상 모델(PRM)은 추론에 대해 단계 수준의 피드백을 제공하지만, 현재의 PRM은 일반적으로 각 단계에 대해 단일 보상 점수만 출력한다. 따라서 후속 방법들은 불완전한 단계 수준 보상 예측을 신뢰할 수 있는 결정 신호로 취급해야 하며, 이러한 예측을 언제 신뢰해야 하는지에 대한 지표가 없다. 우리는 단계 수준 성공 확률과 해당 예측의 신뢰성을 모두 예측하는 분포적 PRM인 BetaPRM을 제안한다. 몬테카를로 연속 과정으로부터 단계 성공 감독이 주어졌을 때, BetaPRM은 유한 표본 성공 비율을 점 목표로 회귀하는 대신 베타-이항 가능도를 통해 관찰된 성공 연속 횟수를 설명하는 베타 신념을 학습한다. 이렇게 학습된 신뢰성 신호는 단계 보상을 언제 신뢰해야 하는지를 나타내며, 후속 응용 프로그램이 신뢰할 수 있는 보상과 불확실한 보상을 구분할 수 있게 한다. 하나의 응용으로, 우리는 PRM 기반 Best-of-N 추론을 위한 적응형 계산 할당(ACA)을 소개한다. ACA는 학습된 신뢰성 신호를 사용하여 높은 보상을 가진 해결책이 신뢰할 수 있을 때 중단하고, 불확실한 후보 접두사에 추가 계산을 투자한다. 네 가지 백본과 네 가지 추론 벤치마크에 걸친 실험은 BetaPRM이 표준 단계 수준 오류 탐지를 유지하면서 PRM 기반 Best-of-N 선택을 개선함을 보여준다. 이 신호를 기반으로 ACA는 고정 예산 Best-of-16 대비 정확도-토큰 균형을 개선하여 최종 답변 정확도를 향상시키면서 토큰 사용량을 최대 33.57%까지 줄인다.
에이전틱 강화학습(Agentic RL)을 통해 LLM에 도구 사용 능력을 부여하는 것은 확장 가능하고 견고한 실행 환경의 부족과 암묵적 인간 추론을 포착하는 현실적인 훈련 데이터의 scarcity라는 두 가지 과제에 의해 병목 현상을 겪고 있다. 기존 접근 방식은 비용이 많이 드는 실제 API, 환각에 취약한 LLM 시뮬레이터, 또는 종종 단일 턴이거나 사전 수집된 문서에 의존하는 합성 환경에 의존한다. 더욱이 합성 궤적은 종종 과도하게 특정되어 있어 자연스러운 인간 의도보다는 명령 시퀀스에 가깝기 때문에 RL 훈련의 효과를 감소시킨다. 우리는 두 과제를 모두 해결하는 완전 자동화 프레임워크인 EnvFactory를 소개한다. EnvFactory는 신뢰할 수 있는 자원으로부터 상태 기반의 실행 가능한 도구 환경을 자발적으로 탐색하고 검증하며, 위상 인식 샘플링과 보정된 정제를 통해 자연스러운 다중 턴 궤적을 합성하여 암묵적 의도를 지닌 근거 기반 쿼리를 생성한다. 7개 도메인에 걸쳐 단 85개의 검증된 환경만을 사용하여 EnvFactory는 2,575개의 SFT 및 RL 궤적을 생성한다. 이전 연구에서 종종 5배 더 많은 환경을 사용했음에도 불구하고 EnvFactory는 더 적은 환경을 사용하여 우수한 훈련 효율성과 하위 성능을 달성하며, Qwen3 시리즈 모델을 BFCLv3에서 최대 +15%, MCP-Atlas에서 +8.6%, 그리고 τ²-Bench 및 VitaBench를 포함한 대화형 벤치마크에서 +6%까지 개선한다. 환경 구축과 궤적 합성을 모두 완전 자동화함으로써 EnvFactory는 에이전틱 RL을 위한 확장 가능하고 확장성이 높으며 견고한 기반을 제공한다.
최근 확산 모델은 비디오 생성에서 강력한 포토리얼리즘과 유창성을 달성했지만, 추상적이고 희소하거나 복잡한 조건에서는 여전히 취약하여 스토리보드 스케치나 클레이 렌더 조건과 같은 전문 제작 워크플로우에서 성능이 저조합니다. 기존 비디오 생성 모델은 어댑터를 통해 조건을 주입하거나 확산 백본 내에 일반적인 시각-언어 모델(VLM)을 결합하는 방식으로, 창의적 의도에 부합하는 비디오를 생성하지 못하는 역량 격차가 존재합니다. 본 논문에서는 추론 기반 프레임워크인 CogOmniControl을 제안합니다. 이는 제어 가능한 비디오 생성을 창의적 의도 인식과 생성으로 분해합니다. 구체적으로, 우리는 실제 애니메이션 제작 데이터를 사용하여 특화된 CogVLM을 학습시킵니다. 일반 VLM과 비교하여 CogVLM은 더 전문적이고 명확한 출력을 생성하며, 희소하고 추상적인 조건에서 사용자의 창의적 의도를 정확히 인식하고 이러한 단서를 밀집된 추론 출력으로 변환합니다. 또한 CogOmniDiT는 맥락 내 생성을 통해 다양한 조건의 제어를 통합하고, 강화 학습을 통해 CogVLM의 추론 출력에 정렬됩니다. 나아가, CogVLM의 강력한 비디오 생성 가이드 능력을 활용하여 특정 평가자를 계획하는 데 그 잠재력을 발휘하고, 생성된 비디오에 대한 Best-of-N 선택을 가능하게 합니다. 이러한 통합은 전체 프레임워크를 폐쇄 루프의 "하네스(harness)" 형태 아키텍처로 변환합니다. 또한 전문 워크플로우 데이터로부터 구축된 CogReasonBench와 CogControlBench를 소개하며, 이는 모의된 것이 아닌 진정한 창의적 의도를 담고 있습니다. 두 벤치마크에 대한 실험 결과, CogOmniControl은 기존 오픈소스 모델을 능가했습니다. 프로젝트 웹사이트: https://um-lab.github.io/CogOmniControl/
LLM 에이전트에 과거 경험에서 얻은 재사용 가능한 스킬을 장착하는 것은 복잡하고 장기적인 작업을 해결하기 위한 인기 있고 성공적인 접근 방식이 되었다. 그러나 이러한 교훈은 종종 텍스트 지침으로 인코딩되어 대체로 조언적인 수준에 머물며, 에이전트 루프에 언제, 어떻게 개입할지에 대한 명시적 메커니즘이 부족하다. 이러한 격차를 해소하기 위해, 본 연구는 스킬을 실행 가능한 프로그램 함수(PF)로 업그레이드하는 새로운 프레임워크인 HASP(Harnessing LLM Agents with Skill Programs)를 소개한다. PF는 수동적인 조언을 제공하는 대신, 실패 가능성이 높은 상태에서 활성화되어 다음 행동을 수정하거나 교정 맥락을 주입하는 실행 가능한 가드레일 역할을 한다. HASP는 고도로 모듈식으로, 직접적인 에이전트 루프 개입을 위한 추론 시간, 구조화된 감독을 제공하기 위한 사후 훈련, 또는 검증되고 교사가 검토한 PF를 진화시켜 자기 개선을 위해 적용될 수 있다. 실증적으로 HASP는 웹 검색, 수학 추론 및 코딩 작업에서 훈련 없이 및 훈련 기반 방법 모두에 비해 상당한 성능 향상을 이끌어낸다. 예를 들어, 웹 검색 추론에서 추론 시간 PF만으로도 (다중 루프) ReAct 에이전트 대비 평균 성능이 25% 향상되었으며, 사후 훈련 및 통제된 진화는 Search-R1 대비 30.4%의 향상을 달성했다. HASP에 대한 더 깊은 통찰을 제공하기 위해, 메커니즘 분석을 통해 PF가 어떻게 트리거되고 개입하는지, 스킬이 어떻게 내재화되는지, 그리고 안정적인 스킬 라이브러리 진화의 필요성을 밝힌다.
최근 비디오 편집 모델들은 통합된 조건화 설계로 수렴하고 있다: 단일 확산 트랜스포머가 텍스트, 원본 비디오, 참조 이미지를 공동으로 소비하며, 하나의 가중치 세트가 대체, 제거, 스타일 전이, 참조 기반 삽입을 모두 처리한다. 이 설계는 유연하지만, 사용자가 이미 모델에 적합한 텍스트, 참조 이미지, 그리고 지역 편집을 위한 공간적 근거를 제공한다고 가정하는데, 실제 요청에서는 이러한 정보가 종종 생략된다. 우리는 도구 증강 시각-언어 모델(VLM) 에이전트를 통합 비디오 확산 트랜스포머와 짝지은 에이전틱 비디오 편집 프레임워크인 Aurora를 제시한다. VLM 에이전트는 원시 사용자 요청을 트랜스포머의 조건화 채널에 정렬된 구조화된 편집 계획으로 매핑하여, 생성 이전에 텍스트적 및 시각적 불완전 명세를 해결한다. 우리는 완전한 편집 계획 및 참조 이미지 선택을 위한 지도 데이터와 함께, 강건한 도구 사용 및 명령어 개선을 위한 선호도 쌍을 사용하여 VLM 에이전트를 훈련한다. 텍스트적 및 시각적 불완전 명세 하에서 에이전트 기반 비디오 편집을 평가하기 위해 AgentEdit-Bench를 도입한다. AgentEdit-Bench와 두 개의 기존 비디오 편집 벤치마크에 대한 실험은 Aurora가 명령어 기반 베이스라인보다 성능을 개선하며, VLM 에이전트가 호환 가능한 고정 비디오 편집 모델로 전이됨을 보여준다. 프로젝트 페이지: https://yeates.github.io/Aurora-Page
최근 비디오 생성 모델들은 AI 생성 비디오의 현실감을 크게 향상시켰지만, 여전히 시간적 불일치, 구조적 왜곡, 의미적 비일관성과 같은 아티팩트가 출력물에 나타난다. 다중모달 대규모 언어 모델(MLLM)은 강력한 시각 이해 능력을 보여주지만, 이러한 아티팩트를 인지하고 추론하는 능력은 아직 명확하지 않다. 기존 벤치마크는 특히 포토리얼리스틱 콘텐츠를 넘어서는 다양한 AI 생성 비디오 도메인에 걸쳐 아티팩트 인식 능력과 세밀한 진단 추론에 대한 체계적인 평가가 부족한 경우가 많다. 이러한 격차를 해소하기 위해, 우리는 AI 생성 비디오 아티팩트 탐지 및 분석을 위한 MLLM 평가용 포괄적 벤치마크인 Artifact-Bench를 소개한다. 먼저, 포토리얼리스틱, 애니메이션, CG 스타일 비디오를 포괄하는 현실감 아티팩트의 3단계 계층적 분류 체계를 수립한다. 이 분류 체계에 기반하여 Artifact-Bench는 실제 vs AI 생성 비디오 분류, 쌍별 현실감 비교, 세밀한 아티팩트 식별이라는 세 가지 상호 보완적 작업을 정의한다. 19개의 주요 MLLM에 대한 실험 결과, 아티팩트 인식 및 추론에 상당한 한계가 드러났으며, 많은 모델이 까다로운 환경에서 무작위 수준에 근접하거나 심지어 그 이하의 성능을 보였다. 또한 MLLM의 판단과 인간의 지각 선호도 사이에 상당한 불일치가 관찰되어, AI 생성 비디오의 현실감에 대한 일반 평가자로서의 신뢰성이 제한적임을 시사한다.
대화형 AI는 현재 수십억 명의 사용자에게 도달했지만, 기존 데이터셋은 사용자가 말하는 내용만 포착할 뿐 생각하는 내용은 담지 못한다. 본 연구에서는 실제 세계의 다중 턴 인간-AI 대화와 사용자가 스스로 보고한 생각(즉, 프롬프트를 전송한 이유와 어시스턴트 응답에 대한 반응)을 결합한 최초의 대규모 데이터셋인 ThoughtTrace를 소개한다. ThoughtTrace는 20개 언어 모델에 걸쳐 수집된 1,058명의 사용자, 2,155개의 대화, 17,058개의 턴, 10,174개의 생각 주석으로 구성된다. 분석 결과, ThoughtTrace는 장기적이고 주제적으로 다양한 상호작용을 포착하며, 생각은 메시지와 의미적으로 구별되고, 최첨단 LLM이 맥락만으로 추론하기 어려우며, 내용이 다양하고, 대화 단계와 밀접하게 연관되어 있음을 보여준다. 또한, 생각이 다운스트림 모델링에 유용함을 입증한다. 첫째, 생각은 추론 시 맥락으로 제공될 때 사용자 행동 예측을 개선한다. 둘째, 생각에 기반한 재작성은 개인화된 어시스턴트 훈련을 위한 세분화된 정렬 신호를 제공한다. 이로써 ThoughtTrace는 인간-AI 상호작용 뒤에 숨은 인지 역학을 연구하기 위한 새로운 데이터 양식으로서 사용자 생각을 정립하고, 사용자의 잠재적 목표, 선호도, 필요를 더 잘 이해하고 적응하는 어시스턴트를 구축하기 위한 기반을 제공한다.
그래픽 사용자 인터페이스(GUI) 에이전트를 위한 현재 벤치마크는 대부분 정적 스크린샷에 의존한다. 그러나 실제 스마트폰 상호작용에서는 에이전트가 행동 순간과 밀접하게 결합된 일시적인 청각 신호와 동적인 비디오 정보를 처리해야 하는 경우가 빈번하다. 이러한 격차를 해소하기 위해, 우리는 OmniGUI를 소개한다. 이는 옴니모달 스마트폰 환경에서 GUI 에이전트를 평가하도록 설계된 최초의 단계 수준(step-level) 벤치마크이다. OmniGUI는 각 행동 단계마다 정적 이미지, 동기화된 오디오, 비디오 클립으로 구성된 연속적이고 교차된 멀티모달 입력을 제공한다. 데이터셋은 29개 애플리케이션에 걸친 709개의 전문가 시연 에피소드(2,579개의 행동 단계)를 포함하며, 객관적인 멀티모달 의존성 수준으로 체계적으로 주석이 달려 있다. 전용 옴니모달 GUI 에이전트 프레임워크는 현재 초기 단계이므로, 우리는 교차 입력을 기본적으로 처리할 수 있는 기초 옴니모달 모델을 선별하여 초기 기준선을 위한 에이전트 대리자(proxy)로 사용한다. 실증 평가 결과, 현재 모델은 시각적으로 정적인 작업에서는 능숙하지만, 동기식 시간 및 청각 신호가 필요한 환경에서는 행동 예측 성능이 현저히 저하된다. 또한, 절제 연구(ablation study)를 통해 작업과 무관한 환경 소음을 처리할 때 발생하는 교차 모달 간섭(cross-modal interference)과 같은 특정 작동 상의 병목 현상을 분리하여 확인한다. 전체 데이터셋, 평가 파이프라인 및 기준선 프롬프트는 부록 자료에 제공된다. 프로젝트 페이지: https://omni-gui.github.io.
비디오 생성은 현실 세계의 요구를 충족시키기 위해 단일 샷 합성에서 복잡한 멀티샷 오디오-비디오(MSAV) 내러티브로 빠르게 진화하고 있다. 그러나 이러한 최첨단 모델을 평가하는 것은 여전히 근본적인 과제로 남아 있다. 기존 벤치마크는 범위와 데이터 다양성이 제한적이며, 경직된 평가 파이프라인에 의존하여 현대 MSAV 모델의 체계적이고 신뢰할 수 있는 평가를 어렵게 만든다. 이러한 격차를 해소하기 위해, 우리는 MSAVBench, 즉 멀티샷 오디오-비디오 생성을 위한 최초의 포괄적 벤치마크이자 적응형 하이브리드 평가 프레임워크를 소개한다. 우리의 벤치마크는 비디오, 오디오, 샷, 참조라는 네 가지 핵심 차원을 포괄하며, 다양한 작업 설정, 최대 15개의 다양한 샷 수, 그리고 도전적인 비현실적 시나리오를 포함한다. 우리의 평가 프레임워크는 샷 분할을 위한 적응형 자기 수정 메커니즘, 주관적 지표를 위한 인스턴스별 루브릭, 그리고 복잡한 판단을 위한 도구 기반 증거 추출을 통해 견고성을 향상시킨다. 또한, MSAVBench는 인간의 판단과 높은 일치도를 보여 스피어만 순위 상관계수 91.5%를 달성한다. 19개의 최첨단 폐쇄형 및 오픈소스 모델에 대한 체계적 평가 결과, 현재 시스템은 여전히 감독 수준의 제어와 세밀한 시청각 동기화에 어려움을 겪는 반면, 모듈형 또는 에이전트 기반 생성 파이프라인이 오픈소스와 폐쇄형 모델 간의 격차를 좁히는 유망한 경로를 제공함을 보여준다. 우리는 향후 연구를 촉진하기 위해 벤치마크 데이터와 평가 코드를 공개할 예정이다.
AI 평가는 구조적 변화를 겪고 있다. 대규모 언어 모델(LLM)은 도구, 환경, 사용자 및 다른 에이전트를 통해 시간에 따라 작동하는 시스템으로 점점 더 많이 배치되고 있지만, 많은 평가 관행은 여전히 응답 중심 벤치마크(예: 고정된 입력, 분리된 출력, 단일 응답에서 판단 가능한 결과 평가)에서 비롯된 가정을 답습하고 있다. 이 분야에서는 대화형 벤치마크를 구축하기 시작했지만, 그 결과는 분절화되어 있다. 즉, 벤치마크마다 수용하는 상호작용 요소, 궤적의 점수 산정 방식, 그리고 결과가 뒷받침하는 주장이 서로 다르다. 본 입장 논문은 대화형 평가가 단순히 새로운 에이전트 벤치마크 유형이 아니라 원칙에 기반한 평가 패러다임으로 다루어져야 한다고 주장한다. 기존 평가 패러다임을 단순히 채택하는 것으로는 충분하지 않다. 우리는 평가를 증거로부터 판단으로의 자율적 매핑으로 정의하고, 대화형 평가가 이 매핑의 양측을 변화시킴을 보여준다. 즉, 증거는 상호작용 생성 궤적이 되고, 평가 절차는 과정, 회복 가능성, 조정, 강건성 및 시스템 수준 성능을 평가해야 한다. 이러한 정의를 바탕으로 우리는 두 축으로 구성된 분류 체계를 제안하고, 설계 원칙과 보고 기준을 도출하며, 대표적인 시나리오를 검토하고, 오랜 평가 과제가 궤적 수준에서 어떻게 재등장하는지 분석한다.
검증 가능한 보상을 사용한 강화 학습(RLVR)에서 모델이 올바른 해를 생성할 때, 각 토큰은 그것이 결정적인 추론 단계인지 문법적 채움 요소인지에 관계없이 동일한 보상 신호를 받는다. 자연스러운 해결책은 올바른 답을 교사로 삼아 모델을 조건화하여, 모델이 답을 알았더라면 다르게 생성했을 토큰들을 식별하는 것이다. 선행 연구에 따르면, 이는 답을 기울기에 유출시켜 훈련을 손상시키거나, 결정적 단계와 채움 요소를 구별하지 못하는 약한 신호를 생성하는데, 그 이유는 둘 다 모델의 기준선 대비 동등하게 놀라움을 주기 때문이다. 우리는 대비 증거 정책 최적화(CEPO)를 제안하는데, 이는 매 토큰마다 더 날카로운 질문을 던진다: 단순히 '올바른 답이 이 토큰을 선호하는가?'가 아니라, '올바른 답이 선호하는 동시에 잘못된 답이 비선호하는가?'이다. 두 조건을 모두 만족하는 토큰은 진정한 추론 단계이고, 어느 것도 만족하지 않는 토큰은 채움 요소이다. 잘못된 답을 제공하는 교사는 이미 훈련 배치에 있는 거절된 롤아웃들로부터 구성되며, 추가적인 샘플링 비용이 발생하지 않는다. 우리는 CEPO가 최신 기술의 모든 구조적 안전성 보장을 상속하면서 결정적 토큰에 대한 신용을 엄격하게 날카롭게 하며, 개선이 채움 위치에서 정확히 사라짐을 증명한다. 실험적으로, CEPO는 2B 및 4B 규모에서 각각 다섯 가지 다중 모드 수학적 추론 벤치마크에서 평균 정확도 43.43%와 60.56%를 달성하며, 동일한 훈련 예산 하에서 GRPO의 41.17%와 57.43%와 대비된다. 분포 일치 자기 증류 방법(OPSD, SDPO)은 훈련되지 않은 기준선 아래로 떨어지며, 이는 우리 이론이 예측한 정보 유출을 실험적으로 확인한다. 우리의 코드는 https://github.com/ahmedheakl/CEPO에서 확인할 수 있다.
도시 건물 에너지 모델링(Urban Building Energy Modeling)은 유엔의 지속 가능한 개발 목표 7과 11을 달성하는 데 중요한 역할을 한다. 위성 이미지와 딥러닝에 기반한 기존 연구들은 주목할 만한 진전을 이루었으나, 여러 과제가 존재한다. 첫째, 대부분의 기존 연구는 본질적으로 예측적이어서 도시 계획의 생성적 특성을 반영하지 못한다. 둘째, 생성형 AI와 확산 모델이 위성 이미지 분야에서 폭발적으로 성장했지만, 도시 기능 생성(예: 에너지 계층)은 부족하다. 셋째, 고품질의 고해상도 건물 에너지 데이터와 위성 이미지가 정렬된 데이터는 제한적이고 부족하다. 이에 본 연구는 SENSE(Satellite-based ENergy Synthesis for Sustainable Environment)를 제안한다. SENSE는 통합 생성형 UBEM 프레임워크로, 사실적인 도시 위성 이미지와 정렬된 고품질 건물 에너지 소비 및 높이 지도를 공동으로 합성한다. 도로망과 도시 밀도 지표를 조건으로 하는 제어 가능한 확산 모델 기반의 SENSE는 대규모 시각 모델이 학습한 지식을 활용하여 잠재 공간에서 도시 건물 에너지 소비 및 높이 정보(주석)를 생성한다. 네 도시(뉴욕, 보스턴, 리옹, 부산)에 걸친 실험 결과, SENSE는 높은 시각적 충실도와 강력한 물리적 일관성을 달성하여 ASHRAE 표준 지표를 충족한다. 실험 결과, SENSE는 20% 미만의 레이블링된 에너지 데이터만으로도 충분한 주석이 달린 합성 데이터를 생성할 수 있으며, 다운스트림 예측 성능을 IoU 기준 10% 향상시킨다. 최신 도시 에너지 예측 방법과 비교하여 SENSE는 예측 오차를 크게 줄였다(NMBE 3~11% 감소, CVRMSE 1~9% 감소). 본 연구는 도시 과학, 에너지 과학 및 건축 과학을 위한 에너지 효율적인 도시 계획 및 물리적 생성 솔루션을 제공한다. 데이터셋 및 코드: https://huggingface.co/datasets/skl24/MUSE, https://github.com/kailaisun/GenAI4Urban-Energy/.
비디오 확산 모델은 지각적 사실성과 시간적 일관성 측면에서 빠른 발전을 이루었지만, 여전히 검증 가능한 추론보다는 그럴듯한 생성에 최적화되어 있다. 이러한 한계는 생성된 비디오가 명시적인 공간적, 시간적, 또는 논리적 제약 조건을 반드시 충족해야 하는 작업에서 특히 두드러진다. 추론 중심 언어 모델에서 검증 가능한 보상이 있는 강화 학습(RLVR)의 역할에서 영감을 얻어, 우리는 규칙 기반 피드백으로 비디오 확산 모델을 최적화하기 위한 실용적인 레시피인 VideoRLVR를 제안한다. VideoRLVR는 비디오 추론을 검증 가능한 시각적 궤적의 생성으로 정식화하며, SDE-GRPO 최적화 백본, 조밀 분해 보상, 그리고 효율적인 훈련을 위한 초기 단계 집중 전략으로 구성된다. 초기 단계 집중 전략은 정책 최적화를 초기 잡음 제거 단계로 제한하여 성능을 유지하면서 훈련 지연 시간을 약 40% 감소시킨다. 우리는 VideoRLVR를 객관적 성공 기준이 있는 절차적으로 생성된 세 가지 도메인인 Maze, FlowFree, Sokoban에서 평가한다. 이러한 작업 전반에 걸쳐 VideoRLVR는 지도 미세 조정 기준선보다 일관되게 향상된 성능을 보이며, 특히 낮은 성공률 환경에서는 조밀 분해 보상이 중요한 역할을 한다. 강화 학습으로 최적화된 우리의 모델은 이러한 검증 가능한 추론 벤치마크와 도메인 외 벤치마크에서 평가된 독점 및 오픈소스 비디오 생성 모델보다도 우수한 성능을 보인다. 이러한 결과는 검증 가능한 강화 학습이 비디오 모델을 지각적 모방 너머 더 신뢰할 수 있는 규칙 일관적 시각 추론으로 나아가게 할 수 있음을 시사한다.
최근 Text-to-Image (T2I) 모델은 약 1K 및 2K 해상도에서 눈에 띄는 진전을 보여왔다. 더 나은 시각적 경험에 대한 극심한 요구와 이미징 기술의 급속한 발전에 힘입어, 초고해상도(UHR) 이미지 생성에 대한 수요가 크게 증가하였다. 그러나 UHR 이미지 생성은 고해상도 콘텐츠의 희소성과 복잡성으로 인해 큰 도전 과제를 안고 있다. 본 논문에서는 먼저 신중하게 설계된 데이터 파이프라인을 통해 구축된 고품질 오픈소스 UHR T2I 데이터셋인 PixVerve-95K를 소개한다. 이 데이터셋은 다양한 시나리오(각 이미지는 최소 1억 화소 이상)에 걸친 95,000개의 이미지와 7차원의 주석을 포함한다. 이 대규모 이미지-텍스트 데이터셋을 기반으로, 우리는 세 가지 훈련 방식을 통해 다양한 T2I 기반 모델을 네이티브 1억 화소 생성으로 확장하는 선구적인 단계를 수행한다. 마지막으로, 기존 평가 지표와 멀티모달 대규모 언어 모델 기반 평가를 모두 활용하여, 제안하는 PixVerve-Bench 벤치마크는 시각적 품질과 의미적 정렬을 포괄하는 UHR 이미지에 대한 종합적인 평가 프로토콜을 수립한다. 우리의 벤치마크에 대한 광범위한 실험 결과와 훈련 전략에 대한 건설적인 탐구는 향후 돌파구에 대한 귀중한 통찰력을 함께 제공한다.
통합 다중모드 모델(UMMs)은 단일 아키텍처 내에서 시각적 이해와 시각적 생성을 통합하는 것을 목표로 한다. 그러나 기존의 훈련 패러다임은 희소 텍스트 신호를 통한 이해와 밀집 픽셀 목표를 통한 생성을 독립적으로 최적화한다. 이러한 분리된 전략은 정렬되지 않은 표현 공간을 초래하여 시각적 이해와 생성을 격리시키고 상호 강화를 저해한다. 본 연구는 생성적 사후 훈련에 대한 최초의 체계적 조사를 제시하며, 계층적 시각 작업을 생성적 프록시로 정식화하여 UMMs의 이러한 격리를 해소한다. 실증적 조사 결과, 고수준 의미 작업, 특히 이미지 분할이 최적의 프록시 역할을 하는 것으로 나타났다. 저수준 작업이 질감 세부사항으로 모델을 산만하게 하는 반면, 분할은 구조적 의미를 제공하여 시각 중심 인지와 생성적 레이아웃 충실도를 모두 현저히 향상시킨다. 이러한 통찰을 바탕으로, 우리는 분할을 생성적 프록시로 활용하여 다중모드 기능을 정렬하고 시너지를 창출하는 새로운 패러다임인 의미 생성적 튜닝(SGT)을 소개한다. 기계적 분석은 SGT가 특징의 선형 분리 가능성을 근본적으로 개선하고 시각-텍스트 주의 할당 패턴을 최적화함을 추가로 입증한다. 광범위한 평가 결과, SGT가 주류 벤치마크 전반에서 다중모드 이해와 생성 충실도를 일관되게 향상시키는 것으로 나타났다. 코드는 https://song2yu.github.io/SGT/에서 확인할 수 있다.
4D 메시 생성은 최근 비디오에서 동적 3D 구조를 복원하기 위한 강력한 패러다임으로 부상했지만, 기존 방법은 여전히 느리고 계산 비용이 많이 들며 더 긴 시퀀스로 확장하기 어렵습니다. 본 논문에서는 학습이 필요 없는 접근법을 도입하여 4D 메시 생성을 가속화하고 시간적 대응 관계의 품질을 향상시킵니다. 핵심 관찰 결과는 시간적 대응 관계가 4D 백본 내에서 생성된 메시가 시각적으로 정확해지기 훨씬 전에 나타난다는 점입니다. 우리는 이를 시공간적 어텐션 체인(Spatio-Temporal Attention Chain)이라는 일반 프레임워크로 활용하여 공간과 시간에 걸쳐 정보를 전파합니다. 앵커 메시의 정점에서 시작하여, 체인은 정점을 잠재 토큰으로 매핑합니다. 그런 다음 잠재 공간에서 시간적 대응 관계를 따르며, 잠재-정점 어텐션을 통해 프레임별 정점을 복원합니다. 이 설계는 비용이 많이 드는 명시적 매칭을 피하면서 앵커 메시의 세부 사항을 보존하여 동적 메시 기하학과 시간적 일관성을 개선합니다. 최신 기술과 비교하여, 우리 방법은 9초 만에 4D 메시를 생성하여 13배의 속도 향상을 달성하면서도 더 높은 품질의 결과를 제공합니다. 또한, 메시 품질 저하 없이 최대 16배 더 긴 비디오로 확장이 가능합니다. 생성 외에도, 개선된 대응 관계는 두 가지 하류 작업인 2D 객체 추적 및 4D 추적에서 경쟁력 있는 제로샷 성능을 가능하게 합니다. 또한, 우리 프레임워크가 이전 4D 메시 생성 방법에서는 지원되지 않았던 신뢰할 수 있는 카메라 추정 기능을 제공함을 추가로 보여줍니다.
3D Gaussian Splatting(3DGS)은 높은 시각적 품질로 실시간 새로운 시점 합성을 가능하게 한다. 그러나 기존 방법들은 복잡한 반사와 명확한 투과를 동시에 보이는 반투명 거울 표면을 다루는 데 어려움을 겪으며, 종종 흐릿한 반사나 과도하게 가려진 투과를 생성한다. 이를 해결하기 위해, 우리는 각 가우시안의 기하학적 점유와 광학적 불투명도를 분리하는 프레임워크인 RT-Splatting을 제시한다. 이 분해는 단일 가우시안 프리미티브 집합으로 통합된 표면-체적 장면 표현을 생성한다. 우리의 하이브리드 렌더러는 이 표현을 고주파 반사를 포착하기 위한 표면으로, 그리고 명확한 투과를 보존하기 위한 체적으로 해석한다. 반사와 투과의 공동 최적화에서의 모호성을 완화하기 위해, 우리는 Specular-Aware Gradient Gating을 도입한다. 이는 고도로 반사되는 영역에서 투과 브랜치로 전달되는 오해의 소지가 있는 그래디언트를 억제하여 방해가 되는 플로터를 효과적으로 줄인다. 도전적인 반투명 장면에 대한 실험은 RT-Splatting이 최첨단 성능을 달성하여 실시간 렌더링으로 높은 충실도의 반사와 명확한 투과를 제공함을 보여준다. 또한, 우리의 분해는 자연스럽게 유연한 장면 편집을 가능하게 한다. 프로젝트 페이지는 https://sjj118.github.io/RT-Splatting 에서 확인할 수 있다.
주의 잔차(Attention Residuals)는 표준 가산 잔차 연결을 이전 층 출력에 대한 학습된 소프트맥스 주의로 대체하여 선택적인 층 간 라우팅을 가능하게 한다. 그러나 표준 주의 잔차는 여전히 이전 층의 누적 은닉 상태에 주의를 기울이며, 이는 매우 중복적이다. 우리는 이러한 중복성이 더 깊은 층에서 라우팅 붕괴를 유발함을 보인다: 주의 가중치가 대비가 낮아져 균일 분포에 가까워지고(최대 가중치 약 0.2), 이전 층에서 정보성 있는 상태를 선택하는 모델의 능력을 제한한다. 이는 중요한 연구 과제를 제기한다: 주의 잔차에서 어떤 층별 표현이 라우팅되어야 하는가? 이 질문에 답하기 위해, 우리는 델타 주의 잔차(Delta Attention Residuals)를 제안한다. 이는 누적 상태 대신 델타, 즉 각 하위층이 도입한 변화(v_i = h_{i+1} - h_i)에 주의를 기울인다. 델타 표현은 구조적으로 다양하며 더 높은 대비의 주의 분포(최대 가중치 약 0.6)를 생성하여, 층 간 더 선택적이고 효과적인 라우팅을 가능하게 한다. 이 원리는 각 하위층 및 블록 단위 세분화 모두에 적용된다. 테스트된 모든 규모(220M~7.6B)에서 델타 주의 잔차는 표준 잔차와 주의 잔차를 일관되게 능가하며, 검증 혼란도에서 1.7~8.2%의 개선을 보인다. 또한 델타 주의 잔차는 표준 미세 조정을 통해 사전 학습된 체크포인트를 델타 주의 잔차로 변환할 수 있게 한다. 코드는 https://github.com/wdlctc/delta-attention-residuals-code 에서 확인할 수 있다.
최근 연구들은 강화 미세 조정(RFT)이 지도 미세 조정(SFT)보다 파국적 망각에 본질적으로 더 강하다고 제안한다. 그러나 RFT(예: GRPO)가 클래스 증가 학습(CIL) 및 도메인 증가 학습(DIL)과 같은 까다로운 시각적 지속 학습 환경에서 망각을 효과적으로 극복할 수 있는지는 여전히 미해결 문제로 남아 있다. 파일럿 연구를 통해 우리는 RFT가 SFT를 일관되게 능가하지만 여전히 무시할 수 없는 망각을 겪는다는 것을 확인했다. 우리는 이 병목 현상을 궤적 수준 드리프트 무관심(Trajectory-level Drift Agnosticism)으로 경험적으로 추적한다: 동일한 작업 보상을 달성하는 후보 롤아웃들 사이에서 이전 작업 정책과의 KL 발산이 상당히 달라지며, 이는 순차적 작업 간 파국적 망각과 강한 상관관계를 보인다. 이 통찰에 기반하여, 우리는 궤적 수준 보상 형성을 통해 망각을 명시적으로 완화하는 간단하면서도 효과적인 RFT 방법인 유지 인식 정책 최적화(RaPO)를 제안한다. 구체적으로, RaPO는 두 가지 핵심 구성 요소로 구성된다: (1) 궤적 수준 분포 드리프트를 연속적인 보상 신호로 변환하여 각 그룹 내에서 지식 보존 롤아웃을 우선적으로 강화하는 유지 보상(Retention Reward); (2) 작업 경계를 넘어 보상 통계의 지속적인 지수 이동 평균을 유지하여 지속 학습 중 최적화 진행을 안정화하는 교차 작업 이점 정규화(CTAN). MLLM의 자유 형식 텍스트 일반화를 활용하여, 우리는 다섯 가지 시각적 지속 학습 환경에서 RaPO를 포괄적으로 평가한다. 광범위한 실험을 통해 RaPO가 선도적인 성능을 달성하며, 강한 가소성을 유지하면서 파국적 망각을 상당히 감소시킴을 입증한다. 우리가 아는 한, 이 연구는 시각적 지속 학습에서 RFT의 첫 번째 체계적인 탐구를 대표하며, 향후 연구에 영감을 주기를 바라는 통찰을 제공한다.
대규모 언어 모델(LLM) 에이전트는 문서 코퍼스 및 코드 저장소와 같은 길고 반복되는 외부 맥락 위에서 점점 더 많이 작동하고 있다. 기존 접근 방식은 호출 간에 에이전트의 궤적, 원자료에 대한 수동적 접근, 또는 작업 수준 전략 중 하나를 보존한다. 그러나 반복되는 동일 맥락 작업 부하에 가장 필요하다고 우리가 주장하는 것, 즉 반복되는 맥락 자체에 대한 재사용 가능한 방향 지식(예: 맥락이 무엇을 포함하는지, 어떻게 구성되어 있는지, 그리고 역사적으로 유용했던 엔터티, 상수, 스키마가 무엇인지)을 보존하는 방법은 없다. 우리는 이 방향 지식을 맥락 맵(context map)으로 캐싱하고 유지하는 시스템인 PEEK를 소개한다. 맥락 맵은 에이전트의 프롬프트에 있는 작고 일정한 크기의 인공물로, 에이전트에게 외부 맥락에 대한 지속적인 엿보기를 제공한다. 맵은 추론 시간 신호에서 전이 가능한 지식을 추출하는 Distiller, 이를 구조화된 편집으로 변환하는 Cartographer, 그리고 고정된 토큰 예산을 강제하는 우선순위 기반 Evictor의 세 가지 모듈로 구성된 프로그래밍 가능한 캐시 정책에 의해 유지된다. 긴 맥락 추론 및 정보 집계 작업에서 PEEK는 강력한 기준선 대비 6.3~34.0% 향상된 성능을 보이면서도 최첨단 프롬프트 학습 프레임워크인 ACE보다 93~145회 적은 반복을 사용하고 1.7~5.8배 낮은 비용을 발생시킨다. 맥락 학습에서 PEEK는 ACE 대비 1.4배 낮은 비용으로 해결률과 루브릭 정확도를 각각 6.0~14.0% 및 7.8~12.1% 향상시킨다. 이러한 성능 향상은 프로덕션 등급 코딩 에이전트인 OpenAI Codex를 포함한 다양한 언어 모델 및 에이전트 아키텍처에서 일반화된다. 종합적으로, 이러한 결과는 맥락 맵이 긴 맥락 LLM 에이전트가 반복되는 외부 맥락과 더 정확하고 효율적으로 상호작용하도록 돕는다는 것을 보여준다.
스펙큘레이티브 디코딩(Speculative Decoding, SD)은 초안 작성 후 검증(draft-then-verify) 패러다임을 활용하여 대규모 언어 모델 추론을 가속화한다. 수용률(acceptance rate)을 극대화하기 위해 최근 방법들은 확장된 초안 트리(draft tree)를 구축하는데, 안타깝게도 이는 심각한 VRAM 대역폭 및 계산 오버헤드를 초래하여 종단 간 속도 향상의 병목이 된다. 동적 깊이 가지치기(dynamic-depth pruning)는 중요도가 낮은 분기를 제거하여 이러한 지연 시간을 줄일 수 있지만, 잠재적으로 유효한 후보를 함께 폐기함으로써 수용률이 밀집 트리(dense tree)의 상한에 도달하지 못하게 한다. 본 논문에서는 자원 할당에 있어 중요한 기회를 식별한다: 밀집 초안 작성에서 가지치기된 초안 작성으로의 전환은 상당한 계산 예산을 확보해준다. 이 파레토 트레이드오프(Pareto tradeoff)를 깨기 위해, 우리는 가지치기와 검색을 상호 보완적인 연산으로 결합하는 보상 프레임워크인 Graft를 도입한다. 가지치기는 검색에 충분한 예산을 제공하고, 검색은 가지치기로 인한 커버리지 손실을 보상하며 수용 길이를 회복한다. 순차적인 '가지치기 후 접목(prune-then-graft)' 메커니즘을 통해, Graft는 가지치기로 열린 위치에 예측력이 높은 검색 토큰을 부착하여 거의 제로에 가까운 오버헤드로 토폴로지적 공백을 메운다. Graft는 완전히 학습 없이(training-free) 수행되며 손실이 없다. 포괄적인 평가 결과, Graft는 단문 컨텍스트 생성, 장문 컨텍스트 생성 및 대규모 모델을 포함한 실제 배포 환경에서 새로운 파레토 프론티어(Pareto frontier)를 구축함을 보여준다. 단문 컨텍스트 벤치마크에서는 최대 5.41배의 속도 향상을 달성하고, 대규모 Qwen3-235B 모델에서 EAGLE-3 대비 평균 속도 향상을 최대 21.8% 개선한다. 또한, DFlash 스타일 블록 초안 작성 패러다임에 Graft를 적용하는 예비 탐색을 제공하여, 자기회귀 초안 트리를 넘어 접목(grafting)을 확장하기 위한 초기 증거와 통찰력을 제시한다.
10억 개 프리미티브(primitive) 규모에서 3D 가우시안 스플래팅(3DGS)을 학습하는 것은 근본적으로 메모리 제약적이다. 각 가우시안 프리미티브는 큰 속성 벡터를 가지며, 전체 파라미터 테이블은 빠르게 GPU 용량을 초과하여, 기존 시스템은 일반적인 단일 GPU 하드웨어에서 수천만 개의 가우시안으로 제한된다. 우리는 3DGS 학습이 본질적으로 희소하고 궤적 조건적(trajectory-conditioned)임을 관찰했다. 즉, 각 반복(iteration)에서 현재 카메라 배치에 보이는 가우시안만 활성화되므로, GPU 메모리는 영구적인 파라미터 저장소가 아닌 작업 세트 캐시(working-set cache) 역할을 할 수 있다. 이러한 통찰을 바탕으로, 우리는 SSD-CPU-GPU 계층 전반에 걸쳐 파라미터를 관리하는 아웃오브코어(out-of-core) 학습 프레임워크인 TideGS를 도입한다. 이 프레임워크는 세 가지 시너지 기술, 즉 SSD 정렬 공간 지역성을 위한 블록 가상화 지오메트리, I/O와 계산을 중첩시키는 계층적 비동기 파이프라인, 그리고 반복 간 증분 작업 세트 델타(incremental working-set deltas)만 전송하는 궤적 적응 차등 스트리밍(trajectory-adaptive differential streaming)을 활용한다. 실험 결과, TideGS는 단일 24GB GPU에서 10억 개 이상의 가우시안으로 학습을 가능하게 하면서, 대규모 장면에서 평가된 단일 GPU 기준선 중 최고의 재구성 품질을 달성하며, 기존 아웃오브코어 기준선(예: 약 1억 개의 가우시안) 및 표준 인메모리 학습(예: 약 1100만 개의 가우시안)을 능가하는 확장성을 보여준다.
검증 가능한 보상을 이용한 강화 학습은 정답 여부를 자동으로 확인할 수 있는 경우 사후 학습을 매우 효과적으로 만든다. 그러나 많은 중요한 모델 동작은 여러 질적 기준을 동시에 충족해야 한다. 루브릭 기반 보상은 프롬프트별 기준을 평가하고 이를 스칼라 보상으로 집계함으로써 이러한 상황을 처리한다. 그러나 표준적인 정적 집계 방식은 사람이 할당한 기준의 중요도를 현재 최적화 신호로서의 유용성과 혼동한다. 본 연구는 이러한 가정이 루브릭 강화 학습에서 무너짐을 보인다. 많은 중요한 기준은 이미 포화되었거나 현재 도달 불가능한 반면, 롤아웃을 구별하는 기준이 반드시 사람 가중치가 가장 큰 기준은 아니다. 우리는 POW3R을 제안한다. 이는 정책 인식 루브릭 보상 프레임워크로, 루브릭 목표로서 사람 가중치와 범주 균형을 유지하면서 학습 중 기준 수준 보상 가중치를 적응적으로 조정한다. POW3R은 롤아웃 수준 대비를 활용하여 현재 정책의 출력을 구분하는 기준을 강조함으로써, 기본 평가 대상을 변경하지 않고 GRPO 보상을 더 유용한 정보로 만든다. 다중 모드 및 텍스트 전용 설정을 포괄하는 두 데이터셋에 대한 세 가지 기본 정책 실험에서, POW3R은 30개 중 24개의 기본 정책/지표 비교에서 승리했다. 이는 기본 GRPO에 루브릭 보상을 적용한 방식보다 평균 루브릭 보상과 엄격한 완료(각 프롬프트의 응답이 요구된 모든 루브릭 기준을 충족하는 비율) 모두를 개선했으며, 동일한 평탄화에 도달하는 데 2.5~4배 적은 학습 단계가 소요되었다. 따라서 루브릭 보상은 최종 답변에서 중요해야 할 것과 현재 정책을 가르칠 수 있는 것을 구별해야 한다.
본 논문은 삼각형 메쉬 위에서 신호를 생성하는 작업을 삼각분할 비의존적(triangulation-agnostic) 방식으로 학습하는 것을 다룬다. 즉, 학습된 모델이 다양한 메쉬와 삼각분할에 효과적으로 적용될 수 있다. 실제로 이 논문은 플로우 매칭(flow matching, FM) 패러다임을 메쉬 기반의 삼각분할 비의존적 환경에 맞게 조정한다. 이론적으로는 FM 모델의 잡음 제거 과정에 사용될 삼각분할 비의존적 특정 잡음 분포를 제안한다. 일반적으로 이미지 등에서는 잡음 분포를 설계하는 것이 매우 간단하지만, 삼각분할 비의존적 분포를 설계하는 것은 훨씬 더 어려운 과제임이 입증된다. 우리는 스펙트럼을 통해 분포의 삼각분할 비의존성에 대한 수학적 정의를 정식화한다. 그런 다음 마테른 과정(Matérn process)이라 불리는 특정 가우시안 랜덤 필드의 이산화가 이러한 바람직한 특성을 가지며, 간단하고 효율적인 샘플링 알고리즘을 제공한다는 것을 보여준다. 이를 우리의 잡음 모델로 사용하고, 잡음 제거기로서 그래디언트 영역에서 메쉬 상의 신호를 학습하는 최신 접근법인 PoissonNet을 사용하여 FM을 삼각분할 비의존적 환경에 적용한다. 탄성 정지 상태 샘플링 및 휴머노이드 포즈 생성과 같은 정교한 작업에 대해 실험을 수행한다. 우리의 방법은 백만 개 이상의 삼각형으로 구성된 메쉬에 대해 매우 사실적인 결과를 생성할 수 있으며, 품질과 다양성에서 최신 기술을 크게 능가함을 보여준다.
정밀 조작은 물리적 연산이 많이 필요하고 모델링 오류와 인식 노이즈에 매우 민감하여, 시뮬레이션-실제 환경 전환(sim-to-real transfer)이 매우 어렵다. 도메인 무작위화(DR)는 이러한 작업을 위해 학습된 정책의 강건성을 향상시키는 데 흔히 사용되지만, 기존 DR은 에피소드당 하나의 인스턴스만 무작위화하여 실제 환경 역학의 변동성에 대한 노출이 매우 제한적이다. 이에 대해 우리는 도메인 무작위화 인스턴스 집합(DRIS)을 제안한다. DRIS는 무작위화된 인스턴스 집합을 동시에 표현하고 전파하여 불확실한 역학에 대한 더 풍부한 근사치를 제공하고, 정책이 여러 가능한 결과를 고려한 행동을 학습할 수 있도록 한다. 이론적 분석을 바탕으로, DRIS가 소수의 인스턴스(예: 10개)로도 더 강건한 정책을 생성하고 실제 환경 미세 조정의 필요성을 완화함을 보여준다. 우리는 이를 까다로운 반응형 잡기 작업에서 입증한다. 전통적인 잡기 설정이 물체를 기계적으로 안정화하도록 설계된 엔드 이펙터(예: 곡면 또는 둘러싸는 표면)를 사용하는 것과 달리, 우리 시스템은 수동 안정화 기능이 없는 평평한 판을 사용하여 작업이 노이즈에 매우 민감하고 빠른 반응 동작을 필요로 한다. 학습된 정책은 불확실성에 대한 강력한 강건성을 보여주며 신뢰할 수 있는 제로샷 시뮬레이션-실제 환경 전환을 달성한다.
다중 선택 QA 벤치마크는 일반적으로 소형 언어 모델(SLM)을 직접 답변자로 평가하지만, 배포된 언어 모델 시스템은 점점 더 도구, 코드, 반복적인 모델 호출과 같은 외부 스캐폴드에 의존합니다. 본 논문에서는 실행 가능한 추론 스캐폴드가 MCQA 작업에서 SLM 성능을 향상시키는 시점을 측정하기 위한 평가 프로토콜이자 생성 프로그램 리소스인 코드 기반 추론(Code-Guided Reasoning, CGR)을 소개합니다. CGR은 정규화된 항목 인터페이스, 직접 솔버 프롬프트, 생성기 프롬프트, Python 스캐폴드, 솔버 호출 및 추출 도우미, 그리고 삼중 채널 결과 기록의 여섯 가지 구성 요소를 표준화합니다. 로컬에서 준비된 MCQA 번들과 6개의 메타데이터 등록 솔버 모델에서 얻은 20,498개의 유지된 결과 행에 대해, 관찰된 비영점 기준선 분할은 직접 정확도 38.11% 대비 매크로 보조 정확도 66.21%를 보여주며, 쌍 부트스트랩 구간 [20.32, 36.43]에서 +28.10 퍼센트 포인트 차이를 나타냅니다. 더 엄격한 Ab > 30% 직접 신호 게이트 하에서는 매크로 차이가 +14.11 포인트입니다. 이러한 추정치는 기술적입니다. 보조 추론은 더 큰 솔버 호출 예산을 사용하며, 답변 추출이 취약하고, Time-MQA에는 관찰된 회귀가 포함되어 있으며, 일부 생성된 프로그램은 하드 코딩 금지 지침을 위반합니다. CGR은 직접 답변, 보조 답변, 생성기 측 답변, 분할 정의, 생성된 프로그램, 응답 메타데이터 및 감사 결과를 포함하여 이러한 결과를 해석하는 데 필요한 추적 패키지를 제공합니다.
현대의 대규모 언어 모델(LLM) 애플리케이션은 추론 시 모델 동작을 제어하기 위해 긴 조건부 접두사(conditioning prefix)에 점점 더 의존하고 있다. 접두사 증강 추론은 효과적이지만 두 가지 구조적 한계가 있다: (i) 생성이 진행됨에 따라 접두사의 영향력이 약화되며, (ii) 접두사에 대한 어텐션 연산은 접두사 길이에 비례하여 확장된다. 기존 접근법은 접두사를 압축하면서도 어텐션에 유지하거나, 경사 기반 훈련을 통해 모델 파라미터에 내재화한다. 전자는 여전히 추론 시 접두사에 어텐션을 수행해야 하며, 후자는 훈련 집약적이고 접두사 업데이트에 부적합하다. 이러한 문제를 해결하기 위해, 우리는 접두사와 쿼리 토큰 간의 미리 계산된 어텐션 상태를 기반으로 하는 경량 조회(lookup) 메모리로 접두사를 외부화하는 훈련 없는 접근법인 어텐션 상태 메모리(attention-state memory)를 제안한다. LLaMA-3.1-8B를 사용한 ManyICLBench에서, 본 방법은 1K-8K 메모리 예산 범위에서 맥락 내 학습(in-context learning) 대비 정확도를 향상시키면서 8K에서 어텐션 지연 시간을 1.36배 감소시켰으며, NBA 벤치마크에서 전체 어텐션 RAG(검색 증강 생성) 성능을 메모리 사용량 20%만으로 능가했다.
단일 LLM 기반 최적화 시스템이 근본적으로 다른 도메인에서 특화된 도구와 경쟁할 수 있을까? 본 연구에서는 최적화 문제를 점수 함수로 평가되는 텍스트 아티팩트 개선 형태로 정식화할 때, 단일 AI 기반 최적화 시스템(단일 작업 탐색, 교차 문제 전이를 통한 다중 작업 탐색, 미관측 입력에 대한 일반화 지원)이 여섯 가지 다양한 작업에서 최첨단 결과를 달성함을 보인다. 우리 시스템은 ARC-AGI 정확도를 Gemini Flash 대비 거의 3배 향상시키는 에이전트 아키텍처(32.5% → 89.5%)를 발견하고, 클라우드 비용을 40% 절감하는 스케줄링 알고리즘을 찾으며, 87%가 PyTorch와 동등하거나 더 나은 성능을 보이는 CUDA 커널을 생성하고, AlphaEvolve의 보고된 원 채우기 솔루션(n=26)을 능가한다. 세 가지 도메인에 걸친 절제 연구를 통해, 점수만 제공되는 피드백보다 실행 가능한 부가 정보가 더 빠른 수렴과 실질적으로 더 높은 최종 점수를 제공하며, 다중 작업 탐색이 교차 작업 전이를 통해 동등한 작업당 예산 하에서 독립 최적화보다 우수한 성능을 보이고, 관련 작업 수가 증가할수록 그 이점이 확대됨을 밝혀낸다. 이를 통해 본 연구는 LLM 기반 탐색을 통한 텍스트 최적화가 범용 문제 해결 패러다임임을 최초로 입증하며, 전통적으로 도메인별 알고리즘이 필요했던 작업들을 단일 프레임워크로 통합한다. 우리는 GEPA 프로젝트의 일환으로 여러 백엔드를 지원하는 optimize_anything을 https://github.com/gepa-ai/gepa 에서 오픈소스로 공개한다.
동일한 사전 학습된 인코더, 데이터, 손실 함수를 사용하여 미세 조정된 저자 식별 모델은 점수 측정 방식에 따라 성능이 최대 4배까지 차이날 수 있다. 우리는 기계적 해석 가능성 도구를 활용하여 이러한 격차를 설명한다. 단어 길이, 구두점 밀도, 기능어 빈도수와 같은 문체적 특징은 기성 제어 인코더를 포함한 모든 모델의 모든 계층에서 동등하게 활용 가능하므로, 이 격차는 표현 품질에서 비롯된 것이 아니다. 대신, 인과적 개입은 점수 측정기가 인코더가 저자 신호를 응집하는 위치를 결정함을 보여준다. 평균 풀링은 초기~중간 계층으로의 응집을 강제하는 반면, 지연 상호작용은 이를 후기 계층으로 미룬다. 우리는 이러한 차이를 각 점수 측정기의 그래디언트 구조로부터 추가로 도출하며, 훈련 동역학은 그 차이로부터 비롯되는 뚜렷한 학습 궤적을 드러낸다.
공간 지능은 지각-행동 루프(perception-action loop)를 통해 전개된다: 에이전트는 관찰을 획득하기 위해 행동하며, 관찰이 행동의 함수로 어떻게 변화하는지 추론한다. 에이전트는 보이는 것을 수동적으로 처리하는 대신 보이지 않는 것, 즉 수동적 감각만으로는 해결할 수 없는 가려진 구조, 역학, 포함 관계, 기능성을 능동적으로 발견한다. 우리는 관찰자를 행위자로 재정의함으로써 오라클 관찰(oracle observations)을 가정한 기존의 공간 지능 공식을 넘어선다. 우리는 Spelke의 핵심 지식 시스템에 기반을 둔 OmniGibson 위에 구축된 10개 작업 범주와 29개 하위 범주를 포괄하는 체화된 공간 지능을 위한 포괄적 벤치마크인 ESI-BENCH를 소개한다. 에이전트는 어떤 능력(지각, 이동, 조작)을 배치할지, 그리고 작업 관련 증거를 능동적으로 축적하기 위해 이들을 어떻게 순차적으로 구성할지 결정해야 한다. 우리는 최신 MLLM에 대한 광범위한 실험을 수행했으며, 능동적 탐색이 수동적 대응 방식보다 훨씬 뛰어난 성능을 보임을 발견했다. 에이전트는 명시적 지시 없이도 자발적으로 새로운 공간 전략을 발견하는 반면, 무작위 다중 시점(random multi-view)은 훨씬 더 많은 이미지를 소비함에도 불구하고 신호보다는 잡음을 추가하는 경우가 많았다. 대부분의 실패는 취약한 지각이 아닌 행동 맹목(action blindness)에서 비롯된다: 잘못된 행동 선택이 좋지 않은 관찰로 이어지고, 이는 연쇄적 오류를 유발한다. 명시적 3D 접지는 깊이 민감 작업에서 추론을 안정화하지만, 불완전한 3D 표현은 공간 관계를 왜곡하여 2D 기준선보다 더 해로운 것으로 증명되었다. 인간 연구는 추가로, 인간이 반증적 시점을 찾고 모순 아래에서 신념을 수정하는 것과 달리, 모델은 증거의 질과 관계없이 높은 신뢰도로 조기에 확정하며, 이는 더 나은 지각이나 더 많은 체화된 상호작용만으로는 해소할 수 없는 메타인지적 격차(metacognitive gap)를 드러냄을 보여준다.
옴니모달 대규모 언어 모델(om-LLM)은 비디오와 오디오를 윈도우 수준에서 인터리브된 시간적으로 정렬된 토큰 시퀀스로 인코딩하여 통합된 시청각 이해를 달성한다. 그러나 이러한 밀집된 비텍스트 토큰을 LLM 전체에서 처리하는 것은 상당한 계산 오버헤드를 초래한다. 학습 없는 토큰 선택이 이러한 비용을 줄일 수 있지만, 기존 방법은 시각 입력만을 대상으로 하거나 고정된 모달리티별 비율로 LLM 이전에만 om-LLM 토큰을 제거하여, 교차 모달리티 토큰 중요도가 층에 따라 어떻게 변화하는지 포착하지 못한다. 이러한 한계를 해결하기 위해, 우리는 먼저 om-LLM의 층별 토큰 의존성을 분석한다. 시각 및 오디오 의존성은 블록 단위 패턴을 따르며 층이 깊어짐에 따라 점차 약화되는데, 이는 교차 모달리티 융합 이후 많은 후반부 층의 비텍스트 토큰이 중복됨을 나타낸다. 이러한 관찰에 기반하여, 우리는 효율적인 om-LLM 추론을 위한 학습 없는 단계 적응형 토큰 선택 방법인 SEATS를 제안한다. SEATS는 LLM 이전에 주의 기반 다양성 선택을 통해 시공간적 중복성을 제거한다. LLM 내부에서는 블록 전체에 걸쳐 토큰을 점진적으로 제거하고, 질의 관련성 점수를 사용하여 시간 윈도우에서 모달리티로 유지 예산을 동적으로 할당한다. 후반부 층에서는 교차 모달리티 융합이 완료되면 모든 남은 비텍스트 토큰을 제거한다. Qwen2.5-Omni 및 Qwen3-Omni에 대한 실험은 SEATS가 추론 효율성을 효과적으로 향상시킴을 보여준다. 시각 및 오디오 토큰의 10%만 유지하면서 원래 성능의 96.3%를 보존하며 9.3배의 FLOPs 감소와 4.8배의 프리필 속도 향상을 달성한다.
자기회귀적 비디오 확산 모델은 지역적 어텐션과 KV 캐싱을 통해 개방형 생성을 가능하게 한다. 그러나 기존의 학습이 필요 없는 장편 비디오 최적화 방법은 주로 단일 프롬프트 하에서 안정적인 확장에 초점을 맞추고 있어, 프롬프트 전환, 이전 장면 망각, 과거 장면 회상을 포함하는 상호작용 시나리오를 처리하기 어렵다. 우리는 핵심 병목 현상이 과거 KV 상태의 기능적 얽힘에 있음을 확인한다: 안정적인 앵커와 최근 동적 정보가 동일한 캐시 정책으로 처리되어, 구식 배경 오염, 새로운 프롬프트에 대한 지연된 응답, 장기 기억 손실을 초래한다. 이 문제를 해결하기 위해, 우리는 상호작용형 장편 비디오 생성을 위해 특별히 설계된 학습이 필요 없는 장면 메모리 프레임워크인 Echo-Forcing을 제안한다. 이는 세 가지 핵심 메커니즘으로 구성된다: (1) 계층적 시간 메모리: 상대적 RoPE 하에서 안정적인 앵커, 압축된 기록, 최근 윈도우를 분리한다; (2) 장면 회상 프레임: 과거 장면을 공간적으로 구조화된 KV 표현으로 압축하여 장기 회상을 지원한다; (3) 차이 인식 메모리 감쇠: 이전 장면과 새 장면 간의 차이에 따라 충돌하는 토큰을 적응적으로 망각한다. 이러한 설계를 바탕으로 Echo-Forcing은 제한된 캐시 예산 하에서 매끄러운 전환, 하드 컷, 장거리 장면 회상을 균일하게 지원한다. VBench-Long에 대한 광범위한 평가는 Echo-Forcing이 장편 비디오 생성 및 상호작용형 비디오 생성 설정 모두에서 최고의 전반적 성능을 달성함을 추가로 입증한다. 우리의 코드는 https://github.com/mingqiangWu/Echo-Forcing 에서 공개되었다.
강화학습(Reinforcement Learning, RL)이 대규모 언어 모델(Large Language Models, LLMs)에서 효과를 발휘하기 위해서는 RL 이전 및 진행 중에 사용되는 데이터의 성격과 다양성에 크게 의존한다. 특히 추론 문제는 서로 다른 형태의 추론에 기반한 여러 접근 방식으로 풀 수 있는 경우가 많으며, 훈련 데이터에서 이러한 접근 방식의 제한된 범위만 접하게 되면 RL의 효과가 제한될 수 있다. 이러한 동기에 따라 본 연구에서는 RL 훈련 전 중간 단계로 중간 훈련(mid-training) 과정에서 다양한 자체 생성 데이터(self-generated data)를 활용하는 방안을 조사한다. 구체적으로, 조지 폴리아(George Polya)의 문제 해결 접근법에 기반한 부트스트래핑 데이터 생성 프레임워크를 채택하여 훈련 데이터의 각 질문에 대해 여러 변형된 정답을 생성한 후 미세 조정(fine-tuning)을 수행한다. 먼저, 이러한 데이터에 대한 중간 훈련이 RL을 어떻게 개선하는지에 대한 이론적 관점을 제시하고, 정책 기울기 업데이트(policy-gradient updates)가 여러 접근 방식을 결합하도록 어떻게 유도할 수 있는지 설명한다. 그런 다음, 중간 훈련 데이터로 초기화된 RL 훈련 모델이 다양한 수학적 추론 벤치마크와 코드 생성 및 서사 추론과 같은 다른 분포 외 과제(OOD tasks)에서 일관된 성능 향상을 달성함을 실증적으로 보여준다. 전반적으로 본 연구는 언어 모델이 자체 생성 데이터를 통해 여러 문제 해결 접근 방식을 학습하는 것이 이후 RL에 도움이 된다는 점을 보여준다.
자율 에이전트 시스템이 규제 대상 중요 인프라 전반으로 확장됨에 따라, 고빈도 정책 업데이트에 대한 기계적이고 하드웨어 기반의 강제 메커니즘의 부재는 근본적인 안전 공백을 초래한다. 본 논문에서는 AI 거버넌스 정책을 런타임에 형식 검증하기 위한 새로운 아키텍처 프레임워크인 EHV(Ethical Hyper-Velocity)를 소개한다. 14~30일의 지연 시간을 유발하는 사후 감사 프레임워크(ISO/IEC 42001, NIST AI RMF)와 달리, EHV는 거버넌스 인식 JIT(Just-In-Time) 컴파일러를 통해 정책 시행 지점(PEP)을 추론 파이프라인 내부로 재배치한다. 충돌 없는 복제 데이터 타입(CRDT)을 이용한 정책 동기화와 신뢰 실행 환경(TEE) 내 에포크 기반 증명 캐싱을 통합함으로써, EHV는 서브밀리초 수준의 형식 결정론(SMFD)을 달성한다. TLA+ 형식 검증을 통해, 시스템의 제한된 동작 상태 공간 내에서 비준수 에이전트 행동이 계산적으로 도달 불가능함을 입증한다. 또한 O(1) 런타임 강제 실행이 배포 속도와 거버넌스 무결성 간의 전통적 트레이드오프를 제거하여, 거버넌스 지연 시간을 O(일)에서 O(1)로 단축할 수 있음을 증명한다.
사고 사슬(Chain-of-thought, CoT)은 대규모 언어 모델(LLM)의 추론 능력을 이끌어내는 표준적인 접근 방식이다. 그러나 일반적인 CoT 패러다임은 사고를 답변의 전제 조건으로 취급하기 때문에, 모델이 확장된 사고 이전에 답을 식별할 수 있는 경우에도 합리적인 답변에 도달하는 것을 지연시키고 불필요한 토큰 비용을 초래할 수 있다. 이러한 행동은 수행적 추론(performative reasoning)으로 알려져 있다. 본 논문에서는 기존의 사고와 답변 순서를 뒤집는 개선된 추론 파이프라인인 CopT를 도입한다. CopT는 사고 후 답변을 생성하는 대신, 먼저 초안 답변을 도출한 후 자체 초안 답변을 조건으로 사고(정책 기반 사고)를 수행하여 반성 및 수정을 진행한다. 초안 답변의 신뢰성을 평가하기 위해, CopT는 연속 임베딩을 추론 시 대비 검증기(contrastive verifier)로 재구성한다. 구체적으로, 이산 토큰 입력과 연속 임베딩 입력 하에서 모델이 동일한 생성 토큰에 대해 보이는 지지를 대조하여 답변 신뢰성에 대한 시퀀스 수준의 역 KL 추정량(reverse KL estimator)을 산출한다. 본 분석에 따르면 특정 가정 하에서 기대 추정값은 해결되지 않은 잠재 상태와 생성된 답변 토큰 간의 상호 정보량과 일치하며, 이는 잠재 상태의 임의적 불확실성이 아닌 답변 관련 불확실성을 포착하는 이유를 설명한다. 답변이 충분히 신뢰할 수 없다고 판단되면, CopT는 추가적인 정책 기반 사고를 수행하며, 이때 두 번째 KL 추정량이 초안 답변의 가시성을 동적으로 제어하여 신뢰할 수 없는 내용에 오도될 위험을 줄이면서 유용한 부분 정보를 보존한다. 수학, 코딩 및 에이전트 기반 추론 작업에서 CopT는 최고 정확도를 최대 23% 향상시키고, 유사하거나 더 높은 정확도에서 토큰 사용량을 최대 57% 감소시키며, 추가 학습 없이 이러한 성과를 달성한다. 코드는 https://github.com/sdc17/CopT에서 확인할 수 있다.
인간은 자연스럽게 "분위기"와 같은 추상적 개념을 통해 소통합니다. 그러나 현재의 이미지 편집 벤치마크는 주로 명시적이고 직설적인 명령어에 초점을 맞추고 있어 추상적 명령어는 대부분 탐구되지 않은 상태입니다. 본 연구에서는 먼저 추상적 이미지 편집의 정의와 분류 체계를 정립합니다. 이 도전적인 분야에서 명령 수행 능력을 측정하기 위해, 우리는 추상적 편집을 개별 개체 수준의 평가로 분해하고 인간 판단과 강한 상관관계를 달성하는 프레임워크인 Entity-Rubrics를 제안합니다. 이 프레임워크와 함께, 다양한 실제 장면을 포괄하는 추상적 이미지 편집 전용 최초의 벤치마크인 AbstractEdit을 구축했습니다. 11개의 주요 모델을 이 데이터셋으로 평가한 결과, 근본적인 과제가 드러났습니다. 표준 아키텍처는 의도와 보존 사이의 균형을 맞추는 데 어려움을 겪으며, 일반적으로 과소 편집이나 과잉 편집에 치우칩니다. 우리의 분석은 의미 있는 개선을 위해서는 고급 LLM 텍스트 인코더와 반복적 사고를 통합하는 것이 필수적임을 보여줍니다. 미래를 바라보며, 우리의 개체 기반 패러다임은 평가를 넘어 보상 모델로 확장되거나, 모델이 추상적 의사소통을 올바르게 해석하도록 돕거나, 테스트 시간 비평 루프에서 특정 실패를 강조하는 데 사용될 수 있습니다. 궁극적으로, 본 연구가 경직된 기계 실행과 인간의 자연스럽고 개방적인 의사소통 방식 사이의 간극을 좁히는 원활한 다중 모달 상호작용을 위한 초석이 되기를 바랍니다.
언어 모델에 대한 백도어 공격은 증가하는 보안 위협이 되고 있지만, 트리거 시퀀스가 모델 연산을 탈취하는 내부 메커니즘은 여전히 잘 이해되지 않고 있다. 본 연구는 8B 파라미터 자기회귀 언어 모델에서 언어 전환 백도어를 구성하는 회로를 식별했으며, 여기서 세 단어로 이루어진 라틴어 트리거(9개 토큰)가 영어 출력을 프랑스어로 전환시킨다. 이 회로는 세 단계로 분해된다: (1) 초기 층의 분산된 주의 헤드가 트리거 토큰을 마지막 시퀀스 위치로 구성하고; (2) 결과 신호가 중간 층을 통해 모델의 자연어 정체성 방향에 직교하는 부분공간에서 전파되며; (3) 마지막 층의 MLP가 이 잠재 신호를 프랑스어 로짓으로 변환한다. 전체 회로는 단일 위치의 직렬 병목 현상을 통해 흐르는데, 해당 위치를 모든 층에서 손상시키면 트리거가 완전히 완화되지만 모델의 성능도 저하된다. 직교 잠재 인코딩은 중간 표현에서 언어 유사 신호를 탐색하는 방어 기법이 이 트리거를 전혀 탐지하지 못할 수 있음을 시사한다.
다국어 문서 이해는 학습 데이터 부족과 기존 편향을 강화하는 모델 기반 주석 파이프라인으로 인해 저자원 언어에서 여전히 제한적이다. 본 연구에서는 82개 언어와 9가지 평가 과제를涵盖하는 고충실도 OCR 데이터셋과 벤치마크를 구축하는 프레임워크인 DocAtlas를 제안한다. 네이티브 DOCX 문서의 차등 렌더링(differential rendering)과 우횡서(RTL) 스크립트를 위한 합성 LaTeX 기반 생성이라는 두 가지 파이프라인을 통해, 핵심 주석에 학습 모델을 사용하지 않고 레이아웃, 텍스트, 구성 요소 유형을 인코딩하는 통합 DocTag 형식의 정밀한 구조적 주석을 생성한다. 16개의 최신 모델을 평가한 결과, 저자원 스크립트에서 지속적인 격차가 확인되었다. 렌더링에서 도출된 정답 신호(Ground Truth)를 양성 신호로 사용하는 직접 선호 최적화(DPO)가 안정적인 다국어 적응을 달성하여, 지도 미세 조정이 도메인 외 성능을 최대 21% 저하시키는 반면, DPO는 도메인 내 정확도(+1.9%)와 도메인 외 정확도(+1.8%)를 모두 개선하고 기본 언어 성능 저하를 측정 가능한 수준에서 발생시키지 않음을 보인다. 최적 변형 모델인 DocAtlas-DeepSeek는 가장 강력한 기준 모델 대비 +1.7%의 성능 향상을 달성한다.
실시간 듀플렉스 상호작용은 실제 세계 시나리오에서 작동하는 멀티모달 AI 시스템에 필수적이며, 이러한 시스템에서는 모델이 스트리밍 입력을 지속적으로 처리하고 적절한 순간에 응답해야 합니다. 그러나 대부분의 기존 멀티모달 대규모 언어 모델(MLLM)은 오프라인 환경에서 평가되며, 이 경우 응답이 생성되기 전에 전체 비디오 입력이 처리됩니다. 최근 연구에서 실시간 듀플렉스 MLLM을 탐구하기 시작했지만, 이 설정에 대한 포괄적인 벤치마크나 자동 평가 방법은 아직 없습니다. 이러한 격차를 해결하기 위해, 우리는 실시간 듀플렉스 상호작용을 체계적으로 평가하기 위한 벤치마크인 Omni-DuplexEval을 제안합니다. 이 벤치마크는 두 가지 상호 보완적인 시나리오로 구성됩니다: (1) 실시간 설명(Real-Time Description) - 진화하는 멀티모달 입력을 추적하는 지속적이고 시간 정렬된 응답을 생성하는 능력을 평가하며, (2) 선제적 알림(Proactive Reminder) - 현저한 이벤트를 식별하고 적절한 순간에 응답하는 능력을 평가합니다. Omni-DuplexEval은 세분화된 인간 주석 레이블과 정밀한 시간 메타데이터가 포함된 660개의 비디오를 포함하며, 실제 세계 시나리오에 기반한 9개의 작업에 걸쳐 있으며, 모든 질문은 개방형 질문으로 구성됩니다. 또한 LLM-as-a-Judge 기반의 자동 평가 체계를 도입하여 타임스탬프 인식 및 순차적 추론을 통해 응답 내용 정합성과 응답 타이밍을 공동으로 평가함으로써 체계적인 평가를 가능하게 하며, 인간 판단과 높은 일치를 달성합니다. 최첨단 듀플렉스 MLLM에 대한 실험은 상당한 한계를 드러냅니다. 가장 우수한 성능의 모델도 전체 39.6%에 그쳤으며, 선제적 알림에서는 20.0%만을 기록했습니다. 우리의 분석은 두 가지 주요 과제를 식별합니다: 모델은 적시 응답과 일관되고 전체적인 콘텐츠 생성을 균형 맞추는 데 어려움을 겪으며, 언제 응답해야 하는지와 무엇을 생성해야 하는지를 모두 결정하는 데 종종 실패합니다. 우리의 연구가 MLLM의 추가 발전에 기여하기를 바랍니다.
최근 대규모 언어 모델의 발전은 추론 모델의 등장으로 이어졌으며, 이들 모델은 특수한 미세 조정 절차를 통해 복잡한 작업에서 강력한 성능을 보여주었다. 이러한 방법들은 pass@1 정확도를 안정적으로 향상시키지만, 기존 연구에서는 기본 모델 대비 pass@k가 저하되는 커버리지 수축(coverage shrinkage) 현상이 나타난다는 점을 관찰했다. 본 논문에서는 SFT 기반 사후 학습 하에서 추론 수축이 발생하는 원인을 조사한다. 우리는 이러한 행동이 미세 조정 데이터의 특성, 특히 모델이 여러 유효한 추론 경로를 가진 해독 불가 패턴에 직면하는 결정 지점(decision points) 또는 "갈림길(forks in the road)" 시나리오에 의해 유발된다고 가정한다. 이 가설을 검증하기 위해, 그래프 분기의 해독 불가 노드와 추론 모드를 아우르는 결정 지점 설정을 시뮬레이션하는 통제된 사례 연구를 설계한다. 이러한 설정에서 사후 학습 동역학을 추적한 결과, 수축 현상이 훈련 데이터 내 결정 지점 시나리오의 빈도와 밀접하게 상관관계가 있음을 발견했다. 또한, 이러한 수축 행동이 결정 지점에 대한 표적 데이터 합성 설계와 보다 체계적인 다양성 장려 디코딩 메커니즘을 통해 부분적으로 완화될 수 있음을 입증한다. 본 연구의 결과는 데이터 중심 요인이 추론 모델의 수축을 유발하는 주요 요인임을 식별하고, 다양성을 고려한 설계가 이를 제어하는 효과적인 수단임을 강조한다.
현대 신경망 구조의 설계는 점진적인 경험적 선택을 통해 수렴되어 왔지만, 그 훈련 역학을 지배하는 메커니즘은 여전히 부분적으로만 이해되고 있다. 우리는 표준 손실 함수와 양의 편향을 가진 활성화 함수 간의 상호작용에 의해 유발되는 음의 가중치 드리프트(weight drift)를 식별하고 분석한다. MSE 또는 교차 엔트로피 손실 하에서 초기화 시 양의 사전 활성화(pre-activation)에 대한 기울기의 기댓값이 음이 아니며, 이로 인해 초기 훈련 중 하류 가중치가 음수 값으로 유도됨을 증명한다. 이 드리프트는 데이터보다는 최적화에 내재적이며, 다양한 아키텍처(MLP, ResNet, ViT, GPT-nano, MP-SENe)와 비대칭 활성화 함수(ReLU, GELU, SiLU)에서 지속된다. ReLU와 결합될 경우, 가중치 드리프트는 GPT-nano에서 최대 90%에 달하는 활성화 희소성(sparsity)을 생성한다. 우리는 79개 구성에서 희소성-정확도 트레이드오프를 특성화하고, 약 70% 활성화 희소성 이상에서 급격한 정확도 절벽(cliff)을 식별한다. ReLU^2는 GPT-nano에서 좋은 희소성-정확도 비율을 달성하지만, 중간 트랜스포머 계층에서 식별된 활성화 스파이크를 병리적으로 증폭시킨다. 클리핑(clipping)은 제곱의 표현적 이점을 보존하면서 이를 해결한다. 클리핑된 ReLU^2는 클리핑되지 않은 버전보다 성능이 우수하며, GELU^2는 GPT-nano에서 가장 낮은 검증 손실을 달성한다. 코드는 https://github.com/On-Point-RND/BugOrFeature에서 확인할 수 있다.
대규모 언어 모델(LLM)은 트리거 기반 유해 콘텐츠를 사용하여 학습 샘플을 오염시키는 백도어 공격(BA)에 매우 취약하다. 또한, 기존 방어 기법들은 다양한 BA 패턴에 대해 광범위하게 테스트되었을 때 효과가 입증되지 않았다. 이러한 BA에 더 효과적으로 대응하기 위해, 본 연구는 LLM 재작성을 데이터 중독에 대한 사전 방어 기법으로 활용하는 방안을 탐구한다. 첫째, LLM 재작성이 오픈북 무해 샘플(이하 오픈북 무해 재작성, OBBR)을 활용할 때, 재작성된 출력이 무해할 확률이 폐쇄형 재작성에 비해 엄밀히 더 높다는 것을 이론적으로 증명한다. 따라서 OBBR은 학습 샘플을 무해 프롬프트의 공간으로 투영함으로써 유해 콘텐츠를 무력화한다. 이후, 기존 방어 기법과 달리 OBBR이 다수의 기존 BA를 효과적으로 완화함을 보인다: 다섯 가지 알려진 BA와 네 가지 널리 사용되는 LLM에 걸쳐, OBBR은 최신 BA 방어 기법 대비 평균 51%, 폐쇄형 재작성 방법 대비 25.7% 더 높은 안전 성능을 달성한다. 마지막으로, OBBR은 다른 BA 방어 기법에 비해 계산 효율성이 높고, 미세 조정 후 자연어 처리 작업에서 모델 성능을 저하시키지 않으며, 트리거 기반이 아닌 데이터 중독 공격에 대해서도 방어 능력을 보유함을 입증한다.
AI 생성 텍스트가 실제 환경에 대규모로 유입됨에 따라, 특히 교육 및 학문적 무결성 워크플로에서 기관들이 상용 AI 텍스트 탐지기를 점점 더 많이 사용하고 있습니다. 우리는 이러한 시스템에 대한 놀라운 실증적 발견을 보고합니다: GPTZero와 Pangram으로 평가했을 때, 기본 모델에서 생성된 텍스트는 대개 압도적으로 인간적인 것으로 판단되는 반면, 명령어 튜닝된 대응 모델에서 생성된 텍스트는 그렇지 않았습니다. 이 관찰을 바탕으로, 우리는 반복적 의역을 통한 인간화(HIP)를 제안합니다. 이는 탐지기 무관 파이프라인으로, 기본 모델을 최소한으로 미세 조정하여 의역기로 만든 후 이를 반복적으로 적용합니다. 우리가 테스트한 기준선과 비교하여, HIP는 상용 탐지기에 대해 의미 보존과 탐지기 회피 사이에서 더 강력한 균형을 제공합니다. Llama-3와 Qwen-3 제품군, 0.6B에서 70B에 이르는 모델 크기에 걸쳐, HIP는 탐지기 인간 유사성을 일관되게 개선합니다. 우리의 발견은 현재 탐지기들이 기계 생성 텍스트의 불변 개념보다는 명령어 튜닝의 인공물과 지역적 맥락을 추적하고 있음을 시사합니다. 이는 결과적으로 이러한 요소들을 더 명시적으로 모델링하는 탐지기 설계를 요구합니다.
본 입장 논문은 컴퓨터 과학 학회에서 실험 결과에 대해 변조 감지 가능하고 부인 방지가 가능한 증명(attestation)을 요구해야 한다고 주장합니다. 우리는 근본적인 문제를 ‘실험 부인 방지(experiment nonrepudiation)’라고 명명합니다. 이는 규정을 준수하는 프로토콜이 논문에 제시된 숫자들을 실제 실행된 계산에 결부시켜, 저자가 이후에 이를 변경하거나 부인할 수 없도록 해야 함을 의미합니다. 현재 시스템은 자가 보고식 체크리스트, 선택적 코드 공유, 그리고 저자 통제하의 로깅에 의존하고 있습니다. 이러한 메커니즘 중 어느 것도 검토자가 확인할 수 없는 질문, 즉 논문이 기술한 코드가 논문이 보고한 숫자를 실제로 생성했는지 여부에 답하지 못합니다. 우리는 문제를 공식적으로 정의하고, 규정을 준수하는 모든 프로토콜이 충족해야 하는 보안 속성을 명시하며, 현재 접근 방식이 막지 못하는 공격을 포함한 위협 모델을 설명합니다. 문제가 해결 가능함을 보여주기 위해 우리는 K-Veritas를 구축했습니다. 이는 훈련 데이터에 접근하지 않고 서명된 보고서를 생성하는 Go 언어 기반의 참조 구현체입니다. K-Veritas는 완성된 답변이 아니라 테스트베드(testbed)입니다. 우리는 학회와 커뮤니티가 부인 방지를 최우선 요구사항으로 간주하고, 이를 위한 개방형 독립 표준을 구축하는 데 기여해 줄 것을 촉구합니다.
가변적인 자연어 상태를 공유하는 동시 LLM 에이전트는 구조적 경쟁 상태(SRC)를 발생시킵니다: 쓰기-쓰기 및 크로스 샤드 오래된 읽기 충돌이 에이전트 출력을 조용히 손상시킵니다. 기존의 멀티 에이전트 프레임워크(LangGraph, CrewAI, AutoGen)는 공유 상태에 대한 쓰기 소유권 의미론을 제공하지 않습니다. 우리는 S-Bus를 제시합니다. 이는 서버 측 DeliveryLog를 핵심 메커니즘으로 하는 HTTP 미들웨어입니다. DeliveryLog는 HTTP GET 연산의 에이전트별 로그로, 에이전트 SDK 변경 없이 HTTP/1.1 하에서 커밋 시점에 각 에이전트의 읽기 집합을 자동으로 재구성합니다. DeliveryLog가 제공하는 일관성 속성인 관측 가능한 읽기 격리(ORI)는 읽기 집합의 HTTP 관측 가능한 프로젝션에 대한 부분적 인과 일관성으로, 에이전트가 공유 샤드를 통해 협력할 때 구조적 경쟁 상태를 방지합니다. 세 가지 기여: (C1) 자동 HTTP 트래픽 기반 읽기 집합 재구성을 위한 DeliveryLog 메커니즘으로, 세 계층의 기계적 증거를 포함합니다: TLAPS에서 기계적으로 검증된 ReadSetSoundness 및 ORICommitSafety (하나의 유지된 타입 공리를 제외); N=3에서의 완전 TLC 검사 (20,763,484개의 구별된 상태, 위반 0건); Dafny가 9개의 귀납적 건전성 보조정리를 해소합니다. (C2) PostgreSQL 17 SERIALIZABLE 및 Redis 7 WATCH/MULTI와의 공유 샤드 경합 스윕에서 427,308개의 활성 HTTP-409 충돌에 대한 경험적 구조적 충돌 방지 동등성: 세 백엔드 모두에서 0건의 Type-I 손상. (C3) ORI의 운영 범위는 토폴로지 조건부입니다: 전용 샤드 워크로드에서는 의미적으로 중립적; 단일 샤드 협력적 쓰기에서는 보존이 동시 모순을 전파하기 때문에 해롭습니다. 소스 코드: https://github.com/sajjadanwar0/sbus
재무부와 중앙은행이 사용하는 미시시뮬레이션 모델은 기대소득의 모수적 과정에 의존하며, 이는 조건부 분포의 1차 및 2차 모멘트만을 포착하고 장기적 비선형 구조를 놓친다. 본 연구에서는 불규칙한 표 형태의 패널 시퀀스를 위한 디코더 전용 트랜스포머인 SAGA를 제안하며, 이는 유한 표본 한계 커버리지를 보장하는 개인 수준 예측 구간을 제공하는 분할 적합 보정 래퍼와 결합된다. 1990년부터 2022년까지의 스웨덴 종단적 LISA 등록 데이터(2,143,817명의 개인과 61,284,903 인-년 포함)로 훈련된 이 모델은 1년에서 30년의 기간에 걸친 연간 노동 소득을 예측하고, 몬테카를로 방법을 통해 이를 현재 할인된 생애소득 분포로 집계한다. 기준 모수적 과정인 Guvenen, Karahan, Ozkan, Song 모형 및 표 형태 및 순환 기준 모델과 비교하여, SAGA는 10년 기간에서 연속 순위 확률 점수를 31.9% 감소시키고, 20년 기간에서 평균 절대 오차를 37.7% 감소시킨다. 적합 구간은 한계적으로 0.4% 포인트 이내, 최악의 인구통계학적 하위 그룹에서 2.4% 포인트 이내로 명목 커버리지를 달성한다. 재구성된 생애소득 지니계수는 0.327로, 부분 관측된 실제값 0.341 및 GKOS 추정치 0.378과 대비된다. 모델 가중치, 보정 테이블 및 합성 동등 데이터 세트는 보호된 SCB MONA 환경 외부에서의 재현을 위해 공개된다.
우리는 Transformer 기반 장기 문맥 언어 모델에서 회전 위치 임베딩(Rotary Positional Embeddings, RoPE)의 고유한 한계를 규명한다. 본 이론적 분석은 문맥의 구체적 내용을 추상화하고 오직 문맥의 길이에만 의존한다. 우리는 문맥 길이가 증가함에 따라 RoPE 기반 어텐션이 예측 불가능해지며, 그 효과성의 핵심이 되는 두 가지 속성을 상실함을 증명한다. 첫째, 로컬리티 편향(locality bias)을 잃는다: RoPE는 더 가까운 위치를 멀리 떨어진 위치보다 더 선호할 가능성이 더 이상 높지 않다. 둘째, 토큰 관련성 일관성(consistency in token relevance)을 상실한다: 한 위치에서 대안보다 더 높은 어텐션 점수를 받은 키 벡터가 다른 위치에서는 더 낮은 점수를 받을 수 있다. 두 경우 모두, 실패 확률은 0.5에 근접하여 무작위 추측보다 나을 바 없다. 또한, 키 토큰이 다른 위치로 이동하거나 다른 토큰으로 대체되더라도 어텐션 점수가 변하지 않을 수 있으며, 이는 위치나 토큰을 구별하는 데 실패함을 나타낸다. RoPE 베이스를 조정하면 위치 구별과 토큰 구별 사이에서 절충이 발생하지만, 두 가지를 동시에 보존할 수는 없다. 오늘날 장기 문맥 모델에서 흔히 사용되는 방식인 RoPE 베이스 하이퍼파라미터를 증가시키면 서로 다른 토큰을 구별하는 데 도움이 되지만, 위치를 구별하는 능력은 필연적으로 희생된다. 우리의 실증적 분석은 다중 헤드, 다중 계층 구조가 이러한 한계를 극복하기에 충분하지 않음을 보여준다. 본 연구 결과는 향후 Transformer 기반 장기 문맥 언어 모델에서 위치와 토큰 순서를 인코딩하는 근본적으로 새로운 메커니즘이 필요할 수 있음을 시사한다.