번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM) 에이전트를 위한 메모리는 단순한 검색 증강(retrieval-augmented) 메커니즘에서 에이전트 실행 전반에 걸쳐 지속적인 정보 저장, 검색, 갱신, 통합 및 동적 생명주기 관리를 지원하는 데이터 관리 시스템으로 빠르게 진화해 왔다. 이러한 진화에도 불구하고, 기존 평가는 여전히 주로 종단간(end-to-end) 작업 성공 지표(예: F1, BLEU)를 통해 에이전트 메모리를 평가하며, 기본 시스템을 단일 블랙박스로 취급한다. 그 결과, 운영 비용, 메모리 모듈 간 아키텍처 트레이드오프, 동적 지식 갱신 하에서의 견고성과 같은 중요한 시스템 수준의 관심사는 충분히 탐구되지 못하고 있다. 본 논문에서는 데이터 관리 관점에서 에이전트 메모리에 대한 체계적인 실험 연구를 제시한다. 우리는 에이전트 메모리를 메모리 표현 및 저장, 추출, 검색 및 라우팅, 유지 관리의 네 가지 핵심 모듈로 분해하는 분석 프레임워크를 제안한다. 이 프레임워크 하에서 우리는 11개의 데이터셋에 걸친 5개의 벤치마크 워크로드에 대해 12개의 대표적인 메모리 시스템과 두 개의 참조 기준선을 평가한다. 광범위한 종단간 평가 결과, 모든 시나리오에서 지배적인 단일 아키텍처는 존재하지 않으며, 대신 효과는 메모리 구조가 워크로드 병목 지점과 얼마나 잘 정렬되는지에 크게 의존함을 보여준다. 또한 세분화된 절제 연구(ablation study)를 통해 표현 충실도, 검색 정밀도, 갱신 정확성 및 장기적 안정성에 대한 개별 효과를 정량화한다. 마지막으로, 현실적인 워크로드 하에서 비용-성능 트레이드오프를 밝혀내며, 전역 재구성보다 지역적 유지 관리가 비용 효율적임을 보여준다. 이러한 발견을 바탕으로, 우리는 진정한 에이전트 네이티브 메모리 시스템 구축을 위한 유망한 방향을 식별한다. 코드는 https://github.com/OpenDataBox/MemoryData에서 공개적으로 이용 가능하다.
오픈 도메인 주체 기반 텍스트-투-비디오 생성(S2V)은 학계와 산업계에서 큰 관심을 받고 있다. 오픈 도메인 S2V는 주로 두 가지 시나리오를 포함한다: 참조 주체의 특징을 최대한 유지해야 하는 도메인 내 시나리오와, 주체의 본질적 특징은 보존하면서 주체와 무관한 속성은 텍스트 프롬프트에 따라 유연하게 변할 수 있는 교차 도메인 시나리오이다. 기존 방법들은 주로 도메인 내 시나리오에서 주체 충실도를 극대화하는 데 초점을 맞추어, 새로운 스타일, 의미론적 조합 또는 도메인 속성과 같은 교차 도메인 시나리오에서의 편집 가능성과 적응성을 제한한다. 본 연구에서는 이상적인 S2V 방법이 서로 다른 도메인 간에 유연하게 이동하여 도메인 내 및 교차 도메인 시나리오 모두에서 강력한 성능을 달성해야 한다고 제안한다. 이를 위해, 오픈 도메인 비디오 개인화를 위해 높은 충실도와 생성 유연성을 달성할 수 있는 DomainShuttle을 제안한다. 구체적으로, 비디오와 참조 특징을 분리하고 참조 이미지의 도메인별 모델링을 위해 도메인 인식 AdaLN을 도입하는 Domain-MoT를 소개한다. 다음으로, 참조 이미지 토큰과 비디오 토큰을 별도의 RoPE 공간에 배치하여 정밀한 주체 수준의 공간 모델링을 가능하게 하는 Video-Reference DualRoPE 기법과, 무관한 특징에 영향을 받지 않는 본질적인 주체 특징을 추출하는 것을 목표로 하는 Cross-Pair 일관성 손실을 도입한다. 광범위한 실험을 통해 DomainShuttle이 다양한 오픈 도메인 응용 시나리오에서 높은 주체 충실도와 생성 유연성을 보이며 기존 방법들 대비 현저한 성능 향상을 달성함을 입증한다.
본 논문에서는 실시간 저지연 전이중 오디오-비주얼 상호작용을 위해 처음부터 설계된 네이티브 스트리밍 종단간 상호작용 기반 모델인 Wan-Streamer를 제안한다. Wan-Streamer는 단일 트랜스포머 내에서 언어, 오디오, 비디오를 입력과 출력 모두로 원활하게 모델링하며, 시퀀스는 블록 인과 어텐션(block-causal attention)에 의해 조정되어 점진적 스트리밍을 지원하는 시각, 오디오, 텍스트 입력 토큰과 시각, 오디오, 텍스트 출력 토큰이 교차된 형태로 표현된다. 별도의 VAD, ASR, 언어, TTS, 오디오 기반 애니메이션 또는 비디오 생성 모듈에 의존하는 계층적 상호작용 시스템과 달리, Wan-Streamer는 외부 언어, 음성, 아바타 또는 비디오 생성 모듈에 의존하지 않는다. 인지, 추론, 생성, 응답 타이밍, 턴 관리, 교차 모달 동기화가 하나의 통합 모델 내에서 공동으로 학습되므로 파이프라인 지연 시간과 오류 누적이 감소한다. 자연스러운 오디오-비주얼 응답성을 지원하기 위해, 인과적 인코더, 인과적 디코더, 블록 인과 어텐션, 저지연 멀티모달 토큰 스케줄링을 포함한 전체 스택을 스트리밍 가능성을 중심으로 재설계하여 25fps에서 160ms의 짧은 스트리밍 단위를 가능하게 한다. Wan-Streamer는 약 200ms의 모델 측 응답 지연 시간을 달성하며, 350ms의 양방향 네트워크 지연 시간과 결합 시 약 550ms의 총 상호작용 지연 시간을 보여 초 단위 이하의 전이중 오디오-비주얼 통신을 지원한다. 이러한 결과는 Wan-Streamer를 저지연 스트리밍 상호작용을 위한 통합적이고 종단간 멀티모달 상호작용 기반 모델로 자리매김하게 한다.
실제 사진 촬영에서는 카메라 프레이밍과 피사체의 포즈 모두에 대해 촬영 시점의 가이드가 필요하다. 그러나 기존의 미적 크롭 벤치마크는 주로 사후 크롭 예측을 평가할 뿐 피사체 측 추천을 간과하여, 다중 모달 대규모 언어 모델(MLLM)의 촬영 시점 가이드 능력은 충분히 탐구되지 않았다. 이러한 격차를 해소하기 위해, 우리는 두 가지 상호 보완적 과제를 포함하는 CaptureGuide-Bench를 도입한다: 촬영자 측 구도 결정 및 개선, 그리고 피사체 측 장면 조건부 포즈 추천이다. 평가 결과, 일반 목적 MLLM은 구도 결정은 가능하지만 정밀한 개선 위치 파악에는 한계가 있으며, 전문 미적 크롭 모델은 크롭 위치를 효과적으로 파악하지만 개선에만 국한되어 있다는 한계가 드러났다. 두 유형 모두 실행 가능한 포즈 가이드를 제공하지 못한다. 모델 개발을 지원하기 위해, 우리는 텍스트 설명과 구조화된 시각적 주석을 포함한 130K 샘플로 구성된 CaptureGuide-Dataset을 구축하고, 지도 학습 및 강화 학습 미세 조정을 통해 통합된 MLLM인 ShutterMuse를 개발한다. CaptureGuide-Bench 실험에서 ShutterMuse는 평가된 기준 모델 중 가장 우수한 전반적 촬영자 측 성능을 달성하고, 경쟁력 있는 피사체 측 포즈 추천을 현저히 낮은 추론 비용으로 제공하여, 이미지 촬영 중 대화형 어시스턴트로서 MLLM의 잠재력을 입증한다.
현대의 대규모 언어 모델은 주로 자기회귀적 분해와 인과적 어텐션을 사용하여 학습됩니다. 우리는 완전 양방향 어텐션을 갖춘 처음부터 학습된 80억(8B) 규모의 마스크 확산 언어 모델인 iLLaDA를 제시합니다. iLLaDA는 사전 학습과 지도 미세 조정(SFT) 전반에 걸쳐 마스크 확산 목표를 유지하며, 사전 학습을 12조(12T) 토큰으로 확장하고 250억(25B) 토큰 규모의 명령어 말뭉치에 대해 12 에포크 동안 미세 조정을 수행합니다. 또한 효율성을 위해 가변 길이 생성을 사용하고 객체식 평가에 신뢰도 기반 점수화를 도입합니다. LLaDA와 비교하여 iLLaDA는 일반, 수학, 코드 벤치마크 전반에서 광범위하게 성능이 향상되었습니다. 예를 들어, iLLaDA-Base는 BBH에서 21.6점, ARC-Challenge에서 14.9점 향상되었으며, iLLaDA-Instruct는 MATH에서 14.5점, HumanEval에서 16.5점 향상되었습니다. 비자기회귀적 학습임에도 불구하고 iLLaDA는 여러 벤치마크에서 Qwen2.5 7B와 경쟁력을 유지합니다. 이러한 결과는 처음부터 완전 양방향 확산 학습을 수행하는 것이 강력한 언어 모델을 향한 경쟁력 있는 경로임을 보여줍니다. 모델 가중치와 코드: https://github.com/ML-GSAI/LLaDA.
대규모 언어 모델(LLM)이 텍스트-코드 합성(text-to-code synthesis)을 상당히 발전시켰지만, 실제 프로그래밍 작업 중 다수는 스크린샷, 차트, 벡터 드로잉, 비디오, 대화형 상태와 같은 시각적 산출물을 통해 의도를 명시한다. 이러한 작업은 시각적 인식과 실행 가능한 프로그램을 연결하는 모델을 필요로 하는데, 그 이유는 정확성이 구문(syntax)뿐만 아니라 레이아웃, 데이터 의미론(data semantics), 상호작용 동작, 실행 후 적용되는 도메인별 제약 조건에 의존하기 때문이다. 본 조사는 다중 모드 코드 지능(Multimodal Code Intelligence)을 살펴보며, 시각적으로 근거한 입력과 출력 하에서 코드를 생성, 편집, 정제, 또는 추론하는 시스템을 다룬다. 먼저, 각 작업에서 코드가 수행하는 역할에 따라 해당 분야를 정식화하여, 코드를 렌더링된 산출물(rendered artifact), 편집 가능한 기호 구조(editable symbolic structure), 과학적 표현(scientific representation), 중간 추론 과정(intermediate reasoning trace), 또는 실행 가능한 정책이나 도구 인터페이스(executable policy or tool interface)로 구분한다. 그런 다음 벤치마크와 방법을 그래픽 사용자 인터페이스(Graphical User Interface), 과학적 시각화(Scientific Visualization), 구조화된 그래픽(Structured Graphics), 최첨단 과제 및 프레임워크(Frontier Tasks and Frameworks)의 네 가지 영역으로 체계화한다. 이 분류 체계는 성숙한 산출물 생성 문제를 떠오르는 에이전트 기반 및 통합 설정과 연결하며, 서로 다른 작업이 정확성의 증거를 어떻게 처리하는지 비교할 수 있게 해준다. 미래를 전망할 때, 향후 연구는 네 가지 검증 중심 방향에서 이점을 얻을 수 있다고 주장한다. 다중 신호 검증(multi-signal validation)은 정확성에 대한 상호 보완적 증거를 결합할 수 있고, 다중 상태 검증(multi-state verification)은 실행 경로에 걸친 동작을 테스트할 수 있으며, 교차 작업 전이 테스트(cross-task transfer testing)는 재사용 가능한 시각-코드 기술을 탐구할 수 있고, 검증 가능한 에이전트 과정(verifiable agent traces)은 에이전트의 행동이 시각적 증거에 근거하는지 밝힐 수 있다. 이들 방향은 함께 이 분야를 단일 출력 모방에서 증거 기반의 실행 가능한 시스템으로 나아가게 할 수 있다. 진행 중인 프로젝트와 자료는 https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}에서 확인할 수 있다.
단안 참조 비디오로부터 새로운 시점의 비디오를 목표 카메라 궤적에 따라 합성하는 작업은 참조 비디오의 기하학적 일관성과 모션 충실도를 동시에 요구한다. 기존의 명시적 3차원 표현 기반 방법들은 기성 재구성 모듈의 정확도에 의해 제한을 받으며, 이 모듈들은 단안 비디오에서 동적 객체에 대해 부정확한 기하학을 생성하는 경우가 많다. 반면, 카메라 조건화 전용 방법은 높은 시각적 품질을 달성할 수 있지만, 기하학 및 모션 일관성을 유지하는 데 어려움을 겪는 경우가 많다. 본 연구에서는 MVTrack4Gen(Multi-View point Tracking for Novel-View Generation)을 소개한다. 이는 다중 뷰 포인트 추적을 추가적인 기하학 및 모션 감독 신호로 활용하는 모션 인식 훈련 프레임워크로, 카메라 조건화 전용 새로운 시점 비디오 확산 모델을 대상으로 한다. 핵심 발견은 특정 주의집중 계층이 강한 대응 신호를 인코딩한다는 점인데, 여기서 쿼리 특징은 뷰 간 및 시간에 걸쳐 기하학적으로 대응되는 위치의 키 특징에 주의를 기울이며, 이러한 대응 관계의 정렬 불일치가 모션 불일치를 유발한다. 이 관찰에 기반하여, 이러한 특징들을 보조 다중 뷰 추적 헤드로 전달하고 포인트 추적 목적 함수와 함께 확산 모델을 공동으로 훈련한다. 이러한 모션 인식 대응 관계를 명시적으로 강화함으로써, MVTrack4Gen은 기존 모델을 개선하여 참조 뷰의 모션을 더 잘 따르고 뷰 간 기하학적 일관성을 유지하도록 한다. 다양한 벤치마크에서 본 방법은 최첨단 기하학적 일관성과 경쟁력 있는 카메라 정확도를 달성한다.
미세 시각 추론은 다중 모달 대규모 언어 모델(MLLM)이 작업 관련 시각적 증거를 식별하고, 지역 이미지 영역에 기반한 추론을 수행하도록 요구한다. 기존의 에이전트 기반 방법들은 일반적으로 검증 가능한 보상을 통한 강화 학습이나 대규모 주석 추론 경로에 대한 지도 미세 조정에 의존하여, 비용이 많이 드는 탐색, 수작업 검증 규칙, 또는 텍스트 감독에 대한 과도한 의존성을 초래한다. 이러한 외부 정답 레이블을 피하는 자연스러운 방법은 학생 모델 자체가 샘플링한 궤적으로부터 학습하는 것이며, 이는 정책 내 증류(OPD)를 의미한다. OPD가 시각 추론에 대해 제공할 수 있는 것과 없는 것을 이해하기 위해, 우리는 이를 부정-없음 정지-그래디언트 정렬로 재검토한다. 이러한 관점은 OPD가 효과적인 토큰 수준 교정을 제공하지만, 궤적 수준 식별의 부재로 인해 그 한계가 제약된다는 것을 보여준다. 이러한 관찰에 기초하여, 우리는 대조 증거 게이팅을 통한 시각 추론을 위한 정답-레이블-없음 프레임워크인 V-Zero를 제안한다. V-Zero는 주석된 텍스트 정답 레이블을 사용하지 않으며, 대신 훈련 중에 질문 관련 지역 크롭을 부정적 시각 뷰와 짝지어 학생이 샘플링한 궤적을 평가하고 밀집 토큰 수준 증류를 게이팅한다. 여러 시각 추론 벤치마크에 대한 실험 결과, V-Zero가 미세 시각 추론을 일관되게 개선하면서도 강력한 일반화를 유지함을 보여준다. 특히, V-Zero는 기존 지도 미세 조정 방법보다 5배 이상 빠르고, 강화 학습 기준선보다 10배 이상 빠르다. 코드와 데이터셋은 https://github.com/eVI-group-SCU/V-Zero에서 공개될 예정이다.
일관된 멀티샷 비디오를 생성하려면 구조화된 샷 간 메모리가 필요합니다. 대상 외형, 장면 맥락, 화자 정체성은 컷 사이에서 지속되어야 합니다. 기존 접근 방식은 고정 길이 시퀀스에 대해 엔드-투-엔드로 훈련되어 확장이 불가능하거나, 선형적으로 증가하는 메모리 뱅크로 샷별 생성을 수행하거나, 멀티샷 인지 백본 없이 LLM 플래너 하에 사전 훈련된 생성기를 조율합니다. 우리는 LTX-2.3을 기반으로 구축되고 주석이 달린 영화 및 뮤직비디오 샷으로 훈련된 메모리 기반 멀티샷 오디오-비디오 생성 시스템인 UnityShots를 제시합니다. 비디오 스트림은 두 개의 고정 크기 슬롯, 즉 오프닝 샷에 고정된 롱텀 메모리(LTM) 슬롯과 직전 테일을 보유한 숏텀 메모리(STM) 슬롯을 유지하며, 두 슬롯 모두 시각적 컷 확률과 비트 트래커 신호를 융합하는 경계 조건 게이트에 의해 모든 컷에서 업데이트됩니다. 오디오 스트림은 모든 샷에서 참조 화자 토큰을 주입하여 슬라이딩 오디오 뱅크 없이 음성 음색을 보존합니다. AdaLN을 통해 학습된 이산적 컷 타입 사전은 추론 시 전환 강도를 제어하는 노브가 됩니다. 우리는 6개 민족 지역과 10개 이상의 언어를 포괄하는 200개의 다문화 멀티샷 시퀀스로 구성된 벤치마크를 공개하며, 샷별 참조 정체성, 참조 오디오 및 경계별 전환 레이블을 포함합니다. I2V, T2V, R2V 조건화 모드에서 평가된 UnityShots는 모든 크로스샷 일관성 지표에서 오픈소스 기준 모델을 앞서며, 멀티샷 축에서 가장 강력한 폐쇄형 시스템과 일치합니다.
인과 확산 트랜스포머를 사용한 자기회귀 비디오 확산은 실시간 스트리밍 비디오 생성 및 행동 조건부 상호작용 월드 모델을 위한 주요 패러다임으로 부상했습니다. 본 연구에서는 고급 확산 증류 프레임워크인 rCM을 자기회귀 비디오 확산으로 확장합니다. rCM의 핵심 철학은 확산 증류에서 각각 일관성 모델(CM)과 분포 정합 증류(DMD)로 대표되는 순방향 발산과 역방향 발산 간의 상보성에 있습니다. 이 철학은 자연스럽게 자기회귀 설정으로 이어지며, 여기서 교사 강제(TF)는 오프라인 순방향 발산 인과 훈련 패러다임을 제공하고, 자기 강제(SF)는 온-폴리시 역방향 발산 정제에 해당합니다. 본 연구의 기여는 다음과 같습니다: (1) 광범위한 실험을 통해 교사 강제 CM이 자기 강제 DMD에 대한 최적의 보완 초기화 전략임을 입증하였습니다. (2) 사용자 맞춤형 마스크 FlashAttention-2 JVP 커널을 통해 자기회귀 비디오 확산을 위한 교사 강제 기반 연속 시간 CM(예: sCM/MeanFlow)을 최초로 구현하여 이산 시간 CM(dCM) 대비 10배 빠른 수렴을 달성했습니다. (3) 확산 증류 및 인과 훈련을 위한 선도적이고 통합된 확장 가능한 알고리즘-인프라 오픈 레시피인 Causal-rCM을 소개합니다. (4) 훈련에 합성 데이터만 사용하여 프레임 단위 및 청크 단위 설정 모두에서 최첨단 스트리밍 비디오 생성 성능을 달성했습니다. 특히, 증류된 2단계 인과 Wan2.1-1.3B 모델은 단 1~2회의 샘플링 단계만으로 VBench-T2V 점수 84.63을 달성했습니다. 또한 Causal-rCM을 물리적 AI를 위한 고급 전모달 월드 기반 모델인 Cosmos 3에 적용하여 행동 조건부 생성 능력을 갖춘 상호작용 월드 모델을 가능하게 했습니다.
통합 다중 모달 대규모 언어 모델(MLLM)은 강력한 텍스트-이미지 생성 품질을 달성했지만, 객체 수, 공간 관계, 속성 바인딩 및 대략적인 레이아웃이 보존되어야 하는 구조 인식 프롬프트 따르기에는 여전히 어려움을 겪습니다. 우리는 이러한 한계를 부분적으로 단일 조건화 흐름 내에서 구조적 계획과 외형 렌더링이 얽혀 있기 때문이라고 봅니다. 이 문제를 해결하기 위해, 우리는 쿼리 조건부 이미지 생성을 위한 잠재 시각적 추론 프레임워크인 암시적 시각적 사고 사슬(IV-CoT)을 제안합니다. IV-CoT는 시각적 조건화 쿼리를 구조적-의미적 계단식으로 분해하여, 구조적 쿼리가 먼저 잠재 시각적 계획을 형성하고 의미적 쿼리가 이 계획에 따라 외형을 렌더링합니다. 구조적 쿼리를 안내하기 위해, 우리는 훈련 전용 스케치 감독을 도입하여 추론 시 스케치 추출이나 중간 디코딩 없이 스케치로부터 구조를 포착하도록 장려합니다. IV-CoT는 단일 순방향 전달에서 암시적 CoT 추론을 수행하며 GenEval 및 T2I-CompBench에서 우수한 결과를 달성합니다. 시각화 및 분석은 학습된 구조적 및 의미적 쿼리가 구조 인식 생성에서 보완적인 역할을 한다는 것을 보여줍니다.
본 논문에서는 단일 성공률 스칼라를 넘어 범용 이동 조작 정책을 진단하는 시뮬레이션 벤치마크인 EBench를 제시한다. EBench는 5가지 능력 차원과 4가지 일반화 차원에 따라 주석이 달린 26개의 다양하고 도전적인 조작 과제로 구성된다. 우리는 π_0, π_{0.5}, XVLA, InternVLA-A1을 포함한 최신 범용 조작 모델을 평가했으며, 유사한 성공률을 보이는 모델들이 현저히 다른 능력 프로필을 나타낸다는 사실을 발견했다. π_{0.5}는 가장 높은 테스트 성공률과 최상의 학습-테스트 유지율을 달성한 반면, InternVLA-A1은 이동 조작에서 우세하지만 정밀 작업에서는 성능이 급락했으며, XVLA는 다른 정책들과는 상이한 기본 기술 세트에서 강점을 보였다. 능력 프로파일링 외에도 EBench는 4가지 대표적 관점에서 일반화 능력을 분석하여 다양한 분포 변화 요인의 영향을 파악한다. 이러한 결과는 전체 점수 이면에 있는 모델의 강점과 약점을 드러낸다. 본 벤치마크가 범용 조작 모델의 반복적 개선을 안내하는 폭넓은 진단 신호를 제공할 수 있기를 기대한다.
히치하이커스 가이드 투 에이전틱 AI는 자율적 AI 시스템 구축을 위한 포괄적인 실무자 참고서다. 이 책은 단일 계층에 국한되지 않고 파이프라인의 모든 계층을 이해해야 훌륭한 에이전트 시스템을 구축할 수 있다는 핵심 주제를 중심으로, 첫 번째 원칙부터 프로덕션 배포까지 전체 스택을 다룬다. 책은 LLM 기반층(트랜스포머 아키텍처, GPU 시스템, 훈련 및 미세 조정(SFT, LoRA, MoE), 모델 압축, 추론 최적화)을 주요 초점이 아닌 필수적인 기반으로 다루며 시작한다. 이어서 정렬 및 추론 계층(인간 피드백 기반 강화학습(RLHF), PPO, DPO와 그 변형, GRPO, 보상 모델링, 사고 사슬 및 테스트 시간 스케일링을 포함한 대규모 추론 모델을 위한 강화학습)을 발전시킨다. 후반부는 본격적인 에이전틱 AI에 할애된다. 주제로는 에이전트 훈련 및 궤적 기반 강화학습, 검색 증강 생성(RAG 및 에이전틱 RAG), 메모리 시스템(맥락 내, 외부, 에피소드, 의미 메모리), 에이전트 하네스 설계 및 맥락 관리, 에이전트 설계 패턴의 분류 체계가 포함된다. 에이전트 간 조정은 심층적으로 다루어진다: 모델 컨텍스트 프로토콜(MCP), 에이전트 스킬 및 도구 사용, 에이전트 간(A2A) 통신 프로토콜, 그리고 중앙 집중형, 분산형, 계층형 토폴로지를 아우르는 다중 에이전트 아키텍처. 책은 에이전트 개발 프레임워크, 에이전틱 UI 설계, 에이전틱 작업을 위한 평가 방법론, 프로덕션 배포로 마무리된다. 각 장은 엄격한 이론적 기초와 구현 가이드, 코드 예제, 주요 문헌 참조를 함께 제공한다.
Chain-of-Thought(CoT)는 단계적 사고를 유도하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 표준 방법이 되었지만, 다중 모드 작업에서의 효과는 여전히 불분명하다. 본 논문에서는 핵심 질문인 "다중 모드 Chain-of-Thought 추론이 무엇을 할 수 있으며, 어디서 왜 부족한가?"를 체계적으로 조사하고자 한다. 이를 위해 지각 및 추론 범주에 걸쳐 12개의 다중 모드 작업을 14개의 비추론 모델과 8개의 추론 모델을 사용하여 평가한다. 분석 결과 몇 가지 중요한 발견이 드러났다: (1) CoT는 공짜 점심이 아니며, 각 작업의 특정 요구 사항에 따라 선택적으로 사용해야 한다. 지각 작업의 경우 CoT는 시각적 접지 및 객체 계수에서 성능 저하와 같은 바람직하지 않은 부작용을 초래할 수 있다. 반대로 수학, 과학 및 다중 이미지 추론 관련 추론 작업에는 효과적이다. (2) 기존 모델과 비교할 때, 기존 오픈소스 다중 모드 추론 모델은 종종 전반적으로 미미한 개선만을 보이는데, 이는 아마도 수학적 추론에 지나치게 집중하여 더 넓은 능력을 희생했기 때문일 수 있다. (3) 시각적 추론은 현재 다중 모드 CoT의 주요 병목 현상으로 남아 있으며, 모델은 Look Light, Think Heavy(가볍게 보고 깊이 생각함) 패턴을 보인다. 이 패턴에서는 언어적 반성은 추론 과정에서 오르내리지만, 시각적 반성은 지속적으로 감소한다. 이러한 발견은 다중 모드 CoT가 언어적 반성은 비교적 잘 처리하지만, 추론 과정 전반에 걸쳐 깊은 시각적 내성을 유지하는 능력이 부족함을 시사한다.
Autodata를 소개합니다. 이는 AI 에이전트가 데이터 과학자 역할을 수행하여 고품질의 훈련 및 평가 데이터를 구축할 수 있도록 하는 일반적인 방법입니다. 우리는 이러한 데이터 과학자 에이전트를 훈련(메타 최적화)하여 더욱 강력한 데이터를 생성하는 방법을 학습시키는 과정을 제시합니다. 전반적인 공식화와 구체적인 실제 구현인 Agentic Self-Instruct를 설명하고, 컴퓨터 과학 연구 과제, 법적 추론 과제, 수학적 객체를 활용한 추론 과제에 대한 실험을 수행합니다. 해당 실험에서 기존의 합성 데이터셋 생성 방법에 비해 개선된 결과를 얻었습니다. 나아가 데이터 과학자 에이전트 자체를 메타 최적화함으로써 더 큰 성능 향상을 달성했습니다. 에이전틱 데이터 생성은 증가된 추론 컴퓨팅 자원을 더 높은 품질의 모델 훈련으로 전환하는 방법을 제공합니다. 전반적으로, 이 방향이 AI 데이터 구축 방식을 변화시킬 잠재력을 가진다고 믿습니다.
비디오 가상 피팅(VVT)은 동적인 대상 위에 사실적인 의상 오버레이를 합성하는 데 있어 놀라운 진전을 이루었지만, 기존 패러다임은 소스 카메라 궤적에 대한 수동적 의존성에 의해 근본적으로 제약되어 전방향 시점 탐색에 필요한 상호작용적 자유도를 수용하지 못하고 있다. 이러한 한계를 해결하기 위해 우리는 선구적인 연구 프론티어를 정의한다: 카메라 제어 가능 비디오 가상 피팅(CaM-VVT). 기존 VVT와 달리 CaM-VVT는 시점에 구애받지 않는 텍스처 환영(halucination)뿐만 아니라, 임의의 제약 없는 카메라 움직임 하에서 비강체 인간 역학과 배경 맥락 간의 엄격한 구조적 동기화를 요구한다. 이러한 과제에 대응하기 위해 우리는 CaM-VVT 작업을 위해 특별히 설계된 최초의 통합 DiT 기반 프레임워크인 TryOnCrafter를 제시한다. 암시적 픽셀 공간 조작에서 벗어나, 우리는 인간 대상을 환경으로부터 명시적으로 분리하는 렌더링 가능한 4D 피팅 프록시를 도입한다. 이는 고충실도 2D 피팅 사전 정보를 SMPL-X 시퀀스를 통해 애니메이션화되고 재구성된 배경 포인트 클라우드로 메트릭 정렬되는 의류를 입힌 3DGS 기반 아바타로 증류함으로써 달성된다. 이 프록시는 우수한 텍스처 밀도와 움직임 무결성을 갖춘 견고한 구조적 기반을 확립한다. 우리의 프록시 기반 비디오 DiT는 이 견고한 구조적 기반을 주요 기하학적 앵커로 활용하여, 합성된 사실적인 비디오가 규정된 궤적과 물리적으로 타당한 변형에 의해 엄격히 제약되도록 보장한다. 4D 프록시의 내재된 편집 가능성 덕분에 TryOnCrafter는 인간 재위치 설정, "불릿 타임" 효과, 360도 궤도 시청을 포함한 다양한 하위 응용을 가능하게 한다.
WordArt(예술적 텍스트)는 고도로 사용자화된 글꼴, 텍스처, 배치를 특징으로 하여, WordArt 중심의 장면 텍스트 인식(WATER)은 일반적인 장면 텍스트 인식(STR)보다 훨씬 더 어렵습니다. 기존의 STR 데이터셋과 방법은 일반적으로 일반 장면 텍스트와 고정 템플릿 입력을 기반으로 구축되어 WATER로 확장하기 어렵습니다. 따라서 본 연구는 데이터와 모델 측면에서 이 과제를 발전시키는 것을 목표로 합니다. 데이터 측면에서는 기존 예술적 텍스트 데이터보다 규모가 수백 배 향상된 200만 개의 합성 데이터셋 WATER-S를 구축합니다. WATER-S는 두 개의 상호 보완적인 하위 집합으로 구성됩니다. 하나는 업그레이드된 렌더링 파이프라인(SynthWordArt)으로 생성되어 정확도와 제어 가능성이 높은 합성 WordArt 데이터를 제공합니다. 다른 하나는 프롬프트 마이닝을 위한 Qwen3-VL과 이미지 합성을 위한 Z-Image를 결합하여 생성되며, 현실적이고 다양한 데이터의 적용 범위를 개선합니다. 모델 측면에서는 WATERec을 제안합니다. 이는 임의 형태의 입력을 지원하는 시각적 인코더와 복잡한 배치를 모델링하는 자기회귀 디코더를 채택하여, WordArt에 대한 고정 템플릿 STR의 병목 현상을 구조적으로 해결합니다. 실험 결과, 이 아키텍처는 기존 STR 방법보다 성능이 뛰어나 WordArt와 같은 불규칙 텍스트에서 최첨단 성능을 달성합니다. 기존 실제 STR 데이터를 신중하게 재구성한 WATER-R과 함께, 새로운 합성 데이터와 모델 설계를 통한 강력한 기준 시스템은 WordArt-Bench에서 90.40%의 정확도를 달성하여 범용 및 OCR 특화 비전-언어 모델을 큰 폭으로 능가합니다. 코드와 데이터는 https://github.com/YesianRohn/WATER에서 확인할 수 있습니다.
온-정책 증류(OPD)는 학생 모델이 자체 생성한 출력을 학습에 활용함으로써 대규모 언어 모델(LLM)의 추론 능력을 향상시키지만, 표준 OPD는 학생 생성 출력(SGO)의 정보성과 관계없이 이를 동등하게 취급한다. 우리는 통제된 필터링 실험에서 일관된 비대칭성을 관찰했다. OPD와 온-정책 자기 증류(OPSD) 모두에서 오직 틀린 SGO만으로 훈련한 모델이 오직 올바른 SGO만으로 훈련한 모델보다 더 나은 성능을 보였다. 추가 분석 결과, 올바른 SGO만으로 훈련된 모델은 더 짧은 추론 궤적을 생성하고 반성 행동이 약화되는 경향이 있는 반면, 틀린 SGO는 모델의 능력 경계 부근에서 탐색적 추론을 더 잘 보존하는 것으로 나타났다. 이러한 신호를 최종 답변을 포함한 전체 롤아웃 없이 활용하기 위해, 우리는 ReNIO(부정 궤적 중요도 재가중을 통한 LLM 온-정책 증류)를 도입한다. ReNIO는 학생-교사 확률 비율을 사용하여 잘못된 추론 궤적으로 이끄는 핵심 토큰을 식별하고, 이들의 정보를 정규화된 샘플 가중치로 집계함으로써 최종 답변의 정답 여부를 관찰하지 않고도 자연스럽게 부정 궤적에 더 큰 가중치를 할당한다. Re-NIO는 접두사 조건부 토큰 확률만을 사용하므로, 전체 롤아웃 기반 강화 학습에 비해 OPD의 접두사 훈련 이점을 유지한다. 수학적 추론 및 코드 생성 과제 모두에서 ReNIO는 OPD와 OPSD를 모두 개선하며, 수학적 추론 벤치마크에서 Qwen3-1.7B의 경우 최대 8.90%, R1-Distill-Qwen-7B의 경우 최대 10.00%의 상대적 성능 향상을 보였다. 코드 저장소: https://github.com/BDML-lab/ReNIO.
실제 세계의 과제를 해결하기 위해서는 외부 지식의 검색이 필수적이지만, 질의와 관련 지식 간의 관계가 표면적 의미나 어휘 일치(예: 동일한 정리에 의존하는 수학 문제나 깊은 추론이 필요한 코딩)를 넘어 암시적이고 복잡한 추론을 포함할 때는 여전히 어려움이 따른다. 기존 접근법은 주로 질의 측면의 추론(예: 질의 재작성)에 의존하는데, 이는 상당한 온라인 지연 시간을 초래하고 지식 코퍼스 자체에 대한 추론(즉, 인덱스 측면 추론)을 수행할 기회를 충분히 활용하지 못한다. 본 논문에서는 검색 인덱스 추론을 강화 학습 문제로 정식화하는 에이전틱 인덱싱 프레임워크인 RL-Index를 제안한다. RL-Index는 질의 시점에 추론을 수행하는 대신, 잠재적인 질의-지식 관계를 명시적으로 인코딩하는 LLM 생성 근거를 문서에 추가함으로써 추론을 인덱싱 단계로 전환한다. 이러한 근거의 품질을 최적화하기 위해 GRPO(Group Relative Policy Optimization)를 활용하고 검색 유사도를 검증 가능한 보상 신호로 사용하여 검색 효과를 위한 인덱싱 결정을 직접 최적화할 수 있게 한다. BRIGHT 벤치마크에 대한 광범위한 실험을 통해 RL-Index가 검색 및 하위 질문 응답 성능을 일관되게 향상시키는 동시에 온라인 추론 지연 시간을 크게 줄임을 입증한다. 또한, 학습된 근거 추가는 다양한 검색기와 생성기에서 일반화되어, 서로 다른 검색 시스템에서 플러그 앤 플레이 방식의 인덱싱 전략으로서의 강건성을 강조한다.
"짧게 말하라. 문법을 생략하라. 토큰을 아껴라." 이 동굴인 스타일은 추론 비용을 줄이는 방법으로 널리 권장되지만, 실제로 절감 효과가 있는지는 어떤 채널(사용자 프롬프트 또는 모델 응답)이 압축되는지에 달려 있다. 우리는 작업 정확도, 실현된 항목당 비용, 그리고 모델의 비제약적 참조에 대한 참조 텍스트 일치도를 기준으로 모든 생성 결과를 평가하는 이중 채널 평가 프로토콜인 Cavewoman을 제시한다. 5개 데이터셋, 5가지 축소 수준, 8개 모델을 동일한 항목에 대해 두 채널을 모두 측정하여 평가했다. 출력 압축은 대부분의 API 모델(모델당 1.4~2.4배, 최적의 경우 최대 3배)과 공개 가격 체계의 모든 4개 오픈 가중치 모델에서 실현 비용을 절감했다. 입력 압축은 반대 효과를 보였으며, 엄격한 손실-손실 상황을 초래했다. 비용을 낮추는 대신 순비용을 증가시켰으며(5개 벤치마크 평균 약 1.15배, 최악의 데이터셋에서 최대 1.8배, 더 강한 압축에서 최대 2.7배), 이는 모델이 정확도가 하락하는 상황에서도 더 긴 응답으로 이를 보상하기 때문이다. 동일한 설정에서 표면 텍스트는 비제약적 참조와 차이를 보였다. 비추론 모델의 경우, 생성 결과의 약 절반이 정확했지만, 표면 텍스트가 더 이상 모델 자체의 비제약적 기준 생성 결과를 함의하지 않았다. 이러한 차이는 길이를 통제한 재점수화, 다중 비교 보정, 그리고 보완적 의미 측정 하의 반복 실험에서도 유지되었다. 코드와 데이터는 https://github.com/danielle34/cavewoman에서 제공된다.
기존의 저비트 KV-캐시 양자화기들은 종종 각 캐시된 키를 평평한 벡터로 처리합니다. 그러나 RoPE 하에서, 키가 미래의 어텐션 로짓에 기여하는 방식은 위치에 의존하는 2차원 주파수 블록들에 대한 합으로 분해됩니다. 이는 키-캐시 양자화를 블록 단위 비트 할당 문제로 만듭니다: 고에너지 RoPE 블록은 양자화 오류에 더 민감하므로 더 많은 비트를 할당해야 합니다. 우리는 TurboQuant-MSE(TQ-MSE)를 기반으로 구축된 RoPE 인식 비트 할당기인 Block-GTQ를 소개합니다. 각 레이어와 KV 헤드에 대해 Block-GTQ는 각 RoPE 블록에 대한 레이블 없는 에너지 점수를 계산하고 한계 이득에 따라 정수 비트 폭을 탐욕적으로 할당합니다. 일치된 K/V 비트 예산 하에서 Block-GTQ는 10개 모델 진단 패널에서 RoPE 쿼리-키 로짓을 더 잘 보존하며, 2 및 3 비트/차원 K-only 양자화에서 레이어당 MAE를 32-80% 감소시키고 균일 TQ-MSE와의 모든 367/367 레이어 비교에서 승리합니다. 이러한 충실도 향상은 더 강력한 다운스트림 장기 컨텍스트 검색, 이해 및 추론으로 이어집니다. Llama-3.1-8B-Instruct에서 K2V2 설정 하에, Block-GTQ는 6개 과제 NIAH 평균을 70.6에서 97.4로, LongBench-EN 평균을 36.87에서 53.31로 향상시킵니다. DeepSeek-R1-Distill-Qwen-7B를 사용한 AIME 2024/2025에서, fp16 최근 키 버퍼 없이, Block-GTQ K3V2는 51.7/37.5를 기록하여 fp16의 54.2/37.9에 근접한 반면, 균일 TQ-MSE는 0.0/0.0으로 붕괴됩니다. 우리는 추가로 압축 캐시 서빙 경로를 구현합니다. Qwen2.5-3B-Instruct를 사용한 단일 H800 GPU에서, 압축 K3V3은 fp16과 비슷한 품질로 3.24배 KV-캐시 압축을 달성하고, 128K 컨텍스트에서 fp16 FlashAttention2보다 1.34배 빠르게 실행되며, 최대 메모리를 56.31 GB에서 19.85 GB로 줄이고, fp16이 OOM이 발생하는 256K 및 512K에서도 실행 가능합니다. 코드는 https://github.com/JIA-Lab-research/blockgtq에서 확인할 수 있습니다.
LLM 에이전트가 점점 더 자율적으로 도구를 선택함에 따라, 서로 다른 권한을 가진 도구들 사이에서의 선택이 안전과 관련된 이슈가 된다. 그러나 기존의 도구 선택 연구는 안전과 무관한 메타데이터 선호도에 초점을 맞추고 있어, 권한에 민감한 선택은 충분히 탐구되지 않았다. 이러한 격차를 해소하기 위해, 우리는 충분한 저권한 대안이 있음에도 불구하고 에이전트가 고권한 도구를 선택하거나 해당 도구로 전환하는 과도한 권한 도구 선택 현상을 연구한다. 우리는 ToolPrivBench를 도입하여 에이전트가 충분한 저권한 대안이 있음에도 고권한 도구를 선택하는지 평가하며, 초기 선택과 일시적 도구 오류 이후의 전환을 모두 측정한다. 여덟 개 도메인과 다섯 개의 반복적 위험 패턴에 걸쳐, 과도한 권한 도구 선택이 주류 LLM 에이전트에서 흔히 발생하며 일시적 오류에 의해 더욱 증폭됨을 발견했다. 또한 일반적인 안전 정렬이 최소 권한 도구 선택으로 신뢰할 수 있게 전이되지 않으며, 프롬프트 수준의 제어는 일시적 오류 하에서 제한된 완화 효과만 제공함을 확인했다. 이에 따라 우리는 에이전트가 충분한 저권한 도구를 선호하고 필요할 때만 전환하도록 가르치는 권한 인식 사후 훈련 방어를 도입한다. 완화 실험 결과, 이 방어는 일반적인 성능을 유지하면서 불필요한 고권한 도구 사용을 크게 줄이는 것으로 나타났다.
사용자를 대신하여 행동하는 AI 에이전트는 지속적으로 결정을 내리며, 사용자가 자신의 에이전트를 신뢰하려면 이러한 결정이 사용자가 실제로 원하는 바와 일치해야 한다. 프라이버시는 에이전트에게 중요한 정렬 문제이다. 에이전트가 수행하는 모든 메시지, 게시물 또는 도구 호출은 무엇을, 누구와, 어떤 조건에서 공유하는 것이 적절한지에 대한 맥락적 판단이다. 이러한 판단은 사회적 기대와 규범에 의존하기 때문에, 인간 판단은 단순히 프라이버시 침해를 식별하는 것을 넘어 이를 정의하는 데 기여한다. 기존 연구는 훈련과 평가 모두에서 신뢰할 수 없는 대리 지표에 의존하는 반면, 우리는 인간 판단을 에이전트 프라이버시 정렬의 중심에 둔다. 본 논문에서는 현재 대규모 언어 모델(LLM)이 실제로 정보를 유출하는 다양한 시나리오에서 599명의 고유 주석자가 제공한 3,516개의 상세 주석이 포함된 1,350개 샘플로 구성된 PrivacyAlign 데이터세트를 소개하고, 이를 활용하여 인간의 프라이버시 규범에 기반한 정렬 훈련과 자동 평가를 수행한다. 이러한 주석을 바탕으로, 먼저 동일한 프롬프트에 대한 참조 응답에 인간 주석과 설명을 조건화하여 LLM 평가자의 판단을 더 신뢰할 수 있게 만드는 방법을 보여준다. 그런 다음 주석 조건화 보상 모델링(annotation-conditioned reward modeling)을 도입하여, 강화 학습 중에 이러한 주석을 사용해 새로운 응답을 평가하고, 이 보상으로 훈련된 소형 오픈 가중치 에이전트가 인간의 프라이버시 규범에 더 잘 정렬됨을 보여준다. PrivacyAlign 및 기존 에이전트 프라이버시 벤치마크에서 강력한 성능 향상을 확인했다.
최근 스테레오 매칭 분야의 발전은 놀라운 정확도를 달성했지만, 대규모 모델, 높은 연산량 또는 추가적인 기반 모델 사전 지식에 의존하는 경우가 많아 자원이 제한된 플랫폼에 배포하기 어렵다. 반면, 효율적인 스테레오 모델은 더 빠른 추론을 제공하지만 일반적으로 강력한 제로샷 일반화 능력이 떨어지는 것으로 간주된다. 본 논문에서는 효율적인 제로샷 스테레오 매칭을 위해 설계된 초고속 모델 시리즈인 Lite Any Stereo V2 (LAS2)를 소개함으로써 이러한 가정에 도전한다. LAS2는 아키텍처와 훈련 관점 모두에서 개발되었다. 아키텍처 측면에서는 실제 배포 환경에서의 효율적인 스테레오 설계를 재검토하고, 이론적 MACs만이 아닌 실제 추론 지연 시간에 최적화된 2D 전용 비용 집계 프레임워크를 제안한다. 훈련을 위해 합성 데이터 지도 학습, 자가 증류, 실제 세계 지식 증류를 결합한 3단계 전략을 개발한다. 실제 세계 의사 지도 학습의 신뢰성을 높이기 위해 의사 레이블 필터링과 오차 클램핑 연산을 추가 도입하여 합성에서 실제로의 전이를 더욱 원활하게 만든다. LAS2는 다양한 효율성 예산에 맞는 피드포워드 변형과 더 높은 정확도를 위한 반복적 변형을 포함한 모델 패밀리로 구현된다. 광범위한 실험을 통해 LAS2가 효율적인 스테레오 방법 중 최첨단 정확도를 달성하면서도 현저히 낮은 지연 시간을 유지함을 보여준다. 구체적으로, LAS2-H는 반복적 방법인 Fast-FoundationStereo보다 전반적으로 더 강력한 제로샷 성능을 보이며, H200에서 1.8배, Orin에서 2.7배 더 빠른 추론 속도를 제공한다. 프로젝트 페이지, 데모 및 코드는 https://tomtomtommi.github.io/LiteAnyStereoV2/에서 확인할 수 있다.
탈옥 공격은 정렬된 대규모 언어 모델의 지속적인 취약점을 드러낸다. 즉, 안전 훈련을 거쳤음에도 정교하게 제작된 프롬프트가 정책 위반 응답을 유도할 수 있다. 대부분의 방어 기법은 프롬프트 또는 출력 수준에서 작동하지만, 유해한 의도가 모델의 내부 표현에 어떻게 인코딩되는지는 여전히 불분명하다. 우리는 로짓 렌즈를 사용하여 고정된 LLM의 계층별 토큰 수준 예측 엔트로피 궤적을 분석함으로써 이 문제를 조사한다. 프롬프트 수준 엔트로피의 정적 집계 통계(예: 평균, 분산)는 식별 신호를 거의 전달하지 않는 반면, 엔트로피가 토큰 위치에 따라 어떻게 진화하는지 포착하는 특징(예: 단조 순위 기반 추세 점수)은 훨씬 더 많은 정보를 제공한다는 사실을 발견했다. 중요한 점은 이 신호가 모델 깊이에 걸쳐 균일하지 않으며, 중간 계층에 집중되고 최종 계층에서는 약화된다는 것이다. 이는 탈옥 관련 구조가 출력 헤드보다는 네트워크 중간 표현에서 가장 두드러짐을 시사한다. 여러 모델(Llama, Qwen, Gemma)과 적대적 벤치마크에 걸쳐 이러한 엔트로피 동역학은 추가 훈련 없이 아키텍처에 일관된 분리를 제공한다. 종합적으로, 우리의 연구 결과는 탈옥 행동이 구조화된 중간 불확실성 동역학에 반영되며, 어떤 엔트로피 기반 특징이 유해한 의도를 인코딩하는지, 그리고 그 신호가 네트워크의 어디에서 가장 두드러지는지를 명확히 한다.
Today's reasoning models use thinking tokens to attain stronger performance on benchmarks than their instruction-tuned counterparts. It is also generally believed that this more "deliberative" mode should improve alignment and safety, by providing the model a safe space to consider whether its planned answer to a request violates its safety principles. We present evidence that this intuition is not always correct. Across frontier open-weight reasoning models spanning GPT-OSS, Qwen, Olmo, and Phi families, we find that the eventual refusal/compliance outcome is already strongly predictable via a trained head on the first token's hidden representation (0.84-0.95 AUROC and sim88% balanced accuracy for predicting refusal/compliance) before any visible thinking. The thinking process turns out to be more akin to prefix completion than to deliberative revision, with the final outcome rarely changing after the first sim20% of thinking, despite giving the appearance of deliberation at the text level (sim74% of text-level deliberations occur when the response distribution is already locked to one refusal/compliance side). We also find that existing inference-time and training-based safety interventions, despite being motivated by the goal of inducing deliberation, largely shift model behavior toward over-refusal while suppressing already-scarce deliberation signals. Our results suggest that safety behavior in current reasoning models is much less deliberative than commonly assumed, and highlight the need for methods that induce real safety deliberation.
비디오 생성 모델은 점점 더 사실적인 영상을 생성할 수 있게 되었지만, 여전히 기본적인 물리 법칙을 따르는 비디오를 생성하는 데 어려움을 겪고 있다. 여기에 더해, 비디오 내 물리 법칙 위반을 위치 파악하고 구체적으로 명시할 수 있는 신뢰할 수 있는 세분화된 평가 방법이 부족하다. 우리는 이 문제를 해결하기 위해 계층적 질문 기반 평가 파이프라인인 물리 질문 장면 그래프(PQSG)를 도입한다. PQSG는 고품질의 맥락 내 예시에 의해 안내되는 시각-언어 모델(VLM)이 생성한 질문의 그래프 기반 계층 구조를 사용하여 생성된 비디오가 객체, 동작, 물리 법칙 준수 측면에서 프롬프트에 얼마나 충실한지 평가한다. 질문을 그래프로 표현함으로써 PQSG는 질문 내 논리적 의존성을 도입하여 각 질의가 맥락적으로 타당하도록 보장한다. 또한 PQSG는 비디오의 어떤 특성이 물리적 타당성 제약을 위반하는지에 대한 세분화된 평가를 제공한다. 우리는 PQSG를 검증하기 위해 FinePhyEval 데이터셋을 구축했다. 이 데이터셋은 물리 기반 프롬프트와 다양한 최첨단 비디오 생성 모델(Sora 2, Veo 3, Wan 2.1)로 생성된 해당 비디오로 구성되며, 각 비디오는 인간에 의해 여러 범주에 걸쳐 주석이 달려 있다. FinePhyEval을 사용하여 PQSG의 세분화된 점수와 인간 판단 간의 상관관계를 측정한 결과, 이전 연구보다 전반적으로 높은 상관관계를 보였다. 또한 PQSG는 폐쇄형 소스 모델이 Wan 2.1보다 물리적 현실감 측면에서 더 높은 순위를 매긴다는 것을 발견했다. 마지막으로, FinePhyEval에서 제공하는 주석이 하위 작업 평가에도 사용될 수 있음을 보여준다. 두 개의 강력한 VLM을 대상으로 질문 생성 및 응답 능력을 벤치마킹한 결과, 모델이 인간과 유사한 질문을 생성할 수 있지만, 응답 성능에서는 여전히 인간에 미치지 못함을 발견했다.
장기 지평 에이전트는 컨텍스트 관리에 의존한다. 시스템은 토큰을 압축, 요약, 제거하여 유한한 창을 넘어서도 작업을 계속할 수 있도록 한다. 이는 삭제된 정보가 더 이상 필요하지 않거나 내재화된 경우에만 안전하다. 계획은 스트레스 사례이다. 계획은 초기에 작성되고 여러 단계에 걸쳐 사용되며 가장 먼저 제거된다. 우리는 재생 쌍(replay pairing)을 도입한다. 이는 계획이 히스토리에 포함된 경우와 포함되지 않은 경우로 동일한 궤적을 실행하고 은닉 상태 코사인 거리(hidden-state cosine distance)를 측정하는 진단 기법이다. Llama-3.1-70B에서 계획 신호는 계획 직후 한 단계에서 0.453으로 급등한 후, 단일 행동-관찰 단계에서 4.1배 감소한다. HotpotQA에서는 12.4배 감소한다. 이는 표준 LLM 에이전트가 계획을 지속적인 상태로 전달하지 않고, 대신 계획이 컨텍스트에 남아 있는 것에 의존한다는 증거이다. 레이어 L32 프로브는 이 감쇠를 진단 도구로 탐지할 뿐, 프로브 자체가 계획 내용을 읽는다는 증거는 아니다. 추론 모델은 측정 교란을 추가한다. 이들의 `<think>` 흔적은 계획 내용을 재도출하므로, 표준 제거 방식은 제거된 조건에서도 계획 증거를 남긴다. 우리는 이를 추론 흔적 교란(reasoning-trace confound)이라고 명명하고, 엄격한 제거(strict stripping)로 해결한다. 이는 제거된 실행에서만 이전 `<think>` 블록을 제거한다. 이는 표본 내에서 단계+1 신호를 +163%, 표본 외에서 +153% 회복시키며, 비추론 Llama에서는 유의미한 변화를 일으키지 않는다(+4.8%). DeepSeek-R1-Distill-Llama-70B에서 Llama로 훈련된 프로브는 AUROC 0.748(p=6e-4)로 전이되는 반면, R1 특화 프로브는 1.000에 도달한다. 이는 R1이 계획 신호를 다른 은닉 상태 방향으로 인코딩함을 시사한다. 마지막으로 압축 스트레스 테스트는 실용적 비용을 보여준다. 순진한 계획 제거는 ALFWorld 성공률을 34.7퍼센트포인트(p.p.) 낮추는 반면, 프로브 게이트 방식의 재표면화는 이를 회복하지 못한다. 본 연구의 기여는 에이전트 핵심 정보가 지속적이기보다 컨텍스트 상주적일 수 있음을 보여주는 측정 및 스트레스 테스트 프레임워크이다. 컨텍스트 관리는 하중을 지탱하지만, 계획 보호만으로는 충분하지 않다.
지속적 테스트 시간 적응(CTTA)은 레이블 없이 온라인으로 적응함으로써 진화하는 타겟 도메인에서 모델 성능을 유지하는 것을 목표로 한다. 그러나 실제 배포 환경에서는 개인정보 보호나 라이선스 제약으로 인해 소스 데이터셋을 보존하지 못하는 경우가 많으며, 순수하게 소스 프리(Source-Free) 방식의 CTTA 방법은 장기적인 분포 변화 아래에서 불안정해져서 자기 학습 오류의 누적과 파국적 망각을 겪게 된다. 본 연구에서는 DO-ALL(Distill Once, Adapt Life-Long)을 제안한다. 이는 플러그 앤 플레이 방식의 프레임워크로, 데이터셋 증류(DD)를 통해 소스 정보를 소형화되고 개인정보 친화적인 형태로 재활용한다. 배포 전, DO-ALL은 DD를 수행하여 소스 분포를 요약하는 소량의 합성 증류 앵커(Distilled Anchors)를 생성한다. 적응 과정에서는 각 타겟 샘플을 의미적으로 가장 정렬된 앵커와 매칭하며, 이 앵커는 소스 재생, 표현 정렬, 매니폴드 평활화 정규화를 통해 다양한 CTTA 방법에 안정적인 기준점을 제공한다. DO-ALL은 기존 CTTA 알고리즘에 손쉽게 통합될 수 있으며, CIFAR100-C, ImageNet-C, CCC 벤치마크에서 장기적 강건성을 지속적으로 향상시킨다. 이는 원시 소스 데이터를 유지하지 않고도 DD를 활용하여 안정적이고 지속적인 적응을 가능하게 하는 잠재력을 입증한다. 코드는 https://github.com/blue-531/DOALL에서 확인할 수 있다.
도구 호출과 구조화된 출력은 현대 에이전트 시스템의 두 가지 핵심 기능이지만, 이들이 결합되어 배포된 조건에서 상호작용하는 방식은 충분히 이해되지 않고 있다. 본 논문은 실제 운영 중인 에이전트 시스템에서 관찰된 재현 가능한 현상을 보고한다: 도구 호출과 JSON 스키마 제약이 동시에 활성화될 때, 여러 오픈 가중치 모델이 높은 스키마 준수율을 유지하면서도 도구 호출을 중단하는 것이다. 우리는 이러한 행동을 **도구 억제(Tool Suppression)**라고 명명한다. 여러 모델군과 배포 설정에 걸친 통제 실험을 통해, 결합 제약 조건 하에서 도구 억제가 일관되게 재현됨을 확인한 반면, 각각을 독립적으로 평가했을 때는 도구 실행과 스키마 준수가 정상적으로 작동했다. 추가 분석 결과, JSON 스키마 제약이 문법 기반 토큰 마스크로 컴파일되어 디코딩 과정에서 도구 호출 토큰에 접근할 수 없게 되는 것으로 밝혀졌으며, 이는 관찰된 행동에 대한 구현 수준의 설명을 제공한다. 이 현상을 해석하기 위해 우리는 **제약 우선순위 역전(Constraint Priority Inversion, CPI)** 가설을 정식화한다. 이 가설은 다중 동시 제약 조건 하에서 스키마 충족이 행동 선택 과정을 지배할 수 있음을 시사한다. 우리는 CPI를 검증된 내부 메커니즘이라기보다는 관찰된 증거와 일관된 행동 가설로 제시한다. 이 문제를 완화하기 위해, 우리는 **투명한 2패스 실행(Transparent Two-Pass Execution)**을 제안한다. 이는 도구 실행과 스키마 제약을 따르는 응답 생성을 분리하는 추론 시점 전략이다. 실험 결과, 이 접근법이 모델 재학습 없이도 구조화된 출력을 보장하면서 도구 호출을 복원함을 보여준다. 이러한 발견은 도구 사용과 구조화된 출력을 개별적으로 평가할 경우 운영 중인 에이전트 시스템에서 중요한 신뢰성 문제를 간과할 수 있음을 시사한다. 코드, 데이터 및 문서는 https://github.com/Fzsama/Constrain-Tax-26-06.git 에서 공개될 예정이다.
AI 시스템에 대한 신뢰는 종종 시스템이 어떻게 작동하는지에 대한 설명에 기반하며, 이를 통해 새로운 입력에 대한 시스템의 행동을 예측하게 된다. 대규모 추론 모델(LRM)의 경우 이러한 전통적인 접근 방식은 특히 따르기 어렵다. 단일 토큰 생성을 위한 설명 방법은 긴 궤적에 자연스럽게 일반화되지 않으며, 궤적 자체도 자연어로 읽을 때 종종 신뢰할 수 없다. 우리는 설명 단계를 우회하는 대안을 제안한다: 행동 예측을 학습 가능한 과제로 취급하고, 단일 추론 궤적에 대해 작동하는 행동 예측기(Behavior Forecaster)를 훈련시켜 일반적으로 설명에서 얻고자 하는 예측과 동일한 결과를 도출하는 것이다. 예측기의 훈련 데이터는 인간의 주석 없이 LRM에 질의하여 얻어지며, 추론은 단일 순방향 패스로 수행된다. 우리는 이 접근 방식을 두 가지 과제에 적용한다: LRM이 재실행 시 답을 반복할 가능성, 그리고 입력의 일부를 제거할 때 답이 어떻게 변하는지 예측하는 것이다. 우리는 세 가지 다양한 추론 데이터셋에 걸쳐 두 과제 모두에서 이 접근 방식을 평가했으며, 훈련된 행동 예측기가 동일한 궤적을 단순 판독기로 읽는 GPT-5.4 및 Claude Opus-4.6보다 더 높은 정확도를 보이면서도 추론 비용은 극히 일부에 불과함을 발견했다. 또한 백본을 end-to-end로 미세 조정하고 대상 LRM으로 초기화하는 것이 강력한 성능에 각각 필수적임을 확인했다. 이러한 결과는 추론 궤적이 단순 판독이 전달하는 정보를 넘어서는 LRM의 미래 행동에 대한 정보를 담고 있음을 보여준다.
표현적 텍스트-음성 변환(TTS) 및 음성 변환(VC) 시스템이 자연스러움을 향상시키기 위해 비언어적 발성(NVV)을 점점 더 많이 생성함에 따라, 언어적 및 비언어적 세그먼트 모두에서 정체성 일관성을 객관적으로 평가하기 위해 신뢰할 수 있는 화자 검증(SV)이 필수적이게 되었다. 그러나 현재의 SV 시스템은 NVV에 대해 일반화 성능이 낮으며, NVV 데이터로 미세 조정하면 음성 성능에 대한 치명적 망각(catastrophic forgetting)이 발생한다. 우리는 10가지 NVV 유형에 대한 최초의 체계적 연구를 제시하며, 학습된 도메인 인식 라우팅을 갖춘 전문가 혼합(MoE) 모듈로 강화된, 고정된 Data2Vec 자기 지도 특징과 ECAPA-TDNN을 결합한 프레임워크를 제안한다. 사전 훈련된 교사 모델을 통한 음성 입력에 대한 조건부 증류 손실(conditional distillation loss)은 음성-음성 정확도를 유지하는 반면, 대조 손실(contrastive loss)은 음성-NVV 도메인 격차를 해소한다. 제안 방법은 사전 훈련된 기준선 대비 음성-NVV EER을 38.93%에서 22.66%로 감소시키고, 증류를 통해 음성 EER을 13.17%에서 9.24%로 개선한다.