번역이 포함된 일일 선별된 AI 연구 논문
언어 모델 기반 자율 AI 과학자의 급속한 발전에도 불구하고, 출판 준비가 완료된 일러스트레이션 생성은 여전히 연구 워크플로우에서 노동 집약적인 병목 현상으로 남아 있습니다. 이러한 부담을 해소하기 위해 우리는 출판 준비가 된 학술 일러스트레이션의 자동 생성을 위한 에이전트 기반 프레임워크인 PaperBanana를 소개합니다. 최첨단 VLM 및 이미지 생성 모델을 기반으로 하는 PaperBanana는 참고문헌 검색, 콘텐츠 및 스타일 기획, 이미지 렌더링, 자기 비판을 통한 반복적 개선을 수행하는 특화 에이전트들을 조율합니다. 우리의 프레임워크를 엄격하게 평가하기 위해 NeurIPS 2025 논문에서 선별한 방법론 다이어그램에 대한 292개의 테스트 케이스로 구성된 PaperBananaBench를 도입하며, 이는 다양한 연구 분야와 일러스트레이션 스타일을 포괄합니다. 포괄적인 실험을 통해 PaperBanana가 정확성, 간결성, 가독성 및 미적 측면에서 선두 기준선들을 지속적으로 능가함을 입증합니다. 또한 우리의 방법이 고품질 통계 플롯 생성으로 효과적으로 확장 가능함을 보여줍니다. 종합적으로, PaperBanana는 출판 준비 일러스트레이션의 자동 생성 길을 열어줍니다.
검증 가능한 보상 강화학습(RLVR)은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 개방하는 초석이 되었습니다. 그러나 RL의 확장은 기존 검증 가능 데이터의 한계로 인해 병목 현상을 겪고 있으며, 장기간 훈련할수록 성능 향상이 점차 포화 상태에 이르렀습니다. 이를 극복하기 위해 우리는 Golden Goose를 제안합니다. 이는 채우기-중간-빈칸(fill-in-the-middle) 과업을 객관식 문제 풀이 형태로 변환하여 검증 불가능한 인터넷 텍스트로부터 무제한의 RLVR 과업을 합성하는 간단한 기법입니다. 주어진 원본 텍스트에서 LLM을 활용해 핵심 추론 단계를 식별하고 마스킹한 후, 다양하고 그럴듯한 오답 선택지들을 생성합니다. 이를 통해 기존 RLVR 데이터 구축에서 일반적으로 제외되던 풍부한 추론 내용을 가진 검증 불가능 코퍼스(예: 과학 교과서)를 활용하여 수학, 프로그래밍, 일반 과학 분야에 걸친 70만 개 이상의 대규모 RLVR 데이터셋인 GooseReason-0.7M을 합성할 수 있었습니다. 실험적으로 GooseReason는 기존 RLVR 데이터에서 포화된 모델을 효과적으로 재활성화하여, 지속적인 RL 하에서 견고하고 꾸준한 성능 향상을 이루었으며, 15개 다양한 벤치마크에서 1.5B 및 4B-Instruct 모델에 대해 새로운 최첨단 결과를 달성했습니다. 마지막으로, 우리는 Golden Goose를 실제 환경에 적용하여, 기존 RLVR 데이터가 전혀 존재하지 않는 사이버보안 분야를 위해 원시 FineWeb 스크랩으로부터 RLVR 과업을 합성했습니다. 결과적으로 생성된 GooseReason-Cyber 데이터로 Qwen3-4B-Instruct 모델을 훈련한 결과, 방대한 도메인 특화 사전 훈련 및 사후 훈련을 거친 7B 규모의 도메인 전문 모델을 능가하는 사이버보안 분야 새로운 최첨단 성능을 기록했습니다. 이는 풍부한 추론 내용을 가진 검증 불가능한 인터넷 텍스트를 활용하여 RLVR 데이터를 자동으로 확장할 수 있는 잠재력을 강조합니다.
대규모 언어 모델(LLM)은 도구를 활용하는 다단계 의사 결정 에이전트로 점차 확대 적용되고 있으나, 강건한 도구 사용 에이전트의 훈련은 여전히 어려운 과제입니다. 기존 방법론들은 여전히 수동 개입이 필요하고, 검증 불가능한 시뮬레이션 환경에 의존하며, 지도 미세 조정(SFT) 또는 강화 학습(RL) 중 한 가지에만 의존할 뿐 아니라 안정적인 장기·다중 턴 학습에 어려움을 겪고 있습니다. 이러한 문제들을 해결하기 위해, 우리는 확장 가능한 데이터 합성과 검증 가능한 강화 학습을 통해 도구 활용 언어 모델 에이전트를 훈련시키는 완전 자동화된 종단 간(end-to-end) 프레임워크인 ASTRA를 제안합니다. ASTRA는 두 가지 상호 보완적인 구성 요소를 통합합니다. 첫째, 도구 호출 그래프의 정적 토폴로지를 활용하는 파이프라인은 다양하고 구조적으로 견고한 궤적을 합성하여 폭넓고 전이 가능한 도구 사용 능력을 함양합니다. 둘째, 인간의 의미론적 추론의 풍부하고 구성적인 토폴로지를 포착하는 환경 합성 프레임워크는 분해된 질문-응답 흔적을 독립적이고 코드 실행이 가능하며 규칙 검증이 가능한 환경으로 변환하여 결정론적인 다중 턴 RL을 가능하게 합니다. 이 방법론을 바탕으로, 우리는 작업 완료와 상호작용 효율성의 균형을 맞추기 위해 궤적 수준 보상을 사용하여 SFT와 온라인 RL을 통합하는 통합 훈련 방법론을 개발합니다. 다양한 에이전트 도구 사용 벤치마크에서의 실험 결과, ASTRA로 훈련된 모델이 동등한 규모에서 최첨단 성능을 달성하며 핵심 추론 능력을 유지한 채 폐쇄형 시스템에 근접하는 것을 확인했습니다. 우리는 전체 파이프라인, 환경, 훈련된 모델을 https://github.com/LianjiaTech/astra 에 공개합니다.
NVIDIA 블랙웰 GPU에서 하드웨어 지원되는 NVFP4 낮은 정밀도 형식은 LLM과 같은 대규모 모델의 처음부터 끝까지 완전 양자화 사전 학습을 가능하게 할 것으로 기대됩니다. 그러나 기존 양자화 학습 방법은 확률적 반올림(SR)을 통한 더 정확한 편향 없는 양자화 기울기 추정을 위해 이 형식의 표현 능력 일부를 여전히 희생하여, 표준 FP16 및 FP8 학습 대비 뚜렷한 정확도 손실이 발생합니다. 본 논문에서는 SR 대비 2배 이상 낮은 양자화 오차를 가지는, 마이크로 스케일 형식용 새로운 편향 없는 양자화 루틴인 MS-EDEN을 통해 NVFP4 양자화 학습의 최신 기술을 개선합니다. 이를 선형 계층용 새로운 완전 NVFP4 양자화 방식인 Quartet II에 통합합니다. 우리는 Quartet II가 순전파 및 역전파 과정의 모든 주요 행렬 곱셈에서 일관되게 더 나은 기울기 추정을 달성함을 분석적으로 보입니다. 또한, 우리의 제안은 NVFP4에 특화된 최근의 학습 개선 기법과도 시너지를 잘 발휘합니다. 우리는 38B 토큰에 대해 최대 19억 매개변수까지의 LLM 종단간 학습에서 Quartet II를 추가로 검증합니다. NVIDIA 블랙웰 GPU에서 실행 가능하며 BF16 대비 최대 4.2배의 속도 향상을 제공하는 커널을 구현했습니다. 우리의 코드는 https://github.com/IST-DASLab/Quartet-II 에서 이용할 수 있습니다.
대규모 추론 모델(LRMs)은 추론 과제에 강화 학습(RL)을 적용하여 긴 사고 연쇄(CoT) 추론을 생성함으로써 뛰어난 성능을 달성합니다. 그러나 이러한 과도한 최적화는 종종 순응성을 우선시하여 모델이 유해한 프롬프트에 취약해지게 만듭니다. 이러한 안전성 저하를 완화하기 위해 최근 접근법들은 외부 교사 지식을 활용하지만, 이는 원래 추론 능력을 저하시키는 분포 차이를 초래합니다. 우리는 외부 교사 없이 안전성 조정을 복원하는 자체 생성 조정 프레임워크인 ThinkSafe를 제안합니다. 우리의 핵심 통찰은 순응성이 안전 메커니즘을 억제하더라도 모델이 유해성을 식별하는 잠재 지식을 종종 보유한다는 점입니다. ThinkSafe는 경량의 거부 스티어링을 통해 이를 활성화하여 모델이 분포 내 안전 추론 흔적을 생성하도록 유도합니다. 이러한 자체 생성 응답에 대한 미세 조정은 분포 변화를 최소화하면서 모델을 효과적으로 재조정합니다. DeepSeek-R1-Distill 및 Qwen3에 대한 실험에서 ThinkSafe는 추론 능력을 보존하면서 안전성을 크게 향상시킴을 보여줍니다. 특히, GRPO 대비 월등한 안전성과 비슷한 수준의 추론 성능을 달성하면서 계산 비용을 크게 절감합니다. 코드, 모델 및 데이터셋은 https://github.com/seanie12/ThinkSafe.git에서 이용 가능합니다.
체인 오브 쏘트(CoT)는 대규모 언어 모델(LLM)의 성능을 크게 향상시키지만, 명시적 추론 체인은 상당한 계산적 중복성을 초래합니다. 최근 등장한 잠재 추론 방법들은 추론 과정을 잠재 공간으로 압축하여 이를 완화하려 시도하지만, 적절한 압축 지침의 부족으로 인해 종종 심각한 성능 저하를 겪습니다. 본 연구에서는 이러한 문제를 해결하는 간단하면서도 새로운 잠재 학습 패러다임인 ReGuLaR(Rendered CoT-Guided variational Latent Reasoning)를 제안합니다. 근본적으로 우리는 변분 자동 인코더(VAE) 프레임워크 내에서 잠재 추론을 공식화하며, 이전 상태에 조건부인 사후 분포로부터 현재 잠재 추론 상태를 샘플링합니다. 구체적으로, 이 변분 잠재 추론 모델을 학습할 때 명시적 추론 체인을 이미지로 렌더링하고, 여기서 추출한 밀집된 시각-의미 표현으로 사후 분포를 정규화하여 정보 손실을 최소화하면서 효율적인 압축을 달성합니다. 폭넓은 실험을 통해 ReGuLaR가 계산 효율성과 추론 효과성 모두에서 기존 잠재 추론 방법들을 크게 능가하며, 다중 모달 추론을 통해 CoT를 능가하기까지 하여 잠재 추론에 대한 새롭고 통찰력 있는 해결책을 제공함을 입증했습니다. 코드: https://github.com/FanmengWang/ReGuLaR.
테스트 타임 트레이닝(Test-Time Training)은 테스트 질문만을 사용하여 모델을 적응시킴으로써 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 유망한 방법을 제공합니다. 그러나 기존 방법은 두 가지 이유로 어려운 추론 문제에 어려움을 겪습니다: 원본 테스트 질문은 고품질 의사 레이블(pseudo-label)을 생성하기에는 너무 어렵고, 테스트 세트의 제한된 크기로 인해 지속적인 온라인 업데이트가 불안정하기 쉽습니다. 이러한 한계를 해결하기 위해 우리는 공동 진화(Co-Evolving) 테스트 타임 트레이닝 프레임워크인 TTCS를 제안합니다. 구체적으로, TTCS는 동일한 사전 훈련된 모델에서 두 가지 정책을 초기화합니다: 질문 합성기(Question Synthesizer)와 추론 해결사(Reasoning Solver). 이 정책들은 반복적 최적화를 통해 진화합니다: 합성기는 테스트 질문을 조건으로 점점 더 어려운 질문 변형(variant)을 생성하여 해결사의 현재 능력에 맞춰진 구조화된 커리큘럼을 만들고, 해결사는 원본 테스트 질문과 합성 질문 모두에 대해 여러 샘플링된 응답으로부터 계산된 자기 일관성(self-consistency) 보상을 사용하여 스스로를 업데이트합니다. 결정적으로, 해결사의 피드백은 합성기가 모델의 현재 능력에 부합하는 질문을 생성하도록 안내하며, 생성된 질문 변형은 차례로 해결사의 테스트 타임 트레이닝을 안정화합니다. 실험 결과, TTCS가 다양한 LLM 백본에서 어려운 수학 벤치마크에 대한 추론 능력을 꾸준히 강화하고 일반 도메인 작업으로도 전이(transfer)됨을 보여주며, 자기 진화(Self-Evolving)를 위한 테스트 타임 커리큘럼을 동적으로 구축하는 확장 가능한 경로를 부각시킵니다. 우리의 코드와 구현 세부 사항은 https://github.com/XMUDeepLIT/TTCS에서 확인할 수 있습니다.
본 연구는 비디오 세계 모델링이 시각-언어 사전 학습과 함께 로봇 학습의 새롭고 독자적인 기반을 마련함을 강조합니다. 직관적으로 비디오 세계 모델은 행동과 시각적 역학 간의 인과관계를 이해함으로써 가까운 미래를 예측하는 능력을 제공합니다. 이에 영감을 받아 프레임 예측과 정책 실행을 동시에 학습하는 자기회귀 디퓨전 프레임워크인 LingBot-VA를 제안합니다. 우리 모델은 세 가지 신중하게 설계된 특징을 갖춥니다: (1) Mixture-of-Transformers(MoT) 아키텍처 기반의 시각 및 행동 토큰을 통합한 공유 잠재 공간, (2) 실제 관측값을 통한 지속적인 환경 피드백 수집이 가능한 폐쇄형 롤아웃 메커니즘, (3) 효율적 제어를 위해 행동 예측과 모터 실행을 병렬 처리하는 비동기 추론 파이프라인. 우리는 모델을 시뮬레이션 벤치마크와 실제 환경에서 평가하였으며, 장기간 조작 작업, 사후 학습의 데이터 효율성, 새로운 환경 구성에 대한 강력한 일반화 성능에서 상당한 가능성을 보여주었습니다. 커뮤니티의 발전을 위해 코드와 모델을 공개하였습니다.
장기적 행동 추론은 점차 증가하는 상호작용 기록을 제한된 컨텍스트 윈도우에 효과적으로 압축하는 것을 필요로 합니다. 기존 대부분의 메모리 시스템은 역사를 텍스트로 직렬화하는데, 여기서 토큰 수준의 비용은 균일하며 길이에 따라 선형적으로 증가하여 흔히 부족한 예산을 낮은 가치의 세부 사항에 소모합니다. 이를 위해 우리는 시각적 레이아웃을 통해 적응형 정보 밀도로 메모리 공간을 할당함으로써 제한된 컨텍스트 예산 하에서 장기적 추론을 개선하는 다중 모달 메모리 에이전트인 MemOCR을 소개합니다. 구체적으로 MemOCR은 구조화된 서식 텍스트 메모리(예: 제목, 강조 표시)를 유지하고 이를 에이전트가 메모리 접근 시 참조하는 이미지로 렌더링하여 중요한 증거는 시각적으로 우선시하는 동시에 보조 세부 사항은 공격적으로 압축합니다. 다양한 메모리 예산에서 견고성을 보장하기 위해, 우리는 에이전트가 다양한 압축 수준에 노출되도록 예산 인식 목표 하에서 강화 학습으로 MemOCR을 훈련합니다. 장문 맥락 다중 홉 및 단일 홉 질의응답 벤치마크에서 MemOCR은 강력한 텍스트 기반 기준선을 능가하며 극한의 예산 조건에서 더 효과적인 컨텍스트 활용을 달성합니다.
최첨단 임베딩 모델은 대조 학습을 통해 적응된 디코더 전용 대규모 언어 모델(LLM) 백본에서 점점 더 파생되고 있다. 검증 가능한 보상 강화 학습(RLVR)으로 훈련된 추론 모델의 등장에 따라, 이러한 모델이 임베딩 초기화로 사용될 때 향상된 추론 능력이 우수한 의미 표현으로 이어지는지에 대한 자연스러운 질문이 제기된다. 예상과는 달리, MTEB와 BRIGHT에 대한 우리의 평가는 **영효과(null effect)** 를 보여준다: RLVR로 조정된 백본에서 초기화된 임베딩 모델은 동일한 훈련 방법을 적용했을 때 기본 대조군 모델 대비 일관된 성능 우위를 제공하지 않는다. 이 역설을 해체하기 위해 우리는 표현, 기하학, 기능 수준 간 유사성을 분해하는 프레임워크인 **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA)를 도입한다. HRSA 분석 결과, RLVR이 비가역적인 잠재 매니폴드의 국소 기하학 재구성과 가역적인 좌표계 기저 이동을 유도하는 반면, 전역 매니폴드 기하학과 선형 판독은 보존된다는 것을 확인했다. 결과적으로, 후속 대조 학습은 기본 모델과 추론 초기화 모델 간의 강력한 정렬을 유도하며, 우리는 이 현상을 **매니폴드 재정렬(Manifold Realignment)** 이라고 명명한다. 실증적으로, 우리의 연구 결과는 지도 미세 조정(SFT)과 달리 RLVR이 의미 공간 자체를 근본적으로 재구성하기보다는 기존 의미 공간 내에서 궤적을 최적화함을 시사한다.
대규모 언어 모델(LLM)의 안전성은 일반적으로 단일 샷(single-shot) 또는 낮은 예산의 적대적 프롬프팅 하에서 평가되며, 이는 실제 위험을 과소평가합니다. 실제로 공격자는 대규모 병렬 샘플링을 활용하여 모델이 유해한 응답을 생성할 때까지 반복적으로 탐색할 수 있습니다. 최근 연구에서는 반복 샘플링에 따라 공격 성공률이 증가한다는 것이 밝혀졌지만, 대규모 적대적 위험을 예측하기 위한 원리 기반 방법론은 여전히 부족합니다. 본 연구에서는 Best-of-N 샘플링 하의 재블레이크(jailbreak) 취약성 모델링을 위해 확장성을 고려한 Best-of-N 위험 추정법인 SABER를 제안합니다. 샘플 수준의 성공 확률을 베르누이 분포의 켤레 사전 확률(conjugate prior)인 베타 분포(Beta distribution)로 모델링하고, 소규모 예산 측정치로부터 대규모 N 공격 성공률을 신뢰성 있게 추정할 수 있는 해석적 확장 법칙(analytic scaling law)을 유도합니다. n=100개의 샘플만 사용하여, 우리의 anchored 추정기는 ASR@1000을 평균 절대 오차 1.66으로 예측하는 반면, 기준 방법의 오차는 12.04로 추정 오차가 86.2% 감소했습니다. 우리의 결과는 다양한 위험 확장 프로파일을 보여주며, 표준 평가 하에서 견고해 보이는 모델들도 병렬 적대적 압력 하에서는 빠른 비선형적 위험 증폭을 경험할 수 있음을 입증합니다. 본 연구는 현실적인 LLM 안전성 평가를 위한 저비용 및 확장 가능한 방법론을 제공합니다. 향후 연구를 위해 출판 시 코드와 평가 스크립트를 공개할 예정입니다.
확산 언어 모델(dLLM)이 비자회귀적 잠재력을 지님에도 불구하고, 기존 디코딩 전략은 위치 편향을 보여 임의 생성의 잠재력을 완전히 활용하지 못하고 있다. 본 연구에서는 dLLM의 내재된 스펙트럼 특성을 심층 분석하고, 은닉 상태의 저주파 성분이 주로 전역적 구조 정보와 장거리 의존성을 인코딩하는 반면 고주파 성분은 지역적 세부 사항 특성화를 담당한다는 최초의 주파수 영역 분석 결과를 제시한다. 이러한 관찰을 바탕으로, 주파수 영역 슬라이딩 윈도우 메커니즘을 활용하여 모델이 "구조-세부사항" 생성 패러다임을 동적으로 달성하도록 유도하는 FourierSampler를 제안한다. FourierSampler는 LLADA와 SDAR 벤치마크에서 다른 추론 향상 전략들을 능가하며, LLaDA1.5-8B에서 20.4%, LLaDA-8B-Instruct에서 16.0%의 상대적 성능 향상을 달성했다. 이는 Llama3.1-8B-Instruct와 같은 동일 규모 자회귀 모델을 뚜렷이 앞섰다.
PaddleOCR-VL-1.5를 소개합니다. 이는 업그레이드된 모델로 OmniDocBench v1.5에서 94.5%의 새로운 최첨단(SOTA) 정확도를 달성했습니다. 스캐닝, 기울어짐, 왜곡, 화면 촬영, 조명 변화를 포함한 실제 물리적 왜곡에 대한 견고성을 엄격하게 평가하기 위해 Real5-OmniDocBench 벤치마크를 제안합니다. 실험 결과는 이 향상된 모델이 새롭게 구축된 벤치마크에서 SOTA 성능을 달성함을 보여줍니다. 더 나아가 인감 인식 및 텍스트 스포팅 작업을 통합하여 모델의 기능을 확장하면서도, 높은 효율성을 유지하는 0.9B 규모의 초소형 VLM으로 남아 있습니다. 코드: https://github.com/PaddlePaddle/PaddleOCR
최근 흐름 정합 모델을 기반으로 한 GRPO 기반 접근법들은 텍스트-이미지 생성 분야에서 인간 선호도 정합 측면에서 뚜렷한 개선을 보여주었습니다. 그러나 이러한 방법들은 여전히 희소 보상 문제를 겪고 있습니다. 즉, 전체 노이즈 제거 궤적에 대한 최종 보상이 모든 중간 단계에 동일하게 적용되며, 이로 인해 글로벌 피드백 신호와 개별 노이즈 제거 단계의 정확한 세부 기여도 간 불일치가 발생합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 각 노이즈 제거 단계의 세부 기여도를 평가하는 조밀 보상을 통해 인간 선호도를 정합하는 새로운 프레임워크인 DenseGRPO를 소개합니다. 구체적으로, 우리의 접근법은 두 가지 핵심 구성 요소를 포함합니다: (1) ODE 기반 방식을 통해 중간 생성 이미지에 보상 모델을 적용하여 각 노이즈 제거 단계의 단계별 보상 이득을 조밀 보상으로 예측하는 방법을 제안합니다. 이 방식은 피드백 신호와 개별 단계의 기여도 간 정합을 보장하여 효과적인 학습을 가능하게 합니다; (2) 추정된 조밀 보상을 바탕으로, 기존 GRPO 기반 방법에서 균일 탐색 설정과 시변 잡음 강도 간 존재하는 불일치 문제를 규명하여 부적절한 탐색 공간을 초래함을 보입니다. 따라서 우리는 SDE 샘플러에서 시간 단계별 확률적 노이즈 주입을 적응적으로 조정하여 탐색 공간을 보정하는 보상 인식 기법을 제안하며, 이를 통해 모든 시간 단계에서 적절한 탐색 공간을 보장합니다. 다양한 표준 벤치마크에서 진행한 폭넓은 실험을 통해 제안된 DenseGRPO의 효과성을 입증하고, 흐름 정합 모델 정합에 있어 유효한 조밀 보상의 중요성을 부각합니다.
최근 연구에서는 DINO와 같은 사전 학습된 비전 파운데이션 모델(VFM)을 생성형 오토인코더에 활용하는 방법을 탐구하며 강력한 생성 성능을 보여주고 있습니다. 그러나 기존 접근법들은 고주파 세부 정보의 손실로 인해 제한된 복원 정확도를 보이는 경우가 많습니다. 본 연구에서는 의미 표현과 픽셀 수준 복원을 연결하는 프레임워크인 DINO 구형 오토인코더(DINO-SAE)를 제안합니다. 우리의 핵심 통찰은 대조적 표현의 의미 정보가 주로 특징 벡터의 방향에 인코딩되는 반면, 엄격한 크기 일치를 강제하면 인코더가 미세한 세부 사항을 보존하는 데 방해가 될 수 있다는 점입니다. 이를 해결하기 위해 지역적 구조와 텍스처 보존을 강화하는 계층적 컨볼루션 패치 임베딩 모듈과, 의미 일관성을 강화하면서 세부 정보 보존을 위한 유연한 특징 크기를 허용하는 코사인 유사도 정렬 목적 함수를 도입했습니다. 더 나아가, SSL 기반 파운데이션 모델 표현이 본질적으로 초구 상에 존재한다는 관찰을 활용하여, 이 구형 잠재 다양체에서 직접 Diffusion Transformer(DiT)를 학습시키기 위해 리만 흐름 매칭을 적용합니다. ImageNet-1K에 대한 실험 결과, 우리의 접근법이 0.37 rFID와 26.2 dB PSNR을 달성하여 최고 수준의 복원 품질을 달성하면서도 사전 학습된 VFM과의 강력한 의미 일관성을 유지함을 입증했습니다. 특히, 우리의 리만 흐름 매칭 기반 DiT는 효율적인 수렴을 보여주며 80 에포크에서 3.47의 gFID를 달성했습니다.
캐릭터 이미지 애니메이션은 구동 영상의 동작을 정적 참조 이미지에 전달하여 높은 충실도의 비디오를 합성하는 것을 목표로 합니다. 최근 발전에도 불구하고, 기존 방법들은 두 가지 근본적인 문제점을 안고 있습니다: (1) 정체성 보존과 동작 일관성 사이의 트레이드오프("시소 현상")를 초래하는 최적이 아닌 동작 주입 전략, (2) 미세한 역동성을 충분히 포착하지 못하고 임의의 비인간형 캐릭터로의 일반화를 방해하는 명시적 자세 프라이어(예: 골격)에 대한 과도한 의존. 이러한 문제를 해결하기 위해 우리는 동작 조건 설정을 컨텍스트 내 학습 문제로 재구성하는 범용 애니메이션 프레임워크인 DreamActor-M2를 제안합니다. 우리의 접근 방식은 두 단계 패러다임을 따릅니다. 먼저, 참조 외관과 동작 신호를 통합된 잠재 공간에 융합하여 입력 양식 간 격차를 해소함으로써 모델이 기초 모델의 생성적 프라이어를 활용하여 공간적 정체성과 시간적 역학을 공동으로 추론할 수 있게 합니다. 둘째, 의사 교차 정체성 학습 데이터 쌍을 구성하는 자체 부트스트랩 데이터 합성 파이프라인을 도입하여 자세 의존적 제어에서 직접적인 엔드투엔드 RGB 기반 애니메이션으로의 원활한 전환을 가능하게 합니다. 이 전략은 다양한 캐릭터와 동작 시나리오에서의 일반화를 크게 향상시킵니다. 포괄적인 평가를 위해 우리는 다양한 캐릭터 유형과 동작 시나리오를 포함하는 다목적 벤치마크인 AW Bench를 추가로 소개합니다. 광범위한 실험을 통해 DreamActor-M2가 최첨단 성능을 달성하며 우수한 시각적 충실도와 강력한 크로스도메인 일반화 능력을 제공함을 입증합니다. 프로젝트 페이지: https://grisoon.github.io/DreamActor-M2/
인간 피드백 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호에 부합하도록 조정하는 핵심 기술이지만, 정책 모델이 보상 모델에 과적합되어 인간의 의도를 충실히 반영하지 못하고 허위 보상 패턴을 악용하는 보상 과적최적화에 취약합니다. 기존 완화 방법은 주로 표면적 의미 정보에 의존하며, 지속적인 정책 분포 변화로 인한 보상 모델(RM)과 정책 모델 간 불일치를 효과적으로 해결하지 못합니다. 이는 필연적으로 증가하는 보상 차이를 초래하여 보상 과적최적화를 악화시킵니다. 이러한 한계를 해결하기 위해 우리는 새로운 경량 RLHF 프레임워크인 R2M(실시간 정렬 보상 모델)을 제안합니다. R2M은 사전 학습된 LLM의 의미 표현만 의존하는 기존 보상 모델을 넘어, RL 과정 동안 정책의 실시간 분포 변화에 대응하기 위해 정책의 변화하는 은닉 상태(즉, 정책 피드백)를 활용합니다. 본 연구는 정책 모델의 피드백을 실시간으로 활용하여 보상 모델 성능을 향상시키는 새로운 방향을 제시합니다.
검증 가능한 보상을 활용한 강화 학습은 지능형 에이전트 훈련을 위한 강력한 패러다임으로 부상했습니다. 그러나 기존 방법들은 일반적으로 동일한 결과를 달성한 경로 간의 질적 차이를 포착하지 못하는 이분법적 보상을 사용함으로써 해법 공간 내 잠재적 다양성을 간과해 왔습니다. 테니스에서 최적의 타격 효과를 내는 라켓의 핵심 영역인 '스윗 스팟' 개념에서 영감을 얻어, 우리는 에이전트 최적화를 위한 차별화된 지도를 제공하는 새로운 프레임워크인 Sweet Spot Learning(SSL)을 제안합니다. SSL은 간단하면서도 효과적인 원칙을 따릅니다: 점진적으로 증폭되는 계층적 보상이 정책을 해법 공간의 스윗 스팟 영역으로 유도합니다. 이 원칙은 다양한 작업에 자연스럽게 적용됩니다: 시각 인식 작업은 거리 기반 계층 모델링을 통해 근접성을 보상하는 반면, 복잡한 추론 작업은 유망한 해법을 향한 점진적 진전을 보상합니다. 우리는 SSL이 최적 해법 순서를 보존하고 그래디언트 신호 대 잡음비를 향상시켜 더 방향성 있는 최적화를 촉진함을 이론적으로 입증합니다. GUI 인식, 단기/장기 계획 수립, 복잡한 추론 작업에 걸친 광범위한 실험을 통해 12개 벤치마크에서 강력한 기준선 대비 일관된 성능 향상과 최대 2.5배의 샘플 효율 향상, 효과적인 작업 간 전이 가능성을 확인했습니다. 우리의 연구는 SSL을 능력 있고 강력한 에이전트 훈련을 위한 보편적 원칙으로 정립합니다.
Qwen-2.5-Omni와 같은 자기회귀(AR) 대규모 오디오 언어 모델(LALMs)은 오디오 이해 및 상호작용에서 강력한 성능을 달성했지만, 이를 확장하기 위해서는 데이터와 계산 비용이 여전히 많이 소요되며, 엄격하게 순차적인 디코딩 방식은 추론 효율을 제한합니다. 최근 확산 대규모 언어 모델(dLLMs)은 제한된 훈련 데이터를 효과적으로 활용할 수 있는 것으로 나타났으며, DIFFA에 관한 선행 연구는 AR 백본을 확산 모델로 대체할 경우 개념 검증 규모(대규모 지시 튜닝, 선호도 정렬 또는 실용적인 디코딩 기법 없이)에서도 동일한 설정 하에 오디오 이해 성능을 크게 향상시킬 수 있음을 보여주었습니다. 본 논문은 일반 오디오 이해를 위한 실용적인 확산 기반 LALM인 DIFFA-2를 소개합니다. DIFFA-2는 음성 인코더를 개선하고, 의미론적 및 음향적 이중 어댑터를 채택하며, 의미론적/음향적 정렬, 대규모 지도 미세 조정, 분산 감소 선호도 최적화를 결합한 4단계 커리큘럼으로 훈련되며, 완전한 오픈소스 코퍼스만을 사용합니다. MMSU, MMAU 및 MMAR에 대한 실험 결과, DIFFA-2는 DIFFA 대비 지속적으로 성능이 향상되며, 실용적인 훈련 예산 내에서 강력한 AR LALM들과 경쟁력을 보여주어 확산 기반 모델링이 대규모 오디오 이해를 위한 실행 가능한 백본이 될 수 있음을 입증합니다. 코드는 https://github.com/NKU-HLT/DIFFA.git에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 놀라운 능력을 보여주지만, 확률적 다음 토큰 예측 방식으로 인해 형식적符号 시스템이 회피하는 논리적 불일치와 보장 해킹 문제가 발생합니다. 이러한 격차를 해소하기 위해 우리는 형식 논리 검증을 자연어 생성 과정에 동적으로 연계하여 오류 발생 시 실시간으로 탐지 및 수정하는 피드백을 제공하는 형식 논리 검증 주도 프레임워크를 제안합니다. 수동적 사후 검증에 제한됐던 기존 신경-符号 접근법과 차별화되게, 우리의 방법은 추론 과정에서 발생하는 중간 오류를 능동적으로 제재합니다. 우리는 형식 논리 검증 기반 지도 미세 조정과 정책 최적화를 결합한 새로운 2단계 학습 파이프라인을 통해 이 프레임워크를 구현했습니다. 수학적, 논리적, 일반 추론 영역을 아우르는 6개 벤치마크에서 진행한 폭넓은 평가 결과, 우리의 7B 및 14B 모델이 각각 평균 10.4%, 14.2%의 차이로 최첨단 기준 모델들을 능가함을 확인했습니다. 이러한 결과는 형식 검증이 고도화된 LLM 추론 성능의 한계를 획기적으로 확장할 수 있는 확장 가능한 메커니즘으로 기능할 수 있음을 입증합니다.
VQ 기반 이미지 생성은 일반적으로 두 단계 파이프라인을 따릅니다: 토크나이저가 이미지를 이산 토큰으로 인코딩하고, 생성 모델이 재구성을 위해 토큰 간 의존성을 학습합니다. 그러나 기존 방식은 토큰 의존성을 제약하지 못하기 때문에, 첫 번째 단계에서 토큰화 성능이 향상되어도 두 번째 단계 생성 성능이 반드시 개선되지는 않습니다. 이러한 불일치로 인해 생성 모델이 정렬되지 않은 분포로부터 학습해야 하며, 이는 편향과 약한 일관성으로 이어집니다. 이를 해결하기 위해 우리는 토큰화 과정에 인과적 의존성을 강제하는 네이티브 시각 토큰화를 제안합니다. 이 아이디어를 바탕으로 토큰 시퀀스 내에 관계적 제약을 내재화하면서 효율적인 재구성을 달성하는 NativeTok 프레임워크를 소개합니다. NativeTok은 (1) 잠재 이미지 모델링을 위한 메타 이미지 변환기(MIT)와 (2) 각 경량 전문가 블록이 이전 토큰과 잠재 특징에 조건화되어 단일 토큰을 생성하는 인과적 전문가 혼합 변환기(MoCET)로 구성됩니다. 또한 새로운 전문가 블록만을 업데이트하여 학습 효율성을 보장하는 계층적 네이티브 학습 전략을 설계합니다. 폭넓은 실험을 통해 NativeTok의 효과성을 입증합니다.
대규모 언어 모델(LLM)은 도구를 효과적으로 호출할 수 있지만, 다중 턴 실행에서는 여전히 취약합니다: 도구 호출 오류 이후 소규모 모델은 종종 반복적인 무효 재호출로 퇴화하여 오류 피드백을 해석하고 자체 수정하는 데 실패합니다. 이러한 취약성은 도구 상호 작용 과정에서 실행 오류가 본질적으로 불가피한 실제 환경에서의 신뢰할 수 있는 배포를 저해합니다. 우리는 현재 접근법의 핵심 한계를 확인했습니다: 표준 강화 학습(RL)은 오류를 희소한 부정적 보상으로 처리하여 복구 방법에 대한 지침을 제공하지 않는 반면, 사전 수집된 합성 오류 수정 데이터셋은 모델의 온-정책 오류 모드와의 분포 불일치 문제를 겪습니다. 이러한 격차를 해소하기 위해 우리는 RL 훈련 루프 내에서 실행 오류를 교정 지도로 전환하는 Fission-GRPO 프레임워크를 제안합니다. 우리의 핵심 메커니즘은 미세 조정된 오류 시뮬레이터의 진단 피드백을 추가하여 각 실패한 궤적을 새로운 훈련 인스턴스로 분열시키고, 온-정책 방식으로 복구 롤아웃을 재샘플링합니다. 이를 통해 모델은 정적이고 사전 수집된 오류 사례가 아닌, 탐색 과정에서 발생한 정확한 오류로부터 학습할 수 있습니다. BFCL v4 Multi-Turn 벤치마크에서 Fission-GRPO는 Qwen3-8B의 오류 복구율을 5.7% 절대적으로 향상시켰으며, 결정적으로 GRPO 대비 4%의 전체 정확도 향상(42.75% → 46.75%)을 이루며 특화된 도구 사용 에이전트들을 능가했습니다.
대규모 언어 모델(LLM)이 소프트웨어 공학 분야에서 유용성을 보여주고 있지만, 단위 테스트 적용은 주로 고립된 테스트 생성이나 오라클 예측에 국한되어 테스트 슈트 유지보수라는 더 광범위한 과제를 소홀히 해왔습니다. 본 연구에서는 세 가지 핵심 테스트 유지보수 시나리오(테스트 슈트 생성, 수리, 갱신)에서 모델 성능을 평가하기 위해 설계된 프레임워크이자 벤치마크인 TAM-Eval(Test Automated Maintenance Evaluation)을 소개합니다. 함수 수준 작업에 한정된 기존 연구와 달리, TAM-Eval은 테스트 파일 수준에서 작동하면서도 고립된 평가 중에도 전체 저장소 컨텍스트에 접근할 수 있어 실제 유지보수 워크플로우를 더 잘 반영합니다. 우리의 벤치마크는 Python, Java, Go 프로젝트에서 자동으로 추출하고 검증한 1,539개의 시나리오로 구성됩니다. TAM-Eval은 테스트 슈트 통과율, 코드 커버리지, 돌연변이 테스트를 기반으로 한 참조 없는 프로토콜을 사용하여 원시 LLM과 에이전트 기반 워크플로우 모두에 대한 시스템 독립적 평가를 지원합니다. 실험 결과에 따르면 최첨단 LLM도 현실적인 테스트 유지보수 과정에서는 제한된 능력만을 보여주며 테스트 효과성 측면에서 미미한 개선만을 제공합니다. 우리는 자동화된 소프트웨어 테스트 분야의 향후 연구를 지원하기 위해 TAM-Eval을 오픈소스 프레임워크로 공개합니다. 데이터와 코드는 https://github.com/trndcenter/TAM-Eval에서 공개적으로 이용 가능합니다.
RM-RF는 자동 생성된 단위 테스트를 실행 없이 평가하기 위한 경량 리워드 모델입니다. RM-RF는 후보 테스트를 반복적으로 컴파일하고 실행하는 대신, 소스 코드와 테스트 코드만으로부터 세 가지 실행 기반 신호를 예측합니다: (1) 추가된 테스트 슈트가 성공적으로 컴파일되고 실행되는지, (2) 생성된 테스트 케이스가 코드 커버리지를 높이는지, (3) 생성된 테스트 케이스가 mutation kill rate을 개선하는지. RM-RF를 훈련하고 평가하기 위해 우리는 실행 기반 파이프라인으로 레이블이 지정된 포컬 파일, 테스트 파일 및 후보 테스트 추가로 구성된 다국어(Java, Python, Go) 데이터셋을 구축하고, 비교 평가를 위한 관련 데이터셋과 방법론을 공개합니다. 우리는 여러 모델 패밀리와 튜닝 방식(제로샷, 전체 미세 조정, LoRA를 통한 PEFT)을 테스트하여 세 가지 목표에 대해 평균 F1 점수 0.69를 달성했습니다. 기존의 컴파일-실행 방식에 비해 RM-RF는 경쟁력 있는 예측 정확도를 유지하면서 대기 시간과 인프라 비용을 크게 절감하여 대규모 테스트 생성 및 RL 기반 코드 최적화를 위한 빠르고 확장 가능한 피드백을 제공합니다.
다중 에이전트 시스템은 전문화를 통해 복잡한 작업을 해결하는 가능성을 보여주었지만, 여러 에이전트를 동시에 파인튜닝하는 것은 두 가지 주요 과제에 직면합니다: (1) 에이전트 간의 크레딧 할당, 그리고 (2) 비용이 많이 드는 다중 에이전트 롤아웃의 샘플 효율성입니다. 본 연구에서는 이 두 가지 문제를 해결하기 위해 AI 피드백을 통한 행동별 과정 보상(MAPPA)으로 다중 에이전트 시스템을 파인튜닝하는 방법을 제안합니다. MAPPA는 작업 완료 시점에만 평가하는 대신 개별 에이전트 행동에 크레딧을 할당함으로써, 실측 정답 레이블 없이도 세분화된 지도를 가능하게 하고 각 롤아웃에서 최대의 훈련 신호를 추출합니다. 우리는 이 접근법을 경쟁 수학 문제와 도구 활용 데이터 분석 작업에 대해 실증합니다. 보지 못한 수학 문제에서 MAPPA는 AIME에서 +5.0~17.5%p, AMC에서 +7.8~17.2%p의 성능 향상을 달성했습니다. 데이터 분석 작업에서는 성공률이 +12.5%p 향상되었으며 품질 지표는 최대 30%까지 개선되어, 행동별 지도가 다양한 영역의 서로 다른 다중 에이전트 시스템 전반에 걸쳐 개선을 이끌 수 있음을 입증했습니다. 이러한 과제를 해결함으로써, 우리의 연구는 최소한의 인간 지도로 복잡하고 장기적인 작업을 위한 다중 에이전트 시스템 확장을 위한 첫걸음을 내디뎠습니다.
대규모 언어 모델로 구동되는 딥 검색 에이전트는 다단계 정보 검색, 추론, 장기 과제 수행에서 강력한 능력을 입증해왔습니다. 그러나 실제 운영에서의 실패는 주로 불확실성 하에 과제가 진행됨에 따라 추론 및 검색 상태를 모니터링하고 조절할 메커니즘이 부족하기 때문에 발생합니다. 인지 신경과학의 통찰에 따르면, 인간의 메타인지는 계층적으로 조직되어 빠른 이상 감지와 선택적으로 촉발되는 경험 기반 성찰을 통합합니다. 본 연구에서는 명시적인 계층적 메타인지 모니터링 메커니즘을 강화한 딥 검색 프레임워크인 DS-MCM(메타인지 모니터링을 통한 딥 검색)을 제안합니다. DS-MCM은 외부 증거와 내부 추론 신뢰도 간의 일치성을 경량 점검하는 '빠른 일관성 모니터'와 역사적 에이전트 경로에서 도출된 경험 메모리를 기반으로 수정 개입을 안내하기 위해 선택적으로 활성화되는 '느린 경험 주도 모니터'를 통합합니다. 모니터링을 추론-검색 루프에 직접 내재화함으로써, DS-MCM은 언제 개입이 필요한지와 수정 조치가 선행 경험에 의해 어떻게 정보를 얻어야 하는지를 모두 결정합니다. 다양한 딥 검색 벤치마크와 백본 모델을 통한 실험 결과, DS-MCM이 성능과 강건성을 지속적으로 향상시킴을 입증했습니다.
프로빙(Probing)은 고정된 LLM의 레이어 표현에 어떤 정보가 인코딩되었는지를 경량 예측기를 그 위에 학습시켜 탐구합니다. 분석을 넘어, 프로브는 종종 프로브-후-조정(probe-then-steer) 파이프라인에서 운영적으로 사용됩니다: 학습된 개념 벡터를 프로브로부터 추출하고, 순전파 과정에서 레이어 표현에 이를 가산하여 가법 활성화 조정(additive activation steering) 방식으로 주입합니다. 이 파이프라인의 효과성은 정확하고, 제거(ablation) 상황에서 방향적으로 안정적이며, 획득 비용이 저렴한 개념 벡터를 추정하는 데 달려 있습니다. 이러한 요구 조건에 동기를 부여받아, 우리는 RAPTOR(Ridge-Adaptive Logistic Probe)를 제안합니다. 이는 검증 데이터를 통해 조정된 L2 정칙화 강도로 정규화된 가중치로부터 개념 벡터를 생성하는 간단한 L2 정칙화 로지스틱 프로브입니다. 지시어 최적화(instruction-tuned)된 LLM과 인간이 작성한 개념 데이터셋에 대한 광범위한 실험에서 RAPTOR는 정확도 측면에서 강력한 기준선을 따라가거나 능가하면서도 경쟁력 있는 방향 안정성과 상당히 낮은 학습 비용을 달성했습니다. 이러한 정량적 결과는 정성적 하류 조정(downstream steering) 데모로 뒷받침됩니다. 마지막으로, Convex Gaussian Min-max Theorem(CGMT)을 사용하여 고차원 소수 샘플(few-shot) 환경에서 이상화된 가우시안 교사-학생 모델(teacher-student model) 내에서 릿지 로지스틱 회귀의 기계론적 특성을 규명하고, 정칙화 강도가 프로브 정확도와 개념 벡터 안정성을 어떻게 매개하는지 설명하며, 실제 LLM 임베딩에서 관찰된 경향성과 정성적으로 일치하는 구조적 예측을 도출합니다.
체인 오브 쏘트(CoT)는 대규모 언어 모델(LLM)이 복잡한 문제를 해결할 수 있게 하지만, 이산적인 토큰 공간에 기반할 때 계산 비용과 추론 경로 붕괴 문제로 인해 제약을 받습니다. 최근 등장한 잠재 추론 방법론들은 연속적인 은닉 상태 내에서 추론을 수행함으로써 효율성을 극대화하려 시도합니다. 그러나 이러한 방법들은 일반적으로 명시적 추론 단계에서 잠재 상태로의 불투명한 종단간 매핑으로 작동하며, 추론 시 미리 정의된 수의 잠재 단계를 요구하는 경우가 많습니다. 본 연구에서는 잠재 추론을 근본적으로 언어화 과정으로부터 분리하여 계획 수립으로 재구성하는 PLaT(Planning with Latent Thoughts) 프레임워크를 소개합니다. 우리는 추론을 잠재 계획 상태의 결정론적 궤적으로 모델링하는 반면, 별도의 디코더는 이러한 사고를 필요할 때 텍스트로 구현합니다. 이러한 분리는 모델이 고정된 하이퍼파라미터에 의존하기보다는 추론 종료 시점을 동적으로 결정할 수 있게 합니다. 수학적 벤치마크에 대한 실험 결과는 뚜렷한 트레이드오프를 보여줍니다: PLaT는 베이스라인 대비 그리디 정확도는 낮지만, 추론 다양성 측면에서 뛰어난 확장성을 입증합니다. 이는 PLaT가 강력하고 더 넓은 해결 공간을 학습함을 의미하며, 추론 시간 탐색을 위한 투명하고 확장 가능한 기반을 제공합니다.
디지털 환경(데이터 분포)은 새로운 GUI 데이터가 시간에 따라 지속적으로 유입되며 새로운 도메인이나 해상도를 도입함에 따라 끊임없이 변화한다. 이로 인해 정적 환경에서 훈련된 에이전트의 성능이 저하된다. 본 연구에서는 GUI 에이전트가 변화하는 도메인과 해상도 하에서 지속 학습을 수행해야 하는 새로운 과제인 Continual GUI Agents를 소개한다. 우리는 변화하는 시나리오에서 UI 상호작용 포인트와 영역의 다양성으로 인해 GUI 분포가 변화함에 따라 기존 방법들이 안정적인 기반 유지에 실패함을 발견했다. 이를 해결하기 위해 우리는 두 가지 새로운 보상, 즉 변화 속 앵커링 포인트 보상(APR-iF)과 변화 속 앵커링 영역 보상(ARR-iF)을 통해 지속 학습을 안정화하는 새로운 강화 미세 조정 프레임워크인 GUI-Anchoring in Flux(GUI-AiF)를 제안한다. 이러한 보상은 에이전트가 변화하는 상호작용 포인트와 영역에 정렬하도록 유도하여, 기존 보상 전략이 고정된 좌표나 요소 크기와 같은 정적 기반 신호에 과도하게 적응하는 경향을 완화한다. 폭넓은 실험을 통해 GUI-AiF가 최신 기준선을 능가함을 입증했다. 본 연구는 GUI 에이전트를 위한 최초의 지속 학습 프레임워크를 확립하며, 지속적 GUI 에이전트를 위한 강화 미세 조정의 잠재력을 밝혀낸다.
확산 및 흐름 매칭 모델의 최근 발전은 예측 대상 선호도의 변화, 특히 고차원 설정에서 노이즈(ε) 및 속도(v) 예측에서 직접 데이터(x) 예측으로의 전환을 부각시켜 왔습니다. 그러나 최적의 대상이 데이터의 특정 속성에 따라 달라지는 이유에 대한 공식적인 설명은 아직 부족한 상황입니다. 본 연구에서는 ε-, v-, x-예측을 특수 사례로 포함하는 임의의 출력 대상을 수용하는 일반화된 예측 공식을 기반으로 한 이론적 프레임워크를 제시합니다. 우리는 데이터의 기하학적 구조와 최적 예측 대상 간의 분석적 관계를 도출하여, 주변 차원이 데이터의 내재 차원을 크게 초과할 때 x-예측이 더 우수해지는 이유에 대한 엄밀한 근거를 제공합니다. 더 나아가, 우리의 이론이 최적 예측 대상의 지배적 요인으로 차원성을 규명하지만, 다양체에 제한된 데이터의 내재 차원은 실제로 추정하기 typically 어렵습니다. 이러한 간극을 해소하기 위해, 우리는 명시적 차원 추정 없이 데이터로부터 직접 최적 예측 매개변수 k를 학습하는 데이터 주도 방식을 채택한 k-Diff 프레임워크를 제안합니다. 잠재 공간 및 픽셀 공간 이미지 생성에서의 광범위한 실험을 통해 k-Diff가 다양한 아키텍처와 데이터 규모에 걸쳐 고정 대상 기준선을 지속적으로 능가함을 입증하며, 생성 성능 향상을 위한 원칙적이고 자동화된 접근법을 제공합니다.
표현 학습은 검색, 클러스터링, 분류, 재순위화 등 많은 다운스트림 작업의 핵심입니다. 최신 시퀀스 인코더는 일반적으로 풀링 연산자, 가장 흔히 특수 [CLS] 토큰이나 토큰 임베딩의 평균 풀링을 사용하여 가변 길이 토큰 시퀀스를 단일 벡터로 축약합니다. 본 논문에서는 이러한 풀링 전략의 체계적인 약점을 지적합니다: [CLS]는 시퀀스의 초기 위치로 정보가 집중되는 경향이 있어 분산된 증거를 제대로 표현하지 못할 수 있으며, 평균 풀링은 두드러진 지역적 신호를 희석시켜 단문 컨텍스트 성능이 더 나빠지는 경우가 있습니다. 이러한 문제를 해결하기 위해 우리는 랜드마크(LMK) 풀링을 소개합니다. 이는 시퀀스를 청크로 분할하고 청크 사이에 랜드마크 토큰을 삽입한 후, 랜드마크 토큰 임베딩을 평균 풀링하여 최종 표현을 형성합니다. 이 간단한 메커니즘은 소수의 특수 토큰을 추가하는 비용으로 지역적 중요 특징을 희생하지 않으면서 장문 컨텍스트 외삽 능력을 향상시킵니다. 우리는 LMK 풀링이 단문 컨텍스트 검색 작업에서는 기존 방법과 성능이 비슷하면서 장문 컨텍스트 작업에서는 상당한 향상을 가져와, 기존 풀링 방법에 대한 실용적이고 확장 가능한 대안이 됨을 실증적으로 입증합니다.
지식 증류(Knowledge Distillation, KD)는 대규모 언어 모델의 능력을 더 작은 모델로 전이시키기 위해 점점 더 많이 채택되고 있으며, 표준 미세 조정을 종종 능가하는 효율성과 유용성의 상당한 개선을 제공합니다. 성능 향상 외에도, KD는 훈련 데이터 누출 위험을 완화하기 위한 개인정보 보호 메커니즘으로도 탐구되고 있습니다. 훈련 데이터 암기 현상은 표준 사전 훈련 및 미세 조정 환경에서 광범위하게 연구되었지만, 지식 증류 설정에서의 동역학은 아직 잘 이해되지 않고 있습니다. 본 연구에서는 세 가지 대규모 언어 모델(LLM) 패밀리(Pythia, OLMo-2, Qwen-3)과 세 가지 데이터셋(FineWeb, Wikitext, Nemotron-CC-v2)을 사용하여 KD 파이프라인 전반에 걸친 암기 현상을 연구합니다. 우리는 다음과 같은 사실을 발견했습니다: (1) 증류된 모델은 표준 미세 조정보다 훈련 데이터를 상당히 덜 암기합니다(암기율을 50% 이상 감소). (2) 일부 예제는 본질적으로 암기하기 쉬우며 증류 과정 중 발생하는 암기의 큰 부분을 차지합니다(약 95% 이상). (3) 학생 모델의 암기 현상은 zlib 엔트로피, KL 발산, 퍼플렉서티를 기반으로 한 특징을 사용하여 증류 전에 예측 가능합니다. (4) 소프트 증류와 하드 증류는 전체 암기율은 유사하지만, 하드 증류가 더 큰 위험을 내포합니다: 하드 증류는 소프트 증류보다 교사 모델 특정 예제를 2.7배 더 많이 상속합니다. 전반적으로, 우리는 증류가 표준 미세 조정에 비해 개선된 일반화와 감소된 암기 위험을 모두 제공할 수 있음을 입증합니다.
오픈-보커블러리 그라운딩은 약한 감독 하에서 정확한 시각-언어 정렬을 요구하지만, 기존 방법들은 미세한 표현력이 부족한 전역 문장 임베딩에 의존하거나, 명시적 감독이나 복잡한 교차 주의 설계를 통한 토큰 수준 정렬을 도입하고 있습니다. 본 논문에서는 이론적으로 근거가 있는 다중 인스턴스 학습 공식화를 기반으로 한 시각-언어 정렬 프레임워크인 ExpAlign을 제안합니다. ExpAlign은 토큰-영역 유사도에 대해 주의 기반의 소프트 MIL 풀링을 수행하는 Expectation Alignment Head를 도입하여 추가 주석 없이도 암묵적인 토큰 및 인스턴스 선택을 가능하게 합니다. 정렬 학습을 더욱 안정화하기 위해, Top-K 다중-양성 대조적 목적함수와 라그랑주 제약 자유 에너지 최소화에서 유도된 기하학-인식 일관성 목적함수를 포함하는 에너지 기반 다중 스케일 일관성 정규화 기법을 개발했습니다. 광범위한 실험 결과, ExpAlign이 오픈-보커블러리 객체 탐지 및 제로-샷 인스턴스 분할 성능을 지속적으로 향상시키며, 특히 장테일(long-tail) 범주에서 뛰어난 성능을 보임을 확인했습니다. 가장 주목할 만하게, 동등한 모델 규모의 다른 최첨단 방법들을 능가하는 LVIS minival 분할에서 36.2 AP_r을 달성하면서도 경량이고 추론 효율성을 유지했습니다.
종단형 자율 주행은 전이 가능한 주행 계획 표현을 학습하기 위해 자기 지도 비디오 사전 학습을 점점 더 많이 활용하고 있습니다. 그러나 장면 이해를 위한 비디오 세계 모델 사전 학습은 지금까지 제한된 성능 향상만을 가져왔습니다. 이러한 한계는 주행의 본질적인 모호성으로 인해 더욱 두드러집니다: 각 장면은 일반적으로 단일 인간 궤적만 제공되어 다중 모드 행동을 학습하기 어렵게 만듭니다. 본 연구에서는 종단형 주행을 위해 Video Joint-Embedding Predictive Architecture(V-JEPA)와 다중 모드 궤적 추출을 통합한 Drive-JEPA 프레임워크를 제안합니다. 첫째, 대규모 주행 비디오에서 ViT 인코더를 사전 학습하여 궤적 계획과 정렬된 예측 표현을 생성하도록 V-JEPA를 종단형 주행에 적용합니다. 둘째, 인간 궤적과 함께 시뮬레이터에서 생성된 다양한 궤적을 추출하고, 안정적이고 안전한 행동을 촉진하기 위한 모멘텀 인식 선택 메커니즘을 갖춘 제안 중심 계획기를 도입합니다. NAVSIM에서 평가했을 때, V-JEPA 표현과 간단한 트랜스포머 기반 디코더를 결합한 방법은 인식 불요 설정에서 기존 방법보다 PDMS 3점 높은 성능을 보였습니다. 완전한 Drive-JEPA 프레임워크는 v1에서 93.3 PDMS, v2에서 87.8 EPDMS를 달성하여 새로운 최첨단 기술을 제시합니다.
프루닝 분야에서 복권 당첨 가설은 대규모 네트워크가 희소 서브네트워크, 즉 승리 티켓을 포함하고 있으며, 이러한 서브네트워크를 독립적으로 훈련시켜 기존의 조밀한 네트워크와 동등한 성능을 달성할 수 있다고 주장합니다. 그러나 기존 대부분의 접근법은 모든 입력에 걸쳐 공유되는 단일 보편적 승리 티켓을 가정함으로써 실제 데이터의 내재적 이질성을 간과해 왔습니다. 본 연구에서는 클래스, 의미론적 클러스터 또는 환경 조건에 각각 맞춰진 다수의 전문화된 서브네트워크(적응형 티켓)를 발견하는 적응형 프루닝 프레임워크인 RTL(Routing the Lottery)을 제안합니다. 다양한 데이터셋과 과제에서 RTL은 독립적인 모델 대비 최대 10배 적은 매개변수를 사용하면서도 균형 정확도와 재현율에서 단일 및 다중 모델 기준선을 지속적으로 능가하였으며, 의미론적으로 정렬된 특성을 보였습니다. 또한, 공격적인 프루닝 하에서 발생하는 성능 저하인 서브네트워크 붕괴 현상을 규명하고, 과도한 희소화에 대한 레이블 불필요 진단을 가능하게 하는 서브네트워크 유사도 점수를 도입합니다. 전반적으로 우리의 결과는 프루닝을 모델 구조와 데이터 이질성을 정렬하는 메커니즘으로 재조명하며, 보다 모듈화되고 상황 인식적인 딥러닝으로 나아가는 길을 열어줍니다.
멀티모달 대규모 언어 모델(MLLM)은 최근 AI 연구의 주요 초점입니다. 그러나 기존 연구 대부분은 정적 이미지 이해에 집중한 반면, 순차적 오디오-비디오 데이터 처리 능력은 충분히 탐구되지 않았습니다. 이러한 격차는 실제 환경에서 MLLM 성능을 체계적으로 평가할 수 있는 고품질 벤치마크의 필요성을 부각시킵니다. 본 연구는 13개의 실제 대화 도메인에 걸친 4,958개의 주석과 인구통계학적 메타데이터로 구성된 포괄적이고 완전히 인간 검증된 벤치마크인 SONIC-O1을 소개합니다. SONIC-O1은 자유 형식 요약, 객관식 질문(MCQ) 응답, 그리고 지원 근거(추론)를 통한 시간적 위치 지정을 포함한 주요 작업에서 MLLM을 평가합니다. 독점 및 오픈소스 모델에 대한 실험은 한계를 보여줍니다. 두 모델 패밀리 간 MCQ 정확도 성능 격차는 상대적으로 작은 반면, 최고 성능의 독점 모델과 오픈소스 모델 간 시간적 위치 지정에서는 22.6%라는 상당한 성능 차이를 관찰했습니다. 성능은 인구통계학적 그룹에 따라 추가로 저하되어 모델 동작에 지속적인 불균형이 있음을 시사합니다. 전반적으로 SONIC-O1은 시간적 근거가 있고 사회적으로 강건한 멀티모달 이해를 위한 개방형 평가 도구를 제공합니다. 재현성 및 연구를 위해 SONIC-O1을 공개합니다: 프로젝트 페이지: https://vectorinstitute.github.io/sonic-o1/ 데이터셋: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 리더보드: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
우리는 자율적인 프로그램 합성 및 최적화를 위한 모듈형 프레임워크인 KAPSO를 소개한다. KAPSO는 자연어로 된 목표와 평가 방법이 주어지면, 측정 가능한 목표를 향해 실행 가능한 결과물을 개선하기 위해 아이디어 창출, 코드 합성 및 편집, 실행, 평가, 학습을 반복적으로 수행한다. 합성을 최종 종착점으로 간주하기보다, KAPSO는 합성을 장기적인 최적화 루프 내의 연산자로 활용하며, 여기서 진행 상황은 평가자의 결과를 통해 정의된다. KAPSO는 코딩 에이전트에서 흔히 발생하는 장기적 실패 요소들, 즉 실험 상태 소실, 취약한 디버깅, 도메인 전문성의 미흡한 재사용 등을 해결하기 위해 세 가지 긴밀하게 결합된 구성 요소를 통합한다. 첫째, Git 기반 실험 엔진은 각 시도를 브랜치로 분리하여 재현 가능한 결과물을 생성하고 반복 작업 간의 출처를 보존한다. 둘째, 지식 시스템은 저장소, 내부 플레이북, 문서화 자료, 과학 논문, 웹 검색 결과 등으로 구성된 다양한 출처의 정보를 수집하여 워크플로우, 구현체, 환경 제약 조건에 대한 검색을 지원하는 구조화된 표현으로 체계화한다. 셋째, 인지적 메모리 계층은 검색을 조율하고 실험 흔적(실행 로그, diff, 평가자 피드백)에서 추출된 재사용 가능한 교훈들의 일화적 저장소를 유지함으로써 반복되는 오류 패턴을 줄이고 수렴 속도를 가속화한다. 우리는 MLE-Bench(캐글 스타일 머신러닝 경진대회) 및 ALE-Bench(AtCoder 휴리스틱 최적화)에서 KAPSO를 평가하고 종단간 성능을 보고한다. 코드 이용 가능: https://github.com/Leeroo-AI/kapso
주의력 패턴은 대규모 언어 모델(LLM)의 학습과 추론 모두에서 중요한 역할을 합니다. 선행 연구에서는 검색 헤드, 싱크 헤드, 대각선 흔적과 같은 개별 패턴들을 확인했지만, 이러한 관찰들은 단편적으로 남아있으며 통합적인 설명이 부족합니다. 이러한 격차를 해소하기 위해 우리는 시간적으로 연속적인 관점에서 다양한 주의력 패턴의 수학적 형식을 분석하여 설명하는 통합 프레임워크인 TAPPA를 제안합니다. TAPPA는 주의력 행동에 대한 이해를 심화시키고 추론 가속화 접근법을 안내합니다. 구체적으로, TAPPA는 주의력 패턴을 명확한 규칙성을 가진 예측 가능한 패턴과 효과적으로 무작위적으로 보이는 예측 불가능한 패턴으로 특징짓습니다. 우리의 분석은 이러한 구분이 시간 차원을 따른 쿼리 자기 유사성의 정도로 설명될 수 있음을 추가로 밝힙니다. 예측 가능한 패턴에 집중하여, 우리는 쿼리, 키, 그리고 로터리 위치 임베딩(RoPE)의 결합적 효과를 통해 세 가지 대표적인 사례에 대한 상세한 수학적 분석을 제공합니다. 우리는 TAPPA의 통찰력을 KV 캐시 압축 및 LLM 프루닝 작업에 적용하여 이를 검증합니다. 이러한 작업들 전반에 걸쳐, TAPPA에서 동기를 얻은 간단한 메트릭이 기준 방법들 대비 일관적으로 성능을 향상시킵니다. 코드는 https://github.com/MIRALab-USTC/LLM-TAPPA에서 확인할 수 있습니다.
우리는 정체성 복제가 아닌 지각적 구분 불가능성에 기반한 맥락적 시각적 개인화 평가를 위한 새로운 패러다임인 시각적 개인화 튜링 테스트(VPTT)를 소개한다. 모델의 출력(이미지, 비디오, 3D 에셋 등)이 주어진 사람이 그럴듯하게 생성하거나 공유할 만한 콘텐츠와 인간 또는 보정된 VLM 평가자에게 구분되지 않는다면, 해당 모델은 VPTT를 통과한 것으로 간주한다. VPTT를 운영화하기 위해 1만 명의 페르소나 벤치마크(VPTT-Bench), 시각적 검색 증강 생성기(VPRAG), 그리고 인간 및 VLM 판단에 대해 보정된 텍스트 전용 지표인 VPTT 점수를 통합한 VPTT 프레임워크를 제시한다. 우리는 인간, VLM, VPTT 평가 간의 높은 상관관계를 보여주며, VPTT 점수가 신뢰할 수 있는 지각적 대리 지표임을 입증한다. 실험 결과 VPRAG가 최적의 정렬-독창성 균형을 달성하여 개인화 생성 AI를 위한 확장 가능하고 개인정보 보호가 안전한 기반을 제공함을 확인하였다.
데나드 시대 이후 임베디드 시스템 최적화는 에너지 효율과 대기 시간 사이의 복잡한 절충점을 탐색해야 합니다. 기존 휴리스틱 튜닝 방식은 이러한 고차원적이고 비평활적인 환경에서 종종 비효율적입니다. 본 연구에서는 이기종 멀티코어 아키텍처에서 최적의 스케줄링 구성을 자동 탐색하기 위해 가우시안 프로세스를 활용한 베이지안 최적화 프레임워크를 제안합니다. 우리는 에너지와 시간 간 파레토 최적선을 근사화함으로써 문제의 다중 목적 특성을 명시적으로 해결합니다. 더 나아가 민감도 분석(fANOVA)을 도입하고 다양한 공분산 커널(예: 마테른 커널 대 RBF)을 비교함으로써 블랙박스 모델에 물리적 해석 가능성을 제공하며, 시스템 성능을 주도하는 주요 하드웨어 매개변수를 규명합니다.
소량의 검증된 목표 정보만으로도 대규모 기초 모델의 고비용 자기지도 사전훈련을 효과적으로 조정할 수 있을까? 기존의 표준 사전훈련은 고정된 프록시 목표(예: 다음 토큰 예측)를 최적화하므로, 관심 있는 하위 작업 능력과는 무관하게 컴퓨팅 자원을 비효율적으로 배분할 수 있습니다. 본 연구에서는 V-Pretraining을 소개합니다. 이는 가치 기반이며 모달리티에 구애받지 않는 제어적 지속 사전훈련 방법으로, 경량의 작업 설계자가 각 그래디언트 단계의 가치를 극대화하도록 사전훈련 과제를 재구성합니다. 예를 들어, 샘플 증강을 활용한 자기지도 학습(SSL)을 생각해 보겠습니다. V-Pretraining의 작업 설계자는 사전훈련 손실 그래디언트가 하위 작업(예: 이미지 분할)에서 계산된 그래디언트와 정렬되는 사전훈련 과제(예: 증강 방식)를 선택합니다. 이는 사전훈련이 관련 하위 작업 능력 향상 방향으로 조정되도록 돕습니다. 주목할 점은 사전훈련된 모델이 하위 작업의 레이블로 직접 업데이트되지 않으며, 해당 레이블은 오직 사전훈련 과제를 설계하는 데만 사용된다는 것입니다. 동일한 학습자 업데이트 예산 하에서, 0.5B~7B 규모의 언어 모델에 V-Pretraining을 적용하면 GSM8K 학습 예시의 단 12%만 피드백으로 사용하여 표준 다음 토큰 예측 대비 추론 능력(GSM8K 테스트 Pass@1)이 최대 18% 상대적으로 향상되었습니다. 비전 SSL에서는 ADE20K에서 최대 1.07 mIoU로 최첨단 결과를 개선하고 NYUv2 RMSE를 감소시키면서 ImageNet 선형 정확도도 향상시켰으며, 지속 사전훈련에서의 토큰 효율성 향상에 대한 예비 증거도 제시합니다.