번역이 포함된 일일 선별된 AI 연구 논문
언어 모델의 능력이 점차 향상됨에 따라 사용자들은 정확한 응답뿐만 아니라 다양한 시나리오에서의 다양한 인간 선호도에 부합하는 행동을 기대하게 되었습니다. 이를 달성하기 위해 강화 학습(Reinforcement learning, RL) 파이프라인은 각기 다른 선호도를 반영하는 여러 개의 보상을 통합하여 모델이 이러한 바람직한 행동을 학습하도록 유도하기 시작했습니다. 그러나 최근 연구들은 다중 보상 설정에서 Group Relative Policy Optimization(GRPO)의 적용을 당연시하며 그 적절성을 검토하지 않는 경향이 있습니다. 본 논문에서는 서로 다른 롤아웃(rollout) 보상 조합을 정규화하기 위해 GRPO를 직접 적용할 경우, 이들이 동일한 어드밴티지(advantage) 값으로 수렴하여 학습 신호의 분해능(resolution)을 저하시키고, 결과적으로 최적에 못 미치는 수렴 또는 경우에 따라 조기 학습 실패를 초래함을 보여줍니다. 이에 우리는 Group reward-Decoupled Normalization Policy Optimization(GDPO)이라는 새로운 정책 최적화 방법을 제안합니다. GDPO는 개별 보상의 정규화를 분리(decoupling)하여 이러한 문제를 해결하며, 보상 간 상대적 차이를 더 충실히 보존하고 더 정확한 다중 보상 최적화를 가능하게 함과 동시에 학습 안정성을 크게 향상시킵니다. 우리는 GDPO와 GRPO를 도구 호출(tool calling), 수학 추론(math reasoning), 코드 추론(coding reasoning)이라는 세 가지 과제에서 비교하여 정확도 지표(정확도, 버그 비율)와 제약 조건 준수 지표(형식, 길이)를 모두 평가했습니다. 모든 설정에서 GDPO는 GRPO를 지속적으로 능가하며, 다중 보상 강화 학습 최적화에서의 효과성과 일반화 가능성을 입증했습니다.
가중치 감쇠(WD)를 행렬 계층에 적용하는 것은 대규모 언어 모델 사전 학습에서 표준적인 방법입니다. 선행 연구에 따르면 확률적 경사하강법의 노이즈가 가중치 행렬 W에 브라운 운동과 유사한 확산을 유발하며, 이 확산은 WD에 의해 상쇄되어 특정 가중치 노름 ||W||를 갖는 WD-노이즈 평형 상태에 도달하게 됩니다. 본 연구에서는 이러한 평형 상태의 노름을 훈련 과정에서 발생하는 유해한 부산물로 간주하고, 학습 가능한 승수를 도입하여 최적의 스케일을 학습하는 방식으로 이 문제를 해결합니다. 먼저 W에 학습 가능한 스칼라 승수를 부착하여 WD-노이즈 평형 노름이 최적이 아님을 확인했습니다: 학습된 스케일은 데이터에 맞게 조정되며 성능을 향상시킵니다. 다음으로 개별 행과 열의 노름도 유사하게 제약을 받는다고 주장하며, 학습 가능한 행별 및 열별 승수를 도입하여 그 스케일을 자유롭게 합니다. 우리의 방법은 학습 가능하고 더 표현력이 높은 muP 승수의 일반화로 볼 수 있습니다. 이 방법은 잘 조정된 muP 기준선을 능가하며, 승수 튜닝의 계산 오버헤드를 줄이고, 순전파 대칭성 및 학습된 승수의 너비 스케일링과 같은 실용적인 문제를 제기합니다. 마지막으로, Adam과 Muon 옵티마이저 모두에서 학습 가능한 승수를 검증하였으며, 여기서는 Adam에서 Muon으로 전환할 때의 향상과 일치하는 하류 평가에서의 개선을 보여줍니다.
야간 색 항상성은 저조도 노이즈와 복잡한 조명 조건으로 인해 계산 사진학에서 여전히 해결하기 어려운 과제로 남아 있습니다. 본 논문에서는 야간 화이트 밸런스를 위해 통계적 방법과 심층 강화 학습을 결합한 새로운 프레임워크인 RL-AWB를 제안합니다. 우리의 방법은 야간 장면에 특화된 통계적 알고리즘으로 시작하며, salient 회색 픽셀 검출과 새로운 조명 추정 기법을 통합합니다. 이를 기반으로 통계적 알고리즘을 핵심으로 활용하는 최초의 심층 강화 학습 기반 색 항상성 접근법을 개발하여, 전문 AWB 튜닝 전문가처럼 각 이미지에 대해 매개변수를 동적으로 최적화합니다. 또한 크로스 센서 평가를 위해 최초의 다중 센서 야간 데이터셋을 도입합니다. 실험 결과는 우리 방법이 저조도 및 충분한 조명 이미지 모두에서 우수한 일반화 성능을 달성함을 입증합니다. 프로젝트 페이지: https://ntuneillee.github.io/research/rl-awb/
대규모 언어 모델(LLM)은 다양한 영역에서 강점을 보입니다. 그러나 단일 범용 모델로 이러한 영역 전반에 걸쳐 강력한 성능을 달성하려면 일반적으로 학습 및 배포 비용이 매우 높은 규모로 확장해야 합니다. 반면, 영역별로 특화된 소규모 모델은 훨씬 효율적이지만, 학습 데이터 분포를 벗어난 일반화에는 어려움을 겪습니다. 이러한 딜레마를 해결하기 위해 본 논문에서는 강력하고 효과적인 토큰 수준 다중 LLM 협업 프레임워크인 FusionRoute를 제안합니다. FusionRoute는 경량 라우터가 각 디코딩 단계에서 (i) 가장 적합한 전문가를 동시에 선택하고 (ii) 로짓 덧셈을 통해 선택된 전문가의 다음 토큰 분포를 개선하거나 수정하는 상보적 로짓을 제공하는 방식입니다. 고정된 전문가 출력에만 의존하는 기존 토큰 수준 협업 방법과 달리, 본 연구는 순수 전문가 라우팅이 근본적으로 한계가 있음을 이론적으로 분석합니다: 강력한 전역 커버리지 가정이 성립하지 않는 한, 일반적으로 최적의 디코딩 정책을 구현할 수 없습니다. FusionRoute는 전문가 선택에 학습 가능한 상보적 생성기를 추가하여 효과적인 정책 클래스를 확장하고 약한 조건 하에서 최적 가치 함수의 복원을 가능하게 합니다. 실험적으로, Llama-3 및 Gemma-2 모델 군과 수학적 추론, 코드 생성, 지시 따르기 등 다양한 벤치마크에서 FusionRoute는 시퀀스 및 토큰 수준 협업, 모델 병합, 직접 미세 조정보다 우수한 성능을 보였으며, 해당 작업에 특화된 도메인 전문가 모델과도 경쟁력을 유지했습니다.
로봇 정책의 효과적인 학습을 위해서는 조작 데이터의 다양성, 양, 질이 매우 중요합니다. 그러나 하드웨어 및 물리적 환경 설정의 제약으로 인해 다양한 환경에서 대규모 실제 조작 데이터를 수집하는 것은 여전히 확장하기 어렵습니다. 최근 연구에서는 텍스트 프롬프트 기반 이미지 확산 모델을 사용하여 시각 관측 데이터의 배경 및 탁상 위 객체를 변환함으로써 조작 데이터를 증강하는 방법을 제안합니다. 그러나 이러한 접근법들은 최신 정책 모델이 요구하는 다중 시점 및 시간적 일관성 있는 관측 데이터에 대한 실용적 필요성을 종종 간과합니다. 더욱이 텍스트 프롬프트만으로는 장면 구성을 안정적으로 명시하기 어렵습니다. 확산 모델에 명시적인 시각적 지침을 제공하기 위해, 우리는 원하는 장면 구성을 안내하기 위한 조건 입력으로 예시 이미지를 제공하는 시각 정체성 프롬프팅을 제안합니다. 이를 위해 대규모 로봇 데이터셋에서 시각 정체성 풀을 구축하는 확장 가능한 파이프라인도 구축했습니다. 우리가 증강한 조작 데이터를 사용하여 하류 작업인 시각-언어-행동 및 시각운동 정책 모델을 학습한 결과, 시뮬레이션과 실제 로봇 환경 모두에서 일관된 성능 향상을 확인했습니다.
복잡한 추론을 위한 대규모 언어 모델(LLM)은 높은 계산 비용과 지연 시간으로 인해 종종 제약을 받는 반면, 자원 효율적인 소규모 언어 모델(SLM)은 일반적으로 필요한 추론 능력이 부족합니다. 캐스케이딩이나 라우팅과 같은 기존의 협력 방식은 전체 쿼리를 LLM으로 오프로딩하는 거친 단위로 운영되어, SLM이 대부분의 추론 단계를 처리할 수 있는 경우에도 상당한 계산 낭비가 발생합니다. 이를 해결하기 위해 우리는 토큰 수준 협력 디코딩을 통한 효율적인 추론 프레임워크인 RelayLLM을 제안합니다. 라우터와 달리 RelayLLM은 SLM이 특수 명령어를 통해 중요한 토큰에 대해서만 LLM을 동적으로 호출하는 능동 제어기 역할을 하도록 하여 생성 과정을 효과적으로 "릴레이"합니다. 모델이 독립성과 전략적 도움 요청 사이의 균형을 유지하도록 가르치기 위해 워밍업과 그룹 상대 정책 최적화(GRPO)를 포함하는 2단계 학습 프레임워크를 도입했습니다. 6개 벤치마크에 대한 실험 결과, RelayLLM은 평균 49.52%의 정확도를 달성하여 두 모델 간의 성능 격차를 효과적으로 좁혔음을 보여줍니다. 특히 이는 생성된 전체 토큰의 1.07%에 대해서만 LLM을 호출하여 달성되었으며, 성능이 일치하는 무작위 라우터 대비 98.2%의 비용 절감 효과를 제공합니다.
LLM 에이전트는 내부 추론과 외부 도구 상호작용을 교차하며 다중 턴 작업을 해결하는 강력한 시스템으로 부상했습니다. 에이전트 강화학습은 이러한 능력을 추가로 정제하기 위한 중요한 사후 훈련 패러다임으로 최근 큰 연구 관심을 끌고 있습니다. 본 논문에서는 다중 턴 에이전트 강화학습의 세 가지 핵심 과제인 제한된 탐색 다양성, 희소 신용 할당, 그리고 정책 최적화의 불일치를 해결하는 통합 프레임워크인 AT^2PO(트리 탐색 기반 턴 단위 에이전트 정책 최적화)를 제안합니다. AT^2PO는 전략적 탐색을 위한 엔트로피 유도 트리 확장과 희소한 결과로부터 세밀한 보상 전파를 위한 턴 단위 신용 할당을 함께 가능하게 하는 턴 단위 트리 구조를 도입합니다. 이를 보완하여, 우리는 정책 업데이트를 에이전트 상호작용의 자연스러운 의사 결정 단위와 일치시키는 턴 단위 학습 목표인 에이전트 턴 단위 정책 최적화를 제안합니다. ATPO는 트리 탐색과 직교하며 어떤 다중 턴 강화학습 파이프라인에도 쉽게 통합될 수 있습니다. 7개 벤치마크에 대한 실험 결과, ATPO가 최신 기준선 대비 최대 1.84% 포인트의 평균 개선을 보였으며, ablation 연구를 통해 각 구성 요소의 효과성을 검증했습니다. 우리의 코드는 https://github.com/zzfoutofspace/ATPO에서 확인할 수 있습니다.
체인 오브 쏘트(CoT) 추론은 비디오 이해 작업에서 멀티모달 대규모 언어 모델의 강력한 도구로 부상했습니다. 그러나 직접 응답 방식 대비 CoT의 필요성과 장점은 아직 충분히 연구되지 않았습니다. 본 논문에서는 먼저 강화학습으로 훈련된 비디오 모델의 경우, CoT가 단계별 분석을 통해 더 높은 계산 비용을 소모함에도 불구하고 직접 응답 방식이 CoT 성능을 종종 따라가거나 오히려 능가함을 보여줍니다. 이에 착안하여, 우리는 필요할 때만 추론을 수행하는 '이유-필요-시-추론' 전략을 채택한 비디오 이해 프레임워크인 VideoAuto-R1을 제안합니다. 훈련 과정에서 우리의 접근 방식은 '한 번 생각하고, 두 번 답한다'는 패러다임을 따릅니다: 모델은 먼저 초기 답변을 생성한 후 추론을 수행하고, 최종적으로 검토된 답변을 출력합니다. 두 답변 모두 검증 가능한 보상을 통해 지도 학습됩니다. 추론 시에는 모델이 초기 답변의 신뢰도 점수를 사용하여 추론을 계속할지 여부를 결정합니다. 비디오 질의응답 및 기준 설정 벤치마크에서 VideoAuto-R1은 최첨단 정확도를 달성하면서도 평균 응답 길이를 약 3.3배(예: 149토큰에서 44토큰으로) 크게 줄여 효율성을显著히 향상시켰습니다. 더불어, 지각 지향 작업에서는 추론 모드 활성화 비율이 낮은 반면, 추론 집중 작업에서는 더 높은 비율을 관찰했습니다. 이는 명시적 언어 기반 추론이 일반적으로 유용하지만 항상 필요한 것은 아님을 시사합니다.
비전-언어 모델(VLM)은 뛰어난 성능을 달성했지만 여전히 적대적 공격에 취약합니다. 모델 불확실성의 측정치인 엔트로피는 VLM의 신뢰도와 강한 상관관계를 보입니다. 기존의 엔트로피 기반 공격은 모든 디코딩 단계에서 불확실성을 극대화하며, 모든 토큰이 생성 불안정성에 동등하게 기여한다는 것을 암묵적으로 가정했습니다. 그러나 우리는 자기회귀 생성 과정에서 중요한 의사 결정 지점인 소수(약 20%)의 고엔트로피 토큰이 출력 경로에 불균형적으로 큰 영향을 미친다는 것을 보여줍니다. 이러한 위치에 적대적 교란을 집중시킴으로써, 상당히 적은 예산을 사용하면서도 전역적 방법에 버금가는 의미론적 성능 저하를 달성합니다. 더 중요하게도, 여러 대표적인 VLM에서 이러한 선택적 공격은 양성 출력의 35-49%를 유해한 출력으로 전환하여 더 심각한 안전 위험을 드러냈습니다. 주목할 점은 이러한 취약한 고엔트로피 분기점이 구조적으로 다양한 VLM에서 반복적으로 나타나, 실현 가능한 전이성(보이지 않는 대상에 대해 17-26%의 유해율)을 가능하게 한다는 것입니다. 이러한 발견에 기반하여, 우리는 경쟁력 있는 공격 성공률(93-95%)과 높은 유해 전환율을 동시에 달성하는 Entropy-bank Guided Adversarial attacks (EGA)를 제안하며, 이를 통해 현재 VLM 안전 메커니즘의 새로운 취약점을 밝혀냅니다.
비디오 세계 모델은 역동적인 현실 세계 환경을 시뮬레이션하는 것을 목표로 하지만, 기존 방법들은 비디오가 본질적으로 투영된 2D 이미지 평면에서 동역학을 운영하기 때문에 카메라 및 다중 객체 운동에 대한 통합적이고 정밀한 제어를 제공하는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해 우리는 통합된 4D 기하학적 세계 상태 내에서 카메라와 객체 동역학 모두에 대한 명시적이고 일관된 제어를 가능하게 하는 4D 인식 비디오 세계 모델인 VerseCrafter를 소개합니다. 우리의 접근 방식은 정적 배경 포인트 클라우드와 객체별 3D 가우시안 궤적을 통해 세계 상태를 인코딩하는 새로운 4D 기하학적 제어 표현을 중심으로 합니다. 이 표현은 객체의 경로뿐만 아니라 시간에 따른 확률적 3D 점유율도 포착하여, 경직된 바운딩 박스나 매개변수 모델에 대한 유연하고 범주에 구애받지 않는 대안을 제공합니다. 이러한 4D 제어는 사전 학습된 비디오 확산 모델의 조건화 신호로 렌더링되어, 지정된 동역학을 정확히 준수하는 고품질의 뷰 일관성 비디오 생성을 가능하게 합니다. 그러나 또 다른 주요 과제는 명시적인 4D 주석이 있는 대규모 훈련 데이터의 부족에 있습니다. 우리는 이를 위해 실제 환경의 비디오에서 필요한 4D 제어를 추출하는 자동 데이터 엔진을 개발하여 대규모이고 다양한 데이터셋으로 우리 모델을 훈련할 수 있도록 했습니다.
전문가 혼합(Mixture of Experts) 모델은 일반적으로 희소 라우팅을 통해 도메인 특화를 달성하는 것으로 알려져 있습니다. 본 연구에서는 이러한 가정에 의문을 제기하며, 개별 전문가 수준이 아닌 전문가 그룹 수준에서 라우팅 동작을 분석하는 사후 분석 프레임워크인 COMMITTEEAUDIT을 소개합니다. 세 가지 대표적인 모델과 MMLU 벤치마크를 대상으로 분석한 결과, 도메인에 불변하는 '상임 위원회(Standing Committee)'를 발견했습니다. 이는 도메인, 계층, 라우팅 예산에 관계없이 일관되게 대부분의 라우팅 양을 차지하는, 라우팅된 전문가들로 구성된 소규모 연합입니다. 이는 아키텍처에 이미 공유 전문가가 포함된 경우에도 마찬가지입니다. 정성적 분석을 통해 상임 위원회는 추론 구조와 구문의 핵심을 담당하는 반면, 주변부 전문가들은 도메인 특화 지식을 처리한다는 사실을 추가로 확인했습니다. 이러한 발견은 중앙집중화된 계산을 향한 강한 구조적 편향을 드러내며, 전문가 혼합 모델의 특화 정도가 일반적으로 생각하는 것보다 훨씬 제한적임을 시사합니다. 이러한 내재적 편향은 또한 전문가 활용도를 균일하게 강제하는 부하 분산 손실 함수와 같은 현재의 훈련 목표가 모델의 자연스러운 최적화 경로에 역행함으로써 훈련 효율성과 성능을 제한하고 있을 수 있음을 나타냅니다.
LLM-as-a-Judge는 대규모 언어 모델을 활용한 확장 가능한 평가를 통해 AI 평가 분야에 혁명을 일으켰습니다. 그러나 평가 대상이 점점 더 복잡해지고, 전문적이며, 다단계로 진행됨에 따라 LLM-as-a-Judge의 신뢰도는 내재된 편향, 피상적인 단일 패스 추론, 그리고 실제 관찰 결과에 대한 평가 검증 불가능이라는 한계에 직면하게 되었습니다. 이는 Agent-as-a-Judge로의 전환을 촉발시켰는데, 여기서 에이전트 평가자는 계획 수립, 도구를 통한 검증, 다중 에이전트 협업, 지속적 메모리 등을 활용하여 보다 강력하고 검증 가능하며 세밀한 평가를 가능하게 합니다. 에이전트 평가 시스템이 빠르게 확산되고 있음에도 불구하고, 이 변화하는 지형을 탐색할 수 있는 통합된 프레임워크가 부족한 실정입니다. 이러한 격차를 해소하기 위해 우리는 이러한 진화를 추적하는 첫 번째 포괄적인 조사 연구를 제시합니다. 구체적으로, 우리는 이러한 패러다임 전환을 특징짓는 핵심 차원을 규명하고 발전 분류 체계를 수립합니다. 핵심 방법론을 체계화하고 일반 및 전문 분야에 걸친 응용 사례를 조사합니다. 더 나아가, 최첨단 과제를 분석하고 유망한 연구 방향을 제시함으로써 궁극적으로 차세대 에이전트 평가를 위한 명확한 로드맵을 제공합니다.
ReCamMaster와 같은 카메라 제어 생성 비디오 재렌더링 방법은 놀라운 발전을 이루었습니다. 그러나 단일 뷰 설정에서는 성공적이었지만, 이러한 연구들은 다중 뷰 시나리오에서 일관성을 유지하는 데 어려움을 겪는 경우가 많습니다. 생성 모델의 내재적 확률성으로 인해 합성된 영역에서 시공간적 일관성을 보장하는 것은 여전히 어려운 과제입니다. 이를 해결하기 위해 우리는 생성적 합성(hallucination)을 동기화하여 시공간적 메모리를 유지하는 PlenopticDreamer 프레임워크를 소개합니다. 핵심 아이디어는 카메라 가이드 비디오 검색 전략의 도움으로 오토리그레시브(auto-regressive) 방식으로 다중 입력-단일 출력 비디오 조건부 모델을 훈련하는 것입니다. 이 전략은 이전 생성 단계에서 중요한 비디오를 조건부 입력으로 적응적으로 선택합니다. 또한 우리의 훈련 방식에는 수렴성을 개선하기 위한 점진적 컨텍스트 확장(progressive context-scaling), 오류 누적으로 인한 장기간의 시각적 저하에 대한 견고성을 향상시키는 자기 조건화(self-conditioning), 그리고 장편 비디오 생성을 지원하기 위한 장편 비디오 조건화 메커니즘이 포함됩니다. Basic 및 Agibot 벤치마크에 대한 광범위한 실험을 통해 PlenopticDreamer가 최첨단 비디오 재렌더링 성능을 달성하며, 우수한 뷰 동기화, 높은 정확도의 시각적 결과, 정확한 카메라 제어, 그리고 다양한 뷰 변환(예: 3인칭에서 3인칭으로, 로봇 조작에서 헤드 뷰에서 그리퍼 뷰로)을 제공함을 입증했습니다. 프로젝트 페이지: https://research.nvidia.com/labs/dir/plenopticdreamer/
3D 환경에서 구현된 질의응답(EQA)은 종종 여러 시점에 분산되고 부분적으로 가려진 맥락을 수집해야 합니다. 그러나 최근의 대부분의 시각-언어 모델(VLM)은 고정되고 제한된 입력 시점 집합에 제약을 받아, 추론 시 질문 관련 맥락을 획득하는 능력을 제한하고 복잡한 공간 추론을 방해합니다. 우리는 Coarse-to-fine 탐색 과정을 통해 VLM을 능동적인 시점 추론기로 변환하는 훈련 불필요( training-free) 테스트 타임 추론 프레임워크인 Chain-of-View(CoV) 프롬프팅을 제안합니다. CoV는 먼저 View Selection 에이전트를 사용하여 중복 프레임을 걸러내고 질문과 일치하는 앵커 뷰(anchor view)를 식별합니다. 그런 다음 반복적 추론과 이산적인 카메라 액션을 교차하며 세밀한 뷰 조정을 수행하여, 충분한 맥락이 수집되거나 단계 예산(step budget)에 도달할 때까지 기본 3D 장면 표현으로부터 새로운 관측값을 얻습니다. 우리는 4가지 주류 VLM에 대해 OpenEQA에서 CoV를 평가했으며, LLM-Match에서 평균 +11.56%의 개선을 얻었고, Qwen3-VL-Flash에서는 최대 +13.62%의 향상을 기록했습니다. CoV는 추가로 테스트 타임 스케일링(test-time scaling)을 보여주었습니다: 최소 액션 예산을 증가시키면 평균 +2.51%의 추가 개선이 발생했으며, Gemini-2.5-Flash에서는 +3.73%로 정점을 찍었습니다. ScanQA와 SQA3D에서 CoV는 강력한 성능(예: ScanQA에서 116 CIDEr / 31.9 EM@1, SQA3D에서 51.1 EM@1)을 제공했습니다. 전반적으로, 이러한 결과는 질문과 일치하는 뷰 선택과 개방형 뷰 탐색(open-view search)을 결합하는 것이 추가 훈련 없이 3D EQA의 공간 추론을 개선하는 효과적이고 모델에 구애받지 않는(model-agnostic) 전략임을 시사합니다.
Chain-of-Thought(CoT) 추론은 대규모 언어 모델의 다단계 수학 문제 해결 능력을 향상시키지만, 초기 오류가 자기회귀 디코딩 과정에서 되돌릴 수 없이 전파되기 때문에 노출 편향과 오류 누적에 취약한 문제가 남아 있습니다. 본 연구에서는 CoT 추론을 반복적인 노이즈 제거 과정으로 재정의하는 확산 기반 CoT 프레임워크인 DiffCoT를 제안합니다. DiffCoT는 슬라이딩 윈도우 메커니즘을 통해 추론 단계 수준에서 확산 원리를 통합하며, 토큰 수준의 자기회귀를 유지하면서 중간 단계의 통합 생성 및 사후 수정을 가능하게 합니다. 인과적 일관성을 유지하기 위해 추론 체인의 시간적 구조를 존중하는 인과적 확산 노이즈 스케줄을 추가로 도입합니다. 다양한 모델 백본에 걸친 세 가지 다단계 CoT 추론 벤치마크에서의 광범위한 실험을 통해 DiffCoT가 기존 CoT 선호도 최적화 방법들을 일관되게 능가하며, CoT 추론에서 향상된 강건성과 오류 수정 능력을 보여줌을 입증합니다.
문서 질의응답(DocQA)은 주어진 문서에 기반하여 질문에 답변하는 데 중점을 두지만, 기존 DocQA 에이전트는 효과적인 도구 활용이 부족하고 대부분 폐쇄형 모델에 의존합니다. 본 연구에서는 종단간 학습된 오픈소스 문서 에이전트인 DocDancer를 소개합니다. 우리는 DocQA를 정보 탐색 문제로 재정의하고, 문서 탐색과 이해를 명시적으로 모델링하는 도구 주도 에이전트 프레임워크를 제안합니다. 이러한 에이전트의 종단간 학습을 가능하게 하기 위해, DocQA를 위한 고품질 학습 데이터 부족 문제를 해결하는 Exploration-then-Synthesis 데이터 합성 파이프라인을 도입했습니다. 합성된 데이터로 학습한 결과, 두 가지 장문맥 문서 이해 벤치마크인 MMLongBench-Doc와 DocBench에서 모델의 효과성이 입증되었습니다. 추가 분석을 통해 에이전트 도구 설계와 합성 데이터에 대한 유용한 통찰을 제시합니다.
컨텍스트 내 이미지 생성 및 편집(ICGE)은 사용자가 이미지-텍스트가 혼합된 프롬프트를 통해 시각적 개념을 지정할 수 있게 하여, 사용자 의도의 정확한 이해와 충실한 실행을 요구합니다. 최근 통합 멀티모달 모델들은 유망한 이해 능력을 보여주지만, 이러한 장점이 이미지 생성으로 효과적으로 이어지지 않는 경우가 많습니다. 우리는 구조화된 추론 기반 정렬을 통해 이해와 생성 간 격차를 해소하는 통합 프레임워크인 Re-Align을 소개합니다. 그 핵심에는 의미 지침과 참조 연관성을 분리하여 명확한 텍스트 목표를 제공하고 참조 이미지 간 혼란을 완화하는 구조화된 추론 패러다임인 인-컨텍스트 생각의 사슬(IC-CoT)이 있습니다. 더불어 Re-Align은 구조화된 추론 텍스트와 생성된 이미지 간 정렬을 측정하는 대리 보상을 활용하는 효과적인 RL 훈련 기법을 도입하여 ICGE 작업에서 모델의 전반적 성능을 향상시킵니다. 폭넓은 실험을 통해 Re-Align이 동등한 모델 규모와 자원을 가진 경쟁 방법들보다 컨텍스트 내 이미지 생성 및 편집 작업 모두에서 더 뛰어난 성능을 보임을 검증했습니다.
생성 모델은 3D 비전 분야에서 새로운 형상을 합성하기 위해 점차 널리 사용되고 있으나, 이들의 생성 과정이 훈련 데이터 형상을 단순히 기억하는지 여부는 여전히 명확하지 않습니다. 생성 모델의 기억 현상을 이해하는 것은 훈련 데이터 유출을 방지하고 생성 결과의 다양성을 향상시키는 데 도움이 될 수 있습니다. 본 논문에서는 3D 생성 모델의 기억 현상을 정량적으로 평가하는 프레임워크를 설계하고, 다양한 데이터 및 모델 설계가 기억에 미치는 영향을 연구합니다. 먼저 기존 방법들의 기억 정도를 측정하기 위해 우리의 프레임워크를 적용합니다. 다음으로, 잠재 벡터-집합(Vecset) 확산 모델을 이용한 통제 실험을 통해 데이터 측면에서는 기억이 데이터 양식에 의존하며, 데이터 다양성과 더 세분화된 조건 설정이 증가할수록 기억이 증가함을 확인했습니다. 모델링 측면에서는 기억이 적절한 가이던스 규모에서 최고점에 도달하며, 더 긴 Vecset 사용과 단순 회전 증강을 통해 완화될 수 있음을 발견했습니다. 우리의 프레임워크와 분석은 3D 생성 모델의 기억 현상에 대한 실증적 이해를 제공하며, 생성 품질을 저하시키지 않고 기억을 줄일 수 있는 간단하면서 효과적인 전략을 제안합니다. 코드는 https://github.com/zlab-princeton/3d_mem에서 확인할 수 있습니다.
부드러운 경계는 얇은 털과 같이 자연 및 컴퓨터 생성 이미지에서 흔히 관찰되지만, 전경과 배경 단서의 모호한 혼합으로 인해 3D 비전에서는 여전히 해결하기 어려운 과제로 남아 있습니다. 본 논문은 3D 비전 작업에서 정교한 부드러운 경계 세부 사항을 복구하기 위해 설계된 프레임워크인 HairGuard를 소개합니다. 구체적으로, 우리는 먼저 이미지 매팅 데이터셋을 훈련에 활용하는 새로운 데이터 큐레이션 파이프라인을 제안하고, 부드러운 경계 영역을 자동으로 식별하기 위한 깊이 수정 네트워크를 설계합니다. 게이트 잔차 모듈을 통해 깊이 수정 네트워크는 전역 깊이 품질을 유지하면서 부드러운 경계 주변에서 정밀하게 깊이를 개선하여 최첨단 깊이 모델과의 플러그 앤 플레이 통합을 가능하게 합니다. 뷰 합성을 위해 우리는 높은 충실도의 텍스처를 보존하기 위해 깊이 기반 전방향 워핑을 수행한 후, 가려졌던 영역을 채우고 부드러운 경계 내의 중복 배경 아티팩트를 제거하는 생성형 장면 채색기를 적용합니다. 마지막으로, 컬러 퓨저는 워핑 및 인페인팅 결과를 적응적으로 결합하여 일관된 기하학적 구조와 정교한 세부 사항을 갖는 새로운 뷰를 생성합니다. 폭넓은 실험을 통해 HairGuard가 단안 깊이 추정, 스테레오 이미지/비디오 변환 및 새로운 뷰 합성 분야에서 최첨단 성능을 달성하며, 특히 부드러운 경계 영역에서 큰 향상을 보임을 입증합니다.
대규모 언어 모델(LLM)의 추론 능력은 강화 학습(RL)을 통해 극대화될 수 있다(OpenAI, 2024; DeepSeek-AI 외, 2025a; Zeng 외, 2025). 기존의 LLM에 대한 RL 시도의 성공은 일반적으로 수천 개 이상의 고품질 샘플에 의존한다. 본 논문에서는 원샷 학습의 놀라운 효과성을 입증함으로써 LLM을 위한 RL의 데이터 요구 사항에 대한 근본적인 가정에 의문을 제기한다. 구체적으로, 우리는 단 하나의 훈련 샘플로 다학제적 영향을 끌어내는 프레임워크인 폴리매스 학습(polymath learning)을 소개한다. 우리는 세 가지 핵심 발견을 제시한다: (1) 전략적으로 선별된 단일 수학 추론 샘플이 RL을 통해 물리학, 화학, 생물학 등 여러 영역에 걸쳐 상당한 성능 향상을 가져올 수 있다; (2) 추론에 중요한 수학적 스킬은 최적의 폴리매스 샘플의 특성을 시사한다; (3) 다학제적 요소를 통합한 공학적으로 합성된 샘플이 자연적으로 발생하는 개별 샘플을 사용한 훈련보다 성능이 우수하다. 우리의 접근 방식은 다양한 추론 벤치마크에서 더 큰 데이터셋을 사용한 훈련보다 우수한 성능을 달성하며, 언어 모델의 향상된 추론 능력을 개방하는 열쇠가 샘플의 양이 아닌 질과 설계에 있을 수 있음을 입증한다. 우리의 결과는 단순히 데이터 양을 늘리는 것이 아닌 훈련 샘플을 정밀하게 설계하는 방향으로의 전환, 즉 '샘플 엔지니어링(sample engineering)'의 필요성을 제시한다.
ProFuse는 3D Gaussian Splatting(3DGS)을 활용한 개방형 어휘 3D 장면 이해를 위한 효율적인 컨텍스트 인식 프레임워크입니다. 본 파이프라인은 직접 등록 설정 내에서 교차 뷰 일관성과 내부 마스크 응집성을 향상시키며, 최소한의 오버헤드만 추가하고 렌더링 기반 미세 조정이 필요하지 않습니다. 사전 학습된 3DGS 장면에 의존하는 대신, 우리는 정확한 기하학적 정보로 Gaussian을 초기화하는 조밀한 대응 관계 기반 사전 등록 단계와 교차 뷰 클러스터링을 통한 3D 컨텍스트 제안의 병합 구축을 도입합니다. 각 제안은 구성원 임베딩의 가중치 집계를 통해 얻은 전역 특징을 가지며, 이 특징은 직접 등록 과정에서 Gaussian에 융합되어 다양한 시점에서 프리미티브별 언어 일관성을 유지합니다. 연관성이 사전에 확립되기 때문에 의미론적 융합은 표준 재구성 외에 추가 최적화가 필요 없으며, 모델은 밀도화 없이도 기하학적 정제를 유지합니다. ProFuse는 강력한 개방형 어휘 3DGS 이해를 달성하면서 장면당 약 5분 내에 의미론적 부착을 완료하여 SOTA 대비 두 배 빠른 속도를 보입니다.
자기회귀(AR) 모델은 이미지 합성에서 뛰어난 성공을 거두었지만, 순차적 특성으로 인해 심각한 지연 시간 제약이 따릅니다. 스페큘레이티브 디코딩은 가속화를 위한 유망한 방안을 제시하지만, 기존 접근법은 토큰 수준의 모호성과 공간 인식 부재로 인해 한계가 있습니다. 본 연구에서는 AR 이미지 생성을 가속화하기 위해 다중 해상도 초안 생성과 공간 정보 기반 검증을 결합한 새로운 프레임워크인 다중 규모 지역 스페큘레이션 디코딩(MuLo-SD)을 소개합니다. 우리의 방법은 학습된 업샘플러와 결합된 저해상도 초안 생성기를 활용하여 후보 이미지 토큰을 제안하며, 이들은 이후 고해상도 대상 모델에 의해 병렬로 검증됩니다. 중요한 점은 첫 번째 거부 후 레스터 스캔 방식으로 재샘플링하는 대신 공간 이웃 영역에 초점을 맞춤으로써 초안 오류를 효율적으로 수정할 수 있는 지역적 거부 및 재샘플링 메커니즘을 도입했다는 것입니다. 우리는 MuLo-SD가 최대 1.7배의 상당한 속도 향상을 달성하며, 가속화 측면에서 EAGLE-2 및 LANTERN과 같은 강력한 스페큘레이션 디코딩 베이스라인을 능가하는 동시에 유사한 의미론적 정렬과 지각적 품질을 유지함을 입증합니다. 이러한 결과는 MS-COCO 5k 검증 분할에 대해 GenEval, DPG-Bench 및 FID/HPSv2를 사용하여 검증되었습니다. 광범위한 애블레이션 연구를 통해 업샘플링 설계, 확률 풀링, 그리고 이웃 확장을 통한 지역적 거부 및 재샘플링의 영향이 부각됩니다. 우리의 접근 방식은 효율성과 정확도 간의 격차를 해소하며 이미지 합성을 위한 스페큘레이션 디코딩 분야에서 새로운 최첨단 기술을 제시합니다.
대규모 언어 모델(LLM) 에이전트의 최근 발전은 주로 에이전트 내부에 자기 개선 메커니즘을 내장하거나 여러 동시 변형을 탐색하는 데 중점을 두어 왔습니다. 이러한 접근 방식은 종합 점수를 향상시킬 수 있지만, 종종 불안정하고 감사하기 어려운 개선 궤적을 초래하여 버전 간 비회귀(non-regression)를 보장하거나 실패 원인을 분석하기 어렵게 만듭니다. 우리는 에이전트 개선을 릴리스 엔지니어링의 관점으로 재정의합니다. 즉, 에이전트를 출시 가능한 결과물로 취급하고 개선 과정을 회귀 인식 릴리스 파이프라인으로 외부화합니다. 본 논문에서는 AgentDevel이라는 릴리스 엔지니어링 파이프라인을 소개합니다. 이 파이프라인은 현재 에이전트를 반복적으로 실행하고, 실행 추적에서 구현 방식과 무관한 증상 수준의 품질 신호를 생성하며, 실행 가능한 진단을 통해 단일 릴리스 후보(RC)를 합성하고, 플립 중심 게이팅(flip-centered gating) 하에 이를 승격합니다. AgentDevel은 세 가지 핵심 설계를 특징으로 합니다: (i) 에이전트 내부 구현에 접근하지 않고 실패의 외형적 특성을 파악하는 구현 방식-무관 LLM 비평가, (ii) 지배적인 증상 패턴을 집계하고 감사 가능한 엔지니어링 명세를 생성하는 스크립트 기반 실행 가능 진단, (iii) 통과에서 실패로의 회귀(Pass-to-Fail)와 실패에서 통과로의 수정(Fail-to-Pass)을 1급 증거로 우선시하는 플립 중심 게이팅. 개체군 기반 탐색이나 에이전트 내 자기 개선과 달리, AgentDevel은 단일 표준 버전 라인을 유지하며 비회귀를 주요 목표로 강조합니다. 실행 중심 벤치마크에서의 실험 결과, AgentDevel은 회귀를 현저히 줄이면서도 안정적인 개선을 달성하고 재현 가능하며 감사 가능한 결과물을 생성함을 보여줍니다. 전반적으로 AgentDevel은 LLM 에이전트를 소프트웨어 개발처럼 구축, 디버깅 및 출시하기 위한 실용적인 개발 방법론을 제공합니다.
행동 복제는 모델과 데이터 규모의 확장이 다양한 관심 과제에 강력한 출발점을 제공한다는 사실이 입증되면서 인기를 되찾고 있습니다. 본 연구에서는 소비자용 GPU에서 실시간 추론이 가능한 비디오 게임 플레이 파운데이션 모델의 공개 학습 방법론을 소개합니다. 우리는 모든 데이터(8,300시간 이상의 고품질 인간 게임 플레이), 학습 및 추론 코드, 사전 학습된 체크포인트를 오픈 라이선스로 공개합니다. 최적화된 모델이 다양한 3D 비디오 게임을 인간 수준에 버금가는 수준으로 플레이할 수 있음을 입증합니다. 또한 이 방법론을 활용하여 모델과 데이터 규모에 따른 성능 및 인과 관계 추론 능력의 변화를 체계적으로 분석합니다. 먼저 단순 토이 문제에서 특정 유형의 인과 관계 추론의 경우, 학습 데이터량과 네트워크 깊이를 동시에 증가시키면 모델이 더 인과적인 정책을 학습함을 확인합니다. 이후 12억 개 매개변수 규모의 모델까지 확장하여 매개변수 수(및 깊이)와 학습 단계에 따른 인과성 변화를 체계적으로 연구한 결과, 토이 문제에서 관찰된 것과 유사한 확장 법칙이 나타남을 발견했습니다.
비디오 확산 모델의 최근 발전은 트랜스포머 기반 아키텍처로 전환되며 최첨단 비디오 생성을 달성했지만, 2차 어텐션 복잡도로 인해 긴 시퀀스에 대한 확장성이 심각하게 제한되는 비용이 발생했습니다. 우리는 소프트맥스 어텐션의 정확도와 선형 어텐션의 효율성을 결합한 Recurrent Hybrid Attention(ReHyAt) 메커니즘을 소개합니다. 이는 청크 단위 순환 재구성과 일정한 메모리 사용을 가능하게 합니다. 동시기에 개발된 선형 전용 SANA Video와 달리, ReHyAt의 하이브리드 설계는 기존 소프트맥스 기반 모델로부터 효율적인 지식 증류를 허용하여 학습 비용을 약 160 GPU 시간으로 두 자릿수 감소시키면서도 품질 면에서 경쟁력을 유지합니다. 우리의 경량화된 증류 및 미세 조정 파이프라인은 향후 최첨단 양방향 소프트맥스 기반 모델에 적용 가능한 방법론을 제공합니다. VBench 및 VBench-2.0에서의 실험과 인간 선호도 조사를 통해 ReHyAt가 어텐션 비용을 2차에서 선형으로 줄이면서도 최첨단 비디오 품질을 달성하여 장기간 및 온디바이스 비디오 생성의 실용적인 확장성을 가능하게 함을 입증했습니다. 프로젝트 페이지는 https://qualcomm-ai-research.github.io/rehyat 에서 확인할 수 있습니다.
본 논문은 학습 시에는 이용 가능하지만 추론 시에는 이용할 수 없는 세밀한 설명 정보를 활용하기 위해, 객체 인식에 특권 정보 학습(LUPI) 패러다임을 통합하는 방안을 연구한다. 우리는 바운딩 박스 마스크, salient 맵, 깊이 정보와 같은 특권 정보를 교사-학생 구조를 통해 딥러닝 기반 객체 인식기에 주입하는 일반적이고 모델에 독립적인 방법론을 제안한다. 정확도, 일반화 성능, 계산 효율성에 미치는 영향을 평가하기 위해 5개의 최신 객체 인식 모델과 UAV 기반 쓰레기 탐지 데이터셋 및 Pascal VOC 2012를 포함한 여러 공개 벤치마크에서 실험을 수행했다. 우리의 결과는 LUPI로 학습된 학생 모델이 추론 복잡도나 모델 크기의 증가 없이 탐지 정확도에서 상당한 향상을 달성하며, 기준 모델을 지속적으로 능가함을 보여준다. 성능 향상은 중간 및 대형 객체에서 특히 두드러지며, 애블레이션 연구는 교사 지도를 중간 가중치로 적용할 때 특권 정보와 표준 입력으로부터의 학습이 최적으로 균형을 이룸을 보여준다. 이러한 결과는 LUPI 프레임워크가 자원이 제한된 환경과 실제 환경 모두에서 객체 인식 시스템을 발전시키는 효과적이고 실용적인 전략을 제공함을 확인해 준다.
확산 모델의 학습 후 정렬은 스칼라 보상이나 이진 선호도와 같은 단순화된 신호에 의존합니다. 이는 계층적이고 세분화된 복잡한 인간 전문성을 정렬하는 데 한계가 있습니다. 이를 해결하기 위해 우리는 먼저 도메인 전문가와 함께 계층적이고 세분화된 평가 기준을 구축하여 이미지 품질을 트리 구조로 조직된 다수의 긍정적 및 부정적 속성으로 분해합니다. 이를 바탕으로 두 단계 정렬 프레임워크를 제안합니다. 첫째, 지도 미세 조정을 통해 보조 확산 모델에 도메인 지식을 주입합니다. 둘째, DPO를 확장하여 비이진 계층적 기준에 대상 확산 모델을 정렬하는 복합 선호 최적화(CPO)를 도입합니다. 구체적으로, 우리는 보조 확산 모델을 사용하여 긍정적 속성의 확률은 동시에 최대화하고 부정적 속성의 확률은 최소화하도록 정렬 문제를 재정의합니다. 우리는 회화 생성 도메인에서 이 접근법을 구현하고, 우리의 기준에 기반한 세분화된 속성이 주석 처리된 회화 데이터셋으로 CPO 학습을 수행합니다. 포괄적인 실험을 통해 CPO가 생성 품질과 전문성 정렬을 크게 향상시키며, 세분화된 기준 정렬을 위한 새로운 길을 열어줌을 입증합니다.
최근 제안된 피라미드 모델은 기존의 순방향 및 역방향 확산 과정을 다양한 해상도에서 작동하는 여러 단계로 분해합니다. 이러한 모델은 더 높은 노이즈 수준을 가진 입력은 낮은 해상도에서 처리하고, 노이즈가 적은 입력은 높은 해상도에서 처리합니다. 이러한 계층적 접근 방식은 다단계 노이즈 제거 모델의 추론 계산 비용을 크게 절감합니다. 그러나 기존 오픈소스 피라미드 비디오 모델은 처음부터 학습되어 왔으며, 시각적 타당성 측면에서 최첨단 시스템에 비해 성능이 낮은 경향이 있습니다. 본 연구에서는 사전 학습된 확산 모델을 저비용 미세 조정을 통해 피라미드 모델로 변환하는 파이프라인을 제시하며, 출력 비디오의 품질 저하 없이 이 변환을 달성합니다. 더 나아가 추론 효율을 추가로 향상시키기 위해 피라미드 모델 내에서 다양한 단계 증류 전략을 탐구하고 비교합니다. 우리의 결과는 https://qualcomm-ai-research.github.io/PyramidalWan에서 확인할 수 있습니다.
본 논문에서는 제조 및 품질 검사를 위한 멀티모달 학습 발전을 위해 설계된 최초의 대규모 산업용 멀티모달 결함 데이터셋인 IMDD-1M을 소개한다. IMDD-1M은 100만 개의 정렬된 이미지-텍스트 쌍으로 구성되며, 60개 이상의 소재 범주와 400여 가지 결함 유형에 걸친 고해상도 실제 결함 데이터를 포함한다. 각 데이터에는 전문가 검증 어노테이션과 결함 위치, 심각도, 상황 속성 등을 상세히 기술한 세분화된 텍스트 설명이 제공된다. 본 데이터셋은 분류, 분할, 검색, 캡션 생성, 생성형 모델링 등 다양한 응용 분야에 활용 가능하다. IMDD-1M을 기반으로 산업 현장에 특화된 디퓨전 기반 시각-언어 파운데이션 모델을 처음부터 학습시켰다. 해당 모델은 경량 파인튜닝을 통해 특화 도메인에 효율적으로 적용 가능한 일반화된 기반으로 작동한다. 전문 모델 대비 과제별 데이터 요구량의 5% 미만으로도 유사한 성능을 달성하여, 산업 검사 및 생성을 위한 데이터 효율적 파운데이션 모델 적용의 잠재력을 입증함으로써 확장성, 도메인 적응성, 지식 기반 제조 인텔리전스 구현의 길을 열었다.
본 연구에서는 시각적으로 풍부한 문서 이해를 위해 적용된 Vision-Language 모델의 시각적 임베딩 공간을 탐구하여 분석 및 성능 향상을 도모하는 방법론인 VERSE를 소개합니다. VERSE는 잠재 표현을 시각화하여 모델의 적용 가능성 평가를 지원합니다. 또한 문제가 되는 영역 식별을 용이하게 하고, 해당 클러스터에서의 성능을 향상시키기 위한 합성 데이터 생성 방향을 제시합니다. 본 방법론은 합성 MERIT 데이터셋으로 학습하고 실제 데이터인 MERIT Secret으로 평가하여 검증하였습니다. 결과에 따르면 VERSE는 오류가 발생하기 쉬운 클러스터와 연관된 시각적 특징을 발견하는 데 도움이 되며, 이러한 특징을 포함한 샘플로 재학습을 진행하면 일반화 성능을 저하시키지 않으면서 F1 성능을 크게 향상시킬 수 있습니다. 더 나아가 Donut 및 Idefics2와 같은 온-프레미스 모델이 VERSE로 최적화될 경우, GPT-4나 Pixtral 같은 SaaS 솔루션의 성능을 따라잡거나 능가할 수 있음을 입증합니다.
사용자와의 협력 경험이 축적됨에 따라, 대화 에이전트가 사용자 선호도에 적응하는 것은 장기적 관계 구축과 협력 품질 향상을 위해 필수적입니다. 본 연구에서는 다중 세션에 걸쳐 에이전트가 사용자 선호도를 학습하고 이를 활용하여 협력 품질을 향상시키는 능력을 평가하는 벤치마크인 MultiSessionCollab를 소개합니다. 이러한 환경에서 성공적인 에이전트를 개발하기 위해, 상호작용 경험이 누적됨에 따라 사용자 선호도를 지속적으로 유지 및 정제하는 메모리를 갖춘 장기 협력 에이전트를 제안합니다. 더 나아가 MultiSessionCollab 내 사용자 시뮬레이터 행동에서 학습 신호를 도출하여 에이전트가 보다 포괄적인 성찰을 생성하고 메모리를 더 효과적으로 업데이트하도록 훈련시킬 수 있음을 보여줍니다. 광범위한 실험을 통해 메모리를 탑재한 에이전트가 장기적 협력을 개선하여 더 높은 작업 성공률, 더 효율적인 상호작용, 감소된 사용자 노력으로 이어짐을 확인했습니다. 마지막으로 실제 환경에서 메모리가 사용자 경험 향상에 도움을 준다는 것을 입증하는 인간 사용자 연구를 수행합니다.
안전 정렬된 대규모 언어 모델(LLM)을 미세 조정하면 그 안전성이 크게 훼손될 수 있다. 기존 접근법은 많은 안전 샘플 또는 보정 세트를 요구하는데, 이는 재정렬 과정에서 상당한 계산 부하를 초요할 뿐만 아니라 모델의 유용성이 현저히 저하되는 결과를 낳는다. 이러한 통념과 달리, 우리는 단 하나의 안전 예시만으로도 유용성을 희생하지 않고 최소 비용으로 안전 정렬을 완전히 회복할 수 있음을 보인다. 놀랍게도, 이러한 회복은 미세 조정에 사용된 유해 예시의 수나 기반 모델의 규모와 관계없이 효과적이며, 단 몇 에포크 내에 수렴이 달성된다. 나아가, 우리는 안전 기울기의 저차원 구조를 발견하여 왜 이처럼 효율적인 수정이 가능한지를 설명한다. 우리는 5개의 안전 정렬 LLM과 여러 데이터셋에 걸쳐 이러한 발견을 검증하여 우리 접근법의 보편성을 입증한다.
본 논문에서는 우리가 아는 한 현재 단어 수준의 타임스탬프가 포함된 공개 음성 코퍼스 중 가장 규모가 큰 LEMAS-Dataset을 소개한다. 10개 주요 언어에 걸쳐 15만 시간 이상을 포괄하는 LEMAS-Dataset은 고품질 데이터와 어노테이션을 보장하는 효율적인 데이터 처리 파이프라인을 통해 구축되었다. 다양한 생성 패러다임에서 LEMAS-Dataset의 효과를 검증하기 위해, 본 데이터셋을 기반으로 서로 다른 아키텍처와 과제 특화성을 지닌 두 가지 벤치마크 모델을 학습하였다. 비자회귀적 흐름 정합 프레임워크를 기반으로 구축된 LEMAS-TTS는 데이터셋의 대규모 특성과 언어적 다양성을 활용하여 견고한 제로샷 다국어 합성을 달성한다. 제안된 억양-적대적 학습과 CTC 손실은 언어 간 억양 문제를 완화하여 합성 안정성을 향상시킨다. 상호 보완적으로, LEMAS-Edit은 음성 편집을 마스킹된 토큰 채우기 과제로 공식화하는 자회귀 디코더 전용 아키텍처를 채택한다. 정밀한 단어 수준 정렬을 활용하여 훈련 마스크를 구성하고 적응형 디코딩 전략을 도입함으로써, 자연스러운 전환과 매끄러운 경계를 지닌 원활한 음성 편집을 실현한다. 실험 결과는 LEMAS-Dataset으로 학습된 모델이 높은 품질의 합성 및 편집 성능을 제공함을 보여주며, 이는 데이터셋의 우수한 품질을 입증한다. 우리는 이렇게 풍부한 타임스탬프 어노테이션이 달린 세분화된 다국어 코퍼스가 프롬프트 기반 음성 생성 시스템의 미래 발전을 이끌 것으로 기대한다.