번역이 포함된 일일 선별된 AI 연구 논문
우리는 Apriel-1.5-15B-Thinker를 소개합니다. 이 모델은 150억 개의 파라미터를 가진 오픈 웨이트 멀티모달 추론 모델로, 단순한 규모가 아닌 훈련 설계를 통해 최첨단 수준의 성능을 달성합니다. Pixtral-12B를 시작점으로 삼아, 우리는 점진적인 3단계 방법론을 적용했습니다: (1) 처음부터 사전 훈련을 하지 않고도 추론 능력을 확장하기 위한 깊이 확장, (2) 기초적인 텍스트 및 시각 이해를 먼저 개발한 후, 공간 구조, 구성적 이해, 세밀한 인식을 다루는 표적 합성 데이터 생성을 통해 시각 추론을 강화하는 단계적 지속 사전 훈련, 그리고 (3) 수학, 코딩, 과학, 도구 사용에 걸친 명시적 추론 흔적을 포함한 선별된 지시-응답 쌍에 대한 고품질 텍스트 전용 지도 미세 조정. 특히, 우리의 모델은 강화 학습이나 선호 최적화 없이도 경쟁력 있는 결과를 달성하여, 데이터 중심의 지속 사전 훈련 접근법의 기여를 분리해냈습니다. Artificial Analysis Intelligence Index에서 Apriel-1.5-15B-Thinker는 52점을 획득하여 DeepSeek-R1-0528과 동등한 성적을 거두었으며, 이는 상당히 적은 계산 자원을 필요로 합니다. 10개의 이미지 벤치마크에서, 이 모델의 성능은 Gemini-2.5-Flash와 Claude Sonnet-3.7과 평균적으로 5점 이내로 근접하며, 이는 단일 GPU 배포 제약 내에서 작동하는 모델로서 중요한 성과입니다. 우리의 결과는 신중한 중간 훈련 설계가 대규모 규모 없이도 상당한 능력 격차를 해결할 수 있음을 보여주며, 제한된 인프라를 가진 조직들에게도 최첨단 멀티모달 추론을 접근 가능하게 만듭니다. 우리는 오픈소스 연구를 진흥하기 위해 모델 체크포인트, 모든 훈련 레시피, 평가 프로토콜을 MIT 라이선스 하에 공개합니다.
대규모 추론 모델(LRMs)은 최종 답변을 생성하기 전에 구조화된 사고의 연쇄(CoT)를 생성함으로써 "생각"하지만, 여전히 안전 정렬에 대해 비판적으로 추론할 능력이 부족하며, 결함이 있는 전제가 사고 과정에 주입되면 쉽게 편향될 수 있습니다. 우리는 RECAP(Robust Safety Alignment via Counter-Aligned Prefilling)를 제안합니다. 이는 사후 훈련을 위한 원칙 기반 강화 학습(RL) 방법으로, 모델이 결함이 있는 추론 궤적을 재정의하고 안전하고 유용한 응답으로 재라우팅하도록 명시적으로 가르칩니다. RECAP은 합성적으로 생성된 반대 정렬 CoT 프리필과 표준 프롬프트의 혼합물로 훈련되며, 인간 피드백을 통한 일반 강화 학습(RLHF) 외에 추가적인 훈련 비용이나 수정이 필요하지 않습니다. 또한 안전성과 탈옥 방지 강건성을 크게 향상시키고, 과도한 거부를 줄이며, 핵심 추론 능력을 유지합니다. 이 모든 것이 추론 토큰 예산을 유지하면서 이루어집니다. 광범위한 분석 결과, RECAP으로 훈련된 모델은 자체 반성을 더 자주 수행하며 적응형 공격 하에서도 강건성을 유지하여, 반복적인 추론 재정의 시도 후에도 안전성을 보존합니다.
다중 모달 대형 모델(MLLM)에서 시각적 토큰은 상당한 계산 자원을 소모하여 모델의 효율성을 크게 저하시킵니다. 최근 연구들은 모델 구성 요소를 수정하거나 추가 매개변수를 도입하여 훈련 중 시각적 토큰을 압축함으로써 효율성을 개선하려고 시도했습니다. 그러나 이러한 압축으로 인해 발생하는 학습 난이도의 증가는 종종 간과되는데, 이는 모델의 매개변수 공간이 토큰 압축으로 인한 특징 공간의 상당한 변화에 빠르게 적응하기 어렵기 때문입니다. 본 연구에서는 점진적 일관성 증류(Progressive Consistency Distillation, EPIC)를 통해 효율적인 MLLM을 개발하는 점진적 학습 프레임워크를 제안합니다. 구체적으로, 토큰 압축으로 인한 특징 공간의 변화를 토큰 차원과 계층 차원으로 분해하여, 각각 토큰 일관성 증류와 계층 일관성 증류를 도입했습니다. 이를 통해 교사 모델의 지도를 활용하고 점진적 학습 경로를 따름으로써 학습 난이도를 줄이고자 합니다. 광범위한 실험을 통해 제안된 프레임워크의 우수한 효과성, 견고성 및 일반화 능력을 입증했습니다.
심층 연구는 데이터 분석을 혁신적으로 변화시켰지만, 데이터 과학자들은 여전히 자연어 질의에서 강력한 자동화의 필요성을 강조하며 시각화를 수동으로 제작하는 데 상당한 시간을 할애하고 있습니다. 그러나 현재의 시스템은 여러 파일과 반복적 정제를 포함하는 복잡한 데이터셋을 다루는 데 어려움을 겪고 있습니다. 기존의 접근 방식, 즉 단순한 단일 또는 다중 에이전트 시스템은 초기 질의 파싱에 초점을 맞추는 반면 데이터 복잡성, 코드 오류, 최종 시각화 품질을 강력하게 관리하지 못해 작업을 지나치게 단순화하는 경우가 많습니다. 본 논문에서는 이 문제를 협업적 다중 에이전트 문제로 재구성합니다. 우리는 메타데이터 분석, 작업 계획, 코드 생성, 자기 반영을 위해 전문화된 LLM 에이전트를 활용하는 다중 에이전트 시스템인 CoDA를 소개합니다. 우리는 이 파이프라인을 공식화하여 메타데이터 중심 분석이 토큰 제한을 우회하고 품질 주도 정제가 견고성을 보장하는 방법을 보여줍니다. 광범위한 평가를 통해 CoDA가 전체 점수에서 상당한 향상을 이루며 경쟁력 있는 베이스라인을 최대 41.5%까지 능가함을 입증합니다. 이 연구는 시각화 자동화의 미래가 고립된 코드 생성이 아닌 통합적이고 협업적인 에이전트 워크플로우에 있음을 보여줍니다.
대화형 음성 언어 모델(SLMs)은 실시간 음성 상호작용을 위한 유망한 패러다임으로 부상하고 있습니다. 그러나 이러한 모델의 시간적 역동성, 즉 타이밍, 템포, 동시 발화 관리 능력은 대화 유창성을 위한 중요한 평가되지 않은 과제로 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 이러한 시간적 능력을 체계적으로 평가하기 위한 프레임워크인 Game-Time 벤치마크를 소개합니다. 인간이 언어 활동을 통해 언어를 배우는 방식에서 영감을 받은 Game-Time은 기본적인 지시 수행 작업과 템포 준수 및 동기화된 응답과 같은 시간적 제약이 있는 고급 작업으로 구성됩니다. 다양한 SLM 아키텍처에 대한 평가 결과, 최첨단 모델은 기본 작업을 잘 처리하지만 많은 현대 시스템은 여전히 기본적인 지시 수행에 어려움을 겪는 것으로 나타났습니다. 더욱 중요한 것은, 거의 모든 모델이 시간적 제약 하에서 상당히 성능이 저하되어 시간 인식 및 전이중 상호작용에서 지속적인 약점이 드러났다는 점입니다. Game-Time 벤치마크는 더 시간을 잘 인식하는 대화형 AI를 향한 미래 연구를 안내하는 기반을 제공합니다. 데모와 데이터셋은 프로젝트 웹사이트 https://ga642381.github.io/Game-Time에서 확인할 수 있습니다.
최근 NVIDIA와 AMD GPU에서 지원되는 MXFP4 및 NVFP4와 같은 하드웨어 가속 마이크로스케일링 4비트 부동소수점 형식은 대규모 언어 모델(LLM) 추론에 혁신을 가져올 것으로 기대됩니다. 그러나 이러한 형식의 실질적인 이점은 아직 입증되지 않았습니다. 본 연구는 MXFP4와 NVFP4를 대상으로 한 최초의 포스트 트레이닝 양자화(PTQ) 종합 연구를 제시하며, 이들의 약속과 실제 성능 간의 격차를 밝혀냅니다. 우리의 분석에 따르면, 최신 방법들은 FP4에서 두 가지 주요 문제로 인해 어려움을 겪고 있습니다: (1) NVFP4의 작은 그룹 크기는 기존의 이상치 완화 기술을 효과적으로 무력화하며, (2) MXFP4의 2의 거듭제곱 스케일 양자화는 높은 오차로 인해 정확도를 심각하게 저하시킵니다. 이러한 격차를 해소하기 위해, 우리는 고전적인 GPTQ 양자화 알고리즘의 변형인 Micro-Rotated-GPTQ(MR-GPTQ)를 소개합니다. 이 방법은 블록 단위 Hadamard 변환과 형식별 최적화를 통해 FP4의 고유한 특성에 맞춰 양자화 프로세스를 조정합니다. 우리는 이 제안을 지원하기 위해, 가중치에 회전을 융합하고 활성화의 빠른 온라인 계산을 통해 MR-GPTQ 형식을 최소한의 오버헤드로 구현하는 고성능 GPU 커널 세트를 개발했습니다. 이를 통해 NVIDIA B200에서 FP16 대비 최대 3.6배의 레이어별 속도 향상과 2.2배의 종단 간 속도 향상을, RTX5090에서는 최대 6배의 레이어별 속도 향상과 4배의 종단 간 속도 향상을 달성했습니다. 우리의 광범위한 실험 평가는 MR-GPTQ가 최신 정확도를 유지하거나 능가하며, MXFP4의 성능을 크게 향상시켜 NVFP4에 근접한 수준으로 끌어올리는 것을 보여줍니다. 결론적으로, FP4가 INT4에 비해 자동으로 우월한 것은 아니지만, MR-GPTQ와 같은 형식 특화 방법은 정확도와 성능 간의 새로운 균형을 찾는 길을 열어줄 수 있습니다.
로봇 제어를 위한 확산 기반 모델, 특히 시각-언어-행동(VLA) 및 시각-행동(VA) 정책은 상당한 능력을 입증했습니다. 그러나 대규모 상호작용 데이터셋을 획득하는 데 드는 높은 비용으로 인해 이들의 발전이 제한되고 있습니다. 본 연구는 추가적인 모델 학습 없이 정책 성능을 향상시키는 대안적 패러다임을 제시합니다. 놀랍게도, 우리는 구성된 정책이 부모 정책 중 어느 하나의 성능을 초과할 수 있음을 보여줍니다. 우리의 기여는 세 가지입니다. 첫째, 여러 확산 모델의 분포 점수를 볼록 조합하면 단일 단계 기능적 목표에서 어떤 개별 점수보다 우수한 결과를 얻을 수 있음을 이론적으로 입증합니다. 그뢴월(Grönwall) 유형의 경계를 사용하여 이러한 단일 단계 개선이 전체 생성 궤적에 걸쳐 전파되어 시스템적 성능 향상으로 이어짐을 보입니다. 둘째, 이러한 결과에 동기를 부여받아, 우리는 사전 훈련된 여러 정책의 분포 점수를 볼록 조합과 테스트 시 탐색을 통해 결합하여 성능을 향상시키는 학습이 필요 없는 방법인 일반 정책 구성(General Policy Composition, GPC)을 제안합니다. GPC는 VA 및 VLA 모델뿐만 아니라 확산 또는 흐름 매칭 기반의 정책을 포함한 이질적인 정책의 플러그 앤 플레이 구성이 가능하며, 입력 시각 양식에 관계없이 적용할 수 있습니다. 셋째, 광범위한 실증적 검증을 제공합니다. Robomimic, PushT, RoboTwin 벤치마크에서의 실험과 실제 로봇 평가를 통해 GPC가 다양한 작업에서 일관되게 성능과 적응성을 개선함을 확인합니다. 대체 구성 연산자와 가중치 전략에 대한 추가 분석은 GPC의 성공 메커니즘에 대한 통찰을 제공합니다. 이러한 결과는 GPC가 기존 정책을 활용하여 제어 성능을 개선하는 간단하면서도 효과적인 방법임을 입증합니다.
대규모 언어 모델(LLM)의 자기 개선 분야에서의 최근 발전은 특히 인간의 노력 측면에서 비용을 크게 증가시키지 않으면서 모델의 능력을 효율적으로 향상시켰다. 이 분야는 아직 비교적 초기 단계이지만, 다중 모달 영역으로의 확장은 다양한 데이터 소스를 활용하고 보다 일반적인 자기 개선 모델을 개발할 수 있는 엄청난 잠재력을 가지고 있다. 본 조사는 다중 모달 대규모 언어 모델(MLLM)에서의 자기 개선에 대한 포괄적인 개요를 제공하는 최초의 연구이다. 우리는 현재 문헌을 구조적으로 정리하고, MLLM의 자기 개선을 더욱 발전시키기 위해 1) 데이터 수집, 2) 데이터 조직화, 3) 모델 최적화라는 세 가지 관점에서 방법론을 논의한다. 또한 일반적으로 사용되는 평가 방법과 하위 응용 프로그램을 포함시켰다. 마지막으로, 해결되지 않은 과제와 향후 연구 방향을 제시하며 결론을 맺는다.
대형 언어 모델(LLMs)의 발전은 환경과의 상호작용을 통해 자율적으로 개선되는 새로운 종류의 자기진화 에이전트를 가능하게 하여 강력한 능력을 보여주고 있다. 그러나 자기진화는 현재의 안전 연구에서 간과된 새로운 위험을 초래하기도 한다. 본 연구에서는 에이전트의 자기진화가 의도하지 않은 방향으로 이탈하여 바람직하지 않거나 심지어 해로운 결과를 초래하는 경우를 탐구한다. 이를 '미스에볼루션(Misevolution)'이라 칭한다. 체계적인 조사를 위해, 우리는 미스에볼루션을 모델, 메모리, 도구, 워크플로우라는 네 가지 주요 진화 경로를 따라 평가한다. 실증적 연구 결과에 따르면, 미스에볼루션은 최상위 LLMs(예: Gemini-2.5-Pro) 위에 구축된 에이전트에도 광범위하게 영향을 미치는 위험임이 밝혀졌다. 자기진화 과정에서 다양한 새로운 위험이 관찰되었는데, 예를 들어 메모리 누적 후 안전 정렬의 저하나 도구 생성 및 재사용 과정에서 의도치 않은 취약점의 도입 등이 있다. 우리가 아는 한, 이는 미스에볼루션을 체계적으로 개념화하고 그 발생에 대한 실증적 증거를 제공한 첫 번째 연구로, 자기진화 에이전트를 위한 새로운 안전 패러다임의 필요성을 강조한다. 마지막으로, 더 안전하고 신뢰할 수 있는 자기진화 에이전트 구축을 위한 추가 연구를 촉진할 잠재적 완화 전략에 대해 논의한다. 우리의 코드와 데이터는 https://github.com/ShaoShuai0605/Misevolution 에서 확인할 수 있다. 경고: 본 논문에는 공격적이거나 유해할 수 있는 예시가 포함되어 있다.
LLM(대형 언어 모델)은 다중 모드 데이터를 해석하는 강력한 도구로 부상했다. 의학 분야에서는 특히 대량의 임상 정보를 실행 가능한 통찰력과 디지털 헬스 애플리케이션으로 통합하는 데 큰 잠재력을 보여준다. 그러나 주요 한계점은 시계열 데이터를 처리할 수 없다는 것이다. 이 격차를 극복하기 위해, 우리는 사전 훈련된 LLM에 시계열을 기본 모드로 통합하여 임의 길이의 다중 시계열에 대한 추론을 가능하게 하는 시계열 언어 모델(TSLM) 패밀리인 OpenTSLM을 제안한다. 우리는 OpenTSLM을 위한 두 가지 아키텍처를 연구했다. 첫 번째인 OpenTSLM-SoftPrompt는 학습 가능한 시계열 토큰을 텍스트 토큰과 소프트 프롬프팅을 통해 암묵적으로 모델링한다. 이는 매개변수 효율적이지만, 명시적 시계열 모델링이 더 나은 확장성과 성능을 보일 것이라고 가정한다. 따라서 우리는 시계열과 텍스트를 교차 주의(cross-attention)를 통해 통합하는 OpenTSLM-Flamingo를 소개한다. 우리는 두 변형을 시계열을 텍스트 토큰이나 플롯으로 처리하는 베이스라인과 비교하여 텍스트-시계열 사고 연쇄(Chain-of-Thought, CoT) 추론 작업 세트에서 벤치마크를 수행했다. 우리는 HAR-CoT, Sleep-CoT, ECG-QA-CoT 세 가지 데이터셋을 소개한다. 모든 데이터셋에서 OpenTSLM 모델은 베이스라인을 능가하며, 수면 단계 분류에서 69.9 F1, HAR에서 65.4를 달성했고, 이는 텍스트 전용 모델의 9.05와 52.2에 비해 우수한 성능을 보였다. 특히, 10억 매개변수의 OpenTSLM 모델조차 GPT-4o(15.47 및 2.95)를 능가했다. OpenTSLM-Flamingo는 OpenTSLM-SoftPrompt와 성능이 비슷하며, 더 긴 시퀀스에서 더 나은 성능을 보이면서도 안정적인 메모리 요구 사항을 유지했다. 반면, SoftPrompt는 시퀀스 길이에 따라 메모리가 기하급수적으로 증가하며, ECG-QA 데이터셋에서 LLaMA-3B를 훈련할 때 약 110GB의 VRAM이 필요했던 반면, Flamingo는 40GB만 사용했다. 임상 전문가들의 리뷰에 따르면, OpenTSLM은 ECG-QA에서 강력한 추론 능력을 보였다. 추가 연구를 촉진하기 위해, 우리는 모든 코드, 데이터셋, 모델을 오픈소스로 제공한다.
희소 오토인코더(SAE)는 신경망 활성화를 인간이 해석 가능한 특징으로 희소 분해하는 기술이다. 그러나 현재의 SAE는 특화된 특징이 일반적인 특징의 사례를 포착하여 표현 공백을 생성하는 특징 흡수(feature absorption)와 독립적인 특징이 복합 표현으로 병합되는 특징 구성(feature composition) 문제를 겪고 있다. 본 연구에서는 이러한 문제를 완화하기 위해 학습된 특징 간 직교성을 강제하는 새로운 접근법인 직교 SAE(OrtSAE)를 소개한다. SAE 특징 간의 높은 코사인 유사도를 벌점화하는 새로운 훈련 절차를 구현함으로써, OrtSAE는 SAE 크기에 선형적으로 비례하면서도 상당한 계산 오버헤드를 피하며 분리된 특징의 개발을 촉진한다. 다양한 모델과 계층에 걸쳐 OrtSAE를 훈련하고 다른 방법과 비교한 결과, OrtSAE는 9% 더 많은 독특한 특징을 발견하고, 특징 흡수를 65%, 특징 구성을 15% 감소시키며, 허위 상관관계 제거에서 6% 더 나은 성능을 보였고, 기존 SAE와 비교하여 다른 다운스트림 작업에서 동등한 성능을 달성했다.
최근 확산 기반 텍스트-이미지(T2I) 모델의 발전으로 텍스트 프롬프트에서 고품질 이미지를 생성하는 데 있어 놀라운 성과를 거두었습니다. 그러나 최첨단 확산 모델의 경우 텍스트와 생성된 이미지 간의 정확한 정렬을 보장하는 것은 여전히 중요한 과제로 남아 있습니다. 이를 해결하기 위해 기존 연구들은 인간 피드백을 활용한 강화 학습(RLHF)을 사용하여 T2I 출력을 인간의 선호도와 정렬합니다. 이러한 방법들은 이미지 선호도 데이터 쌍에 직접 의존하거나 학습된 보상 함수를 필요로 하는데, 이 둘 모두 비용이 많이 들고 고품질의 인간 주석에 크게 의존하므로 확장성에 한계가 있습니다. 본 연구에서는 "무료 점심(free-lunch)" 정렬을 가능하게 하는 텍스트 선호도 최적화(Text Preference Optimization, TPO) 프레임워크를 소개합니다. TPO는 이미지 선호도 데이터 쌍 없이도 정렬을 달성할 수 있습니다. TPO는 원본 캡션을 대규모 언어 모델을 사용하여 변형시켜 생성된 불일치 프롬프트보다 일치하는 프롬프트를 선호하도록 모델을 학습시킵니다. 우리의 프레임워크는 일반적이며 기존의 선호도 기반 알고리즘과 호환됩니다. 우리는 DPO와 KTO를 우리의 설정에 맞게 확장하여 TDPO와 TKTO를 개발했습니다. 여러 벤치마크에서의 정량적 및 정성적 평가 결과, 우리의 방법은 원본 대비 일관되게 우수한 성능을 보이며 더 나은 인간 선호도 점수와 개선된 텍스트-이미지 정렬을 제공합니다. 우리의 오픈소스 코드는 https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment에서 확인할 수 있습니다.
소형 비전-언어 모델(VLMs)은 더 큰 모델에 비해 계산 효율성을 제공하지만, 일반화 능력과 다운스트림 작업 성능이 약한 단점이 있습니다. 이러한 한계는 테스트 시 스케일링 기법으로 해결할 수 있지만, 기존 방법들은 일반적으로 계산 비용이 많이 들어 소형 모델의 자원 효율적 설계 목표와 상충됩니다. 이러한 문제를 해결하기 위해, 우리는 외부 감독이 아닌 모델 내부 특징을 활용한 두 가지 새로운 효율적인 테스트 시 스케일링 전략을 제안합니다: (i) 테스트 시 증강(TTAug)은 다수의 증강된 입력을 생성하고 매개변수 업데이트 없이 토큰 수준에서 출력을 집계하며, (ii) 테스트 시 적응(TTAdapt)은 TTAug에서 생성된 합의 기반 의사 레이블을 사용하여 추론 중에 모델 매개변수를 적응시킵니다. 9개의 벤치마크에 걸친 광범위한 실험을 통해, 우리는 자원이 제한된 환경에 적합한 계산 효율성을 유지하면서도 일관된 성능 향상을 입증합니다. 우리의 접근 방식의 일반성은 추가 튜닝 없이도 다양한 규모의 모델 내부와 서로 다른 VLMs 간에서 모두 입증되었습니다.
대규모 언어 모델(LLM)의 사후 학습은 새로운 지식을 습득하거나 오류를 수정하는 데 드는 높은 비용과 재학습 과정에서 빈번히 발생하는 의도하지 않은 부작용으로 인해 제약을 받습니다. 이러한 문제를 해결하기 위해, 우리는 정확하고 저비용의 모델 업데이트를 지원하면서도 비목표 지식을 보존할 수 있는 평생 편집 프레임워크인 REPAIR(Robust Editing via Progressive Adaptive Intervention and Reintegration)를 소개합니다. REPAIR는 폐루프 피드백 메커니즘과 동적 메모리 관리를 결합하여 대규모 순차적 편집의 불안정성과 충돌을 완화합니다. 또한, 빈번한 지식 융합을 통합하고 강력한 지역성 보호를 강제함으로써, 의도하지 않은 파급 효과를 종종 간과하는 전통적인 분포-불변 접근법의 단점을 효과적으로 해결합니다. 우리의 실험 결과, REPAIR는 여러 모델 패밀리에서 편집 정확도를 10%-30% 향상시키고 지식 망각을 크게 줄이는 것으로 나타났습니다. 이 연구는 신뢰할 수 있고 확장 가능하며 지속적으로 진화하는 LLM을 개발하기 위한 견고한 프레임워크를 제시합니다.
3D 장면 재구성과 새로운 시점 합성은 최근 몇 년 동안 빠르게 발전해 왔습니다. Neural Radiance Fields(NeRF)는 연속적인 볼륨 방사 필드가 고품질 이미지 합성을 달성할 수 있음을 보여주었지만, 긴 학습 및 렌더링 시간으로 인해 실용성이 제한되었습니다. 3D Gaussian Splatting(3DGS)은 수백만 개의 가우시안으로 장면을 표현함으로써 이러한 문제를 해결하고 실시간 렌더링과 빠른 최적화를 가능하게 했습니다. 그러나 가우시안 프리미티브는 VR 헤드셋과 실시간 그래픽 애플리케이션에서 사용되는 메시 기반 파이프라인과 기본적으로 호환되지 않습니다. 기존 솔루션은 후처리나 두 단계 파이프라인을 통해 가우시안을 메시로 변환하려 시도하지만, 이는 복잡성을 증가시키고 시각적 품질을 저하시킵니다. 본 연구에서는 컴퓨터 그래픽스의 기본 프리미티브인 삼각형을 미분 가능한 스플래팅 프레임워크 내에서 직접 최적화하는 Triangle Splatting+를 소개합니다. 우리는 공유 정점을 통해 연결성을 가능하게 하는 삼각형 파라미터화를 공식화하고, 불투명 삼각형을 강제하는 학습 전략을 설계합니다. 최종 출력은 후처리 없이 표준 그래픽 엔진에서 즉시 사용할 수 있습니다. Mip-NeRF360 및 Tanks & Temples 데이터셋에서의 실험 결과, Triangle Splatting+는 메시 기반 새로운 시점 합성에서 최첨단 성능을 달성함을 보여줍니다. 우리의 방법은 시각적 충실도에서 기존 스플래팅 접근법을 능가하면서도 효율적이고 빠른 학습 속도를 유지합니다. 또한, 결과물로 생성된 반연결 메시는 물리 기반 시뮬레이션이나 인터랙티브 워크스루와 같은 다운스트림 애플리케이션을 지원합니다. 프로젝트 페이지는 https://trianglesplatting2.github.io/trianglesplatting2/에서 확인할 수 있습니다.
방대한 문헌을 일관성 있고 통찰력 있는 서술로 정리하는 학술 서베이 작성은 여전히 노동 집약적이며 지적으로 요구되는 작업이다. 최근 일반 딥리서치 에이전트와 서베이 전용 방법과 같은 접근 방식이 자동으로 서베이를 생성할 수 있지만(일명 LLM4Survey), 그 결과물은 종종 인간의 기준에 미치지 못하며, 그 결함을 철저히 드러내기 위한 엄격하고 독자 중심의 벤치마크가 부족하다. 이러한 격차를 메우기 위해, 우리는 퀴즈 기반의 세분화된 평가 프레임워크인 SurveyBench를 제안한다. 이 프레임워크는 (1) 최근 11,343편의 arXiv 논문과 이에 상응하는 4,947편의 고품질 서베이에서 도출된 전형적인 서베이 주제, (2) 개요 품질(예: 범위의 폭, 논리적 일관성), 내용 품질(예: 종합의 세분성, 통찰력의 명확성), 그리고 비텍스트적 풍부성을 평가하는 다면적 메트릭 계층 구조, 그리고 (3) 독자의 정보 요구와 명시적으로 일치하는 내용 기반 및 퀴즈 기반 응답 가능성 테스트를 포함하는 이중 모드 평가 프로토콜을 특징으로 한다. 결과는 SurveyBench가 기존 LLM4Survey 접근 방식(예: 내용 기반 평가에서 평균 21% 낮음)에 효과적으로 도전함을 보여준다.
표준 이산 확산 모델은 모든 관측되지 않은 상태를 동일하게 취급하여 이를 흡수 [MASK] 토큰으로 매핑합니다. 이는 '정보 공백'을 생성하며, 여기서 마스크되지 않은 토큰으로부터 추론될 수 있는 의미론적 정보가 노이즈 제거 단계 사이에서 손실됩니다. 우리는 Continuously Augmented Discrete Diffusion(CADD)을 소개합니다. 이 프레임워크는 이산 상태 공간을 연속 잠재 공간에서의 짝을 이루는 확산으로 보강합니다. 이를 통해 마스크된 토큰이 붕괴된 '정보 공백'이 아닌 노이즈가 있지만 정보를 담고 있는 잠재 벡터로 표현되는 점진적으로 손상된 상태를 얻을 수 있습니다. 각 역방향 단계에서 CADD는 연속 잠재 벡터를 의미론적 힌트로 활용하여 이산 노이즈 제거를 안내할 수 있습니다. 이 설계는 깔끔하며 기존의 이산 확산 학습과 호환됩니다. 샘플링 시, 연속 잠재 벡터에 대한 추정기의 강도와 선택은 모드 커버리지(다양한 출력 생성)와 모드 탐색(문맥적으로 정확한 출력 생성) 행동 사이의 균형을 제어할 수 있게 합니다. 실험적으로, 우리는 CADD가 텍스트 생성, 이미지 합성, 코드 모델링에서 마스크 기반 확산을 능가하는 생성 품질을 향상시킴을 보여줍니다. 이는 강력한 이산 기준선에 대해 질적 및 양적 지표 모두에서 일관된 개선을 보입니다.
우리는 다중 턴 강화 학습을 통해 대규모 언어 모델을 에이전트로 훈련시킬 때 실제로 효과가 있는 방법과 그렇지 않은 방법을 연구합니다. 빠른 발전에도 불구하고, 기존의 프레임워크와 정의는 단편적이며, 어떤 설계 선택이 다양한 작업에서 중요한지에 대한 체계적인 공식화나 분석이 부족합니다. 우리는 이 격차를 해소하기 위해 먼저 설계 공간을 환경, 보상, 정책이라는 세 가지 상호 연관된 기둥으로 나누고, 텍스트 기반 도메인에서 LLM 에이전트를 훈련시키기 위한 레시피를 실증적으로 도출합니다. 특히, 우리는 상황적 구체적 추론을 테스트하기 위한 인기 있는 도메인인 TextWorld와 ALFWorld, 그리고 소프트웨어 엔지니어링 스타일 작업을 위한 SWE-Gym을 테스트합니다. (i) 환경의 경우, 상태와 행동 공간의 크기 및 최적 해결책 길이 측면에서 작업 복잡성의 영향을 분석하며, 도메인 내의 단순한 환경조차도 에이전트가 더 복잡한 작업에 얼마나 잘 일반화할 수 있는지에 대한 신호를 제공할 수 있음을 발견합니다. (ii) 보상의 경우, 상대적 보상 희소성을 제거하며, 밀집된 턴 수준 보상이 훈련을 가속화하지만, 성능과 안정성은 RL 알고리즘 선택에 크게 의존함을 관찰합니다. (iii) 에이전트의 정책의 경우, 보상 희소성과 편향된 (PPO, GRPO) 및 편향되지 않은 (RLOO) 정책 경사 방법 간의 상호작용을 탐구하고, 고정된 예산 내에서 최적의 지도 미세 조정(SFT)과 RL 훈련 비율을 찾는 방법을 보여줍니다. 우리는 이러한 발견을 세 기둥 간의 공동 설계를 안내하는 훈련 레시피로 정제하여, 다중 턴 에이전트 RL 연구와 실용적 노력을 촉진합니다. 코드: https://github.com/pearls-lab/meow-tea-taro
척추 질환은 전 세계적으로 6억 1,900만 명에 영향을 미치며 장애의 주요 원인 중 하나입니다. 그러나 AI 보조 진단은 여전히 수준 인식이 가능한 다중 모드 데이터셋의 부족으로 제한되고 있습니다. 척추 질환에 대한 임상적 의사결정은 특정 척추 수준에서 X선, CT, MRI를 아우르는 정교한 추론을 필요로 합니다. 그러나 추적 가능하고 임상적으로 근거가 있는 지시 데이터와 표준화된 척추 특화 벤치마크의 부재로 인해 진전이 제한되어 왔습니다. 이를 해결하기 위해 우리는 현직 척추 외과 의사들과 공동 설계한 SpineMed 생태계를 소개합니다. 이 생태계는 450,000개 이상의 지시 인스턴스를 포함한 첫 번째 대규모 척추 수준 추론 데이터셋인 SpineMed-450k와 임상적으로 근거가 있는 평가 프레임워크인 SpineBench를 특징으로 합니다. SpineMed-450k는 교과서, 가이드라인, 공개 데이터셋 및 약 1,000건의 익명화된 병원 사례를 포함한 다양한 소스에서 선별되었으며, 고품질의 추적 가능한 데이터를 보장하기 위해 임상의가 참여한 두 단계의 대형 언어 모델(LLM) 생성 방법(초안 및 수정)을 사용하여 질문-답변, 다중 턴 상담 및 보고서 생성을 위한 데이터를 구축했습니다. SpineBench는 수준 식별, 병리 평가 및 수술 계획을 포함한 임상적으로 중요한 축에서 모델을 평가합니다. SpineBench에서 최근 발전한 여러 대형 시각-언어 모델(LVLM)을 종합적으로 평가한 결과, 세분화된 수준별 추론에서 체계적인 약점이 드러났습니다. 반면, SpineMed-450k에서 미세 조정된 우리의 모델은 모든 작업에서 일관되고 상당한 개선을 보여주었습니다. 임상의 평가는 우리 모델의 출력물이 진단 명확성과 실용적 유용성을 갖추고 있음을 확인시켜 주었습니다.
최근 대규모 언어 모델(LLM)의 발전으로 자연어 상호작용이 가능한 생성형 추천 시스템이 등장했지만, 이러한 시스템의 추천 행동은 제한적이며 메타데이터나 속성 필터링과 같은 단순하지만 중요한 구성 요소가 시스템 내에서 충분히 활용되지 못하고 있습니다. 우리는 도구 호출 기능을 갖춘 LLM 기반 음악 추천 시스템을 제안하여 통합된 검색-재순위 파이프라인으로서의 역할을 수행하고자 합니다. 우리의 시스템은 LLM을 종단 간(end-to-end) 추천 시스템으로 위치시켜 사용자 의도를 해석하고, 도구 호출을 계획하며, 특화된 구성 요소들을 조율합니다: 불린 필터(SQL), 희소 검색(BM25), 밀집 검색(임베딩 유사성), 생성형 검색(의미적 ID). 도구 계획을 통해 시스템은 사용자 선호도에 맞는 음악을 찾기 위해 어떤 유형의 도구를 사용할지, 실행 순서는 어떻게 할지, 필요한 인수는 무엇인지를 예측하며, 다양한 모달리티를 지원하면서도 여러 데이터베이스 필터링 방법을 원활하게 통합합니다. 우리는 이 통합 도구 호출 프레임워크가 사용자 쿼리에 기반해 적절한 검색 방법을 선택적으로 사용함으로써 다양한 추천 시나리오에서 경쟁력 있는 성능을 달성함을 보여주며, 대화형 음악 추천 시스템의 새로운 패러다임을 제시합니다.
GUI 그라운딩(GUI grounding), 즉 자연어 명령어를 픽셀 좌표로 매핑하는 작업은 자율 에이전트에게 필수적이지만, 현재의 시각-언어 모델(VLM)들에게는 여전히 어려운 과제로 남아 있습니다. 핵심적인 문제는 패치에서 픽셀로의 신뢰할 수 있는 매핑이며, 이는 훈련 중에 보지 못한 고해상도 디스플레이로 외삽할 때 실패합니다. 현재의 접근 방식은 시각적 특징에서 직접 텍스트 토큰으로 좌표를 생성하도록 하여, 모델이 복잡한 위치-픽셀 매핑을 암묵적으로 추론하도록 강제합니다. 그 결과, 새로운 해상도에서 정확도가 저하되고 실패가 증가합니다. 우리는 이 문제를 두 가지 상호 보완적인 혁신으로 해결합니다. 첫째, RULER 토큰은 명시적인 좌표 마커 역할을 하여, 모델이 지도상의 격자선과 유사하게 위치를 참조하고 처음부터 좌표를 생성하는 대신 조정할 수 있게 합니다. 둘째, 인터리브드 MRoPE(I-MRoPE)는 너비와 높이 차원이 동등하게 표현되도록 하여 공간 인코딩을 개선함으로써, 표준 위치 인코딩 방식의 비대칭성을 해결합니다. ScreenSpot, ScreenSpot-V2, ScreenSpot-Pro에서의 실험은 그라운딩 정확도에서 일관된 향상을 보여주며, 특히 고해상도 인터페이스에서 가장 큰 개선을 보입니다. 암묵적 학습에 의존하기보다는 명시적인 공간 지침을 제공함으로써, 우리의 접근 방식은 다양한 해상도와 플랫폼에서 더 신뢰할 수 있는 GUI 자동화를 가능하게 합니다.
대규모 언어 모델(LLM)로 구동되는 웹 에이전트는 사용자 목표를 달성하기 위해 긴 웹 페이지 관찰을 처리해야 하며, 이러한 페이지는 종종 수만 개의 토큰을 초과합니다. 이는 컨텍스트 한계를 포화시키고 계산 비용을 증가시킬 뿐만 아니라, 전체 페이지를 처리함으로써 프롬프트 주입과 같은 보안 위험에 노출됩니다. 기존의 가지치기 전략은 관련 콘텐츠를 버리거나 불필요한 컨텍스트를 유지하여 최적이 아닌 행동 예측을 초래합니다. 우리는 FocusAgent를 소개합니다. 이는 작업 목표에 따라 접근성 트리(AxTree) 관찰에서 가장 관련성 높은 줄을 추출하기 위해 경량 LLM 검색기를 활용하는 간단하지만 효과적인 접근 방식입니다. FocusAgent는 잡음과 불필요한 콘텐츠를 제거함으로써 효율적인 추론을 가능하게 하고 주입 공격에 대한 취약성을 줄입니다. WorkArena 및 WebArena 벤치마크에서의 실험은 FocusAgent가 강력한 베이스라인과 동등한 성능을 보이면서 관찰 크기를 50% 이상 줄이는 것을 보여줍니다. 또한, FocusAgent의 변형은 배너 및 팝업 공격을 포함한 프롬프트 주입 공격의 성공률을 크게 감소시키면서도 공격이 없는 환경에서의 작업 성공 성능을 유지합니다. 우리의 결과는 LLM 기반의 타겟팅된 검색이 효율적이고 효과적이며 안전한 웹 에이전트를 구축하기 위한 실용적이고 견고한 전략임을 강조합니다.
Deepseek-R1의 출시 이후, 검증 가능한 보상을 활용한 강화 학습(RLVR)은 추론 작업에 대형 언어 모델(LLM)을 훈련시키는 주요 접근법으로 자리 잡았습니다. 최근 연구는 주로 RLVR의 효율성과 효과를 높이기 위해 손실 함수를 수정하는 데 초점을 맞추어 왔습니다. 본 논문에서는 LLM의 과도한 사고(overthinking) 현상에 대한 연구를 바탕으로, 평균 응답 길이를 기반으로 각 단계에서 훈련 데이터를 동적으로 선택하는 새로운 메타-RLVR 알고리즘인 Length-aware Sampling for Policy Optimization(LSPO)을 제안합니다. 우리는 LSPO를 다양한 기본 모델과 데이터셋에 걸쳐 평가하며, 이 알고리즘이 학습 효과를 지속적으로 향상시킨다는 것을 입증합니다. 또한, 길이 신호를 동적 샘플링에 통합하는 대안적인 방법들을 검토하기 위한 상세한 어블레이션 연구를 수행함으로써 추가적인 통찰을 제공하고, 향후 연구를 위한 유망한 방향성을 제시합니다.
웹 에이전트를 대상으로 한 다중 프롬프트 인젝션 공격이 여러 차례 제안된 바 있습니다. 동시에 일반적인 프롬프트 인젝션 공격을 탐지하기 위한 다양한 방법들이 개발되었지만, 웹 에이전트를 대상으로 한 체계적인 평가는 이루어지지 않았습니다. 본 연구에서는 웹 에이전트를 대상으로 한 프롬프트 인젝션 공격 탐지에 대한 첫 번째 포괄적인 벤치마크 연구를 제시함으로써 이러한 격차를 메웁니다. 먼저, 위협 모델을 기반으로 이러한 공격을 세분화된 범주로 분류합니다. 그런 다음 악성 및 정상 샘플을 포함한 데이터셋을 구성합니다: 다양한 공격으로 생성된 악성 텍스트 세그먼트, 네 가지 범주의 정상 텍스트 세그먼트, 공격으로 생성된 악성 이미지, 그리고 두 가지 범주의 정상 이미지가 포함됩니다. 다음으로, 텍스트 기반 및 이미지 기반 탐지 방법을 체계화합니다. 마지막으로, 여러 시나리오에서 이들의 성능을 평가합니다. 주요 연구 결과에 따르면, 일부 탐지기는 명시적인 텍스트 지침이나 눈에 띄는 이미지 변형에 의존하는 공격을 중간에서 높은 정확도로 식별할 수 있지만, 명시적인 지침을 생략하거나 지각할 수 없는 변형을 사용하는 공격에는 대체로 실패합니다. 우리의 데이터셋과 코드는 https://github.com/Norrrrrrr-lyn/WAInjectBench에서 공개되었습니다.
현재 대형 언어 모델(LLM) 개발은 문제 해결과 선호도 정렬을 별도의 과제로 취급하며, 먼저 객관적 정확성을 최적화한 후 집계된 인간의 선호도에 맞추는 방식으로 진행됩니다. 이러한 패러다임은 사용자와 직접 상호작용하는 응용 프로그램에서는 문제를 올바르게 해결하더라도 응답이 사용자의 요구와 맞지 않으면 충분하지 않다는 한계를 보입니다. 이 문제는 콜드 스타트 조건이나 개인정보 보호 제약으로 인해 사전 사용자 상호작용 기록이 없는 즉각적인 시나리오에서 더욱 심화됩니다. LLM은 사용자 선호도에 대해 알지 못하는 부분을 식별하고, 전략적으로 질문을 통해 선호도 값을 도출한 후, 그에 따라 추론 과정과 응답을 조정해야 합니다. 우리는 이러한 복잡한 인지 과정을 '개인화된 추론(personalized reasoning)'이라고 명명합니다. 본 연구에서는 PREFDISCO라는 평가 방법론을 소개합니다. 이 방법론은 심리학적으로 기반을 둔 희소 선호도를 가진 페르소나를 사용하여 정적 벤치마크를 상호작용형 개인화 작업으로 변환합니다. 우리의 프레임워크는 동일한 질문에 대해 사용자 컨텍스트에 따라 다른 추론 체인이 요구되는 시나리오를 생성하며, 사실적 정확성을 유지하면서 개인의 전문성과 선호도에 따라 최적의 설명 접근 방식이 달라지는 상황을 구현합니다. 10개 작업에 걸쳐 21개의 최첨단 모델을 평가한 결과, 순진한 개인화 시도의 29.0%가 일반적인 응답보다 선호도 정렬이 더 나쁜 것으로 나타났으며, 일반적인 응답 역시 개별 사용자 요구를 효과적으로 충족시키지 못하는 것으로 확인되었습니다. 이러한 결과는 개인화된 추론이 자연스럽게 발생하기보다는 전용 개발이 필요함을 시사합니다. PREFDISCO는 개인화된 추론을 측정 가능한 연구 분야로 확립하고, 현재 LLM의 상호작용 능력에 대한 근본적인 한계를 드러냄으로써 교육, 의료, 기술 분야 등 개인화가 중요한 영역에서 개별 사용자에 적응할 수 있는 시스템 개발의 기반을 마련합니다.
보상을 활용한 이산 확산 모델(DDM) 최적화는 여전히 도전적인 과제로 남아 있습니다: 비자기회귀적 패러다임은 중요도 샘플링을 다루기 어렵게 만들고 롤아웃을 복잡하게 하여, Group Relative Policy Optimization(GRPO)와 같은 강화 학습 방법을 난해하게 만듭니다. 본 연구에서는 효과적인 중요도 샘플링과 모달리티별 적응을 통해 이산 확산에서 확장 가능한 다중모달 강화 학습을 가능하게 하는 첫 번째 실현 가능한 접근법인 MaskGRPO를 소개합니다. 이를 위해, 우리는 먼저 DDM의 이론적 기반을 명확히 하여, 그래디언트 업데이트에 유용한 토큰 변동을 포착하는 중요도 추정기를 구축할 수 있도록 했습니다. 그런 다음 시각적 시퀀스를 위한 롤아웃 방법을 세심하게 조정하여 다양한 완성과 신뢰할 수 있는 최적화 그래디언트를 얻었습니다. 수학적 추론, 코딩, 시각적 생성 벤치마크에서 MaskGRPO는 더 안정적이고 효율적인 업데이트를 제공하며, 이는 더 강력한 추론 성능과 더 나은 생성 품질로 이어졌습니다. 이 연구는 MaskGRPO를 체계적인 정책 최적화 접근법으로 확립하고, 이산화된 시각적 확산을 위한 첫 번째 실용적인 방법으로 자리매김했습니다.
경사 하강법은 수많은 기계 학습 응용 분야에서 강력하고 효과적인 최적화 기술로 입증되어 왔습니다. 최근 계산 신경과학의 발전은 표준 경사 하강법 최적화 공식이 생물학적 시스템에서의 학습과 일치하지 않음을 보여주었습니다. 이는 생물학적으로 영감을 받은 학습 기술을 구축하기 위한 흥미로운 길을 열었습니다. 그 중 하나는 학습 과정 동안 억제성 및 흥분성 시냅스가 역할을 바꾸지 않는다는 데일의 법칙(Dale's law)에서 영감을 받은 접근법입니다. 이로 인해 지수적 경사 하강법 최적화 기법이 도출되었으며, 이는 로그 정규 분포를 따르는 시냅스 가중치를 초래합니다. 흥미롭게도, 기하학적 브라운 운동(GBM)을 포함한 확률적 미분 방정식(SDE)에 해당하는 포커-플랑크 방정식을 만족하는 밀도는 로그 정규 밀도입니다. 이러한 연결을 활용하여, 우리는 기하학적 브라운 운동을 지배하는 SDE로부터 시작하고, 해당 역시간 SDE를 이산화하면 곱셈적 업데이트 규칙이 도출됨을 보입니다. 이는 놀랍게도 데일의 법칙에 기반한 지수적 경사 하강법 업데이트의 샘플링 등가물과 일치합니다. 더 나아가, 우리는 비음수 데이터에 대해 Hyvaerinen이 제안한 손실 함수를 포함하는 곱셈적 노이즈 제거 스코어 매칭을 위한 새로운 형식을 제안합니다. 실제로, 로그 정규 분포를 따르는 데이터는 양수이며, 제안된 스코어 매칭 형식은 자연스럽게 적합합니다. 이를 통해 이미지 데이터에 대한 스코어 기반 모델을 훈련할 수 있으며, 로그 정규 밀도에서 시작하는 샘플 생성을 위한 새로운 곱셈적 업데이트 기법을 도출합니다. MNIST, Fashion MNIST, Kuzushiji 데이터셋에 대한 실험 결과는 새로운 기법의 생성 능력을 입증합니다. 우리가 아는 한, 이는 기하학적 브라운 운동에 기반한 곱셈적 업데이트를 사용하는 생물학적으로 영감을 받은 생성 모델의 첫 번째 사례입니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 문서 검색과 대형 언어 모델(Large Language Models, LLMs)을 결합한 기술이다. 생성기의 규모를 확장하면 정확도가 향상되지만, 이는 비용을 증가시키고 배포 가능성을 제한한다. 우리는 대형 LLM에 대한 의존도를 줄이기 위해 검색기의 코퍼스를 확장하는 수직적인 접근 방식을 탐구한다. 실험 결과, 코퍼스 확장은 RAG의 성능을 지속적으로 강화하며, 모델 크기를 증가시키는 대안으로 자주 활용될 수 있음을 보여준다. 다만, 규모가 커질수록 수익 체감 현상이 발생한다. 소형 및 중형 생성기를 더 큰 코퍼스와 결합하면, 더 작은 코퍼스를 사용하는 훨씬 더 큰 모델과 비슷한 성능을 보이는 경우가 많다. 특히 중형 모델이 가장 큰 이점을 얻는 반면, 초소형 및 대형 모델은 상대적으로 덜 이득을 본다. 우리의 분석은 이러한 개선이 주로 답변을 포함하는 문단의 커버리지 증가에서 비롯되며, 활용 효율성은 크게 변하지 않음을 보여준다. 이러한 결과는 코퍼스와 생성기 간의 원칙적인 트레이드오프를 확립한다: 더 큰 코퍼스에 투자하는 것은 LLM 자체를 확장하는 것과 비슷한 효과를 제공하며, RAG의 성능을 강화하는 효과적인 방법이다.
생성적 비디오 모델은 텍스트-투-비디오 능력에서 인상적인 성능을 보여주며, 많은 실제 응용 분야에서 광범위한 채택을 촉진하고 있습니다. 그러나 대형 언어 모델(LLM)과 마찬가지로, 비디오 생성 모델도 사실과 다를지라도 그럴듯한 비디오를 생성하는 환각(hallucination) 현상을 보이는 경향이 있습니다. LLM의 불확실성 정량화(UQ)는 기존 연구에서 광범위하게 연구되었지만, 비디오 모델을 위한 UQ 방법은 존재하지 않아 중요한 안전 문제를 제기하고 있습니다. 우리가 아는 한, 이 논문은 비디오 모델의 불확실성을 정량화하는 첫 번째 연구를 대표합니다. 우리는 생성적 비디오 모델의 불확실성 정량화를 위한 프레임워크를 제시하며, 이는 다음과 같이 구성됩니다: (i) 엄격한 모델링 가정 없이 강력한 순위 상관 관계 추정을 기반으로 비디오 모델의 보정을 평가하기 위한 메트릭; (ii) 비디오 모델을 위한 블랙박스 UQ 방법(S-QUBED라고 명명), 이는 잠재 모델링을 활용하여 예측 불확실성을 알레토릭(aleatoric)과 에피스테믹(epistemic) 구성 요소로 엄격하게 분해합니다; 그리고 (iii) 비디오 모델의 보정 벤치마킹을 용이하게 하기 위한 UQ 데이터셋. 잠재 공간에서 생성 작업을 조건화함으로써, 우리는 모호한 작업 명세로 인해 발생하는 불확실성과 지식 부족으로 인해 발생하는 불확실성을 분리합니다. 벤치마크 비디오 데이터셋에 대한 광범위한 실험을 통해, 우리는 S-QUBED가 작업 정확도와 음의 상관 관계를 가지는 보정된 총 불확실성 추정치를 계산하며, 알레토릭과 에피스테믹 구성 요소를 효과적으로 계산함을 입증합니다.
현존하는 비디오-투-오디오(V2A) 생성 모델들은 오프라인 방식으로 동작하며, 전체 비디오 시퀀스나 프레임 청크를 사전에 사용 가능하다고 가정합니다. 이는 라이브 콘텐츠 제작 및 신흥 생성형 세계 모델과 같은 인터랙티브 애플리케이션에서의 사용을 심각하게 제한합니다. 이러한 격차를 해결하기 위해, 우리는 프레임 단위의 온라인 V2A 생성이라는 새로운 과제를 소개합니다. 이 과제에서는 모델이 미래의 비디오 프레임에 접근하지 않고도 비디오로부터 오디오를 자동회귀적으로 생성합니다. 더 나아가, 우리는 SoundReactor를 제안합니다. SoundReactor는 우리가 아는 한, 이 과제에 명시적으로 맞춰진 첫 번째 간단하면서도 효과적인 프레임워크입니다. 우리의 설계는 엔드-투-엔드 인과성을 강화하고 오디오-비주얼 동기화를 통해 프레임당 낮은 지연 시간을 목표로 합니다. 우리 모델의 백본은 연속적인 오디오 잠재 공간에 대한 디코더 전용 인과적 트랜스포머입니다. 비전 조건화를 위해, DINOv2 비전 인코더의 가장 작은 변형에서 추출된 그리드(패치) 특징을 활용하며, 이는 프레임당 단일 토큰으로 집계되어 엔드-투-엔드 인과성과 효율성을 유지합니다. 모델은 확산 사전 학습과 일관성 미세 조정을 통해 훈련되어 확산 헤드 디코딩을 가속화합니다. AAA 타이틀의 다양한 게임플레이 비디오 벤치마크에서, 우리의 모델은 의미론적 및 시간적으로 정렬된 고품질의 풀 밴드 스테레오 오디오를 성공적으로 생성하며, 이는 객관적 및 인간 평가를 통해 검증되었습니다. 더 나아가, 우리의 모델은 단일 H100을 사용하여 30FPS, 480p 비디오에서 낮은 프레임당 파형 수준의 지연 시간(헤드 NFE=1일 때 26.3ms, NFE=4일 때 31.5ms)을 달성합니다. 데모 샘플은 https://koichi-saito-sony.github.io/soundreactor/에서 확인할 수 있습니다.
확산 및 흐름 매칭 모델이 최첨단 생성 성능을 달성함에 따라, 커뮤니티의 관심은 이제 샘플 품질을 희생하지 않으면서 추론 시간을 줄이는 데로 돌아섰다. 일관성 모델(Consistency Models, CMs)은 확산 또는 확률 흐름 상미분 방정식(Probability Flow Ordinary Differential Equation, PF-ODE) 궤적에서 일관성을 유지하도록 훈련되어, 한두 단계의 흐름 또는 확산 샘플링을 가능하게 한다. 그러나 CMs는 일반적으로 경쟁력 있는 샘플 품질을 얻기 위해 큰 배치 크기로 장기간 훈련을 필요로 한다. 본 논문에서는 수렴 근처에서의 CMs 훈련 동역학을 조사하고, CM 접선(CM 출력 업데이트 방향)이 데이터 매니폴드로 향하지 않고 매니폴드와 평행하게 이동하는 등 상당히 진동적임을 발견했다. 이러한 진동적 접선을 완화하기 위해, 우리는 매니폴드 정렬 접선을 제공하는 새로운 손실 함수인 매니폴드 특징 거리(Manifold Feature Distance, MFD)를 제안한다. 결과적으로, 우리의 방법인 Align Your Tangent(AYT)은 CM 훈련을 크게 가속화할 수 있으며, 학습된 지각적 이미지 패치 유사성 메트릭(Learned Perceptual Image Patch Similarity, LPIPS)을 능가할 수도 있다. 또한, 우리의 손실 함수는 샘플 품질을 저하시키지 않으면서 극도로 작은 배치 크기로 훈련을 가능하게 한다. 코드: https://github.com/1202kbs/AYT
멀티모달 대형 언어 모델(MLLMs)은 일반적인 시각 벤치마크에서 강력한 성능을 보여주지만, 의료 영상과 같은 전문 도메인의 분포 외(OOD) 작업에서는 어려움을 겪습니다. 이러한 도메인에서는 레이블이 지정된 데이터가 제한적이고 비용이 많이 들기 때문입니다. 우리는 LEAML이라는 레이블 효율적 적응 프레임워크를 소개합니다. 이 프레임워크는 부족한 레이블이 지정된 VQA 샘플과 풍부한 레이블이 없는 이미지를 모두 활용합니다. 우리의 접근 방식은 캡션 증류로 정규화된 QA 생성기를 사용하여 레이블이 없는 데이터에 대해 도메인 관련 의사 질문-답변 쌍을 생성합니다. 특히, 우리는 질문-답변과 가장 관련이 있는 뉴런만 선택적으로 업데이트하여 QA 생성기가 증류 과정에서 도메인 특정 지식을 효율적으로 습득할 수 있도록 합니다. 위장 내시경 및 스포츠 VQA에 대한 실험 결과, LEAML은 최소한의 감독 하에서 표준 미세 조정을 지속적으로 능가하며, 제안된 LEAML 프레임워크의 효과를 입증합니다.
현대 언어 모델의 인상적인 성능 향상은 현재 파라미터 스케일링에 의존하고 있다: 더 큰 모델은 더 많은 세계 지식을 저장하고 더 나은 추론 능력을 보인다. 그러나 모든 세계 지식을 파라미터로 압축하는 것은 불필요하며, 각 프롬프트마다 사용되는 지식은 일부에 불과하고, 제한된 추론 시간 메모리와 컴퓨팅 자원을 가진 엣지 디바이스에서는 실용적이지 않다. 우리는 이러한 단점을 메모리 증강 아키텍처와 기존 하드웨어 패러다임에 맞춘 사전 학습 전략으로 해결한다. 우리는 세계 지식을 인코딩한 대규모 계층적 파라미터 메모리 뱅크에 접근하는 소형 언어 모델을 소개한다. 사전 학습과 추론 과정에서 우리는 작은, 문맥에 의존적인 메모리 블록을 가져와 모델에 추가한다. 우리의 사전 학습은 긴 꼬리 형태의 세계 지식을 메모리 파라미터에 저장하는 방법을 배우는 반면, 소형 언어 모델은 일반적인 지식과 일반적인 추론 능력을 포착하는 앵커 역할을 한다. 조 단위 토큰 규모의 실험을 통해 우리는 상당한 성능 향상을 보여준다: 160M 파라미터 모델이 4.6B 메모리 뱅크에서 가져온 18M 파라미터 메모리로 증강되었을 때, 2배 이상의 파라미터를 가진 일반 모델과 비슷한 성능을 얻는다. 광범위한 실험을 통해 우리는 트랜스포머에서 파라미터 메모리의 최적 유형과 크기를 연구하고, 이를 21B 파라미터 이상으로 스케일링한다. 우리는 제안된 계층적 피드포워드 메모리가 사전 학습 중에 추가되든 사후에 추가되든 트랜스포머 아키텍처 전반에서 견고하게 작동함을 발견한다.
소프트웨어 개발은 광범위한 단위 테스트에 크게 의존하며, 이는 자동화된 단위 테스트 생성(UTG)의 효율성을 특히 중요하게 만듭니다. 그러나 대부분의 기존 LLM(Large Language Model)은 각 순방향 패스에서 한 번에 하나의 토큰씩 테스트 케이스를 생성하므로 UTG가 비효율적입니다. 최근에는 병렬 생성 능력을 제공하며 효율적인 UTG에 강력한 잠재력을 보여주는 확산 LLM(dLLM)이 등장했습니다. 이러한 장점에도 불구하고, UTG에의 적용은 효율성과 테스트 품질 사이의 명확한 트레이드오프로 인해 여전히 제한적입니다. 각 단계에서 생성되는 토큰 수를 증가시키면 테스트 케이스의 품질이 급격히 저하되기 때문입니다. 이러한 한계를 극복하기 위해, 우리는 UTG를 위해 특별히 설계된 dLLM 가속화 프레임워크인 DiffTester를 제안합니다. DiffTester의 핵심 아이디어는 동일한 대상 메서드를 목표로 하는 단위 테스트가 종종 반복적인 구조적 패턴을 공유한다는 것입니다. 생성 과정에서 추상 구문 트리 분석을 통해 이러한 공통 패턴을 동적으로 식별함으로써, DiffTester는 출력 품질을 저하시키지 않으면서 각 단계에서 생성되는 토큰 수를 적응적으로 증가시킵니다. 포괄적인 평가를 가능하게 하기 위해, 우리는 Python에 한정되었던 원래의 TestEval 벤치마크를 Java와 C++을 포함한 추가 프로그래밍 언어로 확장했습니다. 두 가지 대표 모델을 사용한 세 가지 벤치마크에 대한 광범위한 실험 결과, DiffTester는 테스트 커버리지를 유지하면서도 상당한 가속화를 제공하는 것으로 나타났습니다. 또한, DiffTester는 다양한 dLLM과 프로그래밍 언어에 걸쳐 잘 일반화되며, 소프트웨어 개발에서 효율적인 UTG를 위한 실용적이고 확장 가능한 솔루션을 제공합니다. 코드와 데이터는 https://github.com/wellbeingyang/DLM4UTG-open 에서 공개적으로 이용 가능합니다.
자율주행에서의 위험을 이해하기 위해서는 단순한 인식과 예측뿐만 아니라, 에이전트의 행동과 상황에 대한 고차원적 추론이 필요합니다. 현재의 시각-언어 모델(VLM) 기반 방법들은 주로 정적 이미지에 기반하여 에이전트를 이해하고 질적 판단을 제공하지만, 시간에 따라 변화하는 위험을 포착하기 위한 시공간적 추론 능력이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 NuRisk라는 포괄적인 시각 질의응답(VQA) 데이터셋을 제안합니다. 이 데이터셋은 nuScenes와 Waymo의 실제 데이터를 기반으로 하며, CommonRoad 시뮬레이터의 안전-중요 시나리오를 보완하여 총 2,900개의 시나리오와 110만 개의 에이전트 수준 샘플로 구성됩니다. 이 데이터셋은 Bird-Eye-View(BEV) 기반의 순차적 이미지와 정량적, 에이전트 수준의 위험 주석을 제공하여 시공간적 추론을 가능하게 합니다. 우리는 다양한 프롬프트 기법을 통해 잘 알려진 VLM들을 벤치마킹한 결과, 이들이 명시적인 시공간적 추론을 수행하지 못해 높은 지연 시간에서 최대 33%의 정확도를 보임을 확인했습니다. 이러한 한계를 극복하기 위해, 우리가 미세 조정한 7B VLM 에이전트는 정확도를 41%로 향상시키고 지연 시간을 75% 줄여, 독점 모델들이 부족했던 명시적인 시공간적 추론 능력을 입증했습니다. 이는 중요한 진전을 나타내지만, 상대적으로 낮은 정확도는 이 과제의 심오한 난이도를 강조하며, NuRisk가 자율주행에서의 시공간적 추론 발전을 위한 중요한 벤치마크로 자리매김함을 보여줍니다.
정책 준수 평가는 입력 사례가 인간이 정의한 규칙 집합(일반적으로 정책이라고 알려진)을 엄격히 준수하는지 평가하는 기본적인 작업입니다. 실제로, 인간 전문가들은 정책에 명시된 특정 조항에 대한 위반 사항을 식별하기 위해 체계적이고 단계별 프로세스를 따릅니다. 그러나 이러한 골드 스탠더드, 전문가 수준의 추론 과정을 문서화하는 것은 비용이 많이 듭니다. 본 논문에서는 LLM(Large Language Model)의 정책 준수 평가 능력을 향상시키기 위한 추론 다리 역할을 하는 특수 생성 추론 체인인 Policy Reasoning Traces(PRT)를 소개합니다. 우리의 실험적 평가는 PRT를 추론 시점과 훈련 시점 시나리오 모두에서 사용할 경우, 오픈 웨이트 및 상용 모델의 성능을 크게 향상시키며 HIPAA와 GDPR 정책에 대한 새로운 최첨단 기술을 설정한다는 것을 보여줍니다. 정확도 향상 외에도, PRT가 LLM의 정책 조항을 정확히 인용하는 능력을 개선하고, 원시 사고 체인의 높은 활용을 통해 준수 결정에 영향을 미칠 수 있는 방법도 강조합니다.