번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLM)의 능력이 눈부시게 발전함에 따라, 다중 에이전트 시스템에 대한 탐구가 활발히 이루어지고 있으며, 이 중에서도 논쟁 프레임워크가 향상된 문제 해결을 위한 유망한 접근법으로 부상하고 있다. 다중 에이전트 논쟁(MAD) 접근법은 에이전트들이 협력적으로 주장을 제시하고, 비판하며, 개선하는 과정을 통해 단일 모델 대비 향상된 추론 능력, 견고성, 그리고 다양한 관점을 제공할 잠재력을 가지고 있다. 그러나 기존 연구들이 MAD를 활용해 왔음에도 불구하고, 특히 다양한 조건 하에서 자기 에이전트 방법과 비교했을 때 MAD의 효과에 대한 체계적인 이해는 여전히 부족한 상태이다. 본 논문은 이러한 격차를 메우기 위해 MAD를 협력적 개선과 다양한 탐색 능력을 특징으로 하는 테스트 시간 계산 확장 기법으로 개념화한다. 우리는 수학적 추론 및 안전 관련 작업에서 MAD와 강력한 자기 에이전트 테스트 시간 확장 기준선을 비교하는 포괄적인 실증적 연구를 수행한다. 본 연구는 작업 난이도, 모델 규모, 그리고 에이전트 다양성이 MAD의 성능에 미치는 영향을 체계적으로 조사한다. 주요 연구 결과에 따르면, 수학적 추론의 경우 MAD는 자기 에이전트 확장에 비해 제한된 이점을 제공하지만, 문제 난이도가 증가하고 모델 능력이 감소할수록 더 효과적이 되는 반면, 에이전트 다양성은 거의 이점을 보이지 않는다. 반대로, 안전 작업의 경우 MAD의 협력적 개선은 취약성을 증가시킬 수 있지만, 다양한 에이전트 구성을 통합함으로써 협력적 개선 과정을 통해 공격 성공률을 점진적으로 감소시킬 수 있다. 우리는 본 연구 결과가 보다 효과적이고 전략적으로 배치된 MAD 시스템의 미래 개발을 위한 중요한 지침을 제공할 것이라고 믿는다.
기존의 추론 기반 세분화 접근법들은 일반적으로 이미지-텍스트 쌍과 해당 마스크 레이블을 사용하여 다중 모달 대형 언어 모델(MLLMs)을 미세 조정합니다. 그러나 이러한 방법들은 명시적인 추론 과정 없이는 분포 외 시나리오에 대한 일반화 능력이 제한적입니다. 최근에는 그룹 상대적 정책 최적화(GRPO)를 통한 강화 학습을 활용하여 추론 능력을 향상시키려는 시도가 있었지만, 이러한 방법들은 과도한 사고(overthinking) 문제를 겪는 경우가 많습니다. 즉, 작업의 복잡성과 관계없이 일관되게 장황한 추론 체인을 생성하여 계산 비용이 증가하고 추론 품질에 대한 통제력이 제한됩니다. 이 문제를 해결하기 위해, 우리는 PixelThink을 제안합니다. 이는 강화 학습 패러다임 내에서 추론 생성을 조절하기 위해 외부적으로 추정된 작업 난이도와 내부적으로 측정된 모델 불확실성을 통합한 간단하면서도 효과적인 방식입니다. 이 모델은 장면 복잡성과 예측 신뢰도에 따라 추론 길이를 압축하는 방법을 학습합니다. 포괄적인 평가를 지원하기 위해, 우리는 주석 처리된 추론 참조와 난이도 점수가 포함된 확장된 벤치마크인 ReasonSeg-Diff와 세분화 정확도, 추론 품질, 효율성을 종합적으로 평가하기 위한 메트릭 세트를 도입했습니다. 실험 결과는 제안된 접근법이 추론 효율성과 전체 세분화 성능을 모두 개선함을 보여줍니다. 우리의 작업은 효율적이고 해석 가능한 다중 모달 이해를 위한 새로운 관점을 제공합니다. 코드와 모델은 공개될 예정입니다.
본 연구에서는 테이블 추론 작업에서의 추론 시점 스케일링을 탐구한 첫 번째 연구를 소개합니다. 우리는 추론 시점 스케일링을 가능하게 하는 두 가지 사후 학습 전략을 개발하고 평가했습니다: 프론티어 모델의 추론 흔적을 활용한 지식 증류와 검증 가능한 보상을 사용한 강화 학습(RLVR). 지식 증류를 위해, 우리는 DeepSeek-R1에 의해 생성된 대규모 추론 흔적 데이터셋을 소개하고 이를 사용하여 LLM을 Table-R1-SFT 모델로 미세 조정했습니다. RLVR의 경우, 작업별 검증 가능한 보상 함수를 제안하고 GRPO 알고리즘을 적용하여 Table-R1-Zero 모델을 얻었습니다. 우리는 Table-R1 시리즈 모델을 다양한 테이블 추론 작업(단문 질의응답, 사실 검증, 자유형 질의응답 등)에서 평가했습니다. 특히, Table-R1-Zero 모델은 GPT-4.1 및 DeepSeek-R1의 성능을 맞추거나 능가하면서도 단 7B 파라미터의 LLM만을 사용했습니다. 또한 이 모델은 도메인 외 데이터셋에 대한 강력한 일반화 능력을 보여주었습니다. 광범위한 절제 연구와 질적 분석을 통해 명령어 튜닝, 모델 아키텍처 선택, 교차 작업 일반화의 이점과 RL 훈련 중 필수적인 테이블 추론 기술의 출현을 확인했습니다.
최근 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 발전으로 2D 시각적 작업에서의 성능이 크게 향상되었습니다. 그러나 이들의 공간 지능을 개선하는 것은 여전히 과제로 남아 있습니다. 기존의 3D MLLM들은 공간 인식을 통합하기 위해 항상 추가적인 3D 또는 2.5D 데이터에 의존하며, 이는 이미지나 비디오와 같은 2D 입력만 있는 시나리오에서의 유용성을 제한합니다. 본 논문에서는 순수 2D 관찰을 기반으로 한 시각적 공간 추론을 위한 새로운 프레임워크인 Spatial-MLLM을 제안합니다. 시맨틱 이해를 위해 최적화된 CLIP 기반 시각적 인코더에 의존하는 기존의 비디오 MLLM들과 달리, 우리의 핵심 통찰은 피드포워드 시각 기하학 기반 모델에서 강력한 구조적 사전 지식을 활용하는 것입니다. 구체적으로, 우리는 시맨틱 특징을 추출하기 위해 사전 훈련된 2D 시각적 인코더와 시각 기하학 모델의 백본에서 초기화된 공간 인코더를 통해 3D 구조 특징을 추출하는 이중 인코더 아키텍처를 제안합니다. 그런 다음 커넥터가 두 특징을 통합하여 향상된 공간 이해를 위한 통합 시각 토큰을 생성합니다. 또한, 우리는 추론 시 공간적으로 유익한 비디오 시퀀스의 프레임을 선택하는 공간 인식 프레임 샘플링 전략을 제안하여, 제한된 토큰 길이에서도 모델이 공간 추론에 중요한 프레임에 집중하도록 합니다. 아키텍처 개선 외에도, 우리는 Spatial-MLLM-120k 데이터셋을 구축하고 이를 사용하여 지도 미세 조정과 GRPO를 통해 모델을 훈련시켰습니다. 다양한 실제 데이터셋에 대한 광범위한 실험을 통해 우리의 Spatial-MLLM이 다양한 시각적 공간 이해 및 추론 작업에서 최첨단 성능을 달성함을 입증했습니다. 프로젝트 페이지: https://diankun-wu.github.io/Spatial-MLLM/.
최근 강화 학습(RL)을 통해 대규모 언어 모델(LLM)의 추론 능력을 사후 학습(post-training)하는 연구는 주로 수학 문제 해결과 같이 정확히 검증하고 보상할 수 있는 과제에 초점을 맞추고 있습니다. 반면, 본 연구는 보상 모델을 사용한 LLM 사후 학습에 있어 현실 세계 시나리오에서 더 실용적인 고려 사항인 보상 노이즈의 영향을 조사합니다. 연구 결과, LLM은 상당한 보상 노이즈에 대해 강력한 견고성을 보였습니다. 예를 들어, 수학 과제에서 보상 함수 출력의 40%를 수동으로 뒤집더라도 Qwen-2.5-7B 모델은 빠른 수렴을 달성하며, 수학 과제에서의 성능을 5%에서 72%로 향상시켰는데, 이는 노이즈 없는 보상으로 학습된 모델이 달성한 75% 정확도에 근접한 수치입니다. 놀랍게도, 답변의 정확성을 검증하지 않고 단지 "먼저, 나는 ~해야 한다"와 같은 핵심 추론 구문(즉, 추론 패턴 보상, RPR)의 출현만을 보상했을 때, 모델은 엄격한 정확성 검증과 정확한 보상으로 학습된 모델과 비슷한 최고의 다운스트림 성능(Qwen-2.5-7B 기준 70% 이상의 정확도)을 달성했습니다. 최종 결과보다 추론 과정의 중요성을 인식하여, 우리는 RPR을 노이즈가 있는 보상 모델과 결합했습니다. RPR은 노이즈가 있는 보상 모델을 보정하여 잠재적인 거짓 부정(false negatives)을 완화하고, LLM의 개방형 과제에서의 성능을 향상시키는 데 도움을 주었습니다. 이러한 발견은 사전 학습 단계에서 모델의 기초 능력을 개선하는 것의 중요성을 시사하며, 사후 학습 기술을 발전시키기 위한 통찰을 제공합니다. 본 연구의 코드와 스크립트는 https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason에서 확인할 수 있습니다.
최근 MLLM(Multimodal Large Language Models)은 비디오 질문 응답 분야에서 광범위하게 연구되고 있습니다. 그러나 기존의 대부분의 평가는 자연 영상에 초점을 맞추고 있으며, AI 생성 콘텐츠(AIGC)와 같은 합성 영상을 간과하고 있습니다. 한편, 비디오 생성 분야의 일부 연구에서는 생성된 비디오의 품질을 평가하기 위해 MLLM을 활용하고 있지만, MLLM이 AIGC 비디오를 해석하는 능력은 여전히 크게 탐구되지 않고 있습니다. 이를 해결하기 위해, 우리는 AIGC 비디오에 대한 MLLM의 능력을 종합적으로 평가하기 위해 일관성 검증, 오류 인식, 오류 유형 탐지, 추론 평가 등 네 가지 작업을 도입한 새로운 벤치마크인 VF-Eval을 제안합니다. 우리는 VF-Eval에서 13개의 최신 MLLM을 평가했으며, 가장 성능이 뛰어난 모델인 GPT-4.1조차도 모든 작업에서 일관되게 좋은 성능을 내는 데 어려움을 겪는 것을 발견했습니다. 이는 우리 벤치마크의 도전적인 특성을 강조합니다. 또한, VF-Eval이 비디오 생성 개선에 대한 실용적인 응용 가능성을 조사하기 위해, 우리는 RePrompt 실험을 수행하여 MLLM을 인간의 피드백과 더 밀접하게 정렬하는 것이 비디오 생성에 도움이 될 수 있음을 입증했습니다.
대형 시각-언어 모델(VLMs)의 급속한 발전은 그래픽 사용자 인터페이스(GUI)를 인지하고 조작하여 사용자 지시를 자율적으로 수행할 수 있는 순수 시각 기반 GUI 에이전트의 개발을 촉진해 왔습니다. 그러나 기존 접근 방식은 일반적으로 오프라인 학습 프레임워크를 채택하고 있어 두 가지 핵심 한계에 직면해 있습니다: (1) 요소 그라운딩 및 행동 감독을 위한 고품질 수동 주석에 대한 과도한 의존, 그리고 (2) 동적이고 상호작용적인 환경에 대한 제한된 적응성. 이러한 한계를 해결하기 위해, 우리는 ZeroGUI를 제안합니다. ZeroGUI는 인간의 개입 없이 GUI 에이전트 훈련을 자동화할 수 있는 확장 가능한 온라인 학습 프레임워크입니다. 구체적으로, ZeroGUI는 (i) 현재 환경 상태에서 다양한 훈련 목표를 생성하기 위한 VLM 기반 자동 작업 생성, (ii) 수작업 평가 함수 없이 작업 성공을 평가하기 위한 VLM 기반 자동 보상 추정, 그리고 (iii) GUI 환경과 지속적으로 상호작용하고 학습하기 위한 두 단계의 온라인 강화 학습을 통합합니다. 두 개의 고급 GUI 에이전트(UI-TARS 및 Aguvis)에 대한 실험은 ZeroGUI가 OSWorld 및 AndroidLab 환경에서 성능을 크게 향상시킴을 보여줍니다. 코드는 https://github.com/OpenGVLab/ZeroGUI에서 확인할 수 있습니다.
확산 기반 대규모 언어 모델(Diffusion LLMs)은 병렬 디코딩 기능을 갖춘 비자기회귀적 텍스트 생성에서 유망한 가능성을 보여주고 있습니다. 그러나 오픈소스 Diffusion LLMs의 실제 추론 속도는 키-값(KV) 캐시의 부재와 동시에 여러 토큰을 디코딩할 때 발생하는 품질 저하로 인해 자기회귀 모델에 비해 뒤처지는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 양방향 확산 모델에 적합한 새로운 블록 단위 근사 KV 캐시 메커니즘을 도입하여 성능 저하를 최소화하면서 캐시 재사용을 가능하게 했습니다. 또한, 병렬 디코딩에서 생성 품질 저하의 근본 원인을 조건부 독립 가정 하에서 토큰 간 의존성이 깨지는 것으로 파악했습니다. 이를 해결하기 위해, 우리는 신뢰도 임계값을 초과하는 토큰을 선택적으로 디코딩하는 신뢰도 기반 병렬 디코딩 전략을 제안하여 의존성 위반을 완화하고 생성 품질을 유지했습니다. LLaDA 및 Dream 모델을 대상으로 한 여러 LLM 벤치마크에서의 실험 결과는 최소한의 정확도 손실로 최대 27.6배의 처리량 향상을 보여주었으며, 이는 자기회귀 모델과의 성능 격차를 줄이고 Diffusion LLMs의 실질적인 배포를 위한 길을 열어줍니다.
최근 연구에 따르면, 긴 사고의 연쇄(Chain-of-Thought, CoT) 추론이 복잡한 작업에서 대규모 언어 모델(LLM)의 성능을 크게 향상시킬 수 있음이 밝혀졌습니다. 그러나 이러한 이점은 비디오 이해 영역에서 아직 입증되지 않았는데, 이는 대부분의 기존 벤치마크가 확장된 CoT 체인의 장점을 입증하기 위해 필요한 추론 깊이를 충족하지 못하기 때문입니다. 최근 비디오 추론을 목표로 한 벤치마크가 제안되었지만, 이러한 작업들은 종종 지식 중심적이며 시각적 콘텐츠에 크게 의존하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 시각 중심의 복잡한 비디오 추론을 평가하기 위해 설계된 벤치마크인 VideoReasonBench를 소개합니다. 시각적 풍부성과 높은 추론 복잡성을 보장하기 위해, VideoReasonBench의 각 비디오는 비디오의 일부에서만 볼 수 있는 잠재 상태에 대한 세밀한 작업의 연속을 묘사합니다. 질문은 세 가지 점진적인 수준의 비디오 추론 기술을 평가합니다: 관찰된 시각적 정보를 회상하는 것, 잠재 상태의 내용을 추론하는 것, 그리고 비디오를 넘어선 정보를 예측하는 것입니다. 이러한 작업 설정 하에서, 모델은 비디오 내의 여러 작업을 정확히 회상하고, 이러한 질문에 대한 최종 정답을 얻기 위해 단계별 추론을 수행해야 합니다. VideoReasonBench를 사용하여, 우리는 18개의 최신 멀티모달 LLM(MLLM)을 포괄적으로 평가했으며, 대부분이 복잡한 비디오 추론에서 낮은 성능을 보임을 발견했습니다. 예를 들어, GPT-4o는 6.9%의 정확도를 달성한 반면, 사고가 강화된 Gemini-2.5-Pro는 56.0%의 정확도로 다른 모델들을 크게 앞섰습니다. "테스트 시간 스케일링"에 대한 우리의 조사는 확장된 사고 예산이 기존 비디오 벤치마크에서는 거의 또는 전혀 이점을 제공하지 않지만, VideoReasonBench에서의 성능 향상을 위해 필수적임을 추가로 보여줍니다.
컴퓨터 지원 설계(CAD)는 정밀하고 편집 가능한 3D 모델을 생성할 수 있도록 하여 엔지니어링 및 제조 분야에서 중심적인 역할을 합니다. 다양한 센서 또는 사용자 제공 데이터를 CAD 재구성을 위한 입력으로 사용하면 설계 애플리케이션에 대한 접근성을 민주화할 수 있습니다. 그러나 기존 방법들은 일반적으로 포인트 클라우드, 이미지 또는 텍스트와 같은 단일 입력 양식에 초점을 맞추어 일반화성과 견고성이 제한됩니다. 최근 비전-언어 모델(VLM)의 발전을 활용하여, 우리는 세 가지 입력 양식을 동시에 처리하는 다중 모달 CAD 재구성 모델을 제안합니다. 대형 언어 모델(LLM) 훈련 패러다임에서 영감을 받아, 우리는 두 단계 파이프라인을 채택합니다: 대규모 절차적 생성 데이터에 대한 지도 미세 조정(SFT)과, 프로그램적으로 얻은 온라인 피드백을 사용한 강화 학습(RL) 미세 조정입니다. 더 나아가, 우리는 CAD 작업을 위한 LLM의 RL 미세 조정을 처음으로 탐구하며, Group Relative Preference Optimization (GRPO)와 같은 온라인 RL 알고리즘이 오프라인 대안을 능가함을 입증합니다. DeepCAD 벤치마크에서, 우리의 SFT 모델은 기존의 단일 모달 접근법을 세 가지 입력 양식 모두에서 동시에 능가합니다. 더 중요한 것은, RL 미세 조정 후에 cadrille은 실제 세계 데이터셋을 포함한 세 가지 도전적인 데이터셋에서 새로운 최첨단 성능을 달성합니다.
본 논문은 이미지 확산(diffusion) 과정을 표준적인 다음 토큰 예측 방식의 단순 자기회귀(autoregressive) 절차로 재구성한 새로운 패러다임인 D-AR(Diffusion via Autoregressive models)을 소개합니다. 먼저, 이미지를 이산적 토큰 시퀀스로 변환하는 토크나이저를 설계하며, 이때 서로 다른 위치의 토큰들은 픽셀 공간에서의 서로 다른 확산 노이즈 제거 단계로 디코딩될 수 있습니다. 확산 모델의 특성 덕분에, 이러한 토큰들은 자연스럽게 coarse-to-fine(거친 것에서 세밀한 것으로) 순서를 따르며, 이는 자기회귀 모델링에 직접적으로 적용될 수 있습니다. 따라서, 우리는 이러한 토큰들에 대해 표준적인 다음 토큰 예측을 적용하며, 근본적인 설계(인과적 마스크 또는 학습/추론 전략 등)를 수정하지 않습니다. 이러한 순차적 자기회귀 토큰 생성은 이미지 공간에서의 확산 과정을 직접적으로 반영합니다. 즉, 자기회귀 모델이 토큰의 증가분을 생성하면, 이러한 토큰들을 스트리밍 방식으로 해당하는 확산 노이즈 제거 단계로 직접 디코딩할 수 있습니다. 우리의 파이프라인은 여러 흥미로운 특성을 자연스럽게 드러내는데, 예를 들어, 토큰의 일부만 생성할 때 일관된 미리보기를 지원하며, 제로샷 레이아웃 제어 합성을 가능하게 합니다. 표준 ImageNet 벤치마크에서, 우리의 방법은 775M Llama 백본과 256개의 이산적 토큰을 사용하여 2.09 FID를 달성했습니다. 우리의 연구가 특히 대규모 언어 모델을 활용한 시각적 합성의 통합 자기회귀 아키텍처에 대한 향후 연구에 영감을 줄 수 있기를 바랍니다. 코드와 모델은 https://github.com/showlab/D-AR에서 제공될 예정입니다.
우리는 보정되지 않은 이미지 컬렉션으로부터 새로운 시점 합성을 위한 피드포워드 네트워크인 AnySplat을 소개합니다. 기존의 신경 렌더링 파이프라인이 알려진 카메라 포즈와 장면별 최적화를 요구하거나, 최근의 피드포워드 방법이 밀집한 뷰의 계산 부하에 취약한 반면, 우리의 모델은 모든 것을 한 번에 예측합니다. 단일 순전파 과정으로 장면의 기하학적 구조와 외관을 모두 인코딩한 3D 가우시안 프리미티브 세트와 각 입력 이미지에 해당하는 카메라 내부 및 외부 파라미터를 생성합니다. 이 통합된 설계는 포즈 주석 없이 캐주얼하게 캡처된 다중 뷰 데이터셋에 쉽게 확장됩니다. 광범위한 제로샷 평가에서 AnySplat은 희소 및 밀집 뷰 시나리오 모두에서 포즈 인식 베이스라인의 품질을 맞추면서 기존의 포즈 없는 접근법을 능가합니다. 더욱이, 최적화 기반 신경 필드에 비해 렌더링 지연 시간을 크게 줄여 제약 없는 캡처 설정에서 실시간 새로운 시점 합성을 가능하게 합니다. 프로젝트 페이지: https://city-super.github.io/anysplat/
최근에 발전된 대규모 추론 모델(LRMs)은 긴 사고의 연쇄(CoT) 추론 능력을 통해 복잡한 과제를 해결하는 데 강력한 성능을 보여주고 있습니다. 이러한 LRMs는 주로 형식적 추론 과제에 대한 사후 학습을 통해 개발되었기 때문에, 이들이 사실 탐색 과제에서 환각 현상을 줄이는 데 도움을 줄 수 있는 추론 능력을 일반화할 수 있는지는 여전히 불명확하고 논쟁의 여지가 있습니다. 예를 들어, DeepSeek-R1은 사실 탐색 벤치마크인 SimpleQA에서 성능 향상을 보고한 반면, OpenAI-o3는 오히려 더 심각한 환각 현상을 관찰했습니다. 이러한 차이는 자연스럽게 다음과 같은 연구 질문을 제기합니다: 추론 모델이 환각 현상에 더 취약한가요? 본 논문은 이 질문을 세 가지 관점에서 다룹니다. (1) 먼저, LRMs에서의 환각 현상에 대한 종합적인 평가를 수행합니다. 우리의 분석에 따르면, LRMs가 콜드 스타트 지도 미세 조정(SFT)과 검증 가능한 보상 강화 학습(RL)을 포함한 완전한 사후 학습 파이프라인을 거치면 환각 현상이 완화되는 것으로 나타났습니다. 반면, 증류만을 사용하거나 콜드 스타트 미세 조정 없이 RL 학습을 진행하면 더 미묘한 환각 현상이 발생합니다. (2) 서로 다른 사후 학습 파이프라인이 LRMs의 환각 현상에 미치는 영향을 탐구하기 위해 행동 분석을 수행합니다. 우리는 LRM의 사실성에 직접적으로 영향을 미치는 두 가지 중요한 인지 행동을 규명했습니다: 결함 반복(Flaw Repetition), 즉 표면적 추론 시도가 동일한 근본적인 결함 논리를 반복적으로 따르는 경우, 그리고 사고-답변 불일치(Think-Answer Mismatch), 즉 최종 답변이 이전의 CoT 과정과 충실히 일치하지 않는 경우입니다. (3) 더 나아가, 모델 불확실성의 관점에서 LRMs의 환각 현상 메커니즘을 조사합니다. 우리는 LRMs의 환각 현상 증가가 일반적으로 모델 불확실성과 사실적 정확성 간의 불일치와 관련이 있음을 발견했습니다. 본 연구는 LRMs에서의 환각 현상에 대한 초기 이해를 제공합니다.
언어 모델(LMs)은 표준화된 코딩 벤치마크에서는 우수한 성능을 보이지만, SWE-Bench에서 GitHub 이슈 해결과 같은 실제 소프트웨어 엔지니어링 작업에서는 특히 모델 파라미터가 100B 미만일 때 어려움을 겪습니다. 더 작은 모델은 계산 비용이 낮아 실용적으로 선호되지만, 그들의 성능을 개선하는 것은 여전히 어려운 과제입니다. 기존 접근 방식은 주로 고품질 데이터를 사용한 지도 미세 조정(SFT)에 의존하는데, 이는 대규모로 구축하기에 비용이 많이 듭니다. 대안으로 테스트 타임 스케일링이 있습니다: 여러 출력을 생성하고 검증기를 사용해 점수를 매긴 후 최적의 것을 선택하는 방식입니다. 이 방법은 효과적이지만, 과도한 샘플링과 비용이 많이 드는 점수 매기기가 필요해 실용적 적용이 제한됩니다. 우리는 진화적 테스트 타임 스케일링(EvoScale)을 제안합니다. 이는 샘플 효율적인 방법으로, 생성을 진화 과정으로 간주합니다. 선택과 변이를 통해 출력을 반복적으로 개선함으로써, EvoScale은 출력 분포를 더 높은 점수 영역으로 이동시켜 올바른 해결책을 찾기 위해 필요한 샘플 수를 줄입니다. 반복적인 샘플링과 선택으로 인한 오버헤드를 줄이기 위해, 우리는 강화 학습(RL)을 사용해 모델이 스스로 진화하도록 훈련시킵니다. 추론 시 외부 검증기에 의존하는 대신, 모델은 반복을 거치며 자신의 생성물의 점수를 스스로 개선하는 법을 학습합니다. SWE-Bench-Verified에서 평가한 결과, EvoScale은 우리의 32B 모델인 Satori-SWE-32B가 100B 이상의 파라미터를 가진 모델의 성능을 적은 수의 샘플로도 맞추거나 능가하도록 합니다. 코드, 데이터, 모델은 완전히 오픈소스로 공개될 예정입니다.
우리는 LoRA 모델을 활용한 다중 개념 이미지 편집을 위한 첫 번째 프레임워크인 LoRAShop을 소개합니다. LoRAShop은 Flux 스타일 확산 트랜스포머 내부의 특징 상호작용 패턴에 대한 중요한 관찰에 기반을 두고 있습니다: 개념별 트랜스포머 특징은 디노이징 과정 초기에 공간적으로 일관된 영역을 활성화합니다. 우리는 이 관찰을 활용하여 사전 순방향 전달 과정에서 각 개념에 대해 분리된 잠재 마스크를 도출하고, 개인화할 개념을 둘러싼 영역 내에서만 해당 LoRA 가중치를 혼합합니다. 그 결과, 원본 장면에 여러 주제나 스타일을 자연스럽게 통합하면서도 전역적인 맥락, 조명, 세부 사항을 보존하는 편집이 가능해집니다. 우리의 실험 결과, LoRAShop이 기존 방법 대비 더 나은 정체성 보존을 제공함을 보여줍니다. 재학습과 외부 제약을 없앰으로써, LoRAShop은 개인화된 확산 모델을 실용적인 'LoRA를 활용한 포토샵' 도구로 전환하고, 구성적 시각적 스토리텔링과 신속한 창의적 반복을 위한 새로운 가능성을 열어줍니다.
트랜스포머는 시퀀스 모델링에서 가장 대중적인 백본으로 자리 잡았으며, 이는 주로 컨텍스트 내 검색 작업에서의 효과성과 대규모 학습 능력 덕분입니다. 그러나 트랜스포머의 이차 메모리 및 시간 복잡도는 더 긴 시퀀스에서의 적용 가능성을 제한하며, 이로 인해 현대적인 순환 신경망(일명 장기 순환 메모리 모듈)과 같은 효과적인 대체 아키텍처 탐구가 촉진되었습니다. 이러한 모델들이 다양한 다운스트림 작업에서 최근 성공을 거두었음에도 불구하고, 장기 컨텍스트 이해와 더 긴 시퀀스로의 외삽이 필요한 작업에서는 어려움을 겪습니다. 우리는 이러한 단점이 설계상의 세 가지 분리된 측면에서 비롯된다고 관찰했습니다: (1) 메모리 아키텍처와 입력의 특징 매핑에 의해 제한되는 메모리 용량, (2) 업데이트의 온라인 특성, 즉 마지막 입력에 대해서만 메모리를 최적화하는 방식, (3) 고정 크기 메모리의 덜 표현적인 관리. 이 세 가지 측면을 모두 개선하기 위해, 우리는 ATLAS라는 고용량 장기 메모리 모듈을 제안합니다. ATLAS는 현재 및 과거 토큰을 기반으로 메모리를 최적화하여 컨텍스트를 기억하는 방법을 학습함으로써 장기 메모리 모델의 온라인 특성을 극복합니다. 이러한 통찰을 바탕으로, 우리는 원래 트랜스포머 아키텍처의 엄격한 일반화인 DeepTransformers라는 새로운 트랜스포머 유사 아키텍처 패밀리를 제시합니다. 언어 모델링, 상식 추론, 회고 집약적 작업, 장기 컨텍스트 이해 작업에 대한 실험 결과는 ATLAS가 트랜스포머와 최근의 선형 순환 모델의 성능을 능가함을 보여줍니다. ATLAS는 Titans의 장기 컨텍스트 성능을 더욱 향상시켜, BABILong 벤치마크의 10M 컨텍스트 길이에서 +80% 정확도를 달성합니다.
Show-o와 Janus와 같은 통합 멀티모달 대규모 언어 모델은 생성 및 이해 작업 모두에서 강력한 성능을 달성했습니다. 그러나 이러한 모델은 일반적으로 대규모 데이터셋에 의존하며, 사전 학습 단계에서 상당한 계산 자원을 필요로 합니다. 또한, 여러 사후 학습 방법이 제안되었지만, 이들은 종종 외부 데이터에 의존하거나 특정 작업에 한정된 맞춤화에 그치는 경우가 많습니다. 본 연구에서는 자체 개선이 가능한 사후 학습 접근법인 UniRL을 소개합니다. 우리의 접근법은 모델이 프롬프트에서 이미지를 생성하고 이를 각 반복에서 학습 데이터로 사용할 수 있도록 하며, 외부 이미지 데이터에 의존하지 않습니다. 더 나아가, 이 두 작업이 서로를 강화할 수 있도록 합니다: 생성된 이미지는 이해 작업에 사용되고, 이해 결과는 생성 작업을 감독하는 데 사용됩니다. 우리는 지도 미세 조정(SFT)과 그룹 상대 정책 최적화(GRPO)를 통해 모델을 최적화합니다. UniRL은 세 가지 주요 장점을 제공합니다: (1) 모든 학습 샘플이 학습 중에 모델 자체에 의해 생성되므로 외부 이미지 데이터가 필요하지 않습니다; (2) 개별 작업 성능을 향상시킬 뿐만 아니라 생성과 이해 간의 불균형을 줄입니다; (3) 사후 학습 단계에서 단 몇 번의 추가 학습 단계만 필요합니다. 우리는 UniRL을 Show-o와 Janus 위에서 평가하여, Show-o의 경우 GenEval 점수 0.77, Janus의 경우 0.65를 달성했습니다. 코드와 모델은 https://github.com/showlab/UniRL에서 공개될 예정입니다.
실제 버그를 수정하기 위한 패치를 생성하는 문제 해결 작업은 대규모 언어 모델(LLM)의 능력을 평가하는 중요한 벤치마크로 부상했습니다. SWE-bench와 그 변형들이 이 분야에서 표준으로 자리 잡았지만, 몇 가지 주요 한계점이 존재합니다: 초기 릴리스 이후 업데이트가 이루어지지 않았으며, 좁은 범위의 저장소만을 다루고, 인스턴스 구성 및 환경 설정에 수작업이 크게 의존합니다. 이러한 요소들은 확장성을 저해하고 과적합 및 데이터 오염의 위험을 초래합니다. 본 연구에서는 이러한 문제를 극복하기 위해 실시간 업데이트 가능한 벤치마크인 SWE-bench-Live를 제안합니다. 초기 릴리스에는 2024년 이후 생성된 실제 GitHub 이슈에서 도출된 1,319개의 작업이 포함되어 있으며, 93개의 저장소를 아우릅니다. 각 작업은 재현 가능한 실행을 보장하기 위해 전용 Docker 이미지와 함께 제공됩니다. 우리 벤치마크의 핵심은 \method로, 인스턴스 생성부터 환경 설정까지 전체 프로세스를 간소화하는 자동화된 큐레이션 파이프라인입니다. 이를 통해 수작업 병목 현상을 제거하고 확장성과 지속적인 업데이트를 가능하게 합니다. 우리는 SWE-bench-Live에서 다양한 최신 에이전트 프레임워크와 LLM을 평가하여, SWE-bench와 같은 정적 벤치마크와 비교했을 때 상당한 성능 격차가 있음을 확인했습니다. 이러한 차이를 더 잘 이해하기 위해 저장소 출처, 이슈 최신성, 작업 난이도에 걸쳐 상세한 분석을 수행했습니다. 실시간 저장소 활동을 기반으로 한 신선하고 다양하며 실행 가능한 벤치마크를 제공함으로써, SWE-bench-Live는 동적이고 실제 소프트웨어 개발 환경에서 LLM과 에이전트의 엄격하고 오염에 강건한 평가를 가능하게 합니다.
희소 오토인코더(SAE)는 언어 모델의 은닉 상태를 해석 가능한 잠재 방향으로 분해함으로써 상당한 잠재력을 보여주었습니다. 그러나 대규모 사전 크기를 사용할 때, SAE의 학습은 여전히 어려운 과제로 남아 있습니다. 디코더는 희소성 인식 커널을 활용하여 효율성을 높일 수 있지만, 인코더는 여전히 큰 출력 차원을 가진 계산 집약적인 선형 연산을 필요로 합니다. 이를 해결하기 위해, 우리는 Kronecker 곱 분해를 통해 잠재 표현을 인수분해하는 새로운 아키텍처인 KronSAE를 제안합니다. 이는 메모리와 계산 오버헤드를 크게 줄입니다. 더 나아가, 우리는 이진 AND 연산을 근사하는 미분 가능한 활성화 함수인 mAND를 소개합니다. 이는 우리의 인수분해된 프레임워크에서 해석 가능성과 성능을 향상시킵니다.
인간 선호도, LLM-as-a-Judge(LaaJ), 보상 모델과 같은 선호 메커니즘은 대규모 언어 모델(LLMs)을 정렬하고 평가하는 데 핵심적인 역할을 합니다. 그러나 이러한 선호를 이끄는 근본적인 개념들은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 다중 도메인에 걸친 선호에 대한 지역적 및 전역적 개념 기반 설명을 자동으로 생성하는 방법을 제안합니다. 우리의 방법은 LLM을 활용하여 선택된 응답과 거부된 응답을 구분하는 개념을 식별하고, 이를 개념 기반 벡터로 표현합니다. 개념과 선호 간의 관계를 모델링하기 위해, 우리는 도메인 일반적 및 도메인 특수적 효과를 모두 포착하는 화이트박스 계층적 다중 도메인 회귀 모델을 제안합니다. 우리의 방법을 평가하기 위해, 우리는 8개의 도전적이고 다양한 도메인을 아우르는 데이터셋을 구축하고 12가지 메커니즘을 설명합니다. 우리의 방법은 강력한 선호 예측 성능을 달성하며, 기준 모델을 능가하면서도 설명 가능성을 유지합니다. 추가적으로, 우리는 두 가지 응용 중심 설정에서 설명을 평가합니다. 첫째, LaaJ 설명에서 도출된 개념으로 LLM 출력을 안내하면, 판단자들이 일관되게 선호하는 응답을 얻을 수 있습니다. 둘째, 인간의 선호를 설명하는 개념으로 LaaJ를 프롬프팅하면, 그들의 선호 예측이 개선됩니다. 종합적으로, 우리의 연구는 LLM 시대의 설명 가능성에 대한 새로운 패러다임을 확립합니다.
비디오에 내재된 시각적 텍스트는 풍부한 의미 정보를 담고 있으며, 이는 비디오 전반적 이해와 지역적 인간 행동에 대한 세밀한 추론 모두에 있어 핵심적입니다. 그러나 기존의 비디오 이해 벤치마크는 텍스트 정보를 크게 간과하고 있으며, OCR 전용 벤치마크는 정적 이미지에 한정되어 있어 텍스트와 동적 시각적 맥락 간의 상호작용을 포착하는 데 한계가 있습니다. 이러한 격차를 해소하기 위해, 우리는 비디오 텍스트 이해를 포괄적이고 심층적으로 평가하기 위한 새로운 벤치마크인 VidText를 제안합니다. VidText는 다음과 같은 주요 특징을 제공합니다: 1) 다양한 실제 시나리오를 다루고 다국어 콘텐츠를 지원하여, 비디오 텍스트가 자연스럽게 등장하는 다양한 환경을 포괄합니다. 2) 비디오 수준, 클립 수준, 인스턴스 수준의 과제로 구성된 계층적 평가 프레임워크를 도입하여, 전역적 요약 능력과 지역적 검색 능력을 모두 평가할 수 있습니다. 3) 이 벤치마크는 시각적 텍스트 인식부터 텍스트와 시각 정보 간의 크로스모달 추론에 이르는 일련의 짝을 이룬 인지 추론 과제를 도입합니다. 18개의 최신 대형 멀티모달 모델(LMM)에 대한 광범위한 실험 결과, 현재 모델들은 대부분의 과제에서 어려움을 겪으며 개선의 여지가 크다는 것이 드러났습니다. 추가 분석에서는 입력 해상도와 OCR 능력과 같은 모델 내적 요인과, 보조 정보의 사용 및 사고의 연쇄(Chain-of-Thought) 추론 전략과 같은 외적 요인의 영향이 강조되었습니다. 우리는 VidText가 현재의 비디오 이해 벤치마크 격차를 메우고, 동적 환경에서의 비디오 텍스트를 활용한 멀티모달 추론 연구의 기반이 되기를 바랍니다.
Whisper와 SeamlessM4T와 같은 음성 기반 모델(Speech Foundation Models, SFMs)의 개발은 음성 처리 분야를 크게 발전시켰습니다. 그러나 이러한 모델들은 훈련 데이터와 코드에 접근할 수 없는 폐쇄적인 특성으로 인해 재현성과 공정한 평가에 큰 어려움을 야기하고 있습니다. 다른 분야에서는 오픈소스(OS) 코드와 데이터로 훈련된 완전히 투명한 모델을 개발함으로써 개방형 과학(open science)에 상당한 진전을 이루었지만, 음성 분야에서는 이와 유사한 노력이 여전히 제한적입니다. 이러한 격차를 메우기 위해, 우리는 영어와 이탈리아어를 위한 최초의 개방형 과학 SFM 패밀리인 FAMA를 소개합니다. 이 모델은 15만 시간 이상의 오픈소스 음성 데이터로 훈련되었습니다. 또한, 우리는 두 언어에 대해 총 16,000시간의 정제 및 의사 레이블(pseudo-labeled)된 음성 데이터를 포함한 새로운 데이터셋을 제시합니다. 실험 결과, FAMA는 기존 SFM들과 비교해 경쟁력 있는 성능을 보이면서도 최대 8배 빠른 속도를 달성했습니다. 코드, 데이터셋, 모델을 포함한 모든 아티팩트는 오픈소스 호환 라이선스로 공개되어, 음성 기술 연구의 개방성을 촉진합니다.
문장 강세(Stress)는 발화 내 특정 단어에 강조를 두어 아이디어를 강조하거나 대조하거나, 새로운 정보를 도입하는 것을 의미합니다. 이는 종종 명시적으로 표현되지 않은 잠재적인 의도를 암시하기 위해 사용됩니다. 최근 음성 인식 언어 모델(Speech-aware Language Models, SLMs)의 발전으로 오디오를 직접 처리할 수 있게 되었으며, 이를 통해 모델은 전사를 생략하고 음성 신호의 풍부한 정보에 접근하여 음성 질의응답과 같은 오디오 추론 작업을 수행할 수 있게 되었습니다. 그러나 문장 강세가 의미와 화자의 의도를 형성하는 데 중요한 역할을 함에도 불구하고, 이러한 모델의 평가와 개발에서 여전히 크게 간과되고 있습니다. 본 연구에서는 이러한 격차를 해소하기 위해 StressTest라는 벤치마크를 도입하여, 모델이 강세 패턴에 기반한 음성 문장의 해석을 구별하는 능력을 평가합니다. 여러 주요 SLM의 성능을 평가한 결과, 전반적인 능력에도 불구하고 이러한 작업에서 낮은 성능을 보이는 것을 확인했습니다. 이러한 한계를 극복하기 위해, 우리는 새로운 합성 데이터 생성 파이프라인을 제안하고, 강세 변화에 따른 의미 변화를 시뮬레이션한 학습 데이터셋인 Stress17k를 생성했습니다. 그런 다음, 이 합성 데이터셋으로 모델을 최적화하는 것이 실제 녹음과 잘 맞으며 SLM의 효과적인 미세 조정을 가능하게 한다는 것을 실증적으로 보여줍니다. 결과적으로, 우리가 미세 조정한 모델인 StresSLM은 문장 강세 추론 및 탐지 작업에서 기존 모델을 크게 능가하는 성능을 보였습니다. 코드, 모델, 데이터 및 오디오 샘플은 pages.cs.huji.ac.il/adiyoss-lab/stresstest에서 확인할 수 있습니다.
안전 추론(Safety Reasoning)은 대형 언어 모델(LLM)이 응답을 생성하기 전에 안전 정책에 대해 추론함으로써, 과도한 거부(over-refusal) 및 탈옥(jailbreak) 취약점과 같은 기존 안전 조치의 한계를 완화하는 최근의 패러다임이다. 그러나 이 패러다임을 구현하는 것은 고품질의 정책 내재적 사고 연쇄(Chain-of-Thought, CoT) 데이터셋을 생성하는 데 필요한 자원 집약적 과정과 함께, 추론이 정확하고 환각(hallucination) 또는 정책 충돌로부터 자유로워야 한다는 점에서 도전적이다. 이를 해결하기 위해, 우리는 AIDSAFE(Agentic Iterative Deliberation for Safety Reasoning)를 제안한다. 이는 다중 에이전트 협의를 활용하여 안전 정책에 대한 추론을 반복적으로 확장하는 새로운 데이터 생성 방법이다. AIDSAFE의 데이터 정제 단계는 반복적, 중복적, 그리고 기만적인 사고를 제거함으로써 고품질의 출력을 보장한다. AIDSAFE로 생성된 CoT는 지도 미세 조정(Supervised Fine-Tuning, SFT) 기반의 안전 훈련을 위한 강력한 기반을 제공한다. 또한, DPO(Direct Preference Optimization) 훈련과 같은 정렬 단계에서 선호 데이터의 필요성을 해결하기 위해, 우리는 신념 증강(belief augmentation)을 사용하여 선택된 CoT 샘플과 거부된 CoT 샘플을 구별적으로 생성하는 보조 방법을 도입한다. 우리의 평가 결과, AIDSAFE로 생성된 CoT는 우수한 정책 준수 및 추론 품질을 달성함을 보여준다. 결과적으로, 이러한 CoT를 사용하여 오픈소스 LLM을 미세 조정하면 안전 일반화 및 탈옥 견고성을 크게 개선하면서도 허용 가능한 유용성과 과도한 거부 정확성을 유지할 수 있음을 보여준다. AIDSAFE로 생성된 CoT 데이터셋은 다음 링크에서 확인할 수 있다: https://huggingface.co/datasets/AmazonScience/AIDSAFE
트랜스포머와 같은 시퀀스 모델은 입력이 1차원 시퀀스로 표현되어야 합니다. 비전 분야에서는 일반적으로 고정된 행 우선(래스터 스캔) 순서를 사용하여 이미지를 평면화합니다. 완전한 자기 주의(self-attention)는 순열 등변성(permutation-equivariant)을 가지지만, 현대의 장시퀀스 트랜스포머는 점점 더 이러한 불변성을 깨고 패치 순서에 대한 민감도를 도입하는 아키텍처적 근사치에 의존하고 있습니다. 우리는 이러한 설정에서 패치 순서가 모델 성능에 상당한 영향을 미치며, 열 우선 순서나 힐베르트 곡선과 같은 간단한 대안들이 주목할 만한 정확도 변화를 가져온다는 것을 보여줍니다. 이를 바탕으로 우리는 작업에 최적화된 패치 순서를 발견하기 위한 두 단계 프레임워크인 REOrder를 제안합니다. 먼저, 다양한 패치 시퀀스의 압축 가능성을 평가하여 정보 이론적 사전 정보를 도출합니다. 그런 다음, REINFORCE를 사용하여 Plackett-Luce 정책을 최적화함으로써 순열에 대한 정책을 학습합니다. 이 접근법은 조합 순열 공간에서 효율적인 학습을 가능하게 합니다. REOrder는 ImageNet-1K에서 행 우선 순서 대비 최대 3.01%, Functional Map of the World에서는 13.35%의 상위 1 정확도 향상을 달성합니다.
정리 증명(theorem proving)은 대규모 언어 모델(LLMs)의 복잡한 추론 능력을 평가하는 주요 테스트베드 역할을 합니다. 그러나 기존의 자동화된 정리 증명(ATP) 접근법은 형식적인 증명 시스템에 크게 의존하며, 이는 LLM이 사전 학습 과정에서 습득한 비형식적 자연어 지식에서 나오는 강점과 잘 맞지 않습니다. 본 연구에서는 자연어를 활용하여 LLM의 수학적 추론을 강화하는 포괄적인 비형식적 정리 증명 프레임워크인 DeepTheorem을 제안합니다. DeepTheorem은 다양한 수학 영역에 걸친 121,000개의 고품질 IMO(국제수학올림피아드) 수준의 비형식적 정리와 증명으로 구성된 대규모 벤치마크 데이터셋을 포함하며, 이는 정확성, 난이도 및 주제 범주에 대해 엄격하게 주석 처리되었고, 체계적으로 구성된 검증 가능한 정리 변형을 동반합니다. 또한, 검증된 정리 변형을 활용하여 강력한 수학적 추론을 장려하도록 명시적으로 설계된 새로운 강화 학습 전략(RL-Zero)을 고안했습니다. 더불어, 증명의 정확성과 추론 단계의 질을 검토하는 포괄적인 결과 및 과정 평가 지표를 제안합니다. 광범위한 실험 분석을 통해 DeepTheorem이 기존 데이터셋과 지도 미세 조정 프로토콜에 비해 LLM의 정리 증명 성능을 크게 향상시키며, 최첨단의 정확도와 추론 품질을 달성함을 입증했습니다. 이러한 연구 결과는 DeepTheorem이 자동화된 비형식적 정리 증명과 수학적 탐구를 근본적으로 발전시킬 잠재력을 강조합니다.
통합 생성 모델은 단일 아키텍처와 디코딩 패러다임 내에서 텍스트 생성, 이미지 생성, 시각-언어 추론 등 다양한 모달리티의 작업을 처리하는 것을 목표로 합니다. 자기회귀적 통합 모델은 순차적 디코딩으로 인해 느린 추론 속도를 겪고 있으며, 비자기회귀적 통합 모델은 제한된 사전 학습된 백본으로 인해 약한 일반화 성능을 보입니다. 본 연구에서는 텍스트와 이미지 모달리티 모두에서 빠르고 병렬적인 생성을 가능하게 하는 통합 이산 확산 트랜스포머인 Muddit를 소개합니다. 기존의 처음부터 학습된 통합 확산 모델과 달리, Muddit는 사전 학습된 텍스트-이미지 백본에서 얻은 강력한 시각적 사전 지식을 경량 텍스트 디코더와 통합하여, 통합 아키텍처 하에서 유연하고 고품질의 다중모달 생성을 가능하게 합니다. 실험 결과는 Muddit가 훨씬 더 큰 자기회귀 모델과 비교하여 품질과 효율성 모두에서 경쟁력 있거나 우수한 성능을 달성함을 보여줍니다. 본 연구는 강력한 시각적 사전 지식이 결합된 순수 이산 확산이 통합 생성을 위한 확장 가능하고 효과적인 백본으로서의 잠재력을 강조합니다.
강화 학습 알고리즘은 대규모 언어 모델을 인간의 선호에 맞추고 그 추론 능력을 향상시키는 데 필수적입니다. 그러나 현재의 강화 학습 알고리즘은 느슨한 온-정책(on-policy) 제약으로 인해 훈련 불안정성을 겪고, 보조 모델로 인해 계산 비효율성이 발생하는 경우가 많습니다. 본 연구에서는 이러한 문제를 해결하기 위해 새로운 단순화된 강화 학습 알고리즘인 최적 보상 기준을 사용한 온-정책 강화 학습(On-Policy RL with Optimal reward baseline, OPO)을 제안합니다. OPO는 정확한 온-정책 훈련의 중요성을 강조하며, 이를 통해 훈련 과정을 안정화하고 탐색을 개선합니다. 또한, OPO는 이론적으로 그래디언트 분산을 최소화하는 최적 보상 기준을 도입합니다. 우리는 OPO를 수학적 추론 벤치마크에서 평가하였으며, 추가 모델이나 정규화 항목 없이도 우수한 성능과 훈련 안정성을 보여주는 결과를 얻었습니다. 더 나아가, OPO는 더 낮은 정책 변화와 더 높은 출력 엔트로피를 달성하여 더 다양하고 반복적이지 않은 응답을 유도합니다. 이러한 결과는 OPO가 대규모 언어 모델 정렬 및 추론 작업에서 안정적이고 효과적인 강화 학습을 위한 유망한 방향임을 보여줍니다. 구현은 https://github.com/microsoft/LMOps/tree/main/opo에서 확인할 수 있습니다.
대형 언어 모델(LLM) 에이전트의 최근 발전은 과학적 발견의 자동화를 크게 가속화했지만, 동시에 중요한 윤리적 및 안전 문제를 제기했습니다. 이러한 도전 과제를 체계적으로 해결하기 위해, 우리는 AI 주도 과학 탐구에서 안전성과 윤리적 책임을 강화하기 위해 명시적으로 설계된 혁신적인 AI 과학자 프레임워크인 SafeScientist를 소개합니다. SafeScientist는 윤리적으로 부적절하거나 고위험 작업을 사전에 거부하고 연구 과정 전반에 걸쳐 안전성을 엄격히 강조합니다. 포괄적인 안전 감독을 달성하기 위해, 우리는 프롬프트 모니터링, 에이전트 협업 모니터링, 도구 사용 모니터링 및 윤리 검토자 구성 요소를 포함한 여러 방어 메커니즘을 통합했습니다. SafeScientist를 보완하기 위해, 우리는 과학적 맥락에서 AI 안전성을 평가하기 위해 특별히 설계된 새로운 벤치마크인 SciSafetyBench를 제안합니다. 이 벤치마크는 6개 분야에 걸친 240개의 고위험 과학 작업과 30개의 특별히 설계된 과학 도구 및 120개의 도구 관련 위험 작업으로 구성됩니다. 광범위한 실험을 통해 SafeScientist가 전통적인 AI 과학자 프레임워크에 비해 안전 성능을 35% 향상시키면서도 과학적 결과의 질을 저하시키지 않음을 입증했습니다. 또한, 우리는 다양한 적대적 공격 방법에 대해 안전 파이프라인의 견고성을 엄격히 검증하여 통합 접근 방식의 효과를 추가로 확인했습니다. 코드와 데이터는 https://github.com/ulab-uiuc/SafeScientist에서 제공될 예정입니다. 경고: 이 논문은 공격적이거나 유해할 수 있는 예시 데이터를 포함하고 있습니다.
최근 월드 모델의 발전은 동적 환경 시뮬레이션에 혁신을 가져와 시스템이 미래 상태를 예측하고 잠재적 행동을 평가할 수 있게 하였습니다. 자율 주행 분야에서 이러한 기능은 차량이 다른 도로 사용자의 행동을 예측하고, 위험 인식 계획을 수행하며, 시뮬레이션에서의 훈련 속도를 가속화하고, 새로운 시나리오에 적응함으로써 안전성과 신뢰성을 향상시킵니다. 현재의 접근법들은 강력한 3D 기하학적 일관성을 유지하거나 가림 처리 과정에서 아티팩트가 누적되는 데 있어 결함을 보이며, 이는 자율 주행 작업에서 신뢰할 수 있는 안전 평가에 중요한 요소입니다. 이를 해결하기 위해, 우리는 GeoDrive를 소개합니다. 이는 강력한 3D 기하학적 조건을 주행 월드 모델에 명시적으로 통합하여 공간 이해와 행동 제어 가능성을 향상시킵니다. 구체적으로, 우리는 먼저 입력 프레임에서 3D 표현을 추출한 후 사용자 지정 자동차 궤적에 기반하여 2D 렌더링을 얻습니다. 동적 모델링을 가능하게 하기 위해, 우리는 훈련 중에 차량의 위치를 편집하여 렌더링을 강화하는 동적 편집 모듈을 제안합니다. 광범위한 실험을 통해 우리의 방법이 행동 정확도와 3D 공간 인식 모두에서 기존 모델을 크게 능가하며, 더 현실적이고 적응 가능하며 신뢰할 수 있는 장면 모델링을 통해 더 안전한 자율 주행을 이끌어냄을 입증했습니다. 또한, 우리의 모델은 새로운 궤적에 일반화될 수 있으며, 객체 편집 및 객체 궤적 제어와 같은 인터랙티브 장면 편집 기능을 제공합니다.
사고의 연쇄(Chain-of-thought, CoT) 추론은 대규모 언어 모델(LLMs)이 빠른 System-1 응답을 넘어 숙고적인 System-2 추론을 수행할 수 있도록 합니다. 그러나 이는 장황한 중간 출력으로 인해 상당한 비효율성을 초래합니다. 최근의 잠재 공간(latent-space) 추론 방법은 언어로 디코딩하지 않고 숨겨진 상태에서 작동함으로써 효율성을 개선하지만, 모든 단계를 균일하게 처리하여 중요한 추론과 보조 단계를 구분하지 못하고, 이로 인해 계산 자원의 최적 사용이 이루어지지 않습니다. 본 논문에서는 잠재 공간 내의 단축 경로를 통해 추론 단계 전반에 걸쳐 계산을 동적으로 할당하는 적응형 추론 프레임워크인 System-1.5 Reasoning을 제안합니다. 구체적으로, System-1.5 Reasoning은 두 가지 유형의 동적 단축 경로를 도입합니다. 모델 깊이 단축 경로(DS)는 경량 어댑터 분기를 통해 비중요 토큰을 조기에 종료함으로써 수직 깊이를 따라 적응적으로 추론하는 동시에, 중요한 토큰이 더 깊은 Transformer 층을 통해 계속 진행하도록 합니다. 단계 단축 경로(SS)는 디코딩 단계 전반에 걸쳐 숨겨진 상태를 재사용하여 사소한 단계를 건너뛰고 잠재 공간에서 수평적으로 추론합니다. System-1.5 Reasoning의 학습은 두 단계의 자기 증류(self-distillation) 과정을 포함합니다: 먼저 자연어 CoT를 잠재 공간의 연속적 사고로 증류한 다음, 전체 경로 System-2 잠재 추론을 적응형 단축 경로(System-1.5 Reasoning)로 증류합니다. 추론 작업에 대한 실험은 본 방법의 우수한 성능을 입증합니다. 예를 들어, GSM8K에서 System-1.5 Reasoning은 기존 CoT 미세 조정 방법과 비슷한 추론 성능을 달성하면서도 추론 속도를 20배 이상 가속화하고 토큰 생성을 평균 92.31% 감소시켰습니다.
의사-환자 상담은 다양한 환자 프로필에 맞춘 다중 턴의 맥락 인식 커뮤니케이션을 요구합니다. 이러한 환경에서 의사용 대형 언어 모델(LLM)을 훈련하거나 평가하려면 현실적인 환자 상호작용 시스템이 필요합니다. 그러나 기존 시뮬레이터는 임상 현장에서 볼 수 있는 다양한 프로필을 충분히 반영하지 못하는 경우가 많습니다. 이를 해결하기 위해, 우리는 임상 시나리오에 맞춘 현실적이고 다양한 환자 프로필을 생성하는 환자 시뮬레이터인 PatientSim을 소개합니다. PatientSim은 1) MIMIC-ED 및 MIMIC-IV 데이터셋의 실제 데이터에서 도출된 증상 및 병력과 같은 임상 프로필과, 2) 성격, 언어 능력, 병력 기억 수준, 인지 혼란 수준이라는 네 가지 축으로 정의된 프로필을 사용하여 37가지 고유한 조합을 생성합니다. 우리는 팩트 정확도와 프로필 일관성을 기준으로 8개의 LLM을 평가했습니다. 최고 성능을 보인 오픈소스 모델인 Llama 3.3은 네 명의 임상의에게 검증을 받아 프레임워크의 견고성을 확인했습니다. 오픈소스이자 사용자 정의 가능한 플랫폼인 PatientSim은 특정 훈련 요구에 맞게 조정할 수 있는 재현 가능하고 확장 가능한 솔루션을 제공합니다. 개인정보 보호 규정을 준수하는 환경을 제공함으로써, 다양한 환자 상황에서 의료 대화 시스템을 평가할 수 있는 강력한 테스트베드 역할을 하며, 의료 교육 도구로서도 유망한 가능성을 보여줍니다.
Transformer 기반의 대규모 언어 모델(LLMs)은 추론 과정에서 컨텍스트를 키-값(KV) 쌍으로 캐싱합니다. 컨텍스트 길이가 증가함에 따라 KV 캐시 크기도 확장되어, 상당한 메모리 오버헤드와 증가된 어텐션 지연 시간을 초래합니다. 본 논문에서는 다양한 쿼리에서 압축된 KV 캐시를 효과적으로 재사용할 수 있는 쿼리-불특정 KV 캐시 제거 방법인 KVzip을 소개합니다. KVzip은 기본 LLM을 사용하여 캐시된 KV 쌍에서 원래 컨텍스트를 재구성함으로써 KV 쌍의 중요도를 정량화하고, 이에 따라 중요도가 낮은 쌍을 제거합니다. 광범위한 실험 평가를 통해 KVzip이 KV 캐시 크기를 3-4배 감소시키고 FlashAttention 디코딩 지연 시간을 약 2배 단축시키며, 질문 응답, 검색, 추론 및 코드 이해 작업에서의 성능 손실이 미미함을 입증했습니다. 평가에는 LLaMA3.1-8B, Qwen2.5-14B, Gemma3-12B 등 다양한 모델이 포함되었으며, 컨텍스트 길이는 최대 170K 토큰에 달했습니다. KVzip은 다중 쿼리 시나리오에서 90% 캐시 예산 비율에서도 성능 저하를 겪는 기존의 쿼리-인식 KV 제거 방법을 크게 능가합니다.
디퓨전 모델은 뛰어난 생성 품질을 보여주지만, 이를 위해서는 수많은 함수 평가가 필요하다는 단점이 있습니다. 최근에는 제한된 샘플링 단계에서 역디퓨전 문제를 해결하기 위한 상당한 계산 요구를 완화하기 위해 고급 ODE 기반 솔버가 개발되었습니다. 그러나 Adams류의 다단계 방법에서 크게 영감을 받은 이러한 솔버들은 시간(t) 관련 라그랑주 보간에만 의존하고 있습니다. 우리는 시간 관련 라그랑주 보간이 디퓨전 모델에 최적이 아니라는 것을 보여주고, 시간 단계와 솔버 계수로 구성된 간결한 탐색 공간을 제시합니다. 이 분석을 바탕으로, 우리는 더 최적의 솔버를 식별하기 위한 새로운 미분 가능한 솔버 탐색 알고리즘을 제안합니다. 탐색된 솔버를 장착한 Rectified-Flow 모델들, 예를 들어 SiT-XL/2와 FlowDCN-XL/2는 ImageNet256에서 단 10단계만으로 각각 2.40과 2.35의 FID 점수를 달성합니다. 동시에 DDPM 모델인 DiT-XL/2도 단 10단계만으로 2.33의 FID 점수에 도달합니다. 특히, 우리가 탐색한 솔버는 기존 솔버들을 상당한 차이로 능가합니다. 더욱이, 우리의 솔버는 다양한 모델 아키텍처, 해상도 및 모델 크기에 걸쳐 일반성을 보여줍니다.
기존의 비디오 이해 벤치마크는 종종 지식 기반 질문과 순수 이미지 기반 질문을 혼동하여, 비디오 이해를 다른 모달리티와 구별하는 핵심 요소인 모델의 시간적 추론 능력을 명확히 분리하지 못합니다. 우리는 더 높은 점수가 진정으로 비디오의 동적 콘텐츠에 대한 강한 이해를 나타내는지 모호하게 만드는 두 가지 주요 한계를 확인했습니다: (1) 강력한 언어 사전 지식으로, 모델이 비디오를 보지 않고도 질문에 답할 수 있는 경우; (2) 셔플링 불변성으로, 비디오 프레임이 시간적으로 섞여 있어도 특정 질문에 대해 모델이 유사한 성능을 유지하는 경우. 이러한 문제를 완화하기 위해, 우리는 VBenchComp를 제안합니다. 이는 질문을 다양한 영역으로 분류하는 자동화된 파이프라인으로, LLM-응답 가능, 의미론적, 시간적 영역으로 구분합니다. 구체적으로, LLM-응답 가능 질문은 비디오를 보지 않고도 답할 수 있는 질문이며, 의미론적 질문은 비디오 프레임이 섞여 있어도 답할 수 있는 질문이고, 시간적 질문은 프레임의 올바른 시간적 순서를 이해해야 하는 질문입니다. 나머지 질문은 기타로 분류됩니다. 이를 통해 비디오 LLM의 다양한 능력을 세밀하게 평가할 수 있습니다. 우리의 분석은 전통적인 전체 점수로는 드러나지 않는 모델의 미묘한 약점을 밝혀내며, 비디오 LLM을 더 정확하게 평가할 수 있는 향후 벤치마크 설계를 위한 통찰과 권장 사항을 제공합니다.
비디오 생성은 딥 생성 모델, 특히 확산 기반 접근법의 등장으로 상당한 진전을 이루었습니다. 그러나 다중 참조 대상 기반의 비디오 생성은 여전히 다중 대상 일관성 유지와 높은 생성 품질 보장에서 상당한 어려움에 직면해 있습니다. 본 논문에서는 다양한 참조 이미지와 텍스트 프롬프트를 조건으로 하여 일관된 다중 대상 비디오 합성을 가능하게 하는 마스크 가이던스를 도입한 통합 프레임워크인 MAGREF를 제안합니다. 구체적으로, 우리는 (1) 단일 모델이 아키텍처 변경 없이 인간, 객체, 배경을 포함한 다양한 대상 추론을 유연하게 처리할 수 있는 지역 인식 동적 마스킹 메커니즘과 (2) 채널 차원에서 작동하여 외형 특징을 더 잘 보존하는 픽셀 단위 채널 연결 메커니즘을 제안합니다. 우리의 모델은 단일 대상 훈련에서 복잡한 다중 대상 시나리오로 일반화되며, 일관된 합성과 개별 대상에 대한 정밀한 제어를 통해 최신 비디오 생성 품질을 제공하며, 기존의 오픈소스 및 상용 베이스라인을 능가합니다. 평가를 용이하게 하기 위해, 우리는 또한 포괄적인 다중 대상 비디오 벤치마크를 소개합니다. 광범위한 실험을 통해 우리의 접근법의 효과를 입증하며, 확장 가능하고 제어 가능하며 고품질의 다중 대상 비디오 합성을 위한 길을 열어줍니다. 코드와 모델은 다음에서 확인할 수 있습니다: https://github.com/MAGREF-Video/MAGREF
대형 언어 모델(LLM)은 설득 분야에서 유망한 잠재력을 보여주고 있지만, LLM 설득자를 훈련시키는 기존 연구들은 아직 초기 단계에 머물러 있습니다. 특히, 인간은 상대방의 생각과 의견을 능동적이고 동적으로 모델링하는 데 능숙한 반면, 현재의 LLM은 이러한 마음 이론(Theory of Mind, ToM) 추론에 어려움을 겪어 다양성과 상대방 인식이 제한적입니다. 이러한 한계를 해결하기 위해, 우리는 두 개의 마음 이론 모듈을 통합하여 설득자의 상대방 정신 상태에 대한 인식과 분석을 강화하는 더 유연한 설득자 에이전트를 구축하기 위한 새로운 접근 방식인 Theory of Mind Augmented Persuader(ToMAP)를 소개합니다. 구체적으로, 우리는 먼저 설득자가 목표 중심 주장에 대한 가능한 반론을 고려하도록 프롬프트를 제공한 다음, 텍스트 인코더와 훈련된 MLP 분류기를 사용하여 상대방이 이러한 반론에 대해 현재 어떤 입장을 취하고 있는지 예측합니다. 우리가 신중하게 설계한 강화 학습 스키마는 설득자가 상대방 관련 정보를 분석하고 이를 활용하여 더 효과적인 주장을 생성하는 방법을 학습할 수 있도록 합니다. 실험 결과, ToMAP 설득자는 단 30억 개의 파라미터만을 포함함에도 불구하고 GPT-4o와 같은 훨씬 더 큰 베이스라인 모델들을 능가하며, 다양한 설득 대상 모델과 코퍼스에서 39.4%의 상대적 성능 향상을 보였습니다. 특히, ToMAP은 복잡한 추론 체인과 훈련 중 반복 감소를 보여주어 더 다양하고 효과적인 주장을 생성합니다. ToMAP의 상대방 인식 기능은 또한 장기 대화에 적합하며, 더 논리적이고 상대방을 고려한 전략을 사용할 수 있게 합니다. 이러한 결과는 우리 방법의 효과성을 입증하고, 더 설득력 있는 언어 에이전트 개발을 위한 잠재력을 강조합니다. 코드는 https://github.com/ulab-uiuc/ToMAP에서 확인할 수 있습니다.
본 논문에서는 Diff-Instruct, DMD, SIM, SiD, f-distill 등 10개 이상의 기존 단일 단계 확산 증류(diffusion distillation) 접근법을 통합한 이론 기반 프레임워크인 \emph{Uni-Instruct}를 제안한다. Uni-Instruct는 우리가 제안한 f-발산(f-divergence) 계열의 확산 확장 이론에서 영감을 받아 개발되었다. 이후, 우리는 원래 확장된 f-발산의 계산 불가능성(intractability) 문제를 해결하는 핵심 이론을 소개하며, 이를 통해 확장된 f-발산 계열을 최소화함으로써 단일 단계 확산 모델을 효과적으로 학습시키는 동등하면서도 계산 가능한 손실 함수를 도출한다. Uni-Instruct가 제시하는 이러한 새로운 통합은 기존 접근법을 상위 수준에서 이해하는 데 도움을 주는 이론적 기여를 제공할 뿐만 아니라, 최첨단 단일 단계 확산 생성 성능을 이끌어낸다. CIFAR10 생성 벤치마크에서 Uni-Instruct는 무조건 생성에서 \emph{1.46}, 조건부 생성에서 \emph{1.38}이라는 기록적인 프레셰 시작 거리(Frechet Inception Distance, FID) 값을 달성했다. ImageNet-64×64 생성 벤치마크에서는 단일 단계 생성에서 \emph{1.02}라는 새로운 최첨단 FID를 달성하며, 이는 79단계 교사 확산 모델의 FID인 2.35를 크게 개선한 결과이다(1.02 대 2.35). 또한, Uni-Instruct를 텍스트-3D 생성과 같은 더 넓은 작업에 적용했다. 텍스트-3D 생성에서 Uni-Instruct는 생성 품질과 다양성 모두에서 SDS 및 VSD와 같은 기존 방법을 약간 능가하는 우수한 결과를 보여주었다. Uni-Instruct의 견고한 이론적 및 실증적 기여는 단일 단계 확산 증류 및 확산 모델의 지식 전달에 대한 향후 연구에 도움이 될 것으로 기대된다.
오디오 소스 분리는 기계가 복잡한 음향 환경을 이해하고 수많은 오디오 애플리케이션을 지원하는 데 필수적인 기술입니다. 현재의 지도 학습 기반 딥러닝 접근법은 강력하지만, 방대한 양의 작업별 레이블 데이터가 필요하고 실제 세계의 광범위한 변동성과 열린 집합(open-set) 특성에 일반화하기 어렵다는 한계가 있습니다. 생성 기반 모델의 성공에서 영감을 받아, 우리는 사전 학습된 텍스트 지향 오디오 확산 모델이 이러한 한계를 극복할 수 있는지 연구했습니다. 우리는 놀라운 발견을 했습니다: 적절한 설정 하에서 사전 학습된 텍스트 지향 오디오 확산 모델만으로도 제로샷(zero-shot) 소스 분리가 가능하다는 것입니다. 우리의 방법인 ZeroSep은 혼합된 오디오를 확산 모델의 잠재 공간으로 역변환한 후, 텍스트 조건을 사용하여 잡음 제거 과정을 안내하여 개별 소스를 복구하는 방식으로 작동합니다. ZeroSep은 작업별 학습이나 미세 조정 없이 생성 확산 모델을 판별적 분리 작업에 재사용하며, 풍부한 텍스트 사전 정보를 통해 열린 집합 시나리오를 본질적으로 지원합니다. ZeroSep은 다양한 사전 학습된 텍스트 지향 오디오 확산 백본과 호환되며, 여러 분리 벤치마크에서 강력한 분리 성능을 보여 감독 학습 방법을 능가하기도 합니다.
대규모 언어 모델(LLMs)은 기능적으로 정확한 솔루션을 생성하지만, 실제 배포에 있어 중요한 병목 현상인 코드 효율성 측면에서는 종종 부족함을 보입니다. 본 논문에서는 이를 해결하기 위해 새로운 테스트 시점 반복 최적화 프레임워크를 소개합니다. 이 프레임워크는 실행 샌드박스에서 얻은 경험적 성능 피드백을 기반으로 LLM이 코드를 반복적으로 개선하는 폐쇄 루프 시스템을 활용합니다. 우리는 세 가지 학습 전략을 탐구합니다: 지도 미세 조정(SFT), 직접 선호 최적화(DPO), 그리고 그룹 상대 정책 최적화(GRPO). Venus 데이터셋과 APPS 벤치마크에서의 실험 결과, SFT와 DPO는 효율성 향상에서 빠르게 포화 상태에 도달하는 반면, 실행 피드백과 함께 강화 학습(RL)을 사용하는 GRPO는 코드 성능을 지속적으로 최적화하며, pass@1(47%에서 62%로)과 인간 제출물을 효율성 측면에서 능가할 가능성(31%에서 45%로)을 크게 향상시켰습니다. 본 연구는 테스트 시점 코드 효율성 개선의 효과를 입증하고, LLM이 진정으로 코드 효율성을 자기 개선하도록 가르치는 데 있어 RL의 강력함을 비판적으로 드러냅니다.
우리는 궤적 기반 입력을 사용하여 카메라 이동, 객체 수준의 이동, 그리고 세밀한 지역적 움직임을 원활하게 통합한 비디오 생성에서의 모션 제어를 위한 통합 프레임워크를 제안한다. 이러한 모션 유형을 별도의 모듈이나 작업별 설계를 통해 처리하는 기존 방법들과 달리, 우리의 접근 방식은 사용자 정의 궤적을 경량 모션 주입기를 통해 사전 훈련된 이미지-투-비디오 생성 모델의 잠재 공간에 투영함으로써 일관된 해결책을 제공한다. 사용자는 키포인트와 그들의 이동 경로를 지정하여 지역적 변형, 전체 객체 이동, 가상 카메라 역학, 또는 이들의 조합을 제어할 수 있다. 주입된 궤적 신호는 생성 과정을 안내하여 시간적으로 일관되고 의미론적으로 정렬된 모션 시퀀스를 생성한다. 우리의 프레임워크는 스타일화된 모션 효과(예: 모션 브러시), 동적 시점 변화, 정밀한 지역적 모션 조작을 포함한 다양한 비디오 모션 제어 작업에서 우수한 성능을 보여준다. 실험 결과, 우리의 방법은 기존 접근법 및 상용 솔루션에 비해 훨씬 더 나은 제어 가능성과 시각적 품질을 제공하면서도 다양한 최신 비디오 생성 백본과 광범위하게 호환된다. 프로젝트 페이지: https://anytraj.github.io/.
디퓨전 트랜스포머(DiT)는 비디오 및 이미지와 같은 고품질 시각적 콘텐츠를 생성하기 위한 사실상의 표준 모델로 자리 잡았습니다. 그러나 주요 병목 현상은 해상도와 비디오 길이에 따라 복잡도가 2차적으로 증가하는 어텐션 메커니즘입니다. 이러한 부담을 줄이기 위한 논리적인 방법 중 하나는 희소 어텐션(sparse attention)으로, 계산에 포함되는 토큰 또는 패치의 일부만을 사용하는 것입니다. 그러나 기존 기술은 극도로 높은 희소성 수준에서 시각적 품질을 유지하지 못하며, 심지어 무시할 수 없는 계산 오버헤드를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 Re-ttention을 제안합니다. Re-ttention은 디퓨전 모델의 시간적 중복성을 활용하여 어텐션 메커니즘 내의 확률적 정규화 편차를 극복함으로써 시각적 생성 모델을 위한 매우 높은 희소 어텐션을 구현합니다. 구체적으로, Re-ttention은 이전 소프트맥스 분포 기록을 기반으로 어텐션 점수를 재구성하여 극도로 높은 희소성 수준에서도 완전한 2차 어텐션의 시각적 품질을 유지합니다. CogVideoX 및 PixArt DiT와 같은 T2V/T2I 모델에 대한 실험 결과는 Re-ttention이 추론 중에 단 3.1%의 토큰만을 필요로 하며, FastDiTAttn, Sparse VideoGen, MInference와 같은 최신 방법들을 능가함을 보여줍니다. 또한, 우리는 지연 시간을 측정하여 H100 GPU에서 45% 이상의 종단 간 지연 시간 감소와 92% 이상의 셀프 어텐션 지연 시간 감소를 무시할 수 있는 오버헤드 비용으로 달성할 수 있음을 입증했습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/cccrrrccc/Re-ttention
우리는 13,440개의 대규모 언어 모델을 학습시켰으며, 엔트로피 최소화가 단일 무라벨 데이터와 10단계의 최적화만으로도 규칙 기반 강화 학습에서 수천 개의 데이터와 신중하게 설계된 보상을 사용하여 얻은 성능 향상에 필적하거나 그 이상의 결과를 달성할 수 있음을 발견했습니다. 이 놀라운 결과는 대규모 언어 모델의 사후 학습 패러다임에 대한 재고를 촉발할 수 있습니다. 우리의 코드는 https://github.com/zitian-gao/one-shot-em에서 확인할 수 있습니다.
리버스 퍼즐은 이미지, 공간적 배열, 상징적 대체를 통해 언어를 암호화하는 시각적 수수께끼로, 현재의 시각-언어 모델(VLMs)에게 독특한 도전 과제를 제시합니다. 전통적인 이미지 캡셔닝이나 질문 응답 작업과 달리, 리버스 퍼즐 해결은 다중 모드 추상화, 상징적 추론, 그리고 문화적, 음성적, 언어적 말장난에 대한 이해를 요구합니다. 본 논문에서는 다양한 영어 리버스 퍼즐로 구성된 수작업 생성 및 주석 처리된 벤치마크를 구축하여, 단순한 그림 문자 대체부터 공간적 단서("head" over "heels")에 이르기까지 현대 VLMs의 해석 및 해결 능력을 조사합니다. 우리는 다양한 VLMs의 성능을 분석한 결과, VLMs이 단순한 시각적 단서를 해독하는 데는 놀라운 능력을 보이지만, 추상적 추론, 횡적 사고, 시각적 은유 이해가 필요한 작업에서는 상당히 어려움을 겪는 것을 발견했습니다.
사고 흔적(trace)을 갖춘 최근의 대형 추론 모델(Large Reasoning Models, LRMs)은 영어 추론 과제에서 강력한 성능을 보여주고 있습니다. 그러나 다른 언어로 사고하는 이들의 능력은 덜 연구되어 왔습니다. 이러한 능력은 실제 응용 프로그램에서 답변 정확도만큼 중요합니다. 사용자들은 자신의 언어로 표현된 사고 흔적이 있을 때만 이를 감독에 유용하게 활용할 수 있기 때문입니다. 우리는 XReasoning 벤치마크에서 두 가지 주요 LRM 계열을 포괄적으로 평가했으며, 가장 진보된 모델들조차도 다른 언어로 사고할 때 영어로 되돌아가거나 단편적인 추론을 생성하는 경우가 많다는 것을 발견했습니다. 이는 다국어 추론 능력에서 상당한 격차가 있음을 드러냅니다. 사용자의 언어로 추론하도록 강제하는 프롬프트 기반 개입은 가독성과 감독을 개선하지만 답변 정확도를 감소시켜 중요한 트레이드오프를 노출시킵니다. 또한, 단 100개의 예시에 대한 표적 사후 훈련이 이러한 불일치를 완화하지만 일부 정확도 손실은 여전히 남아 있음을 보여줍니다. 우리의 결과는 현재 LRM의 제한된 다국어 추론 능력을 강조하고 향후 연구 방향을 제시합니다. 코드와 데이터는 https://github.com/Betswish/mCoT-XReasoning에서 확인할 수 있습니다.
대형 시각-언어 모델(LVLMs)의 최근 발전은 의료 보고서 생성 및 시각 질문 응답과 같은 의료 작업에서 유망한 응용 가능성을 보여주고 있습니다. 그러나 기존 벤치마크는 주로 최종 진단 결과에 초점을 맞추어, 모델이 임상적으로 의미 있는 추론을 수행하는지에 대한 통찰을 제한적으로 제공합니다. 이를 해결하기 위해, 우리는 공개적으로 이용 가능한 MIMIC-CXR-JPG 데이터셋을 기반으로 한 구조화된 파이프라인과 벤치마크인 CheXStruct와 CXReasonBench를 제안합니다. CheXStruct는 흉부 X-ray에서 직접 중간 추론 단계를 자동으로 도출하며, 이는 해부학적 영역 분할, 해부학적 랜드마크 및 진단 측정 도출, 진단 지수 계산, 그리고 임상적 임계값 적용과 같은 과정을 포함합니다. CXReasonBench는 이 파이프라인을 활용하여 모델이 임상적으로 유효한 추론 단계를 수행할 수 있는지, 그리고 구조화된 지도로부터 어느 정도 학습할 수 있는지를 평가하여, 진단 추론에 대한 세밀하고 투명한 평가를 가능하게 합니다. 이 벤치마크는 12개의 진단 작업과 1,200개의 사례에 걸쳐 18,988개의 질문-응답 쌍으로 구성되며, 각 사례는 최대 4개의 시각적 입력과 짝을 이루고, 해부학적 영역 선택 및 진단 측정을 통한 시각적 근거를 포함한 다중 경로, 다단계 평가를 지원합니다. 평가된 10개의 LVLM 중 가장 강력한 모델조차도 구조화된 추론과 일반화에 어려움을 겪으며, 종종 추상적 지식을 해부학적으로 근거 있는 시각적 해석과 연결하지 못합니다. 코드는 https://github.com/ttumyche/CXReasonBench에서 이용 가능합니다.
비전-언어 모델(VLMs)은 시각적 및 텍스트적 양상을 정렬하는 데 강력한 능력을 보여주며, 다중 모달 이해 및 생성 분야에서 다양한 응용이 가능하게 합니다. 제로샷 및 전이 학습 시나리오에서 뛰어난 성능을 보이지만, VLMs은 여전히 오분류에 취약하며 종종 자신만만하지만 잘못된 예측을 내놓습니다. 이러한 한계는 안전이 중요한 영역에서 심각한 결과를 초래할 수 있는 오류 예측으로 인해 상당한 위험을 초래합니다. 본 연구에서는 VLMs의 예측을 신뢰할 수 있는 시점을 추정하는 중요한 과제를 해결하기 위해 훈련이 필요 없는 프레임워크인 TrustVLM을 소개합니다. VLMs에서 관찰된 모달리티 간 격차와 특정 개념이 이미지 임베딩 공간에서 더 명확하게 표현된다는 통찰을 바탕으로, 우리는 이 공간을 활용하여 오분류 탐지를 개선하는 새로운 신뢰도 점수 함수를 제안합니다. 우리는 17개의 다양한 데이터셋에서 4가지 아키텍처와 2개의 VLMs을 사용하여 접근 방식을 엄격히 평가하였으며, 기존 베이스라인 대비 AURC에서 최대 51.87%, AUROC에서 9.14%, FPR95에서 32.42%의 성능 향상을 보여주며 최첨단 성능을 입증했습니다. 재훈련 없이 모델의 신뢰성을 향상시킴으로써, TrustVLM은 실제 응용에서 VLMs의 더 안전한 배치를 위한 길을 열어줍니다. 코드는 https://github.com/EPFL-IMOS/TrustVLM에서 제공될 예정입니다.
우리는 3D 자산을 위한 고품질의 일관된 텍스처를 생성하기 위한 새로운 2단계 3D 텍스처 생성 프레임워크인 UniTEX를 소개합니다. 기존 접근 방식은 생성된 다중 뷰 이미지를 3D 형태로 재투영한 후 UV 기반 인페인팅을 통해 텍스처를 정제하는 데 주로 의존하며, 이는 토폴로지적 모호성과 관련된 문제를 야기합니다. 이를 해결하기 위해, 우리는 UV 매핑의 한계를 우회하여 통합된 3D 함수 공간에서 직접 작동하는 방법을 제안합니다. 구체적으로, 우리는 먼저 텍스처 함수(TFs)를 통해 텍스처 생성을 3D 공간으로 끌어올리는 것을 제안합니다. TFs는 메쉬 토폴로지와 무관하게 표면 근접성에 기반하여 3D 점을 텍스처 값으로 매핑하는 연속적인 볼륨 표현입니다. 그런 다음, 우리는 트랜스포머 기반의 대형 텍스처링 모델(LTM)을 사용하여 이미지와 기하학적 입력으로부터 이러한 TFs를 직접 예측하는 방법을 제안합니다. 텍스처 품질을 더욱 향상시키고 강력한 2D 사전 지식을 활용하기 위해, 우리는 고품질 다중 뷰 텍스처 합성을 위한 대규모 Diffusion Transformers(DiTs)를 효율적으로 적응시키기 위한 고급 LoRA 기반 전략을 첫 번째 단계로 개발했습니다. 광범위한 실험을 통해 UniTEX가 기존 접근 방식에 비해 우수한 시각적 품질과 텍스처 무결성을 달성하며, 자동화된 3D 텍스처 생성을 위한 일반화 가능하고 확장 가능한 솔루션을 제공함을 입증했습니다. 코드는 https://github.com/YixunLiang/UniTEX에서 제공될 예정입니다.
가우시안 스플래팅(Gaussian Splatting, GS)은 최근 2D 이미지에서 3D 장면을 렌더링하기 위한 효율적인 표현 방식으로 등장하여 이미지, 비디오, 동적 4D 콘텐츠로 확장되었습니다. 그러나 GS 기반 표현에 스타일 전환을 적용하는 것은, 특히 단순한 색상 변경을 넘어서는 경우, 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 CLIPGaussians를 소개합니다. 이는 텍스트 및 이미지 기반 스타일화를 지원하며 2D 이미지, 비디오, 3D 객체, 4D 장면 등 다양한 모달리티에 걸쳐 적용 가능한 최초의 통합 스타일 전환 프레임워크입니다. 우리의 방법은 가우시안 프리미티브에 직접 작동하며, 대규모 생성 모델이나 처음부터 재학습이 필요 없이 기존 GS 파이프라인에 플러그인 모듈로 통합됩니다. CLIPGaussians 접근법은 3D 및 4D 설정에서 색상과 기하학적 구조의 공동 최적화를 가능하게 하며, 비디오에서 시간적 일관성을 달성하면서도 모델 크기를 유지합니다. 우리는 모든 작업에서 뛰어난 스타일 충실도와 일관성을 입증함으로써 CLIPGaussians가 다중 모달 스타일 전환을 위한 보편적이고 효율적인 솔루션임을 검증합니다.
기존의 사고 연쇄(CoT) 증류 방법은 기본 모델에 추론 능력을 효과적으로 전달할 수 있지만, 두 가지 주요 한계를 가지고 있습니다: 추론 흔적의 과도한 장황함과 문제 난이도에 대한 부적절한 적응성입니다. 긴 추론 흔적은 추론 비용을 크게 증가시키며, 균일한 길이의 해결책은 기본 모델이 적응형 추론 전략을 학습하는 것을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 성능 손실 없이 추론 흔적을 동적으로 단축하는 난이도 인지 프롬프팅(DAP) 방법을 제안합니다. 우리의 접근 방식에서는, 대형 교사 모델이 먼저 각 문제의 난이도를 판단한 후, 그 추론 흔적을 적절한 더 짧은 길이로 재작성하여 간결하면서도 완전한 추론 흔적을 생성합니다. DAP 파이프라인을 활용하여, 우리는 100K개의 간결한 추론 예제로 구성된 LiteCoT라는 증류 데이터셋을 구축했습니다. 이 데이터셋의 해결책은 평균 720 토큰으로, 일반적인 CoT보다 한 차원 더 짧습니다. LiteCoT를 사용하여, 우리는 Qwen2.5 아키텍처를 기반으로 한 Liter(1.5B, 7B, 32B)라는 새로운 추론 모델 패밀리를 증류했습니다. 실험 결과, 단지 100K개의 이 난이도 조정된 CoT 샘플에 미세 조정된 학생 모델은 800K개의 원본 Long CoT 샘플에 증류된 모델을 능가하면서도 훈련 및 추론 비용을 크게 줄였습니다. 우리의 방법은 또한 잘 일반화됩니다: 11개의 다양한 벤치마크에서, 더 짧은 난이도 인지 CoT는 훨씬 적은 토큰을 사용하면서 Long 연쇄와 동등하거나 더 나은 정확도를 달성했습니다. 예를 들어, 도전적인 AIME24 시험에서, 우리의 접근 방식은 단지 약 5K 추론 토큰만을 사용하여 74.2% Pass@1에 도달했으며, 더 많은 토큰을 소비하는 다른 방법들을 능가했습니다. 우리의 코드와 데이터는 https://github.com/Evanwu1125/LiteCoT에서 확인할 수 있습니다.
음악과 동기화된, 안무를 고려한 동물 댄스 비디오를 생성하기 위한 키프레임 기반 프레임워크를 제안합니다. 텍스트-이미지 프롬프트나 GPT-4o를 통해 생성된 독특한 동물 자세를 나타내는 몇 개의 키프레임을 시작점으로, 우리는 댄스 합성을 그래프 최적화 문제로 공식화합니다: 참조 댄스 비디오에서 자동으로 추정할 수 있는 비트의 특정 안무 패턴을 만족시키는 최적의 키프레임 구조를 찾는 것입니다. 또한, 댄스에서 대칭성을 포착하기 위해 필수적인 미러링된 포즈 이미지 생성 접근법을 소개합니다. 중간 프레임들은 비디오 확산 모델을 사용하여 합성됩니다. 단 6개의 입력 키프레임만으로도, 우리의 방법은 다양한 동물과 음악 트랙에 걸쳐 최대 30초 길이의 댄스 비디오를 생성할 수 있습니다.
피드포워드 3D 가우시안 스플래팅(3DGS) 모델은 최근 장면별 3DGS 최적화 없이도 단일 패스 추론을 가능하게 하여 새로운 시점 합성에 유망한 솔루션으로 떠오르고 있다. 그러나 이러한 모델의 확장성은 인코더의 제한된 용량으로 인해 근본적으로 제약을 받으며, 입력 뷰의 수가 증가함에 따라 성능 저하나 과도한 메모리 소비를 초래한다. 본 연구에서는 정보 병목 원리(Information Bottleneck principle)의 관점에서 피드포워드 3DGS 프레임워크를 분석하고, 다중 뷰 입력을 압축된 잠재 상태 Z로 효율적으로 압축하는 경량의 아키텍처 독립적 모듈인 ZPressor를 소개한다. 구체적으로, ZPressor는 기존 피드포워드 3DGS 모델이 80GB GPU에서 480P 해상도로 100개 이상의 입력 뷰를 처리할 수 있도록 지원하며, 이를 위해 뷰를 앵커 세트와 지원 세트로 분할하고 교차 주의(cross attention)를 사용하여 지원 뷰의 정보를 앵커 뷰로 압축하여 압축된 잠재 상태 Z를 형성한다. ZPressor를 여러 최신 피드포워드 3DGS 모델에 통합함으로써, 중간 정도의 입력 뷰 설정에서 성능이 일관되게 개선되고, 대규모 벤치마크인 DL3DV-10K와 RealEstate10K에서 조밀한 뷰 설정에서의 견고성이 향상됨을 보여준다. 비디오 결과, 코드 및 훈련된 모델은 프로젝트 페이지(https://lhmd.top/zpressor)에서 확인할 수 있다.
고성능 소프트웨어 개발은 전문적인 지식을 요구하는 복잡한 작업입니다. 본 연구에서는 고성능 소프트웨어 개발에서 언어 모델의 능력을 평가하기 위한 벤치마크인 GSO를 소개합니다. 우리는 자동화된 파이프라인을 개발하여 성능 테스트를 생성 및 실행하고, 리포지토리 커밋 히스토리를 분석하여 10개의 코드베이스에 걸쳐 다양한 도메인과 프로그래밍 언어를 아우르는 102개의 도전적인 최적화 작업을 식별했습니다. 에이전트는 코드베이스와 성능 테스트를 정확한 명세로 제공받고, 전문 개발자의 최적화 결과와 비교하여 런타임 효율성을 개선하는 과제를 수행합니다. 정량적 평가 결과, 선두 SWE 에이전트들은 5% 미만의 성공률을 보이며, 추론 시간 확장에도 불구하고 제한된 개선만을 달성하는 것으로 나타났습니다. 정성적 분석에서는 저수준 언어 처리의 어려움, 게으른 최적화 전략 사용, 병목 현상을 정확히 파악하는 데 대한 도전과 같은 주요 실패 모드를 식별했습니다. 우리는 향후 연구를 위해 벤치마크의 코드와 아티팩트, 에이전트 실행 경로를 공개합니다.
사전 학습된 다중모달 표현(예: CLIP)이 인상적인 능력을 보여주고 있지만, 이들은 직관에 반하는 판단을 유발하는 상당한 조합적 취약성을 드러냅니다. 우리는 다중모달 적대적 조합성(Multimodal Adversarial Compositionality, MAC)이라는 벤치마크를 소개합니다. 이는 대규모 언어 모델(LLMs)을 활용하여 다양한 모달리티 간의 이러한 취약성을 악용하는 기만적인 텍스트 샘플을 생성하고, 이를 샘플별 공격 성공률과 그룹별 엔트로피 기반 다양성을 통해 평가합니다. 제로샷 방법을 개선하기 위해, 우리는 다양성 촉진 필터링과 함께 거절 샘플링 미세 조정을 활용한 자기 학습 접근법을 제안하며, 이는 공격 성공률과 샘플 다양성 모두를 향상시킵니다. Llama-3.1-8B와 같은 소규모 언어 모델을 사용하여, 우리의 접근법은 이미지, 비디오, 오디오를 포함한 다양한 다중모달 표현에서 조합적 취약성을 드러내는 데 있어 우수한 성능을 보여줍니다.
최근 몇 년 동안 AI 기반 이미지 생성 기술은 급속도로 발전해 왔다. 초기 확산 모델은 지각적 품질에 중점을 두었던 반면, GPT-4o-image와 같은 최신 멀티모달 모델은 고차원적 추론을 통합하여 의미 이해와 구조적 구성을 개선하고 있다. 과학적 일러스트레이션 생성은 이러한 진화를 잘 보여주는 예시이다: 일반적인 이미지 합성과 달리, 이는 기술적 내용을 정확히 해석하고 추상적인 아이디어를 명확하고 표준화된 시각 자료로 변환하는 것을 요구한다. 이 작업은 훨씬 더 지식 집약적이며 노동 집약적이어서, 종종 수 시간의 수작업과 전문 도구가 필요하다. 이를 제어 가능하고 지능적인 방식으로 자동화한다면 상당한 실용적 가치를 제공할 수 있다. 그러나 현재 이를 평가할 벤치마크는 존재하지 않는다. 이러한 공백을 메우기 위해, 우리는 과학적 도면 생성을 위한 첫 번째 벤치마크인 SridBench를 소개한다. 이는 13개의 자연과학 및 컴퓨터 과학 분야의 주요 논문에서 선별한 1,120개의 사례를 포함하며, 인간 전문가와 MLLM(Multimodal Large Language Models)을 통해 수집되었다. 각 샘플은 의미 충실도와 구조적 정확성을 포함한 6가지 차원에서 평가된다. 실험 결과, GPT-4o-image와 같은 최상위 모델도 텍스트/시각적 명확성과 과학적 정확성에서 흔히 발생하는 문제로 인해 인간의 성능에 미치지 못하는 것으로 나타났다. 이러한 발견은 더 고급 추론 기반 시각 생성 능력의 필요성을 강조한다.
영상의학 보고서는 상세한 임상 관찰을 전달하며 시간에 따라 진화하는 진단 논리를 담고 있습니다. 그러나 기존 평가 방법은 단일 보고서 설정에 국한되어 있으며, 세밀한 임상 의미론과 시간적 의존성을 포착하지 못하는 대략적인 지표에 의존합니다. 우리는 단일 보고서 평가와 다수의 연구에 걸친 환자 수준의 종단적 평가를 모두 지원하는 구조화된 영상의학 보고서 생성을 위한 벤치마크 데이터셋인 LUNGUAGE를 소개합니다. 이 데이터셋은 전문가가 검토한 1,473개의 흉부 X-레이 보고서를 포함하며, 그 중 80개는 질병 진행과 연구 간 간격을 포착하기 위한 종단적 주석을 포함하고 있습니다. 이 벤치마크를 사용하여, 우리는 생성된 보고서를 세밀하고 스키마에 맞춰 구조화된 표현으로 변환하여 종단적 해석을 가능하게 하는 두 단계 프레임워크를 개발했습니다. 또한, LUNGUAGESCORE라는 해석 가능한 지표를 제안하여, 환자 타임라인에 걸친 시간적 일관성을 모델링하면서 엔티티, 관계, 속성 수준에서 구조화된 출력을 비교합니다. 이러한 기여는 순차적 영상의학 보고를 위한 첫 번째 벤치마크 데이터셋, 구조화 프레임워크, 평가 지표를 확립하며, 실험 결과는 LUNGUAGESCORE가 구조화된 보고서 평가를 효과적으로 지원함을 보여줍니다. 코드는 https://github.com/SuperSupermoon/Lunguage에서 확인할 수 있습니다.
다중모달 대형 언어 모델(MLLMs)의 능력이 향상되면서 차트 이해와 같은 작업이 발전하고 있습니다. 그러나 이러한 모델들은 종종 시각적 데이터와 상충되는 텍스트 시퀀스를 생성하는 환각(hallucination) 문제를 겪습니다. 이를 해결하기 위해, 우리는 주어진 차트 관련 응답을 검증하는 세분화된 차트 요소를 식별하는 '차트를 위한 사후 시각적 귀속(Post-Hoc Visual Attribution for Charts)'을 소개합니다. 우리는 세분화 기반 기법을 사용하여 차트 객체를 식별하고, MLLMs와 함께 세트-오브-마크(set-of-marks) 프롬프팅을 활용하여 세분화된 시각적 귀속을 수행하는 새로운 차트 귀속 알고리즘인 ChartLens를 제안합니다. 또한, 금융, 정책, 경제 등 다양한 분야의 합성 및 실제 차트를 포함하고 세분화된 귀속 주석을 특징으로 하는 ChartVA-Eval 벤치마크를 제시합니다. 우리의 평가 결과, ChartLens는 세분화된 귀속을 26-66% 개선하는 것으로 나타났습니다.
대규모 언어 모델은 지식 접근성, 편집 가능성, 추론 능력, 설명 가능성 측면에서 신경망 기반 지식 베이스로서 광범위하게 연구되어 왔습니다. 그러나 이들의 지식 구조적 패턴에 초점을 맞춘 연구는 상대적으로 드뭅니다. 이러한 격차에 동기를 부여받아, 우리는 그래프 관점에서 이러한 구조적 패턴을 조사합니다. 우리는 LLM의 지식을 트리플릿과 엔티티 수준에서 정량화하고, 이를 노드 차수와 같은 그래프 구조적 특성과 어떻게 연관되는지 분석합니다. 더 나아가, 우리는 위상적으로 가까운 엔티티들이 유사한 지식 수준을 보이는 지식 동질성(homophily)을 발견했으며, 이는 엔티티의 이웃을 기반으로 지식을 추정하는 그래프 머신러닝 모델 개발로 이어졌습니다. 이 모델은 LLM이 덜 알고 있는 트리플릿을 선택함으로써 가치 있는 지식 검사를 가능하게 합니다. 실험 결과, 선택된 트리플릿을 사용한 미세 조정이 우수한 성능으로 이어짐을 보여줍니다.
공간 지능은 복잡한 물리적 세계에서 작동하는 다중 모드 대형 언어 모델(MLLMs)에 필수적이다. 그러나 기존 벤치마크는 단일 이미지 관계만을 탐구하므로 실제 배포에서 요구되는 다중 이미지 공간 추론을 평가하지 못한다. 본 연구에서는 다중 이미지 공간 지능에 전념한 VQA 벤치마크인 MMSI-Bench를 소개한다. 6명의 3D 비전 연구자가 300시간 이상을 투자하여 120,000개 이상의 이미지에서 1,000개의 도전적이고 모호하지 않은 객관식 질문을 세심하게 제작하였으며, 각 질문은 신중하게 설계된 오답 선택지와 단계별 추론 과정과 짝을 이룬다. 우리는 광범위한 실험을 수행하고 34개의 오픈소스 및 독점 MLLMs를 철저히 평가하여, 가장 강력한 오픈소스 모델이 약 30%의 정확도를 달성하고 OpenAI의 o3 추론 모델이 40%에 도달하는 반면 인간은 97%의 점수를 기록하는 등 상당한 격차를 관찰하였다. 이러한 결과는 MMSI-Bench의 도전적인 특성과 향후 연구를 위한 상당한 여지를 강조한다. 주석이 달린 추론 과정을 활용하여, 우리는 또한 (1) 근거 오류, (2) 중복 매칭 및 장면 재구성 오류, (3) 상황 변환 추론 오류, (4) 공간 논리 오류 등 네 가지 주요 실패 모드를 진단하는 자동화된 오류 분석 파이프라인을 제공하여 다중 이미지 공간 지능을 발전시키기 위한 귀중한 통찰을 제공한다. 프로젝트 페이지: https://runsenxu.com/projects/MMSI_Bench.
Direct Preference Optimization(DPO)은 지도 학습 방식으로 언어 모델을 인간의 선호도에 맞추기 위한 표준 기술로 자리 잡았습니다. 경험적으로는 성공적이었으나, 로그 비율 보상 파라미터화에 대한 이론적 근거는 여전히 불완전한 상태였습니다. 본 연구에서는 이러한 격차를 해소하기 위해 Differential Information Distribution(DID)을 활용합니다: DID는 정책 업데이트 과정에서 얻는 정보를 포착하는 토큰 시퀀스에 대한 분포입니다. 먼저, 선호도 레이블이 참조 정책을 목표 정책으로 변환하는 데 필요한 차등 정보를 인코딩할 때, DPO의 로그 비율 보상이 선호도 최적화를 통해 목표 정책을 학습하는 데 유일하게 최적의 형태로 나타남을 보입니다. 이 결과는 거부된 응답에 대한 최적 샘플링 분포의 폐쇄형 표현을 자연스럽게 도출합니다. 둘째, 선호도가 차등 정보를 인코딩하기 위한 조건은 로그 마진 정렬 정책에 대한 암묵적 가정과 근본적으로 연결되어 있음을 발견했습니다. 이는 선호도 최적화에서 널리 사용되지만 이전에는 인식되지 않은 귀납적 편향입니다. 마지막으로, DID의 엔트로피를 분석함으로써, 낮은 엔트로피 차등 정보를 학습하는 것이 정책 분포를 강화하는 반면, 높은 엔트로피 차등 정보는 평활화 효과를 유발함을 설명합니다. 이는 로그 가능도 변위 현상을 설명합니다. 우리는 이러한 이론적 발견을 합성 실험에서 검증하고, 실제 지시 따르기 데이터셋으로 확장합니다. 우리의 결과는 높은 엔트로피 차등 정보를 학습하는 것이 일반적인 지시 따르기 작업에 중요하며, 낮은 엔트로피 차등 정보를 학습하는 것이 지식 집약적 질문 응답에 유리함을 시사합니다. 전반적으로, 본 연구는 차등 정보의 관점에서 DPO 목적 함수, 선호도 데이터의 구조, 그리고 그에 따른 정책 행동에 대한 통합적 관점을 제시합니다.
사고의 연쇄를 통한 강화 학습(Reinforcement Learning, RL)은 수학 및 코딩과 같은 작업에서 언어 모델을 크게 발전시켰지만, 시각적 추론은 모델이 시각적 주의를 유도하고 지각 입력을 해석하며 추상적 추론을 공간적 증거에 기반을 두도록 요구함으로써 추가적인 복잡성을 도입합니다. 우리는 ViGoRL(Visually Grounded Reinforcement Learning)을 소개합니다. 이는 각 추론 단계를 명시적으로 특정 시각적 좌표에 고정하도록 RL로 훈련된 시각-언어 모델입니다. 인간의 시각적 의사결정에서 영감을 받은 ViGoRL은 공간적으로 고정된 추론 흔적을 생성하고, 각 단계에서 작업과 관련된 영역으로 시각적 주의를 안내하는 방법을 학습합니다. 세밀한 탐색이 필요할 때, 우리의 새로운 다중 단계 RL 프레임워크는 모델이 추론이 전개됨에 따라 예측된 좌표로 동적으로 확대할 수 있도록 합니다. 공간 추론을 위한 SAT-2 및 BLINK, 시각적 탐색을 위한 V*bench, 웹 기반 고정을 위한 ScreenSpot 및 VisualWebArena를 포함한 다양한 시각적 추론 벤치마크에서 ViGoRL은 명시적인 고정 메커니즘이 없는 지도 미세 조정 및 기존 RL 기준선을 지속적으로 능가합니다. 확대된 시각적 피드백과 함께 다중 단계 RL을 통합하면 ViGoRL의 작은 GUI 요소 위치 지정 및 시각적 탐색 성능이 크게 향상되어 V*Bench에서 86.4%를 달성합니다. 또한, 고정은 영역 탐색, 고정된 하위 목표 설정, 시각적 검증과 같은 다른 시각적 행동을 증폭시키는 것으로 나타났습니다. 마지막으로, 인간 평가는 모델의 시각적 참조가 공간적으로 정확할 뿐만 아니라 모델 추론 단계를 이해하는 데 도움이 된다는 것을 보여줍니다. 우리의 결과는 시각적으로 고정된 RL이 모델에 일반적인 시각적 추론 능력을 부여하는 강력한 패러다임임을 보여줍니다.
사후 양자화(PTQ)의 주요 목표는 원본 모델의 출력 분포에 최대한 가까운 압축 모델을 생성하는 것입니다. 이를 실현 가능하게 하기 위해, 거의 모든 대규모 언어 모델(LLM) PTQ 알고리즘은 선형 계층을 양자화할 때 즉각적인 활성화 오차를 독립적으로 최소화합니다. 그러나 이러한 지역적 목표는 후속 계층의 영향을 무시하기 때문에, 이를 줄인다고 해서 반드시 더 가까운 모델을 얻는 것은 아닙니다. 본 연구에서는 전체 모델의 KL 발산에 대한 각 선형 계층의 헤시안(Hessian)을 크로네커 곱(Kronecker-factored) 근사로 활용하는 적응형 반올림 알고리즘인 YAQA(Yet Another Quantization Algorithm)를 소개합니다. YAQA는 두 가지 구성 요소로 이루어져 있습니다: 수백억 개의 파라미터를 가진 LLM에서도 실현 가능한 전체 계층별 헤시안의 크로네커 곱 스케치, 그리고 이 스케치를 사용하며 이론적 보장을 제공하는 양자화 독립적 반올림 알고리즘입니다. 다양한 모델과 양자화기에 걸쳐 YAQA는 원본 모델과의 KL 발산을 약 30% 감소시키면서 다운스트림 작업에서 최첨단 성능을 달성합니다.
창의성 평가는 대규모 언어 모델(LLM)을 위한 여전히 도전적인 과제로 남아 있습니다. 현재의 평가 방식은 비효율적이고 비용이 많이 드는 인간의 판단에 크게 의존하고 있어, 기계의 창의성을 향상시키는 데 있어 진전을 방해하고 있습니다. 자동화된 방법들, 예를 들어 심리학적 테스트부터 휴리스틱 기반 또는 프롬프트 기반 접근법까지 존재하지만, 이러한 방법들은 종종 일반화가 부족하거나 인간의 판단과 일치하지 않는 경우가 많습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 텍스트 창의성을 평가하기 위한 새로운 쌍별 비교(pairwise-comparison) 프레임워크를 제안하며, 공유된 문맥 지침을 활용하여 평가의 일관성을 개선합니다. 우리는 CreataSet이라는 대규모 데이터셋을 소개하는데, 이는 다양한 개방형 도메인 작업에 걸쳐 10만 개 이상의 인간 수준 데이터와 100만 개 이상의 합성 창의적 지침-응답 쌍을 포함하고 있습니다. CreataSet을 기반으로 학습하여, 우리는 CrEval이라는 LLM 기반 평가자를 개발했습니다. CrEval은 인간의 판단과의 일치성 측면에서 기존 방법들을 크게 능가하는 우수성을 보여줍니다. 실험 결과는 고도로 견고한 평가자를 학습시키기 위해 인간이 생성한 데이터와 합성 데이터를 통합하는 것이 필수적임을 강조하며, CrEval이 LLM의 창의성을 향상시키는 데 있어 실용적인 유용성을 입증합니다. 우리는 모든 데이터, 코드, 그리고 모델을 곧 공개하여 추가 연구를 지원할 예정입니다.
본 연구에서는 시각적 토크나이저와 VAE가 세밀한 특징을 보존하는 데 있어 한계를 밝히고, 두 가지 도전적인 시각적 콘텐츠인 텍스트와 얼굴에 대한 재구성 성능을 평가하기 위한 벤치마크를 제안합니다. 시각적 토크나이저와 VAE는 더 효율적인 압축 또는 양자화된 이미지 표현을 제공함으로써 시각적 생성 및 다중모달 모델링을 크게 발전시켰습니다. 그러나 생산 모델이 계산 부담을 줄이는 데 도움을 주는 반면, 이미지 압축으로 인한 정보 손실은 시각적 생성 품질의 상한선을 근본적으로 제한합니다. 이 상한선을 평가하기 위해 우리는 재구성된 텍스트와 얼굴 특징을 평가하는 데 초점을 맞춥니다. 이는 일반적으로 1) 더 작은 규모로 존재하며, 2) 밀도가 높고 풍부한 질감을 포함하며, 3) 붕괴되기 쉽고, 4) 인간 시각에 매우 민감하기 때문입니다. 먼저, 기존 데이터셋에서 다양한 명확한 텍스트와 얼굴 이미지를 수집하고 정제합니다. VLM 모델을 사용하는 접근법과 달리, 우리는 평가를 위해 기존의 OCR 및 얼굴 인식 모델을 사용하여 정확성을 보장하면서도 단 2GB의 메모리와 4분만 소요되는 매우 가벼운 평가 프로세스를 유지합니다. 우리의 벤치마크를 사용하여 다양한 규모에서의 텍스트와 얼굴 재구성 품질을 다양한 이미지 토크나이저와 VAE에 대해 분석합니다. 그 결과, 현대의 시각적 토크나이저가 특히 작은 규모에서 세밀한 특징을 보존하는 데 여전히 어려움을 겪고 있음을 보여줍니다. 또한, 이 평가 프레임워크를 비디오로 확장하여 비디오 토크나이저에 대한 포괄적인 분석을 수행합니다. 추가적으로, 기존의 메트릭이 얼굴과 텍스트에 대한 재구성 성능을 정확히 반영하지 못하는 반면, 우리가 제안한 메트릭이 효과적인 보완 역할을 한다는 것을 입증합니다.
대형 언어 모델(LLMs)은 생물의학과 같은 과학 분야에서 가설 생성에 있어 상당한 잠재력을 보여주고 있습니다. 특히, 방대한 문헌을 분석하고 패턴을 식별하며 연구 방향을 제안할 수 있습니다. 그러나 생성된 가설의 진실성을 평가하는 데 있어 주요한 과제가 존재합니다. 이러한 가설의 정확성을 검증하려면 상당한 시간과 자원이 필요하기 때문입니다. 또한, LLMs의 환각 문제는 그럴듯해 보이지만 궁극적으로 잘못된 가설을 생성할 수 있어 신뢰성을 저해할 수 있습니다. 이러한 문제를 체계적으로 연구하기 위해, 우리는 LLMs가 진실한 생물의학적 가설을 생성하는 능력을 평가하기 위한 벤치마크인 TruthHypo와 기존 지식에 기반한 환각 탐지기인 KnowHD를 소개합니다. 우리의 결과는 LLMs가 진실한 가설을 생성하는 데 어려움을 겪는다는 것을 보여줍니다. 추론 단계에서의 환각을 분석함으로써, KnowHD가 제공하는 근거성 점수가 LLMs의 다양한 출력에서 진실한 가설을 필터링하는 효과적인 지표로 작용함을 입증합니다. 인간 평가는 또한 KnowHD가 진실한 가설을 식별하고 과학적 발견을 가속화하는 데 유용함을 추가로 검증합니다. 우리의 데이터와 소스 코드는 https://github.com/Teddy-XiongGZ/TruthHypo에서 확인할 수 있습니다.
단어 수준 품질 평가(WQE)는 기계 번역 출력물에서 세밀한 오류 범위를 자동으로 식별하는 것을 목표로 하며, 번역 후 편집 과정에서 번역가를 지원하는 등 다양한 용도로 활용되고 있습니다. 현대의 WQE 기술은 대규모 언어 모델을 프롬프팅하거나 방대한 양의 인간 주석 데이터를 사용해 특수 목적으로 훈련하는 등 비용이 많이 드는 경우가 많습니다. 본 연구에서는 언어 모델 해석 가능성과 불확실성 정량화의 최근 발전을 활용하여 번역 모델의 내부 작동으로부터 번역 오류를 식별하는 효율적인 대안을 탐구합니다. 12개 번역 방향에 걸쳐 14개 메트릭을 평가하는 과정에서, 우리는 여러 세트의 인간 주석을 사용하여 인간 주석 변이가 메트릭 성능에 미치는 영향을 정량화했습니다. 우리의 결과는 비지도 메트릭의 잠재력, 레이블 불확실성에 직면했을 때 지도 방법의 한계, 그리고 단일 주석자 평가 관행의 취약성을 강조합니다.
Classifier-Free Guidance(CFG)는 조건부 및 무조건부 예측을 보간함으로써 생성 모델의 제어 가능성을 크게 향상시킵니다. 그러나 표준 CFG는 종종 정적인 무조건부 입력을 사용하는데, 이는 모델의 불확실성이 동적으로 변하는 반복적 생성 과정에서는 최적이 아닐 수 있습니다. 우리는 Adaptive Classifier-Free Guidance(A-CFG)라는 새로운 방법을 소개합니다. 이 방법은 모델의 순간적 예측 신뢰도를 활용하여 무조건부 입력을 맞춤화합니다. 반복적(마스킹된) 확산 언어 모델의 각 단계에서, A-CFG는 현재 생성된 시퀀스에서 모델이 낮은 신뢰도를 보이는 토큰을 식별합니다. 이러한 토큰은 일시적으로 다시 마스킹되어 동적이고 지역화된 무조건부 입력을 생성합니다. 이는 CFG의 수정적 영향을 모호성이 있는 영역에 정확하게 집중시켜 더 효과적인 가이던스를 이끌어냅니다. 우리는 A-CFG를 최첨단 마스킹 확산 언어 모델에 통합하고 그 효용성을 입증합니다. 다양한 언어 생성 벤치마크에서의 실험은 A-CFG가 표준 CFG에 비해 상당한 개선을 가져오며, 예를 들어 GPQA에서 3.9점의 향상을 달성함을 보여줍니다. 우리의 연구는 반복적 생성 과정에서 모델의 불확실성에 따라 가이던스 메커니즘을 동적으로 적응시키는 이점을 강조합니다.
대규모 언어 모델(LLM)은 자연어 이해 및 생성 분야에서 뛰어난 능력을 보여주며 질의응답(QA) 작업에서도 주목할 만한 성과를 거두고 있습니다. 그러나 LLM 기반 QA는 복잡한 QA 작업에서 추론 능력 부족, 구식 지식, 그리고 환각 현상으로 인해 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 최근 몇몇 연구에서는 LLM과 지식 그래프(KG)를 결합한 QA 접근법을 제안하고 있습니다. 본 조사 논문에서는 LLM과 KG를 QA에 통합하는 방법론을 QA의 범주와 KG의 역할에 따라 분류하는 새로운 구조적 분류 체계를 제안합니다. 또한, LLM과 KG를 결합한 QA 분야의 최신 연구 동향을 체계적으로 조사하고, 이러한 접근법의 강점, 한계, 그리고 KG 요구 사항을 비교 분석합니다. 이어서, 각 접근법을 QA와 연계하여 다양한 복잡한 QA의 주요 문제를 어떻게 해결하는지 논의합니다. 마지막으로, 이 분야의 발전, 평가 지표, 벤치마크 데이터셋을 요약하고, 해결되지 않은 과제와 기회를 강조합니다.