번역이 포함된 일일 선별된 AI 연구 논문
놀라운 능력을 갖추고 있음에도 불구하고, 대규모 언어 모델(LLMs)은 동적이고 복잡한 환경에서 과거 상호작용 정보를 효과적으로 활용하는 데 어려움을 겪습니다. 메모리 시스템은 지속적인 정보 저장, 검색 및 활용 메커니즘을 도입함으로써 LLMs가 상태 비저장 상호작용을 넘어서도록 돕습니다. 그러나 기존 메모리 시스템은 종종 상당한 시간 및 계산 오버헤드를 유발합니다. 이를 위해 우리는 성능과 효율성 사이의 균형을 맞춘 새로운 메모리 시스템인 LightMem을 소개합니다. 인간의 기억에 대한 Atkinson-Shiffrin 모델에서 영감을 받은 LightMem은 메모리를 세 가지 상호 보완적인 단계로 구성합니다. 먼저, 인지에서 영감을 받은 감각 메모리는 경량 압축을 통해 관련 없는 정보를 빠르게 필터링하고 주제에 따라 정보를 그룹화합니다. 다음으로, 주제 인식 단기 메모리는 이러한 주제 기반 그룹을 통합하고, 더 구조화된 접근을 위해 내용을 조직하고 요약합니다. 마지막으로, 수면 시간 업데이트를 포함한 장기 메모리는 온라인 추론과 통합을 분리하는 오프라인 절차를 사용합니다. GPT 및 Qwen 백본을 사용한 LongMemEval 실험에서 LightMem은 정확도(최대 10.9% 향상)에서 강력한 베이스라인을 능가하면서 토큰 사용량을 최대 117배, API 호출을 최대 159배, 런타임을 12배 이상 줄였습니다. 코드는 https://github.com/zjunlp/LightMem에서 확인할 수 있습니다.
우리는 코어 어텐션 분리(Core Attention Disaggregation, CAD) 기법을 제안합니다. 이 기법은 코어 어텐션 계산인 softmax(QK^T)V를 모델의 나머지 부분과 분리하여 별도의 디바이스 풀에서 실행함으로써 장문맥 대규모 언어 모델 학습을 개선합니다. 기존 시스템에서는 코어 어텐션이 다른 레이어와 동일한 위치에서 실행됩니다. 장문맥 길이에서 코어 어텐션의 이차적 계산 증가는 다른 구성 요소의 거의 선형적인 증가와 비교하여 데이터 및 파이프라인 병렬 그룹 간의 부하 불균형과 지연 문제를 초래합니다. CAD는 두 가지 관찰을 통해 가능해졌습니다. 첫째, 코어 어텐션은 상태가 없습니다: 학습 가능한 매개변수가 없고 최소한의 일시적 데이터만 있으므로, 부하 분산은 계산 중심 작업의 스케줄링으로 축소됩니다. 둘째, 코어 어텐션은 구성 가능합니다: 현대의 어텐션 커널은 임의 길이의 토큰 수준 분할을 융합된 배치로 처리할 때도 높은 효율성을 유지합니다. CAD는 코어 어텐션을 토큰 수준 작업으로 분할하고 이를 전용 어텐션 서버에 배치하며, 동적으로 작업을 재배치하여 커널 효율성을 희생하지 않고 계산을 균등화합니다. 우리는 DistCA라는 시스템에서 CAD를 구현했습니다. DistCA는 핑퐁 실행 방식을 사용하여 통신과 계산을 완전히 중첩시키고, 어텐션 서버에서의 인플레이스 실행을 통해 메모리 사용을 줄입니다. 512개의 H200 GPU와 최대 512k 토큰의 문맥 길이에서 DistCA는 종단 간 학습 처리량을 최대 1.35배 향상시키고, 데이터 및 파이프라인 병렬 지연 문제를 제거하며, 거의 완벽한 계산 및 메모리 균형을 달성합니다.
생성적 세계 모델(World Models, WMs)은 이제 놀라운 시각적 현실감으로 세계를 시뮬레이션할 수 있으며, 이는 자연스럽게 이러한 모델이 구체화된 에이전트에게 예측적 인식을 제공하여 의사결정을 지원할 수 있는지에 대한 질문을 제기합니다. 이 질문에 대한 진전은 단편적인 평가로 인해 제한되어 왔습니다: 대부분의 기존 벤치마크는 시각적 품질만을 강조하는 개방형 루프 프로토콜을 채택하여, 세계 모델이 실제로 구체화된 작업에서 에이전트의 성공을 돕는지라는 핵심 문제를 해결하지 못했습니다. 이러한 격차를 해결하기 위해, 우리는 실제 에이전트-환경 상호작용을 반영한 폐쇄형 세계에서 세계 모델을 벤치마크하는 첫 번째 오픈 플랫폼인 World-in-World를 소개합니다. World-in-World는 통합된 온라인 계획 전략과 표준화된 액션 API를 제공하여 다양한 세계 모델이 의사결정을 할 수 있도록 합니다. 우리는 네 가지 폐쇄형 환경을 선별하여 다양한 세계 모델을 엄격히 평가하고, 작업 성공을 주요 지표로 삼아 시각적 품질에 대한 일반적인 초점을 넘어섭니다; 또한 구체화된 설정에서 세계 모델에 대한 첫 번째 데이터 스케일링 법칙을 제시합니다. 우리의 연구는 세 가지 놀라운 사실을 밝혀냈습니다: (1) 시각적 품질만으로는 작업 성공을 보장할 수 없으며, 제어 가능성이 더 중요하다; (2) 사전 훈련된 비디오 생성기를 업그레이드하는 것보다 액션-관찰 데이터로 사후 훈련을 확장하는 것이 더 효과적이다; (3) 추론 시간에 더 많은 컴퓨팅 자원을 할당하면 세계 모델이 폐쇄형 성능을 크게 향상시킬 수 있다.
텍스트-이미지(T2I) 생성 분야의 최근 발전은 생성된 이미지가 텍스트 프롬프트의 의미를 얼마나 정확히 반영하는지 평가하는 데 있어 신뢰할 수 있는 벤치마크의 중요성을 강조합니다. 그러나 (1) 기존 벤치마크는 실제 적용 가능성을 위해 필수적인 다양한 프롬프트 시나리오와 다국어 지원이 부족하며, (2) 주요 차원에 대한 대략적인 평가만 제공하고, 세부 차원 평가 범위가 좁아 미세한 세부 차원 평가에는 미치지 못합니다. 이러한 한계를 해결하기 위해, 우리는 T2I 생성을 위한 통합 의미 평가 벤치마크인 UniGenBench++를 소개합니다. 구체적으로, 이 벤치마크는 600개의 프롬프트로 구성되어 있으며, 계층적으로 조직되어 커버리지와 효율성을 보장합니다: (1) 5개의 주요 프롬프트 주제와 20개의 하위 주제로 다양한 실제 시나리오를 포괄하며, (2) 10개의 주요 평가 기준과 27개의 세부 평가 기준에 걸쳐 T2I 모델의 의미 일관성을 종합적으로 탐구하며, 각 프롬프트는 여러 테스트 포인트를 평가합니다. 언어와 프롬프트 길이의 변화에 대한 모델의 견고성을 엄격히 평가하기 위해, 각 프롬프트의 짧은 형태와 긴 형태의 영어 및 중국어 버전을 제공합니다. 폐쇄형 다중 모드 대형 언어 모델(MLLM), 즉 Gemini-2.5-Pro의 일반 세계 지식과 세밀한 이미지 이해 능력을 활용하여, 신뢰할 수 있는 벤치마크 구축과 간소화된 모델 평가를 위한 효과적인 파이프라인을 개발했습니다. 또한, 커뮤니티 사용을 더욱 촉진하기 위해, T2I 모델 출력의 오프라인 평가를 가능하게 하는 견고한 평가 모델을 훈련시켰습니다. 오픈소스 및 폐쇄형 T2I 모델에 대한 종합적인 벤치마킹을 통해, 다양한 측면에서 그들의 강점과 약점을 체계적으로 밝혀냈습니다.
우리는 최초의 오픈소스이자 최첨단 사고 모델인 Ring-1T를 소개합니다. 이 모델은 총 1조 개의 파라미터를 갖추고 있으며, 토큰당 약 500억 개의 파라미터를 활성화합니다. 이러한 1조 규모의 파라미터를 가진 모델을 학습시키는 것은 학습-추론 불일치, 롤아웃 처리의 비효율성, RL 시스템의 병목 현상 등 전례 없는 도전 과제를 야기합니다. 이를 해결하기 위해 우리는 세 가지 상호 연결된 혁신을 선도적으로 도입했습니다: (1) IcePop은 토큰 수준의 불일치 마스킹과 클리핑을 통해 RL 학습을 안정화하여 학습-추론 불일치로 인한 불안정성을 해결합니다; (2) C3PO++는 토큰 예산 하에서 긴 롤아웃을 동적으로 분할하여 자원 활용도를 개선함으로써 높은 시간 효율성을 얻습니다; (3) ASystem은 1조 파라미터 모델 학습을 방해하는 시스템적 병목 현상을 극복하기 위해 설계된 고성능 RL 프레임워크입니다. Ring-1T는 주요 벤치마크에서 획기적인 결과를 보여줍니다: AIME-2025에서 93.4, HMMT-2025에서 86.72, CodeForces에서 2088, ARC-AGI-v1에서 55.94를 기록했습니다. 특히, IMO-2025에서 은메달 수준의 결과를 달성하며 탁월한 추론 능력을 입증했습니다. 우리는 1조 파라미터 MoE 모델을 완전히 공개함으로써 연구 커뮤니티가 최첨단 추론 능력에 직접 접근할 수 있도록 합니다. 이번 기여는 대규모 추론 지능의 민주화에 있어 중요한 이정표를 세우며, 오픈소스 모델 성능의 새로운 기준을 확립합니다.
대규모 언어 모델(LLMs)이 화학 발견을 크게 진전시킬 잠재력을 가지고 있음에도 불구하고, 현재의 LLMs는 핵심 화학 지식이 부족하고, 신뢰할 수 없는 추론 경로를 생성하며, 다양한 화학 작업에서 최적의 성능을 보이지 못하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 화학자들의 숙고 과정을 모방하도록 설계된 일반화 가능한 화학 추론 모델인 Chem-R을 제안합니다. Chem-R은 세 단계의 프레임워크를 통해 훈련되며, 이는 점진적으로 고급 추론 능력을 구축합니다: 1) 핵심 화학 지식을 확립하는 화학 기초 훈련, 2) 체계적이고 신뢰할 수 있는 문제 해결을 안내하기 위해 구조화된 전문가 수준의 추론 흔적을 통합한 화학 추론 프로토콜 정제, 3) 다양한 분자 및 반응 수준 작업에서 균형 잡힌 성능을 위해 모델을 최적화하는 다중 작업 그룹 상대 정책 최적화. 이 구조화된 파이프라인은 Chem-R이 포괄적인 벤치마크에서 최첨단 성능을 달성하도록 하며, 분자 작업에서 최대 46%, 반응 작업에서 최대 66%까지 Gemini-2.5-Pro 및 DeepSeek-R1을 포함한 주요 대규모 언어 모델을 능가합니다. 동시에, Chem-R은 분자 및 반응 수준 작업 모두에서 기존의 화학 기초 모델을 꾸준히 능가합니다. 이러한 결과는 Chem-R의 강력한 일반화 능력, 해석 가능성, 그리고 차세대 AI 기반 화학 발견을 위한 기초로서의 잠재력을 강조합니다.
긴 비디오 생성을 위한 Diffusion Transformers (DiTs)는 시퀀스 길이에 따른 전체 어텐션의 이차적 확장성에 의해 병목 현상이 발생합니다. 어텐션은 매우 중복적이기 때문에, 출력은 소수의 쿼리-키 쌍에 의해 지배됩니다. 기존의 희소(sparse) 방법들은 블록 단위의 대략적인 추정에 의존하며, 이는 블록 크기에 의해 정확도와 효율성 간의 균형이 제한됩니다. 본 논문은 Mixture-of-Groups Attention (MoGA)를 소개합니다. MoGA는 블록 단위 추정 없이도 토큰을 정확히 매칭하기 위해 가볍고 학습 가능한 토큰 라우터를 사용하는 효율적인 희소 어텐션입니다. 의미 인식 라우팅을 통해 MoGA는 효과적인 장거리 상호작용을 가능하게 합니다. 커널이 없는 방법으로서, MoGA는 FlashAttention 및 시퀀스 병렬화를 포함한 현대적인 어텐션 스택과 원활하게 통합됩니다. MoGA를 기반으로, 우리는 약 580k의 컨텍스트 길이로 분 단위의 멀티샷 480p 비디오를 24 fps로 종단간(end-to-end) 생성하는 효율적인 긴 비디오 생성 모델을 개발했습니다. 다양한 비디오 생성 작업에 대한 포괄적인 실험을 통해 우리의 접근 방식의 효과성을 검증했습니다.
멀티모달 대형 언어 모델(MLLMs)은 전체적인 이해에 뛰어나지만, 복잡한 장면으로 가득 찬 세밀한 세계를 포착하는 데 어려움을 겪으며, 복잡한 세부 사항과 객체 간의 상호 관계에 대한 세밀한 분석이 필요합니다. 지역 수준의 MLLMs는 유망한 단계였습니다. 그러나 기존의 시도들은 일반적으로 주어진 지역을 고립적으로 이해하도록 최적화되어 있어, 중요한 전역적 맥락을 간과했습니다. 이를 해결하기 위해, 우리는 포괄적인 지역 수준의 시각적 이해를 위한 Grasp Any Region(GAR)을 소개합니다. 효과적인 RoI 정렬 특징 재생 기술로 강화된 GAR은 (1) 필요한 전역적 맥락을 활용한 정확한 인지와 (2) 여러 프롬프트 간의 상호 작용 모델링을 지원합니다. 이를 통해 (3) 특정 자유 형식 질문에 대한 고급 구성적 추론을 자연스럽게 달성하며, 수동적인 설명에서 능동적인 대화로 패러다임을 전환합니다. 또한, 우리는 GAR-Bench를 구축하여 단일 지역 이해에 대한 더 정확한 평가를 제공할 뿐만 아니라, 더 중요한 것은 여러 지역 간의 상호 작용과 복잡한 추론을 측정합니다. 광범위한 실험을 통해 GAR-1B가 최첨단 캡션 기능을 유지하면서도, 예를 들어 DLC-Bench에서 DAM-3B를 +4.5점 앞서는 성과를 보였고, 여러 프롬프트 간의 관계 모델링에서도 뛰어난 이해 능력을 보여 GAR-Bench-VQA에서 InternVL3-78B를 능가했습니다. 더 중요한 것은, 우리의 제로샷 GAR-8B가 VideoRefer-BenchQ에서 도메인 내 VideoRefer-7B를 능가하며, 그 강력한 능력이 비디오로 쉽게 전이될 수 있음을 보여주었습니다.
우리는 광학적 2D 매핑을 통해 긴 문맥을 압축하는 가능성을 탐구하기 위한 초기 연구로 DeepSeek-OCR을 제안합니다. DeepSeek-OCR은 두 가지 구성 요소로 이루어져 있습니다: DeepEncoder와 디코더 역할을 하는 DeepSeek3B-MoE-A570M입니다. 구체적으로, DeepEncoder는 핵심 엔진으로서 고해상도 입력에서도 낮은 활성화를 유지하면서 높은 압축 비율을 달성하여 최적의 관리 가능한 수준의 시각 토큰을 보장하도록 설계되었습니다. 실험 결과, 텍스트 토큰 수가 시각 토큰 수의 10배 이내(즉, 압축 비율 < 10x)일 때 모델은 97%의 디코딩(OCR) 정확도를 달성할 수 있음을 보여줍니다. 압축 비율이 20x일 때도 OCR 정확도는 약 60%를 유지합니다. 이는 역사적 장문맥 압축 및 LLM(대형 언어 모델)의 메모리 망각 메커니즘과 같은 연구 분야에서 상당한 가능성을 보여줍니다. 더 나아가, DeepSeek-OCR은 높은 실용적 가치도 입증합니다. OmniDocBench에서, DeepSeek-OCR은 단 100개의 시각 토큰만으로 GOT-OCR2.0(페이지당 256 토큰)을 능가하며, MinerU2.0(평균 페이지당 6000개 이상의 토큰)보다 우수한 성능을 보이면서도 800개 미만의 시각 토큰을 사용합니다. 실제 생산 환경에서 DeepSeek-OCR은 단일 A100-40G GPU로 하루에 20만 페이지 이상의 LLM/VLM(대형 언어 모델/시각 언어 모델) 훈련 데이터를 생성할 수 있습니다. 코드와 모델 가중치는 http://github.com/deepseek-ai/DeepSeek-OCR에서 공개적으로 접근 가능합니다.
멀티모달 대형 언어 모델(MLLMs)이 비디오 캡셔닝에서 능숙함을 보여주었지만, 실제 응용에서는 포괄적이고 제약 없는 설명을 생성하는 대신 특정 사용자 지시를 따르는 캡션이 필요합니다. 그러나 현재 벤치마크는 주로 설명의 포괄성을 평가하는 반면, 지시 따르기 능력은 크게 간과하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 제어 가능한 비디오 캡셔닝을 평가하기 위한 새로운 벤치마크인 IF-VidCap을 소개합니다. 이 벤치마크는 1,400개의 고품질 샘플을 포함하고 있습니다. 기존의 비디오 캡셔닝 또는 일반적인 지시 따르기 벤치마크와는 달리, IF-VidCap은 형식 정확성과 내용 정확성이라는 두 가지 차원에서 캡션을 평가하는 체계적인 프레임워크를 통합합니다. 20개 이상의 주요 모델에 대한 포괄적인 평가 결과, 독점 모델의 지배력이 여전히 유지되고 있지만, 최상위 오픈소스 솔루션이 거의 동등한 성능을 달성하며 격차가 좁혀지고 있음을 보여줍니다. 또한, 복잡한 지시에서 밀도 높은 캡셔닝에 특화된 모델들이 일반 목적 MLLMs보다 성능이 떨어지는 것으로 나타나, 향후 연구는 설명의 풍부함과 지시 따르기의 충실도를 동시에 발전시켜야 함을 시사합니다.
확산 모델은 최첨단 생성 품질을 달성했지만, 여전히 계산 비용이 많이 드는 샘플링 문제를 겪고 있습니다. 최근 연구들은 전체 샘플링 과정에서 몇 단계의 ODE 확산 솔버를 추출하는 그래디언트 기반 최적화 방법을 통해 이 문제를 해결하고자 하여, 함수 평가 횟수를 수십 번에서 단 몇 번으로 줄였습니다. 그러나 이러한 접근 방식은 종종 복잡한 훈련 기법에 의존하며, 미세한 세부 사항을 보존하는 데 명시적으로 초점을 맞추지 않습니다. 본 논문에서는 추가적인 훈련 기법 없이도 기존 접근 방식보다 품질을 향상시키는 ODE 샘플러의 간단한 파라미터화인 Generalized Solver를 소개합니다. 또한, 원래의 추출 손실 함수에 적대적 훈련을 결합하여 아티팩트를 완화하고 세부 충실도를 향상시킵니다. 이를 Generalized Adversarial Solver라고 명명하며, 유사한 자원 제약 하에서 기존 솔버 훈련 방법과 비교하여 우수한 성능을 입증합니다. 코드는 https://github.com/3145tttt/GAS에서 확인할 수 있습니다.
대규모 언어 모델(LLM)을 개별 사용자 선호도에 맞춰 충실하게 개인화하는 것은 중요하지만 어려운 과제입니다. 지도 미세 조정(SFT)은 빠르게 성능 정체에 도달하며, 표준 인간 피드백 강화 학습(RLHF)도 개인화의 미묘한 차이를 다루는 데 어려움을 겪습니다. 스칼라 기반 보상 모델은 보상 해킹에 취약하여 장황하고 피상적으로 개인화된 응답을 생성하는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 더 충실하고 제어 가능한 개인화를 가능하게 하는 강력한 강화 학습 프레임워크인 Critique-Post-Edit를 제안합니다. 우리의 프레임워크는 두 가지 핵심 구성 요소를 통합합니다: (1) 보상 해킹에 저항하기 위해 다차원 점수와 텍스트 비평을 제공하는 개인화 생성 보상 모델(GRM), 그리고 (2) 정책 모델이 이러한 비평을 바탕으로 자신의 출력을 수정하여 더 목표 지향적이고 효율적인 학습을 가능하게 하는 Critique-Post-Edit 메커니즘입니다. 엄격한 길이 제어 평가 하에서, 우리의 방법은 개인화 벤치마크에서 표준 PPO를 크게 능가합니다. 개인화된 Qwen2.5-7B는 평균 11%의 승률 향상을 달성했으며, 개인화된 Qwen2.5-14B 모델은 GPT-4.1의 성능을 뛰어넘었습니다. 이러한 결과는 충실하고 효율적이며 제어 가능한 개인화를 위한 실용적인 경로를 보여줍니다.
최근 비전-언어 모델(VLMs)의 발전으로 다양한 멀티모달 작업에서 놀라운 진전이 이루어졌지만, 제한된 시각에서 3D 공간 관계를 이해하는 것은 여전히 큰 과제로 남아 있습니다. 기존의 추론 방법들은 일반적으로 순수 텍스트(예: 위상 인지 지도)나 2D 시각적 단서에 의존해 왔습니다. 그러나 이러한 방법들은 제한된 표현 능력으로 인해 3D 공간 상상력이 필요한 특정 작업에서 성능이 저하되는 문제가 있었습니다. 이러한 한계를 극복하기 위해, 우리는 인간처럼 추론 과정에서 이미지에 내재된 풍부한 기하학적 정보를 효과적으로 활용할 수 있는 3DThinker 프레임워크를 제안합니다. 우리의 프레임워크는 어떠한 3D 사전 입력 없이도 추론 중에 3D 멘탈링(mentaling)을 가능하게 하는 최초의 접근법이며, 명시적으로 레이블된 3D 데이터에 의존하지 않고도 학습이 가능합니다. 구체적으로, 우리의 학습은 두 단계로 구성됩니다. 먼저, VLM이 추론 중 생성한 3D 잠재 공간을 3D 기초 모델(예: VGGT)의 잠재 공간과 정렬하기 위해 지도 학습을 수행합니다. 그런 다음, 결과 신호만을 기반으로 전체 추론 궤적을 최적화하여 기본 3D 멘탈링을 개선합니다. 다양한 벤치마크에서 수행한 광범위한 실험을 통해 3DThinker가 강력한 베이스라인을 지속적으로 능가하며, 멀티모달 추론에 3D 표현을 통합하는 새로운 관점을 제공함을 입증했습니다. 우리의 코드는 https://github.com/zhangquanchen/3DThinker에서 공개될 예정입니다.
다국어 워터마킹은 대형 언어 모델(LLM)의 출력을 다양한 언어 간에 추적 가능하게 만드는 것을 목표로 하지만, 현재의 방법들은 여전히 한계를 보입니다. 교차 언어 강건성을 주장하지만, 이는 고자원 언어에서만 평가되고 있습니다. 우리는 기존의 다국어 워터마킹 방법들이 진정한 다국어가 아님을 보여줍니다: 중간 및 저자원 언어에서 번역 공격 하에 강건성을 유지하지 못합니다. 이 실패의 원인은 토크나이저 어휘가 특정 언어에 대해 충분한 전체 단어 토큰을 포함하지 않을 때 발생하는 의미적 클러스터링 실패로 추적됩니다. 이를 해결하기 위해, 우리는 STEAM을 소개합니다. 이는 번역을 통해 손실된 워터마킹 강도를 복원하는 역번역 기반 탐지 방법입니다. STEAM은 어떤 워터마킹 방법과도 호환되며, 다양한 토크나이저와 언어에 걸쳐 강건하고, 비침습적이며, 새로운 언어로 쉽게 확장 가능합니다. 17개 언어에서 평균 +0.19 AUC와 +40%p TPR@1%의 성능 향상을 보이며, STEAM은 다양한 언어에 걸쳐 공정한 워터마킹을 위한 간단하고 강건한 접근 방식을 제공합니다.
최근 멀티모달 대형 언어 모델(MLLM)의 발전은 AI의 시각적 양식 이해 능력을 크게 향상시켰습니다. 그러나 기존의 평가 벤치마크는 단일 턴 질의응답에 국한되어 있어, 실제 시나리오에서의 다중 턴 대화 복잡성을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 다중 턴 대화에서 MLLM을 평가하기 위한 종합적인 비디오 이해 벤치마크인 MT-Video-Bench를 소개합니다. 구체적으로, MT-Video-Bench는 지각력과 상호작용성에 초점을 맞춘 6가지 핵심 역량을 주로 평가하며, 다양한 도메인에서 신중하게 선별된 987개의 다중 턴 대화를 포함합니다. 이러한 역량은 인터랙티브 스포츠 분석 및 다중 턴 비디오 기반 지능형 튜터링과 같은 실제 응용 프로그램과 엄격하게 연계되어 있습니다. MT-Video-Bench를 통해 우리는 다양한 최첨단 오픈소스 및 클로즈드소스 MLLM을 광범위하게 평가하고, 다중 턴 비디오 대화 처리에서의 상당한 성능 차이와 한계를 밝혀냈습니다. 이 벤치마크는 향후 연구를 촉진하기 위해 공개될 예정입니다.
최근 비디오 생성 기술의 발전으로 콘텐츠 제작, 엔터테인먼트, 가상 현실 등 다양한 분야에서 시각적으로 매력적인 비디오를 제작할 수 있게 되었습니다. 그러나 대부분의 기존 확산 트랜스포머 기반 비디오 생성 모델은 출력 너비와 높이에 대한 어텐션 메커니즘의 이차 계산 복잡도로 인해 낮은 해상도(<=720P) 출력에 제한되어 있습니다. 이러한 계산적 병목 현상은 네이티브 고해상도 비디오 생성(1080P/2K/4K)을 학습 및 추론 모두에서 비실용적으로 만듭니다. 이러한 문제를 해결하기 위해, 우리는 i) 효율적이고 ii) 엔드투엔드 네이티브 고해상도 비디오 합성을 가능하게 하는 새로운 비디오 생성 프레임워크인 UltraGen을 제안합니다. 구체적으로, UltraGen은 전역-지역 어텐션 분해를 기반으로 한 계층적 이중 분기 어텐션 아키텍처를 특징으로 하며, 이를 통해 전체 어텐션을 고충실도 지역 콘텐츠를 위한 지역 어텐션 분기와 전반적인 의미 일관성을 위한 전역 어텐션 분기로 분리합니다. 또한, 우리는 전역 의존성을 효율적으로 학습하기 위한 공간적으로 압축된 전역 모델링 전략과, 서로 다른 지역 창 간의 정보 흐름을 강화하면서 계산 비용을 줄이기 위한 계층적 교차 창 지역 어텐션 메커니즘을 제안합니다. 광범위한 실험을 통해 UltraGen이 사전 학습된 저해상도 비디오 모델을 1080P 및 4K 해상도로 효과적으로 확장할 수 있음을 입증하였으며, 이는 기존의 최첨단 방법과 초해상도 기반의 두 단계 파이프라인을 질적 및 양적 평가 모두에서 능가하는 것으로 나타났습니다.
데이터 품질은 대규모 언어 모델(LLM)의 지도 미세 조정(SFT)을 향상시키는 데 중요한 역할을 하며, 토큰 수준 데이터 선택은 그 세밀한 특성으로 인해 유망한 방향으로 부상하고 있습니다. 강력한 실험적 성능에도 불구하고, 기존의 토큰 수준 선택 방법은 두 가지 주요 한계를 공유합니다: (1) 추가 참조 모델의 학습 또는 접근이 필요하며, (2) 손실 정보에만 의존하여 토큰을 선택함으로써 손실 기반 메트릭에서 선호되지 않는 의미적으로 중요한 토큰을 잘 보존하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 자체 조정 및 의미 인식 토큰 선택 접근법인 ssToken을 제안합니다. ssToken은 쉽게 접근할 수 있는 이력 모델을 활용하여 현재 모델과의 토큰별 손실 차이를 계산하며, 이는 모델이 최적화 궤적을 따라 토큰을 적응적으로 선택할 수 있도록 하는 자체 조정 신호로 작용합니다. 이는 기존 연구에서와 같이 오프라인으로 학습된 참조 모델의 과도한 손실에 의존하지 않습니다. 또한, 우리는 손실 기반 선택과 직교하며 보완적인 의미 정보를 제공하는 의미 인식, 주의 기반 토큰 중요도 추정 메트릭을 도입하여 더 효과적인 필터링을 가능하게 합니다. 다양한 모델 패밀리와 규모에 걸친 광범위한 실험을 통해, 자체 조정 선택과 의미 인식 선택 각각이 전체 데이터 미세 조정을 능가하는 반면, 이 둘을 통합한 ssToken은 시너지 효과를 달성하고 기존 토큰 수준 선택 방법을 더욱 능가하며, 훈련 효율성을 유지하면서 성능 향상을 제공함을 입증했습니다.
원본 CLIP 텍스트 인코더는 최대 77개의 토큰 입력 길이로 제한되어 있어, 긴 텍스트를 효과적으로 처리하고 세밀한 의미 이해를 수행하는 데 어려움을 겪습니다. 또한, CLIP 텍스트 인코더는 다국어 입력을 지원하지 않습니다. 이러한 제한 사항들은 다양한 작업에 대한 적용 가능성을 크게 제한합니다. 최근 연구에서는 CLIP 텍스트 인코더를 대체하여 LLM(Large Language Model) 기반 임베더를 사용함으로써 긴 텍스트 처리, 다국어 이해, 그리고 세밀한 의미 이해 능력을 향상시키려는 시도가 있었습니다. 그러나 LLM과 CLIP의 시각-언어 공간은 사전 학습 시 독립적으로 학습되며 정렬 사전 정보가 없기 때문에, 대조 학습을 통한 직접 정렬은 CLIP 이미지 인코더의 내재된 시각-언어 정렬을 방해하여 사전 학습 중 획득한 지식을 충분히 활용하지 못하게 합니다. 이러한 문제를 해결하기 위해, 우리는 ProCLIP을 제안합니다. ProCLIP은 커리큘럼 학습 기반의 점진적 시각-언어 정렬 프레임워크로, CLIP 이미지 인코더와 LLM 기반 임베더를 효과적으로 정렬합니다. 구체적으로, ProCLIP은 먼저 CLIP 텍스트 인코더의 지식을 LLM 기반 임베더로 전이하여 CLIP의 풍부한 사전 학습 지식을 활용하면서 LLM 임베더와 CLIP 이미지 인코더 간의 초기 정렬을 설정합니다. 이후, ProCLIP은 이미지-텍스트 대조 튜닝을 통해 CLIP 이미지 인코더와 LLM 기반 임베더를 추가로 정렬하며, 과적합을 방지하기 위해 자기 전이 정규화를 사용합니다. 더 효과적인 정렬을 위해, 표현 상속 및 대조 튜닝 과정에서 인스턴스 의미 정렬 손실과 임베딩 구조 정렬 손실을 적용합니다. 코드는 https://github.com/VisionXLab/ProCLIP에서 확인할 수 있습니다.
최근 몇 년 동안 이미지, 비디오, 3D 객체/장면과 같은 시각적 콘텐츠를 위한 대규모 생성 모델이 눈부신 발전을 이루었습니다. 그러나 대규모 비디오 생성 모델의 훈련은 크로스모달 텍스트-비디오 정렬, 긴 시퀀스, 복잡한 시공간적 의존성으로 인해 특히 어렵고 자원 집약적인 작업으로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 데이터 처리, 모델 아키텍처, 훈련 전략, 대규모 비디오 생성 모델을 위한 인프라라는 네 가지 기둥을 최적화하는 훈련 프레임워크를 제시합니다. 이러한 최적화는 데이터 전처리, 비디오 압축, 파라미터 스케일링, 커리큘럼 기반 사전 훈련, 정렬 중심 사후 훈련 등 모든 단계에서 상당한 효율성 향상과 성능 개선을 가져왔습니다. 그 결과로 개발된 MUG-V 10B 모델은 최신 최첨단 비디오 생성기와 전반적으로 동등한 성능을 보이며, 특히 전자상거래 지향 비디오 생성 작업에서는 주요 오픈소스 베이스라인을 인간 평가에서 능가합니다. 더 중요한 것은, 우리는 모델 가중치, Megatron-Core 기반 대규모 훈련 코드, 비디오 생성 및 향상을 위한 추론 파이프라인을 포함한 전체 스택을 오픈소스로 공개했습니다. 우리가 아는 한, 이는 Megatron-Core를 활용하여 높은 훈련 효율성과 거의 선형적인 다중 노드 스케일링을 달성한 대규모 비디오 생성 훈련 코드의 첫 번째 공개 릴리스입니다. 자세한 내용은 https://github.com/Shopee-MUG/MUG-V{우리 웹페이지}에서 확인할 수 있습니다.
동적 공간 관계에 대한 추론은 관찰자와 객체가 동시에 움직이는 경우가 많기 때문에 필수적입니다. 비전-언어 모델(VLMs)과 시각 전문가 모델은 2D 작업과 정적 시나리오에서 뛰어난 성능을 보이지만, 동적 3D 시나리오를 완전히 이해하는 능력은 여전히 제한적입니다. 우리는 동적 공간 지능(Dynamic Spatial Intelligence)을 소개하고, 관찰자와 객체의 9가지 분리된 운동 패턴을 다루는 약 1,000개의 동적 비디오와 1,700개 이상의 수동으로 주석이 달린 질문으로 구성된 DSI-Bench 벤치마크를 제안합니다. 공간적 및 시간적으로 대칭적인 설계는 편향을 줄이고 모델의 자기 운동 및 객체 운동에 대한 추론을 체계적으로 평가할 수 있게 합니다. 14개의 VLM과 전문가 모델을 평가한 결과, 주요 한계점이 드러났습니다: 모델들은 종종 관찰자와 객체의 운동을 혼동하고, 의미론적 편향을 보이며, 동적 시나리오에서 상대적 관계를 정확히 추론하지 못합니다. 우리의 DSI-Bench는 동적 공간 지능을 갖춘 일반 및 전문가 모델의 미래 개발에 대한 귀중한 발견과 통찰을 제공합니다.
대형 언어 모델(LLM) 에이전트가 자동화된 트레이딩에서 유망한 가능성을 보여주고 있지만, 여전히 중요한 한계에 직면해 있습니다. 주요 다중 에이전트 프레임워크는 종종 비효율성으로 인해 고통받고, 일관되지 않은 신호를 생성하며, 시장 피드백으로부터 일관된 전략을 학습하기 위한 종단 간 최적화가 부족합니다. 이를 해결하기 위해, 우리는 AlphaQuanter를 소개합니다. AlphaQuanter는 강화 학습(RL)을 사용하여 투명하고 도구가 강화된 의사결정 워크플로우에 대한 동적 정책을 학습하는 단일 에이전트 프레임워크로, 단일 에이전트가 도구를 자율적으로 조율하고 필요에 따라 정보를 능동적으로 획득할 수 있도록 하여 투명하고 감사 가능한 추론 프로세스를 구축합니다. 광범위한 실험을 통해 AlphaQuanter가 주요 금융 지표에서 최첨단 성능을 달성함을 입증했습니다. 또한, 해석 가능한 추론은 정교한 전략을 드러내어 인간 트레이더에게 새롭고 가치 있는 통찰을 제공합니다. 데이터 수집 및 에이전트 학습을 위한 우리의 코드는 https://github.com/AlphaQuanter/AlphaQuanter에서 공개적으로 이용 가능합니다.
본 연구에서는 사후 학습된 모델로부터 상당량의 정렬 훈련 데이터를 추출할 수 있음을 보여주며, 이러한 데이터는 장문 맥락 추론, 안전성, 지시 따르기, 수학 능력 등 특정 능력을 개선하기 위해 모델을 조정하는 데 유용합니다. 기존의 대부분의 관련 연구들은 문자열 매칭을 통해 훈련 데이터 추출의 성공을 측정하는 데 초점을 맞추었지만, 우리는 임베딩 모델이 우리의 특정 목표에 더 적합하다고 주장합니다. 고품질 임베딩 모델을 통해 측정된 거리는 편집 거리와 같은 다른 메트릭이 포착하기 어려운 문자열 간의 의미적 유사성을 식별할 수 있습니다. 실제로 우리의 조사에서, 근사 문자열 매칭은 메트릭을 과소평가하는 사소한 아티팩트로 인해 추출 가능한 데이터의 양을 (보수적으로 10배까지) 심각하게 과소평가했을 것입니다. 흥미롭게도, 모델들은 SFT(Supervised Fine-Tuning)나 RL(Reinforcement Learning)과 같은 사후 학습 단계에서 사용된 훈련 데이터를 쉽게 재생산하는 것으로 나타났습니다. 우리는 이러한 데이터를 기본 모델을 훈련하는 데 사용하여 원래 성능의 상당 부분을 회복할 수 있음을 보여줍니다. 우리의 연구는 정렬 데이터 추출과 관련해 간과되었을 가능성이 있는 위험을 드러낸다고 믿습니다. 마지막으로, 우리의 연구는 증류(distillation) 관행의 하류 효과에 대한 흥미로운 논의를 열어줍니다: 모델들이 자신의 훈련 데이터셋의 일부를 재생산하는 것으로 보이기 때문에, 증류는 간접적으로 모델의 원래 데이터셋에 대해 훈련하는 것으로 생각할 수 있습니다.
대규모 멀티모달 모델(LMMs)을 사용한 비디오 추론은 비용이 많이 드는 강화 학습(RL)과 장황한 사고의 연쇄(chain-of-thought)에 의존하기 때문에 학습과 추론 과정에서 상당한 계산 오버헤드가 발생합니다. 또한, 이러한 추론 모델에서 사고 과정을 제어하는 메커니즘은 매우 제한적입니다. 본 논문에서는 모델 출력의 엔트로피를 신호로 사용하여 고품질 모델이 일련의 미세 탐색(micro-exploration)과 미세 활용(micro-exploitation)을 거치며 추론 과정을 기반으로 유지한다는 것을 발견했습니다(즉, 모델이 답을 탐색하거나 사고하는 동안 과도한 무작위성을 피함). 또한, 이러한 "사고" 과정이 끝나면 더 정확한 모델은 최종 활용 단계를 통해 엔트로피를 크게 줄이며 더 나은 수렴을 보여준다는 것을 관찰했습니다(즉, 해결 경로에 대한 더 확실한 수렴). 이러한 이론적으로 근거를 둔 새로운 통찰을 활용하여, 우리는 RL이나 지도 미세 조정 없이 추론 단계에서 직접 모델의 행동을 조정합니다. 구체적으로, 추론 중에 제안된 접근 방식인 V-Reason(Video-Reason)은 엔트로피 기반 목적 함수를 사용하여 작은 학습 가능한 컨트롤러에서 몇 번의 최적화 단계를 통해 LMM의 값 캐시(value cache)를 조정합니다. 즉, 데이터셋이나 RL로부터의 감독이 필요하지 않습니다. 이 조정은 추론 중 모델의 미세 탐색과 활용 행동을 개선합니다. 실험 결과, 제안된 방법은 여러 비디오 추론 데이터셋에서 기본 지시 미세 조정(instruction-tuned) 모델 대비 상당한 개선을 달성하며, RL로 학습된 모델과의 평균 정확도 차이를 0.6% 이내로 좁히면서도 학습 없이도 대규모 효율성 이점을 제공합니다: 출력 토큰이 RL 모델 대비 58.6% 감소합니다.
의료 진단 애플리케이션은 다중 모달 의료 입력(이미지, 환자 기록, 검사 결과)을 처리하고 텍스트 보고서와 시각적 콘텐츠(주석, 분할 마스크, 이미지)를 포함한 다양한 출력을 생성할 수 있는 모델을 필요로 합니다. 이러한 필요에도 불구하고, 기존의 의료 AI 시스템은 이 통합 프로세스를 단절시킵니다: 의료 이미지 이해 모델은 이미지를 해석하지만 시각적 출력을 생성할 수 없고, 의료 이미지 생성 모델은 이미지를 합성하지만 텍스트 설명을 제공할 수 없습니다. 이로 인해 데이터 표현, 특징 통합, 작업 수준의 다중 모달 능력에 격차가 발생합니다. 이를 해결하기 위해, 우리는 관찰-지식-분석(OKA) 패러다임을 통해 진단 워크플로우에서 영감을 얻은 다중 수준 프레임워크를 제안합니다. 구체적으로, 관찰 수준에서는 560만 개 이상의 샘플로 구성된 UniMed-5M 데이터셋을 구축하여 다양한 단일 모달 데이터를 다중 모달 쌍으로 재구성하여 기초 관찰을 가능하게 합니다. 지식 수준에서는 의료 다중 모달 지식을 체계적으로 도입하는 Progressive Curriculum Learning을 제안합니다. 분석 수준에서는 단일 아키텍처 내에서 이미지 이해 및 생성 작업을 동시에 분석할 수 있는 최초의 의료 통합 다중 모달 모델인 UniMedVL을 소개합니다. UniMedVL은 다섯 개의 의료 이미지 이해 벤치마크에서 우수한 성능을 달성하며, 여덟 개의 의료 이미징 모달리티에서 특화된 모델과 동등한 생성 품질을 보입니다. 무엇보다도, 우리의 통합 아키텍처는 양방향 지식 공유를 가능하게 합니다: 생성 작업은 시각적 이해 특징을 강화하며, 전통적으로 분리된 능력을 단일 의료 프레임워크 내에서 통합함으로써 다양한 의료 시각-언어 작업 전반에 걸쳐 개선을 이끌어냅니다. 코드는 https://github.com/uni-medical/UniMedVL에서 확인할 수 있습니다.
우리는 교번 노출로 촬영된 단안(monocular) 저다이나믹 레인지(LDR) 비디오에서 렌더링 가능한 4차원 고다이나믹 레인지(HDR) 장면을 복원하는 최초의 시스템인 Mono4DGS-HDR을 소개합니다. 이러한 도전적인 문제를 해결하기 위해, 우리는 가우시안 스플래팅(Gaussian Splatting) 기반의 2단계 최적화 접근법을 통합한 프레임워크를 제안합니다. 첫 번째 단계에서는 정사영 카메라 좌표 공간에서 비디오 HDR 가우시안 표현을 학습함으로써 카메라 포즈가 필요 없이 견고한 초기 HDR 비디오 복원을 가능하게 합니다. 두 번째 단계에서는 비디오 가우시안을 월드 공간으로 변환하고, 월드 가우시안과 카메라 포즈를 함께 정제합니다. 또한, HDR 외관의 시간적 일관성을 향상시키기 위해 시간적 휘도 정규화 전략을 제안합니다. 우리의 작업은 이전에 연구된 바가 없기 때문에, 공개적으로 사용 가능한 데이터셋을 활용하여 HDR 비디오 복원을 위한 새로운 평가 벤치마크를 구축했습니다. 광범위한 실험을 통해 Mono4DGS-HDR이 최신 방법들을 적용한 대안적 솔루션들보다 렌더링 품질과 속도 모두에서 크게 우수함을 입증했습니다.
대규모 언어 모델(LLMs)은 자연어에서 강력한 추론 능력을 갖추고 있지만, 그 행동은 일반적으로 어휘 토큰을 출력하는 데 국한됩니다. 이로 인해 기호 연산자나 시뮬레이터와 같은 외부 환경과의 상호작용은 미리 정의된 형식의 텍스트로 표현되고, 파싱된 후 외부 인터페이스로 전달되어야 합니다. 이는 모델의 언어에 추론과 제어의 두 가지 역할을 과도하게 부여하며, LLM 외부에서 수작업으로 제작된 파서를 필요로 합니다. 이를 해결하기 위해, 우리는 환경 상호작용을 언어와 분리하여 어휘를 넘어선 확장된 행동 공간(Expanded Action space, ExpA) 내부로 내재화했습니다. 모델은 기본 언어 환경에서 추론을 시작하지만, 언제든지 라우팅 행동을 트리거하고 외부 환경으로 전환할 수 있습니다. 그곳에서 모델은 환경 특정 행동만을 호출하고, 환경으로부터 피드백을 받으며, 결과적으로 언어로 다시 라우팅될 수 있습니다. 확장된 행동 공간과 새로운 환경의 효과적인 탐색을 촉진하기 위해, 우리는 반사실적 정책 최적화를 포함한 ExpA 강화 학습(ExpA Reinforcement Learning, EARL)을 도입했습니다. 다중 턴 상호작용과 조건적 계획이 필요한 작업에서 EARL은 어휘 제약 행동을 사용하는 강력한 베이스라인을 능가합니다. 계산기 기반의 다중 작업 학습에서 견고한 성능을 보이며, 부분적으로 관찰된 정렬 문제에서는 고전적인 설계와 경쟁력 있는 효율적인 알고리즘을 자체적으로 발견하면서 Sort-4 정확도에서 완벽한 성과를 달성했습니다.
코드 에이전트는 GitHub과 같은 플랫폼에서 버그를 자율적으로 수정하는 데 점점 더 신뢰받고 있지만, 그들의 보안 평가는 거의 전적으로 기능적 정확성에 초점을 맞추고 있습니다. 본 논문에서는 실제 코드 에이전트에 대한 새로운 유형의 위협을 밝힙니다: 기능적으로는 정확하지만 취약한 코드를 포함하는 '기능적 정확성 취약 패치'(FCV)입니다. 우리가 제안한 FCV-공격은 악의적인 공격자가 의도적으로 만들거나 선의의 개발자에 의해 암묵적으로 도입될 수 있으며, 이를 통해 SOTA LLM(예: ChatGPT 및 Claude)과 에이전트 스캐폴드(예: SWE-agent 및 OpenHands)가 모두 이 FCV 위협에 취약함을 보여줍니다. SWE-Bench에서 12개의 에이전트-모델 조합에 걸쳐, 이 공격은 코드 에이전트에 대한 블랙박스 접근과 단일 쿼리만으로 수행될 수 있습니다. 예를 들어, CWE-538(정보 노출 취약점)의 경우, FCV-공격은 GPT-5 Mini + OpenHands에서 40.7%의 공격 성공률을 달성했습니다. 우리의 결과는 현재의 평가 패러다임에서 간과된 중요한 보안 위협을 드러내며, 코드 에이전트를 위한 보안 인식 방어 개발의 필요성을 촉구합니다.
대규모 멀티모달 모델(LMMs)이 과학 연구에 점점 더 많이 적용되고 있지만, 이러한 모델들이 논문의 멀티모달 복잡성을 신뢰할 수 있게 이해하고 추론할 수 있는지는 여전히 불분명합니다. 주요 과제는 텍스트, 그림, 표, 수식 간의 불일치를 탐지하고 해결하는 데 있으며, 이러한 문제는 종종 미묘하고 도메인 특화적이며 궁극적으로 명확성, 재현성, 신뢰를 훼손합니다. 기존 벤치마크는 이 문제를 간과하여 단일 모달리티를 분리하거나 실제 세계의 복잡성을 제대로 반영하지 못하는 합성 오류에 의존합니다. 우리는 PRISMM-Bench(Peer-Review-sourced Inconsistency Set for Multimodal Models)를 소개합니다. 이는 과학 논문에서 실제 리뷰어가 지적한 불일치를 기반으로 한 최초의 벤치마크입니다. 리뷰 마이닝, LLM 지원 필터링 및 인간 검증의 다단계 파이프라인을 통해 242편의 논문에서 262개의 불일치를 선별했습니다. 이를 바탕으로 불일치 식별, 수정 및 쌍 매칭이라는 세 가지 작업을 설계하여 모델이 다양한 모달리티 간의 불일치를 탐지, 수정 및 추론하는 능력을 평가합니다. 또한, 다중 선택 평가에서 모델이 질문을 진정으로 이해하지 않고 답변 패턴을 악용하는 선택 전용 단축키 문제를 해결하기 위해, 언어적 편향을 최소화하고 표면적인 스타일적 단서에 대한 의존을 줄이는 구조화된 JSON 기반 답변 표현을 추가로 도입했습니다. 우리는 GLM-4.5V 106B, InternVL3 78B와 같은 대형 오픈 웨이트 모델과 Gemini 2.5 Pro, 고급 추론 기능을 갖춘 GPT-5와 같은 독점 모델을 포함한 21개의 주요 LMM을 벤치마크했습니다. 결과는 매우 낮은 성능(26.1-54.2%)을 보여주며, 멀티모달 과학 추론의 어려움을 강조하고 신뢰할 수 있는 과학 보조 도구를 향한 진전을 촉구합니다.
재현 가능한 과학의 기초는 정확하고 논리적으로 정렬되어 실행 가능한 프로토콜에 있습니다. 자연어 질의를 통해 이러한 프로토콜을 자율적으로 생성하는 것은 재현 과정의 효율성을 크게 향상시킬 수 있습니다. 그러나 현재 주도적인 대형 언어 모델(LLMs)은 종종 불완전하거나 일관성 없는 프로토콜을 생성하여 그 유용성을 제한하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 먼저 27개의 생물학 하위 분야를 아우르며 이해와 문제 해결 과제를 포함한 12,000개 이상의 구조화된 프로토콜로 구성된 대규모 데이터셋인 SciRecipe를 소개합니다. 프로토콜 생성을 더욱 개선하기 위해, 우리는 각 단계가 명시적이고 검증 가능하도록 분석, 구조화, 표현을 분리하는 "스케치-앤-필(Sketch-and-Fill)" 패러다임을 제안합니다. 이를 보완하기 위해, 구조화된 구성 요소 기반 보상 메커니즘은 단계 세분성, 동작 순서, 의미적 충실도를 평가하여 모델 최적화를 실험적 신뢰성과 일치시킵니다. 이러한 구성 요소를 바탕으로, 우리는 지식 습득에서 운영적 추론을 거쳐 견고하고 실행 가능한 프로토콜 생성에 이르는 단계적 지식-행동(Knowledge-to-Action) 과정을 통해 훈련된 Thoth를 개발합니다. 여러 벤치마크에서 Thoth는 독점 및 오픈소스 LLMs를 일관되게 능가하며, 단계 정렬, 논리적 순서, 의미적 정확성에서 상당한 개선을 달성합니다. 우리의 접근 방식은 지식과 실험적 실행을 연결하는 신뢰할 수 있는 과학적 보조 도구의 길을 열어줍니다. 모든 데이터, 코드, 모델은 공개될 예정입니다.
이미지 품질은 웹 플랫폼에서 시각적으로 매력적인 콘텐츠를 제공하는 데 있어 중요한 요소입니다. 그러나 온라인 소셜 네트워크(OSNs)에서 적용되는 손실 압축 작업으로 인해 이미지가 저하되는 경우가 많아 사용자 경험에 부정적인 영향을 미칩니다. 이미지 복원은 주어진 저하된 입력에서 깨끗한 고품질 이미지를 복구하는 과정입니다. 최근에는 다양한 유형의 이미지 저하를 동시에 처리할 수 있는 다중 작업(올인원) 이미지 복원 모델이 큰 관심을 받고 있습니다. 그러나 이러한 모델들은 훈련 가능한 매개변수의 수가 지나치게 많아 계산적으로 비효율적인 경우가 많습니다. 본 논문에서는 다중 작업 이미지 복원 모델을 압축하기 위한 전략을 제안합니다. 우리는 과매개변수화된 심층 모델 내에서 고밀도의 대응 모델의 성능을 맞추거나 능가할 수 있는 고도로 희소한 서브네트워크를 발견하는 것을 목표로 합니다. 제안된 모델인 MIR-L은 여러 라운드에 걸쳐 낮은 크기의 가중치를 제거하면서 남은 가중치를 원래 초기화 값으로 재설정하는 반복적 가지치기 전략을 활용합니다. 이 반복적 과정은 다중 작업 이미지 복원 모델의 최적화에 중요하며, 높은 희소성 수준에서도 최첨단 성능을 유지하거나 능가하는 "승자 티켓"을 효과적으로 발견합니다. 비 제거, 안개 제거, 노이즈 제거 작업에 대한 벤치마크 데이터셋에서의 실험 평가 결과, MIR-L은 훈련 가능한 매개변수의 10%만을 유지하면서도 높은 이미지 복원 성능을 유지하는 것으로 나타났습니다. 우리의 코드, 데이터셋 및 사전 훈련된 모델은 https://github.com/Thomkat/MIR-L에서 공개되어 있습니다.
대규모 언어 모델 추론에서의 핵심 과제는 생성 속도와 출력 품질 간의 균형을 맞추는 것입니다. 자기회귀 모델은 고품질의 텍스트를 생성하지만 토큰을 순차적으로 생성합니다. 확산 모델은 토큰을 병렬로 생성할 수 있지만 동일한 품질을 달성하기 위해 많은 반복이 필요합니다. 우리는 두 패러다임의 장점을 결합한 하이브리드 방법인 계획적 확산(planned diffusion)을 제안합니다. 계획적 확산은 두 단계로 작동합니다: 첫째, 모델이 출력을 더 작고 독립적인 구간으로 나누는 짧은 자기회귀 계획을 생성합니다. 둘째, 모델이 확산을 사용하여 이러한 구간을 동시에 생성합니다. 이 접근 방식은 속도-품질 파레토 최적 경계를 확장하고 더 빠르고 고품질의 텍스트 생성을 위한 실용적인 경로를 제공합니다. 805개의 명령어 수행 프롬프트로 구성된 AlpacaEval에서, 계획적 확산은 품질과 지연 시간 간의 파레토 최적 균형을 달성하며, 자기회귀 생성 대비 1.27배에서 1.81배의 속도 향상을 보이면서 승률은 각각 0.87%에서 5.4%만 감소했습니다. 우리의 민감도 분석은 계획적 확산의 계획 메커니즘이 최소화되고 신뢰할 수 있으며, 품질-지연 시간 균형을 유연하게 제어할 수 있는 간단한 런타임 조절 장치가 있음을 보여줍니다.
대형 언어 모델(LLMs)은 강력하지만 피상적인 정렬(alignment)을 보입니다: 이들은 어시스턴트 차례의 시작 부분에서 거부가 예상될 때 유해한 질문을 직접 거부하지만, 일단 유해한 연속이 진행되면(적대적 공격이나 유해한 어시스턴트-프리필 공격을 통해) 이러한 보호 기능이 무너집니다. 이는 근본적인 질문을 제기합니다: LLMs의 내재된 피상적 정렬을 활용하여 임의의 생성 깊이에서도 안전성을 보장할 수 있을까요? 이를 달성하기 위해 우리는 Any-Depth Alignment(ADA)를 제안합니다. ADA는 미미한 오버헤드로 효과적인 추론 시점 방어 기법입니다. ADA는 정렬이 얕은 거부 훈련에서 반복적으로 사용됨으로써 어시스턴트 헤더 토큰에 집중되어 있으며, 이러한 토큰이 모델의 강력한 정렬 사전 지식을 가지고 있다는 관찰에 기반을 두고 있습니다. 이러한 토큰을 중간에 재도입함으로써, ADA는 모델이 유해성을 재평가하고 생성의 어느 지점에서든 거부를 회복하도록 유도합니다. 다양한 오픈소스 모델 패밀리(Llama, Gemma, Mistral, Qwen, DeepSeek, gpt-oss)에서 ADA는 기본 모델의 매개변수를 변경하지 않고도 견고한 안전성 성능을 달성합니다. 이는 수십에서 수천 개의 토큰에 이르는 도전적인 적대적 프리필 공격에 대해 거의 100%에 가까운 거부율을 보장합니다. 더 나아가, ADA는 주요 적대적 프롬프트 공격(예: GCG, AutoDAN, PAIR, TAP)의 평균 성공률을 3% 미만으로 줄입니다. 이 모든 것은 양성 작업에서의 유용성을 보존하면서 최소한의 과도한 거부로 이루어집니다. ADA는 기본 모델이 후속 지시 튜닝(양성이든 적대적이든)을 거친 후에도 이러한 회복력을 유지합니다.
명령어 튜닝된 대형 언어 모델(IT-LLMs)은 강력한 제로샷 추론 능력을 보이지만, 복잡한 명령어 수행의 기초가 되는 간단하고 독립적인 명령어 실행 능력은 아직 충분히 탐구되지 않았다. 우리는 수정된 MMLU 및 MMLU-Pro 벤치마크를 사용하여 20개의 IT-LLMs을 평가하였으며, 옵션 레이블의 형식(알파벳, 숫자, 로마자)을 체계적으로 변경하면서 그 의미를 동일하게 유지하는 네 가지 패러다임을 적용하였다: (1) 명시적 지시가 있는 경우, 레이블 변경은 큰 성능 변화를 초래하며(예: 로마자 대 숫자 -30.45%), 명령어 형식 편향을 드러낸다. (2) 지시가 없는 경우, 성능은 더욱 하락하며(최대 -10.84%) 레이블 민감도가 강화되어 명시적 지도의 역할을 강조한다. (3) 옵션 내용이 제거된 경우, 숫자 레이블을 제외하고 모델은 무작위 선택 기준선을 달성하지 못하며, 이는 원자적 지시에 대한 약한 준수를 시사한다. (4) 세 가지 샷 예제는 견고성이나 충실도에서 유의미한 향상을 가져오지 않으며, 생성 분석은 특히 비숫자 형식에서 지속적인 레이블 오류를 보여준다. 모델 크기에 걸쳐, 더 큰 LLMs은 더 높은 정확도를 달성하지만 명령어 준수에서 일관성을 유지하지 못한다. 이러한 결과는 현재의 명령어 튜닝 패러다임의 부족함을 드러내며, 원자적 명령어 수행을 명시적으로 목표로 하는 평가 방법과 훈련 전략의 필요성을 강조한다.
인공 에이전트가 단순히 의사소통하는 것을 넘어 진화하고 적응하며, 우리가 완전히 예측할 수 없는 방식으로 그들의 세계를 재구성할 수 있다면 어떨까? LLM(대형 언어 모델)이 다중 에이전트 시스템과 사회 시뮬레이션을 구동함에 따라, 우리는 끝없이 변화하는 환경을 모델링할 수 있는 새로운 가능성을 목격하고 있다. 그러나 현재 대부분의 시뮬레이션은 사전 정의된 작업, 제한된 역학, 그리고 경직된 평가 기준으로 특징지어지는 정적 샌드박스 내에 갇혀 있다. 이러한 한계는 실제 사회의 복잡성을 포착하는 것을 방해한다. 본 논문에서 우리는 정적이고 작업 중심의 벤치마크가 근본적으로 부적합하며 재고되어야 한다고 주장한다. 우리는 LLM과 다중 에이전트 역학을 결합한 신흥 아키텍처를 비판적으로 검토하고, 안정성과 다양성의 균형, 예상치 못한 행동의 평가, 더 큰 복잡성으로의 확장과 같은 주요 장애물을 강조하며, 이 빠르게 진화하는 분야를 위한 새로운 분류 체계를 소개한다. 마지막으로, 우리는 개방성, 지속적인 공진화, 그리고 회복력 있고 사회적으로 조화된 AI 생태계의 개발에 초점을 맞춘 연구 로드맵을 제시한다. 우리는 커뮤니티가 정적 패러다임을 넘어 적응적이고 사회적으로 인식된 다중 에이전트 시뮬레이션의 다음 세대를 형성하는 데 도움을 줄 것을 촉구한다.
우리는 글로벌 테러리즘 데이터베이스(GTD, 1970-2016)를 사용하여 주간 테러 사건 발생 횟수에 대한 단기 예측을 연구한다. 고정된 시간 기반 분할을 통해 재현 가능한 파이프라인을 구축하고, 양방향 LSTM(BiLSTM)을 강력한 고전적 기준 모델(계절성 나이브, 선형/ARIMA) 및 심층 LSTM-어텐션 기준 모델과 비교 평가한다. 테스트 세트에서 BiLSTM은 RMSE 6.38을 달성하며, LSTM-어텐션(9.19; +30.6%) 및 선형 지연 회귀 기준 모델(+35.4% RMSE 개선)을 능가하며, MAE와 MAPE에서도 병렬적인 개선을 보인다. 시간적 메모리, 학습 기록 길이, 공간적 세분화, 회고 기간 및 특징 그룹을 변화시키는 절제 실험을 통해, 장기 역사 데이터로 학습된 모델이 가장 우수한 일반화 성능을 보이며, 중간 정도의 회고 기간(20-30주)이 강력한 문맥을 제공하고, 양방향 인코딩이 창 내의 사건 발생 전후 패턴을 포착하는 데 중요함을 확인한다. 특징 그룹 분석은 단기 구조(지연된 횟수 및 롤링 통계)가 가장 큰 기여를 하며, 지리적 및 사상자 특징이 점진적인 성능 향상을 제공함을 나타낸다. 코드, 설정 파일 및 간결한 결과 테이블을 공개하고, GTD 라이선스 및 연구 전용 사용을 문서화한 데이터/윤리 성명서를 제공한다. 전반적으로, 이 연구는 GTD 사건 예측을 위한 투명하고 기준 모델을 능가하는 참고 자료를 제공한다.
신뢰할 수 있고 검증 가능한 데이터는 현대 언어 모델의 능력 향상을 위한 핵심 동인으로 자리 잡았으며, 검증 가능한 보상을 통한 안정적인 강화 학습과 수학, 코딩, 에이전트 작업 간의 역량 전달을 가능하게 하는 효과적인 지식 증류를 가능케 합니다. 그러나 일반화 가능한 합성 검증 데이터를 구축하는 것은 환각(halucination)이 발생하기 쉬운 생성 과정과 강력한 솔루션과 약한 솔루션을 구분하지 못하는 취약하거나 사소한 검증 아티팩트로 인해 여전히 어려운 과제입니다. 기존의 접근 방식은 종종 도메인 간에 전달되지 않는 작업별 휴리스틱이나 사후 필터에 의존하며, 검증 가능성을 평가할 수 있는 원칙적이고 보편적인 평가자가 부족합니다. 본 연구에서는 최소한의 시드 감독으로부터 문제, 다양한 후보 솔루션, 검증 아티팩트를 공동으로 합성하고, 인간 주석과 전략 유도 검사 간의 일관성을 강제하는 일관성 기반 평가자를 통해 전략을 반복적으로 발견하는 진화적, 작업-불가지론적, 전략-지도적, 실행 가능한 검사 데이터 합성 프레임워크를 소개합니다. 이 파이프라인은 필터링을 원칙적인 합성으로 업그레이드합니다: 이는 일관적이고 검증 가능한 훈련 인스턴스를 신뢰성 있게 조립하며 도메인별 규칙 없이 일반화합니다. 우리의 실험은 제안된 접근 방식이 RLVR 및 모델 증류 훈련 패러다임 하에서 효과적임을 입증합니다. 결과는 우리가 합성한 데이터로 훈련한 모델이 LiveCodeBench 및 AgentBench-OS 작업에서 상당한 개선을 보여주며, 우리 프레임워크의 강력한 일반화 능력을 강조합니다.
도구 강화 대형 언어 모델(LLMs)은 복잡한 질의를 분해하고, 외부 증거를 검색하며, 근거 있는 응답을 종합하는 심층 연구 에이전트로서 주목받고 있습니다. 그러나 현재의 에이전트들은 피상적인 검색, 약한 정렬 지표, 그리고 취약한 도구 사용 행동으로 인해 한계를 보이고 있습니다. 우리는 강건성, 정렬, 확장성을 위한 통합 강화 학습 프레임워크 하에 구축된 7B 파라미터 심층 연구 에이전트인 PokeeResearch-7B를 소개합니다. PokeeResearch-7B는 사실적 정확성, 인용 충실도, 지시 준수를 포착하는 LLM 기반 보상 신호를 사용하여 정책을 최적화하기 위해 주석 없는 AI 피드백 강화 학습(RLAIF) 프레임워크로 훈련되었습니다. 사고의 연쇄(chain-of-thought) 기반 다중 호출 추론 구조는 자체 검증과 도구 실패로부터의 적응적 복구를 통해 강건성을 더욱 강화합니다. 10개의 인기 있는 심층 연구 벤치마크에서 PokeeResearch-7B는 7B 규모 심층 연구 에이전트 중 최고의 성능을 달성했습니다. 이는 신중한 강화 학습과 추론 설계가 효율적이고 탄력적이며 연구 수준의 AI 에이전트를 생산할 수 있음을 보여줍니다. 이 모델과 추론 코드는 MIT 라이선스 하에 https://github.com/Pokee-AI/PokeeResearchOSS에서 오픈소스로 제공됩니다.