번역이 포함된 일일 선별된 AI 연구 논문
확산 언어 모델(DLM)이 빠르게 발전하고 있지만, 많은 최신 모델들은 공통된 구성 요소 집합으로 수렴하는 추세를 보입니다. 그러나 이러한 구성 요소들은 특정 연구용 코드베이스에 분산되어 있거나 투명한 구현이 부족하여 재현이나 확장이 어려운 실정입니다. 해당 분야가 가속화됨에 따라, 새로운 방법론과 아키텍처를 지원할 수 있을 만큼 유연성을 유지하면서 이러한 공통 구성 요소를 표준화하는 통합 프레임워크의 필요성이 대두되고 있습니다. 이러한 격차를 해결하기 위해 우리는 dLLM이라는 오픈소스 프레임워크를 소개합니다. dLLM은 확산 언어 모델링의 핵심 구성 요소인 훈련, 추론, 평가를 통합하고 새로운 설계를 위해 사용자 정의하기 쉽게 만들어 줍니다. dLLM을 통해 사용자는 LLaDA나 Dream과 같은 오픈소스 대형 DLM을 표준화된 파이프라인을 통해 재현, 미세 조정, 배포, 평가할 수 있습니다. 또한 본 프레임워크는 접근 가능한 컴퓨팅 자원으로 소규모 DLM을 처음부터 구축하기 위한 최소한의 재현 가능한 레시피를 제공하며, 여기에는 BERT 스타일 인코더나 자회귀 언어 모델을 DLM으로 변환하는 방법도 포함됩니다. 우리는 DLM의 접근성을 높이고 향후 연구를 가속화하기 위해 이러한 소규모 DLM의 체크포인트도 공개합니다.
GPU 커널 최적화는 현대 딥러닝의 기반이지만 깊은 하드웨어 전문지식을 요구하는 고도로 전문화된 작업으로 남아있습니다. 범용 프로그래밍에서 강력한 성능을 보임에도 불구하고, 대규모 언어 모델(LLM)들은 CUDA 커널 생성에 있어 torch.compile과 같은 컴파일러 기반 시스템을 따라잡지 못하고 있습니다. 기존 CUDA 코드 생성 접근법은 학습 없는 정제 방법에 의존하거나 고정된 다중 회차 실행-피드백 루프 내에서 모델을 미세 조정하지만, 두 패러다임 모두 모델의 본질적인 CUDA 최적화 능력을 근본적으로 향상시키지 못해 제한된 성능 향상만을 가져옵니다. 본 논문에서는 세 가지 구성 요소를 통해 CUDA 커널 전문성을 개발하는 대규모 에이전트 강화 학습 시스템인 CUDA Agent를 제시합니다: 확장 가능한 데이터 합성 파이프라인, 신뢰할 수 있는 보상 신호를 제공하기 위해 자동화된 검증 및 프로파일링 기능을 갖춘 기술 증강 CUDA 개발 환경, 그리고 안정적인 학습을 가능하게 하는 강화 학습 알고리즘 기술입니다. CUDA Agent는 KernelBench에서 최첨단 성능을 달성하여 KernelBench Level-1, Level-2, Level-3 분할에서 torch.compile 대비 각각 100%, 100%, 92% 더 빠른 속도를 제공하며, 가장 어려운 Level-3 설정에서 Claude Opus 4.5 및 Gemini 3 Pro와 같은 가장 강력한 독점 모델을 약 40% 앞섭니다.
텍스트-이미지 생성 분야의 최근 발전은 시각적 정확도와 창의성을 크게 향상시켰지만, 복잡한 공간 관계를 인코딩하는 등 프롬프트의 복잡성에 대한 요구도 함께 증가시켰습니다. 이러한 경우 만족스러운 결과를 얻기 위해서는 여러 번의 샘플링 시도가 필요한 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 현재 이미지 생성 모델의 공간 이해 능력을 강화하는 새로운 방법을 제안합니다. 먼저 8만 개 이상의 선호도 쌍으로 구성된 SpatialReward-Dataset을 구축했습니다. 이 데이터셋을 기반으로 텍스트-이미지 생성에서 공간 관계의 정확성을 평가하도록 설계된 보상 모델인 SpatialScore를 개발했으며, 이 모델은 공간 평가에서 선도적인 독점 모델들을 능가하는 성능을 달성했습니다. 또한 이 보상 모델이 복잡한 공간 생성 작업을 위한 온라인 강화 학습을 효과적으로 가능하게 함을 입증했습니다. 다양한 벤치마크에서 진행한 폭넓은 실험을 통해, 우리의 전문화된 보상 모델이 이미지 생성의 공간 이해 능력에서 현저하고 일관된 성능 향상을 가져옴을 확인했습니다.
다국어 대규모 언어 모델(LLM) 평가의 신뢰성은 현재 번역된 벤치마크의 불일치하는 품질로 인해 훼손되고 있습니다. 기존 자원은 종종 의미 변이와 문맥 손실 문제를 겪어 왜곡된 성능 지표를 초래할 수 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 확장 가능한 고품질 데이터셋 및 벤치마크 번역을 가능하게 하는 완전 자동화 프레임워크를 제시합니다. 우리는 테스트 시점 계산 규모 조정 전략, 특히 범용 자기 개선(USI)과 우리가 제안하는 다중 라운드 순위 지정 방법인 T-RANK를 적용함으로써 기존 파이프라인 대비 월등히 높은 품질의 출력을 얻을 수 있음을 입증합니다. 우리의 프레임워크는 벤치마크가 현지화 과정에서 원본 작업 구조와 언어적 뉘앙스를 보존하도록 보장합니다. 우리는 이 접근법을 적용하여 주요 벤치마크와 데이터셋을 8개의 동유럽 및 남유럽 언어(우크라이나어, 불가리아어, 슬로바키아어, 루마니아어, 리투아니아어, 에스토니아어, 튀르키예어, 그리스어)로 번역했습니다. 참조 기반 메트릭과 LLM-as-a-judge를 활용한 평가 결과, 우리의 번역이 기존 자원을 능가하여 더 정확한 하위 모델 평가를 가능하게 함을 확인했습니다. 우리는 강건하고 재현 가능한 다국어 AI 개발을 지원하기 위해 프레임워크와 개선된 벤치마크를 모두 공개합니다.
영상 생성의 시간 범위를 초 단위에서 분 단위로 확장하는 데는 결정적인 병목 현상이 존재합니다: 짧은 영상 데이터는 풍부하고 고해상도이지만, 일관된 장편 영상 데이터는 부족하고 특정 도메인에 한정됩니다. 이를 해결하기 위해 우리는 Mode Seeking과 Mean Seeking을 결합한 훈련 패러다임을 제안하며, Decoupled Diffusion Transformer를 통한 통합 표현을 기반으로 국소적 정확도와 장기적 일관성을 분리합니다. 우리의 접근법은 장편 영상에 대한 지도 학습으로 훈련된 글로벌 Flow Matching 헤드를 사용하여 서사 구조를 포착하는 동시에, 모드 추출형 역-KL 발산을 통해 고정된 단영상 교사 모델에 슬라이딩 윈도우를 정렬하는 로컬 Distribution Matching 헤드를 병행합니다. 이 전략은 지도 흐름 매칭을 통해 제한된 장편 영상으로부터 장거리 일관성과 움직임을 학습하면서, 학생 모델의 모든 슬라이딩 윈도우 세그먼트를 고정된 단영상 교사 모델에 정렬함으로써 국소적 현실성을 계승하여, 적은 단계로 빠르게 장편 영상을 생성하는 방식을 가능하게 합니다. 평가 결과, 우리의 방법이 국소적 선명도, 움직임 및 장거리 일관성을 함께 개선하여 정확도-시간 범위 간극을 효과적으로 해소함을 보여줍니다. 프로젝트 웹사이트: https://primecai.github.io/mmm/.
추론적 디코딩은 경량 드래프트 모델이 후보 토큰을 제안하고 이를 대상 모델이 병렬로 검증하는 방식으로 자회귀적 대형 언어 모델(LLM) 추론을 가속화합니다. 속도 향상은 수용률에 크게 좌우되지만, 기존 학습 방식은 대리 목적함수로 쿨백-라이블러 발산을 최소화합니다. KL 발산과 수용률이 전역 최적점은 동일하지만, 제한된 용량을 가진 소형 드래프트 모델은 일반적으로 KL 최소화가 수용률 최대화를 보장하지 않는 차선책으로 수렴합니다. 이 문제를 해결하기 위해 우리는 수용률을 직접 목표로 하는 특수 학습 목적함수인 LK 손실을 제안합니다. 8B부터 685B 매개변수까지 다양한 6가지 대상 모델과 4가지 드래프트 아키텍처에서 진행한 포괄적 실험을 통해, 기존 KL 기반 학습 대비 모든 구성에서 수용률 지표의 일관된 개선을 입증했습니다. 일반 영역, 코딩, 수학 영역에서 접근법을 평가한 결과, 평균 수용 길이에서 최대 8-10% 향상을 확인했습니다. LK 손실은 구현이 쉽고 계산 오버헤드가 없으며 기존의 모든 스펙큘레이터 학습 프레임워크에 직접 통합될 수 있어, 기존 드래프트 학습 목적함수에 대한 강력한 대안이 됩니다.
과학적 연구는 귀속과 정확성을 위해 정확한 인용에 의존하지만, 대규모 언어 모델(LLM)은 새로운 위험을 야기합니다. 그럴듯해 보이지만 실제 출판물에 대응되지 않는 조작된 참고문헌이 그것입니다. 이러한 허구적 인용은 주요 머신러닝 학회의 투고 및 게재 논문에서 이미 관찰되었으며, 동료 검토의 취약점을 드러내고 있습니다. 한편 급증하는 참고문헌 목록은 수동 검증을 현실적으로 불가능하게 만들며, 기존 자동화 도구들은 노이즈가 많고 이질적인 인용 형식에 취약하고 표준화된 평가가 부족한 실정입니다. 본 연구는 과학적 글쓰기에서 허구적 인용을 위한 최초의 포괄적 벤치마크 및 탐지 프레임워크를 제시합니다. 우리의 다중 에이전트 검증 파이프라인은 인용 검사를 주장 추출, 증거 검색, 문단 매칭, 추론 및 보정된 판단으로 분해하여 인용된 출처가 해당 주장을 진정으로 지지하는지 평가합니다. 우리는 다양한 분야에 걸친 대규모의 인간 검증 데이터셋을 구축하고 인용 충실도와 증거 정합성을 위한 통합 지표를 정의합니다. 최첨단 LLM을 이용한 실험은 상당한 수준의 인용 오류를 드러내며, 우리 프레임워크가 정확도와 해석 가능성 모두에서 기존 방법을 크게 능가함을 보여줍니다. 이 연구는 LLM 시대에 인용을 감사하기 위한 최초의 확장 가능한 인프라와 과학적 참고문헌의 신뢰성을 높이기 위한 실용적인 도구를 제공합니다.
구성적 일반화는 새로운 맥락에서 익숙한 구성 요소를 인식하는 능력으로, 지능형 시스템의 정의적 속성입니다. 현대 모델은 방대한 데이터셋으로 훈련되지만, 여전히 가능한 입력의 조합 공간 중 극히 일부만을 커버하므로, 보이지 않는 조합으로의 일반화를 지원하기 위해 표현이 어떤 구조를 가져야 하는지에 대한 의문이 제기됩니다. 우리는 표준 훈련 하에서 구성적 일반화를 위한 세 가지 요건(분할 가능성, 전이 가능성, 안정성)을 공식화하고, 이들이 필요한 기하학적 제약을 부과함을 보입니다: 표현은 개념별 구성 요소로 선형 분해되어야 하며, 이러한 구성 요소는 개념 간에 직교해야 합니다. 이는 선형 표현 가설에 대한 이론적 근거를 제공합니다: 신경망 표현에서 널리 관찰되는 선형 구조는 구성적 일반화의 필연적 결과입니다. 우리는 더 나아가 구성 가능한 개념의 수와 임베딩 기하학을 연결하는 차원 경계를 유도합니다. 실증적으로는 현대 비전 모델(CLIP, SigLIP, DINO)에서 이러한 예측을 평가한 결과, 표현이 낮은 계급의 준직교 개념별 인자를 통한 부분적 선형 인수분해를 나타내며, 이러한 구조의 정도가 보이지 않는 조합에 대한 구성적 일반화와 상관관계가 있음을 확인했습니다. 모델의 규모가 계속 확장됨에 따라, 이러한 조건들은 모델이 수렴할 수 있는 표현 기하학을 예측합니다. 코드는 https://github.com/oshapio/necessary-compositionality에서 이용할 수 있습니다.
이미지 기억성, 즉 이미지가 기억될 가능성은 전통적으로 컴퓨터 비전 분야에서 두 가지 방식으로 연구되어 왔습니다. 하나는 모델이 스칼라 점수를 회귀하는 수동적 예측 과제로 접근하는 것이고, 다른 하나는 생성적 방법으로 시각적 입력을 변형하여 이미지가 기억될 가능성을 높이는 것입니다. 그러나 이러한 패러다임 중 그 어느 것도 사용자가 촬영 시점에 '사진의 기억성을 어떻게 향상시킬 수 있는가'라는 핵심적인 질문을 던질 때 지원을 제공하지 못합니다. 본 연구는 **기억성 피드백(Memorability Feedback, MemFeed)** 이라는 과제를 소개합니다. 이는 자동화된 모델이 사용자에게 실행 가능하고 인간이 이해할 수 있는 지침을 제공하여 이미지의 미래 회상력을 강화하는 것을 목표로 합니다. 또한 기억성 향상을 위한 자연어 기반의 구체적인 제안(예: "표정을 강조하세요", "주체를 앞으로 가져오세요")을 제공하도록 설계된 최초의 접근법인 **MemCoach**를 제시합니다. 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 기반으로 하는 우리의 방법은 훈련이 필요 없으며, 교사-학생 조정(teacher-student steering) 전략을 사용하여 모델의 내부 활성화를 가장 기억하기 어려운 샘플에서 가장 기억하기 쉬운 샘플로 진행하는 교사 모델로부터 학습된 더 기억하기 쉬운 패턴에 정렬시킵니다. 이 새로운 과제에 대한 체계적인 평가를 가능하게 하기 위해, 우리는 주석이 달린 기억성 점수를 가진 순서 정렬 사진 촬영 시퀀스를 특징으로 하는 새로운 벤치마크 **MemBench**를 추가로 소개합니다. 여러 MLLMs을 고려한 우리의 실험은 MemCoach의 효과를 입증하며, 여러 제로샷 모델 대비 일관되게 향상된 성능을 보여줍니다. 결과는 기억성이 예측될 수 있을 뿐만 아니라 가르쳐지고 지시될 수 있음을 시사하며, 단순한 예측에서 인간 창작자를 위한 실행 가능한 피드백으로 초점을 전환합니다.
대조 학습은 현대 표현 학습의 핵심 기반이 되어왔으며, 방대한 양의 레이블이 없는 데이터를 활용하여 작업 특화 모델과 일반(기초) 모델 모두를 훈련시킬 수 있게 합니다. 대조 학습에서 대표적인 손실 함수는 InfoNCE와 그 변형들입니다. 본 연구에서는 InfoNCE 목적 함수가 대조 학습을 통해 얻어진 표현에 가우시안 구조를 유도함을 보입니다. 우리는 이 결과를 두 가지 상호 보완적인 체계에서 입증합니다. 첫째, 특정 정렬 및 집중 가정 하에서 고차원 표현의 투영이 점근적으로 다변량 가우시안 분포에 접근함을 보입니다. 다음으로, 덜 엄격한 가정 하에서는 낮은 특징 노름과 높은 특징 엔트로피를 촉진하는 점근적으로 사라지는 작은 정규화 항을 추가함으로써 유사한 점근적 결과를 얻을 수 있음을 보입니다. 우리는 다양한 인코더 구조와 규모에 걸친 합성 데이터 및 CIFAR-10 데이터셋 실험을 통해 분석을 뒷받침하며, 일관된 가우시안 거동을 입증합니다. 이러한 관점은 대조 학습 표현에서 흔히 관찰되는 가우시안 특성에 대한 원칙적인 설명을 제공합니다. 그 결과 도출된 가우시안 모델은 학습된 표현에 대한 원칙적인 분석적 처리를 가능하게 하며, 대조 학습의 광범위한 응용 분야를 지원할 것으로 기대됩니다.
참조 표현 이해(Referring Expression Comprehension, REC)는 언어와 영역 수준 시각 인식을 연결합니다. RefCOCO, RefCOCO+, RefCOCOg와 같은 표준 벤치마크는 멀티모달 대규모 언어 모델의 발전으로 빠르게 진보했지만, 시각적 추론 및 기반 설정 능력을 평가하는 데는 여전히 한계가 있습니다: (i) 많은 표현이 매우 짧아 추론 부담이 적고, (ii) 이미지에 방해 요소가 적어 대상을 찾기 쉽며, (iii) 중복된 서술어로 인해 진정한 텍스트 이해와 시각적 추론을 우회하는 지름길 해결책이 가능하기 때문입니다. 본 논문에서는 지름길 해결책을 억제하는 현대적 REC 벤치마크인 Ref-Adv를 소개합니다. Ref-Adv는 언어적으로 복잡한 표현을 대상 고유 식별에 필요한 최소 정보와 짝지어 구성했습니다. 이 데이터셋은 실제 이미지에 대한 참조 표현을 포함하며, 어려운 방해 요소를 배치하고 부정을 포함한 추론 요소에 주석을 달았습니다. 포괄적 절제 연구(단어 순서 변형 및 서술어 삭제 충분성 검증)를 통해 Ref-Adv 해결에는 단순한 단서 이상의 추론이 필요함을 보였으며, 다양한 현대 멀티모달 LLM을 Ref-Adv로 평가했습니다. RefCOCO, RefCOCO+, RefCOCOg에서 강력한 성능을 보인 모델들도 Ref-Adv에서는 성능이 현저히 하락하여 지름길 해결책 의존성과 시각적 추론 및 기반 설정 능력의 격차를 드러냈습니다. 본 논문은 심층 실패 분석을 제공하며, Ref-Adv가 향후 MLLM의 시각적 추론 및 기반 설정 연구를 안내하는 데 기여하기를 목표로 합니다.
본 논문은 낮은 계산 예산으로 긴 영상을 이해해야 하는 중요하면서도 충분히 탐구되지 않은 과제를 다룹니다. 우리는 철저한 검색의 중복을 피하며 효율적인 영상 콘텍스트 탐색을 위해 설계된, 추론 능력을 갖춘 능동형 다중모달 대규모 언어 모델(MLLM) 에이전트인 LongVideo-R1을 제안합니다. LongVideo-R1의 핵심에는 높은 수준의 시각적 단서를 활용하여 후속 처리에 가장 유익한 영상 클립을 추론하는 추론 모듈이 있습니다. 추론 과정에서 에이전트는 최상위 수준의 시각적 요약부터 탐색을 시작하고 반복적으로 초점을 정제하며, 질의에 답변하기에 충분한 지식을 습득하는 즉시 탐색 과정을 중단합니다. 학습을 위해 우리는 먼저 grounding 주석이 달린 영상 코퍼스인 CGBench에서 계층적 영상 캡션을 추출하고, GPT-5를 활용하여 33,000개의 고품질 생각의 사슬-도구 활용(chain-of-thought-with-tool) 궤적을 생성합니다. LongVideo-R1 에이전트는 두 단계 패러다임(지도 미세 조정(SFT) 후 강화 학습(RL))을 통해 Qwen-3-8B 모델을 기반으로 미세 조정되며, 여기서 RL은 선택적이고 효율적인 클립 탐색을 극대화하기 위해 특별히 설계된 보상 함수를 사용합니다. 여러 긴 영상 벤치마크에서의 실험을 통해 제안 모델의 효과가 입증되었으며, 이는 질의응답 정확도와 효율성 사이에서 우수한 균형을 달성합니다. 모든 정제된 데이터와 소스 코드는 보충 자료에 제공되며 공개될 예정입니다. 코드와 데이터는 https://github.com/qiujihao19/LongVideo-R1에서 확인할 수 있습니다.
마스킹 이미지 생성 모델(MIGM)은 큰 성공을 거두었지만, 양방향 주의 메커니즘의 다단계 처리로 인해 효율성이 제한됩니다. 실제로 해당 계산에는 상당한 중복성이 존재하는데, 이산 토큰을 샘플링할 때 연속 특징에 포함된 풍부한 의미 정보가 손실되기 때문입니다. 기존 일부 연구에서는 특징을 캐싱하여 미래 특징을 근사하려 시도했으나, 공격적인 가속율 하에서는 상당한 근사 오차를 보입니다. 우리는 이 문제가 제한된 표현력과 샘플링 정보를 고려하지 못한 데 기인한다고 판단합니다. 이러한 격차를 해결하기 위해 우리는 이전 특징과 샘플링된 토큰을 모두 통합하고 특징 진화의 평균 속도장을 회귀하는 경량 모델 학습을 제안합니다. 해당 모델은 미세한 동역학을 포착할 수 있을 정도의 적절한 복잡성을 유지하면서도 기존 기본 모델 대비 경량성을 확보했습니다. 우리는 제안 방법인 MIGM-Shortcut을 두 가지 대표적인 MIGM 아키텍처와 작업에 적용했습니다. 특히 최첨단 Lumina-DiMOO에서 텍스트-이미지 생성 속도를 4배 이상 가속하면서도 품질을 유지하여 마스킹 이미지 생성의 파레토 최적 경계를 크게 확장했습니다. 코드와 모델 가중치는 https://github.com/Kaiwen-Zhu/MIGM-Shortcut에서 확인할 수 있습니다.
확산 모델은 최첨단 화질의 동영생성을 구현하지만, 많은 수의 순차적 노이즈 제거 단계로 인해 추론 비용이 여전히 높습니다. 이에 확산 모델 추론 가속화에 대한 연구가 활발히 진행되고 있습니다. 학습 없이 적용 가능한 가속화 방법 중 캐싱은 이전 시간 단계에서 계산된 모델 출력을 재사용하여 연산량을 줄입니다. 기존 캐싱 방법은 경험적 기준에 따라 캐싱/재사용 시점을 선택하며 많은 튜닝이 필요합니다. 본 연구는 이러한 한계를 이론에 기반한 민감도 인식 캐싱 프레임워크로 해결합니다. 구체적으로, 노이즈가 포함된 잠재 변수와 시간 단계라는 노이즈 제거 입력의 변화에 대한 모델 출력 민감도를 분석하여 캐싱 오차를 정형화하고, 이 민감도가 캐싱 오차의 주요 예측 인자임을 입증합니다. 이를 바탕으로 샘플별로 동적으로 캐싱 시점을 선택하는 Sensitivity-Aware Caching(SenCache) 방식을 제안합니다. 본 프레임워크는 적응형 캐싱의 이론적 근거를 제공하며, 기존 경험적 휴리스틱이 부분적으로 효과적이었던 이유를 설명하고 이를 동적·샘플 특화 접근법으로 확장합니다. Wan 2.1, CogVideoX, LTX-Video에서의 실험 결과, SenCache는 유사한 연산 예산 내에서 기존 캐싱 방법보다 우수한 시각적 품질을 달성함을 확인했습니다.
트랜스포머는 문맥 길이에 따라 확장되는 증가하는 메모리 용량 덕분에 최근 시퀀스 모델링 분야의 대부분의 발전을 이끌어 온 사실상의 핵심 구조로 자리 잡았습니다. 이는 검색 작업에는 적합할 수 있지만, 2차 복잡도를 초래하여 최근 연구들에서는 실행 가능한 2차 미만의 순환 대안 모델들을 탐구하도록 동기를 부여했습니다. 다양한 분야에서 예비 결과가 유망하게 나타났음에도 불구하고, 이러한 순환 구조는 주로 고정 크기 메모리로 인해 회수 중심 작업에서 트랜스포머보다 성능이 낮습니다. 본 논문에서는 메모리 상태(일명 은닉 상태)의 체크포인트를 캐싱함으로써 순환 모델을 향상시키는 간단하면서 효과적인 기법인 메모리 캐싱(MC)을 소개합니다. 메모리 캐싱은 RNN의 효과적인 메모리 용량이 시퀀스 길이에 따라 증가하도록 하여, RNN의 고정 메모리(즉, O(L) 복잡도)와 트랜스포머의 증가 메모리(즉, O(L^2) 복잡도) 사이를 보간하는 유연한 절충점을 제공합니다. 우리는 게이트 집계 및 희소 선택적 메커니즘을 포함한 MC의 네 가지 변형을 제안하고, 선형 및 심층 메모리 모듈 모두에 대한 함의를 논의합니다. 언어 모델링 및 장문맥 이해 작업에 대한 실험 결과는 MC가 순환 모델의 성능을 향상시켜 그 효과성을 뒷받침합니다. 문맥 내 회수 작업의 결과는 트랜스포머가 최고의 정확도를 달성하는 반면, 우리의 MC 변형들은 경쟁력 있는 성능을 보여주며 트랜스포머와의 격차를 줄이고 최신 순환 모델들보다 더 나은 성능을 보임을 나타냅니다.
대규모 언어 모델(LLM)은 단일 인공 집단지성으로 수렴되어 가는 양상을 보이며, 공유된 본성(사전 훈련 선행 지식)이 분포 다양성의 심각한 붕괴를 초래하여 창의적 탐구와 과학적 발견에 필요한 독특한 관점들을 제한하고 있습니다. 이를 해결하기 위해 우리는 탐색, 내면화, 표현의 단계를 거치는 인식론적 진화 패러다임을 통해 모델에 추론 시기의 양육(개별화된 인식론적 궤적)을 부여하는 방식을 제안합니다. 우리는 이를 모델에 독립적인 시스템인 PRISM(맥락 내 구조 모델링을 통한 다원적 추론)을 통해 구현하며, 이는 LLM에 동적 즉시 인식론적 그래프를 부가합니다. 세 가지 창의성 벤치마크에서 PRISM은 최첨단 수준의 참신성을 달성하고 분포 다양성을 크게 확장했습니다. 더 나아가, 우리는 도전적인 희귀병 진단 벤치마크를 통해 실제 유용성을 평가했습니다. 결과에 따르면 PRISM은 표준 LLM이 놓치는 정확한 꼬리 부분 진단들을 성공적으로 발견하며, 이로써 PRISM의 다양성 생성이 비일관된 잡음이 아닌 의미 있는 탐색에서 비롯됨을 확인했습니다. 전반적으로, 이 연구는 단일한 합의를 넘어 집단적이고 다각적인 발견이 가능한 독특한 인지적 개체들의 다양성 생태계를 지향하는 다원적 AI를 위한 새로운 패러다임을 정립합니다.
생성적 검색은 LLM 기반 추천 시스템의 강력한 패러다임으로 부상했습니다. 그러나 산업용 추천 시스템은 비즈니스 로직에 따라(예: 콘텐츠 신선도 또는 상품 카테고리 강화) 출력 공간을 제한된 항목 집합으로 제한함으로써 이점을 얻는 경우가 많으며, 이는 표준 자기회귀 디코딩으로는 기본적으로 지원할 수 없습니다. 더욱이 접두사 트리(Trie)를 활용하는 기존 제약 디코딩 방법은 하드웨어 가속기(TPU/GPU)에서 심각한 지연 시간 손해를 초래합니다. 본 연구에서는 TPU/GPU에서의 고처리량 LLM 기반 생성적 검색을 위해 특별히 설계된 효율적이고 확장 가능한 제약 디코딩 기술인 STATIC(Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding)을 소개합니다. 접두사 트리를 정적 압축 희소 행렬(CSR) 형태로 평면화함으로써, 불규칙한 트리 순회를 완전히 벡터화된 희소 행렬 연산으로 변환하여 하드웨어 가속기에서의 대규모 효율성 향상을 실현합니다. 우리는 수십억 사용자를 대상으로 하는 대규모 산업용 비디오 추천 플랫폼에 STATIC을 배포했습니다. STATIC은 최소의 지연 시간 오버헤드(스텝당 0.033ms, 추론 시간의 0.25%)로 상당한 제품 지표 개선을 달성하며, CPU 트라이 구현 대비 948배, 하드웨어 가속 이진 탐색 기준선 대비 47-1033배의 속도 향상을 보였습니다. 또한 STATIC의 런타임 오버헤드는 다양한 실제 구성에서 극도로 낮은 수준을 유지합니다. 우리가 알고 있는 바에 따르면, STATIC은 엄격하게 제약된 생성적 검색의 첫 번째 프로덕션 규모 배포를 가능하게 합니다. 게다가 학술 벤치마크 평가를 통해 STATIC이 생성적 검색의 콜드 스타트 성능을 상당히 개선할 수 있음이 입증되었습니다. 우리의 코드는 https://github.com/youtube/static-constraint-decoding에서 확인할 수 있습니다.
비전-언어 모델(VLM)은 놀라운 다중모달 이해 및 추론 능력을 달성했지만, 밀집된 시각 토큰화로 인해 계산 비용이 여전히 높습니다. 기존 효율성 접근법은 중복 시각 토큰을 병합하거나 언어 백본에서 점진적으로 제거하는 방식을 취하며, 종종 정확도를 속도와 교환합니다. 본 연구에서는 다용도의 플러그앤플레이 이중 압축 프레임워크인 DUET-VLM을 제안합니다. 이는 (a) 비전 인코더 출력을 정보 보존형 토큰으로 압축하는 비전 전용 중복 인식 압축과, (b) 언어 백본 내에서 덜 중요한 토큰을 점진적으로 제거하기 위한 계층별 텍스트 유도 중요 시각 토큰 삭제로 구성됩니다. 이러한 협응된 토큰 관리를 통해 중요한 의미를 보존하면서도 공격적인 압축이 가능합니다. LLaVA-1.5-7B에서 우리의 접근법은 토큰 수를 67% 줄이면서 기준 모델 정확도의 99% 이상을 유지했으며, 89% 감소 시에도 >97%를 유지했습니다. 학습 중 이중 단계 압축을 적용하면 67% 감소 시 99.7%, 89% 감소 시 97.6%의 정확도를 달성하여 여러 벤치마크에서 기존 최첨단 시각 토큰 감소 방법을 능가했습니다. Video-LLaVA-7B에 통합 시에는 기준 모델을 능가하는 결과를 보였습니다. 즉, 53.1%의 상당한 토큰 감소로 >100% 정확도를 달성했으며, 극단적인 93.4% 감소 설정에서도 97.6%의 정확도를 유지했습니다. 이러한 결과는 DUET-VLM을 통한 종단간 학습이 정확도를 희생하지 않으면서 감소된 시각(이미지/비디오) 입력에 대한 강력한 적응을 가능하게 하여, 동일한 계산 예산 내에서 컴팩트하면서도 의미적으로 풍부한 표현을 생성함을 입증합니다. 우리의 코드는 https://github.com/AMD-AGI/DUET-VLM에서 확인할 수 있습니다.
지시 기반 이미지 편집 모델(IIEM) 분야에서 상당한 진전이 이루어졌습니다. 그러나 이러한 모델들이 현재 벤치마크에서 지시를 그럴듯하게 따르고 강력한 추론 능력을 보여주지만, 실제 및 생성된 이미지 모두에서 정밀한 지역 편집과 세부 사항 정교화에 중요함에도 불구하고 작은 객체 편집 능력은 충분히 연구되지 않았습니다. 본 논문에서는 IIEM의 소규모 객체 편집 능력을 평가하는 데 전념하는 최초의 벤치마크인 DeepLookEditBench(DLEBench)를 소개합니다. 구체적으로, 우리는 7가지 지시 유형에 걸쳐 1889개 샘플로 구성된 도전적인 테스트베드를 구축했습니다. 이 샘플들에서 대상 객체는 이미지 영역의 1%~10%만 차지하며, 부분적 폐색 및 다중 객체 편집과 같은 복잡한 시나리오를 다룹니다. 이 벤치마크에서 견고한 평가를 보장하기 위해, 우리는 두 가지 기준(지시 준수 및 시각적 일관성)에서 주관성과 모호성을 최소화하기 위해 세분화된 채점 기준을 가진 평가 프로토콜을 제안합니다. 이 프로토콜은 또한 DLEBench에서 LMM-as-a-Judge와 인간 판단 간의 불일치를 해결하는 이중 모드 평가 프레임워크(도구 주도 및 오라클 안내 모드)를 도입합니다. 10개의 IIEM에 대한 실험 결과는 소규모 객체 편집에서 상당한 성능 격차를 드러내며, 이러한 능력을 발전시키기 위한 전문화된 벤치마크의 필요성을 강조합니다.
컨텍스트 엔지니어링은 소프트웨어 공학(SE) 작업에서 대규모 언어 모델(LLM)의 잠재력을 끌어내기 위한 핵심 패러다임으로 부상하였으며, 모델 미세 조정 없이 테스트 시점에서 성능 향상을 가능하게 합니다. 그러나 이러한 성공에도 불구하고, 기존 연구에는 SE에 특화된 컨텍스트 유형에 대한 체계적인 분류 체계와 핵심 SE 워크플로우 전반에 걸쳐 다양한 컨텍스트의 이질적 효과를 정량화하기 위한 전용 벤치마크가 부족했습니다. 이러한 격차를 해결하기 위해 우리는 CL4SE(소프트웨어 공학을 위한 컨텍스트 학습)를 제안합니다. CL4SE는 네 가지 SE 지향적 컨텍스트 유형(해석 가능한 예제, 프로젝트 특정 컨텍스트, 절차적 의사 결정 컨텍스트, 긍정 및 부정 컨텍스트)에 대한 세분화된 분류 체계를 특징으로 하는 포괄적인 벤치마크로, 각 유형은 대표적인 작업(코드 생성, 코드 요약, 코드 리뷰, 패치 정확성 평가)에 매핑됩니다. 우리는 30개 이상의 오픈소스 프로젝트로부터 13,000개 이상의 샘플로 구성된 고품질 데이터셋을 구축하고 9가지 메트릭을 통해 5가지 주류 LLM을 평가했습니다. 광범위한 실험 결과, 컨텍스트 학습이 모든 작업에서 평균 24.7%의 성능 향상을 가져옴을 입증했습니다. 구체적으로, 절차적 컨텍스트는 코드 리뷰 성능을 최대 33%(Qwen3-Max)까지 향상시켰고, 혼합 긍정-부정 컨텍스트는 패치 평가 성능을 30%(DeepSeek-V3) 개선시켰으며, 프로젝트 특정 컨텍스트는 코드 요약 BLEU 점수를 14.78%(GPT-Oss-120B) 높였고, 해석 가능한 예제는 코드 생성 PASS@1을 5.72%(DeepSeek-V3) 향상시켰습니다. CL4SE는 SE 컨텍스트 학습을 위한 최초의 표준화된 평가 프레임워크를确立하며, 작업별 컨텍스트 설계에 대한 실질적인 실증적 통찰을 제공하고, 이 분야의 재현 가능한 연구를 촉진하기 위해 대규모 데이터셋을 공개합니다.
강화 학습(RL) 사후 훈련은 최근 사고 연쇄 추론 대규모 언어 모델(LLM)에서 큰 성과를 거두었지만, 이러한 모델의 높은 추론 비용은 더 작은 학생 모델로의 지식 증류를 필요로 합니다. 기존 지식 증류(KD) 방법 대부분은 감독 미세 조정(SFT)을 위해 설계되어 고정된 교사 추적 또는 교사-학생 KL(Kullback-Leibler) 발산 기반 정규화에 의존합니다. 이러한 접근법을 RL과 결합할 경우, 분포 불일치와 목적 간섭 문제가 자주 발생합니다: 교사의 감독이 학생의 진화하는 롤아웃 분포와 일치하지 않을 수 있으며, KL 정규화기가 보상 최대화와 경쟁하고 신중한 손실 균형 조정을 필요로 할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 RL 중 선택적 모방을 수행하는 RL 인식 증류(RLAD)를 제안합니다. 이는 현재 정책 업데이트를 개선할 때만 학생을 교사 방향으로 유도합니다. 우리의 핵심 구성 요소인 신뢰 영역 비율 증류(TRRD)는 교사-학생 KL 정규화기를 PPO/GRPO 스타일의 가능도 비율 목적 함수로 대체하며, 이는 교사-이전 정책 혼합에 기반을 둡니다. 이를 통해 학생 롤아웃에 대한 이점 인식 및 신뢰 영역 경계 증류를 제공하고 탐색, 활용, 모방을 자연스럽게 균형 잡습니다. 다양한 논리 추론 및 수학 벤치마크에서 RLAD는 오프라인 증류, 표준 GRPO, KL 기반 온-정책 교사-학생 지식 증류를 일관되게 능가합니다.
현대의 대규모 언어 모델(LLM)은 단독으로 사용될 때 점차 높은 성능을 보여주고 있지만, 단일 LLM의 능력으로 해결하기 어려운 문제들이 여전히 많이 존재합니다. 이러한 과제를 위해 여러 LLM을 부분으로 삼아 더 큰 전체로 결합하는 최선의 방법에 대해서는 아직 불확실성이 있습니다. 본 입장 문서는 이러한 모듈형 언어 에이전트를 설계하기 위한 잠재적 청사진이 인지 모델 및 인공지능(AI) 알고리즘에 관한 기존 문헌에서 발견될 수 있음을 주장합니다. 이 점을 명확히 하기 위해, 우리는 개별 LLM의 역할과 그 기능이 어떻게 구성되어야 하는지를 규정하는 에이전트 템플릿 개념을 정형화합니다. 그런 다음 문헌에 소개된 다양한 기존 언어 에이전트를 검토하고, 인지 모델이나 AI 알고리즘에서 직접 도출된 이들의 근본적인 템플릿을 부각합니다. 이러한 설계를 강조함으로써, 우리는 인지 과학과 AI에서 영감을 받은 에이전트 템플릿이 효과적이고 해석 가능한 언어 에이전트를 개발하는 강력한 도구로서 주목받아야 함을 알리고자 합니다.