번역이 포함된 일일 선별된 AI 연구 논문
비전-언어-행동(Vision-Language-Action, VLA) 모델은 최근 로봇이 언어 명령을 따르고 정밀한 동작을 실행할 수 있도록 하는 데 강력한 잠재력을 보여주고 있습니다. 그러나 대부분의 VLA 모델은 2D 데이터만으로 사전 학습된 비전-언어 모델을 기반으로 구축되어 있어 정확한 공간 인식이 부족하고, 3D 물리 세계에서의 작동 능력을 저해합니다. 기존의 해결책들은 깊이 맵이나 포인트 클라우드와 같은 명시적인 3D 센서 입력을 통합하려고 시도하지만, 이러한 접근 방식은 센서 노이즈, 하드웨어 이질성, 그리고 기존 데이터셋의 불완전한 깊이 커버리지로 인해 어려움에 직면합니다. 2D 이미지에서 3D 단서를 추정하는 대안적인 방법들도 깊이 추정기의 제한된 성능으로 인해 한계가 있습니다. 우리는 명시적인 3D 입력이나 깊이 추정기에 의존하지 않고도 VLA 모델이 공간 이해 능력을 개발하도록 암묵적으로 강제하는 간단하지만 효과적인 정렬 전략인 Spatial Forcing(SF)을 제안합니다. SF는 VLA의 중간 시각 임베딩을 사전 학습된 3D 기반 모델이 생성한 기하학적 표현과 정렬합니다. 중간 계층에서 정렬을 강제함으로써, SF는 VLA가 행동 정밀도를 향상시키는 더 풍부한 공간 표현을 인코딩하도록 유도합니다. 시뮬레이션과 실제 환경에서의 광범위한 실험을 통해 SF가 2D 및 3D 기반 VLA를 모두 능가하는 최첨단 결과를 달성함을 입증했습니다. 또한 SF는 훈련 속도를 최대 3.8배까지 가속화하고 다양한 로봇 작업에서 데이터 효율성을 개선합니다. 프로젝트 페이지는 https://spatial-forcing.github.io/에서 확인할 수 있습니다.
픽셀 공간 생성 모델은 잠재 공간 모델에 비해 학습이 더 어렵고 일반적으로 성능이 낮아 지속적인 성능 및 효율성 격차가 존재한다. 본 논문에서는 픽셀 공간 확산 및 일관성 모델에 대한 이러한 격차를 해소하는 새로운 2단계 학습 프레임워크를 소개한다. 첫 번째 단계에서는 깨끗한 이미지로부터 의미 있는 의미를 포착하면서, 동일한 결정론적 샘플링 궤적을 따라 점들을 정렬하는 인코더를 사전 학습한다. 이 궤적은 사전 분포에서 데이터 분포로 점을 진화시킨다. 두 번째 단계에서는 인코더를 무작위로 초기화된 디코더와 통합하고, 확산 및 일관성 모델 모두에 대해 전체 모델을 종단 간 미세 조정한다. 우리의 학습 프레임워크는 ImageNet 데이터셋에서 강력한 실증적 성능을 보여준다. 구체적으로, 우리의 확산 모델은 ImageNet-256에서 2.04, ImageNet-512에서 2.35의 FID를 달성하며, 75회의 함수 평가(Number of Function Evaluations, NFE)로 이전의 픽셀 공간 방법을 생성 품질과 효율성 모두에서 크게 앞지르면서, 비슷한 학습 비용으로 선도적인 VAE 기반 모델과도 경쟁력을 보인다. 또한, ImageNet-256에서 우리의 일관성 모델은 단일 샘플링 단계에서 8.82의 FID를 달성하여, 잠재 공간 모델을 크게 능가한다. 우리가 아는 한, 이는 사전 학습된 VAE나 확산 모델에 의존하지 않고 고해상도 이미지에서 직접 일관성 모델을 성공적으로 학습한 첫 사례이다.
대형 언어 모델(LLM)은 기계 번역(MT)을 크게 발전시켰으나, 웹 소설 번역에서의 효과성은 여전히 불분명합니다. 기존 벤치마크는 이 장르의 독특한 특성을 포착하지 못하는 표면적 지표에 의존하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 웹 소설 번역을 위한 첫 번째 포괄적인 평가 프레임워크인 DITING을 소개합니다. 이 프레임워크는 관용구 번역, 어휘적 모호성, 용어 현지화, 시제 일관성, 영대명사 해결, 문화적 안전성 등 6가지 차원에서 서사와 문화적 충실도를 평가하며, 18,000개 이상의 전문가 주석이 달린 중국어-영어 문장 쌍을 기반으로 합니다. 또한, 우리는 전문가 심의를 시뮬레이션하여 어휘 중첩을 넘어 번역 품질을 평가하는 추론 기반 다중 에이전트 평가 프레임워크인 AgentEval을 제안합니다. 이는 7가지 테스트된 자동 평가 지표 중 인간 판단과 가장 높은 상관관계를 달성했습니다. 지표 비교를 위해, 우리는 오류 레이블과 스칼라 품질 점수가 주석된 300개의 문장 쌍으로 구성된 메타 평가 데이터셋인 MetricAlign을 개발했습니다. 14개의 오픈, 클로즈드, 상용 모델에 대한 포괄적인 평가 결과, 중국어로 훈련된 LLM이 더 큰 외국 모델을 능가하며, DeepSeek-V3이 가장 충실하고 스타일적으로 일관된 번역을 제공하는 것으로 나타났습니다. 우리의 작업은 LLM 기반 웹 소설 번역 탐구를 위한 새로운 패러다임을 정립하고, 향후 연구를 촉진하기 위한 공공 자원을 제공합니다.
최근 대조 학습(Contrastive Learning, CL)으로 미세 조정된 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용한 멀티모달 임베딩 접근법이 유망한 결과를 보여주고 있지만, 그 우수성의 근본적인 이유는 아직 충분히 탐구되지 않았습니다. 본 연구는 MLLM 기반 접근법의 중요한 장점이 생성적 사전 학습 과정에서 달성되는 암묵적인 교차 모달 정렬에서 비롯된다고 주장합니다. 이 과정에서 언어 디코더는 공유된 표현 공간 내에서 멀티모달 신호를 활용하여 단일 모달 출력을 생성하는 방법을 학습합니다. 이방성(anisotropy)과 커널 유사성 구조(kernel similarity structure) 분석을 통해, 우리는 MLLM 표현 내에 잠재적 정렬이 발생하며, 이로 인해 CL이 경량화된 정제 단계로 작용할 수 있음을 실증적으로 확인했습니다. 이러한 통찰을 바탕으로, 우리는 언어 중심의 전모달 임베딩 프레임워크인 LCO-Emb(Language-Centric Omnimodal Embedding)를 제안합니다. 다양한 백본과 벤치마크에서의 광범위한 실험을 통해 LCO-Emb의 효과성을 입증하였으며, 여러 모달리티에서 최첨단 성능을 달성했습니다. 또한, 우리는 생성-표현 스케일링 법칙(Generation-Representation Scaling Law, GRSL)을 발견했는데, 이는 대조적 정제를 통해 얻은 표현 능력이 MLLM의 생성 능력과 양의 상관관계를 가진다는 것을 보여줍니다. 이는 생성 능력의 향상이 표현 품질을 강화하는 효과적인 패러다임으로 진화하고 있음을 시사합니다. 우리는 GRSL에 대한 이론적 설명을 제공하며, 이는 MLLM의 생성 품질을 표현 성능의 상한과 공식적으로 연결합니다. 이를 저자원 시각-문서 검색 작업에서 검증하여, CL 이전에 지속적인 생성적 사전 학습이 모델의 임베딩 능력 잠재력을 더욱 향상시킬 수 있음을 보여줍니다. 코드, 모델 및 리소스는 https://github.com/LCO-Embedding/LCO-Embedding에서 확인할 수 있습니다.
로봇 학습은 기계 학습의 급속한 발전과 대규모 로봇 데이터의 증가로 인해 전환점을 맞이하고 있습니다. 기존의 모델 기반 방법에서 데이터 주도적, 학습 기반 패러다임으로의 이전은 자율 시스템에서 전례 없는 능력을 발휘하고 있습니다. 본 튜토리얼은 현대 로봇 학습의 지형을 탐색하며, 강화 학습과 행동 복제의 기본 원리부터 다양한 작업과 심지어 로봇 구현체에 걸쳐 작동할 수 있는 일반적, 언어 조건화 모델에 이르는 과정을 안내합니다. 이 작업은 연구자와 실무자를 위한 가이드로, 독자들이 로봇 학습의 발전에 기여할 수 있도록 개념적 이해와 실용적인 도구를 제공하는 데 목적이 있으며, lerobot에서 구현된 즉시 사용 가능한 예제를 포함하고 있습니다.
대규모 언어 모델(LLM)의 발전은 코드 생성 지원에서 자율 코딩 에이전트로의 패러다임 전환을 촉진하며, 개발자가 코드를 한 줄씩 이해하기보다는 AI가 생성한 구현 결과를 관찰하여 검증하는 "바이브 코딩(Vibe Coding)"이라는 새로운 개발 방법론을 가능하게 했습니다. 그러나 이러한 혁신적인 패러다임의 효과성은 아직 충분히 탐구되지 않았으며, 실증 연구에서는 예상치 못한 생산성 저하와 인간-AI 협업의 근본적인 문제점들이 드러나고 있습니다. 이러한 격차를 해결하기 위해, 본 설문 조사는 대규모 언어 모델을 활용한 바이브 코딩에 대한 최초의 포괄적이고 체계적인 리뷰를 제공하며, 이 혁신적인 개발 접근법에 대한 이론적 기반과 실용적 프레임워크를 확립합니다. 1000편 이상의 연구 논문을 체계적으로 분석하여, 코딩용 LLM, LLM 기반 코딩 에이전트, 코딩 에이전트 개발 환경, 피드백 메커니즘 등 바이브 코딩 생태계의 핵심 인프라 요소들을 조사합니다. 먼저, 인간 개발자, 소프트웨어 프로젝트, 코딩 에이전트 간의 동적 삼자 관계를 포착하는 제약 마르코프 결정 프로세스(Constrained Markov Decision Process)를 통해 바이브 코딩을 공식화함으로써 이를 하나의 공식 학문 분야로 소개합니다. 이 이론적 기반을 바탕으로, 기존 실무를 무제약 자동화, 반복적 대화형 협업, 계획 주도형, 테스트 주도형, 컨텍스트 강화 모델 등 5가지 독특한 개발 모델로 종합하여 이 분야의 최초의 포괄적 분류체계를 제공합니다. 특히, 우리의 분석은 성공적인 바이브 코딩이 단순히 에이전트의 능력에 의존하는 것이 아니라 체계적인 컨텍스트 엔지니어링, 잘 구축된 개발 환경, 그리고 인간-에이전트 협업 개발 모델에 달려 있음을 보여줍니다.
객체 탐지는 오랫동안 YOLO, DETR, Grounding DINO와 같은 전통적인 좌표 회귀 기반 모델들이 주도해 왔다. 최근 MLLM(Multimodal Large Language Model)을 활용하여 이 문제를 해결하려는 시도가 있었지만, 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제에 직면해 있다. 본 연구에서는 이러한 격차를 해소하고, 최첨단 객체 인식 성능을 달성하는 3B 규모의 MLLM인 Rex-Omni를 제안한다. COCO 및 LVIS와 같은 벤치마크에서 Rex-Omni는 제로샷 설정에서 회귀 기반 모델(예: DINO, Grounding DINO)과 비슷하거나 이를 초과하는 성능을 보인다. 이는 세 가지 주요 설계에 의해 가능해졌다: 1) 작업 공식화: 0부터 999까지의 양자화된 좌표를 나타내기 위해 특수 토큰을 사용하여 모델의 학습 난이도를 줄이고 좌표 예측을 위한 토큰 효율성을 향상시킨다; 2) 데이터 엔진: 고품질의 그라운딩, 참조, 포인팅 데이터를 생성하기 위해 여러 데이터 엔진을 구축하여, 훈련에 의미적으로 풍부한 감독을 제공한다; 3) 훈련 파이프라인: 2,200만 개의 데이터에 대한 지도 미세 조정과 GRPO 기반의 강화 학습 후훈련을 결합한 두 단계의 훈련 과정을 사용한다. 이 RL 후훈련은 기하학적 인식 보상을 활용하여 이산에서 연속 좌표 예측 간의 격차를 효과적으로 해소하고, 박스 정확도를 향상시키며, 초기 SFT 단계의 교사 지도 특성에서 비롯된 중복 예측과 같은 바람직하지 않은 행동을 완화한다. 기존의 탐지를 넘어, Rex-Omni의 내재된 언어 이해 능력은 객체 참조, 포인팅, 시각적 프롬프트, GUI 그라운딩, 공간 참조, OCR 및 키 포인팅과 같은 다양한 기능을 가능하게 하며, 이는 전용 벤치마크에서 체계적으로 평가된다. 우리는 Rex-Omni가 더 다양하고 언어 인식적인 시각 인식 시스템을 위한 길을 열어줄 것이라고 믿는다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대형 언어 모델(Large Language Models)이 정적인 학습 한계를 넘어 확장될 수 있는 기본 패러다임으로 부상했습니다. 그러나 현재의 RAG 능력과 실제 정보 환경 사이에는 중요한 불일치가 존재합니다. 현대의 지식 저장소는 본질적으로 다중 모달(multimodal)로, 텍스트 콘텐츠, 시각적 요소, 구조화된 테이블, 수학적 표현 등이 풍부하게 결합되어 있습니다. 그러나 기존의 RAG 프레임워크는 텍스트 콘텐츠에만 국한되어 있어 다중 모달 문서를 처리할 때 근본적인 격차를 만들어냅니다. 우리는 모든 모달리티에 걸친 포괄적인 지식 검색을 가능하게 하는 통합 프레임워크인 RAG-Anything을 제시합니다. 우리의 접근 방식은 다중 모달 콘텐츠를 고립된 데이터 유형이 아닌 상호 연결된 지식 엔티티로 재개념화합니다. 이 프레임워크는 교차 모달 관계와 텍스트 의미론을 통합된 표현 내에서 포착하기 위해 이중 그래프 구성을 도입합니다. 우리는 구조적 지식 탐색과 의미론적 매칭을 결합한 교차 모달 하이브리드 검색을 개발합니다. 이를 통해 관련 증거가 여러 모달리티에 걸쳐 있는 이질적 콘텐츠에 대한 효과적인 추론이 가능해집니다. RAG-Anything은 도전적인 다중 모달 벤치마크에서 최신 방법론 대비 상당한 개선을 이루며 우수한 성능을 보여줍니다. 특히 전통적인 접근 방식이 실패하는 긴 문서에서 성능 향상이 두드러집니다. 우리의 프레임워크는 현재 시스템을 제약하는 아키텍처적 단편화를 제거하며 다중 모달 지식 접근을 위한 새로운 패러다임을 확립합니다. 우리의 프레임워크는 https://github.com/HKUDS/RAG-Anything에서 오픈소스로 제공됩니다.
디퓨전 모델은 최근 비디오 복원 분야에서 큰 진전을 이루었지만, 실제 세계의 비디오 초해상도(VSR)에 적용하기에는 높은 지연 시간, 과도한 계산량, 그리고 초고해상도로의 일반화 부족 등의 문제로 인해 여전히 어려움이 남아 있습니다. 본 연구의 목표는 디퓨전 기반 VSR을 효율적이고 확장 가능하며 실시간 성능을 달성함으로써 실용적으로 만드는 것입니다. 이를 위해 우리는 실시간 VSR을 위한 첫 번째 디퓨전 기반 원스텝 스트리밍 프레임워크인 FlashVSR을 제안합니다. FlashVSR은 단일 A100 GPU에서 768x1408 비디오에 대해 약 17 FPS로 실행되며, 이를 위해 세 가지 상호 보완적인 혁신을 결합했습니다: (i) 스트리밍 초해상도를 가능하게 하는 학습 친화적인 3단계 증류 파이프라인, (ii) 학습-테스트 해상도 격차를 줄이면서 불필요한 계산을 줄이는 지역성 제약 희소 주의 메커니즘, (iii) 품질 저하 없이 재구성을 가속화하는 소형 조건부 디코더. 대규모 학습을 지원하기 위해, 우리는 120,000개의 비디오와 180,000개의 이미지로 구성된 새로운 데이터셋인 VSR-120K도 구축했습니다. 광범위한 실험을 통해 FlashVSR이 초고해상도로 안정적으로 확장 가능하며, 기존의 원스텝 디퓨전 VSR 모델 대비 최대 12배의 속도 향상과 함께 최첨단 성능을 달성함을 보여줍니다. 우리는 효율적인 디퓨전 기반 VSR 연구를 촉진하기 위해 코드, 사전 학습된 모델, 그리고 데이터셋을 공개할 예정입니다.
디퓨전 모델은 생성 모델로서 놀라운 성공을 거두었습니다. 그러나 잘 훈련된 모델조차도 생성 과정 전반에 걸쳐 오차가 누적될 수 있습니다. 이러한 오차는 원하는 속성을 갖도록 샘플을 유도하기 위해 임의의 가이던스를 적용할 때 특히 문제가 되며, 이는 종종 샘플의 충실도를 저해합니다. 본 논문에서는 디퓨전 모델에서 관찰되는 매니폴드 이탈 현상을 해결하기 위한 일반적인 솔루션을 제안합니다. 우리의 접근 방식은 각 타임스텝에서 원하는 데이터 매니폴드로부터의 편차를 추정하기 위해 시간 예측기를 활용하며, 더 큰 시간 간격이 생성 품질 저하와 연관되어 있음을 확인했습니다. 그런 다음, 생성 과정 중 매 타임스텝마다 샘플을 원하는 매니폴드로 다시 끌어당기는 새로운 가이던스 메커니즘인 '시간적 정렬 가이던스'(Temporal Alignment Guidance, TAG)를 설계했습니다. 광범위한 실험을 통해 TAG가 각 타임스텝에서 원하는 매니폴드와 밀접하게 정렬된 샘플을 일관되게 생성하며, 다양한 다운스트림 작업에서 생성 품질의 상당한 개선을 이끌어냄을 입증했습니다.
대형 언어 모델(LLMs)은 모든 토큰을 트랜스포머 스택의 모든 레이어를 통해 처리하므로, 간단한 질의에는 불필요한 계산이 발생하고 더 깊은 추론이 필요한 복잡한 질의에는 유연성이 부족합니다. 적응적 깊이 방법은 효율성을 개선할 수 있지만, 기존 접근법은 비용이 많이 드는 추론 시 탐색, 아키텍처 변경, 또는 대규모 재훈련에 의존하며, 실제로는 효율성 향상에도 불구하고 정확도가 저하되는 경우가 많습니다. 우리는 Dr.LLM(Dynamic routing of Layers for LLMs)을 소개합니다. 이는 사전 훈련된 모델에 경량의 레이어별 라우터를 추가하여 블록을 건너뛰거나 실행하거나 반복할지 결정하는 후속 가능한 프레임워크입니다. 라우터는 명시적 감독 하에 훈련됩니다: 몬테카를로 트리 탐색(MCTS)을 사용하여 계산 예산 내에서 정확도를 유지하거나 개선하는 고품질 레이어 구성을 도출합니다. 우리의 설계, 안정적인 라우팅을 위한 윈도우 풀링, 클래스 균형을 고려한 포커스 손실, 그리고 병목 현상을 방지하는 MLP 라우터는 클래스 불균형과 긴 시퀀스에서도 견고성을 보장합니다. ARC(논리)와 DART(수학)에서 Dr.LLM은 평균적으로 예제당 5개의 레이어를 절약하면서 정확도를 최대 +3.4%p까지 향상시켰습니다. 라우터는 도메인 외 작업(MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval)에서도 효율성을 유지하면서 정확도가 단 0.85% 하락하는 수준으로 일반화되었으며, 기존 라우팅 방법보다 최대 +7.7%p 더 나은 성능을 보였습니다. 전반적으로, Dr.LLM은 명시적 감독 하에 훈련된 라우터가 기본 가중치를 변경하지 않고도 예산을 고려한 정확도 중심의 추론을 위해 고정된 LLMs를 후속적으로 개선할 수 있음을 보여줍니다.
최근의 구체화된 AI(Embodied AI) 발전은 시각 언어 모델(VLMs)이 복잡한 환경에서 지각, 추론 및 상호작용이 가능한 에이전트로서의 잠재력을 강조하고 있습니다. 그러나 최고 성능의 시스템은 배포 비용이 높은 대규모 모델에 의존하는 반면, 소규모 VLMs는 성공하기 위해 필요한 지식과 기술이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 사전 지식 학습과 온라인 강화 학습(RL)을 통합한 두 단계 프레임워크인 Embodied Reasoning Agent(ERA)를 제시합니다. 첫 번째 단계인 Embodied Prior Learning은 세 가지 유형의 데이터로부터 기초 지식을 추출합니다: (1) Trajectory-Augmented Priors는 기존의 궤적 데이터를 더 강력한 모델이 생성한 구조화된 추론으로 보강합니다; (2) Environment-Anchored Priors는 환경 내 지식과 기반 감독을 제공합니다; (3) External Knowledge Priors는 환경 외 데이터셋에서 일반 지식을 전이합니다. 두 번째 단계에서는 이러한 사전 지식을 기반으로 에이전트 성능을 더욱 향상시키는 온라인 RL 파이프라인을 개발합니다. 에이전트 RL의 고질적인 문제인 긴 시간 지평, 희소한 보상, 훈련 불안정성을 극복하기 위해, 우리는 세 가지 주요 설계를 도입했습니다: 컨텍스트 관리를 위한 자기 요약(self-summarization), 밀집 보상 형성(dense reward shaping), 그리고 턴 단위 정책 최적화(turn-level policy optimization). 고수준 계획(EB-ALFRED)과 저수준 제어(EB-Manipulation) 작업에 대한 광범위한 실험을 통해 ERA-3B는 프롬프트 기반 대형 모델과 기존의 훈련 기반 베이스라인을 모두 능가함을 입증했습니다. 특히, GPT-4o 대비 EB-ALFRED에서 8.4%, EB-Manipulation에서 19.4%의 전반적인 성능 향상을 달성했으며, 보이지 않는 작업에 대한 강력한 일반화 능력을 보였습니다. 전반적으로, ERA는 확장 가능한 구체화된 지능을 향한 실용적인 경로를 제공하며, 향후 구체화된 AI 시스템을 위한 방법론적 통찰을 제공합니다.
대형 언어 모델(LLMs)은 디지털 환경에서 에이전트의 의사결정을 향상시키기 위해 세계 모델로 활용될 수 있으며, 미래 상태를 시뮬레이션하고 행동 결과를 예측함으로써 비용이 많이 드는 시행착오 탐색을 제거할 가능성이 있습니다. 그러나 이러한 능력은 LLM의 환각 경향과 정적 훈련 지식에 대한 의존성으로 인해 근본적으로 제한되며, 이는 장기적인 시뮬레이션을 방해하는 누적 오류로 이어질 수 있습니다. LLM이 세계 모델링에 적합한지 체계적으로 조사하기 위해, 우리는 세계 모델의 두 가지 핵심 능력인 미래 상태 예측과 보상 추정을 세 가지 작업을 통해 탐구합니다: 다음 상태 식별, 전체 절차 계획 정렬, 그리고 마일스톤 전환 인식. 우리의 분석은 LLM이 즉각적인 다음 상태를 효과적으로 포착하고 의미 있는 상태 전환을 식별하는 반면, 전체 절차 계획에서는 성능이 급격히 저하됨을 보여줍니다. 이는 LLM이 장기적인 환경 역학을 안정적으로 모델링하는 데 있어 한계를 강조합니다. 이러한 한계를 해결하기 위해, 우리는 외부 튜토리얼에서 검색된 사실적이고 최신의 지식을 통합하여 LLM 시뮬레이션을 기반으로 하는 검색 강화 세계 모델(R-WoM)을 제안합니다. 실험 결과, R-WoM은 기준선 대비 OSWorld에서 최대 25.3%, WebArena에서 18.1%의 상당한 개선을 달성하며, 특히 장기적인 시뮬레이션에서 우수한 성능을 보입니다.
최근, 시각-언어 생성 및 이해 능력을 단일 프레임워크 내에서 통합하는 통합 멀티모달 모델(Unified Multimodal Models, UMMs)에서 주목할 만한 발전이 이루어졌습니다. 그러나 모델의 강력한 시각 이해 능력이 시각 생성 능력으로 전환되지 못하는 상당한 격차가 존재합니다. 모델은 사용자 지시에 따라 이미지를 정확히 이해할 수 있지만, 텍스트 프롬프트로부터 충실한 이미지를 생성하지 못할 수 있습니다. 이 현상은 직접적으로 다음과 같은 흥미로운 질문을 제기합니다: 모델이 이해 모듈을 사용하여 생성 모듈을 보상함으로써 자기 개선을 달성할 수 있을까요? 이 격차를 해소하고 자기 개선을 달성하기 위해, 우리는 다양한 설계의 기존 UMMs에 직접 적용할 수 있는 자기 보상 사후 학습 프레임워크인 SRUM을 소개합니다. SRUM은 모델의 이해 모듈이 내부 "평가자" 역할을 하여 추가적인 인간 레이블 데이터 없이 생성 모듈을 개선하기 위한 교정 신호를 제공하는 피드백 루프를 생성합니다. 이 피드백이 포괄적이도록, 우리는 전역-지역 이중 보상 시스템을 설계했습니다. 이미지의 내재적 구조적 복잡성을 해결하기 위해, 이 시스템은 다중 스케일 지침을 제공합니다: 전역 보상은 전체 시각적 의미론과 레이아웃의 정확성을 보장하고, 지역 보상은 세밀한 객체 수준의 충실도를 개선합니다. SRUM은 강력한 능력을 이끌어내며 강한 일반화를 보여주어, T2I-CompBench에서 82.18에서 88.37로, T2I-ReasonBench에서 43.82에서 46.75로 성능을 향상시켰습니다. 전반적으로, 우리의 작업은 UMMs의 이해 모듈이 자기 보상을 통해 자체 생성을 지도하고 강화할 수 있는 강력한 새로운 패러다임을 확립했습니다.
최근 시각 생성 분야의 발전은 놀라운 수준이지만, 대부분의 기존 아키텍처는 여전히 이미지와 텍스트를 위한 별도의 인코더에 의존하고 있습니다. 이러한 분리는 확산 모델의 교차 모달 추론 및 지식 전이 능력을 제한합니다. 이러한 격차를 해결하려는 기존의 시도들은 VLM(Vision-Language Model)의 최종 레이어 정보를 사용하거나, 다중 시각 인코더를 활용하거나, 텍스트와 이미지 생성을 위해 대규모 통합 모델을 공동으로 학습하는 방식이 주를 이루었습니다. 그러나 이러한 접근 방식은 상당한 계산 자원과 대규모 데이터를 요구하여 접근성을 제한합니다. 우리는 UniFusion을 제안합니다. 이는 고정된 대형 VLM을 통합 멀티모달 인코더로 활용하는 확산 기반 생성 모델입니다. UniFusion의 핵심은 Layerwise Attention Pooling(LAP) 메커니즘으로, 고정된 VLM의 텍스트 및 시각 토큰에서 고수준의 의미와 저수준의 세부 사항을 모두 추출하여 확산 생성 모델을 조건화합니다. 우리는 LAP가 생성 및 편집을 위한 텍스트-이미지 정렬과 VLM에서 확산 모델로의 시각 정보의 충실한 전이에서 다른 얕은 융합 아키텍처를 능가함을 보여줍니다. 또한, 우리는 VLM-Enabled Rewriting Injection with Flexible Inference(VERIFI)를 제안합니다. 이는 인모델 프롬프트 재작성 중 VLM에 의해 생성된 텍스트 토큰만을 사용하여 확산 트랜스포머(DiT)를 조건화합니다. VERIFI는 조건화 분포의 정렬과 VLM의 추론 능력을 결합하여 추론 시 능력과 유연성을 증가시킵니다. 또한, 편집 작업에 대한 미세 조정은 생성 시 텍스트-이미지 정렬을 개선하여 교차 모달 지식 전이를 나타내는 동시에 엄청난 일반화 능력을 보여줍니다. 우리의 모델은 단일 이미지 편집에 대해 학습할 때, 다중 이미지 참조로 제로샷 일반화를 수행하여 UniFusion의 통합 인코더 설계를 더욱 강력하게 뒷받침합니다.
사후 정렬(post-training alignment)은 종종 대형 언어 모델(LLM)의 다양성을 감소시키며, 이는 모드 붕괴(mode collapse) 현상으로 알려져 있습니다. 기존 연구들이 이 현상을 알고리즘적 한계로 돌리는 것과 달리, 우리는 인지 심리학에서 잘 알려진 발견에 기인하여 주석자들이 익숙한 텍스트를 체계적으로 선호하는 선호 데이터의 전형성 편향(typicality bias)이라는 근본적이고 보편적인 데이터 수준의 원인을 규명했습니다. 우리는 이 편향을 이론적으로 정형화하고, 선호 데이터셋에서 실증적으로 검증하며, 이 편향이 모드 붕괴에서 중심적인 역할을 한다는 것을 보여줍니다. 이러한 분석에 동기를 부여받아, 우리는 모드 붕괴를 우회하기 위한 간단하고 훈련이 필요 없는 프롬프트 전략인 '언어화 샘플링(Verbalized Sampling, VS)'을 소개합니다. VS는 모델이 일련의 응답에 대한 확률 분포를 언어화하도록 프롬프트합니다(예: "커피에 관한 농담 5개와 그에 해당하는 확률을 생성하세요"). 포괄적인 실험을 통해 VS가 사실적 정확성과 안전성을 희생하지 않으면서 창의적 글쓰기(시, 이야기, 농담), 대화 시뮬레이션, 개방형 질의응답, 합성 데이터 생성 등 다양한 분야에서 성능을 크게 향상시킨다는 것을 보여줍니다. 예를 들어, 창의적 글쓰기에서 VS는 직접 프롬프트에 비해 다양성을 1.6~2.1배 증가시켰습니다. 또한, 더 능력 있는 모델일수록 VS로부터 더 큰 이점을 얻는 새로운 경향을 관찰했습니다. 요약하면, 우리의 연구는 모드 붕괴에 대한 새로운 데이터 중심의 관점과 사전 훈련된 생성 모델의 다양성을 해제하는 데 도움이 되는 실용적인 추론 시점의 해결책을 제공합니다.
트랜스포머 언어 모델의 성공은 주로 그들의 내적 어텐션(dot-product attention) 메커니즘에 기인하는데, 이 메커니즘은 여러 핵심 설계 원칙을 결합합니다: 위치 간 정보 혼합(다중 토큰 상호작용 가능), 시퀀스 의존적 활성화(어텐션 가중치가 각 입력에 맞춰 조정), 특정 수학적 형태(내적 유사도와 소프트맥스 가중치 결합), 그리고 쿼리와 키를 변화하는 은닉 상태와 연결(현재 레이어에 어텐션을 기반으로 함). 그러나 이러한 각 원칙의 필수성은 대부분 검증되지 않은 상태입니다. 본 연구에서는 이러한 원칙을 선택적으로 완화한 제어된 변형을 설계하여 어텐션을 체계적으로 해체합니다. 이를 모든 레이어에 균일하게 적용하거나, 일부 레이어만 표준 어텐션을 유지하는 하이브리드 아키텍처에서 적용했습니다. 실험적 분석 결과, 토큰 혼합 메커니즘은 필수적이며, 이가 없으면 모델이 거의 무작위 수준으로 성능이 저하되는 반면, 정확한 수학적 형태와 시퀀스 의존성은 상당히 완화될 수 있음이 밝혀졌습니다. 특히 이들이 일부 레이어에서만 유지될 때 더욱 그러했습니다. 놀랍게도, 단독으로는 실패하는 변형들도 표준 어텐션과 교차 사용할 때 강력한 성능을 발휘할 수 있어 협력 효과를 강조합니다. 이러한 발견은 어텐션의 효과를 진정으로 뒷받침하는 요소에 대한 이해를 깊게 하고, 성능 저하 없이 언어 모델을 단순화할 수 있는 새로운 가능성을 열어줍니다.
대규모 언어 모델은 제한된 메모리로 인해 장기적인 에이전트 작업에서 방해 요소나 관련 없는 문맥에 쉽게 압도되는 문제에 직면합니다. 기존의 작업 메모리 방법은 일반적으로 에이전트의 핵심 정책과 분리된 외부적이고 경험적인 메커니즘에 의존합니다. 본 연구에서는 작업 메모리 관리를 학습 가능한 내재적 능력으로 재구성합니다. 우리는 '메모리-액션(Memory-as-Action)'이라는 새로운 프레임워크를 제안하며, 여기서 에이전트는 통합 정책의 일부로 명시적인 편집 작업을 실행하여 작업 메모리를 능동적으로 관리합니다. 이러한 방식은 강화 학습을 통해 훈련된 에이전트가 주어진 자원 제약 하에서 장기적인 작업 목표와 메모리 관리 간의 균형을 유지할 수 있게 합니다. 그러나 이러한 메모리 편집 작업은 LLM 상호작용에서 지속적으로 증가하는 접두사(prefix)라는 표준 가정을 깨뜨리며, 이로 인해 우리가 '궤적 단절(trajectory fractures)'이라 부르는 현상이 발생합니다. 이러한 비접두사 변경은 표준 정책 경사 방법이 요구하는 인과적 연속성을 방해하여 해당 방법들을 적용 불가능하게 만듭니다. 이를 해결하기 위해 우리는 새로운 알고리즘인 '동적 문맥 정책 최적화(Dynamic Context Policy Optimization)'를 제안합니다. 이 알고리즘은 메모리 액션 지점에서 궤적을 분할하고 결과적인 액션 세그먼트에 궤적 수준의 이점을 적용함으로써 안정적인 종단 간(end-to-end) 강화 학습을 가능하게 합니다. 우리의 결과는 작업 추론과 메모리 관리를 종단 간 방식으로 공동 최적화하는 것이 전반적인 계산 소비를 줄일 뿐만 아니라 모델의 내재적 능력에 맞춘 적응형 문맥 관리 전략에 의해 작업 성능을 향상시킨다는 것을 보여줍니다.
확산 기반 대형 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때의 주요 과제는 RL 목적 함수에 필수적인 가능도 함수의 계산 불가능성에 있습니다. 이는 각 학습 단계에서 해당 근사가 필요함을 의미합니다. 기존 방법들은 맞춤형 몬테카를로(MC) 샘플링을 통해 증거 하한(ELBO)으로 로그 가능도를 근사하지만, RL 목적 함수의 비선형 항에 대한 그래디언트 계산을 위해 모든 MC 샘플의 순방향 계산 그래프를 유지해야 하므로 상당한 메모리 오버헤드가 발생합니다. 이러한 제약으로 인해 실현 가능한 샘플 크기가 제한되어 부정확한 가능도 근사와 궁극적으로 RL 목적 함수의 왜곡을 초래합니다. 이러한 한계를 극복하기 위해, 우리는 메모리 효율적인 RL 알고리즘인 경계 지향 정책 최적화(BGPO)를 제안합니다. BGPO는 ELBO 기반 목적 함수의 특별히 구성된 하한을 최대화합니다. 이 하한은 두 가지 주요 속성을 충족하도록 신중하게 설계되었습니다: (1) 선형성: 각 항이 단일 MC 샘플에만 의존하는 선형 합으로 공식화되어 샘플 간 그래디언트 누적이 가능하고 일정한 메모리 사용을 보장합니다; (2) 등가성: 이 하한의 값과 그래디언트는 온-정책 학습에서 ELBO 기반 목적 함수의 것과 동일하므로 원래 RL 목적 함수에 대한 효과적인 근사치이기도 합니다. 이러한 속성으로 인해 BGPO는 큰 MC 샘플 크기를 채택할 수 있어 더 정확한 가능도 근사와 개선된 RL 목적 함수 추정이 가능하며, 이는 성능 향상으로 이어집니다. 실험 결과, BGPO는 수학 문제 해결, 코드 생성 및 계획 작업에서 dLLMs를 위한 기존 RL 알고리즘들을 크게 능가하는 것으로 나타났습니다.
실제 응용 분야에서의 멀티모달 대형 언어 모델(MLLMs)은 외부 지식 소스에 접근할 수 있어야 하며, 정보 탐색 및 지식 집약적인 사용자 질의를 해결하기 위해 끊임없이 변화하는 실세계 정보에 민첩하게 대응해야 합니다. 기존의 접근 방식, 예를 들어 검색 증강 생성(RAG) 방법, 검색 에이전트, 검색 기능이 탑재된 MLLMs 등은 경직된 파이프라인, 과도한 검색 호출, 잘못 구성된 검색 쿼리 등의 문제로 인해 비효율성과 차선의 결과를 초래하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 이미지와 텍스트 검색 도구 모두에 대해 주문형 다중 턴 웹 검색을 수행하고 동적으로 쿼리를 작성할 수 있는 최초의 멀티모달 LLM인 DeepMMSearch-R1을 제안합니다. 구체적으로, DeepMMSearch-R1은 입력 이미지의 관련 부분을 기반으로 웹 검색을 시작하여 이미지 검색을 더 효과적으로 만들고, 검색된 정보를 기반으로 텍스트 검색 쿼리를 반복적으로 조정함으로써 자기 반영과 자기 수정을 가능하게 합니다. 우리의 접근 방식은 두 단계의 학습 파이프라인에 의존합니다: 초기 감독 미세 조정 단계와 온라인 강화 학습 최적화 단계입니다. 학습을 위해, 우리는 웹 검색 도구에서 얻은 실세계 정보와 자동화된 파이프라인을 혼합하여 생성한 새로운 멀티모달 VQA 데이터셋인 DeepMMSearchVQA를 소개합니다. 이 데이터셋은 텍스트와 시각 정보를 통합한 다양한 다중 홉 쿼리를 포함하며, 모델에게 언제 검색을 해야 하는지, 무엇을 검색해야 하는지, 어떤 검색 도구를 사용해야 하는지, 그리고 검색된 정보를 어떻게 추론해야 하는지를 가르칩니다. 우리는 다양한 지식 집약적 벤치마크에 걸쳐 광범위한 실험을 수행하여 우리 접근 방식의 우수성을 입증합니다. 마지막으로, 결과를 분석하고 멀티모달 웹 검색을 발전시키는 데 유용한 통찰을 제공합니다.
멀티모달 임베딩 모델은 다양한 크로스모달 작업을 가능하게 하는 정보성 높은 통합 표현을 생성하는 것을 목표로 합니다. CLIP 기반의 듀얼-타워 아키텍처에서 대규모 비전-언어 모델로의 진화 과정에서 유망한 발전이 있었음에도 불구하고, 기존 연구들은 여전히 현실 세계의 애플리케이션과 비즈니스 시나리오에서 제한된 모달리티 지원, 불안정한 훈련 메커니즘, 산업 도메인 간의 격차와 같은 불가피한 문제에 직면해 있습니다. 본 연구에서는 이러한 문제를 맞춤형 훈련 전략과 아키텍처 설계를 통해 해결하는 오므니모달 임베딩 기반 모델인 SAIL-Embedding을 소개합니다. 최적화 과정에서, 우리는 표현 학습의 다면적 효과를 증진시키기 위해 다단계 훈련 방식을 제안합니다. 구체적으로, 콘텐츠 인지적 점진적 훈련은 모델의 다양한 다운스트림 작업에 대한 적응력을 강화하고 풍부한 크로스모달 숙련도를 습득하는 것을 목표로 합니다. 협업 인지적 추천 강화 훈련은 시퀀스-투-아이템 및 ID-투-아이템 임베딩에서 지식을 추출하고 사용자의 역사적 관심사를 발굴함으로써 추천 시나리오에 맞게 멀티모달 표현을 더욱 적응시킵니다. 동시에, 우리는 모델 훈련의 유연성과 일반화 능력을 강화하기 위해 확률적 전문화와 데이터셋 기반 패턴 매칭을 개발합니다. 실험 결과는 SAIL-Embedding이 다양한 검색 작업에서 다른 방법들에 비해 SOTA 성능을 달성함을 보여줍니다. 우리 모델과 통합된 다양한 현실 세계 시나리오에서의 온라인 실험에서는 추천 경험의 중요한 지표인 Lifetime (LT)이 크게 증가하는 것을 관찰했습니다. 예를 들어, Douyin-Selected 시나리오에서 모델은 7일 LT 이득 +0.158%와 14일 LT 이득 +0.144%를 제공합니다. Douyin 피드 순위 모델의 경우, SAIL-Embedding이 생성한 매치 특징은 +0.08% AUC 이득을 가져옵니다.
최근 비전-언어 모델(Vision-Language Models, VLMs)의 발전으로 인해 이러한 모델들은 추론 작업에서 매우 효과적인 성능을 보이고 있다. 그러나 성능이 우수한 VL 추론 훈련 데이터셋 구축의 기본 원리는 여전히 잘 이해되지 않고 있다. 본 연구에서는 여러 데이터 큐레이션 접근법을 소개하고, 훈련 및 평가 설정을 신중하게 통제하여 VL 추론 능력에 미치는 영향을 연구한다. 우리는 컨텍스트(이미지와 질문 쌍)의 출처가 미치는 영향을 분석하고, 표적 데이터 개입을 구현하며, 이미지, 질문, 그리고 사고의 연쇄(Chain-of-Thought, CoT) 솔루션의 확장을 탐구한다. 연구 결과는 (a) 컨텍스트 출처 전략이 VLM 성능에 상당한 영향을 미치고, (b) 이미지 캡션에서의 보조 신호와 텍스트 전용 추론의 포함과 같은 개입이 상당한 성능 향상을 가져오며, (c) 모든 데이터 차원(예: 이미지당 고유한 질문 수와 이미지-질문 쌍당 고유한 CoT 수)의 확장이 일관되게 추론 능력을 향상시킨다는 것을 보여준다. 이러한 통찰을 바탕으로, 우리는 350K개의 이미지-질문 쌍으로 구성된 2.5M개의 예시를 포함한 대규모 고품질 CoT 추론 데이터셋인 HoneyBee를 소개한다. HoneyBee로 훈련된 VLMs은 모델 크기에 관계없이 최첨단 모델들을 능가한다. 예를 들어, 3B 매개변수를 가진 HoneyBee로 훈련된 VLM은 MathVerse에서 SOTA 모델과 기본 모델을 각각 7.8%와 24.8% 능가한다. 또한, 우리는 정확도를 희생하지 않고 디코딩 비용을 73% 줄이는 테스트 시간 확장 전략을 제안한다. 전반적으로, 이 연구는 VL 추론 데이터셋 큐레이션 연구를 위한 개선된 전략을 제시한다.
다중 인스턴스 이미지 생성(MIG)은 객체 레이아웃에 대한 정밀한 제어와 여러 개별 주체의 정체성 유지라는 핵심적인 한계로 인해 현대 디퓨전 모델에게 여전히 중요한 과제로 남아 있습니다. 이러한 한계를 해결하기 위해, 우리는 레이아웃과 참조 이미지로 안내되는 새로운 디퓨전 트랜스포머 프레임워크인 ContextGen을 소개합니다. 우리의 접근 방식은 두 가지 주요 기술적 기여를 통합합니다: 첫째, 복합 레이아웃 이미지를 생성 컨텍스트에 통합하여 객체를 원하는 위치에 견고하게 고정하는 컨텍스트 레이아웃 앵커링(CLA) 메커니즘과, 둘째, 컨텍스트 참조 이미지를 활용하여 여러 인스턴스의 정체성 일관성을 보장하는 혁신적인 주의 메커니즘인 아이덴티티 일관성 주의(ICA)입니다. 이 작업을 위한 대규모 계층적 구조의 데이터셋이 부족함을 인식하여, 우리는 상세한 레이아웃과 정체성 주석이 포함된 최초의 데이터셋인 IMIG-100K를 소개합니다. 광범위한 실험을 통해 ContextGen이 제어 정밀도, 정체성 충실도, 전반적인 시각적 품질에서 기존 방법들을 능가하며 새로운 최첨단 기술을 설정함을 입증합니다.
AI의 발전은 모든 필수 기능을 갖춘 프로그래밍 언어의 부재로 인해 방해받고 있습니다. PyTorch와 TensorFlow와 같은 라이브러리는 자동 미분과 효율적인 GPU 구현을 제공하지만, 이들은 AI를 위해 설계되지 않은 Python에 추가된 기능일 뿐입니다. 이들 라이브러리는 자동화된 추론과 지식 획득을 지원하지 않아, 이를 추가하기 위한 긴 시간과 비용이 드는 임시방편적인 시도들이 계속되어 왔습니다. 반면, LISP와 Prolog와 같은 AI 언어는 확장성과 학습 지원이 부족합니다. 본 논문은 이러한 문제를 해결하기 위해 텐서 로직(tensor logic)이라는 언어를 제안합니다. 이 언어는 신경망과 기호 AI를 근본적인 수준에서 통합함으로써 이러한 문제를 해결합니다. 텐서 로직의 유일한 구성 요소는 텐서 방정식으로, 논리 규칙과 아인슈타인 합산이 본질적으로 동일한 연산이라는 관찰에 기반하며, 다른 모든 것도 이들로 환원될 수 있습니다. 저는 텐서 로직을 사용하여 트랜스포머, 형식적 추론, 커널 머신, 그래픽 모델 등 신경망, 기호, 통계적 AI의 주요 형태를 우아하게 구현하는 방법을 보여줍니다. 무엇보다도, 텐서 로직은 임베딩 공간에서의 건전한 추론과 같은 새로운 방향을 가능하게 합니다. 이는 신경망의 확장성과 학습 가능성을 기호 추론의 신뢰성과 투명성과 결합하며, AI의 보다 광범위한 채택을 위한 기반이 될 가능성이 있습니다.
물리적 장면의 동역학을 이해하는 것은, 특히 국소적 상호작용의 결과로서 발생할 수 있는 다양한 변화 방식에 대해 추론하는 것을 포함합니다. 우리는 "poke"라고 불리는 희소한 상호작용을 조건으로 하여 국소적 움직임의 분포를 직접 예측하는 새로운 프레임워크인 Flow Poke Transformer(FPT)를 제안합니다. 전통적인 방법들이 일반적으로 장면 동역학의 단일 실현을 밀집하게 샘플링하는 데 그치는 반면, FPT는 다중 모드 장면 움직임, 물리적 상호작용에 대한 의존성, 그리고 장면 동역학의 내재적 불확실성에 대한 해석 가능하고 직접 접근 가능한 표현을 제공합니다. 우리는 또한 여러 하위 작업에서 우리의 모델을 평가하여 기존 방법과의 비교를 가능하게 하고 우리 접근법의 유연성을 강조합니다. 밀집한 얼굴 움직임 생성에서, 우리의 일반적인 사전 훈련된 모델은 특화된 베이스라인을 능가합니다. FPT는 합성 데이터셋과 같은 강력한 분포 외 작업에서 미세 조정될 수 있어 관절형 물체 움직임 추정에서 도메인 내 방법에 비해 상당한 개선을 가능하게 합니다. 또한, 명시적 움직임 분포를 직접 예측하는 것은 우리의 방법이 poke로부터 움직이는 부분 분할과 같은 작업에서 경쟁력 있는 성능을 달성할 수 있게 하여 FPT의 다용성을 더욱 입증합니다. 코드와 모델은 https://compvis.github.io/flow-poke-transformer에서 공개적으로 이용 가능합니다.
명령 기반 이미지 편집은 자연어를 통해 이미지를 조작할 수 있는 강력하고 직관적인 방법을 제공합니다. 그러나 텍스트 명령에만 의존할 경우 편집의 정도에 대한 세밀한 제어가 제한됩니다. 우리는 Kontinuous Kontext를 소개하며, 이는 편집 강도에 대한 새로운 차원의 제어를 제공하여 사용자가 아무런 변화 없음부터 완전히 구현된 결과까지 부드럽고 연속적인 방식으로 편집을 조정할 수 있게 합니다. Kontinuous Kontext는 최신 이미지 편집 모델을 확장하여 추가 입력으로 스칼라 편집 강도를 받아들이고, 이를 편집 명령과 짝지어 편집의 정도를 명시적으로 제어할 수 있게 합니다. 이 스칼라 정보를 주입하기 위해, 우리는 입력 스칼라와 편집 명령을 모델의 변조 공간에서의 계수로 매핑하는 경량 프로젝터 네트워크를 학습시킵니다. 모델 학습을 위해, 우리는 기존 생성 모델을 사용하여 다양한 이미지-편집-명령-강도 사중항 데이터셋을 합성하고, 품질과 일관성을 보장하기 위한 필터링 단계를 거칩니다. Kontinuous Kontext는 스타일화, 속성, 재질, 배경, 형태 변경 등 다양한 작업에 걸쳐 미묘한 편집부터 강력한 편집까지 명령 기반 편집의 세밀한 제어를 위한 통합된 접근 방식을 제공하며, 속성별 학습을 요구하지 않습니다.
우리는 대형 언어 모델(LLM)이 어떻게 표현 공간을 통해 '사고'하는지를 연구한다. 우리는 LLM의 추론을 논리가 진행되는 곳에서 진화하는 임베딩 궤적, 즉 흐름(flow)으로 모델링하는 새로운 기하학적 프레임워크를 제안한다. 동일한 자연 연역 명제를 다양한 의미적 운반체와 함께 사용함으로써 논리적 구조를 의미론으로부터 분리하여, LLM이 표면 형태를 넘어 논리를 내재화하는지 테스트할 수 있게 한다. 이 관점은 추론을 위치, 속도, 곡률과 같은 기하학적 양과 연결시켜 표현 공간과 개념 공간에서의 형식적 분석을 가능하게 한다. 우리의 이론은 다음을 입증한다: (1) LLM의 추론은 표현 공간에서의 매끄러운 흐름에 대응하며, (2) 논리적 명제는 이러한 흐름의 속도를 국소적으로 제어한다. 학습된 표현 프록시를 사용하여, 우리는 통제된 실험을 설계하여 추론 흐름을 시각화하고 정량화함으로써 우리의 이론적 프레임워크를 실증적으로 검증한다. 우리의 연구는 추론 현상을 연구하기 위한 개념적 기초와 실용적 도구를 제공하며, LLM의 행동에 대한 해석 가능성과 형식적 분석을 위한 새로운 렌즈를 제시한다.
이상적인 디자인 파이프라인에서는 사용자 인터페이스(UI) 디자인이 사용자 연구와 긴밀하게 연결되어 의사결정을 검증하지만, 초기 탐색 단계에서는 연구 자원이 제한되는 경우가 많습니다. 최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 공식 테스트 전에 디자이너들이 옵션을 좁히는 데 도움을 줄 수 있는 초기 평가자 역할을 할 수 있는 유망한 기회를 제공합니다. 이전 연구들이 전자상거래와 같은 특정 도메인에서 클릭이나 전환율과 같은 지표를 통해 사용자 행동을 강조한 것과 달리, 우리는 다양한 인터페이스에 걸친 주관적인 사용자 평가에 초점을 맞춥니다. 우리는 MLLMs가 개별 UI를 평가하고 비교할 때 인간의 선호도를 모방할 수 있는지 조사합니다. 크라우드소싱 플랫폼의 데이터를 사용하여 GPT-4o, Claude, Llama를 30개의 인터페이스에 걸쳐 벤치마킹하고, 여러 UI 요소에 대한 인간의 판단과의 일치도를 검토합니다. 우리의 결과는 MLLMs가 일부 차원에서는 인간의 선호도를 근사적으로 반영하지만 다른 차원에서는 차이를 보여, 초기 UX 연구를 보완하는 데 있어 그들의 잠재력과 한계를 동시에 강조합니다.
상징적 세계 모델링은 환경의 전이 역학을 실행 가능한 프로그램으로 추론하고 표현하는 것을 요구한다. 기존 연구는 주로 풍부한 상호작용 데이터, 단순한 메커니즘, 그리고 인간의 지도가 있는 결정론적 환경에 초점을 맞추었다. 우리는 더 현실적이고 도전적인 설정, 즉 복잡하고 확률적인 환경에서 인간의 지도 없이 적대적인 환경을 탐험할 수 있는 "단 한 번의 기회"만을 가진 에이전트의 학습 문제를 다룬다. 우리는 OneLife를 소개하는데, 이는 확률적 프로그래밍 프레임워크 내에서 조건부로 활성화되는 프로그램적 법칙을 통해 세계 역학을 모델링하는 프레임워크이다. 각 법칙은 전제조건-효과 구조를 통해 작동하며, 관련된 세계 상태에서 활성화된다. 이는 복잡하고 계층적인 상태에 대한 예측에 모든 법칙이 기여할 때 발생하는 확장성 문제를 피하고, 희소한 규칙 활성화에서도 확률적 역학을 학습할 수 있도록 하는 동적 계산 그래프를 생성한다. 이러한 까다로운 제약 하에서 우리의 접근법을 평가하기 위해, 우리는 (a) 상태 순위, 즉 가능한 미래 상태와 불가능한 미래 상태를 구별하는 능력, 그리고 (b) 상태 충실도, 즉 현실과 유사한 미래 상태를 생성하는 능력을 측정하는 새로운 평가 프로토콜을 도입한다. 우리는 Crafter-OO에서 우리의 프레임워크를 개발하고 평가하는데, 이는 구조화된 객체 지향적 상징적 상태와 그 상태만을 대상으로 작동하는 순수 전이 함수를 노출시키는 Crafter 환경의 재구현이다. OneLife는 최소한의, 지도 없는 상호작용에서도 주요 환경 역학을 성공적으로 학습할 수 있으며, 테스트된 23개 시나리오 중 16개에서 강력한 베이스라인을 능가한다. 또한 우리는 OneLife의 계획 능력을 테스트했으며, 시뮬레이션 롤아웃을 통해 우수한 전략을 성공적으로 식별했다. 우리의 작업은 알려지지 않은 복잡한 환경에 대한 프로그램적 세계 모델을 자율적으로 구축하는 기반을 마련한다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 질의에 답변하기 전에 자연어 사고 과정을 설계함으로써 문제 해결 측면에서 새로운 가능성을 열어주었다. 이러한 모델의 능력은 수학 및 코딩 작업에서 잘 알려져 있지만, 기계 번역(Machine Translation, MT) 작업에 미치는 영향은 아직 충분히 탐구되지 않았다. 본 연구에서는 다양한 자원 수준의 언어 쌍과 다양한 설정에서 중간 토큰 생성이 기계 번역 수행에 미치는 이점을 탐구한다. 우리는 "사고 토큰(thinking tokens)"이 LRM이 기계 번역을 더 잘 수행하는 데 도움이 되지 않는다는 사실을 발견했다. 이 결과는 인간 번역가의 관행에서 영감을 받은 연쇄 사고(Chain of Thought, CoT)를 응축하여 번역 전에 추론하도록 미세 조정된 모델에도 일반화된다. 구체적으로, 단계별 번역 방법을 상세히 설명하는 합성 CoT 설명으로 모델을 미세 조정하는 것은 표준 입력-출력 미세 조정을 능가하지 못한다. 그러나 모듈식 번역 전략의 출력을 결합하여 중간 토큰을 구성하면 개선이 이루어진다. 우리의 연구 결과는 미세 조정 중 중간 토큰의 기여가 그 안에 번역 시도가 포함되어 있는지 여부에 크게 의존한다는 점을 강조한다. 더 넓은 관점에서, 우리의 결과는 목표 번역을 개선하거나 병렬 코퍼스를 확장하기 위해 교사 모델을 사용하는 것이 그들의 CoT 설명을 "사고" 기계 번역 모델에 응축하는 것보다 더 큰 영향을 미친다는 것을 시사한다.
우리는 Cautious Weight Decay(CWD)를 소개한다. 이는 옵티마이저에 독립적인 한 줄의 수정으로, 옵티마이저 업데이트와 부호가 일치하는 파라미터 좌표에만 가중치 감쇠를 적용한다. 암묵적으로 정규화되거나 제약된 목적 함수를 최적화하는 표준 디커플드 감쇠와 달리, CWD는 원래의 손실 함수를 보존하며 이중 수준 해석을 허용한다: 이는 정지 매니폴드에 도달했을 때 슬라이딩 모드 동작을 유도하여, 수정되지 않은 목적 함수의 지역적 파레토 최적 정지점을 탐색할 수 있게 한다. 실제로 CWD는 AdamW, Lion, Muon과 같은 옵티마이저에 즉시 적용 가능하며, 새로운 하이퍼파라미터나 추가 튜닝이 필요하지 않다. 언어 모델 사전 학습 및 ImageNet 분류에서 CWD는 수백만에서 수십억 개의 파라미터 규모에서 최종 손실과 정확도를 지속적으로 개선한다.
대규모 언어 모델(LLM) 에이전트는 장기적인 과제에서 컨텍스트 길이에 의해 근본적으로 제약을 받습니다. 우리는 에이전트가 작업 컨텍스트를 능동적으로 관리할 수 있도록 하는 Context-Folding 프레임워크를 소개합니다. 이 프레임워크에서 에이전트는 서브태스크를 처리하기 위해 절차적으로 서브트래젝토리로 분기하고, 완료 후 이를 접어 중간 단계를 축소하면서도 결과에 대한 간결한 요약을 유지할 수 있습니다. 이러한 동작을 학습 가능하게 만들기 위해, 우리는 효과적인 태스크 분해와 컨텍스트 관리를 장려하기 위한 특정 프로세스 보상을 포함한 종단 간 강화 학습 프레임워크인 FoldGRPO를 개발했습니다. 복잡한 장기 과제(Deep Research 및 SWE)에서, 우리의 폴딩 에이전트는 ReAct 기준선과 동등하거나 더 나은 성능을 보이면서도 활성 컨텍스트를 10배 더 작게 사용하며, 요약 기반 컨텍스트 관리에 의존하는 모델들을 크게 능가합니다.
최근 대형 언어 모델(LLMs)은 내재된 과학적 지식을 활용하여 과학적 방정식 발견에 적용되고 있다. 그러나 현재의 방법들은 일반적으로 LLMs를 유전자 프로그래밍과 같은 탐색 알고리즘 내에서 단순한 방정식 제안자 역할로 제한한다. 본 논문에서는 LLMs를 단순한 방정식 제안자에서 데이터를 분석하고, 방정식을 코드로 구현하며, 평가를 위해 제출하고, 실험적 피드백을 기반으로 방정식을 최적화하는 자율적인 AI 과학자로 격상시키는 SR-Scientist 프레임워크를 제안한다. 구체적으로, 코드 인터프리터를 데이터 분석 및 방정식 평가를 위한 도구 세트로 포장한다. 에이전트는 인간이 정의한 파이프라인을 최소화하면서 장기간에 걸쳐 이러한 도구를 활용하여 방정식을 최적화하도록 지시받는다. 실험 결과, SR-Scientist는 네 가지 과학 분야를 포괄하는 데이터셋에서 기준 방법들보다 6%에서 35%의 절대적 차이로 우수한 성능을 보인다. 또한, 본 방법의 노이즈에 대한 강건성, 발견된 방정식의 도메인 외 데이터로의 일반화 능력, 그리고 기호적 정확성을 입증한다. 더 나아가, 에이전트의 능력을 향상시키기 위한 종단간 강화 학습 프레임워크를 개발한다.
우리는 장기적인 다중 턴 도구 사용을 위한 대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 미세 조정을 연구하며, 여기서 컨텍스트 길이는 빠르게 근본적인 병목 현상이 됩니다. 기존의 RL 파이프라인은 지시 사항 준수 저하, 과도한 롤아웃 비용, 그리고 가장 중요한 고정된 컨텍스트 제한으로 인해 어려움을 겪을 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 요약 기반 컨텍스트 관리를 학습에 도입합니다. 구체적으로, 이 방법은 LLM이 생성한 요약을 통해 도구 사용 기록을 주기적으로 압축하여 작업 관련 정보를 유지하면서도 컴팩트한 컨텍스트를 유지함으로써 에이전트가 고정된 컨텍스트 창을 넘어 확장할 수 있도록 합니다. 이 공식을 기반으로, 우리는 표준 LLM RL 인프라가 도구 사용 행동과 요약 전략을 종단 간 방식으로 최적화할 수 있도록 하는 정책 그래디언트 표현을 도출합니다. 우리는 이 프레임워크를 SUmmarization augmented Policy Optimization(SUPO)라는 LLM RL 알고리즘으로 구체화하며, 이 알고리즘은 고정된 컨텍스트 제한을 넘어 장기적인 학습을 가능하게 합니다. 인터랙티브 함수 호출 및 검색 작업에 대한 실험은 SUPO가 기준선과 동일하거나 더 낮은 작업 컨텍스트 길이를 유지하면서 성공률을 크게 향상시킴을 보여줍니다. 또한, 복잡한 검색 작업의 경우, SUPO는 학습 시간보다 더 긴 테스트 시간 최대 요약 라운드를 확장할 때 평가 성능을 더욱 개선할 수 있음을 보여줍니다. 우리의 결과는 요약 기반 컨텍스트 관리가 고정된 컨텍스트 길이 제한을 넘어 RL 에이전트를 학습시키는 원칙적이고 확장 가능한 접근 방식임을 입증합니다.
다중모달 대형 언어 모델(MLLMs)은 복잡한 실험 절차를 해석함으로써 과학적 발견을 가속화할 잠재력을 가지고 있습니다. 그러나 기존 벤치마크가 실제 실험실 작업, 특히 웻랩 환경에서의 세밀하고 장기적인 특성을 간과함에 따라 이들의 진정한 능력은 제대로 이해되지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 과학 실험 비디오에서 MLLMs를 체계적으로 평가하기 위한 첫 번째 벤치마크인 ExpVid를 소개합니다. 동료 검토를 거친 비디오 출판물에서 선별된 ExpVid는 과학적 과정을 반영한 새로운 3단계 작업 계층 구조를 특징으로 합니다: (1) 도구, 재료, 행동에 대한 세밀한 인지; (2) 단계 순서와 완결성에 대한 절차적 이해; (3) 전체 실험을 출판된 결론과 연결하는 과학적 추론. 자동 생성과 다학제 전문가 검증을 결합한 비전 중심의 주석 파이프라인은 작업이 시각적 근거를 요구하도록 보장합니다. 우리는 ExpVid에서 19개의 주요 MLLMs를 평가했으며, 이들이 대략적인 인식에서는 뛰어나지만 세부 사항을 명확히 구분하고 시간에 따른 상태 변화를 추적하며 실험 절차를 과학적 결과와 연결하는 데 어려움을 겪는 것을 발견했습니다. 우리의 결과는 특히 고차원적 추론에서 독점 모델과 오픈소스 모델 간의 뚜렷한 성능 격차를 보여줍니다. ExpVid는 진단 도구로서의 역할뿐만 아니라 과학적 실험에서 신뢰할 수 있는 파트너가 될 수 있는 MLLMs 개발을 위한 로드맵을 제시합니다.
데이터 오염은 대규모 언어 모델(LLM)의 신뢰할 수 있는 평가에 심각한 위협을 가합니다. 이 문제는 벤치마크 샘플이 실수로 훈련 세트에 포함되어 보고된 성능의 타당성을 훼손할 때 발생합니다. 사전 훈련 및 지도 미세 조정 단계를 위한 탐지 방법이 개발되었지만, 점점 더 중요해지는 강화 학습(RL) 사후 훈련 단계에 대한 중요한 연구 간극이 존재합니다. RL 사후 훈련이 LLM의 추론 능력을 발전시키는 데 핵심적인 역할을 함에 따라, 이 패러다임에서 전문화된 오염 탐지 방법의 부재는 심각한 취약점으로 작용합니다. 이를 해결하기 위해, 우리는 RL 사후 훈련 시나리오 내에서 데이터 탐지에 대한 첫 번째 체계적인 연구를 수행하고 Self-Critique 방법을 제안합니다. 우리의 방법은 RL 단계 이후 LLM의 출력 엔트로피 분포가 매우 특정하고 희소한 모드로 붕괴되는 경향이 있다는 주요 관찰에 기반을 두고 있습니다. Self-Critique는 이러한 엔트로피 감소를 초래하는, 모델이 좁은 추론 경로로 수렴하는 정책 붕괴를 탐색합니다. 이 연구를 촉진하기 위해, 우리는 또한 이 특정 오염 시나리오를 시뮬레이션하기 위해 구성된 벤치마크인 RL-MIA를 소개합니다. 광범위한 실험을 통해 Self-Critique가 여러 모델과 오염 작업에서 기준 방법을 크게 능가하며, AUC 개선률이 최대 30%에 달함을 보여줍니다. 기존 방법들이 RL 단계 오염에 대해 무작위 추측에 가까운 반면, 우리의 방법은 탐지를 가능하게 합니다.
기존의 다중모드 대형 언어 모델(MLLMs)은 이미지 입력으로 인해 추가된 시각 토큰으로 인해 추론 비용이 증가하는 문제를 겪고 있습니다. 본 연구에서는 다양한 의미론적 복잡도를 가진 이미지를 서로 다른 수의 시각 토큰으로 표현할 수 있도록 하는 새로운 학습 알고리즘인 시각 일관성 학습(Visual Consistency Learning, ViCO)을 제안합니다. 우리 방법의 핵심 아이디어는 이미지의 의미론적 복잡도에 따라 시각 토큰을 다운샘플링하기 위해 서로 다른 이미지 압축 비율을 가진 여러 MLP 커넥터를 사용하는 것입니다. 학습 과정에서는 서로 다른 MLP 커넥터에 조건부로 생성된 응답 간의 KL 발산을 최소화합니다. 추론 시에는 각 이미지 패치에 적절한 압축률을 자동으로 선택하는 이미지 라우터인 시각 해상도 라우터(Visual Resolution Router, ViR)를 도입합니다. 기존의 동적 고해상도 전략이 이미지 해상도에 따라 시각 토큰의 수를 조정하는 것과 달리, 우리의 방법은 의미론적 복잡도에 따라 시각 토큰의 수를 동적으로 조정합니다. 실험 결과는 우리의 방법이 모델의 인지, 추론 및 OCR 능력을 유지하면서 시각 토큰의 수를 최대 50%까지 줄일 수 있음을 보여줍니다. 이 연구가 보다 효율적인 MLLMs 개발에 기여하기를 바랍니다. 코드와 모델은 향후 연구를 촉진하기 위해 공개될 예정입니다.
최근 긴 사고 사슬(CoT) 추론 분야의 발전은 주로 답변의 정확성과 토큰 효율성을 우선시하면서, 신뢰성에 있어 중요한 측면들을 간과해 왔습니다. 우리는 사용 가능한 추론 시스템이 신뢰할 수 있어야 하며, 이는 해석 가능성, 충실성, 신뢰성이라는 세 가지 속성으로 특징지어져야 한다고 주장합니다. 이를 위해 우리는 GRPO와 지도 미세 조정을 통합한 새로운 훈련 프레임워크인 ReFIne을 제안합니다. ReFIne은 모델이 다음을 수행하도록 장려합니다: (i) 인간이 따라가기 쉬운 구조화된 태그 기반 추적과 고수준 계획을 생성함으로써 해석 가능성을 개선하고, (ii) 각 해결책을 이끄는 결정적 정보를 명시적으로 공개하고 일관된 교차 참조를 제공함으로써 충실성을 강화하며, (iii) 추론의 타당성과 최종 답변의 신뢰도에 대한 자체 평가를 제공함으로써 신뢰성을 촉진합니다. 우리는 ReFIne을 다양한 규모(1.7B/4B/8B)의 Qwen3 모델에 적용하고, 다양한 난이도의 수학 벤치마크에서 평가했습니다. 실험 결과, ReFIne 모델은 더 명확하고 잘 구조화된 추적을 생성하며(해석 가능성 +44.0%), 기본 의사 결정 과정을 더 충실하게 드러내고(충실성 +18.8%), 유익한 신뢰도 추정치를 제공합니다(신뢰성 +42.4%). 이러한 결과는 간과되었지만 중요한 방향을 강조합니다: 추론 모델은 정확성뿐만 아니라 신뢰성의 더 넓은 차원에 대해서도 최적화되어야 합니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
시계열 예측(Time Series Forecasting, TSF)은 최근 대규모 언어 모델(Large Language Models, LLMs)을 활용한 상당한 노력에도 불구하고, 여전히 기계 학습 분야에서 해결되지 않은 어려운 문제로 남아 있습니다. 이러한 LLMs는 주로 Transformer 아키텍처에 의존하고 있으나, 실험적 증거는 강력한 Transformer 모델조차도 TSF 작업에서 훨씬 단순한 모델(예: 선형 모델)을 능가하지 못하는 경우가 많음을 일관되게 보여줍니다. 그러나 이러한 현상에 대한 엄밀한 이론적 이해는 여전히 제한적입니다. 본 논문에서는 In-Context Learning (ICL) 이론의 관점을 통해 TSF에 대한 Transformer의 한계를 이론적으로 분석합니다. 구체적으로, AR(p) 데이터 하에서 다음과 같은 결과를 도출합니다: (1) 선형 자기 주의(Linear Self-Attention, LSA) 모델은 컨텍스트 내 예측에서 기존의 선형 모델보다 낮은 예상 평균 제곱 오차(Mean Squared Error, MSE)를 달성할 수 없으며, (2) 컨텍스트 길이가 무한대로 접근함에 따라 LSA는 점근적으로 최적의 선형 예측자를 복원하고, (3) Chain-of-Thought (CoT) 스타일 추론 하에서 예측은 기하급수적으로 평균값으로 수렴합니다. 이러한 결과는 신중하게 설계된 실험을 통해 실증적으로 검증되었습니다. 우리의 이론은 이전에 충분히 탐구되지 않았던 여러 현상에 대한 통찰을 제공할 뿐만 아니라, 보다 효과적인 예측 아키텍처 설계를 위한 실용적인 지침을 제시합니다. 본 연구가 TSF의 근본적인 이론적 한계를 재고하고, 더 깊은 검토 없이 점점 더 복잡해지는 아키텍처의 직접적인 적용을 비판적으로 평가하는 데 있어 연구 커뮤니티 전반에 자극을 줄 수 있기를 바랍니다.
최근 대규모 언어 모델(LLMs)의 발전은 추론 체인의 길이를 연장함으로써 복잡한 작업에서의 성능을 크게 향상시킨다는 것을 보여주었습니다. 이러한 추론 과정을 공개하는 것은 사용자가 모델의 문제 해결 과정을 더 잘 따라가고, 검증하며, 학습하는 데 도움을 주지만, 동시에 무단 증류에 매우 취약하게 만듭니다. 이러한 위험을 완화하기 위해 독점 모델 제공업체들은 종종 자세한 추론을 간략한 요약으로 대체하는 등 공격적인 보호 전략을 채택하여 사용자에게 중요한 중간 정보를 제공하지 않습니다. 이러한 절충안을 해결하기 위해, 우리는 PART라는 정보 보존형 반증류 추론 재구성을 제안합니다. 인간이 추론 과정을 이해하는 방식과 LLMs가 이를 지도 학습을 위해 활용하는 방식의 차이에 착안하여, 우리는 간단하지만 효과적인 두 단계 재구성 방식을 설계했습니다: 자기 대화 행동 제거 및 하위 결론 재정렬. 이 재구성을 수행하기 위해 작은 보조 모델이 훈련되며, 이는 최소한의 계산 오버헤드를 발생시킵니다. 광범위한 실험을 통해 PART는 다양한 추론 벤치마크에서 다양한 크기와 유형의 학생 모델들에 걸쳐 증류를 일관되게 방해하는 것으로 나타났습니다. 예를 들어, 재구성된 추론 과정으로 훈련할 경우, 32B 규모의 대형 학생 모델의 성능이 AIME 2024에서 54.17에서 46.88로 감소하며, 이는 13.5%의 성능 저하에 해당합니다.
챗봇 제공업체(예: OpenAI)는 수익을 창출하기 위해 계층형 구독 방식을 활용하며, 무료 사용자에게는 기본 모델을 제공하고 유료 구독자에게는 고급 모델을 제공한다. 그러나 프리미엄 기능(예: 수학, 코딩)에 대해 더 세분화된 유료 해제 방식이 제공업체에게 더 경제적으로 유리할 것으로 여겨진다. 이러한 방식은 기능 잠금 기술(FLoTE)을 필요로 하는데, 이 기술은 (i) 잠긴 기능을 거부하는 데 효과적이고, (ii) 해제된 기능에 대해 유틸리티를 보존하며, (iii) 회피 또는 무단 자격 증명 공유에 대해 강력하며, (iv) 다중 기능과 사용자에게 확장 가능해야 한다. 그러나 기존의 FLoTEs(예: 비밀번호 잠금 모델)는 강력하거나 확장 가능하지 않다. 본 논문에서는 유료 해제 방식을 가능하게 하는 최초의 강력하고 확장 가능한 FLoTE인 Locket을 제시한다. Locket은 LLM에 어댑터를 부착하여 무단 기능을 거부하는 새로운 병합 방식을 사용한다. 포괄적인 평가 결과, Locket은 효과적(잠긴 기능에 대해 100% 거부), 유틸리티 보존(해제된 기능에서 ≤7% 유틸리티 저하), 강력(≤5% 공격 성공률), 그리고 다중 기능과 클라이언트에 확장 가능함을 보여준다.
최근 대형 추론 모델(Large Reasoning Models, LRMs)을 위한 추론 기반 안전 장치(예: 숙고적 정렬)는 탈옥 공격(jailbreak attacks)에 대한 강력한 방어력을 보여주었다. 이러한 장치는 LRM의 추론 능력을 활용하여 최종 응답을 생성하기 전에 사용자 입력의 안전성을 평가하도록 돕는다. 강력한 추론 능력은 입력 쿼리의 의도를 분석하고, 탈옥 방법에 숨겨진 유해한 의도를 감지하면 이를 거부한다. 이러한 장치는 오픈소스 gpt-oss 시리즈에서 거의 완벽한 거부율과 같은 상당한 방어력 향상을 보여주었다. 그러나 이러한 강력한 추론 기반 장치가 입력 프롬프트의 미묘한 조작에 극도로 취약하며, 일단 공격당하면 더욱 유해한 결과를 초래할 수 있음을 발견했다. 구체적으로, 우리는 이러한 장치의 놀라울 정도로 취약한 측면을 처음으로 밝혀냈다: 입력 프롬프트에 단순히 몇 개의 템플릿 토큰을 추가하는 것만으로도 겉보기에는 강력한 장치를 우회하고 명시적이며 유해한 응답을 이끌어낼 수 있다. 이를 더 탐구하기 위해, 우리는 추론 기반 장치를 전복시키는 다양한 탈옥 방법을 소개한다. 우리의 공격은 화이트박스, 그레이박스, 블랙박스 설정을 아우르며, 간단한 템플릿 조작에서 완전 자동화된 최적화에 이르기까지 다양하다. 확장 가능한 구현의 잠재력과 함께, 이러한 방법은 로컬 호스트 모델과 온라인 API 서비스 모두에서 gpt-oss 시리즈에 대해 5개의 다른 벤치마크에서 90%를 초과하는 놀라울 정도로 높은 공격 성공률을 달성한다. 다양한 주요 오픈소스 LRM에 대한 평가는 이러한 취약점이 시스템적임을 확인하며, 악의적인 오용을 방지하기 위해 오픈소스 LRM에 대한 더 강력한 정렬 기술의 필요성을 강조한다. 코드는 https://chenxshuo.github.io/bag-of-tricks에서 오픈소스로 제공된다.
본 논문에서는 AI 생성 이미지에 대한 보이지 않는 워터마킹을 위한 딥러닝 기반 시스템인 SynthID-Image를 소개한다. 이 논문은 인터넷 규모에서 이러한 시스템을 배포하기 위한 기술적 요구사항, 위협 모델, 그리고 실질적인 도전 과제를 문서화하며, 효과성, 충실도, 견고성, 보안이라는 핵심 요구사항을 다룬다. SynthID-Image는 Google의 서비스 전반에 걸쳐 100억 개 이상의 이미지와 비디오 프레임에 워터마킹을 적용하는 데 사용되었으며, 해당 검증 서비스는 신뢰할 수 있는 테스터들에게 제공되고 있다. 완결성을 위해, 파트너십을 통해 이용 가능한 외부 모델 변형인 SynthID-O에 대한 실험적 평가를 제시한다. SynthID-O를 문헌에 소개된 다른 사후 워터마킹 방법들과 비교 평가하여, 시각적 품질과 일반적인 이미지 변형에 대한 견고성 측면에서 최첨단 성능을 입증한다. 이 연구는 시각적 미디어를 중심으로 진행되었으나, 배포, 제약 조건, 위협 모델링에 대한 결론은 오디오를 포함한 다른 형태의 미디어에도 일반화될 수 있다. 본 논문은 딥러닝 기반 미디어 출처 추적 시스템의 대규모 배포에 대한 포괄적인 문서를 제공한다.
대조적 오디오-언어 사전 학습은 강력한 공동 표현을 제공하지만, 지속적인 오디오-텍스트 양식 간의 격차는 다중 양식 인코더와 대형 언어 모델(LLM)의 결합 효과를 제한합니다. 본 연구에서는 오디오 임베딩을 텍스트 임베딩 분포로 생성적으로 매핑하는 확산 기반 양식 연결 모듈인 Diffusion-Link를 제안합니다. 이 모듈은 고정된 다중 양식 인코더의 출력 임베딩에서 학습되며, 세 개의 잔차 MLP 블록으로 구성된 경량 네트워크로 구현됩니다. Diffusion-Link가 다중 양식 인코더와 LLM의 결합에 미치는 영향을 평가하기 위해 자동 오디오 캡션 생성(AAC)을 사용하였으며, 이는 확산 기반 양식 연결을 AAC에 적용한 첫 번째 사례로 알려져 있습니다. 두 가지 결과를 보고합니다. (1) 양식 간 격차 분석: 유사성 및 기하학적 기준에서 Diffusion-Link는 기존의 확산 기반 방법들 중 가장 큰 양식 간 격차 감소를 보였으며, 오디오 임베딩이 텍스트 분포로 집단적으로 이동하는 것을 확인했습니다. (2) 하위 작업 AAC: 동일한 다중 양식 LLM 베이스라인에 Diffusion-Link를 부착하면 외부 지식 없이도 AudioCaps에서 제로샷 및 완전 지도 캡션 생성 모두에서 최첨단 성능을 달성하였으며, 각각 최대 52.5% 및 7.5%의 상대적 성능 향상을 보였습니다. 이러한 결과는 양식 간 격차를 줄이는 것이 다중 양식 인코더와 LLM의 효과적인 결합에 있어 핵심적이며, 확산 기반 양식 연결이 지식 검색 중심 설계를 넘어 유망한 방향을 제시함을 보여줍니다. 코드는 논문 수락 시 https://github.com/DevKiHyun/Diffusion-Link에서 공개될 예정입니다.
대형 언어 모델(LLM)을 기반으로 구축된 심층 연구(DR) 에이전트는 복잡하고 다단계의 연구를 수행할 수 있으며, 이를 위해 작업을 분해하고 온라인 정보를 검색하며 상세한 보고서를 합성한다. 그러나 이러한 강력한 능력을 가진 LLM의 오용은 더 큰 위험을 초래할 수 있다. 특히 생물안전과 같이 고위험 및 지식 집약적인 분야에서 DR이 금지된 지식을 포함한 전문 보고서를 생성할 수 있다는 점은 특히 우려스럽다. 실제로 우리는 이러한 위험을 발견했다: 독립형 LLM이 직접 거부하는 유해한 쿼리를 제출하는 것만으로도 DR 에이전트로부터 상세하고 위험한 보고서를 얻을 수 있다. 이는 위험 수준이 높아졌음을 강조하며, 더 깊은 안전 분석의 필요성을 부각시킨다. 그러나 LLM을 대상으로 설계된 탈옥 방법은 DR 에이전트의 연구 능력을 목표로 하지 않기 때문에 이러한 독특한 위험을 드러내는 데 한계가 있다. 이러한 격차를 해결하기 위해 우리는 두 가지 새로운 탈옥 전략을 제안한다: 에이전트의 계획에 악의적인 하위 목표를 주입하는 '계획 주입(Plan Injection)'과 유해한 쿼리를 학술 연구 질문으로 재구성하는 '의도 탈취(Intent Hijack)'이다. 우리는 다양한 LLM과 일반 및 생물안전 금지 프롬프트를 포함한 다양한 안전 벤치마크를 대상으로 광범위한 실험을 수행했다. 이 실험을 통해 세 가지 주요 결과를 도출했다: (1) LLM의 정렬은 DR 에이전트에서 종종 실패하며, 학술 용어로 구성된 유해한 프롬프트가 에이전트의 의도를 탈취할 수 있다; (2) 다단계 계획 및 실행은 정렬을 약화시키며, 프롬프트 수준의 안전장치로는 해결할 수 없는 시스템적 취약점을 드러낸다; (3) DR 에이전트는 거부를 우회할 뿐만 아니라 독립형 LLM에 비해 더 일관적이고 전문적이며 위험한 콘텐츠를 생성한다. 이러한 결과는 DR 에이전트의 근본적인 정렬 오류를 보여주며, DR 에이전트에 맞춤화된 더 나은 정렬 기술의 필요성을 요구한다. 코드와 데이터셋은 https://chenxshuo.github.io/deeper-harm에서 확인할 수 있다.
기존의 잡음 제거 생성 모델은 이산화된 역시간 SDE(Stochastic Differential Equation) 또는 ODE(Ordinary Differential Equation)를 해결하는 데 의존해 왔다. 본 논문에서는 이러한 모델군에서 오랫동안 간과되었지만 광범위하게 존재하는 문제를 확인하였다: 샘플링 과정 중 중간 상태에 인코딩된 실제 잡음 수준과 사전 정의된 잡음 수준 간의 불일치이다. 우리는 이러한 불일치를 '잡음 편향(noise shift)'이라 명명한다. 실증적 분석을 통해, 잡음 편향이 현대의 확산 모델에서 널리 퍼져 있으며 체계적인 편향을 보임으로써, 분포 외 일반화와 부정확한 잡음 제거 업데이트로 인해 최적이 아닌 생성 결과를 초래함을 입증하였다. 이 문제를 해결하기 위해, 우리는 사전 정의된 잡음 스케줄과 일관되게 샘플링 궤적을 유도하는 간단하지만 효과적인 보정 방법인 '잡음 인식 가이던스(Noise Awareness Guidance, NAG)'를 제안한다. 또한, 외부 분류기를 필요로 하지 않도록 잡음 조건부 및 비조건부 모델을 잡음 조건 드롭아웃을 통해 공동으로 학습하는 NAG의 분류기 없는 변형을 소개한다. ImageNet 생성 및 다양한 지도 미세 조정 작업을 포함한 광범위한 실험을 통해, NAG가 잡음 편향을 지속적으로 완화하고 주류 확산 모델의 생성 품질을 크게 향상시킴을 보여준다.
디퓨전 기반 대형 언어 모델(dLLM)은 자동회귀(AR) LLM에 대한 유망한 대안으로 부상하며, 노이즈 제거 기반 생성을 통해 내재적 병렬성을 가능하게 합니다. 점점 더 많은 오픈소스 dLLM 모델이 등장하고 있지만, 표준화되고 효율적인 추론 프레임워크의 부재로 인해 광범위한 채택은 여전히 제한적입니다. 우리는 dLLM 추론을 위한 효율적이고 확장 가능한 프레임워크인 dInfer를 소개합니다. dInfer는 추론 파이프라인을 모델, 디퓨전 반복 관리자, 디코딩 전략, KV 캐시 관리자라는 네 가지 모듈식 구성 요소로 분해하고, 각 구성 요소에 대한 새로운 알고리즘과 시스템 수준의 최적화를 통합합니다. 이러한 알고리즘 혁신과 시스템 개선의 조합을 통해 dInfer는 LLaDA-MoE에서 출력 품질을 저하시키지 않으면서도 상당한 효율성 향상을 달성합니다. 배치 크기 1에서 HumanEval에서 초당 1,100개 이상의 토큰을 처리하며, 8개의 H800 GPU에서 6개 벤치마크에 걸쳐 평균 초당 800개 이상의 토큰을 처리합니다. 기존 시스템과 비교하여, dInfer는 Fast-dLLM 대비 10배의 속도 향상을 제공하면서도 유사한 모델 성능을 유지합니다. 최신 vLLM 추론 엔진으로 최적화된 AR 모델인 QWen2.5-3B(활성화 매개변수 수와 성능이 유사한)와 비교해도 dInfer는 여전히 2-3배의 속도 향상을 제공합니다. dInfer의 구현은 https://github.com/inclusionAI/dInfer에서 오픈소스로 제공됩니다.