번역이 포함된 일일 선별된 AI 연구 논문
정책 기반 강화 학습은 현재 수학적 추론 과제에서 대형 언어 모델(LLM)의 성능을 개선하는 데 중요한 역할을 하고 있습니다. 그러나 기존의 롤아웃 기반 강화 학습 방법들(GRPO, DAPO, GSPO 등)은 LLM이 다양한 난이도의 샘플에 대해 학습하는 능력을 명시적으로 고려하지 못하고 있으며, 이는 쉬운 문제에서 어려운 문제로 점진적으로 나아가는 인간의 수학적 추론 인지 과정과는 상반됩니다. 직관적으로, 우리는 RLVR에서 롤아웃 그룹의 보상 분산이 LLM에게 현재 샘플의 난이도를 부분적으로 반영한다는 것을 발견했습니다. 너무 쉬운 샘플이나 너무 어려운 샘플은 분산이 낮은 반면, 중간 정도의 난이도를 가진 샘플은 분산이 더 높았습니다. 이를 바탕으로, 우리는 그룹 보상의 분산을 기반으로 훈련 샘플의 난이도를 동적으로 조절하는 커리큘럼 강화 학습 프레임워크인 VCRL을 제안합니다. 다섯 가지 수학 벤치마크와 두 가지 모델에 대한 실험을 통해 VCRL이 현재의 LLM 강화 학습 베이스라인보다 우수함을 입증했습니다.
대규모 다중모달 추론 모델은 빠른 발전을 이루었지만, 두 가지 주요 한계로 인해 그 진보가 제약받고 있습니다: 개방형 대규모 고품질 장기 사고 사슬(CoT) 데이터의 부재와 사후 훈련에서 강화학습(RL) 알고리즘의 불안정성이 그것입니다. RL 미세 조정을 위한 표준 프레임워크인 그룹 상대 정책 최적화(GRPO)는 보상 분산이 낮을 때 기울기 소실이 발생하기 쉬워 최적화 신호가 약화되고 수렴이 저해됩니다. 본 연구는 세 가지 기여를 합니다: (1) 결과 분산과 궤적 다양성을 결합하여 보상 분산을 촉진하고 정책 최적화를 안정화하는 분산 촉진 점수(VPS)에 기반한 데이터 선택 전략인 분산 인식 샘플링(VAS)을 제안합니다. (2) 품질, 난이도, 다양성을 보장하도록 설계된 ~160만 개의 장기 CoT 콜드 스타트 데이터와 ~15,000개의 RL QA 쌍을 포함한 대규모의 신중하게 선별된 리소스와 완전히 재현 가능한 종단 간 훈련 코드베이스를 공개합니다. (3) 다양한 규모의 다중모달 추론 모델 패밀리를 오픈소스로 제공하여 커뮤니티를 위한 표준화된 기준을 확립합니다. 수학적 추론 벤치마크를 통한 실험은 선별된 데이터와 제안된 VAS의 효과를 입증합니다. 포괄적인 제거 연구와 분석은 각 구성 요소의 기여에 대한 추가적인 통찰을 제공합니다. 또한, 보상 분산이 기대 정책 기울기 크기의 하한을 형성하며, VAS가 이를 실현하는 실용적인 메커니즘으로 작용함을 이론적으로 입증합니다. 우리의 코드, 데이터, 체크포인트는 https://github.com/LengSicong/MMR1에서 확인할 수 있습니다.
우리는 자연어와 이질적인 과학적 표현을 정렬하는 과학적 추론 기반 모델을 제시합니다. 이 모델은 과학 텍스트, 순수 시퀀스, 그리고 시퀀스-텍스트 쌍으로 구성된 206B 토큰 규모의 코퍼스로 사전 학습되었으며, 40M 개의 지시 사항을 통해 SFT(Supervised Fine-Tuning)로 정렬되었습니다. 또한, 장문의 사고 사슬(chain-of-thought)을 유도하기 위해 냉간 시작 부트스트래핑(annealed cold-start bootstrapping)을 적용하고, 과제별 보상 형성(reward shaping)을 통한 강화 학습을 통해 의도적인 과학적 추론 능력을 함양했습니다. 이 모델은 (i) 텍스트와 과학적 형식 간의 충실한 변환, (ii) 텍스트/지식 추출, (iii) 속성 예측, (iv) 속성 분류, (v) 무조건 및 조건부 시퀀스 생성 및 설계를 포함한 최대 103개의 작업을 아우르는 네 가지 능력군을 지원합니다. 전문가 시스템과 비교했을 때, 우리의 접근 방식은 지시 사항의 범위를 확장하고, 도메인 간 일반화를 개선하며, 충실도를 향상시킵니다. 데이터 큐레이션과 학습 과정을 상세히 설명하며, 학제 간 학습이 전이 및 하류 작업의 신뢰성을 강화함을 보여줍니다. 이 모델, 지시 튜닝 데이터셋 및 평가 코드는 https://huggingface.co/SciReason와 https://github.com/open-sciencelab/SciReason에서 오픈소스로 공개되었습니다.
최근 강화학습(Reinforcement Learning, RL)의 발전은 대규모 언어 모델(Large Language Models, LLMs)의 에이전트 능력을 크게 향상시켰습니다. 장기적이고 다중 턴(multi-turn) 에이전트 작업에서, 결과 보상만으로 구동되는 기존 접근법은 희소한 감독(sparse supervision) 문제에 직면하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 트리 탐색 기반의 그룹화된 에이전트 RL 방법인 Tree-based Group Relative Policy Optimization(Tree-GRPO)을 제안합니다. 여기서 각 트리 노드는 완전한 에이전트 상호작용 단계를 나타냅니다. 공통 접두사를 공유함으로써, 트리 탐색 샘플링은 고정된 토큰 또는 도구 호출 예산 내에서 달성 가능한 롤아웃(rollout)의 수를 증가시킵니다. 또한, 트리 구조의 궤적은 결과 보상만 사용하더라도 단계별 과정 감독 신호를 자연스럽게 구성할 수 있음을 발견했습니다. 이를 기반으로, Tree-GRPO는 트리 내(intra-tree) 및 트리 간(inter-tree) 수준에서 그룹화된 상대적 이점(relative advantage)을 추정합니다. 이론적 분석을 통해, 트리 내 수준 그룹 상대적 정책 최적화의 목표가 단계별 직접 선호 학습(step-level direct preference learning)의 목표와 동일함을 입증합니다. 11개의 데이터셋과 3가지 유형의 질의응답(QA) 작업에 걸친 실험을 통해, 제안된 트리 기반 RL 방법이 체인 기반 RL 방법보다 우수함을 입증했습니다.
우리는 텍스트-이미지(T2I) 합성, 이미지 편집, 다중 이미지 구성을 단일 프레임워크 내에서 통합한 효율적이고 고성능의 멀티모달 이미지 생성 시스템인 Seedream 4.0을 소개합니다. 우리는 강력한 VAE(Variational Autoencoder)를 갖춘 고효율 디퓨전 트랜스포머를 개발하여 이미지 토큰의 수를 상당히 줄였습니다. 이를 통해 모델의 효율적인 학습이 가능하며, 고해상도 이미지(예: 1K-4K)를 빠르게 생성할 수 있습니다. Seedream 4.0은 다양한 분류체계와 지식 중심 개념을 아우르는 수십억 개의 텍스트-이미지 쌍으로 사전 학습되었습니다. 수백 개의 수직 시나리오에서의 포괄적인 데이터 수집과 최적화된 전략을 통해 안정적이고 대규모의 학습이 가능하며, 강력한 일반화 성능을 보장합니다. 세심하게 미세 조정된 VLM(Vision-Language Model)을 통합하여 T2I와 이미지 편집 작업을 동시에 학습하기 위한 멀티모달 사후 학습을 수행합니다. 추론 가속을 위해 적대적 증류, 분포 매칭, 양자화 및 스펙티브 디코딩을 통합했습니다. 이를 통해 2K 이미지를 생성하는 데 최대 1.8초의 추론 시간을 달성했습니다(LLM/VLM을 PE 모델로 사용하지 않은 경우). 포괄적인 평가 결과, Seedream 4.0은 T2I 및 멀티모달 이미지 편집에서 최첨단 성능을 달성할 수 있음이 확인되었습니다. 특히, 정밀한 이미지 편집 및 컨텍스트 내 추론과 같은 복잡한 작업에서 탁월한 멀티모달 능력을 보여주며, 다중 이미지 참조가 가능하고 여러 출력 이미지를 생성할 수 있습니다. 이는 기존의 T2I 시스템을 더욱 상호작용적이고 다차원적인 창작 도구로 확장하여 생성형 AI의 경계를 창의성과 전문적 응용 분야 모두에서 넓혀줍니다. Seedream 4.0은 현재 https://www.volcengine.com/experience/ark?launch=seedream에서 이용 가능합니다.
3D 네이티브 생성 모델의 최근 발전은 게임, 영화, 디자인을 위한 자산 생성 속도를 가속화했습니다. 그러나 대부분의 방법은 여전히 주로 이미지나 텍스트 조건에 의존하며, 세밀한 교차 모달 제어가 부족하여 제어 가능성과 실제 적용이 제한됩니다. 이러한 격차를 해결하기 위해, 우리는 Hunyuan3D 2.1을 기반으로 한 세밀하고 제어 가능한 3D 자산 생성을 위한 통합 프레임워크인 Hunyuan3D-Omni를 제시합니다. Hunyuan3D-Omni는 이미지 외에도 포인트 클라우드, 복셀, 바운딩 박스, 스켈레톤 포즈 프라이어를 조건 신호로 받아들여 기하학, 토폴로지, 포즈에 대한 정밀한 제어를 가능하게 합니다. 각 모달리티에 대해 별도의 헤드를 사용하는 대신, 우리의 모델은 모든 신호를 단일 교차 모달 아키텍처로 통합합니다. 우리는 예제당 하나의 제어 모달리티를 선택하고 더 어려운 신호(예: 스켈레톤 포즈)를 선호하면서 더 쉬운 신호(예: 포인트 클라우드)의 가중치를 낮추는 점진적, 난이도 인식 샘플링 전략으로 학습하여 강력한 다중 모달 융합과 누락된 입력의 우아한 처리를 장려합니다. 실험 결과, 이러한 추가 제어는 생성 정확도를 향상시키고, 기하학 인식 변환을 가능하게 하며, 생산 워크플로우의 견고성을 증가시킵니다.
AutoIntent는 텍스트 분류 작업을 위한 자동화된 머신러닝 도구입니다. 기존 솔루션과 달리, AutoIntent는 임베딩 모델 선택, 분류기 최적화, 결정 임계값 조정을 포함한 종단 간 자동화를 제공하며, 이 모든 기능이 모듈식의 sklearn과 유사한 인터페이스 내에서 이루어집니다. 이 프레임워크는 다중 레이블 분류 및 범위 외 탐지를 지원하도록 설계되었습니다. AutoIntent는 표준 의도 분류 데이터셋에서 기존 AutoML 도구 대비 우수한 성능을 보이며, 사용자가 효과성과 자원 소비 간의 균형을 맞출 수 있도록 합니다.
대형 언어 모델(LLM)을 자동 평가자로 활용하는(LLM-as-a-judge) 방식은 현재의 평가 프레임워크에서 중요한 불일치 문제를 드러냈습니다. 우리는 두 가지 근본적인 유형의 불일치를 확인했습니다: (1) 점수 비교 불일치(Score-Comparison Inconsistency), 즉 낮은 점수를 받은 응답이 높은 점수를 받은 응답보다 쌍별 비교에서 더 나은 성능을 보이는 경우, 그리고 (2) 쌍별 전이성 불일치(Pairwise Transitivity Inconsistency), 이는 순환적 선호 체인(A>B>C>A)과 동등성 모순(A=B=C≠A)으로 나타납니다. 이러한 문제는 이산적 평점 시스템에서의 정보 손실과 쌍별 평가 중 모호한 동점 판단에서 비롯된다고 주장합니다. 우리는 이러한 한계를 해결하기 위해 TrustJudge라는 확률적 프레임워크를 제안합니다. 이 프레임워크는 두 가지 주요 혁신을 통해 문제를 해결합니다: 1) 이산적 평점 확률로부터 연속적인 기대값을 계산하는 분포 민감적 점수 산정(distribution-sensitive scoring)으로, 정보 엔트로피를 보존하여 더 정확한 점수 산정을 가능하게 하고, 2) 쌍별 선호 확률 또는 퍼플렉서티(perplexity)를 사용하여 전이성 위반을 해결하는 가능성 기반 집계(likelihood-aware aggregation)입니다. 또한, 우리는 현재의 LLM-as-a-judge 프레임워크의 이론적 한계를 공식화하고, TrustJudge의 구성 요소가 이를 어떻게 극복하는지 보여줍니다. Llama-3.1-70B-Instruct를 평가자로 사용한 데이터셋에서의 평가 결과, TrustJudge는 점수 비교 불일치를 8.43%(23.32%에서 14.89%로) 감소시키고, 쌍별 전이성 불일치를 10.82%(15.22%에서 4.40%로) 감소시키면서도 더 높은 평가 정확도를 유지했습니다. 우리의 연구는 LLM-as-a-judge 패러다임에서 평가 프레임워크의 불일치를 체계적으로 분석한 첫 번째 연구로, 신뢰할 수 있는 자동 평가를 위한 이론적 통찰과 실용적인 해결책을 제공합니다. 이 프레임워크는 다양한 모델 아키텍처와 규모에서 일관된 개선을 보여주며, 추가적인 학습이나 인간 주석 없이도 더 신뢰할 수 있는 LLM 평가를 가능하게 합니다. 코드는 https://github.com/TrustJudge/TrustJudge에서 확인할 수 있습니다.
본 논문은 기존 텍스트 데이터에 사고 궤적(thinking trajectories)을 추가하여 대규모 언어 모델(LLM) 학습의 데이터 효율성을 개선하는 간단하고 확장 가능한 접근 방식을 소개한다. LLM 사전 학습에 필요한 컴퓨팅 리소스는 전례 없는 속도로 증가하고 있는 반면, 고품질 데이터의 가용성은 여전히 제한적이다. 따라서, 사용 가능한 데이터의 유용성을 극대화하는 것은 중요한 연구 과제로 대두되고 있다. 주요 장애 요인 중 하나는 고정된 모델 용량 내에서 특정 고품질 토큰을 학습하기가 어렵다는 점인데, 이는 단일 토큰의 근본적인 논리가 매우 복잡하고 깊을 수 있기 때문이다. 이 문제를 해결하기 위해, 우리는 텍스트에 자동 생성된 사고 궤적을 추가하는 보편적인 방법론인 사고 증강 사전 학습(Thinking augmented Pre-Training, TPT)을 제안한다. 이러한 증강은 훈련 데이터의 양을 효과적으로 증가시키고, 단계별 추론과 분해를 통해 고품질 토큰을 더 쉽게 학습할 수 있게 한다. 우리는 TPT를 100B 토큰 규모까지 다양한 학습 설정에 적용했으며, 이는 제한된 데이터와 풍부한 데이터를 모두 사용한 사전 학습뿐만 아니라 강력한 오픈소스 체크포인트를 활용한 중간 학습도 포함한다. 실험 결과는 우리의 방법이 다양한 모델 크기와 계열에 걸쳐 LLM의 성능을 크게 향상시킨다는 것을 보여준다. 특히, TPT는 LLM 사전 학습의 데이터 효율성을 3배까지 개선한다. 3B 파라미터 모델의 경우, 여러 도전적인 추론 벤치마크에서 사후 학습 성능을 10% 이상 향상시킨다.
강화 학습(Reinforcement Learning, RL)은 복잡한 추론 작업을 처리하기 위해 대규모 언어 모델(Large Language Models, LLMs)을 최적화하는 강력한 패러다임으로 자리 잡았습니다. 이 과정에서 핵심적인 과제는 훈련 중 탐색(exploration)과 활용(exploitation) 사이의 균형을 반영하는 정책 엔트로피(policy entropy)를 관리하는 것입니다. 기존의 방법들, 예를 들어 근위 정책 최적화(Proximal Policy Optimization, PPO) 및 그 변형들은 클리핑(clipping) 메커니즘으로 인해 낮은 확률의 토큰에서 발생하는 가치 있는 그래디언트 신호를 버립니다. 우리는 엔트로피 역학을 체계적으로 분석하고, 이러한 클리핑된 토큰들이 엔트로피 진화를 조절하는 데 있어 중요한 역할을 하지만 간과되고 있음을 밝혔습니다. 우리는 그래디언트 보존 정책 최적화를 통해 엔트로피를 제어하는 새로운 알고리즘인 CE-GPPO(Controlling Entropy via Gradient-Preserving Policy Optimization)를 제안합니다. 이 알고리즘은 클리핑 구간 밖의 토큰들에서 발생하는 그래디언트의 크기를 조절함으로써 탐색과 활용 사이의 균형을 달성합니다. 우리는 CE-GPPO가 엔트로피 불안정성을 효과적으로 완화한다는 이론적 근거와 실험적 증거를 제시합니다. 수학적 추론 벤치마크에서의 광범위한 실험을 통해 CE-GPPO가 다양한 모델 규모에서 강력한 베이스라인을 일관되게 능가함을 보여줍니다.
최근 행동 복제(Behavior Cloning, BC) 기술의 발전으로 인상적인 시각운제어 정책이 가능해졌다. 그러나 이러한 접근 방식은 인간 시연의 품질, 데이터 수집에 필요한 수작업, 그리고 오프라인 데이터 증가에 따른 한계에 직면해 있다. 반면, 강화 학습(Reinforcement Learning, RL)은 환경과의 자율적 상호작용을 통해 에이전트를 훈련시키며 다양한 분야에서 주목할 만한 성과를 보여주고 있다. 하지만 실제 로봇에서 RL 정책을 직접 훈련하는 것은 샘플 효율성, 안전 문제, 그리고 장기간 작업에서의 희소 보상 학습의 어려움, 특히 높은 자유도(DoF) 시스템에서의 어려움으로 인해 여전히 도전적인 과제로 남아 있다. 본 연구에서는 잔차 학습(residual learning) 프레임워크를 통해 BC와 RL의 장점을 결합한 방법을 제안한다. 우리의 접근 방식은 BC 정책을 블랙박스 기반으로 활용하고, 샘플 효율적인 오프-정책(off-policy) RL을 통해 경량의 단계별 잔차 보정을 학습한다. 우리의 방법은 희소한 이진 보상 신호만으로도 충분하며, 시뮬레이션과 실제 환경 모두에서 높은 자유도(DoF) 시스템의 조작 정책을 효과적으로 개선할 수 있음을 입증한다. 특히, 우리는 지식의 범위 내에서, 민첩한 손을 가진 휴머노이드 로봇에서의 첫 번째 성공적인 실제 RL 훈련 사례를 보여준다. 우리의 결과는 다양한 시각 기반 작업에서 최첨단 성능을 보여주며, 실제 세계에 RL을 적용하기 위한 실용적인 경로를 제시한다. 프로젝트 웹사이트: https://residual-offpolicy-rl.github.io
우리는 애니메이션 헤어스타일 모델링을 위한 새로운 파라미터 기반 표현 및 생성 프레임워크인 CHARM을 소개한다. 기존의 헤어 모델링 방법은 스트랜드 기반 또는 볼류메트릭 표현을 사용하여 사실적인 헤어에 초점을 맞추는 반면, 애니메이션 헤어스타일은 고도로 스타일화된 조각 구조의 기하학을 보여주어 기존 기술에 도전한다. 기존 연구들은 종종 밀집된 메시 모델링이나 수작업 스플라인 곡선에 의존하여 편집에 비효율적이고 확장 가능한 학습에 적합하지 않다. CHARM은 컴팩트하고 역변환 가능한 제어점 기반 파라미터화를 도입하여, 각 헤어 카드를 일련의 제어점으로 표현하고 각 점을 단 5개의 기하학적 파라미터로 인코딩한다. 이 효율적이고 정확한 표현은 아티스트 친화적인 디자인과 학습 기반 생성을 모두 지원한다. 이 표현을 기반으로, CHARM은 입력 이미지 또는 포인트 클라우드에서 애니메이션 헤어스타일을 효과적으로 생성하는 자기회귀 생성 프레임워크를 도입한다. 애니메이션 헤어스타일을 순차적인 "헤어 언어"로 해석함으로써, 우리의 자기회귀 트랜스포머는 로컬 기하학과 글로벌 헤어스타일 토폴로지를 모두 포착하여 고품질의 애니메이션 헤어스타일 생성이 가능하다. 애니메이션 헤어스타일 생성의 학습과 평가를 용이하게 하기 위해, 우리는 분리된 헤어 카드와 처리된 메시 데이터를 포함한 37K개의 고품질 애니메이션 헤어스타일로 구성된 대규모 데이터셋인 AnimeHair를 구축했다. 광범위한 실험을 통해 CHARM은 재구성 정확도와 생성 품질 모두에서 최첨단 성능을 보여주며, 애니메이션 헤어스타일 모델링을 위한 표현력 있고 확장 가능한 솔루션을 제공한다. 프로젝트 페이지: https://hyzcluster.github.io/charm/
최근 몇 년 동안, 멀티모달 모델은 놀라운 발전을 이루며 지능형 브라우저 사용 에이전트의 길을 열어 왔습니다. 그러나 실제 웹페이지에서 다중 턴, 장기적 궤적으로 작업을 해결할 때, 현재의 에이전트들은 여전히 실행 중에 무질서한 행동 순서와 과도한 시행착오를 겪고 있습니다. 본 논문은 정찰-행동(Reconnaissance-Action) 행동 패러다임에 기반한 자가 진화형 다중 에이전트 프레임워크인 Recon-Act를 소개합니다. 이 시스템은 정찰 팀(Reconnaissance Team)과 행동 팀(Action Team)으로 구성됩니다: 전자는 비교 분석과 도구 생성을 수행하고, 후자는 의도 분해, 도구 조율 및 실행을 처리합니다. 오류 궤적과 성공적인 궤적을 대조함으로써, 정찰 팀은 해결책을 추론하고 이를 일반화된 도구의 통합 개념으로 추상화하여 힌트나 규칙 기반 코드로 표현하고, 실시간으로 도구 아카이브에 등록합니다. 행동 팀은 이러한 목표 도구를 활용하여 프로세스를 재추론함으로써 데이터-도구-행동-피드백의 폐쇄형 훈련 파이프라인을 구축합니다. 본 연구에서 제안한 6단계 구현 로드맵에 따라, 우리는 현재 3단계(제한적인 인간 개입 포함)에 도달했습니다. 정찰을 통해 얻은 일반화된 도구를 활용함으로써, Recon-Act는 미지의 웹사이트에 대한 적응성과 장기적 작업의 해결 가능성을 크게 향상시키며, 도전적인 VisualWebArena 데이터셋에서 최첨단 성능을 달성합니다.
이미지 합성은 사용자가 지정한 객체를 새로운 장면에 자연스럽게 삽입하는 것을 목표로 하지만, 기존 모델들은 복잡한 조명(예: 정확한 그림자, 물 반사)과 다양한 고해상도 입력을 처리하는 데 어려움을 겪습니다. 최신 텍스트-이미지 확산 모델(예: SD3.5, FLUX)은 필수적인 물리적 및 해상도 사전 정보를 이미 인코딩하고 있지만, 이를 효과적으로 활용하기 위한 프레임워크가 부족하여 잠재 공간 역전(latent inversion)에 의존하거나 취약한 주의 수술(attention surgery)을 사용해야 하는 경우가 많습니다. 이에 우리는 SHINE(Seamless, High-fidelity Insertion with Neutralized Errors)이라는 학습이 필요 없는 프레임워크를 제안합니다. SHINE은 사전 학습된 맞춤형 어댑터(예: IP-Adapter)를 활용하여 매니폴드 주도 앵커 손실(manifold-steered anchor loss)을 도입함으로써 객체 표현의 충실도를 유지하면서 배경의 무결성을 보존합니다. 또한, 저품질 출력과 눈에 띄는 이음매를 제거하기 위해 저하 억제 가이던스(degradation-suppression guidance)와 적응형 배경 혼합(adaptive background blending)을 제안합니다. 엄격한 벤치마크의 부족을 해결하기 위해, 우리는 다양한 해상도와 낮은 조명, 강한 조명, 복잡한 그림자, 반사 표면과 같은 도전적인 조건을 포함한 ComplexCompo를 소개합니다. ComplexCompo와 DreamEditBench에서의 실험은 표준 지표(예: DINOv2)와 인간 중심 점수(예: DreamSim, ImageReward, VisionReward)에서 최신 기술 수준의 성능을 보여줍니다. 코드와 벤치마크는 출판 시 공개될 예정입니다.
대규모 추론 모델(LRMs)이 광범위한 사고의 연쇄적 추론을 생성하는 반면, 이러한 사고가 어떻게 구조화되는지 이해하기 위한 원칙적인 틀은 부족합니다. 본 논문에서는 인간의 수학적 문제 해결을 위한 고전적인 인지 프레임워크인 Schoenfeld의 에피소드 이론을 적용하여 LRM의 추론 흔적을 분석하는 새로운 접근 방식을 소개합니다. 우리는 모델이 생성한 수학 문제 해결 과정의 수천 개의 문장과 단락을 7가지 인지 레이블(예: 계획, 실행, 검증)로 주석 처리했습니다. 그 결과, 대규모 주석 처리된 코퍼스와 상세한 주석 가이드북을 포함한 기계 추론의 세밀한 분석을 위한 최초의 공개 벤치마크가 탄생했습니다. 예비 분석을 통해 LRM 추론에서의 인지 상태 간 전환 역학과 같은 독특한 패턴이 발견되었습니다. 이 프레임워크는 LRM 인지를 해석하기 위한 이론적으로 근거 있는 방법론을 제공하며, 더 제어 가능하고 투명한 추론 시스템에 대한 미래 연구를 가능하게 합니다.
우리는 고품질 이미지 생성을 접근 가능한 소비자 기기로 가져오는 효율적인 소수 스텝 증류 프레임워크인 SD3.5-Flash를 소개합니다. 우리의 접근 방식은 계산적으로 부담이 큰 정류 흐름(rectified flow) 모델을 소수 스텝 생성에 특화된 재구성된 분포 매칭 목표를 통해 증류합니다. 우리는 두 가지 주요 혁신을 도입했습니다: 그래디언트 노이즈를 줄이기 위한 "타임스텝 공유(timestep sharing)"와 프롬프트 정렬을 개선하기 위한 "분할 타임스텝 미세 조정(split-timestep fine-tuning)"입니다. 텍스트 인코더 재구성 및 특수 양자화와 같은 포괄적인 파이프라인 최적화와 결합하여, 우리의 시스템은 다양한 하드웨어 구성에서 빠른 생성과 메모리 효율적인 배포를 가능하게 합니다. 이를 통해 모바일 폰부터 데스크톱 컴퓨터에 이르기까지 모든 기기에서의 접근성을 민주화합니다. 대규모 사용자 연구를 포함한 광범위한 평가를 통해, SD3.5-Flash가 기존의 소수 스텝 방법들을 지속적으로 능가하며, 실질적인 배포를 위한 고급 생성 AI를 진정으로 접근 가능하게 만드는 것을 입증합니다.
대규모 언어 모델(LLM)은 프로그래밍 작업에서 놀라운 능력을 보여주고 있지만, 현재 벤치마크는 주로 단일 모달리티에 초점을 맞추고 있어 시각적 게임 개발을 다루지 못하고 있습니다. 대부분의 기존 코드 관련 벤치마크는 구문 정확성과 실행 정확성을 평가하는 데 그치며, 실제 배포에 필수적인 플레이 가능성, 시각적 미학, 사용자 참여와 같은 게임 특화 지표를 간과하고 있습니다. 알고리즘 문제 해결 및 경쟁 프로그래밍에서의 현재 LLM 능력과 실질적인 게임 개발의 포괄적 요구 사항 간의 격차를 해소하기 위해, 우리는 V-GameGym을 제안합니다. 이는 실제 저장소에서 도출된 100개의 주제별 클러스터에 걸친 2,219개의 고품질 샘플로 구성된 종합 벤치마크로, 다양성과 구조적 완전성을 보장하기 위한 새로운 클러스터링 기반 큐레이션 방법론을 채택했습니다. 더 나아가, 완전한 UI 샌드박스 환경을 활용한 시각적 코드 합성을 위한 자동화된 LLM 기반 파이프라인을 포함한 다중 모달 평가 프레임워크를 도입했습니다. 우리의 광범위한 분석을 통해 V-GameGym이 코드 생성 정확성과 실질적인 게임 개발 워크플로우 간의 격차를 효과적으로 메우며, 시각적 프로그래밍 및 상호작용 요소 생성에 대한 정량적 품질 지표를 제공함을 확인했습니다.
강화 학습(Reinforcement Learning, RL)은 정적 벤치마크를 넘어 동적이고 다중 턴 상호작용에 참여하는 에이전트 모델을 훈련하는 데 유망한 가능성을 보여주고 있습니다. 그러나 이러한 에이전트의 궁극적인 가치는 사용자를 지원하는 능력에 있으며, 이는 사용자 상호작용의 다양성과 동적 특성으로 인해 도전 과제를 제기합니다. 본 연구에서는 표준화된 gym 환경과 시뮬레이션된 사용자를 결합하여 사용자 중심 능력을 훈련하고 평가하기 위한 통합 프레임워크인 UserRL을 제안합니다. 우리는 턴 단위 보상 할당과 궤적 단위 점수 계산을 체계적으로 변화시켜 GRPO 알고리즘 하에서 다양한 공식화가 학습에 미치는 영향을 분석합니다. Qwen3 모델을 대상으로 한 실험을 통해 세 가지 주요 결과를 도출했습니다: (i) SFT 콜드 스타트는 초기 상호작용 능력을 발휘하고 지속적인 RL 개선을 가능하게 하는 데 중요합니다; (ii) 의도적인 궤적 점수 계산은 더 효율적이고 효과적인 다중 턴 상호작용을 이끌어냅니다; (iii) 더 강력한 시뮬레이션 사용자(예: GPT-4o)는 훈련을 촉진하지만, 오픈소스 시뮬레이터(예: Qwen3-32B)는 비용 효율적이고 이식 가능한 옵션으로 남아 있습니다. 이러한 결과들은 보다 신중한 보안 설계와 사용자 시뮬레이션 선택이 모델 규모만큼 중요하며, UserRL이 견고한 사용자 중심 에이전트 모델 개발을 위한 실용적인 경로임을 입증합니다. 모든 코드와 데이터는 향후 연구를 위해 공개되어 있습니다.
Visual Geometry Grounded Transformers(VGGTs)로 대표되는 학습 기반 3D 재구성 모델은 대규모 트랜스포머의 사용으로 인해 놀라운 발전을 이루었습니다. 그러나 이들의 과도한 계산 및 메모리 비용은 실제 환경에서의 배포를 심각하게 저해합니다. 학습 후 양자화(Post-Training Quantization, PTQ)는 모델을 압축하고 가속화하기 위한 일반적인 방법론으로 자리 잡았습니다. 하지만 우리는 실험적으로, PTQ가 수십억 규모의 VGGTs를 압축할 때 독특한 장애물에 직면한다는 것을 관찰했습니다: 데이터 독립적인 특수 토큰들이 무거운 꼬리(heavy-tailed) 활성화 분포를 유발하는 반면, 3D 데이터의 다중 뷰(multi-view) 특성은 캘리브레이션 샘플 선택을 매우 불안정하게 만듭니다. 본 논문은 VGGTs를 위한 최초의 양자화 프레임워크인 QuantVGGT를 제안합니다. 이는 주로 두 가지 기술적 기여에 기반합니다: 첫째, 우리는 무거운 꼬리 분포와 채널 간 분산을 강력하게 완화하기 위해 전역적 하다마드 회전(pre-global Hadamard rotation)과 지역적 채널 평활화(post-local channel smoothing)를 통합한 이중 평활 세밀 양자화(Dual-Smoothed Fine-Grained Quantization)를 도입했습니다. 둘째, 우리는 딥 레이어 통계를 통해 이상치를 필터링하고 프레임 인식의 다양한 캘리브레이션 클러스터를 구성하여 안정적인 양자화 범위를 보장하는 노이즈 필터링 다양성 샘플링(Noise-Filtered Diverse Sampling)을 설계했습니다. 포괄적인 실험을 통해 QuantVGGT가 다양한 벤치마크와 비트 폭에서 최첨단 결과를 달성하며, 이전의 최첨단 일반 양자화 방법을 큰 차이로 능가함을 입증했습니다. 우리는 4비트 QuantVGGT가 실제 하드웨어 추론에서 3.7배의 메모리 감소와 2.5배의 가속화를 제공하면서도 재구성 정확도를 전체 정밀도 대비 98% 이상 유지할 수 있음을 강조합니다. 이는 자원이 제한된 시나리오에서 QuantVGGT의 막대한 이점과 실용성을 입증합니다. 우리의 코드는 https://github.com/wlfeng0509/QuantVGGT에서 공개되었습니다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 복잡한 문제 해결에서 인상적인 능력을 보여주며, 종종 정교한 추론을 자극하는 어려운 수학 문제에 대한 훈련으로부터 이점을 얻습니다. 최근 연구에서는 시드 데이터나 내재된 수학 개념을 기반으로 독점 모델이나 대규모 오픈소스 모델을 프롬프팅하여 수학 문제를 자동으로 합성하는 방법을 탐구해 왔습니다. 그러나 이러한 방법들은 높은 계산/API 비용, 복잡한 프롬프팅, 그리고 생성된 문제의 제한된 난이도로 인해 확장하기가 어려운 문제가 있습니다. 이러한 한계를 극복하기 위해, 우리는 어려운 문제의 생성을 확장하기 위해 설계된 간단하면서도 효과적인 파이프라인인 ScaleDiff를 제안합니다. 우리는 적응형 사고 모델을 사용하여 기존 데이터셋에서 어려운 문제를 단일 순방향 전달만으로 효율적으로 식별합니다. 이 모델은 문제의 난이도를 인지하고 "사고" 모드와 "비사고" 모드 사이를 자동으로 전환할 수 있습니다. 그런 다음, 이 필터링된 어려운 데이터에 대해 특화된 어려운 문제 생성기(DiffGen-8B)를 훈련시켜, 복잡한 인스턴스별 프롬프팅과 그에 따른 높은 API 비용 없이도 대규모로 새로운 어려운 문제를 생성할 수 있습니다. ScaleDiff-Math 데이터셋에서 Qwen2.5-Math-7B-Instruct를 미세 조정한 결과, 원본 데이터셋 대비 11.3%의 상당한 성능 향상을 보였으며, AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, 그리고 MATH500에서 평균 65.9%의 정확도를 달성하여 OpenThinker3와 같은 최근의 강력한 LRM들을 능가했습니다. 특히, 이 성능은 비용 효율적인 Qwen3-8B 모델을 교사 모델로 사용하여 달성되었으며, 이는 우리의 파이프라인이 더 크고 비용이 많이 드는 교사 모델에 의존하지 않고도 고급 추론 능력을 효과적으로 전달할 수 있음을 보여줍니다. 또한, 어려운 문제의 양이 증가함에 따라 모델의 성능이 어려운 벤치마크에서 명확한 확장 현상을 보이는 것을 관찰했습니다. 코드: https://github.com/QizhiPei/ScaleDiff.
실내 장면 합성은 구현된 AI의 부상과 함께 점점 더 중요해지고 있으며, 이는 시각적으로 현실적일 뿐만 아니라 물리적으로 타당하고 기능적으로 다양해야 하는 3D 환경을 요구합니다. 최근의 접근법들은 시각적 충실도를 향상시켰지만, 여전히 고정된 장면 카테고리에 제한되고, 충분한 객체 수준의 세부 사항과 물리적 일관성이 부족하며, 복잡한 사용자 지시와의 정렬에 어려움을 겪습니다. 본 연구에서는 SceneWeaver를 소개합니다. 이는 도구 기반 반복적 개선을 통해 다양한 장면 합성 패러다임을 통합하는 반영적 에이전트 프레임워크입니다. SceneWeaver의 핵심은 언어 모델 기반 플래너를 사용하여 데이터 기반 생성 모델부터 시각적 및 LLM 기반 방법에 이르기까지 확장 가능한 장면 생성 도구 세트 중에서 선택하며, 물리적 타당성, 시각적 현실성, 사용자 입력과의 의미적 정렬에 대한 자체 평가를 통해 안내됩니다. 이 폐쇄형 루프 설계는 에이전트가 의미적 불일치를 식별하고, 특정 도구를 호출하며, 연속적인 반복을 통해 환경을 업데이트할 수 있게 합니다. 일반적 및 개방형 어휘 방 유형에 대한 광범위한 실험을 통해 SceneWeaver가 물리적, 시각적, 의미적 지표에서 이전 방법들을 능가할 뿐만 아니라 다양한 지시가 있는 복잡한 장면에 효과적으로 일반화함을 보여주며, 이는 범용 3D 환경 생성으로 나아가는 한 걸음을 표시합니다. 프로젝트 웹사이트: https://scene-weaver.github.io/.
검색 기능이 강화된 대형 언어 모델(LLMs)은 생성 과정에 검색을 통합함으로써 정보 탐색 작업을 발전시켰으며, 이는 기존 검색 시스템에 비해 사용자의 인지 부담을 줄여줍니다. 그러나 동일한 질문이 사용자마다 다른 의도를 반영할 수 있다는 점과 선호하는 형태로 정보를 제공해야 한다는 점에서 다양한 사용자 요구를 완전히 충족시키기에는 여전히 부족합니다. ChatGPT와 Gemini와 같은 최근 시스템들은 사용자 기록을 활용하여 개인화를 시도하고 있지만, 이러한 개인화에 대한 체계적인 평가는 아직 충분히 이루어지지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 검색 기능이 강화된 LLMs의 개인화를 평가하기 위한 현실적인 벤치마크인 BESPOKE를 제안합니다. BESPOKE는 인간으로부터 직접 채팅 및 검색 기록을 수집함으로써 현실적이며, 응답과 세분화된 선호도 점수 및 피드백을 짝지어 진단적입니다. 이 벤치마크는 장기적이고 깊이 있는 인간 주석을 통해 구성되었으며, 인간 주석자들은 자신의 기록을 제공하고 상세한 정보 요구 사항을 포함한 질문을 작성하며, 점수와 진단적 피드백으로 응답을 평가했습니다. BESPOKE를 활용하여, 우리는 정보 탐색 작업에서 효과적인 개인화를 위한 주요 요구 사항을 밝히는 체계적인 분석을 수행함으로써 개인화된 검색 기능이 강화된 LLMs의 세밀한 평가를 위한 기반을 마련했습니다. 우리의 코드와 데이터는 https://augustinlib.github.io/BESPOKE/에서 확인할 수 있습니다.
기존의 추천 시스템은 사용자를 '좋아요'와 '싫어요'와 같은 단순한 선택으로 제한하는 수동적 피드백 메커니즘에 의존합니다. 그러나 이러한 거친 신호는 사용자의 미묘한 행동 동기와 의도를 포착하지 못합니다. 이로 인해 현재 시스템은 사용자의 만족도나 불만족도를 이끄는 구체적인 항목 속성을 구별할 수 없어, 부정확한 선호도 모델링을 초래합니다. 이러한 근본적인 한계는 사용자 의도와 시스템 해석 사이에 지속적인 간극을 만들어내며, 궁극적으로 사용자 만족도를 저해하고 시스템 효율성을 떨어뜨립니다. 이러한 한계를 해결하기 위해, 우리는 주류 추천 피드 내에서 자연어 명령을 가능하게 하는 혁신적인 패러다임인 Interactive Recommendation Feed(IRF)를 소개합니다. 기존 시스템이 사용자를 수동적이고 암묵적인 행동 영향에 국한시키는 것과 달리, IRF는 실시간 언어 명령을 통해 추천 정책에 대한 능동적이고 명시적인 통제권을 사용자에게 부여합니다. 이 패러다임을 지원하기 위해, 우리는 Parser Agent가 언어 표현을 구조화된 선호도로 변환하고 Planner Agent가 적응형 툴 체인을 동적으로 조율하여 즉각적인 정책 조정을 가능하게 하는 이중 에이전트 아키텍처인 RecBot을 개발했습니다. 실용적인 배포를 가능하게 하기 위해, 우리는 시뮬레이션을 통한 지식 증류를 활용하여 강력한 추론 능력을 유지하면서도 효율적인 성능을 달성했습니다. 광범위한 오프라인 및 장기 온라인 실험을 통해, RecBot은 사용자 만족도와 비즈니스 성과 모두에서 상당한 개선을 보여주었습니다.
RoPE와 같은 명시적인 위치 인코딩이 트랜스포머 디코더에서 위치 정보의 주요 원천이지만, causal mask 또한 위치 정보를 제공합니다. 본 연구에서 우리는 causal mask가 입력에 매개변수나 인과적 의존성이 없더라도 어텐션 점수에 위치 의존적 패턴을 유도할 수 있음을 증명합니다. 우리의 이론적 분석은 유도된 어텐션 패턴이 일반적인 위치 인코딩의 동작을 반영하며, 근처의 query-key 쌍을 선호하는 경향이 있음을 보여줍니다. 실험적 분석은 학습된 모델이 동일한 동작을 보이며, 학습된 매개변수가 이러한 패턴을 더욱 증폭시킨다는 것을 확인합니다. 특히, causal mask와 RoPE의 상호작용이 RoPE의 상대적 어텐션 점수 패턴을 비상대적인 패턴으로 왜곡시킨다는 것을 발견했습니다. 우리는 현대의 대규모 언어 모델에서 이러한 효과를 일관되게 관찰했으며, 명시적인 위치 인코딩과 함께 causal mask를 위치 정보의 원천으로 고려하는 것의 중요성을 시사합니다.
LLM(대형 언어 모델) 평가 벤치마크는 복잡한 모델 행동을 평가하기 위해 점점 더 많이 사용되고 있지만, 이러한 설계는 기존의 정답 기반 벤치마크에서는 존재하지 않는 실패 모드를 도입합니다. 우리는 엄격한 목표와 검증 가능한 구조가 없을 경우, 벤치마크 순위가 사실상 대부분 노이즈인 높은 신뢰도의 순위를 생성할 수 있다고 주장합니다. 이러한 문제를 진단하기 위해 두 가지 메커니즘을 소개합니다. 스키마 준수도는 평가자의 전체 판결 중 명시적 평가 스키마에 의해 설명되는 부분을 정량화하여, 평가자가 자신의 루브릭에서 벗어날 때 설명되지 않은 분산을 드러냅니다. 심리측정적 타당성은 내적 일관성과 판별 타당성 신호를 집계하여 벤치마크 실행에서 줄일 수 없는 불확실성을 정량화합니다. 이러한 도구를 Arena-Hard Auto에 적용한 결과, 인기 있는 평가자들 사이에서 심각한 스키마 비일관성과 요인 붕괴를 발견했습니다: 예를 들어, DeepSeek-R1-32B의 경우 설명되지 않은 분산이 90%를 초과하고, 대부분의 기준에서 요인 상관관계가 0.93 이상이었습니다. 또한 Arena-Hard Auto에서 사용된 ELO 스타일 집계가 진정한 순위 불확실성을 붕괴시키고 가리는 것을 보여줍니다. 우리의 결과는 타당성을 훼손하는 설계 실패를 강조하고, 더 나은 범위와 신뢰성을 고려한 LLM 평가 벤치마크를 구축하기 위한 실행 가능한 원칙을 제시합니다. 우리는 코드를 https://anonymous.4open.science/r/judgment-to-noise-947D/README.md 에 공개합니다.
레이아웃-이미지 생성 분야에서 꾸준한 발전이 이루어졌음에도 불구하고, 현재의 방법들은 여전히 바운딩 박스 간의 상당한 중첩이 포함된 레이아웃에서 어려움을 겪고 있습니다. 우리는 두 가지 주요 과제를 확인했습니다: (1) 큰 중첩 영역과 (2) 의미론적 구분이 거의 없는 중첩 인스턴스입니다. 질적 사례와 정량적 분석을 통해 이러한 요소들이 생성 품질을 저하시키는 방식을 입증했습니다. 이 문제를 체계적으로 평가하기 위해, 우리는 중첩 바운딩 박스의 복잡성을 수치화하는 새로운 지표인 OverLayScore를 도입했습니다. 우리의 분석은 기존 벤치마크가 낮은 OverLayScore 값을 가진 단순한 경우에 편향되어 있어, 더 어려운 조건에서의 모델 성능 평가에 한계가 있음을 보여줍니다. 이러한 격차를 해소하기 위해, 우리는 고품질 주석과 다양한 OverLayScore 수준에 걸친 균형 잡힌 분포를 특징으로 하는 새로운 벤치마크인 OverLayBench를 제시합니다. 또한, 복잡한 중첩에서의 성능 향상을 위한 초기 단계로, 우리는 선별된 아모달 마스크 데이터셋에서 미세 조정된 모델인 CreatiLayout-AM을 제안합니다. 우리의 공헌은 현실적이고 도전적인 시나리오에서 더 견고한 레이아웃-이미지 생성을 위한 기반을 마련합니다. 프로젝트 링크: https://mlpc-ucsd.github.io/OverLayBench.
비디오 추론은 멀티모달 대형 언어 모델(MLLMs)의 핵심 능력으로 부상하며, 모델이 정적인 인식을 넘어 복잡한 장면의 시간적 동역학을 일관되게 이해할 것을 요구합니다. 그러나 기존 MLLMs는 종종 프로세스 불일치를 보이는데, 이는 최종 답변이 정확하더라도 중간 추론이 비디오 동역학에서 벗어나 해석 가능성과 견고성을 약화시키는 현상입니다. 이 문제를 해결하기 위해, 우리는 동적 시간 왜곡(DTW) 기반 프로세스 보상을 갖춘 강화 학습 프레임워크인 MOSS-ChatV를 소개합니다. 이 규칙 기반 보상은 추론 흔적을 시간적으로 근거 있는 참조와 일치시켜, 보조 보상 모델 없이도 효율적인 프로세스 감독을 가능하게 합니다. 또한, 우리는 동적 상태 예측을 비디오 추론의 핵심 척도로 식별하고, 주석이 달린 추론 흔적을 포함한 벤치마크인 MOSS-Video를 구축했습니다. 여기서 훈련 세트는 MOSS-ChatV를 미세 조정하는 데 사용되고, 보류된 세트는 평가를 위해 예약됩니다. MOSS-ChatV는 MOSS-Video(테스트)에서 87.2%를 달성하고, MVBench 및 MMVU와 같은 일반 비디오 벤치마크에서도 성능을 향상시킵니다. 이 프레임워크는 Qwen2.5-VL 및 Phi-2를 포함한 다양한 아키텍처에서 일관되게 성능 향상을 보여주며, 그 광범위한 적용 가능성을 확인합니다. GPT-4o-as-judge를 사용한 평가는 MOSS-ChatV가 더 일관되고 안정적인 추론 흔적을 생성한다는 것을 추가로 보여줍니다.
대규모 언어 모델(LLMs)은 자기 주의(self-attention)의 이차 복잡성으로 인해 긴 문맥을 처리할 때 상당한 계산적 어려움에 직면한다. 입력 텍스트를 더 작은 잠재 표현으로 매핑하는 소프트 문맥 압축 방법이 유망한 결과를 보여주고 있지만, 실제 적용은 제한적이다. 기존 기술은 일반적으로 문맥을 단일 단위로 압축하여 이차 압축 복잡성을 초래하고, 중복 문맥을 가진 쿼리 간 계산 재사용이 불가능하다. 본 연구에서는 실용적 배포를 위해 설계된 소프트 압축 기술인 CompLLM을 소개한다. CompLLM은 문맥을 전체적으로 처리하는 대신 세그먼트로 나누어 각각을 독립적으로 압축한다. 이 간단한 설계 선택은 세 가지 중요한 특성을 제공한다: 효율성, 문맥 길이에 대해 선형적으로 확장되는 압축 단계; 확장성, 짧은 시퀀스(예: 1k 토큰)로 훈련된 모델이 100k 토큰의 문맥으로 일반화할 수 있도록 함; 재사용성, 압축된 세그먼트를 캐시하여 다른 쿼리에서 재사용할 수 있음. 실험 결과, 2배 압축률에서 CompLLM은 높은 문맥 길이에서 첫 토큰까지의 시간(TTFT)을 최대 4배까지 단축하고 KV 캐시 크기를 50% 줄인다. 또한, CompLLM은 압축되지 않은 문맥에서 얻은 성능과 비슷한 결과를 달성하며, 매우 긴 시퀀스에서는 이를 능가하여 그 효과성과 실용성을 입증한다.
대규모 언어 모델(LLM)의 효과성은 프롬프트에 사용된 추론 전략 또는 사고 스타일에 크게 영향을 받습니다. 그러나 이러한 추론 스타일, 모델 아키텍처, 그리고 작업 유형 간의 상호작용은 여전히 잘 이해되지 않고 있습니다. 이를 해결하기 위해, 우리는 다양한 작업과 모델에 걸쳐 추론 스타일을 체계적으로 평가하기 위한 포괄적인 벤치마크인 StyleBench를 소개합니다. 우리는 Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), 그리고 Chain-of-Draft (CoD)와 같은 다섯 가지 대표적인 추론 스타일을 다섯 가지 추론 작업에서 평가하며, 270M에서 120B 파라미터에 이르는 주요 모델 패밀리(LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, DeepSeek)의 15개 오픈소스 모델을 사용합니다. 우리의 대규모 분석은 단일 스타일이 보편적으로 최적이 아니라는 것을 보여줍니다. 우리는 전략의 효율성이 모델 규모와 작업 유형에 크게 의존한다는 것을 입증합니다: 탐색 기반 방법(AoT, ToT)은 개방형 문제에서 뛰어나지만 대규모 모델이 필요하며, 간결한 스타일(SoT, CoD)은 명확히 정의된 작업에서 극적인 효율성 향상을 달성합니다. 또한, 우리는 주요 행동 패턴을 식별합니다: 작은 모델은 출력 지시를 따르지 못하고 추측에 의존하는 경우가 많으며, 추론의 견고성은 규모의 함수로 나타납니다. 우리의 연구 결과는 특정 제약 조건에 기반하여 최적의 추론 전략을 선택하기 위한 중요한 로드맵을 제공하며, 벤치마크는 https://github.com/JamesJunyuGuo/Style_Bench에서 오픈소스로 공개됩니다.
엔드투엔드(E2E) 솔루션은 자율주행 시스템을 위한 주류 접근 방식으로 부상했으며, 비전-언어-액션(VLA) 모델은 비전-언어 모델(VLM)에서 사전 학습된 다중모달 지식을 활용하여 복잡한 현실 세계 환경을 해석하고 상호작용하는 새로운 패러다임을 대표합니다. 그러나 이러한 방법들은 여전히 물리적 규칙을 본질적으로 인코딩하는 데 어려움을 겪는 모방 학습의 한계에 의해 제약을 받고 있습니다. 기존 접근 방식들은 복잡한 규칙 기반 사후 정제에 의존하거나, 시뮬레이션에 크게 제한된 강화 학습을 사용하거나, 계산적으로 비용이 많이 드는 그래디언트 계산이 필요한 확산 가이던스를 활용하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 이산 확산을 통해 안전한 궤적 생성을 위한 반사 메커니즘을 통합한 새로운 학습 기반 프레임워크인 ReflectDrive를 소개합니다. 먼저, 2차원 주행 공간을 이산화하여 액션 코드북을 구성하고, 이를 통해 사전 학습된 확산 언어 모델을 미세 조정하여 계획 작업에 사용할 수 있도록 합니다. 우리의 접근 방식의 핵심은 그래디언트 계산 없이 반복적인 자기 수정을 수행하는 안전 인식 반사 메커니즘입니다. 우리의 방법은 목표 조건 궤적 생성을 시작으로 다중모달 주행 행동을 모델링합니다. 이를 기반으로, 지역 탐색 방법을 적용하여 안전하지 않은 토큰을 식별하고 실행 가능한 솔루션을 결정하며, 이는 인페인팅 기반 재생성을 위한 안전한 앵커 역할을 합니다. NAVSIM 벤치마크에서 평가된 ReflectDrive는 안전-중요 궤적 생성에서 상당한 이점을 보여주며, 자율주행 시스템을 위한 확장 가능하고 신뢰할 수 있는 솔루션을 제공합니다.
우리는 신경망 모델이 일상 소리를 "들으면서 생각"할 수 있게 하는 프레임워크를 제안함으로써 오디오 분류 성능을 향상시킵니다. 대규모 언어 모델의 추론 능력에 대한 최근의 발전에 영감을 받아, 우리는 두 가지 핵심 질문을 다룹니다: (i) 기존 오디오 분류 파이프라인에 어떻게 '생각하기'를 통합하여 카테고리 공간에서의 추론을 가능하게 하고 성능을 개선할 수 있는가, 그리고 (ii) '생각하기'와 테스트 시간 스케일링을 모두 지원할 수 있는 새로운 아키텍처를 처음부터 설계할 수 있는가? 우리는 두 가지 설정 모두에서 우리의 모델이 분류 정확도가 개선됨을 보여줍니다. 테스트 시간 스케일링을 활용하여, 샘플링된 트레이스의 수가 증가함에 따라 일관된 성능 향상을 관찰합니다. 또한, 두 가지 오픈소스 추론 모델인 GPT-OSS-20B와 Qwen3-14B를 평가하며, 이러한 모델들이 제로샷 추론이 가능하지만, GPT-2와 같은 작은 모델의 임베딩 행렬만 재학습하는 경량 접근 방식이 수십억 파라미터 기반 텍스트 추론 모델의 성능을 능가할 수 있음을 보여줍니다.
지각 최적화는 주로 충실도 목표에 의해 주도되며, 이는 의미론적 일관성과 전반적인 시각적 현실감을 강제합니다. 반면, 적대적 목표는 지각적 선명도와 미세한 디테일을 향상시켜 보완적인 정제를 제공합니다. 그들의 중심적인 역할에도 불구하고, 최적화 목표로서의 효과성과 이미지 품질 평가(IQA) 지표로서의 능력 간의 상관관계는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 체계적인 분석을 수행하고 지각 최적화와 평가 간의 예상치 못한 비대칭성을 밝혀냈습니다: IQA에서 우수한 충실도 지표가 반드시 지각 최적화에 효과적인 것은 아니며, 이러한 불일치는 적대적 학습 하에서 더욱 뚜렷하게 나타납니다. 또한, 판별자가 최적화 과정에서 아티팩트를 효과적으로 억제하지만, 그들이 학습한 표현은 IQA 모델의 백본 초기화로 재사용될 때 제한된 이점만 제공합니다. 이러한 비대칭성 외에도, 우리의 연구 결과는 판별자 설계가 최적화를 형성하는 데 결정적인 역할을 하며, 패치 수준 및 컨볼루션 아키텍처가 일반적인 또는 트랜스포머 기반 대안보다 더 정확한 디테일 재구성을 제공한다는 것을 추가로 입증합니다. 이러한 통찰은 손실 함수 설계와 IQA 전이 가능성 간의 연결에 대한 이해를 진전시키고, 더 체계적인 지각 최적화 접근법을 위한 길을 열어줍니다.
대규모 오디오-언어 모델(LALMs)은 음성 작업에서 강력한 제로샷 능력을 보여주며, 이는 음성 감정 인식(SER)에 대한 가능성을 시사합니다. 그러나 실제 배포 환경에서의 SER은 도메인 불일치 상황에서 종종 실패하는데, 이는 소스 데이터를 사용할 수 없고 강력한 LALMs가 API를 통해서만 접근 가능하기 때문입니다. 우리는 다음과 같은 질문을 던집니다: 레이블이 없는 타겟 도메인 오디오와 API로만 접근 가능한 LALM이 주어졌을 때, 학생 모델을 타겟 도메인에서 LALM을 능가하도록 적응시킬 수 있을까요? 이를 위해 우리는 MI-Fuse라는 노이즈 제거 레이블 융합 프레임워크를 제안합니다. 이 프레임워크는 LALM을 보조 교사로 사용하는 소스 도메인에서 훈련된 SER 분류기를 보완합니다. 이 프레임워크는 두 교사로부터 여러 확률적 예측을 도출하고, 상호 정보 기반 불확실성으로 평균 분포에 가중치를 부여하며, 지수 이동 평균 교사를 사용하여 훈련을 안정화합니다. 세 가지 공개 감정 데이터셋과 여섯 가지 교차 도메인 전이 실험에서 일관된 성능 향상을 보였으며, 학생 모델이 LALM을 능가하고 가장 강력한 베이스라인을 3.9% 앞섰습니다. 이 접근 방식은 소스 데이터를 공유하지 않고도 감정 인식 음성 시스템을 강화하여 현실적인 적응을 가능하게 합니다.
본 논문은 AI 시스템의 개발과 배포 과정에서 투명성과 책임성을 강화하기 위해 설계된 새로운 프레임워크인 Hazard-Aware System Card(HASC)를 소개합니다. HASC는 기존의 모델 카드 및 시스템 카드 개념을 확장하여 AI 시스템의 보안 및 안전 상태에 대한 포괄적이고 동적인 기록을 통합합니다. 이 프레임워크는 CVE와 같은 기존 보안 식별자를 보완하기 위해 새로운 AI Safety Hazard(ASH) ID를 포함한 표준화된 식별자 시스템을 제안함으로써, 수정된 결함에 대한 명확하고 일관된 커뮤니케이션을 가능하게 합니다. HASC는 단일의 접근 가능한 정보 소스를 제공함으로써 개발자와 이해관계자가 AI 시스템의 전 생애주기 동안 안전에 대해 더 잘 알려진 결정을 내릴 수 있도록 지원합니다. 마지막으로, 우리는 제안된 AI 시스템 카드를 ISO/IEC 42001:2023 표준과 비교하고, 이들이 상호 보완적으로 사용되어 AI 시스템에 대한 더 큰 투명성과 책임성을 제공할 수 있는 방법에 대해 논의합니다.
증오 콘텐츠 탐지는 어렵지만 중요한 문제이다. 기계 학습 모델과 같은 자동화 도구가 도움을 줄 수 있지만, 소셜 미디어의 끊임없이 변화하는 환경에 적응하기 위해서는 지속적인 훈련이 필요하다. 본 연구에서는 여덟 가지 오픈소스 대형 언어 모델(LLM)의 반유대적 콘텐츠 탐지 능력을 평가하며, 특히 문맥 내 정의를 정책 가이드라인으로 활용한다. 다양한 프롬프트 기법을 탐구하고 새로운 CoT(Chain-of-Thought) 유사 프롬프트인 Guided-CoT를 설계한다. Guided-CoT는 문맥 내 정책을 잘 처리하며, 디코딩 구성, 모델 크기, 추론 능력과 관계없이 평가된 모든 모델의 성능을 향상시킨다. 특히, Llama 3.1 70B는 미세 조정된 GPT-3.5를 능가하는 성능을 보인다. 또한, LLM의 오류를 검토하고 모델 생성 근거의 의미적 차이를 정량화하기 위한 지표를 도입하여, LLM 간의 주목할 만한 차이와 역설적인 행동을 밝혀낸다. 본 실험은 LLM의 유용성, 설명 가능성, 신뢰성에서 관찰된 차이를 강조한다.