번역이 포함된 일일 선별된 AI 연구 논문
디퓨전 트랜스포머(DiT) 모델, 특히 비디오 생성에서 어텐션 지연은 긴 시퀀스 길이와 2차 복잡도로 인해 주요 병목 현상으로 작용합니다. 우리는 어텐션 가중치가 두 부분으로 분리될 수 있음을 발견했습니다: 높은 랭크를 가진 소수의 큰 가중치와 매우 낮은 랭크를 가진 나머지 가중치입니다. 이는 자연스럽게 첫 번째 부분에는 희소 가속을, 두 번째 부분에는 저랭크 가속을 적용하는 것을 제안합니다. 이러한 발견을 바탕으로, 우리는 SLA(Sparse-Linear Attention)를 제안합니다. SLA는 희소 어텐션과 선형 어텐션을 융합하여 디퓨전 모델을 가속화하는 학습 가능한 어텐션 방법입니다. SLA는 어텐션 가중치를 중요, 경계, 무시 가능한 범주로 분류하며, 중요 가중치에는 O(N^2) 어텐션을, 경계 가중치에는 O(N) 어텐션을 적용하고, 무시 가능한 가중치는 건너뜁니다. SLA는 이러한 계산을 단일 GPU 커널로 결합하며 순방향 및 역방향 패스를 모두 지원합니다. SLA를 사용하여 몇 번의 미세 조정만으로도 DiT 모델은 어텐션 계산을 20배 감소시켜 생성 품질의 손실 없이 상당한 가속을 달성합니다. 실험 결과, SLA는 종단 간 생성 품질을 저하시키지 않으면서 어텐션 계산을 95% 감소시키며, 기준 방법들을 능가하는 성능을 보여줍니다. 또한, 우리는 SLA를 위한 효율적인 GPU 커널을 구현하여 Wan2.1-1.3B에서 어텐션 계산에서 13.7배, 비디오 생성에서 종단 간 2.2배의 속도 향상을 달성했습니다.
언어적 내용을 포착하도록 설계된 기존의 의미론적 음성 토크나이저는 놀랍도록 취약한 것으로 나타났습니다. 우리는 이러한 토크나이저가 의미와 무관한 음향적 변화에 강건하지 않다는 것을 발견했습니다. 음성이 완벽하게 명료한 높은 신호 대 잡음비(SNR)에서도, 이들의 출력 토큰 시퀀스는 크게 변할 수 있으며, 이는 다운스트림 대형 언어 모델(LLM)의 학습 부담을 증가시킵니다. 이러한 불안정성은 두 가지 결함에서 비롯됩니다: 취약한 단일 경로 양자화 아키텍처와 중간 토큰 안정성에 무관심한 원거리 학습 신호. 이를 해결하기 위해, 우리는 StableToken이라는 토크나이저를 소개합니다. StableToken은 합의 기반 메커니즘을 통해 안정성을 달성합니다. 이 토크나이저는 다중 분기 아키텍처를 통해 오디오를 병렬로 처리하고, 이러한 표현들은 강력한 비트 단위 투표 메커니즘을 통해 통합되어 단일의 안정적인 토큰 시퀀스를 형성합니다. StableToken은 토큰 안정성에서 새로운 최첨단 기술을 제시하며, 다양한 잡음 조건에서 단위 편집 거리(UED)를 크게 줄입니다. 이러한 기본적인 안정성은 직접적으로 다운스트림 이점으로 이어져, 다양한 작업에서 SpeechLLM의 강건성을 크게 향상시킵니다.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호도와 일치시키는 표준 패러다임으로 부상했습니다. 그러나 Bradley-Terry 가정에 기반한 보상 기반 방법은 현실 세계의 선호도의 비이행적이고 이질적인 특성을 포착하는 데 어려움을 겪습니다. 이를 해결하기 위해 최근 연구들은 정렬 문제를 두 명의 플레이어 간 내쉬 게임으로 재구성하여, 내쉬 학습을 통한 인간 피드백(NLHF)이라는 접근법을 제안했습니다. 이 관점은 INPO, ONPO, EGPO와 같은 강력한 이론적 및 실증적 보장을 가진 알고리즘을 탄생시켰지만, 이들은 근본적으로 두 명의 플레이어 상호작용에 제한되어 있어 단일 상대 편향을 초래하며, 현실적인 선호 구조의 전체 복잡성을 포착하지 못합니다. 본 연구에서는 NLHF를 다중 플레이어 체제로 일반화한 새로운 프레임워크인 다중 플레이어 내쉬 선호 최적화(MNPO)를 소개합니다. 이 프레임워크는 정렬 문제를 n명의 플레이어 게임으로 공식화하며, 각 정책은 참조 모델을 향해 정규화되면서 다수의 상대와 경쟁합니다. 우리의 프레임워크는 다중 플레이어 설정에서 잘 정의된 내쉬 균형을 확립하고, 근사 품질을 정량화하기 위해 이중 간격 개념을 확장합니다. MNPO는 두 명의 플레이어 방법의 균형 보장을 상속받으면서도 더 풍부한 경쟁 역학과 다양한 선호 구조의 향상된 커버리지를 가능하게 합니다. 포괄적인 실증적 평가를 통해 MNPO가 지시 따르기 벤치마크에서 기존 NLHF 기준선을 지속적으로 능가하며, 이질적인 주석자 조건과 혼합 정책 평가 시나리오에서 우수한 정렬 품질을 달성함을 보여줍니다. 이러한 결과들은 MNPO가 복잡하고 비이행적인 인간 선호도와 LLM을 정렬하기 위한 원칙적이고 확장 가능한 프레임워크임을 입증합니다. 코드는 https://github.com/smiles724/MNPO에서 확인할 수 있습니다.
이미지 생성 및 편집을 위한 통합 멀티모달 모델의 성능은 근본적으로 학습 데이터의 품질과 포괄성에 의해 제약받습니다. 기존 데이터셋들은 스타일 전환 및 단순 객체 조작과 같은 기본 작업들을 다루고 있지만, 실제 응용에 필요한 체계적인 구조와 도전적인 시나리오가 부족한 경우가 많습니다. 이러한 병목 현상을 해결하기 위해, 우리는 계층적 작업 분류체계와 자동화된 데이터 생성을 결합한 새로운 방법론을 사용하여 구축한 대규모 데이터셋인 OpenGPT-4o-Image를 소개합니다. 우리의 분류체계는 텍스트 렌더링 및 스타일 제어와 같은 기본 기능뿐만 아니라, 화학 일러스트레이션을 위한 과학적 이미지와 다중 작업 동시 실행이 필요한 복잡한 지시 편집과 같은 실용적이면서도 도전적인 범주들을 포함합니다. 구조화된 자원 풀과 GPT-4o를 활용한 자동화 파이프라인을 통해, 우리는 11개의 주요 도메인과 51개의 하위 작업을 아우르는 80,000개의 고품질 지시-이미지 쌍을 제어된 다양성으로 생성했습니다. 광범위한 실험을 통해, 우리의 데이터셋으로 주요 모델을 미세 조정했을 때 여러 벤치마크에서 상당한 성능 향상을 달성했으며, 편집 작업(ImgEdit-Bench에서 UniWorld-V1)에서는 최대 18%, 생성 작업(GenEval에서 Harmon)에서는 13%의 개선을 보였습니다. 우리의 연구는 체계적인 데이터 구축이 멀티모달 AI 역량을 발전시키는 데 핵심임을 입증합니다.
검증 가능한 보상을 위한 강화 학습(RLVR) 분야에서의 주류 관점은 최근의 진전을 탐색과 활용의 상충 관계라는 렌즈를 통해 해석하며, 이는 주로 토큰 수준의 지표에 의해 형성된 관점입니다. 우리는 이 관점을 재검토하며, 이러한 상충 관계가 근본적인 제약이 아니라 측정 수준의 부산물일 수 있다는 가능성을 제안합니다. 이를 조사하기 위해, 우리는 분석을 의미론적으로 풍부한 은닉 상태 공간으로 전환하고, 탐색을 정량화하기 위해 효과적 순위(ER)를 채택하며, 활용 역학을 포착하기 위해 효과적 순위 속도(ERV)와 효과적 순위 가속도(ERA)라는 새로운 1차 및 2차 미분을 제안합니다. 우리의 분석은 은닉 상태 수준에서 탐색과 활용이 분리될 수 있음을 보여줍니다(섹션 4). 이 발견은 두 역량을 동시에 향상시킬 수 있는 기회를 드러냅니다. 이러한 통찰은 우리의 방법인 속도-활용 순위 학습(VERL)을 동기 부여하며, 이는 RL 이점 함수를 직접 조정하여 상호 보완적인 탐색-활용 강화 원칙을 최초로 구현한 방법입니다. 핵심 혁신은 이론적으로 안정적인 ERA를 예측 메타 컨트롤러로 활용하여 상호 보완적인 이중 채널 인센티브 구조를 만드는 것입니다. VERL은 상충 관계를 강제하는 대신, 탐색에 대한 보상을 사전에 증폭하여 과신을 방지하고, 추론을 공고히 하기 위해 활용적 이득을 강화합니다. 다양한 LLM과 추론 벤치마크에서의 실험은 일관된 성과를 보여주며, 특히 어려운 Gaokao 2024 데이터셋에서 최대 21.4%의 절대 정확도 향상을 달성했습니다.
시각적 이해와 생성을 통합된 다중모달 모델로 통합하는 것은 범용 AI를 향한 중요한 진전을 나타냅니다. 그러나 기존 벤치마크는 이러한 아키텍처 통합이 실제로 구성 요소 능력 간의 시너지적 상호작용을 가능하게 하는지에 대한 근본적인 질문에 답하지 못하고 있습니다. 이해와 생성을 주로 개별적으로 평가하는 기존 평가 패러다임은 통합 모델이 이해를 활용하여 생성을 개선하거나, 생성적 시뮬레이션을 통해 더 깊은 이해를 촉진할 수 있는지를 판단하기에는 부족합니다. 이러한 중요한 격차를 해결하기 위해, 우리는 양방향 능력 시너지를 평가하기 위해 특별히 설계된 벤치마크인 RealUnify를 소개합니다. RealUnify는 10개 범주와 32개 하위 작업에 걸쳐 1,000개의 세심하게 인간이 주석을 단 인스턴스로 구성됩니다. 이는 두 가지 핵심 축을 중심으로 구조화되어 있습니다: 1) 이해가 생성을 강화하는 경우(예: 상식, 논리를 통해 이미지 생성을 안내하는 것)와 2) 생성이 이해를 강화하는 경우(예: 변형되거나 무질서한 시각적 입력을 정신적으로 시뮬레이션하거나 재구성하여 추론 작업을 해결하는 것). 주요 기여는 직접적인 종단간 평가와 작업을 별도의 이해 및 생성 단계로 분해하는 진단적 단계별 평가를 결합한 이중 평가 프로토콜입니다. 이 프로토콜을 통해 우리는 성능 병목 현상이 핵심 능력의 결함에서 비롯된 것인지, 아니면 이를 통합하지 못한 데서 비롯된 것인지를 정확히 파악할 수 있습니다. 12개의 주요 통합 모델과 6개의 전문 베이스라인에 대한 대규모 평가를 통해, 현재의 통합 모델들은 여전히 효과적인 시너지를 달성하는 데 어려움을 겪고 있으며, 이는 아키텍처 통합만으로는 충분하지 않음을 나타냅니다. 이러한 결과는 통합 모델링의 잠재력을 완전히 발휘하기 위해 새로운 훈련 전략과 귀납적 편향이 필요함을 강조합니다.
확산 언어 모델(Diffusion Language Models, DLMs)은 이론적으로 높은 효율성을 지니지만, 고정된 길이의 디코딩과 키-값(Key-Value, KV) 캐시와의 비호환성으로 인해 제한적입니다. 블록 확산(Block Diffusion)은 이러한 문제를 완화하지만, 여전히 고정된 블록 크기를 강제하며 비용이 많이 드는 학습이 필요합니다. 본 연구에서는 다음 토큰 예측과 다음 블록 예측을 통합한 **다음 시퀀스 예측(Next Sequence Prediction, NSP)**을 제안합니다. 이를 통해 모델이 각 단계에서 생성 길이를 적응적으로 결정할 수 있게 합니다. 길이가 1로 고정된 경우, NSP는 표준 다음 토큰 예측으로 축소됩니다. NSP를 기반으로, 우리는 **순차적 확산 언어 모델(Sequential Diffusion Language Model, SDLM)**을 제안합니다. SDLM은 사전 학습된 자기회귀 언어 모델(Autoregressive Language Models, ALMs)을 최소 비용으로 개조할 수 있습니다. 구체적으로, SDLM은 고정 크기의 마스크 블록 내에서 확산 추론을 수행하지만, 모델의 신뢰도를 기반으로 연속적인 하위 시퀀스를 동적으로 디코딩함으로써 KV 캐시 호환성을 유지하고 시퀀스 전반에 걸친 다양한 불확실성과 의미론적 변화에 대한 견고성을 향상시킵니다. 실험 결과, SDLM은 단 350만 개의 학습 샘플만을 사용하여 강력한 자기회귀 기준 모델을 능가하거나 동등한 성능을 보이며, Qwen-2.5 대비 2.1배 높은 처리량을 달성했습니다. 특히, SDLM-32B 모델은 더욱 두드러진 효율성 향상을 보여주며, 우리의 모델링 패러다임의 강력한 확장 가능성을 입증했습니다. 프로젝트 페이지 및 코드: https://github.com/OpenGVLab/SDLM
우리는 720x1280 해상도와 최대 1분 길이의 동영상을 효율적으로 생성할 수 있는 소형 확산 모델인 SANA-Video를 소개합니다. SANA-Video는 RTX 5090 GPU에서 배포 가능한 빠른 속도로 고해상도, 고품질의 긴 동영상을 생성하며, 텍스트-비디오 정렬이 뛰어납니다. 효율적이고 효과적이며 긴 동영상 생성을 보장하는 두 가지 핵심 설계는 다음과 같습니다: (1) Linear DiT: 비디오 생성 시 처리되는 대량의 토큰을 고려하여, 기본 어텐션보다 더 효율적인 선형 어텐션을 핵심 연산으로 활용합니다. (2) Block Linear Attention을 위한 Constant-Memory KV 캐시: 선형 어텐션의 누적 특성에서 도출된 고정 메모리 상태를 사용하여 긴 동영상 생성을 위한 블록 단위 자기회귀 방식을 설계합니다. 이 KV 캐시는 Linear DiT에 고정 메모리 비용으로 글로벌 컨텍스트를 제공하며, 전통적인 KV 캐시의 필요성을 없애고 효율적인 1분 길이의 동영상 생성을 가능하게 합니다. 또한, 효과적인 데이터 필터와 모델 학습 전략을 탐구하여 64개의 H100 GPU에서 학습 비용을 12일로 줄였으며, 이는 MovieGen의 비용의 1%에 불과합니다. 이러한 낮은 비용에도 불구하고, SANA-Video는 현대의 최첨단 소형 확산 모델(예: Wan 2.1-1.3B 및 SkyReel-V2-1.3B)과 비교하여 경쟁력 있는 성능을 달성하면서 측정된 지연 시간에서 16배 더 빠릅니다. 더욱이, SANA-Video는 NVFP4 정밀도로 RTX 5090 GPU에 배포될 수 있으며, 5초 길이의 720p 동영상 생성 추론 속도를 71초에서 29초로 가속화합니다(2.4배 속도 향상). 요약하자면, SANA-Video는 낮은 비용으로 고품질의 동영상 생성을 가능하게 합니다.
AI 과학자들은 발견 과정에서 협력 파트너 역할을 하는 컴퓨팅 시스템으로 부상하고 있습니다. 이러한 시스템은 맞춤형으로 제작되어야 하며, 경직된 워크플로우에 얽매여 있고, 도구, 데이터, 분석을 통합된 생태계로 결합하는 공유 환경이 부족하기 때문에 구축하기가 어렵습니다. 오믹스(omics) 분야에서는 통합 생태계가 상호 운용성, 재사용, 커뮤니티 주도 개발을 가능하게 함으로써 연구를 혁신적으로 변화시켰습니다. AI 과학자들도 이에 상응하는 인프라가 필요합니다. 우리는 ToolUniverse를 소개합니다. 이는 오픈 또는 클로즈드 소스의 어떤 언어나 추론 모델을 사용하여 AI 과학자를 구축할 수 있는 생태계입니다. ToolUniverse는 AI 과학자가 도구를 식별하고 호출하는 방식을 표준화하며, 데이터 분석, 지식 검색, 실험 설계를 위한 600개 이상의 머신러닝 모델, 데이터셋, API, 과학 패키지를 통합합니다. 이는 AI 과학자가 올바르게 사용할 수 있도록 도구 인터페이스를 자동으로 개선하고, 자연어 설명으로부터 새로운 도구를 생성하며, 도구 사양을 반복적으로 최적화하고, 도구를 에이전트 워크플로우로 구성합니다. 고콜레스테롤혈증 사례 연구에서 ToolUniverse는 유리한 예측 특성을 가진 약물의 강력한 유사체를 식별하기 위한 AI 과학자를 생성하는 데 사용되었습니다. 오픈소스 ToolUniverse는 https://aiscientist.tools에서 이용 가능합니다.
추론 능력을 갖춘 대형 언어 모델(LLMs)은 다양한 작업에서 최첨단 성능을 달성했습니다. 이러한 경험적 성공에도 불구하고, 추론이 효과적으로 작용하는 작업과 모델 규모, 그리고 그 훈련 및 추론 비용은 여전히 충분히 탐구되지 않았습니다. 본 연구에서는 합성 데이터 증류 프레임워크를 활용하여 대규모 지도 학습 연구를 수행합니다. 우리는 다양한 크기의 지시 미세 조정(IFT) 모델과 추론 모델을 수학 중심 및 일반 목적 작업에서 비교하며, 객관식과 주관식 형식 모두를 평가합니다. 분석 결과, 추론은 모델 성능을 지속적으로 향상시키며, 종종 훨씬 더 큰 IFT 시스템의 성능을 따라잡거나 능가하는 것으로 나타났습니다. 특히, IFT는 훈련 및 추론 비용 측면에서 파레토 최적을 유지하지만, 추론 모델은 모델 규모가 커질수록 점점 더 가치가 높아져, 추론 집약적이고 주관식 작업에서 IFT의 성능 한계를 극복합니다.
강화 학습 기반 사후 훈련은 최근 멀티모달 대형 언어 모델(MLLMs)의 정렬 및 추론 능력을 향상시키는 강력한 패러다임으로 부상했습니다. 비전 중심의 사후 훈련은 MLLMs의 시각적 신호에 대한 내재적 이해를 강화하는 데 필수적이지만, 현재의 사후 훈련 패러다임은 주로 텍스트 중심으로 이루어져 있으며, 밀집된 시각적 입력은 텍스트 기반 추론을 위한 희소한 단서를 추출하는 데만 활용됩니다. 이 방향으로 몇 가지 접근법이 존재하지만, 이들은 여전히 텍스트를 중간 매개체로 사용하거나 추가적인 시각적 생성 설계를 도입하는 경우가 많습니다. 본 연구에서는 MLLMs의 시각적 이해를 강화하기 위해 설계된 일반적인 자기 지도 사후 훈련 프레임워크인 Visual Jigsaw를 소개합니다. Visual Jigsaw는 일반적인 순서화 작업으로 구성됩니다: 시각적 입력이 분할되고 섞인 후, 모델은 자연어로 올바른 순열을 생성하여 시각적 정보를 재구성해야 합니다. 이는 검증 가능한 보상으로부터의 강화 학습(RLVR)과 자연스럽게 조화를 이루며, 추가적인 시각적 생성 구성 요소가 필요하지 않고, 어떠한 주석 없이도 자동으로 지도 신호를 도출합니다. 우리는 Visual Jigsaw를 이미지, 비디오, 3D 데이터를 포함한 세 가지 시각적 모달리티에 걸쳐 구체화합니다. 광범위한 실험을 통해 세밀한 지각, 시간적 추론, 3D 공간 이해에서의 상당한 개선을 입증합니다. 우리의 연구 결과는 사후 훈련 MLLMs에서 자기 지도 비전 중심 작업의 잠재력을 강조하며, 비전 중심의 사전 텍스트 설계에 대한 추가 연구를 촉진하고자 합니다. 프로젝트 페이지: https://penghao-wu.github.io/visual_jigsaw/
명령어 기반 이미지 편집은 놀라운 발전을 이루었지만, 현재의 모델들은 여전히 복잡한 명령어 처리에 어려움을 겪으며 원하는 결과를 얻기 위해 여러 샘플을 요구하는 경우가 많습니다. 강화 학습(RL)은 유망한 해결책을 제공하지만, 고품질이고 효율적인 보상 신호의 부재로 인해 이미지 편집 분야에서의 도입이 크게 제한되어 왔습니다. 본 연구에서는 이러한 장벽을 극복하기 위한 포괄적인 방법론을 제시하며, 최첨단 특화 보상 모델 개발을 중심으로 접근합니다. 먼저, 편집 품질에 대한 보상 모델을 체계적으로 평가하기 위한 종합 벤치마크인 EditReward-Bench를 소개합니다. 이 벤치마크를 기반으로, 명령어 기반 이미지 편집의 품질을 평가하기 위한 일련의 보상 모델(7B-72B)인 EditScore를 개발합니다. 세심한 데이터 큐레이션과 필터링을 통해 EditScore는 학습된 독점 VLM(Visual Language Model)의 성능을 효과적으로 따라잡습니다. 더 나아가, EditScore의 생성적 특성에 맞춰 설계된 효과적인 자기 앙상블 전략과 결합하여, 가장 큰 규모의 변형 모델은 벤치마크에서 GPT-5를 능가하는 성과를 보입니다. 이후, 고품질 보상 모델이 이미지 편집을 위한 온라인 RL의 핵심 열쇠임을 입증합니다. 실험 결과, 가장 큰 규모의 오픈소스 VLM조차도 효과적인 학습 신호를 제공하지 못하는 반면, EditScore는 효율적이고 강력한 정책 최적화를 가능하게 합니다. 강력한 기본 모델인 OmniGen2에 우리의 프레임워크를 적용한 결과, 최종 모델은 상당하고 일관된 성능 향상을 보여줍니다. 전반적으로, 이 연구는 벤치마킹부터 보상 모델링, RL 훈련에 이르는 이미지 편집 분야의 첫 체계적인 접근법을 제공하며, 고품질의 도메인 특화 보상 모델이 이 분야에서 RL의 잠재력을 최대한 발휘하는 열쇠임을 보여줍니다.
비전 언어 모델(VLMs)은 이미지와 텍스트의 통합 모델링을 달성하여, 인지, 계획, 추론을 통해 복잡한 현실 세계의 과제를 수행할 수 있게 합니다. 이러한 과제 중에서도 추론은 특히 대표적인 예로, 수학적 추론이 두드러진 사례입니다. 이는 VLMs이 이미지 내 수학적 정보를 이해하고 정교한 추론을 수행할 수 있는 고차원적 능력을 강조합니다. 최근에는 다양한 시각적 수학적 추론 벤치마크가 제안되었지만, 이들은 주로 기하학에 국한되거나 수학 단어 문제를 다루지 않으며, 여러 이미지에 걸친 추론을 평가하는 경우는 드뭅니다. 이러한 격차를 해결하기 위해, 우리는 순수 시각적 다중 이미지 수학적 추론 벤치마크인 GSM8K-V를 소개합니다. GSM8K-V는 널리 사용되는 텍스트 기반 GSM8K의 각 샘플을 체계적으로 시각적 형태로 매핑하여 구축되었습니다. 신중하게 설계된 자동 이미지 생성 파이프라인과 꼼꼼한 인간 주석을 결합하여, 1,319개의 고품질 샘플을 선별했습니다. 우리는 GSM8K-V에서 다양한 오픈소스와 클로즈드소스 모델을 평가했습니다. 결과는 기존 VLMs이 텍스트 기반 GSM8K에서는 거의 포화 상태의 성능을 보이지만, GSM8K-V에서는 여전히 상당한 개선의 여지가 있음을 보여줍니다. 예를 들어, 최고 성능 모델인 Gemini-2.5-Pro는 GSM8K에서 95.22%의 정확도를 달성했지만, GSM8K-V에서는 46.93%에 그쳤습니다. 우리는 GSM8K-V에 대한 포괄적인 분석을 수행하여, 현재 모델의 한계와 개선 가능한 방향을 검토했습니다. GSM8K-V는 시각적 수학적 추론에 대한 새로운 관점을 제공하며, 더 강력하고 일반화 가능한 VLMs의 개발을 이끌 벤치마크를 설정합니다.
대형 언어 모델(LLM) 스티어링은 은닉 상태의 표적 조작을 통해 추론 시점에서 모델 행동을 제어하는 유망한 패러다임으로 부상하며, 비용이 많이 드는 재학습에 대한 경량화된 대안을 제공합니다. 그러나 기존 스티어링 프레임워크는 계산 비효율성, 제한된 확장성, 그리고 연구 진행과 실제 배포를 방해하는 제한된 기능성이라는 중대한 한계를 가지고 있습니다. 우리는 vLLM 기반의 고성능 및 확장 가능한 LLM 스티어링을 위한 통합 프레임워크인 EasySteer를 제시합니다. 우리의 시스템은 분석 기반 및 학습 기반 방법을 위한 플러그형 인터페이스, 세밀한 매개변수 제어, 8개 응용 분야에 대한 사전 계산된 스티어링 벡터, 그리고 인터랙티브 데모 시스템을 특징으로 하는 모듈식 아키텍처를 갖추고 있습니다. vLLM의 최적화된 추론 엔진과의 깊은 통합을 통해 EasySteer는 기존 프레임워크 대비 5.5-11.4배의 속도 향상을 달성했습니다. 광범위한 실험을 통해 과도 사고 완화, 환각 감소 및 기타 주요 응용 분야에서의 효과를 입증했습니다. EasySteer는 스티어링을 연구 기술에서 프로덕션 준비가 된 역량으로 전환하여 배포 가능하고 제어 가능한 언어 모델을 위한 중요한 인프라를 구축합니다.
확산 언어 모델(DLMs)은 자기회귀 모델(ARs)에 대한 유망한 대안을 제공하지만, 기존의 오픈소스 DLMs은 높은 추론 지연 시간을 겪고 있습니다. 이러한 병목 현상은 주로 컨텍스트 길이에 대한 어텐션의 이차 복잡성, 즉 모든 쿼리-키 쌍을 계산하는 데서 기인합니다. 직관적으로 이 복잡성을 줄이기 위한 자연스러운 전략은 가장 관련성이 높은 연결만을 유지하는 희소 패턴으로 어텐션을 제한하는 것입니다. 이러한 접근 방식은 ARs에서 잘 정립되어 있으며, 어텐션이 고정적이고 명확하게 정의된 희소 패턴을 따릅니다. 그러나 DLMs에서는 다음과 같은 독특한 희소성 행동을 관찰했습니다: (1) 어텐션 패턴이 헤드마다 다르며, (2) 각 헤드의 어텐션 패턴이 디노이징 단계 전반에 걸쳐 매우 유사하게 유지되고, (3) 초기 디노이징 단계가 생성에 있어 중요합니다. 이러한 발견들은 ARs를 위해 설계된 희소 어텐션 방법들이 DLMs와 크게 호환되지 않게 만듭니다. 이 방법들은 헤드별 구조를 포착하지 못하고 초기 디노이징 단계에서 적용될 경우 생성 품질을 저하시킬 위험이 있습니다. 이러한 문제를 해결하기 위해, 우리는 DLMs를 위한 새로운 희소 어텐션 방법인 SparseD를 제안합니다. SparseD는 관찰된 사실을 활용하여 헤드별 희소 패턴을 한 번만 미리 계산하고 이를 모든 단계에서 재사용합니다. 이는 각 디노이징 단계에서 희소 패턴을 재계산하는 것을 방지합니다. 동시에, SparseD는 초기 단계에서는 전체 어텐션을 사용하고 이후 단계에서 희소 어텐션으로 전환하여 생성 품질을 유지합니다. 이를 통해 SparseD는 장문 컨텍스트 애플리케이션에서 DLMs를 배포하기 위한 실용적이고 효율적인 솔루션으로 자리 잡습니다. 실험 결과는 SparseD가 무손실 가속을 달성하며, 64k 컨텍스트 길이와 1,024 디노이징 단계에서 FlashAttention 대비 최대 1.50배의 속도 향상을 보여줍니다.
검증 가능한 보상을 통한 강화학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 유망한 패러다임으로 부상하고 있습니다. 현재의 방법들은 주로 PPO와 GRPO와 같은 정책 최적화 프레임워크에 의존하며, 이는 현재 정책의 가치를 평가하고 평가를 기반으로 정책을 개선하는 일반화된 정책 반복을 따릅니다. 이러한 방법들은 효과적이지만, 종종 훈련 불안정성과 다양성 붕괴 문제를 겪으며, 복잡한 휴리스틱 기법과 세심한 튜닝을 필요로 합니다. 우리는 수학적 추론에서의 표준 RLVR이 결정론적 상태 전이, 트리 구조의 역학, 그리고 이진 종단 보상을 갖는 특수한 유한-수평선 마르코프 결정 프로세스로 공식화될 수 있음을 관찰했습니다. 규모는 크지만, 이러한 기본 구조는 PPO와 같은 인기 있는 RL 알고리즘이 개발된 일반적인 제어 설정보다 단순하여, 기존 방법에서 사용된 여러 정교한 기법들이 축소되거나 심지어 생략될 수 있음을 시사합니다. 이러한 통찰을 바탕으로, 우리는 놀라운 결과를 증명합니다: 최적의 행동은 고정된 균일 무작위 정책의 Q-함수로부터 복구될 수 있으며, 이를 통해 일반화된 정책 반복 루프와 관련된 휴리스틱을 우회할 수 있습니다. 우리는 이러한 원리를 실용적이고 확장 가능한 LLM 수학 추론 알고리즘으로 구현하기 위해 Random Policy Valuation for Diverse Reasoning(ROVER)을 소개합니다. 이는 균일 정책 Q-값에 대한 소프트맥스를 통해 행동을 샘플링하는 최소주의적이면서도 매우 효과적인 RL 방법입니다. ROVER는 훈련 전반에 걸쳐 다양성을 유지하며, 여러 유효한 경로에 대한 지속적인 탐색을 가능하게 합니다. 여러 기본 모델과 표준 수학 추론 벤치마크에서, ROVER는 강력하고 복잡한 기존 방법들과 비교하여 질적(+8.2 on pass@1, +16.8 on pass@256) 및 다양성(+17.6\%) 측면에서 우수한 성능을 보여줍니다.
딥 리서치 에이전트(DRA)는 복잡한 조사를 자율적으로 수행하고 포괄적인 보고서를 생성할 수 있어 현실 세계에서 강력한 잠재력을 보여줍니다. 그러나 기존 평가는 주로 폐쇄형 벤치마크에 의존하는 반면, 개방형 딥 리서치 벤치마크는 여전히 부족하며 일반적으로 개인화된 시나리오를 간과합니다. 이러한 격차를 해소하기 위해 우리는 DRA의 개인화를 평가하기 위한 첫 번째 벤치마크인 '개인화 딥 리서치 벤치(Personalized Deep Research Bench)'를 소개합니다. 이 벤치마크는 10개 도메인에 걸친 50가지 다양한 리서치 과제를 구조화된 개인 속성과 동적인 현실 세계 맥락을 결합한 25개의 실제 사용자 프로필과 짝지어, 총 250개의 현실적인 사용자-과제 쿼리를 생성합니다. 시스템 성능을 평가하기 위해 우리는 (P) 개인화 정렬, (Q) 콘텐츠 품질, (R) 사실적 신뢰도를 종합적으로 측정하는 PQR 평가 프레임워크를 제안합니다. 다양한 시스템에 대한 실험을 통해 개인화된 딥 리서치를 처리하는 현재의 능력과 한계를 부각시켰습니다. 이 작업은 진정으로 개인화된 차세대 AI 리서치 어시스턴트를 개발하고 평가하기 위한 엄격한 기반을 마련합니다.
텍스트-투-비디오 생성 분야의 최근 발전은 점점 더 사실적이고 다양한 콘텐츠를 생산해내고 있지만, 이러한 비디오를 평가하는 것은 시각적 품질, 의미론적 정렬, 물리적 일관성 등 다면적인 특성으로 인해 여전히 근본적인 과제로 남아 있습니다. 기존의 평가자 및 보상 모델은 단일 불투명 점수에 국한되거나 해석 가능성이 부족하며, 단순한 분석만을 제공하여 비디오 품질 평가의 포괄적인 특성을 충분히 반영하지 못하고 있습니다. 우리는 VideoScore2를 제안합니다. 이는 시각적 품질, 텍스트-투-비디오 정렬, 물리적/상식적 일관성을 명시적으로 평가하면서 상세한 사고 과정(chain-of-thought) 근거를 생성하는 다차원적이고 해석 가능하며 인간과 일치하는 프레임워크입니다. 우리의 모델은 27,168개의 인간 주석이 달린 비디오로 구성된 대규모 데이터셋 VideoFeedback2를 사용하여 세 가지 차원에 걸친 점수와 추적 가능한 추론을 통해 훈련되었으며, 지도 미세 조정 단계와 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통한 강화 학습의 두 단계 파이프라인을 사용하여 분석적 견고성을 강화했습니다. 광범위한 실험을 통해 VideoScore2는 우리의 도메인 내 벤치마크 VideoScore-Bench-v2에서 44.35(+5.94)의 정확도를 달성하고, 네 가지 도메인 외 벤치마크(VideoGenReward-Bench, VideoPhy2 등)에서 평균 50.37(+4.32)의 성능을 보여주며, Best-of-N 샘플링을 위한 효과적인 보상 모델링을 통해 평가와 제어 가능한 생성 간의 간극을 해석 가능한 평가로 메웁니다. 프로젝트 페이지: https://tiger-ai-lab.github.io/VideoScore2/
스트리밍 비디오 생성은 인터랙티브 월드 모델과 신경망 게임 엔진의 기본 구성 요소 중 하나로, 고품질, 저지연, 그리고 시간적으로 일관된 긴 비디오 스트림을 생성하는 것을 목표로 합니다. 그러나 기존의 대부분의 연구는 심각한 오류 누적으로 인해 생성된 스트림 비디오가 장기간에 걸쳐 크게 저하되는 문제를 겪고 있습니다. 우리는 Rolling Forcing이라는 새로운 비디오 생성 기술을 설계하여 최소한의 오류 누적으로 긴 비디오를 스트리밍할 수 있도록 했습니다. Rolling Forcing은 세 가지 새로운 설계를 포함합니다. 첫째, 오류 전파를 가속화하는 개별 프레임의 반복적 샘플링 대신, 점진적으로 증가하는 노이즈 수준으로 여러 프레임을 동시에 디노이징하는 공동 디노이징 방식을 설계했습니다. 이 설계는 인접 프레임 간의 엄격한 인과성을 완화하여 오류 증가를 효과적으로 억제합니다. 둘째, 장기간 스트리밍 비디오 생성 작업에 어텐션 싱크(attention sink) 메커니즘을 도입하여, 모델이 초기 프레임의 키 값 상태를 전역 컨텍스트 앵커로 유지할 수 있게 함으로써 장기적 전역 일관성을 강화했습니다. 셋째, 크게 확장된 디노이징 윈도우에서 몇 단계의 증류를 가능하게 하는 효율적인 훈련 알고리즘을 설계했습니다. 이 알고리즘은 겹치지 않는 윈도우에서 작동하며, 자체 생성된 이력에 기반한 노출 편향을 완화합니다. 광범위한 실험을 통해 Rolling Forcing이 단일 GPU에서 실시간으로 수 분 길이의 비디오를 생성할 수 있으며, 오류 누적이 크게 감소함을 보여줍니다.
우리는 자체 개발된 멀티모달 모델인 HunyuanImage 3.0을 소개한다. 이 모델은 자동회귀 프레임워크 내에서 멀티모달 이해와 생성을 통합하며, 이미지 생성 모듈을 공개적으로 제공한다. HunyuanImage 3.0의 성과는 세심한 데이터 큐레이션, 고급 아키텍처 설계, 자체 개발된 Chain-of-Thoughts 스키마, 점진적 모델 사전 학습, 적극적 모델 사후 학습, 그리고 대규모 학습과 추론을 가능하게 하는 효율적인 인프라 등 여러 핵심 요소에 기반한다. 이러한 발전을 통해 우리는 총 800억 개 이상의 파라미터를 가지며, 추론 시 토큰당 130억 개의 파라미터가 활성화되는 Mixture-of-Experts(MoE) 모델을 성공적으로 학습시켰다. 이는 현재까지 공개된 가장 크고 강력한 오픈소스 이미지 생성 모델이다. 우리는 광범위한 실험을 수행했으며, 텍스트-이미지 정렬과 시각적 품질에 대한 자동 및 인간 평가 결과는 HunyuanImage 3.0이 이전의 최첨단 모델들과 견줄 만함을 보여준다. HunyuanImage 3.0의 코드와 가중치를 공개함으로써, 우리는 커뮤니티가 최첨단 기반 모델을 통해 새로운 아이디어를 탐구할 수 있도록 지원하고, 활기차고 역동적인 멀티모달 생태계를 조성하고자 한다. 모든 오픈소스 자산은 https://github.com/Tencent-Hunyuan/HunyuanImage-3.0에서 공개적으로 이용 가능하다.
강화 학습(Reinforcement Learning, RL)은 특히 추론 모델과 결합할 때 널리 사용되는 학습 패러다임으로 자리 잡았습니다. 효과적이기는 하지만, 주로 응답 생성에 초점을 맞추고 있으며 비판이나 성찰을 명시적으로 촉진하는 메커니즘은 부족합니다. 최근의 여러 연구, 예를 들어 Critique-Fine-Tuning(CFT)과 Critique-Guided-Distillation(CGD)은 대형 언어 모델(LLM)에게 비판하는 방법을 명시적으로 가르치는 것의 이점을 보여주었습니다. 이러한 연구에 영감을 받아, 우리는 비판 강화 학습(Critique Reinforcement Learning, CRL)을 제안합니다. 이 방법에서는 모델이 주어진 (질문, 해결책) 쌍에 대한 비판을 생성하는 과제를 수행하며, 생성된 비판의 최종 판단 레이블 c가 {True, False} 중 어느 하나인지와 이 레이블이 실제 판단 c^*와 일치하는지에 따라 보상이 결정됩니다. 이를 바탕으로, 우리는 표준 RL 데이터의 20%를 CRL 데이터로 대체하여 RL과 CRL을 혼합한 방식으로 학습된 Critique-Coder를 소개합니다. 여러 모델(Critique-Coder)을 미세 조정하고 다양한 벤치마크에서 평가하여 RL만 사용한 모델보다 우수한 성능을 보임을 입증합니다. Critique-Coder는 평가된 모든 벤치마크에서 RL만 사용한 기준 모델을 일관되게 능가합니다. 특히, 우리의 Critique-Coder-8B는 LiveCodeBench(v5)에서 60% 이상의 성적을 달성하며, DeepCoder-14B나 GPT-o1과 같은 다른 추론 모델을 능가합니다. 코드 생성뿐만 아니라, Critique-Coder는 BBEH 데이터셋의 논리 추론 과제에서도 더 나은 성능을 보이며 일반적인 추론 능력이 향상되었음을 입증합니다. 이는 코딩 데이터셋에 CRL을 적용함으로써 일반적인 추론 및 비판 능력이 향상되며, 이러한 능력이 다양한 작업에 전이될 수 있음을 시사합니다. 따라서, 우리는 CRL이 LLM 추론을 위한 표준 RL의 훌륭한 보완제로 작용한다고 믿습니다.
RL(강화 학습)이 LLM(대형 언어 모델)에게 진정으로 새로운 기술을 가르치는 것인지, 아니면 기존의 기술을 활성화하는 것에 불과한 것인지? 이 질문은 LLM 사후 훈련에서 RL의 역할에 대한 현재 진행 중인 논쟁의 핵심에 있습니다. 한편으로는 지도 미세 조정 없이도 RL을 통해 강력한 실험 결과를 달성할 수 있지만, 다른 한편으로는 비평가들이 RL이 기존 추론 전략을 재조정하는 것 이상의 기여를 하지 않는다고 주장합니다. 본 연구는 LLM이 RL 과정에서 기존 기술을 조합하여 진정으로 새로운 기술을 습득할 수 있다는 구체적인 증거를 제시하며, 이는 인간이 새로운 인지 기술을 습득하는 주요 메커니즘 중 하나를 반영합니다. 데이터 오염 및 기타 혼란 요인을 완화하고 작업 복잡성을 정밀하게 제어하기 위해, 우리는 연구를 위한 합성 프레임워크를 개발했습니다. 구체적으로, 우리는 문자열 변환 함수 f(x)의 출력을 x가 주어졌을 때 추론하는 능력을 기술로 정의합니다. LLM이 RL 이전에 f와 g를 이미 학습한 경우, 우리의 실험은 RL이 이를 통해 보지 못한 조합 h(x)=g(f(x))를 학습할 수 있게 한다는 것을 보여줍니다. 더 나아가, 이 조합 능력은 RL 훈련 중에 보지 못한 2개 이상의 함수 조합과 같은 더 어려운 문제로 일반화됩니다. 놀랍게도, 우리의 실험은 소스 작업에서 습득한 조합 기술이 다른 타겟 작업으로 전이된다는 것을 보여줍니다. 이 전이는 타겟에 대한 조합 훈련 없이도 발생하며, 단지 타겟의 기본 기술에 대한 사전 지식만 필요로 합니다. 우리의 질적 분석은 RL이 모델의 추론 행동을 근본적으로 변화시킨다는 것을 보여줍니다. 반면, 동일한 데이터를 사용한 다음 토큰 훈련에서는 이러한 결과가 전혀 나타나지 않습니다. 우리의 체계적인 실험은 LLM 학습에 대한 새로운 통찰을 제공하며, 기본 기술을 갖춘 기본 모델을 먼저 구축한 다음, 복잡한 문제를 해결하기 위해 고급, 일반화 가능한 기술을 장려하기 위해 RL을 사용하는 가치를 시사합니다.
최근 대규모 언어 모델(LLM)의 추론 과제에서의 돌파구는 대규모의 고품질 데이터셋에 크게 의존하고 있습니다. 이러한 데이터셋은 일반적으로 인간이 주석을 달아야 하기 때문에 확장하기 어렵습니다. 데이터 합성 또는 증류가 유망한 대안으로 제시되고 있지만, 기존 방법들은 데이터 품질의 불일치와 모델의 진화하는 능력에 동적으로 적응하지 못하는 문제로 인해 최적의 훈련 신호를 제공하지 못하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 최소한의 시드 예제로부터 고품질의 훈련 데이터를 생성하는 완전 자율 프레임워크인 Socratic-Zero를 소개합니다. 이 프레임워크는 세 가지 에이전트(Teacher, Solver, Generator)의 공진화를 통해 작동합니다. Solver는 성공적이거나 실패한 궤적에 대한 선호 피드백을 학습하여 지속적으로 추론을 개선하고, Teacher는 Solver의 약점을 기반으로 점점 더 어려운 질문을 적응적으로 제작하며, Generator는 Teacher의 질문 설계 전략을 증류하여 확장 가능하고 고충실도의 커리큘럼 생성을 가능하게 합니다. 이 폐쇄 루프 시스템은 사전에 존재하는 작업이나 레이블 없이도 자기 개선 커리큘럼을 생성합니다. 놀랍게도, 단 100개의 시드 질문으로 시작한 Socratic-Solver-8B는 7개의 수학적 추론 벤치마크(AMC23, AIME24-25, Olympiad, MATH-500, Minerva, GSM8K)에서 기존 데이터 합성 방법 대비 평균 +20.2% 포인트의 성능 향상을 달성했으며, Qwen3 및 GLM4 시리즈 모델에서도 일관된 성능 향상을 보였습니다. 더욱 놀라운 점은, Socratic-Generator-32B에서 생성된 합성 데이터가 학생 LLM들이 Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4, Claude-4.1-Opus를 포함한 다른 최첨단(SOTA) 상용 LLM들을 능가하는 성능을 달성할 수 있게 했다는 것입니다.
지속적인 모델 개선과 다면적 정렬(alignment)을 달성하기 위해서는 미래의 모델이 자연스러운 인간 상호작용에서 학습해야 한다고 가정한다. 현재의 대화형 모델은 사전에 주석이 달린 전문가 생성 인간 피드백을 사용하여 정렬된다. 본 연구에서는 실제 사용자 대화에서 직접 학습하는 인간 상호작용 기반 강화 학습(Reinforcement Learning from Human Interaction, RLHI)이라는 패러다임을 소개한다. 우리는 두 가지 상호 보완적인 방법을 개발하였다: (1) 사용자 주도 재작성(RLHI with User-Guided Rewrites)은 사용자의 자연어 후속 응답을 기반으로 만족스럽지 않은 모델 출력을 수정하며, (2) 사용자 기반 보상(RLHI with User-Based Rewards)은 사용자의 장기적 상호작용 이력(페르소나)을 조건으로 한 보상 모델을 통해 학습한다. 이 두 방법은 페르소나 조건부 선호 최적화(persona-conditioned preference optimization)를 통해 장기적 사용자 페르소나와 턴 단위 선호도를 연결한다. WildChat에서 도출된 대화 데이터로 학습된 두 RLHI 변형은 개인화 및 지시 따르기 작업에서 강력한 기준선을 능가하며, 유사한 피드백은 추론 벤치마크에서도 성능을 향상시킨다. 이러한 결과는 유기적인 인간 상호작용이 개인화된 정렬을 위한 확장 가능하고 효과적인 감독을 제공함을 시사한다.
데이터 분석 에이전트는 자동화된 과학적 발견과 혁신적인 AI 비전을 위한 핵심 촉매제로 부상하고 있습니다. 그러나 현재 접근 방식은 주로 독점 모델에 대한 프롬프트 엔지니어링에 의존하고 있으며, 오픈소스 모델은 다양한 형식의 대규모 데이터 파일과 실제 세계 분석이 요구하는 장기적, 다단계 추론에 대처하는 데 어려움을 겪고 있습니다. 본 논문은 일반적인 데이터 분석 에이전트를 구축하기 위해 설계된 확장 가능한 데이터 합성 및 에이전트 훈련 레시피인 DataMind를 소개합니다. DataMind는 오픈소스 데이터 분석 에이전트 구축에서의 세 가지 주요 과제, 즉 불충분한 데이터 자원, 부적절한 훈련 전략, 불안정한 코드 기반 다중 턴 롤아웃을 해결합니다. 구체적으로, DataMind는 1) 세분화된 작업 분류와 재귀적인 쉬움에서 어려움으로의 작업 구성 메커니즘을 적용하여 합성된 쿼리의 다양성과 난이도를 증가시키고, 2) 지식 증강 궤적 샘플링 전략과 모델 기반 및 규칙 기반 필터링을 수행하며, 3) SFT와 RL 손실을 결합한 동적으로 조정 가능한 훈련 목표를 사용하고, 4) 메모리 효율적이고 안정적인 코드 기반 다중 턴 롤아웃 프레임워크를 제공합니다. DataMind를 기반으로, 우리는 다양한 도메인, 작업 범주, 데이터 파일 형식을 아우르는 고품질 궤적 세트인 DataMind-12K를 구축했습니다. DataMind-12K로 훈련된 우리의 DataMind-14B는 여러 데이터 분석 벤치마크에서 평균 71.16%의 점수를 기록하며, 가장 강력한 독점 베이스라인인 DeepSeek-V3.1과 GPT-5를 능가했습니다. 또한, 우리의 DataMind-7B는 모든 오픈소스 모델 중에서 최고 성능을 보이며 68.10%의 점수를 기록했습니다. 우리는 또한 탐색적 시도에서 얻은 경험적 통찰을 분석 실험에 통합하여 커뮤니티를 위한 실행 가능한 통찰을 제공하고자 합니다. 우리는 DataMind-12K와 DataMind-7B, 14B를 커뮤니티의 미래 연구를 위해 공개할 예정입니다.
우리는 3D 파운데이션 모델(3DFMs)을 조밀한 새로운 시점 합성(Novel View Synthesis, NVS)에 적용하는 문제를 연구한다. NeRF와 3DGS를 기반으로 한 새로운 시점 합성 분야에서 상당한 진전이 있었음에도 불구하고, 현재의 접근 방식들은 여전히 Structure-from-Motion(SfM)을 통해 획득한 정확한 3D 속성(예: 카메라 포즈 및 포인트 클라우드)에 의존하고 있다. 이러한 SfM은 저조도 또는 중첩이 적은 촬영 환경에서 느리고 취약한 단점이 있다. 최근의 3DFMs는 기존 파이프라인에 비해 수십 배 빠른 속도를 보여주며 온라인 NVS에 대한 큰 잠재력을 보여주고 있다. 그러나 대부분의 검증과 결론은 희소 시점 설정에 국한되어 있다. 우리의 연구는 3DFMs를 조밀한 시점으로 확장할 때 두 가지 근본적인 장벽에 직면함을 보여준다: VRAM 부담의 급격한 증가와 초기화에 민감한 3D 학습을 저하시키는 불완전한 출력이다. 이러한 장벽을 해결하기 위해, 우리는 VGGT-X를 도입했다. 이는 1,000개 이상의 이미지로 확장 가능한 메모리 효율적인 VGGT 구현, VGGT 출력 향상을 위한 적응형 전역 정렬, 그리고 강력한 3DGS 학습 방법을 포함한다. 광범위한 실험을 통해 이러한 조치들이 COLMAP 초기화 파이프라인과의 충실도 격차를 상당히 줄이며, 조밀한 COLMAP-free NVS와 포즈 추정에서 최첨단 결과를 달성함을 보여준다. 또한, 우리는 COLMAP 초기화 렌더링과의 남은 격차의 원인을 분석하여, 3D 파운데이션 모델과 조밀한 NVS의 미래 발전을 위한 통찰을 제공한다. 우리의 프로젝트 페이지는 https://dekuliutesla.github.io/vggt-x.github.io/에서 확인할 수 있다.
대형 언어 모델(LLMs)은 일반적인 수학적 추론에서는 뛰어난 성능을 보이지만, 전문적인 기술 수학에서는 심각한 실패를 보입니다. 무선 통신 분야에서는 정보 이론적 한계, 최적화 제약 조건, 신호 처리 공식 등을 정밀하게 다뤄야 하는 문제들이 있어, 최첨단 모델들조차도 유능한 성능을 달성하기 어렵습니다. 우리는 WirelessMathLM을 제시하며, 도메인 특화적 강화 학습과 검증 가능한 보상을 통해 소규모 모델(0.5B-7B 매개변수)이 훨씬 더 큰 모델을 능가하거나 동등한 성능을 낼 수 있음을 보여줍니다. 우리의 핵심 통찰은 무선 수학 문제가 '검증 가능한 정확성'이라는 독특한 속성을 가지고 있어, 인간의 피드백 없이도 효과적인 강화 학습이 가능하다는 것입니다. 우리는 970편의 논문에서 추출한 4,027개의 문제로 구성된 포괄적인 벤치마크인 WirelessMathBench-XL을 구축했습니다. 이진 검증 보상을 사용한 그룹 상대 정책 최적화(GRPO)를 통해, 우리는 지도 학습 없이 기본 체크포인트에서 직접 모델을 훈련시켰습니다. 우리의 7B 모델은 WirelessMathBench-XL에서 39.5%의 정확도를 달성하며, GPT-4o(40.4%)에 근접하는 성능을 보이면서도 DeepSeek-R1(671B, 57.4%)보다 약 100배 적은 매개변수를 사용합니다. 특히, GRPO 훈련은 모든 모델 규모에서 성능을 거의 두 배로 향상시켰으며(0.5B +11%, 3B +103%, 7B +81%), 일반 수학 벤치마크로의 긍정적 전이도 관찰되었습니다. 우리의 모델은 MATH, Minerva-Math, OlympiadBench, AMC, AIME 등의 작업에 대한 훈련 없이도 평균 +8.4점의 성능 향상을 보였습니다.
공간 지능은 도형을 시각화하고 변형하기, 물체를 정신적으로 회전시키기, 관계적 위치와 포함 여부를 판단하기, 수량을 추정하기 등 다양한 능력을 포괄합니다. 그러나 이러한 능력은 여전히 멀티모달 대형 언어 모델(MLLMs)에게 해결되지 않은 중요한 과제로 남아 있습니다. 이 격차를 메우기 위해 우리는 유클리드 기하학 문제 해결을 대리 과제로 삼는 접근법을 제안합니다. 구체적으로, 우리는 약 30,000개의 평면 및 입체 기하학 문제로 구성된 Euclid30K라는 정제된 멀티모달 데이터셋을 신중하게 구축했습니다. 모델이 이러한 기하학 문제로부터 유클리드 원리를 학습하고 적용할 수 있도록, 우리는 Group Relative Policy Optimization(GRPO)을 사용하여 Qwen2.5VL 및 RoboBrain2.0 모델군을 미세 조정했습니다. 이를 통해 모델이 도형을 식별하고, 수를 세고, 개체 간 관계를 파악하며, 유클리드 원리를 사용한 다단계 추론을 수행하도록 유도했습니다. 우리의 실험 결과, 결과 모델들은 특정 작업에 맞춤화 없이도 네 가지 공간 추론 벤치마크(Super-CLEVR, Omni3DBench, VSI-Bench, MindCube)에서 상당한 제로샷 성능 향상을 달성했습니다. 특히, Euclid30K로 학습한 후 평가된 모든 모델의 평균 VSI-Bench 정확도는 34.5%에서 40.5%로 5.5% 포인트 상승했습니다. 이 중 RoboBrain2.0-Euclid-7B는 49.6%의 정확도를 달성하며, 이전 최첨단 모델인 Spatial-MLLM을 능가했습니다. 우리가 아는 한, 기하학 중심의 미세 조정이 시각-언어 모델에 광범위하게 전이 가능한 공간 기술을 부여할 수 있다는 것을 보여준 첫 체계적인 연구입니다. 코드와 Euclid30K 데이터셋은 https://zgca-ai4edu.github.io/Euclids_Gift에서 확인할 수 있습니다.
오늘날 대형 언어 모델(LLMs)은 다양한 분야에서 강력한 문제 해결사로 자리 잡고 있으며, 모델 크기, 훈련 데이터셋 크기, 훈련 데이터셋 품질이 확장됨에 따라 그 성능이 지속적으로 향상되고 있습니다. 이는 산업 전반에 걸친 광범위한 연구와 실험을 통해 입증된 바입니다. 최첨단 모델을 훈련시키기 위해서는 수십에서 수백 요타플롭스(yottaflops) 규모의 계산 자원이 필요하며, 이는 시간, 컴퓨팅 자원, 에너지 측면에서 막대한 투자를 요구합니다. 따라서 더욱 강력한 차세대 LLMs를 개발하기 위해서는 사전 훈련(pre-training) 효율성을 개선하는 것이 필수적입니다. 현재 8비트 부동소수점(FP8) 훈련이 널리 채택되고 있지만, 4비트 부동소수점(FP4)과 같이 더 좁은 정밀도로 전환하면 계산 속도와 자원 활용 측면에서 추가적인 개선을 이끌어낼 수 있습니다. 그러나 이러한 수준의 양자화(quantization)는 훈련 안정성, 수렴성, 구현 측면에서 특히 긴 토큰 시퀀스로 훈련된 대규모 모델에 있어서 도전 과제를 제기합니다. 본 연구에서는 NVFP4 형식을 사용하여 대형 언어 모델(LLMs)을 안정적이고 정확하게 훈련시키는 새로운 접근 방식을 소개합니다. 우리의 방법은 블록 수준 이상치(outliers)를 제한하기 위해 랜덤 하다마드 변환(Random Hadamard Transforms, RHT)을 통합하고, 순방향 및 역방향 전파에서 일관된 표현을 위해 2차원 양자화 방식을 채택하며, 편향되지 않은 그래디언트 추정을 위해 확률적 반올림(stochastic rounding)을 활용하고, 선택적 고정밀도 레이어를 포함합니다. 우리는 10조 개의 토큰으로 120억 개의 파라미터를 가진 모델을 훈련시켜 이 접근 방식을 검증했습니다. 이는 현재까지 공개된 문서 중 4비트 정밀도로 수행된 가장 긴 훈련 과정입니다. 우리의 결과는 NVFP4 기반 사전 훈련 기술로 훈련된 모델이 FP8 기준선과 유사한 훈련 손실 및 다운스트림 작업 정확도를 달성함을 보여줍니다. 이러한 결과는 NVFP4가 우리의 훈련 접근 방식과 결합될 때, 좁은 정밀도 LLM 훈련 알고리즘에서 큰 진전을 이루었음을 강조합니다.
우리는 전(全)모달 이해와 표현력 있는 장기간 음성 생성을 위한 통합 전(全)모달 대형 언어 모델인 MGM-Omni를 소개한다. 음성 합성을 분리하는 캐스케이드 파이프라인과 달리, MGM-Omni는 다중모달 추론과 실시간 음성 생성을 깔끔하게 분리하는 이중 트랙 토큰 기반 아키텍처인 "뇌-입" 설계를 채택한다. 이 설계는 효율적인 교차모달 상호작용과 저지연 스트리밍 음성 생성을 가능하게 한다. 이해 측면에서는 통합 학습 전략과 이중 오디오 인코더 설계를 통해 다양한 음향 조건에서 장형 오디오 인식을 가능하게 한다. 생성 측면에서는 청크 기반 병렬 디코딩 방식을 통해 텍스트-음성 토큰 속도 격차를 줄이고, 추론 속도를 가속화하며, 장기간 안정적인 음색을 유지하는 스트리밍 제로샷 음성 복제를 지원한다. 동시대 연구와 비교하여, MGM-Omni는 이러한 기능을 현저히 데이터 효율적인 학습으로 달성한다. 광범위한 실험을 통해 MGM-Omni가 기존 오픈소스 모델들을 능가하는 성능을 보임을 입증했다. 이는 장기간 시퀀스에서 음색 정체성을 유지하고, 자연스럽고 문맥을 인지하는 음성을 생성하며, 우수한 장형 오디오 및 전모달 이해를 달성하는 데서 확인된다. MGM-Omni는 전모달 이해와 제어 가능한 개인화된 장기간 음성 생성을 위한 효율적인 종단 간 패러다임을 확립한다.
긴 시퀀스 처리는 현대의 대규모 언어 모델에 있어 핵심적인 능력입니다. 그러나 표준 Transformer 아키텍처의 self-attention 메커니즘은 긴 시퀀스를 처리할 때 심각한 계산 및 메모리 병목 현상을 겪습니다. 학습 가능한 희소 주의(sparse attention) 방법이 유망한 해결책으로 제시되지만, NSA와 같은 기존 접근 방식은 과도한 추가 매개변수를 도입하고, 짧은 시퀀스로 사전 학습한 후 긴 시퀀스로 미세 조정하는 기존 워크플로를 방해하여 느린 수렴 속도와 가속화의 어려움을 초래합니다. 이러한 한계를 극복하기 위해, 우리는 밀집-희소 전환 가능한 주의 프레임워크인 InfLLM-V2를 소개합니다. InfLLM-V2는 짧은 시퀀스에서 긴 시퀀스로 모델을 원활하게 적응시키는 학습 가능한 희소 주의 메커니즘입니다. 구체적으로, InfLLM-V2는 매개변수 없는 아키텍처 수정을 통해 밀집 주의(dense attention) 매개변수를 재사용함으로써 짧은 시퀀스와 긴 시퀀스 처리 간의 일관성을 유지합니다. 또한, InfLLM-V2는 짧은 입력에 대해서는 밀집 주의를 사용하고, 긴 시퀀스에 대해서는 희소 주의로 부드럽게 전환함으로써 모든 시퀀스 길이에서 계산 효율성을 보장합니다. 실질적인 가속화를 달성하기 위해, 우리는 InfLLM-V2의 효율적인 구현을 추가로 도입하여 계산 오버헤드를 크게 줄였습니다. 긴 문맥 이해와 사고 연쇄(chain-of-thought) 추론에 대한 실험 결과, InfLLM-V2는 밀집 주의보다 4배 빠르면서도 각각 98.1%와 99.7%의 성능을 유지하는 것으로 나타났습니다. InfLLM-V2 프레임워크를 기반으로, 우리는 하이브리드 추론 모델인 MiniCPM4.1(https://huggingface.co/openbmb/MiniCPM4.1-8B)을 학습 및 오픈소스로 공개하여 연구 커뮤니티에 재현 가능한 구현을 제공합니다.
시각적 개인화는 스마트 홈 및 헬스케어와 같은 사용자 중심 AI 시스템에서 필수적이며, 모델의 행동을 사용자 중심 개념과 일치시키는 것이 중요합니다. 그러나 최근의 대규모 Vision-Language 모델(VLMs)은 광범위한 적용 가능성에도 불구하고 개별 사용자에 적응하는 능력에 대해 충분히 탐구되지 않았습니다. 본 논문에서는 개인화를 평가하기 위한 첫 번째 포괄적인 벤치마크인 MMPB를 소개합니다. MMPB는 10,000개의 이미지-질문 쌍으로 구성되어 있으며, 인간, 동물, 물체, 캐릭터의 네 가지 범주에 걸쳐 111개의 개인화 가능한 개념을 포함합니다. 특히 인간 범주는 선호도 기반 질문으로 풍부하게 구성되었습니다. 우리는 개인화를 세 가지 주요 작업 유형으로 구조화하여 각각 VLMs의 다른 핵심 속성을 강조합니다. 오픈소스 및 클로즈드소스 모델을 포함한 23개의 널리 사용되는 VLMs를 사용하여 개념 주입, 다중 턴 대화, 개인화된 질문이라는 세 단계 프로토콜을 통해 개인화 성능을 평가합니다. 우리의 연구 결과는 대부분의 VLMs(일부 클로즈드소스 모델 포함)이 개인화, 특히 대화 일관성 유지, 사용자 선호도 처리, 시각적 단서에 적응하는 데 어려움을 겪고 있음을 나타냅니다. 우리의 분석은 VLM 개인화의 과제(예: 거부 행동 및 장기 문맥 망각)가 상당한 개선의 여지가 있음을 강조합니다. 이러한 한계를 식별하고 확장 가능한 벤치마크를 제공함으로써, MMPB는 진정한 개인화된 다중 모달 AI를 위한 미래 연구에 유용한 통찰과 견고한 기반을 제공합니다. 프로젝트 페이지: aidaslab.github.io/MMPB
단안 깊이 추정(Monocular Depth Estimation, MDE)은 컴퓨터 비전의 기초적인 과제입니다. 기존의 방법들은 데이터의 부족과 품질 문제로 인해 견고성이 제한되었습니다. 이를 극복하기 위해, 우리는 RL(강화 학습) 최적화된 깊이-이미지(Depth-to-Image, D2I) 생성 프레임워크인 BRIDGE를 제안합니다. 이 프레임워크는 다양한 소스 깊이 맵으로부터 2천만 개 이상의 사실적이고 기하학적으로 정확한 RGB 이미지를 합성하며, 각 이미지는 본질적으로 그에 해당하는 실제 깊이 정보와 쌍을 이룹니다. 그런 다음, 우리는 이 데이터셋을 사용하여 깊이 추정 모델을 학습시키는데, 교사 모델의 의사 레이블(pseudo-labels)과 실제 깊이 정보를 통합한 하이브리드 지도 전략을 활용하여 포괄적이고 견고한 학습을 수행합니다. 이 혁신적인 데이터 생성 및 학습 패러다임은 BRIDGE가 규모와 도메인 다양성 측면에서 획기적인 성과를 달성할 수 있게 하며, 기존의 최첨단 접근법들을 정량적으로 능가하고 복잡한 장면 세부 사항을 포착하는 데 있어 일관되게 우수한 성능을 보여줍니다. 이를 통해 일반적이고 견고한 깊이 특징을 발전시킬 수 있습니다. 코드와 모델은 https://dingning-liu.github.io/bridge.github.io/에서 확인할 수 있습니다.
대규모 시각-언어 모델(LVLMs)은 멀티모달 작업에서 강력한 성능을 보이지만, 종종 사전 학습에서 기억된 텍스트 패턴인 언어 사전(LP)에 의존하며 시각적 증거를 충분히 활용하지 못합니다. 기존의 LP 분석은 주로 입력-출력 프로빙에 의존했는데, 이는 시각 정보가 모델 행동에 영향을 미치는 시점과 방식을 규제하는 내부 메커니즘을 밝히지 못합니다. 이러한 격차를 해결하기 위해, 우리는 체인-오브-임베딩(chain-of-embedding) 관점에서 언어 사전에 대한 첫 번째 체계적인 분석을 제시합니다. 이는 LVLMs 내의 계층별 표현 동역학을 조사합니다. 우리의 분석은 보편적인 현상을 밝혀냅니다: 각 모델은 시각 정보가 은닉 표현을 의미 있게 재구성하고 디코딩에 영향을 미치기 시작하는 중요한 계층인 시각 통합 지점(VIP)을 보입니다. 이 관찰을 바탕으로, 우리는 VIP를 넘어 표현 거리를 집계하여 시각적 쿼리가 응답 생성에 얼마나 강하게 영향을 미치는지 정량화하는 총 시각 통합(TVI) 추정기를 도입합니다. 9개의 현대적 LVLMs와 6개의 벤치마크를 아우르는 54개의 모델-데이터셋 조합에서, VIP가 일관되게 나타나며 TVI가 언어 사전의 강도를 신뢰롭게 예측함을 입증합니다. 이는 LVLMs에서 언어 사전을 진단하고 이해하기 위한 원칙적인 도구를 제공합니다.
우리는 대규모 추론 모델(Large Reasoning Models, LRMs)을 위한 간단하면서도 효과적인 강화 학습 접근법인 SIRI(Scaling Iterative Reinforcement Learning with Interleaved Compression)를 소개합니다. 이 방법은 더 효율적이고 정확한 추론을 가능하게 합니다. 기존 연구에서는 LRMs에서 반복적인 사고 패턴이 관찰되었으며, 이를 줄이려는 시도는 종종 성능 저하를 초래했습니다. 본 논문에서는 훈련 중 최대 롤아웃 길이를 동적으로 조정하여 추론 예산을 압축하고 확장하는 과정을 반복적으로 교차시키는 훈련 방식을 통해 이러한 트레이드오프를 극복할 수 있음을 보여줍니다. 압축 단계에서는 롤아웃 길이를 줄여 모델이 제한된 맥락 내에서 정확하고 가치 있는 결정을 내리도록 강제함으로써 불필요한 토큰을 효과적으로 줄이고 추론 밀도를 높입니다. 확장 단계에서는 길이 제한을 완화하여 모델이 장기적인 설정에서 탐색하고 계획할 수 있는 공간을 제공합니다. 주목할 만한 점은, 각 압축-확장 주기 이후 모델의 성능이 개선되면서도 출력 길이가 감소하여 성능-효율성 트레이드오프에서 파레토 프론티어에 점점 더 가까워진다는 것입니다. DeepSeek-R1-Distill-Qwen-1.5B에서 훈련한 결과, SIRI-low는 세 번의 반복 후 AIME24에서 성능을 43.2% 향상시키면서 토큰 사용량을 46.9% 줄였으며, SIRI-high는 다른 모든 방법과 비교하여 가장 높은 정확도를 달성했습니다(그림 1). 우리의 연구 결과는 훈련 중 LRM의 출력 잘림 길이를 주기적으로 조정하여 추론에서 탐색과 효율성을 동적으로 균형 잡고, 두 가지 사이의 최적의 "스위트 스팟"으로 수렴할 수 있는 잠재력을 밝혀냈습니다. 우리의 모델은 공개적으로 이용 가능합니다.
비전-언어 모델(VLM) 기반 GUI 에이전트는 복잡한 데스크톱 및 모바일 작업 자동화에 유망한 가능성을 보여주지만, 강화 학습(RL)을 적용하는 데 있어 상당한 어려움에 직면하고 있습니다: (1) GUI 환경과의 느린 다중 턴 상호작용으로 인한 정책 롤아웃의 비효율성, (2) 정책 학습을 위한 고품질 에이전트-환경 상호작용의 부족. 이러한 문제를 해결하기 위해, 우리는 GUI 에이전트를 위한 분리형 에이전트 RL 훈련 프레임워크인 DART를 제안합니다. DART는 이기종 모듈을 고도로 분리된 방식으로 조정하며, 훈련 시스템을 환경 클러스터, 롤아웃 서비스, 데이터 관리자, 트레이너의 네 가지 비동기 모듈로 분리합니다. 이 설계는 비차단 통신, 비동기 훈련, 롤아웃 단위 궤적 샘플링, 작업자별 모델 동기화를 가능하게 하여 시스템 효율성을 크게 향상시킵니다: 롤아웃 GPU 활용률 1.6배, 훈련 처리량 1.9배, 환경 활용률 5.5배. 풍부한 샘플로부터 효과적인 학습을 촉진하기 위해, 우리는 적응형 데이터 큐레이션 기법을 도입했습니다: (1) 도전적인 작업에 대한 성공 궤적을 사전 수집하여 온라인 샘플링의 희소한 성공을 보완; (2) 작업 난이도에 따라 롤아웃 횟수와 궤적 길이를 동적으로 조정; (3) 고 엔트로피 단계를 선택적으로 훈련하여 중요한 결정에 우선순위 부여; (4) 정책 롤아웃과 업데이트 간의 불일치를 절단 중요도 샘플링으로 안정화. OSWorld 벤치마크에서 DART-GUI-7B는 42.13%의 작업 성공률을 달성하며, 기본 모델 대비 14.61% 절대적 향상과 오픈소스 SOTA 대비 7.34% 더 높은 성능을 보였습니다. 우리는 훈련 프레임워크, 데이터, 모델 체크포인트를 computer-use-agents.github.io/dart-gui를 통해 완전히 오픈소스로 공개할 예정이며, 이는 에이전트 RL 훈련 오픈소스 커뮤니티에 시의적절한 기여가 될 것으로 믿습니다.
도구 통합 추론(Tool-Integrated Reasoning, TIR)은 대형 언어 모델(LLM)이 외부 도구를 통합하여 내부 추론 능력을 향상시킬 수 있도록 합니다. 그러나 TIR을 사용하는 모델들은 종종 도구 사용이 부족하거나 과도하며, 도구 호출 후 과도한 사고를 보이는 등 최적이 아닌 행동을 보입니다. LLM이 TIR을 효율적이고 정확하게 수행하도록 유도하면서 추론 과정을 안정화시키는 문제는 여전히 해결되지 않은 과제입니다. 본 논문에서는 정보 엔트로피 관점에서 도구 호출이 모델 추론에 미치는 영향을 탐구하는 것으로 시작합니다. 연구 결과에 따르면, 도구 호출 결과는 후속 추론의 정보 엔트로피에 뚜렷한 변화를 일으키며, 추론 체인의 전체 엔트로피는 도구 호출 횟수에 따라 달라집니다. 이러한 통찰을 바탕으로, 우리는 LLM이 TIR을 효율적이고 정확하게 수행하도록 장려하기 위해 Tool-Light 프레임워크를 제안합니다. 이 프레임워크는 데이터셋 구축과 다단계 미세 조정을 포함합니다. 데이터셋 구축을 위해, 미세 조정된 모델을 사용한 연속적 자기 진화 샘플링을 적용하며, 기본 샘플링과 엔트로피 기반 샘플링을 통합합니다. 또한, 샘플링 과정에서 엄격한 기준을 설정하여 긍정-부정 쌍을 선택합니다. 훈련 과정은 지도 미세 조정(Supervised Fine-Tuning, SFT)과 자기 진화 직접 선호 최적화(Self-Evolved Direct Preference Optimization, DPO)의 두 단계로 구성됩니다. 10개의 데이터셋에서의 실험 결과는 Tool-Light가 TIR 작업을 수행하는 모델의 효율성을 크게 향상시키는 효과를 입증합니다.
테스트 타임 스케일링(TTS)은 추론 과정에서 추가적인 계산을 할당함으로써 대규모 언어 모델(LLM)의 추론 능력을 향상시킵니다. 그러나 기존 접근 방식은 주로 출력 수준의 샘플링에 의존하며 모델 아키텍처의 역할을 간과하고 있습니다. 주류의 전문가 혼합(MoE) LLM에서 우리는 활성화된 전문가의 수를 변화시키면 안정적인 정확도를 유지하면서 상호 보완적인 솔루션 세트가 생성된다는 것을 관찰했습니다. 이는 새로운 탐구 대상이 되는 다양성의 원천을 드러냅니다. 이러한 관찰에 동기를 받아, 우리는 전문가 활성화를 탐색 공간의 제어 가능한 차원으로 끌어올리는 TTS 전략인 동적 전문가 탐색(DES)을 제안합니다. DES는 두 가지 핵심 구성 요소를 통합합니다: (1) 동적 MoE는 추가 비용 없이 다양한 추론 궤적을 생성하기 위해 추론 중에 전문가 수를 직접 제어할 수 있게 합니다; (2) 전문가 구성 상속은 추론 경로 내에서 일관된 전문가 수를 유지하면서 실행 간에 이를 변화시켜 탐색 전반에 걸쳐 안정성과 다양성을 균형 있게 유지합니다. MoE 아키텍처, 검증기 및 추론 벤치마크(즉, 수학, 코드 및 지식)에 걸친 광범위한 실험은 DES가 추가 비용 없이 정확성과 안정성을 향상시키면서 TTS 기준선을 안정적으로 능가함을 보여줍니다. 이러한 결과는 DES가 실용적이고 확장 가능한 아키텍처 인식 TTS의 형태임을 강조하며, 현대 LLM의 구조적 유연성이 추론을 발전시킬 수 있는 방법을 보여줍니다.
우리는 대규모 언어 모델(LLM) 증류를 제약 강화 학습 문제로 공식화하여 새로운 접근 방식을 소개합니다. 최근 연구에서는 작업별 보상을 증류 과정에 통합하는 방법을 탐구하기 시작했지만, 기존 방법들은 일반적으로 임시적인 보상 가중치에 의존합니다. 우리는 교사 모델과의 발산을 지정된 임계값 이하로 제약하면서 작업별 보상을 최대화하는 원칙적인 최적화 프레임워크를 제안합니다. 우리의 접근 방식은 증류 설정에 제약 상태 증강 강화 학습을 적용하며, 배포 중에 상태 증강이나 교사 모델 접근이 필요 없고 이중 라그랑지안 방법의 계산 오버헤드 없이도 제약 충족에 대한 이론적 보장을 유지하는 수정된 보상 함수를 도입합니다. 수학적 추론 작업에 대한 광범위한 실험을 통해, 우리의 방법이 소프트 라그랑지안 완화 기준선에 비해 더 나은 제약 충족률과 더 나은 추론 성능을 달성하면서도 경쟁력 있는 작업 성능을 유지함을 입증합니다. 우리의 프레임워크는 자원이 제한된 환경에서 보상을 고려한 증류를 위한 이론적으로 근거 있고 실질적으로 효율적인 해결책을 제공합니다.
대형 언어 모델(LLM) 에이전트는 계획, 메모리, 반성, 도구 사용 모듈을 통합하여 복잡한 다단계 작업을 해결하는 데 유망한 가능성을 보여주고 있습니다. 그러나 이러한 정교한 아키텍처는 연쇄적 실패에 대한 취약성을 증폭시켜, 단일 근본 원인 오류가 후속 결정으로 전파되어 작업 실패로 이어지는 경우가 많습니다. 현재 시스템은 모듈적이고 체계적인 방식으로 에이전트 오류를 포괄적으로 이해할 수 있는 프레임워크가 부족하여 이러한 오류를 적절히 감지하지 못하고 있습니다. 우리는 이 문제를 해결하기 위해 세 가지 기여를 제안합니다. 첫째, 메모리, 반성, 계획, 행동 및 시스템 수준 운영에 걸친 실패 모드를 모듈적으로 분류한 AgentErrorTaxonomy를 소개합니다. 둘째, ALFWorld, GAIA, WebShop에서 체계적으로 주석이 달린 실패 궤적 데이터셋인 AgentErrorBench를 구축하여 실제 에이전트 실행에서 오류 분석을 근거로 합니다. 셋째, 근본 원인 실패를 격리하고 수정 피드백을 제공하여 에이전트가 회복하고 반복적으로 개선할 수 있도록 하는 디버깅 프레임워크인 AgentDebug를 제안합니다. AgentErrorBench에서의 실험 결과, AgentDebug는 가장 강력한 베이스라인 대비 전체 정확도에서 24%, 단계 정확도에서 17% 더 높은 성능을 달성했습니다. 또한, AgentDebug가 생성한 타겟팅된 피드백은 LLM 에이전트가 실패에서 반복적으로 회복할 수 있도록 하여 ALFWorld, GAIA, WebShop에서 작업 성공률이 최대 26% 상대적으로 향상되었습니다. 이러한 결과는 원칙적인 디버깅이 더 신뢰할 수 있고 적응적인 LLM 에이전트로 가는 길임을 입증합니다. 코드와 데이터는 https://github.com/ulab-uiuc/AgentDebug에서 확인할 수 있습니다.
비디오 공통 임베딩 예측 아키텍처(V-JEPA)는 지수 이동 평균(EMA)으로 업데이트된 교사 모델을 사용하여 잠재 공간에서 마스킹된 영역을 예측함으로써 일반화 가능한 즉시 사용 가능한 비디오 표현을 학습합니다. EMA는 표현의 붕괴를 방지하지만, 확장 가능한 모델 선택을 복잡하게 만들고 교사와 학생 아키텍처를 결합시킵니다. 우리는 마스킹된 잠재 예측을 재검토하고, 고정된 교사 모델로도 충분함을 보여줍니다. 구체적으로, 우리는 (i) V-JEPA 마스킹 하에서 간단한 픽셀 재구성 목표를 사용하여 타겟 인코더를 학습한 후, (ii) 이를 고정하고 학생 모델이 마스킹된 영역에서 교사의 잠재를 예측하도록 학습시킵니다. 이는 두 단계로 이루어진 비정규화된 방식으로, 우리는 이를 SALT(Static-teacher Asymmetric Latent Training)라고 부릅니다. SALT는 최적화를 픽셀 재구성(교사)과 마스킹된 잠재 예측(학생)으로 분리하여 투명성, 효율성 및 확장성을 높이면서도 고정 평가 하에서 표현의 일반화 능력을 유지합니다. 실험적으로, 우리의 학생 모델은 다양한 벤치마크에서 최근 제안된 V-JEPA 2 인코더를 고정 백본 평가 하에서 능가합니다. 또한 계산 효율성도 더 뛰어납니다: 동일한 사전 학습 FLOPs에서 우리의 방법은 더 높은 프로빙 정확도를 달성하며, 그 확장 곡선은 V-JEPA의 정확도-FLOPs 파레토 프론티어를 지배합니다. 마지막으로, 학생 모델의 품질이 교사 모델의 품질에 대해 놀라울 정도로 강건함을 발견했습니다: 작고 최적이 아닌 교사 모델에서도 고성능의 학생 모델이 나타납니다. 이는 계산 예산을 압도적으로 학생 모델에 할당해야 함을 시사합니다. 이러한 결과는 SALT를 비디오 표현 학습을 위한 EMA 기반 자기 증류의 간단하고 확장 가능하며 계산 효율적인 대안으로 자리매김합니다.
최근 DeepSeek-R1과 같은 연구에서 강화 학습(Reinforcement Learning, RL) 접근법인 GRPO 알고리즘이 대규모 언어 모델(Large Language Models, LLMs)과 시각-언어 모델(Vision-Language Models, VLMs)에서의 사고 연쇄(Chain-of-Thought, CoT) 추론을 효과적으로 훈련시킬 수 있음을 보여주었다. 본 논문에서는 GRPO의 세 가지 주요 문제점, 즉 사고와 답변 간의 그래디언트 결합, 제한된 병렬 샘플링으로 인한 희소한 보상 신호, 그리고 불안정한 이점 추정을 분석한다. 이러한 문제를 완화하기 위해, 우리는 각 사고 과정에서 다중 답변 생성을 활용하여 더 강력하고 효율적인 최적화를 가능하게 하는 이론적으로 근거가 있는 간단한 방법인 GRPO-MA를 제안한다. 이론적으로, 우리는 사고당 답변 수가 증가함에 따라 사고 이점의 분산이 감소함을 보인다. 실험적으로, 그래디언트 분석을 통해 GRPO-MA가 GRPO에 비해 그래디언트 급증을 줄이는 효과를 확인하였다. 수학, 코드, 그리고 다양한 다중 모달 작업에 대한 실험은 GRPO-MA가 성능과 훈련 효율성을 크게 향상시킴을 입증한다. 추가적으로, 사고당 답변 수를 증가시키는 것이 모델 성능을 지속적으로 향상시킨다는 것을 우리의 절제 연구를 통해 확인하였다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(LLMs)의 환각 현상을 완화하기 위해 검색된 문서에 기반한 응답을 생성하는 것을 목표로 합니다. 그러나 RAG 기반 LLMs는 올바르고 충분한 문맥이 제공된 경우에도 여전히 환각을 일으킵니다. 최근 연구에 따르면, 이는 모델이 외부 문맥과 내부 지식을 활용하는 방식 간의 불균형에서 비롯된 것으로 보이며, 여러 접근법이 이러한 신호를 정량화하여 환각을 탐지하려 시도해 왔습니다. 그러나 기존 방법들은 광범위한 하이퍼파라미터 조정이 필요하여 일반화 가능성이 제한적입니다. 본 연구에서는 문맥-지식 신호를 통해 RAG 시스템에서의 환각을 탐지하는 새로운 프레임워크인 LUMINA를 제안합니다: 외부 문맥 활용은 분포적 거리를 통해 정량화되고, 내부 지식 활용은 트랜스포머 계층 간 예측된 토큰의 변화를 추적하여 측정됩니다. 또한, 이러한 측정값을 통계적으로 검증하기 위한 프레임워크를 도입합니다. 일반적인 RAG 환각 벤치마크와 4개의 오픈소스 LLMs에 대한 실험 결과, LUMINA는 일관되게 높은 AUROC 및 AUPRC 점수를 달성하며, HalluRAG에서 기존 활용 기반 방법보다 최대 +13% AUROC 성능 향상을 보였습니다. 더욱이, LUMINA는 검색 품질과 모델 매칭에 대한 완화된 가정 하에서도 견고하게 작동하여 효과성과 실용성을 모두 제공합니다.
대규모 언어 모델(LLM)이 과학적 추론에 점점 더 많이 적용됨에 따라, 답변 형식의 복잡성과 동등한 표현의 다양성은 답변 검증을 중요하면서도 어려운 과제로 만들고 있습니다. 과학 분야에서의 기존 검증 연구는 두 가지 주요 한계를 가지고 있습니다: (a) 체계적인 평가 기준의 부재와 불충분한 학문적 범위로 인해 종합적인 평가가 어렵다는 점, 그리고 (b) 번거로운 규칙 설계나 프롬프트 엔지니어링에 대한 과도한 의존으로 인해 복잡한 추론 시나리오에서의 효과가 감소하거나 학제 간 일반화가 제한된다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 데이터와 모델 두 차원에서 해결책을 제안합니다. 데이터 측면에서는 수학, 물리학, 생물학, 화학 및 일반 과학 질의응답을 포괄하는 학제 간 벤치마크인 SCI-VerifyBench를 구축했습니다. 이 벤치마크는 실제 LLM 응답을 기반으로 하며, 도메인 특화적 동등 변환을 통해 도전적이고 현실적인 데이터를 생성합니다. 모델 기반 및 전문가 주석을 통해 질과 다양성을 보장하여 검증 능력을 엄격하게 평가할 수 있습니다. 모델 측면에서는 검증을 위한 추론의 중요성을 강조하고, 과학 분야를 위한 통합 추론 강화 검증기인 SCI-Verifier를 소개합니다. 사후 훈련을 통해 SCI-Verifier는 강력한 논리적 추론 및 동등 판단 능력을 보여주면서도 간결하고 안정적인 출력을 유지합니다. SCI-VerifyBench와 SCI-Verifier는 과학적 검증을 위한 원칙적인 프레임워크를 제공함으로써, LLM의 과학 분야에서의 신뢰성과 적용 가능성을 강화하기 위한 체계적인 평가와 실질적인 경로를 제시합니다.
최근의 추론 대형 언어 모델(RLMs), 특히 검증 기반 강화 학습으로 훈련된 모델들은 직접 답변하기보다 소수 샷 CoT(Chain-of-Thought)에서 더 나쁜 성능을 보이는 경우가 많습니다. 우리는 DeepSeek-R1의 고품질 추론 흔적을 데모로 사용하여 이 역설을 재검토했으며, 데모가 최적임에도 불구하고 더 많은 예제를 추가할수록 정확도가 지속적으로 저하되는 것을 발견했습니다. 상세한 분석을 통해 이러한 저하의 두 가지 메커니즘을 밝혀냈습니다: (i) 의미론적 오도, 즉 높은 텍스트 유사성으로 인해 모델이 대상을 예제와 동일하게 간주하고 중간 단계를 그대로 복사하는 현상; (ii) 전략 전달 실패, 즉 모델이 유용한 추론 전략을 추출하고 이를 대상 질문에 적용하는 데 어려움을 겪는 현상. 이를 바탕으로 우리는 Insight-to-Solve(I2S)를 도입했습니다. 이는 데모를 명시적이고 재사용 가능한 통찰로 전환하고 대상별 추론 흔적을 도출하는 순차적 테스트 시간 절차입니다. 선택적으로, 추론은 일관성과 정확성을 위해 자체적으로 개선됩니다(I2S+). 다양한 벤치마크에서의 광범위한 실험 결과, I2S와 I2S+는 오픈소스 및 클로즈드소스 모델 모두에서 직접 답변하기와 테스트 시간 스케일링 기준선을 일관되게 능가하는 것으로 나타났습니다. GPT 모델의 경우에도 우리의 방법은 도움이 되었습니다: AIME'25에서 GPT-4.1은 +14.0% 상승했으며, o1-mini는 AIME에서 +2.7%, GPQA에서 +1.7% 향상되었습니다. 이는 인컨텍스트 데모가 통찰-개선-해결 프레임워크를 통해 효과적으로 활용될 수 있음을 시사합니다.
다운스트림 작업을 위해 사전 훈련된 대규모 언어 모델(LLMs)을 미세 조정하는 것은 AI 배포 파이프라인의 중요한 단계이다. 강화 학습(RL)은 가장 두드러진 미세 조정 방법으로, 많은 최첨단 LLMs의 탄생에 기여했다. 반면, 수백만 개의 파라미터를 가진 모델에서 RL과 비슷한 성능을 보였던 진화 전략(ES)은 더 큰 모델로의 확장성에 대한 비관적인 인식으로 인해 소외되었다. 본 연구에서는 LLMs의 전체 파라미터를 미세 조정하기 위해 ES를 확장하는 첫 번째 성공적인 시도를 보고하며, ES가 수십억 개의 파라미터를 효율적으로 탐색할 수 있고, 샘플 효율성, 장기 보상에 대한 내성, 다양한 기본 LLMs에 대한 견고성, 보장 해킹에 대한 덜한 경향, 실행 간 더 안정적인 성능 등 여러 측면에서 기존 RL 미세 조정 방법을 능가한다는 놀라운 사실을 보여준다. 따라서 이는 현재 RL 기술이 제공하는 것 이상의 LLM 미세 조정의 새로운 방향을 열기 위한 기반이 된다. 소스 코드는 https://github.com/VsonicV/es-fine-tuning-paper에서 제공된다.
마스크된 확산 언어 모델(MDLMs)은 최근 자동회귀(AR) 언어 모델의 유망한 대안으로 떠오르며, 병렬 디코딩, 유연한 생성 순서, 더 적은 추론 단계의 가능성과 같은 특성을 제공합니다. 이러한 장점에도 불구하고, MDLMs에 맞춤화된 디코딩 전략과 강화 학습(RL) 알고리즘은 아직 충분히 탐구되지 않았습니다. 단순한 접근 방식은 AR 모델에 대해 잘 확립된 기술을 MDLMs에 직접 적용하는 것입니다. 그러나 이는 즉각적인 질문을 제기합니다: 이러한 단순한 전이가 정말 최적일까요? 예를 들어, 1) 블록 단위 및 준-AR 디코딩 전략은 MDLMs의 훈련 중에 사용되지 않는데, 왜 추론 중에 완전한 확산 스타일 디코딩보다 더 나은 성능을 보일까요? 2) AR 모델을 위해 설계된 RL 알고리즘을 MDLMs에 직접 적용하면, MDLM 디코딩이 비인과적(병렬)이기 때문에 훈련-추론 불일치가 발생합니다. 이는 롤아웃 궤적과 최적화 궤적 간의 불일치를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 EOS 조기 거부(EOSER) 및 오름차순 단계 크기(ASS) 디코딩 스케줄러를 제안합니다. 이는 MDLMs가 완전한 확산 스타일 디코딩을 수행할 수 있는 잠재력을 발휘하게 하며, 더 적은 디코딩 단계로도 경쟁력 있는 성능을 달성합니다. 또한, 우리는 MDLMs를 다루기 위해 일관성 궤적 그룹 상대 정책 최적화(CJ-GRPO)를 소개합니다. 이는 롤아웃 궤적과 최적화 궤적 간의 일관성을 강조하고, 건너뛰기 단계 최적화로 인한 최적화 오류를 줄입니다. 우리는 LLaDA-8B-Instruct를 사용하여 수학 및 계획 벤치마크와 같은 추론 작업에 대해 광범위한 실험을 수행했습니다. 결과는 제안된 EOSER 및 ASS 메커니즘과 CJ-GRPO가 MDLMs를 효과적이고 효율적으로 다루는 데 상당한 가능성을 보여줍니다. 코드: https://github.com/yjyddq/EOSER-ASS-RL.
자기회귀(AR) 모델은 이미지 생성에 있어 유망한 접근법이지만, 연속 토큰 AR 변형 모델들은 잠재 확산(latent diffusion) 및 마스크 생성(masked-generation) 모델에 비해 종종 뒤처지는 모습을 보입니다. 이 문제의 핵심은 VAE 잠재 공간에서의 이질적 분산(heterogeneous variance)에 있으며, 이는 특히 분류기 없는 지도(classifier-free guidance, CFG) 하에서 AR 디코딩 과정에서 증폭되어 분산 붕괴(variance collapse)를 초래할 수 있습니다. 우리는 이 문제를 해결하기 위해 SphereAR를 제안합니다. SphereAR의 핵심 설계는 모든 AR 입력과 출력(CFG 이후 포함)을 고정 반경의 초구(hypersphere, 일정한 ell_2 노름) 위에 위치하도록 제약하는 것으로, 이를 위해 초구형 VAE(hyperspherical VAEs)를 활용합니다. 우리의 이론적 분석은 초구형 제약이 스케일 요소(분산 붕괴의 주요 원인)를 제거함으로써 AR 디코딩을 안정화한다는 것을 보여줍니다. 실험적으로, ImageNet 생성에서 SphereAR-H(943M)는 AR 모델의 새로운 최첨단 성능을 달성하며 FID 1.34를 기록했습니다. 더 작은 규모에서도 SphereAR-L(479M)은 FID 1.54를, SphereAR-B(208M)은 1.92를 달성하여 MAR-H(943M, 1.55) 및 VAR-d30(2B, 1.92)와 같은 훨씬 더 큰 기준 모델을 능가하거나 비슷한 성능을 보였습니다. 우리가 아는 한, 이는 래스터 순서(raster order)를 사용하는 순수한 다음 토큰 AR 이미지 생성기가 비슷한 매개변수 규모에서 확산 및 마스크 생성 모델을 능가한 첫 사례입니다.
인간의 피드백은 대규모 언어 모델(LLMs)을 인간의 선호도에 맞추는 데 중요한 역할을 합니다. 그러나 이러한 피드백은 종종 노이즈가 많거나 일관성이 없어 보상 모델의 품질을 저하시키고 정렬을 방해할 수 있습니다. 이러한 문제를 완화하기 위해 다양한 자동화된 데이터 정제 방법이 제안되었지만, 이들의 효과성과 일반화 가능성을 체계적으로 평가한 연구는 아직 부족합니다. 이러한 격차를 해소하기 위해, 우리는 LLM 정렬 맥락에서 13가지 선호도 데이터 정제 방법을 평가하기 위한 첫 번째 포괄적인 벤치마크를 소개합니다. PrefCleanBench는 다양한 데이터셋, 모델 아키텍처, 최적화 알고리즘에 걸쳐 정렬 성능과 일반화 가능성 측면에서 정제 전략을 평가하기 위한 표준화된 프로토콜을 제공합니다. 다양한 방법을 통합하고 엄격하게 비교함으로써, 우리는 정렬 작업에서 데이터 정제의 성공을 결정하는 주요 요소를 발견했습니다. 이 벤치마크는 더 나은 데이터 품질을 통해 LLM 정렬을 개선하기 위한 원칙적이고 재현 가능한 접근 방식의 기반을 마련하며, 책임 있는 AI 개발에서 데이터 전처리의 중요하지만 충분히 탐구되지 않은 역할을 강조합니다. 우리는 모든 방법의 모듈형 구현을 공개하여 추가 연구를 촉진합니다: https://github.com/deeplearning-wisc/PrefCleanBench.
기존의 텍스트-이미지 확산 모델은 고품질 이미지 생성에 뛰어나지만, 4K 이미지 생성과 같은 고해상도로 확장할 때 상당한 효율성 문제에 직면합니다. 이전 연구들은 다양한 측면에서 확산 모델의 속도를 향상시켰지만, 잠재 공간 내의 본질적인 중복성을 다루는 경우는 드물었습니다. 이러한 격차를 해소하기 위해, 본 논문은 깊이 압축된 잠재 공간을 활용하여 텍스트-이미지 확산 모델의 속도를 높이는 일반적인 프레임워크인 DC-Gen을 소개합니다. 비용이 많이 드는 처음부터 학습하는 방식 대신, DC-Gen은 기본 모델의 품질을 유지하기 위해 효율적인 사후 학습 파이프라인을 사용합니다. 이 패러다임에서 주요한 과제는 기본 모델의 잠재 공간과 깊이 압축된 잠재 공간 간의 표현 격차로, 이는 직접 미세 조정 시 불안정성을 초래할 수 있습니다. 이를 극복하기 위해, DC-Gen은 먼저 경량 임베딩 정렬 학습을 통해 표현 격차를 해소합니다. 잠재 임베딩이 정렬되면, 기본 모델의 본질적인 생성 품질을 발휘하기 위해 소량의 LoRA 미세 조정만 필요합니다. 우리는 DC-Gen의 효과를 SANA와 FLUX.1-Krea에서 검증했습니다. 결과적으로 DC-Gen-SANA와 DC-Gen-FLUX 모델은 기본 모델과 비슷한 품질을 유지하면서도 상당한 속도 향상을 달성했습니다. 특히, DC-Gen-FLUX는 NVIDIA H100 GPU에서 4K 이미지 생성의 지연 시간을 53배 줄였습니다. NVFP4 SVDQuant와 결합했을 때, DC-Gen-FLUX는 단일 NVIDIA 5090 GPU에서 단 3.5초 만에 4K 이미지를 생성하며, 기본 FLUX.1-Krea 모델 대비 총 지연 시간을 138배 감소시켰습니다. 코드: https://github.com/dc-ai-projects/DC-Gen.
검색 강화 대형 언어 모델(LLM)은 종종 비효율적인 다중 홉 검색과 제한된 추론 능력으로 인해 복잡한 추론 작업에 어려움을 겪습니다. 우리는 AceSearcher를 제안합니다. 이는 단일 대형 언어 모델(LLM)이 두 가지 역할을 번갈아 수행하도록 훈련하는 협력적 자가 플레이 프레임워크로, 복잡한 질의를 분해하는 분해자(decomposer)와 검색된 맥락을 통합하여 답변을 생성하는 해결자(solver) 역할을 합니다. AceSearcher는 검색, 추론, 분해 작업의 다양한 혼합 데이터에 대한 지도 미세 조정과 최종 답변 정확도를 최적화한 강화 미세 조정을 결합하여 중간 주석의 필요성을 없앱니다. 10개의 데이터셋에 걸친 세 가지 추론 집중 작업에 대한 광범위한 실험에서 AceSearcher는 최첨단 베이스라인을 능가하며 평균 정확도 일치율에서 7.6%의 향상을 달성했습니다. 특히, 문서 수준의 금융 추론 작업에서 AceSearcher-32B는 DeepSeek-V3 모델의 성능을 매칭하면서도 매개변수의 5% 미만을 사용했습니다. 더 작은 규모(1.5B 및 8B)에서도 AceSearcher는 종종 기존 검색 강화 LLM을 능가하며, 최대 9배 더 많은 매개변수를 가진 모델보다 우수한 성능을 보여 복잡한 추론 작업에 대한 탁월한 효율성과 효과성을 입증했습니다. 우리의 코드는 https://github.com/ritaranx/AceSearcher와 https://huggingface.co/AceSearcher에서 공개될 예정입니다.
긴 영상 이해는 최근의 대형 비디오-언어 모델(LVLMs)에게 여전히 도전적인 과제입니다. 이는 장기간의 시간적 이해와 세밀한 공간적 인식 간의 충돌 때문입니다. 균일한 프레임 샘플링 메커니즘을 사용하는 LVLMs는 동일한 프레임 크기와 고정된 샘플링 속도로 프레임을 샘플링하기 때문에, 필연적으로 시간적 단서나 공간적 세부 사항 중 하나를 희생하게 되어 최적의 해결책을 얻기 어렵습니다. 이러한 딜레마를 완화하기 위해, 우리는 비디오 클립에 적응적으로 확대할 수 있는 LOVE-R1 모델을 제안합니다. 이 모델은 먼저 작은 해상도로 밀집 샘플링된 프레임을 제공받습니다. 만약 일부 공간적 세부 사항이 필요하다면, 모델은 핵심 시각 정보를 얻을 때까지 추론을 기반으로 큰 프레임 해상도로 관심 있는 클립을 확대할 수 있습니다. 이 전체 과정은 다단계 추론 과정으로 구현됩니다. 추론 능력을 훈련시키기 위해, 우리는 먼저 수집한 38k 고품질 CoT 데이터로 모델을 미세 조정하고, 분리된 강화 미세 조정으로 이를 강화합니다. 결과 보상이 세밀한 과정 감독을 제공할 수 없기 때문에, 우리는 다단계 추론을 여러 단일 단계 추론으로 분리하고 내부 확대 능력을 명시적으로 최적화합니다. 긴 영상 이해 벤치마크에서의 실험은 우리의 모델이 느린-빠른 적응형 프레임 샘플링 메커니즘을 통해 샘플링 밀도와 프레임 해상도 간의 훌륭한 균형을 달성하며, LOVE-R1이 4개의 일반적인 긴 영상 이해 벤치마크에서 평균 3.1% 포인트로 기준 모델인 Qwen2.5-VL을 능가함을 보여줍니다.
웹페이지-코드 변환 작업은 모델이 웹페이지의 시각적 표현을 이해하고 이에 상응하는 코드를 생성할 것을 요구합니다. 그러나 기존 벤치마크는 주로 정적 스크린샷-코드 변환 작업에 초점을 맞추어, 실제 웹 애플리케이션의 핵심 요소인 동적 상호작용을 간과해 왔습니다. 이러한 한계를 해결하기 위해, 본 논문은 비디오에서 인터랙티브 웹페이지 재구성을 평가하기 위한 새로운 벤치마크인 IWR-Bench를 소개합니다. IWR-Bench은 100개의 실제 웹사이트에서 선별된 113개의 작업으로 구성되며, 1,001개의 액션과 다양한 상호작용 복잡성(예: 웹 게임), 시각적 스타일, 도메인을 포함합니다. 표준 웹 개발 관행에 맞춰, 각 작업은 사용자 상호작용 비디오뿐만 아니라 크롤링된 모든 정적 자산(예: 이미지, 비디오)도 포함합니다. 이 벤치마크는 모델을 두 가지 근본적인 도전 과제에 대해 평가합니다: 비디오와 자산에서 상호작용 로직을 추론하기 위한 포괄적인 다중 모달 추론, 그리고 이 로직을 기능적 코드로 변환하기 위한 고급 코드 생성. 에이전트-판단자 프레임워크와 포괄적인 메트릭 시스템은 생성된 웹페이지의 기능적 정확성과 시각적 충실도를 자동으로 평가합니다. 28개의 LVLM에 대한 광범위한 실험은 중요한 도전 과제를 드러냅니다: 최고의 모델도 전체 점수 36.35%에 그치며, 기능적 정확성(24.39% IFS)은 시각적 충실도(64.25% VFS)에 비해 크게 뒤처집니다. 이러한 결과는 현재 모델들이 시간적 역학을 추론하고 이벤트 기반 로직을 합성하는 능력에 있어 중요한 한계를 보여주며, IWR-Bench을 비전-언어 연구의 도전적인 최전선으로 자리매김합니다. 벤치마크와 평가 코드는 공개될 예정입니다. 코드는 https://github.com/L-O-I/IWR-Bench에서 확인할 수 있습니다.
다중 주체 이미지 생성은 사용자가 제공한 여러 주체를 단일 이미지 내에서 합성하면서 주체 충실도를 유지하고, 프롬프트 일관성을 보장하며, 인간의 미적 선호도에 부합하는 것을 목표로 합니다. 그러나 기존 방법론, 특히 In-Context-Learning 패러다임에 기반한 방법들은 단순한 재구성 기반 목표에 의존함으로써 심각한 속성 누출로 인해 주체 충실도가 저하되고, 인간의 미묘한 선호도에 부합하지 못하는 한계를 보입니다. 이를 해결하기 위해, 우리는 고충실도와 선호도에 부합하는 생성을 보장하는 MultiCrafter 프레임워크를 제안합니다. 먼저, 우리는 속성 누출의 근본 원인이 생성 과정에서 서로 다른 주체 간의 주의 영역이 심하게 얽혀 있기 때문임을 발견했습니다. 따라서, 각 주체의 주의 영역을 명시적으로 분리하기 위해 명시적인 위치 감독을 도입하여 속성 누출을 효과적으로 완화합니다. 또한, 모델이 다양한 시나리오에서 서로 다른 주체의 주의 영역을 정확히 계획할 수 있도록, Mixture-of-Experts(MoE) 아키텍처를 활용하여 모델의 역량을 강화하고, 각 전문가가 다른 시나리오에 집중할 수 있도록 합니다. 마지막으로, 인간의 선호도에 부합하도록 모델을 조정하기 위해 새로운 온라인 강화 학습 프레임워크를 설계했습니다. 이 프레임워크는 다중 주체 충실도를 정확히 평가하는 채점 메커니즘과 MoE 아키텍처에 맞춘 더 안정적인 학습 전략을 특징으로 합니다. 실험을 통해 우리의 프레임워크가 주체 충실도를 크게 개선하면서도 인간의 선호도에 더 잘 부합함을 검증했습니다.
비전 언어 모델(VLMs)은 텍스트 상호작용을 통해 다양한 비전 작업을 유연하게 처리할 수 있습니다. 의미 이해에서는 성공적이지만, GPT-5를 포함한 최신 VLMs도 여전히 2D 입력에서 3D를 이해하는 데 어려움을 겪고 있습니다. 반면, 전문적인 순수 비전 모델은 3D 이해의 핵심 작업인 미터법 깊이 추정에서 인간을 뛰어넘는 정확도를 달성합니다. 그러나 이러한 모델은 작업별 아키텍처와 손실 함수가 필요합니다. 이러한 차이는 다음과 같은 질문을 제기합니다: VLMs가 아키텍처나 손실 함수 변경 없이 전문가 수준의 정확도에 도달할 수 있을까요? 우리는 픽셀 단위 미터법 깊이 추정을 대표 작업으로 삼아 그 답이 '그렇다'는 것을 보여줍니다! 놀랍게도, 포괄적인 분석 결과, 희소 레이블을 사용한 텍스트 기반 지도 미세 조정만으로도 VLMs가 강력한 3D 이해 능력을 발휘할 수 있으며, 밀집 예측 헤드나 복잡한 회귀/정규화 손실 함수가 필요하지 않다는 것이 밝혀졌습니다. VLMs의 병목 현상은 실제로 픽셀 참조와 데이터셋 간 카메라 모호성에 있으며, 이를 시각적 프롬프팅과 내재적 조건 증강을 통해 해결합니다. 훨씬 작은 모델로도 우리의 방법인 DepthLM은 대부분의 최신 VLMs의 정확도를 2배 이상 능가하며, VLMs가 처음으로 순수 비전 모델과 비교 가능한 수준에 도달했습니다. 흥미롭게도, 훈련 중 명시적인 강제 없이도 DepthLM으로 훈련된 VLMs는 자연스럽게 과도한 평활화를 피하며, 경계 영역에서 순수 비전 모델보다 훨씬 적은 비행점(flying points)을 가집니다. DepthLM의 단순성은 또한 단일 VLM이 미터법 깊이를 넘어 다양한 3D 작업을 포괄할 수 있게 합니다. 우리의 코드와 모델은 아래 링크에서 공개될 예정입니다.
우리는 Dafny에서의 조합적 명세 생성(compositional specification generation)을 평가하기 위한 벤치마크인 DafnyCOMP를 소개한다. 기존의 단일 함수 작업에 초점을 맞춘 벤치마크와 달리, DafnyCOMP는 데이터 의존성을 가진 여러 상호작용 함수로 구성된 프로그램을 대상으로 하며, 구성 요소 간 경계를 넘어 추론을 요구한다. 이 벤치마크는 자동으로 합성된 300개의 다중 함수 프로그램으로 구성되어 있다. 우리는 여러 최신 대규모 언어 모델(LLM) 패밀리를 평가했으며, 이들이 단일 함수 검증에서는 잘 수행되지만 조합적 작업에서는 성능이 급격히 떨어지는 것을 발견했다. 분석 결과, 취약한 명세, 구현과 증명 간의 불일치, 불안정한 추론 등 교차 기능적 추론에서의 체계적인 실패가 드러났다. 따라서 DafnyCOMP는 LLM을 사용한 신뢰할 수 있고 검증 가능하며 조합적인 코드 생성을 향한 진척도를 측정하기 위한 진단 도구로 활용될 수 있다.
선호도 최적화는 대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추는 데 있어 핵심적인 역할을 합니다. 이 과정에서 중요한 과제 중 하나는 사전 수집된 오프라인 선호도 데이터와 진화하는 모델 정책 간의 분포 불일치 문제입니다. 기존 방법들은 정적 휴리스틱이나 분리된 온라인 샘플링 전략을 통해 이러한 격차를 줄이려 시도하지만, 모델의 동적 학습 상태에 적응하지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 데이터 생성과 모델 훈련을 동적으로 결합하는 새로운 프레임워크인 메타 가중치 적응형 선호도 최적화(MetaAPO)를 제안합니다. MetaAPO는 경량 메타-러너를 "정렬 격차 추정기"로 활용하여 온-정책 샘플링의 잠재적 이점을 오프라인 데이터와 관련하여 평가합니다. 이를 통해 표적 온라인 생성을 안내하고 최적화 목표에 샘플별 메타 가중치를 할당함으로써 온라인과 오프라인 데이터의 품질과 분포를 동적으로 균형 있게 조정합니다. AlpacaEval 2, Arena-Hard 및 MT-Bench에서의 실험 결과, MetaAPO는 다양한 설정에서 기존 선호도 최적화 접근법을 일관되게 능가하는 동시에 온라인 주석 비용을 42% 절감하는 것으로 나타났습니다.
본 논문은 대규모 언어 모델(LLMs)의 수학적 추론 능력을 진단하기 위한 동적 진단 도구인 MathBode를 소개합니다. MathBode는 단일 시도 정확도 대신 각 매개변수 문제를 시스템으로 취급합니다: 단일 매개변수를 정현파적으로 변화시키면서 모델 출력과 정확한 해의 1차 고조파 응답을 피팅합니다. 이를 통해 해석 가능한 주파수 분해 메트릭인 이득(진폭 추적)과 위상(지연)을 얻으며, 이는 Bode 스타일의 지문을 형성합니다. 다섯 가지 폐쇄형 문제군(선형 해결, 비율/포화, 복리, 2x2 선형 시스템, 닮은 삼각형)에 걸쳐 이 진단 도구는 체계적인 저역 통과 특성과 증가하는 위상 지연을 드러내며, 이는 정확도만으로는 파악하기 어려운 현상입니다. 여러 모델을 기기 보정을 위한 기호적 기준선(G ≈ 1, φ ≈ 0)과 비교합니다. 결과는 동적 특성 측면에서 최첨단 모델과 중간 수준 모델을 구분하며, 추론의 충실도와 일관성에 대한 실행 가능한 측정치를 제공함으로써 표준 벤치마크를 보완하는 간결하고 재현 가능한 프로토콜을 제시합니다. 추가 연구와 도입을 위해 데이터셋과 코드를 공개합니다.
대규모 언어 모델(LLM)은 텍스트-to-SQL 작업에서 점점 더 효과적인 성능을 보여주고 있습니다. 그러나 한 데이터베이스 시스템(예: MySQL)용으로 작성된 쿼리를 다른 시스템(예: ClickHouse)에 맞는 동등한 쿼리로 변환하는 크로스 시스템 SQL 번역(SQL-to-SQL) 문제는 실질적으로 매우 중요함에도 불구하고 아직 충분히 연구되지 않고 있습니다. 기존의 SQL 벤치마크는 SQL-to-SQL 평가에 적합하지 않은데, 이는 (1) 제한된 데이터베이스 시스템 집합(주로 SQLite)에 초점을 맞추고 있으며, (2) 시스템별 SQL 방언(예: 맞춤형 함수, 데이터 타입, 구문 규칙)을 충분히 반영하지 못하기 때문입니다. 따라서 본 논문에서는 크로스 시스템 SQL 번역을 위한 실용적이고 현실적인 벤치마크인 PARROT을 소개합니다. PARROT은 38개의 오픈소스 벤치마크와 실제 비즈니스 서비스에서 추출한 598개의 번역 쌍으로 구성되어 있으며, 시스템별 SQL 이해를 테스트하기 위해 특별히 준비되었습니다(예: LLM의 평균 정확도는 38.53% 미만). 또한, 28,003개의 번역을 포함한 PARROT-Diverse(광범위한 구문 테스트용)와 5,306개의 대표 샘플을 포함한 PARROT-Simple(집중적인 스트레스 테스트용) 등 여러 벤치마크 변형을 제공하며, 총 22개의 프로덕션급 데이터베이스 시스템을 다룹니다. 향후 연구를 촉진하기 위해 공개 리더보드와 소스 코드를 https://code4db.github.io/parrot-bench/에서 공개합니다.
생성과 이해 능력을 결합한 통합 비디오 모델링은 점점 더 중요해지고 있지만 두 가지 주요 과제에 직면해 있습니다: 텍스트-시각적 토큰 불균형으로 인한 흐름 기반 생성 과정에서의 의미적 충실도 유지와 흐름 궤적 전반에 걸친 균일한 교차 모달 어텐션의 한계, 그리고 비용이 많이 드는 재학습 없이 이미지 중심의 MLLM(Multimodal Large Language Model)을 비디오로 효율적으로 확장하는 문제입니다. 우리는 UniVid를 제안합니다. 이는 경량 어댑터를 통해 MLLM과 디퓨전 디코더를 결합한 통합 아키텍처로, 비디오 이해와 생성을 모두 가능하게 합니다. 우리는 프롬프트 준수를 개선하기 위한 온도 모달리티 정렬(Temperature Modality Alignment)과 동적 키프레임 선택을 통한 효율적인 시간적 추론을 위한 피라미드 리플렉션(Pyramid Reflection)을 도입했습니다. 표준 벤치마크에서의 광범위한 실험을 통해 최첨단 성능을 입증했으며, VBench-Long 총점에서 EasyAnimateV5.1 대비 2.2% 향상, MSVD-QA와 ActivityNet-QA에서 각각 1.0%와 3.3%의 정확도 향상을 달성했습니다. 이는 기존 최고의 7B 베이스라인과 비교한 결과입니다.
강화학습(Reinforcement Learning, RL)은 대형 언어 모델(Large Language Models, LLMs)의 발전을 위한 핵심 패러다임으로 부상하였으며, 사전 학습과 RL 사후 학습은 동일한 로그-우도(log-likelihood) 공식을 공유합니다. 이와 대조적으로, 최근 확산 모델(diffusion models)을 위한 RL 접근법, 특히 Denoising Diffusion Policy Optimization(DDPO)은 사전 학습 목표와 다른 목적 함수를 최적화합니다—스코어/플로우 매칭 손실(score/flow matching loss). 본 연구에서 우리는 새로운 이론적 분석을 제시합니다: DDPO는 잡음이 포함된 타겟을 사용한 스코어/플로우 매칭의 암묵적 형태로, 이는 분산을 증가시키고 수렴 속도를 늦춥니다. 이 분석을 바탕으로, 우리는 확산 모델을 위한 정책 경사(policy-gradient) 방법인 Advantage Weighted Matching(AWM)을 소개합니다. AWM은 사전 학습과 동일한 스코어/플로우 매칭 손실을 사용하여 더 낮은 분산의 목적 함수를 얻고, 각 샘플을 그 이점(advantage)에 따라 재가중합니다. 결과적으로, AWM은 고보상 샘플의 영향을 높이고 저보상 샘플을 억제하면서도 모델링 목적을 사전 학습과 동일하게 유지합니다. 이는 사전 학습과 RL을 개념적으로 그리고 실질적으로 통일하며, 정책 경사 이론과 일치하고, 분산을 줄이며, 더 빠른 수렴을 이끌어냅니다. 이 간단하지만 효과적인 설계는 상당한 이점을 제공합니다: GenEval, OCR, 그리고 PickScore 벤치마크에서, AWM은 Stable Diffusion 3.5 Medium과 FLUX에 적용될 때 Flow-GRPO(DDPO를 기반으로 한) 대비 최대 24배의 속도 향상을 달성하며, 생성 품질을 저하시키지 않습니다. 코드는 https://github.com/scxue/advantage_weighted_matching에서 확인할 수 있습니다.
구조화된 이미지(예: 차트 및 기하학적 다이어그램)는 다중모드 대형 언어 모델(MLLMs)에게 여전히 어려운 과제로 남아 있습니다. 왜냐하면 지각적 오류가 잘못된 결론으로 이어질 수 있기 때문입니다. 중간 시각적 단서는 추론을 이끌 수 있지만, 기존의 단서 기반 방법은 저해상도 이미지 처리와 선형적이고 경직된 추론 패턴에 제한되어 있어 복잡한 구조화된 이미지 작업에서의 효과가 제한적입니다. 본 논문에서는 구조화된 이미지에 대한 고해상도 이미지 처리와 유연한 시각적 추론을 위한 새로운 다중 에이전트 시스템인 PixelCraft를 제안합니다. 이 시스템은 디스패처, 플래너, 추론자, 비평가 및 일련의 시각적 도구 에이전트로 구성됩니다. 고해상도 처리를 위해 고품질 코퍼스를 구축하고 MLLM을 기반으로 한 그라운딩 모델을 미세 조정하여, 픽셀 수준의 위치 정보를 도구 에이전트 내의 전통적인 컴퓨터 비전(CV) 알고리즘과 통합합니다. 이를 바탕으로 PixelCraft는 도구 선택, 에이전트 토론 및 자기 비평의 동적 3단계 워크플로를 통해 유연한 시각적 추론을 가능하게 합니다. 또한, 단순히 과거 이미지를 추가하는 기존의 선형적 추론 패턴과 달리, PixelCraft는 이미지 메모리를 유지하여 플래너가 이전 시각적 단계를 적응적으로 재검토하고, 대체 추론 분기를 탐색하며, 토론 중에 추론 궤적을 동적으로 조정할 수 있도록 합니다. 도전적인 차트 및 기하학적 벤치마크에 대한 광범위한 실험을 통해 PixelCraft가 고급 MLLM의 시각적 추론 성능을 크게 향상시키며, 구조화된 이미지 추론에 대한 새로운 표준을 설정함을 입증했습니다. 우리의 코드는 https://github.com/microsoft/PixelCraft에서 확인할 수 있습니다.
복잡한 환경을 마스터할 수 있는 인공 에이전트를 개발하려는 노력은 놀라운 성과를 거두었지만, 현재의 심층 강화 학습 방법들은 대부분 방대한 경험에 의존하며, 그 지식을 신경망 가중치에 불투명하게 인코딩합니다. 우리는 다른 패러다임을 제안합니다. 에이전트가 추론과 계획을 통해 학습하는 방식입니다. 우리는 '코기토, 에르고 루도(Cogito, ergo ludo, CEL)'라는 새로운 에이전트 아키텍처를 소개합니다. 이 아키텍처는 대형 언어 모델(LLM)을 활용하여 환경의 메커니즘과 자신의 전략에 대한 명시적이고 언어 기반의 이해를 구축합니다. 사전 지식 없이(단, 행동 집합은 제외) 백지 상태에서 시작하는 CEL은 상호작용과 성찰의 주기를 통해 작동합니다. 각 에피소드 후, 에이전트는 완전한 궤적을 분석하여 두 가지 동시 학습 과정을 수행합니다: '규칙 유도(Rule Induction)'에서는 환경의 역학에 대한 명시적 모델을 개선하고, '전략 및 플레이북 요약(Strategy and Playbook Summarization)'에서는 경험을 실행 가능한 전략 플레이북으로 정제합니다. 우리는 CEL을 다양한 그리드 월드 작업(즉, 지뢰 찾기, 얼어붙은 호수, 소코반)에서 평가하고, CEL 에이전트가 희소한 보상에서도 게임의 규칙을 자율적으로 발견하고 효과적인 정책을 개발하여 이러한 게임을 마스터하는 데 성공함을 보여줍니다. 제거 연구(ablation studies)는 반복적인 과정이 지속적인 학습에 중요함을 확인합니다. 우리의 작업은 효과적으로 행동할 뿐만 아니라 원시 경험에 대한 명시적 추론을 통해 세계에 대한 투명하고 개선되는 모델을 구축하는 보다 일반적이고 해석 가능한 에이전트로 나아가는 길을 보여줍니다.
외부 환경과 상호작용하는 대규모 언어 모델(LLM) 기반 에이전트의 증가하는 배치는 적대적 조작을 위한 새로운 공격 표면을 만들어냈다. 주요 위협 중 하나는 간접 프롬프트 주입으로, 공격자가 외부 환경 출력에 악성 지시를 삽입하여 에이전트가 이를 합법적인 프롬프트로 해석하고 실행하도록 만드는 것이다. 기존 연구는 주로 일반 텍스트 주입 공격에 초점을 맞추었으나, 우리는 구조화된 채팅 템플릿에 대한 LLM의 의존성과 설득력 있는 다중 턴 대화를 통한 맥락 조작에 대한 취약성이라는 중요한 미개척 분야를 발견했다. 이를 위해 우리는 악성 페이로드를 네이티브 채팅 템플릿과 유사하게 포맷하여 모델의 내재적 지시 수행 경향을 악용하는 ChatInject 공격을 소개한다. 이를 기반으로, 대화 턴에 걸쳐 에이전트를 준비시켜 의심스러운 동작을 수용하고 실행하도록 만드는 설득 기반 다중 턴 변종을 개발한다. 최신 LLM을 대상으로 한 포괄적인 실험을 통해 세 가지 중요한 결과를 도출했다: (1) ChatInject는 전통적인 프롬프트 주입 방법보다 평균 공격 성공률이 크게 높아, AgentDojo에서 5.18%에서 32.05%로, InjecAgent에서 15.13%에서 45.90%로 향상되었으며, 특히 InjecAgent에서 다중 턴 대화가 평균 52.33%의 성공률을 보였다. (2) 채팅 템플릿 기반 페이로드는 모델 간 강력한 전이성을 보이며, 템플릿 구조가 알려지지 않은 폐쇄형 LLM에 대해서도 효과적이다. (3) 기존 프롬프트 기반 방어는 이 공격 접근법, 특히 다중 턴 변종에 대해 대부분 효과가 없다. 이러한 결과는 현재 에이전트 시스템의 취약성을 강조한다.
목표 지향 언어 안내 탐색은 단계별 지시 없이도 에이전트가 미지의 환경에서 지정된 목표까지 탐색할 수 있는 강력한 탐사 능력을 요구합니다. 기존 방법들은 주로 최단 경로 궤적만을 활용하여 탐색 에이전트를 훈련시키는 데 있어 효과적인 탐사 사전 지식이 부족했습니다. 이러한 문제를 해결하기 위해, 우리는 자기 개선 데모(Self-Improving Demonstrations, SID)를 통한 목표 지향 언어 안내 탐색 학습 접근법을 제안합니다. 구체적으로, SID는 환경에서 샘플링된 최단 경로 데이터를 기반으로 초기 에이전트를 학습한 후, 이 에이전트를 활용하여 새로운 탐사 궤적을 생성합니다. 이러한 새로운 롤아웃은 더 강력한 탐사 전략을 가진 데모를 제공하여 더 나은 에이전트를 훈련시키고, 이는 다시 다음 훈련 단계를 위해 더 높은 품질의 에이전트 데모를 생성합니다. 우리는 이 반복적인 자기 개선 파이프라인이 새로운 환경에 쉽게 확장될 수 있으며, 결과적으로 생성된 데모가 다양한 언어 안내 탐색 작업 간에 전이될 수 있음을 보여줍니다. 이를 통해 다양한 목표 지향 탐색 작업에서 성능 한계를 높일 수 있습니다. 광범위한 실험을 통해 SID가 탐색 에이전트의 탐사 능력과 일반화 능력을 크게 향상시킴을 입증했습니다. 결과적으로, SID는 REVERIE, SOON을 포함한 목표 지향 언어 안내 탐색 작업에서 새로운 최첨단 성능을 달성했으며, 특히 SOON의 미검증 데이터셋에서 50.9%의 성공률을 기록하여 기존 최고 접근법을 13.9% 차이로 앞섰습니다.
실제 생활에서 직접 편집을 하면서, 사진작가들은 하늘과 파란색을 동시에 보는 것이 너무 어렵다는 것을 발견했습니다. 사진작가이자 큐레이터인 스자르코프스키는 일반적인 시각적 이해와 미학적 시각적 이해 사이의 주목할 만한 차이점을 통찰력 있게 드러냈습니다: 전자는 이미지에서 사실적 요소(하늘)를 식별하는 데 초점을 맞추는 반면, 후자는 그러한 객체 식별을 초월하여 이를 미학적 구성 요소—순수한 색상 블록(파란색)—로 바라봅니다. 일반적인(탐지, 위치 지정 등) 시각적 이해와 미학적(색상, 조명, 구성 등) 시각적 이해 사이의 이러한 근본적인 차이는 다중 모드 대형 언어 모델(MLLMs)에게 상당한 도전 과제를 제시합니다. 최근 몇몇 연구들이 초기 탐구를 시도했지만, 이들은 종종 일반적이고 기본적인 미학적 상식에 국한되어 있습니다. 결과적으로, 이들은 실제 시나리오(그림 1)에서 자주 부족함을 보이는데, 이러한 시나리오는 사진 기술, 사진 전/후 처리 지식 등을 포함한 광범위한 전문 지식을 요구하며, 이를 통해 상세한 분석과 설명을 제공해야 합니다. MLLMs의 미학적 이해를 근본적으로 향상시키기 위해, 우리는 먼저 전문 사진작가와 애호가들 간의 광범위한 토론에서 도출된 대규모, 전문성, 다양성을 특징으로 하는 새로운 데이터셋인 PhotoCritique를 소개합니다. 그런 다음, PhotoCritique에서 시각적 미학을 더 잘 학습하기 위해, 우리는 다중 관점에서 이미지 미학을 이해하기 위한 언어-가이드 다중 시각 융합 메커니즘을 특징으로 하는 새로운 모델인 PhotoEye를 제안합니다. 마지막으로, 우리는 미학적 시각적 이해를 위한 포괄적이고 전문적인 벤치마크인 PhotoBench를 제시합니다. 기존 벤치마크와 PhotoBench에서, 우리의 모델은 기존 모델들에 비해 명확한 우위를 보여줍니다.
확장성은 최근 생성 모델링의 발전을 이끌어왔지만, 적대적 학습에 대한 그 원칙은 아직 충분히 탐구되지 않았습니다. 우리는 생성적 적대 신경망(GANs)의 확장성을 두 가지 설계 선택을 통해 조사합니다. 이 선택들은 다른 유형의 생성 모델에서 효과적임이 입증된 바 있습니다: 컴팩트한 변분 오토인코더 잠재 공간에서의 학습과 순수 트랜스포머 기반 생성기 및 판별기의 채택입니다. 잠재 공간에서의 학습은 지각적 충실도를 유지하면서도 효율적인 계산을 가능하게 하며, 이러한 효율성은 계산 예산에 따라 성능이 확장되는 평범한 트랜스포머와 자연스럽게 결합됩니다. 이러한 선택을 바탕으로, 우리는 GANs를 단순히 확장할 때 발생하는 실패 모드를 분석합니다. 특히, 생성기의 초기 층의 활용 부족과 네트워크 확장 시 최적화 불안정성 문제를 발견했습니다. 이에 따라, 우리는 경량 중간 감독과 너비 인식 학습률 조정과 같은 간단하고 확장에 친화적인 해결책을 제시합니다. 우리의 실험은 순수 트랜스포머 기반 및 잠재 공간 GANs인 GAT가 다양한 용량(S부터 XL까지)에 걸쳐 쉽고 안정적으로 학습될 수 있음을 보여줍니다. 더 나아가, GAT-XL/2는 ImageNet-256에서 단일 단계, 클래스 조건부 생성 성능(FID 2.96)에서 최첨단 성능을 달성하며, 이는 강력한 기준선보다 6배 적은 40 에포크만에 이루어졌습니다.
테스트 주도 개발(TDD)은 개발자가 코드 구현과 함께 테스트를 작성하고 실행하도록 요구함으로써 소프트웨어 동작이 지속적으로 검증되고 개선되도록 하는 널리 채택된 소프트웨어 엔지니어링 실천법입니다. 개발자가 고수준의 의도를 명시하여 코드 작성 작업을 대형 언어 모델(LLM)에 점점 더 위임하는 '바이브 코딩' 시대에 TDD는 더욱 중요해졌는데, 이는 테스트 케이스가 자연어 설명과 코드 컨텍스트가 전달할 수 있는 범위를 넘어 의도된 기능을 명시적으로 정의하고 검증하는 실행 가능한 명세 역할을 하기 때문입니다. TDD 하에서의 바이브 코딩은 유망하지만, 세 가지 주요 과제가 있습니다: (1) 생성 정확도를 높이고 실행 작업량을 통제하기 위해 작으면서도 효과적인 테스트 스위트를 선택하는 것, (2) 관련 코드와 같은 컨텍스트를 효과적으로 검색하는 것, (3) 테스트 피드백을 체계적으로 활용하여 코드를 효과적으로 개선하는 것입니다. 이러한 과제를 해결하기 위해, 우리는 TDD 설정 하에서 복잡한 실제 저장소에서 함수를 생성하기 위한 LLM 에이전트인 TENET을 소개합니다. TENET은 세 가지 구성 요소를 특징으로 합니다: (1) 대상 사용 시나리오의 다양성을 극대화하기 위해 간결한 테스트 스위트를 선택하는 새로운 테스트 하네스 메커니즘, (2) 인터랙티브 디버깅과 함께 관련 코드를 효율적으로 검색하는 맞춤형 에이전트 도구셋, (3) 실패를 반복적으로 분석하고 컨텍스트를 보충하며 코드 개선을 적용하는 리플렉션 기반 개선 워크플로우입니다. TENET은 RepoCod와 RepoEval 벤치마크에서 각각 69.08%와 81.77%의 Pass@1을 달성하며, 최고의 에이전트 기반 베이스라인을 각각 9.49와 2.17%포인트 앞섭니다. 또한, 이 연구는 저장소 수준의 컨텍스트를 활용한 테스트 주도 코드 생성에 대한 최초의 연구로서, TDD 설정 하에서 테스트 스위트의 다양한 측면이 LLM 에이전트의 성능에 미치는 영향을 조사합니다.
위키피디아는 전 세계적으로 널리 사용되는 가장 큰 오픈 지식 코퍼스로, 대규모 언어 모델(LLM) 및 검색 강화 생성(RAG) 시스템을 훈련시키는 데 핵심적인 자원으로 활용됩니다. 따라서 그 정확성을 보장하는 것은 매우 중요합니다. 하지만 위키피디아는 얼마나 정확하며, 어떻게 개선할 수 있을까요? 우리는 사실적 부정확성의 특정 유형인 불일치에 초점을 맞추고, 코퍼스 수준의 불일치 탐지 작업을 소개합니다. 우리는 CLAIRE를 제시하는데, 이는 LLM 추론과 검색을 결합하여 잠재적으로 불일치하는 주장과 이를 검토할 수 있는 문맥적 증거를 제시하는 에이전트 시스템입니다. 경험 많은 위키피디아 편집자들을 대상으로 한 사용자 연구에서, 87.5%가 CLAIRE를 사용할 때 더 높은 신뢰도를 보고했으며, 참가자들은 동일한 시간 동안 64.7% 더 많은 불일치를 식별했습니다. CLAIRE와 인간 주석을 결합하여, 우리는 실제 위키피디아 불일치의 첫 번째 벤치마크인 WIKICOLLIDE를 기여합니다. CLAIRE 지원 분석을 통한 무작위 샘플링을 사용하여, 영어 위키피디아 사실의 최소 3.3%가 다른 사실과 모순되며, 이러한 불일치가 FEVEROUS 예제의 7.3%와 AmbigQA 예제의 4.0%로 전파되고 있음을 발견했습니다. 이 데이터셋에서 강력한 베이스라인을 벤치마킹한 결과, 상당한 개선 여지가 있음을 보여줍니다: 가장 성능이 좋은 완전 자동화 시스템은 AUROC가 단 75.1%에 그쳤습니다. 우리의 결과는 모순이 위키피디아의 측정 가능한 구성 요소이며, CLAIRE와 같은 LLM 기반 시스템이 편집자들이 대규모로 지식의 일관성을 개선하는 데 실용적인 도구를 제공할 수 있음을 보여줍니다.
대규모 멀티모달 모델(LMMs)과 클라우드 기반 AI 에이전트의 급속한 발전은 인간-AI 협업을 양방향 멀티모달 상호작용으로 전환하고 있습니다. 그러나 기존 코덱은 여전히 단일 모달, 단방향 통신에 최적화되어 있어 기존의 압축-전송-재구성 파이프라인에서 반복적인 품질 저하가 발생하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 에지 디바이스와 클라우드 AI 에이전트를 연결하는 통합 토큰 기반 멀티모달 상호작용 코딩 프레임워크인 UniMIC를 제안합니다. UniMIC는 원시 픽셀이나 일반 텍스트를 전송하는 대신, 컴팩트한 토큰화된 표현을 통신 매체로 사용하여 LMMs와의 호환성을 유지하면서도 효율적인 저비트레이트 전송을 가능하게 합니다. 압축을 더욱 강화하기 위해, 시나리오별 설계(일반, 마스킹, 텍스트 조건부)를 가진 경량 Transformer 기반 엔트로피 모델은 토큰 간 중복을 효과적으로 최소화합니다. 텍스트-이미지 생성, 텍스트 기반 인페인팅, 아웃페인팅, 시각적 질문 응답에 대한 광범위한 실험을 통해 UniMIC는 상당한 비트레이트 절감을 달성하고, 초저비트레이트(<0.05bpp)에서도 하위 작업 성능을 저하시키지 않으면서 견고함을 유지함을 보여줍니다. 이러한 결과는 UniMIC를 차세대 멀티모달 상호작용 통신을 위한 실용적이고 미래지향적인 패러다임으로 확립합니다.
대형 추론 모델(Large Reasoning Models, LRMs)은 사고의 연쇄(Chain-of-Thought, CoT) 추론을 통해 복잡한 문제 해결에서 뛰어난 능력을 보여왔습니다. 그러나 CoT의 다단계 특성은 기존 언어 모델 정렬을 넘어서는 새로운 안전성 문제를 야기합니다. 우리는 현재의 안전 CoT 튜닝 방법에서 실패 모드를 발견했습니다: 사소한 추론 편차가 사고 과정 전반에 걸쳐 점진적으로 증폭되며, 유해한 순응 또는 과도한 거부로 이어지는 '눈덩이 효과'입니다. 이 효과는 모델이 완벽한 추론 스크립트를 모방하도록 훈련되면서도 스스로 수정하는 법을 배우지 못한 데서 비롯됩니다. 이러한 한계를 해결하기 위해, 우리는 적대적 CoT 튜닝을 통해 모델이 동적으로 스스로 수정하는 법을 가르치는 정렬 패러다임인 AdvChain을 제안합니다. 우리의 방법은 유혹-수정(Temptation-Correction)과 주저-수정(Hesitation-Correction) 샘플을 포함한 데이터셋을 구축하는 것으로, 모델이 유해한 추론 편향과 불필요한 경계에서 회복하는 법을 학습합니다. 광범위한 실험 결과, AdvChain은 탈옥 공격(jailbreak attacks)과 CoT 하이재킹에 대한 견고성을 크게 향상시키면서도 무해한 프롬프트에 대한 과도한 거부를 상당히 줄여, 추론 능력을 저하시키지 않으면서도 우수한 안전성-유용성 균형을 달성했습니다. 우리의 연구는 더 견고하고 신뢰할 수 있는 추론 모델을 구축하기 위한 새로운 방향을 제시합니다.
긴 문서를 간결하게 요약하는 능력은 정보 과부하로 인해 일상생활에서 점점 더 중요해지고 있지만, 일반적으로 스페인어 문서, 특히 법률 분야에서 이러한 요약문이 현저히 부족한 실정입니다. 본 연구에서는 스페인의 'Boletín Oficial del Estado'(BOE, 국가 공보)에서 발췌한 문서로 구성된 BOE-XSUM 데이터셋을 소개합니다. 이 데이터셋은 3,648개의 간결하고 평이한 언어로 작성된 요약문, 원본 텍스트, 그리고 문서 유형 레이블을 포함하고 있습니다. 우리는 BOE-XSUM 데이터셋으로 미세 조정된 중간 규모의 대형 언어 모델(LLM)의 성능을 평가하고, 이를 제로샷 설정에서의 일반 목적 생성 모델과 비교합니다. 결과에 따르면, 미세 조정된 모델이 비전문 모델을 크게 능가하는 것으로 나타났습니다. 특히, 가장 우수한 성능을 보인 모델인 BERTIN GPT-J 6B(32비트 정밀도)는 최고의 제로샷 모델인 DeepSeek-R1에 비해 24%의 성능 향상을 달성했습니다(정확도 41.6% 대 33.5%).
RGB-열화상 데이터 쌍은 시각-열 센서 융합 및 다중 모달 이미지 정렬 및 검색과 같은 중요한 응용 분야를 포함한 교차 모달리티 작업에 있어 핵심적입니다. 그러나 동기화 및 보정된 RGB-열화상 이미지 쌍의 부족은 이러한 분야의 발전에 주요 장애물로 작용하고 있습니다. 이러한 문제를 극복하기 위해 RGB-열화상(RGB-T) 이미지 변환 기술이 대안으로 등장하여, 풍부한 RGB 데이터셋을 활용하여 열화상 이미지를 합성하고 이를 훈련 목적으로 사용할 수 있게 되었습니다. 본 연구에서는 RGB-T 이미지 변환을 위한 적응형 플로우 기반 생성 모델인 ThermalGen을 제안하며, 이는 RGB 이미지 조건화 아키텍처와 스타일 분리 메커니즘을 통합합니다. 대규모 훈련을 지원하기 위해, 우리는 8개의 공개 위성-항공, 항공 및 지상 RGB-T 쌍 데이터셋을 정제하고, 다양한 시간, 센서 유형 및 지리적 지역에서 캡처된 세 가지 새로운 대규모 위성-항공 RGB-T 데이터셋(DJI-day, Bosonplus-day, Bosonplus-night)을 소개합니다. 다중 RGB-T 벤치마크에 걸친 광범위한 평가를 통해 ThermalGen이 기존의 GAN 기반 및 확산 기반 방법과 비교하여 동등하거나 우수한 변환 성능을 달성함을 입증합니다. 우리가 아는 한, ThermalGen은 시점, 센서 특성 및 환경 조건의 상당한 변화를 반영한 열화상 이미지를 합성할 수 있는 최초의 RGB-T 이미지 변환 모델입니다. 프로젝트 페이지: http://xjh19971.github.io/ThermalGen
대규모 언어 모델(LLMs)이 복잡한 추론을 수행하는 방식과 그 실패 메커니즘을 이해하는 것은 해석 가능성 연구에서의 과제입니다. 이를 측정 가능한 기하학적 분석 관점에서 접근하기 위해, 우리는 '추론 매니폴드(Reasoning Manifold)'라는 개념을 정의합니다. 이는 모든 올바르게 추론된 생성물에 해당하는 내부 표현들로 형성된 잠재적 저차원 기하학적 구조로, 모델이 특정 과제를 성공적으로 해결하기 위해 학습한 효과적인 사고 경로의 구현체로 개념화할 수 있습니다. 이 개념을 바탕으로, 우리는 REMA(Reasoning Manifold Analysis) 프레임워크를 구축하여, 오류와 정확한 추론 샘플에 해당하는 내부 모델 표현들의 공간적 관계를 정량적으로 비교함으로써 실패의 원인을 설명합니다. 구체적으로, REMA는 먼저 각 오류 표현의 기하학적 편차를 정량화하기 위해, 정확한 표현들로 형성된 근사 매니폴드에 대한 k-최근접 이웃 거리를 계산하여 통합된 실패 신호를 제공합니다. 그런 다음, 모델의 계층을 가로지르며 이 편차 지표를 추적하고, 정확한 표현들에서의 내부 변동을 기준으로 비교함으로써 이러한 편차가 처음으로 유의미해지는 분기점을 찾아냅니다. 이를 통해 추론 체인이 어디서 벗어나기 시작하는지를 식별합니다. 다양한 언어 및 멀티모달 모델과 과제에 대한 광범위한 실험을 통해, 우리는 추론 매니폴드의 저차원적 특성과 오류 및 정확한 추론 표현 간의 높은 분리 가능성을 입증했습니다. 또한, REMA 프레임워크가 추론 실패의 원인을 분석하는 데 효과적임을 검증했습니다. 이 연구는 추상적인 추론 실패를 표현들의 측정 가능한 기하학적 편차와 연결함으로써, 블랙박스 모델의 내부 계산 과정에 대한 심층적인 이해와 진단을 위한 새로운 방향을 제시합니다.
인간의 이동성을 예측하는 것은 복잡한 장거리 의존성과 다중 스케일 주기적 행동으로 인해 본질적으로 어려운 과제입니다. 이를 해결하기 위해 우리는 RHYTHM(Reasoning with Hierarchical Temporal Tokenization for Human Mobility)이라는 통합 프레임워크를 제안합니다. 이 프레임워크는 대규모 언어 모델(LLM)을 일반적인 시공간 예측기 및 궤적 추론기로 활용합니다. 방법론적으로, RHYTHM은 시간적 토큰화를 사용하여 각 궤적을 일일 세그먼트로 분할하고, 일일 및 주간 의존성을 모두 포착하는 계층적 주의 메커니즘을 통해 이들을 이산 토큰으로 인코딩함으로써 순차 길이를 크게 줄이면서도 주기적 정보를 보존합니다. 또한, 우리는 사전 계산된 프롬프트 임베딩을 궤적 세그먼트 및 예측 대상에 추가하여 토큰 표현을 풍부하게 하고, 이러한 결합된 임베딩을 LLM 백본에 다시 입력함으로써 복잡한 상호 의존성을 포착합니다. 계산적으로, RHYTHM은 사전 훈련된 LLM의 백본을 고정하여 주의 복잡성과 메모리 비용을 줄입니다. 우리는 세 가지 실제 데이터셋을 사용하여 최신 방법들과 비교 평가를 수행했습니다. 특히, RHYTHM은 전체 정확도에서 2.4% 향상, 주말에 5.0% 증가, 그리고 훈련 시간에서 24.6% 감소를 달성했습니다. 코드는 https://github.com/he-h/rhythm에서 공개적으로 이용 가능합니다.
인공지능(AI) 시스템, 특히 대형 언어 모델(LLMs)은 과학적 아이디어 생성과 같은 창의적 작업에 점점 더 많이 활용되고 있으며, 이는 기존 개념적 틀로는 다루지 못한 훈련 데이터의 일반화 형태를 구성합니다. 조합적 일반화(compositional generalization, CG)와 유사하지만, 조합적 창의성(combinatorial creativity, CC)은 개방형 능력입니다. CC의 개방형 특성과 상충되는 고정된 목표에 대한 정확성이나 올바름을 평가하는 대신, 우리는 산출물의 참신성과 유용성의 정도를 평가하기 위한 이론적 틀과 알고리즘적 작업을 제안합니다. 이를 바탕으로 우리는 몇 가지 중요한 실증적 기여를 합니다: (1) LLMs의 창의성에 대한 확장 행태에 대한 첫 번째 통찰을 얻습니다. (2) 고정된 컴퓨팅 예산 내에서 창의적 능력을 위한 최적의 모델 깊이와 폭이 존재함을 발견합니다. (3) LLMs가 새로운 과학적 아이디어를 생성하는 데는 뛰어나지만 그 실현 가능성을 보장하는 데는 어려움을 겪는 아이디어-실행 간극(ideation-execution gap)이 창의성 알고리즘 전반에 특징적인 더 근본적인 참신성-유용성 트레이드오프로 설명될 수 있음을 발견합니다. 중요한 것은, 이 트레이드오프는 규모가 커져도 지속적으로 남아, 현재 형태의 LLMs의 장기적 창의적 잠재력에 의문을 제기합니다. 우리의 개념적 틀과 실증적 발견은 현대 AI 모델의 창의성을 이해하고 개선하는 데 기초를 제공하며, 인간과 기계 지능 간의 격차를 줄이는 데 기여합니다.
본 논문은 BPMN 다이어그램의 자연어 기반 생성 및 편집을 위해 대형 언어 모델(LLM)을 활용한 도구인 BPMN Assistant를 소개합니다. 프로세스 수정의 정확성을 높이기 위해 XML 직접 처리 대신 구조화된 대안으로 특수화된 JSON 기반 표현 방식을 도입했습니다. 프로세스 생성 품질은 그래프 편집 거리(GED)와 상대적 그래프 편집 거리(RGED)를 사용하여 평가했으며, 편집 성능은 이진 성공 지표로 평가했습니다. 결과적으로 JSON과 XML은 생성에서 유사한 유사도 점수를 달성했지만, JSON이 더 높은 신뢰성, 빠른 처리 속도, 그리고 상당히 높은 편집 성공률을 제공함을 확인했습니다. 주요 절충점, 한계점, 그리고 향후 개선 사항에 대해 논의합니다. 구현체는 https://github.com/jtlicardo/bpmn-assistant에서 확인할 수 있습니다.
지난 10년 동안, 컴퓨팅 언어학(Computational Linguistics, CL)과 자연어 처리(Natural Language Processing, NLP)는 특히 트랜스포머 기반 대형 언어 모델(Large Language Models, LLMs)의 등장으로 빠르게 발전해 왔습니다. 이러한 변화는 연구 목표와 우선순위를 어휘 및 의미 자원에서 언어 모델링과 다중모달리티로 전환시켰습니다. 본 연구에서는 이탈리아의 CL 및 NLP 커뮤니티의 연구 동향을 CLiC-it 컨퍼런스에 기여된 논문들을 분석하여 추적합니다. CLiC-it은 이 분야에서 선도적인 이탈리아 컨퍼런스로 간주됩니다. 우리는 CLiC-it 컨퍼런스의 첫 10회(2014년부터 2024년까지)의 논문들을 CLiC-it 코퍼스로 편찬하여, 저자의 출신, 성별, 소속 등 메타데이터와 다양한 주제를 다루는 논문 내용을 포괄적으로 분석합니다. 우리의 목표는 이탈리아 및 국제 연구 커뮤니티에 시간에 따른 새로운 트렌드와 주요 발전에 대한 유용한 통찰력을 제공하여, 이 분야에서 정보에 기반한 결정과 미래 방향을 지원하는 것입니다.
우리는 생애사 추론에서 다중모드 대형 언어 모델(MLLMs)을 평가하고 개선하기 위한 프레임워크인 ADAM(A Diverse Archive of Mankind)을 소개한다. 우리가 아는 한, 이는 사실적 지식의 중요한 측면이면서도 충분히 탐구되지 않은 생애사 영역에서 LLM의 능력을 체계적으로 조사한 첫 번째 연구이다. ADAM의 핵심은 지리, 시간, 직업을 아우르는 400만 명 이상의 개인을 다루는 다국어 및 다중모드 데이터셋인 AdamDB와, 영어 및 모국어로 블룸의 분류체계에 기반한 여섯 가지 추론 수준을 포괄하는 인지 구조화 평가인 AdamBench로 구성된다. 특히 덜 알려진 인물에 대한 환각(hallucination) 문제를 해결하기 위해, 우리는 생애사 맥락에 맞춤화된 검색 증강 생성 시스템인 AdamRAG를 제안한다. 실험 결과, AdamRAG는 오픈소스 모델을 상당히 개선하고, 클로즈드소스 모델에도 소폭의 이점을 제공하며, 하위 수준 추론에서 가장 큰 성과를 보였다. 인기도는 정확도에 강력한 매개 효과를 미쳤으며, 얼굴 이미지를 통한 다중모드 입력은 검색보다 작고 일관성 없는 개선 효과를 보였다. ADAM은 인지적, 문화적, 다중모드적으로 기반을 둔 생애사 평가를 위한 첫 번째 벤치마크와 프레임워크를 확립함으로써, 다국어적이고 정확하며 환각에 강건한 MLLM의 개발을 진전시킨다.
비디오 캡션은 비디오 내의 배우, 객체, 그리고 행동에 대한 간결한 스냅샷을 제공하며, 질문 응답 및 이벤트 위치 지정과 같은 애플리케이션에 유용한 자산으로 활용됩니다. 그러나 비디오 캡션에 대한 인간 주석을 획득하는 것은 비용이 많이 들거나 심지어 비현실적일 수 있으며, 특히 다양한 비디오 도메인을 다룰 때 더욱 그러합니다. 지도 학습 데이터셋으로 훈련된 기존 모델들은 참조 기반 평가 프로토콜에 의존하기 때문에 다양한 도메인에서의 성능 평가에 어려움을 겪습니다. 이러한 프로토콜은 실제 캡션을 필요로 하며, 이는 실제 환경에서의 비디오 평가에는 비현실적인 가정입니다. 이러한 한계를 해결하기 위해, 우리는 실제 캡션을 필요로 하지 않는 참조 없는 평가 프레임워크를 제안하며, 캡션 품질의 정확한 평가를 보장하기 위해 사실적 근거에 초점을 맞춥니다. 우리는 참조 없이 사실적 근거를 바탕으로 한 새로운 캡션 품질 평가 도구인 VC-Inspector를 소개합니다. 대규모 언어 모델을 활용하여 지도 데이터를 기반으로 다양한 품질의 가짜 캡션을 생성하고, 이를 통해 다중 모달 모델(예: Qwen2.5-VL)을 평가자로 훈련시킵니다. 우리의 접근 방식은 VATEX-Eval 데이터셋에서 인간의 판단과 더 높은 일치도를 보이며, 기존 방법들을 능가합니다. 또한, 이미지를 1프레임 비디오로 간주할 때 Flickr8K-Expert 및 Flickr8K-CF와 같은 이미지 캡션 데이터셋에서도 일반화된 성능을 보입니다. 전반적으로, VC-Inspector는 비디오 캡션의 사실적 정확성을 평가하기 위한 확장 가능하고 일반화 가능한 솔루션을 제공하며, 다양한 비디오 도메인에서 더 효과적이고 객관적인 평가 방법론을 위한 길을 열어줍니다.
정확하고 보정된 신뢰도 추정치를 생성하는 것은 LLM(Large Language Model)을 고위험 또는 사용자 대면 애플리케이션에 배포하는 데 있어 핵심적이며, 여전히 해결되지 않은 과제로 남아 있다. 기존 연구에서는 신뢰도를 모델의 "자기 지식"을 이끌어내는 문제로 간주해 왔는데, 이는 LLM이 자신의 답변이 정확한지를 판단할 수 있는 능력을 의미한다. 이러한 접근은 모델 자체가 답변의 정확성에 대한 특권적인 정보에 접근할 수 있다는 암묵적인 가정에 기반을 두고 있다. 그러나 우리의 실험 결과에 따르면, LLM이 자신의 출력의 정확성을 예측하려고 시도할 때 일반적으로 관련 없는 다른 LLM보다 더 나은 성능을 보이지 않는다. 더 나아가, 우리는 "정확성 모델"(Correctness Model, CM)을 구축하는 데 있어 핵심적인 요소가 대상 모델의 과거 예측에 대한 노출이라고 가정한다. 우리는 이러한 과거 정확성 정보를 주입하는 여러 방법을 제안하여 일반화된 정확성 모델(Generalized Correctness Model, GCM)을 생성한다. 먼저, GCM이 여러 LLM의 정확성 데이터를 기반으로 훈련될 수 있으며, 데이터셋과 모델에 걸쳐 적용 가능한 정확성 예측 패턴을 학습할 수 있음을 보여준다. 그런 다음, CM을 통해 정확성 예측 능력의 원천과 그 일반화를 연구하는 데 초점을 맞추며, 훈련 데이터를 체계적으로 통제한 결과 답변의 표현 방식이 정확성을 예측하는 강력한 지표임을 발견한다. 또한, LLM을 훈련하지 않고도 역사를 주입하는 대체 방법을 탐구하며, 역사를 문맥 내 예시로 포함하는 것이 정확성 예측을 개선하는 데 도움이 될 수 있고, 사후 보정이 보정 오류를 상호 보완적으로 줄일 수 있음을 확인한다. 우리는 Qwen3-8B를 기반으로 한 GCM을 5개의 모델 패밀리와 MMLU 및 TriviaQA 데이터셋에서 평가하고, 하류 선택적 예측 작업에서도 평가하여, 신뢰할 수 있는 LLM 신뢰도 추정이 자기 성찰에 의존하는 모델 특정 기술이 아니라 체계적으로 정확성 역사를 인코딩하여 학습된 일반화 가능하고 모델에 구애받지 않는 기술임을 발견한다.
확률적 최적 제어를 활용한 강화 학습은 확산 미세 조정을 위한 유망한 프레임워크를 제공하며, 여기서 사전 훈련된 확산 모델은 보상 기울어진 분포로 이어지는 경로를 생성하도록 최적화됩니다. 이러한 접근 방식은 최적 분포로부터의 명시적 샘플에 접근하지 않고도 최적화를 가능하게 하지만, 현재 미세 조정된 모델 하에서의 롤아웃에 대한 훈련이 필요하여 낮은 보상을 초래하는 차선의 궤적을 강화할 가능성이 있습니다. 이러한 문제를 극복하기 위해, 우리는 이산 확산을 위한 트리 탐색 기반 궤적 인식 미세 조정 프레임워크인 TR2-D2를 소개합니다. 이는 트리 탐색을 통해 보안 가이드 이산 확산 궤적을 최적화하고, 궤적 인식 미세 조정을 위한 재생 버퍼를 구축합니다. 이러한 버퍼는 몬테카를로 트리 탐색(MCTS)을 사용하여 생성되며, 이후 확률적 최적 제어 목표 하에서 사전 훈련된 이산 확산 모델을 미세 조정하는 데 사용됩니다. 우리는 생물학적 시퀀스 확산 모델의 단일 및 다중 목표 미세 조정에서 이 프레임워크를 검증하며, 이산 시퀀스 생성에서 신뢰할 수 있는 보안 가이드 미세 조정을 위한 TR2-D2의 전반적인 효과를 강조합니다.