번역이 포함된 일일 선별된 AI 연구 논문
데이터 준비는 원시 데이터셋의 잡음을 제거하고, 데이터셋 간 관계를 규명하며, 유의미한 통찰을 추출하는 것을 목표로 하며, 다양한 데이터 중심 애플리케이션에 필수적입니다. (i) 애널리틱스, 시각화, 의사 결정 등 애플리케이션 활용 가능한 데이터에 대한 수요 증가, (ii) 점점 더 강력해지는 대규모 언어 모델(LLM) 기술, (iii) Databricks Unity Catalog와 같이 유연한 에이전트 구축을 용이하게 하는 인프라의 출현에 힘입어, LLM 강화 방법론은 데이터 준비 분야의 변혁적이고 잠재적으로 주도적인 패러다임으로 빠르게 부상하고 있습니다. 본 논문은 수백 편의 최신 문헌을 조사하여 다양한 하류 작업을 위한 데이터 준비에 LLM 기술을 활용하는 이 진화하는 영역에 대한 체계적인 고찰을 제시합니다. 먼저, 규칙 기반, 모델 특화 파이프라인에서 프롬프트 주도, 상황 인식, 에이전트 기반 준비 워크플로우로의 근본적인 패러다임 전환을 규명합니다. 다음으로, 해당 분야를 데이터 정제(표준화, 오류 처리, 결측치 대체 등), 데이터 통합(엔터티 매칭, 스키마 매칭 등), 데이터 강화(데이터 주석 생성, 프로파일링 등)라는 세 가지 주요 작업으로 구성하는 작업 중심 분류 체계를 소개합니다. 각 작업에 대해 대표적인 기법을 검토하고, 각각의 강점(향상된 일반화 능력, 의미론적 이해 등)과 한계(LLM 확장의 과도한 비용, 고급 에이전트에서도 지속되는 환각 현상, 고급 방법론과 취약한 평가 간의 괴리)을 부각합니다. 나아가 일반적으로 사용되는 데이터셋과 평가 지표(실증적 부분)를 분석합니다. 마지막으로, 열린 연구 과제를 논의하고 확장 가능한 LLM-데이터 시스템, 신뢰할 수 있는 에이전트 워크플로우를 위한 원칙적 설계, 강건한 평가 프로토콜을 강조하는 미래 지향적인 로드맵을 제시합니다.
최근 대규모 언어 모델(LLM) 역량의 최전선은 단일 회차 코드 생성에서 에이전트형 소프트웨어 엔지니어링, 즉 모델이 복잡한 저장소를 자율적으로 탐색, 편집, 테스트하는 패러다임으로 이동했습니다. 사후 훈련 방법이 코드 에이전트의 사실상 표준 접근법이 되었지만, **에이전트형 중간 훈련**—진정한 에이전트 워크플로를 반영한 대규모 데이터에 대한 중간 훈련(MT)—은 확장성 있는 방식으로 기초적인 에이전트 행동을 함양할 수 있는 길을 제공함에도 불구하고, 상당한 자원 요구 사항으로 인해 여전히 심각하게 탐구되지 않고 있습니다. 효과적인 에이전트형 중간 훈련을 실현하는 데 있어 핵심적인 과제는 정적 훈련 데이터와 실제 개발의 동적이며 피드백이 풍부한 환경 간의 분포 불일치입니다. 이를 해결하기 위해 우리는 에이전트형 중간 훈련에 대한 체계적인 연구를 제시하며, 대규모 효과적 에이전트 개발을 위한 데이터 합성 원칙과 훈련 방법론을 정립합니다. 우리 접근법의 핵심은 **에이전트 네이티브 데이터**—두 가지 상호 보완적인 유형의 궤적으로 구성된 지도 학습입니다: 에이전트가 경험하는 완전한 정보 흐름을 보존하여 광범위한 커버리지와 다양성을 제공하는 **맥락적 네이티브 궤적**과, 실제 도구 호출 및 테스트 실행에서 비롯된 관측치를 제공하여 깊이와 상호작용의 진정성을 보장하는 실행 가능한 저장소에서 수집된 **환경적 네이티브 궤적**. 우리는 `SWE-Bench Verified`에서 모델의 에이전트 역량을 검증합니다. 우리는 정렬된 기본 모델과 에이전트 스캐폴드를 사용하는 두 가지 사후 훈련 설정 하에서 기존의 오픈 소스 소프트웨어 엔지니어링 중간 훈련 레시피인 `Kimi-Dev` 대비 우월성을 입증하며, 중간 훈련 토큰 수를 절반 미만(73.1B)으로 사용합니다. 상대적 우위 외에도, 우리의 최고 성능 32B 및 72B 모델은 각각 **56.1%** 및 **58.5%** 의 해결율을 달성하며, 이는 ...
최근 동영상 생성 기술의 발전으로 간단한 텍스트 프롬프트만으로도 놀라운 시각적 콘텐츠를 합성하는 모델이 등장했습니다. 그러나 이러한 모델들은 대화와 같은 높은 수준의 개념으로부터 장편의 일관된 서사를 생성하는 데 어려움을 겪으며, 창의적 아이디어와 영화적 실행 사이에 '의미론적 격차'가 존재함을 보여줍니다. 이러한 격차를 해소하기 위해, 우리는 대화에서 영화적 동영상 생성을 위한 새로운 종단 간 에이전트 프레임워크를 소개합니다. 우리 프레임워크의 핵심은 대략적인 대화를 세밀하게 실행 가능한 시나리오로 변환하도록 훈련된 ScripterAgent 모델입니다. 이를 위해 우리는 전문가 주도 파이프라인을 통해 주석이 달린 풍부한 다중 모달 컨텍스트를 가진 새로운 대규모 벤치마크인 ScriptBench를 구축했습니다. 생성된 시나리오는 최첨단 동영상 모델들을 장기간 일관성을 보장하는 장면 간 연속 생성 전략을 사용하여 조정하는 DirectorAgent를 안내합니다. AI 기반 CriticAgent와 새로운 Visual-Script Alignment(VSA) 메트릭을 포함한 포괄적인 평가를 통해, 우리의 프레임워크가 모든 테스트된 동영상 모델에서 시나리오 충실도와 시간적 정확도를 크게 향상시킴을 확인했습니다. 나아가, 우리의 분석은 현재 최첨단 모델들이 시각적 스펙터클과 엄격한 시나리오 준수 사이에서 중요한 트레이드오프 관계에 있음을 밝혀 자동화된 영화 제작의 미래를 위한 유용한 통찰을 제공합니다.
합성 데이터가 텍스트 영역에서 과학적 추론 향상에 효과적임이 입증되었지만, 다중모달 추론은 과학적으로 엄밀한 이미지 합성의 어려움으로 인해 여전히 제약을 받고 있습니다. 기존 텍스트-이미지(T2I) 모델들은 시각적으로 그럴듯하지만 과학적으로 부정확한 결과물을 자주 생성하여, 하위 추론 작업의 가치를 제한하는 지속적인 시각-논리 괴리를 초래합니다. 차세대 T2I 모델의 최근 발전에 고무되어, 우리는 생성 패러다임, 평가, 하위 활용을 아우르는 과학적 이미지 합성에 대한 체계적인 연구를 수행합니다. 우리는 직접 픽셀 기반 생성과 프로그램적 합성 모두를 분석하고, 구조적 정밀도를 향상시키기 위해 명시적인 "이해-계획-코딩" 워크플로우를 따르는 논리 주도 프레임워크인 ImgCoder를 제안합니다. 과학적 정확성을 엄격하게 평가하기 위해, 생성된 이미지를 정보 유용성과 논리적 타당성에 기반하여 평가하는 SciGenBench를 도입합니다. 우리의 평가는 픽셀 기반 모델들의 체계적인 실패 모드를 드러내고 표현력과 정밀도 사이의 근본적인 상충 관계를 부각합니다. 마지막으로, 엄격하게 검증된 합성 과학 이미지로 대규모 다중모달 모델(LMM)을 미세 조정하면 일관된 추론 향상을 얻을 수 있으며, 텍스트 영역과 유사한 확장 경향을 보여 잠재적인 가능성을 확인함으로써, 고충실도 과학적 합성이 대규모 다중모달 추론 능력을 개척하는 실현 가능한 경로임을 입증합니다.
모델이 자기 자신의 학습 정체기를 극복하도록 학습할 수 있을까? 낮은 초기 성공률, 즉 적은 훈련 신호를 보유한 데이터셋에서는 대형 추론 모델을 미세 조정하는 강화 학습 방법이 정체되곤 한다. 우리는 근본적인 질문을 탐구한다: 사전 학습된 LLM이 해결하지 못하는 문제에 대한 자동화된 커리큘럼을 생성하기 위해 잠재 지식을 활용할 수 있을까? 이를 탐구하기 위해 우리는 SOAR를 설계했다: 메타 강화 학습을 통해 이러한 교육적 신호를 표면화하도록 설계된 자기 개선 프레임워크이다. 모델의 교사 복사본이 학생 복사본을 위해 합성 문제를 제안하고, 소규모의 어려운 문제 하위 집합에 대한 학생의 향상된 성능으로 보상을 받는다. 중요한 것은, SOAR가 커리큘럼을 내재적 대리 보상이 아닌 측정된 학생의 진도에 기반을 둔다는 점이다. 수학적 벤치마크의 가장 어려운 하위 집합(초기 성공률 0/128)에 대한 우리의 연구는 세 가지 핵심 결과를 보여준다. 첫째, 유용한 디딤돌을 생성하는 사전 학습된 모델의 잠재 능력을 극대화함으로써, 희소하고 이진적인 보상 환경에서도 학습을 가능하게 하는 이중 수준 메타 강화 학습을 실현할 수 있음을 보여준다. 둘째, 실제 진도에 기반한 보상이 기존 LLM 자기 대전에서 사용되던 내재적 보상 체계를 능가하며, 일반적으로 나타나는 불안정성과 다양성 붕괴 모드를 안정적으로 회피한다. 셋째, 생성된 질문을 분석한 결과, 학습 진도에 있어 해답의 정확성보다 구조적 질문의 질과 명확성이 더 중요함을 확인했다. 우리의 결과는 유용한 디딤돌을 생성하는 능력이 실제로 어려운 문제를 해결할 수 있는 기존 능력을 필요로 하지 않음을 시사하며, 추가로 정제된 데이터 없이도 추론 정체기를 벗어날 수 있는 원칙적인 경로를 제시한다.
표준 어텐션 메커니즘의 2차 복잡도는 장문맥 시나리오에서 대규모 언어 모델(LLM)의 확장성에 심각한 병목 현상을 야기합니다. 단일 모델 내에서 희소 어텐션과 전체 어텐션을 결합하는 하이브리드 어텐션 전략은 실용적인 해결책을 제공하지만, 일반적으로 정적 계산 비율(즉, 희소 대 전체 어텐션의 고정된 비율)을 사용하며 추론 시 하위 작업의 다양한 희소성 민감도에 적응하지 못합니다. 이러한 문제를 해결하기 위해 우리는 모델이 입력에 따라 전체 희소도를 동적으로 조절할 수 있는 Elastic Attention을 제안합니다. 이는 기존 사전 훈련된 모델에 경량의 Attention Router를 통합하여 각 어텐션 헤드를 다양한 계산 모드에 동적으로 할당함으로써 구현됩니다. 8xA800 GPU에서 단 12시간의 학습만으로 우리의 방법은 모델이 강력한 성능과 효율적인 추론을 동시에 달성하도록 합니다. 널리 사용되는 LLM에 대한 세 가지 장문맥 벤치마크에서의 실험을 통해 우리 방법의 우수성을 입증합니다.
이미지 생성 분야는 현재 이산 토큰을 활용하는 자기회귀(AR) 모델과 연속 잠재 변수를 활용하는 확산 모델로 양분되어 있습니다. VQ-VAE와 VAE의 차이에서 비롯된 이러한 분리는 통합 모델링과 공정한 벤치마킹을 저해합니다. 유한 스칼라 양자화(FSQ)는 이론적 가교 역할을 하지만, 기본 FSQ는 동일 간격 양자화로 인한 활성화 붕괴라는 치명적 결함을 지닙니다. 이러한 불일치는 복원 충실도와 정보 효율성 사이의 트레이드오프를 강요합니다. 본 연구에서는 기존 FSQ의 활성화 함수를 균일 사전 분포를 강제하는 분포 정렬 매핑으로 간단히 대체하여 이 딜레마를 해결합니다. iFSQ로 명명된 이 단순한 전략은 단 한 줄의 코드 변경만으로도 수학적으로 최적의 빈 활용도와 복원 정밀도를 동시에 보장합니다. iFSQ를 통제된 벤치마크로 활용하여 두 가지 핵심 통찰을 도출했습니다: (1) 이산 표현과 연속 표현 사이의 최적 균형점은 차원당 약 4비트에 위치합니다. (2) 동일한 복원 제약 조건 하에서 AR 모델은 초기 수렴 속도가 빠른 반면, 확산 모델은 더 높은 성능 한계에 도달하며, 이는 엄격한 순차적 배열이 생성 품질의 상한을 제한할 수 있음을 시사합니다. 마지막으로 표현 정렬(REPA)을 AR 모델에 적용하여 LlamaGen-REPA를 개발함으로써 분석을 확장했습니다. 코드는 https://github.com/Tencent-Hunyuan/iFSQ에서 확인할 수 있습니다.
현대 비디오 생성기는 여전히 복잡한 물리 역학을 구현하는 데 어려움을 겪으며, 물리적 현실감을 충분히 구현하지 못하는 경우가 많습니다. 기존 접근법은 외부 검증기나 증강 데이터에 대한 추가 학습을 사용하여 이 문제를 해결하지만, 이는 계산 비용이 많이 들고 세밀한 운동을 포착하는 데 여전히 한계가 있습니다. 본 연구에서는 대규모 데이터셋으로 사전 학습된 비디오 생성기를 자체 정제기로 활용하는 간단한 방법인 자기 정제 비디오 샘플링을 제안합니다. 생성기를 잡음 제거 자동인코더로 해석함으로써 추론 시점에 외부 검증기나 추가 학습 없이 반복적인 내부 순환 정제가 가능합니다. 또한 자기 일관성을 기반으로 영역을 선택적으로 정제하는 불확실성 인식 정제 전략을 도입하여 과도한 정제로 인한 아티팩트를 방지합니다. 최첨단 비디오 생성기에 대한 실험 결과, 운동 일관성과 물리 법칙 부합도에서 현저한 향상을 보였으며, 기본 샘플러 및 지도 기반 샘플러 대비 70% 이상의 인간 선호도를 달성했습니다.
에이전트 평가가 장기적 과제로 전환되고 있음에도 불구하고, 대부분의 벤치마크는 여전히 진정한 계획 능력을 요구하는 전역적 제약 최적화(예: 시간 및 재정 예산)보다는 지역적, 단계별 추론을 강조하고 있습니다. 한편 기존 LLM 계획 벤치마크는 실제 환경에서 일반적으로 나타나는 능동적 정보 수집과 세분화된 지역적 제약 조건을 충분히 반영하지 못하고 있습니다. 이를 해결하기 위해 우리는 실용적인 장기적 에이전트 계획을 위한 도전적인 벤치마크인 DeepPlanning을 소개합니다. DeepPlanning은 능동적 정보 획득, 지역적 제약 추론, 전역적 제약 최적화가 필요한 며칠 간의 여행 계획 및 다중 상품 구매 과제를 특징으로 합니다. DeepPlanning에 대한 평가 결과, 최첨단 에이전트 LLM조차도 이러한 문제에 어려움을 겪는 것으로 나타나며, 이는 더 나은 효과성-효율성 균형을 달성하기 위해 신뢰할 수 있는 명시적 추론 패턴과 병렬 도구 사용의 중요성을 강조합니다. 오류 분석은 또한 장기 계획 범위에서 에이전트 LLM을 개선하기 위한 유망한 방향을 제시합니다. 향후 연구를 지원하기 위해 코드와 데이터를 오픈소스로 공개합니다.
공간 시각 인지는 자율 주행 및 로봇 매니픽레이션과 같은 실제 세계 응용 분야에서 3D 환경과 상호작용해야 할 필요성에 따라 필수적인 요구사항입니다. RGB-D 카메라를 사용하여 픽셀 정렬된 계측 깊이를 획득하는 것이 가장 실현 가능한 방법이지만, 이는 일반적으로 하드웨어적 한계와 특히 반사 표면이나 무늬가 없는 표면이 존재할 때의 까다로운成像 조건으로 인한 장애에 직면합니다. 본 연구에서는 깊이 센서의 부정확성을 근본적인 기하학적 모호성을 내재적으로 반영하는 "가려진" 신호로 볼 수 있다고 주장합니다. 이러한 동기를 바탕으로, 우리는 시각적 문맥을 활용하여 가려진 깊이 모델링을 통해 깊이 맵을 정제하고 확장 가능한 학습을 위한 자동화된 데이터 큐레이션 파이프라인을 통합한 깊이 완성 모델인 LingBot-Depth를 제안합니다. 우리 모델이 깊이 정밀도와 픽셀 커버리지 측면에서 최상위 RGB-D 카메라를 능가한다는 사실은 고무적입니다. 다양한 다운스트림 작업에 대한 실험 결과는 LingBot-Depth가 RGB와 깊이 양 모달리티에 걸쳐 정렬된 잠재 표현을 제공함을 추가로 시사합니다. 우리는 공간 인지 커뮤니티에 코드, 체크포인트 및 3M개의 RGB-깊이 쌍(실제 데이터 2M, 시뮬레이션 데이터 1M 포함)을 공개합니다.
본 보고서는 VibeVoice를 기반으로 구축된 범용 음성 이해 프레임워크인 VibeVoice-ASR을 소개한다. 이 프레임워크는 단기 음성 인식의 최근 발전에도 불구하고 여전히 해결되지 않은 장시간 오디오(회의, 팟캐스트 등)의 맥락 단편화 및 다중 화자 복잡성 문제를 해결하기 위해 설계되었다. 오디오 청킹에 의존하는 기존의 파이프라인 방식과 달리, VibeVoice-ASR은 최대 60분 오디오에 대한 단일 패스 처리를 지원한다. 이는 자동 음성 인식, 화자 분할, 타임스탬프 생성을 단일 종단 간 생성 작업으로 통합한다. 또한 VibeVoice-ASR은 50개 이상의 언어를 지원하며 명시적인 언어 설정이 필요 없고, 발화 내 및 발화 간 코드 전환을 기본적으로 처리한다. 나아가, 사용자가 맞춤형 맥락을 제공하여 도메인 특화 용어의 정확도와 다의어 문자 디스엠비귤레이션을 크게 향상시키는 프롬프트 기반 맥락 주입 메커니즘을 도입하였다.
스마트 글래스와 같은 종일 wearable 디바이스의 등장으로 구현된 상시 활성화 개인 AI 어시스턴트는 단편적이고 고립된 사건을 넘어 연속적이고 장기적인 에고센트릭 비디오 스트림을 포괄하는 새로운 수준의 상황 이해를 요구합니다. 이러한 비전을 실현하기 위해서는 시스템이 수일 또는 수주에 걸친 시각 및 청각 정보를 해석하고 기억해야 하는 장기간 비디오 이해 기술의 발전이 필요합니다. 대규모 언어 모델 및 검색 증강 생성과 같은 기존 방법론들은 제한된 컨텍스트 윈도우로 인해 매우 긴 비디오 스트림에 대한 구성적, 다중 홉 추론을 수행할 능력이 부족합니다. 본 연구에서는 시간에 따른 사람, 장소, 객체 및 그 관계를 표현하는 엔티티 장면 그래프를 중심으로 한 강화된 에이전트 프레임워크인 EGAgent를 통해 이러한 과제를 해결합니다. 본 시스템은 계획 에이전트에 이러한 그래프에 대한 구조화된 검색 및 추론 도구와 하이브리드 시각/음성 검색 기능을 제공하여 세부적이고 크로스 모달적이며 시간적으로 일관된 추론을 가능하게 합니다. EgoLifeQA 및 Video-MME(Long) 데이터셋에 대한 실험 결과, 본 방법론이 복잡한 장기 비디오 이해 과제에서 EgoLifeQA(57.5%)에 대해 최첨단 성능을, Video-MME(Long)(74.1%)에 대해 경쟁력 있는 성능을 달성함을 확인했습니다.
범용 임베딩 모델은 텍스트 검색에서는 강력한 성능을 보여주지만, 고도로 구조화된 콘텐츠로 인해 의미론적 압축과 쿼리-테이블 불일치가 발생하는 테이블 검색 분야에서는 여전히 최적의 성능을 내지 못하고 있습니다. 최근 LLM 기반 검색 증강 방법은 합성 쿼리를 생성하여 이 문제를 완화하지만, 휴리스틱한 부분 테이블 선택에 의존하는 경우가 많으며, 이러한 합성 쿼리를 임베딩 모델 개선을 위한 감독 신호로 활용하는 경우는 드뭅니다. 본 연구에서는 LLM 생성 감독 신호를 통해 테이블 검색 성능을 향상시키는 학습 프레임워크인 CGPT를 소개합니다. CGPT는 K-평균 군집화를 통해 테이블 인스턴스를 그룹화하고 다양한 군집에서 샘플링하여 의미론적 다양성이 보장된 부분 테이블을 구성합니다. 이후 LLM을 이용해 이러한 부분 테이블에 대한 합성 쿼리를 생성하며, 이 쿼리들은 하드 네거티브 대조 학습을 통해 임베딩 모델을 정제하는 데 활용됩니다. 4개의 공개 벤치마크(MimoTable, OTTQA, FetaQA, E2E-WTQ)에서 진행된 실험 결과, CGPT는 QGpT를 포함한 기존 검색 기준선들을 꾸준히 능가하며 평균 R@1에서 16.54%의 성능 향상을 보였습니다. 통합 다중 도메인 코퍼스 환경에서 CGPT는 강력한 교차 도메인 일반화 능력을 추가로 입증했으며, 더 작은 LLM을 사용하여 합성 쿼리를 생성하는 경우에도 효과를 유지했습니다. 이러한 결과는 의미론적으로 지도된 부분 테이블 구성과 LLM 생성 감독 신호에 기반한 대조 학습이 대규모 테이블 검색을 위한 효과적이고 확장 가능한 패러다임을 제공함을 시사합니다. 코드는 https://github.com/yumeow0122/CGPT에서 확인할 수 있습니다.
실세계의 인식과 상호작용은 본질적으로 다중 모달적이며, 언어뿐만 아니라 시각과 음성도 포함합니다. 이는 다중 모달 입력과 다중 모달 출력을 모두 지원하는 "Omni" MLLM의 개발 동기가 됩니다. 일련의 Omni MLLM이 등장했지만, 대부분의 기존 시스템은 여전히 다중 모달 생성을 위해 추가적인 전문가 구성 요소에 의존하여 통합 학습 및 추론의 단순성을 제한하고 있습니다. 단일 토큰 스트림, 단일 다음 토큰 목표, 단일 디코더를 갖춘 자기회귀(AR) 모델링은 텍스트 영역에서 우아하고 확장 가능한 기초입니다. 이에 동기를 부여받아, 우리는 전문가 디코더 없이 자기회귀 패러다임 내에서 통합된 임의-대-임의(any-to-any) 모델인 AR-Omni를 제시합니다. AR-Omni는 단일 Transformer 디코더 아래에서 자기회귀적 텍스트 및 이미지 생성과 스트리밍 음성 생성을 모두 지원합니다. 우리는 더 나아가 통합 AR 모델링의 세 가지 실용적 문제를 해결합니다: 작업 인식 손실 재가중을 통한 모달 불균형, 이미지 토큰을 위한 경량 토큰 수준 지각 정렬 손실을 통한 시각적 충실도, 유한 상태 디코딩 메커니즘을 통한 안정성-창의성 트레이드오프입니다. 실증적으로 AR-Omni는 음성 생성에서 0.88의 실시간 계수를 달성하며 실시간 성능을 유지하면서 세 가지 모달리티에 걸쳐 강력한 품질을 달성합니다.
시계열 데이터는 현실 세계 시나리오에서 광범위하게 존재하며 에너지 관리부터 교통 제어에 이르기까지 중요한 응용 분야에서 핵심적인 역할을 합니다. 따라서 시계열을 추론하는 능력은 일반ist 모델이 실질적인 문제를 해결하기 위해 필수적으로 갖춰야 할 기초 능력입니다. 그러나 이 차원은 기존 일반ist 모델 벤치마크에서 현저히 부재한 상태입니다. 이러한 격차를 해소하기 위해 우리는 시계열 추론 능력의 전체 스펙트럼을 집중적으로 평가하기 위한 포괄적인 다중 모달 벤치마크인 TSRBench을 소개합니다. TSRBench의 특징은 다음과 같습니다: i) 14개 분야에서 수집된 4,125개의 다양한 문제 세트로, 인지(Perception), 추론(Reasoning), 예측(Prediction), 의사 결정(Decision-Making)이라는 4가지 주요 차원으로 분류됩니다. ii) 4개 차원의 15개 과제를 통해 수치 추론 등 핵심적인 추론 능력을 평가합니다. 광범위한 실험을 통해 TSRBench 내에서 30개 이상의 주요 독점 및 오픈소스 LLM, VLM, TSLLM을 평가했습니다. 우리의 연구 결과는 다음과 같이 나타났습니다: i) 규모의 법칙은 인지와 추론 영역에서는 적용되지만 예측 영역에서는 적용되지 않습니다. ii) 강력한 추론 능력이 정확한 상황 인식 예측을 보장하지 않아, 의미론적 이해와 수치적 예측 간의 분리 현상을 시사합니다. iii) 시계열의 텍스트 및 시각적 표현이 입력값으로서 상호 보완적인 특성을 지님에도 불구하고, 현재의 다중 모달 모델들은 상호 성능 향상을 위해 이들을 효과적으로 융합하지 못하고 있습니다. TSRBench은 기존의 도전 과제를 부각시킬 뿐만 아니라 일반ist 모델의 발전을 위한 가치 있는 통찰력을 제공하는 표준화된 평가 플랫폼입니다. 우리의 코드와 데이터 세트는 https://tsrbench.github.io/에서 이용할 수 있습니다.
대규모 영상 생성 모델은 물리적 일관성의 출현을 보여주며 잠재적인 세계 모델로서의 가능성을 입증하고 있습니다. 그러나 현대적인 "상태 비의존적" 비디오 아키텍처와 고전적인 상태 중심 세계 모델 이론 사이에는 여전히 간극이 존재합니다. 본 연구는 '상태 구축'과 '역학 모델링'이라는 두 축을 중심으로 한 새로운 분류 체계를 제안하여 이 간극을 해소하고자 합니다. 상태 구축은 암묵적 패러다임(맥락 관리)과 명시적 패러다임(잠재 공간 압축)으로 분류하며, 역학 모델링은 지식 통합과 아키텍처 재구성을 통해 분석합니다. 더 나아가 평가의 초점을 시각적 충실도에서 기능적 벤치마크로 전환할 것을 제안하며, 물리적 지속성과 인과적 추론 능력을 검증하는 방안을 제시합니다. 마지막으로 데이터 기반 메모리와 압축 충실도를 통한 지속성 향상, 잠재 요인 분리와 추론-사전 정보 통합을 통한 인과성 발전이라는 두 가지 중요한 과제를 제시합니다. 이러한 과제를 해결함으로써 해당 분야는 시각적으로 그럴듯한 영상을 생성하는 수준을 넘어 강건하고 범용적인 세계 시뮬레이터를 구축하는 방향으로 진화할 수 있을 것입니다.
비디오 생성은 세계 모델 구축의 초석이 되며, 여기서 멀티모달 맥락 추론은 능력을 판가름하는 시험으로 작용합니다. 이러한 목표를 위해 우리는 Diffusion Transformer 기반의 통합 멀티모달 인-컨텍스트 학습 프레임워크 위에 구축된 조건부 비디오 생성 모델인 SkyReels-V3를 제안합니다. SkyReels-V3 모델은 단일 아키텍처 내에서 세 가지 핵심 생성 패러다임을 지원합니다: 참조 이미지-비디오 합성, 비디오-비디오 확장, 그리고 오디오 유도 비디오 생성. (i) 참조 이미지-비디오 모델은 강력한 주체 정체성 보존, 시간적 일관성 및 서사적 일관성을 갖춘 고품질 비디오를 생성하도록 설계되었습니다. 참조 준수도와 구성 안정성을 향상시키기 위해 크로스 프레임 페어링, 이미지 편집 및 의미론적 재작성을 활용하는 포괄적인 데이터 처리 파이프라인을 설계하여 복사-붙여넣기 아티팩트를 효과적으로 완화했습니다. 학습 동안에는 다양한 시나리오에서의 일반화 성능과 견고성을 향상시키기 위해 이미지-비디오 하이브리드 전략과 다중 해상도 공동 최적화를 결합하여 적용했습니다. (ii) 비디오 확장 모델은 시공간 일관성 모델링과 대규모 비디오 이해를 통합하여, 단일 샷의 원활한 연속 생성과 전문적인 영화 촬영 기법을 활용한 지능적인 멀티 샷 전환을 모두 가능하게 합니다. (iii) 토킹 아바타 모델은 첫-끝 프레임 삽입 패턴 학습과 키 프레임 추론 패러다임 재구성을 통해 분 단위의 오디오 조건 비디오 생성을 지원합니다. 시각적 품질을 보장하는 것을 기반으로 오디오와 비디오의 동기화가 최적화되었습니다. 광범위한 평가를 통해 SkyReels-V3가 시각적 품질, 지시 따르기, 특정 측면 메트릭 등 주요 평가 지표에서 최첨단 또는 최첨단에 근접한 성능을 달성하여 선도적인 클로즈드 소스 시스템에 버금가는 성과를 보여줍니다. Github: https://github.com/SkyworkAI/SkyReels-V3.
표 검색은 자연어 질의가 주어졌을 때 대규모 코퍼스에서 가장 관련성 높은 표를 검색해내는 과제입니다. 그러나 비정형 텍스트와 정형화된 표 간의 구조적 및 의미론적 차이로 인해 임베딩 정렬이 특히 어려운 과제로 남아있습니다. QGpT와 같은 최근 방법론은 합성 질의를 생성하여 표 의미론을 풍부하게 하려고 시도하지만, 여전히 단순한 부분 표 샘플링과 단순 융합 전략에 의존하여 의미론적 다양성이 제한되고 효과적인 질의-표 정렬을 방해합니다. 본 논문에서는 의미론적 클러스터링과 가중 융합을 통해 표 의미론 표현을 개선하는 경량 프레임워크인 STAR(Semantic Table Representation)를 제안합니다. STAR는 먼저 헤더 인식 K-평균 클러스터링을 적용하여 의미론적으로 유사한 행들을 그룹화하고, 다양한 부분 표를 구성하기 위해 대표적인 중심 인스턴스를 선택합니다. 그런 다음 클러스터 특화 합성 질의를 생성하여 표의 의미론적 공간을 포괄적으로 커버합니다. 마지막으로 STAR는 가중 융합 전략을 사용하여 표와 질의 임베딩을 통합함으로써 세밀한 의미론적 정렬을 가능하게 합니다. 이러한 설계를 통해 STAR는 정형 및 비정형 소스로부터 상호 보완적인 정보를 포착하여 표 표현의 표현력을 향상시킵니다. 5개 벤치마크에 대한 실험 결과, STAR는 모든 데이터셋에서 QGpT 대비 일관적으로 높은 재현율(Recall)을 달성하여 강력한 표 표현을 위한 의미론적 클러스터링과 적응형 가중 융합의 효과성을 입증했습니다. 코드는 https://github.com/adsl135789/STAR에서 확인할 수 있습니다.
범용 LLM 에이전트는 종종 제한된 환경 집합에 대해 사후 훈련을 거친 후 훨씬 더 광범위하고 보지 못한 영역에 배포됩니다. 본 연구에서는 최종 테스트 영역을 알 수 없는 상황에서 에이전트 사후 훈련의 과제를 조사합니다. 구체적으로, 강화 학습(RL) 환경과 모델링 선택의 어떤 특성이 도메인 외 성능에 가장 큰 영향을 미치는지 분석합니다. 먼저, 도메인 간 일반화와 강한 상관관계를 가지는 두 가지 환경 축을 확인했습니다: (i) 상태 정보 풍부성, 즉 에이전트가 상태로부터 처리해야 하는 정보의 양, (ii) 기본 정책 하에서 목표 도달 가능성과 경로 길이를 통해 추정한 계획 복잡성. 특히, 도메인 현실성과 텍스트 수준 유사성은 주요 요인이 아닙니다. 예를 들어, 단순한 그리드 월드 도메인인 소코반은 더 현실적인 ALFWorld보다 SciWorld에서 더 강력한 일반화를 이끌어 냅니다. 이러한 발견에 기반하여, 상태 정보 풍부성만을 증가시키는 것만으로도 도메인 간 강건성을 효과적으로 개선할 수 있음을 추가로 보여줍니다. 우리는 낮은 오버헤드에 널리 적용 가능한 무작위화 기법을 제안합니다: 작업을 변경하지 않고 상태를 더 풍부하게 만들기 위해 작은 양의 주의를 분산시키는 목표와 무관한 특징을 상태에 추가하는 것입니다. 환경 측 특성 외에도 몇 가지 모델링 선택을 검토했습니다: (a) SFT 웜업이나 중간 훈련은 RL 동안 치명적 망각을 방지하는 데 도움이 되지만, 중간 훈련 데이터 믹스에 포함되지 않은 도메인으로의 일반화를 저해합니다; (b) RL 동안 단계별 사고를 활성화하는 것은 인-도메인 성능을 항상 개선하지는 않지만, 일반화를 보존하는 데 중요한 역할을 합니다.
다중 교사 지식 증류를 활용함으로써, 응집적 비전 백본은 여러 교사 모델의 고유한 역량을 유지 및 개선하는 통합 학생 모델을 제공합니다. 본 기술 보고서에서는 AM-RADIO/RADIOv2.5 설계를 기반으로 동일한 계산 복잡도에서 주요 다운스트림 작업에 대한 강력한 성능 향상을 제공하는 C-RADIO 모델 패밀리의 최신 버전인 C-RADIOv4를 설명합니다. 우리는 업데이트된 교사 모델 세트(SigLIP2, DINOv3, SAM3)로 학습된 -SO400M(4억 1,200만 개 매개변수) 및 -H(6억 3,100만 개) 모델 변종을 공개합니다. 핵심 메트릭 개선 및 SAM3 모방을 통한 새로운 역량 외에도, C-RADIOv4 모델 패밀리는 임의 해상도 지원을 더욱 개선하고, 고해상도에서 극적으로 향상된 효율성을 위한 ViTDet 옵션을 다시 도입하였으며, 허용 라이선스를 제공합니다.
다수의 문서에 걸친 추론이 필요한 복잡한 질문에 답하는 것을 목표로 하는 딥 서치 에이전트는 정보 탐색 과정을 크게 가속화할 수 있습니다. 이러한 응용 분야에 대해 긴 탐색 경로로 인해 인간의 주석을 수집하는 것은 비용이 매우 많이 듭니다. 본 연구에서는 주어진 코퍼스와 목표 난이도에 대해 고품질이며 난이도가 조절된 딥 서치 질문-답변 쌍을 자동으로 생성하는 에이전트 기반 파이프라인을 제안합니다. 우리의 파이프라인인 SAGE는 QA 쌍을 제안하는 데이터 생성기와 생성된 질문을 해결하려고 시도하며 데이터 생성기에 실행 피드백을 제공하는 검색 에이전트로 구성됩니다. 두 구성 요소는 여러 차례에 걸쳐 상호작용하며 질문-답변 쌍이 목표 난이도를 충족할 때까지 반복적으로 개선합니다. 내적 평가 결과, SAGE는 다양한 추론 전략을 필요로 하는 질문을 생성하는 동시에 생성된 데이터의 정확성과 난이도를 크게 높이는 것으로 나타났습니다. 외적 평가에서는 우리의 합성 데이터로 딥 서치 에이전트를 훈련시켜 인기 있는 딥 서치 벤치마크에서 최대 23%의 상대적 성능 향상을 입증했습니다. 추가 실험을 통해 우리 데이터로 훈련된 에이전트가 추론 시 고정 코퍼스 검색에서 Google 검색으로 추가 훈련 없이 적응할 수 있음을 보여줍니다.
많은 시각-언어-행동(VLA) 모델은 이미지 패치를 1D 토큰 시퀀스로 평탄화하여 정밀한 조작에 필요한 2D 공간적 단서를 약화시킵니다. 우리는 외부 인코더나 재학습 없이 모델 내장 시각 인코더에서 이미 사용 가능한 친화도 힌트를 활용하여 공간 이해를 향상시키는 경량의 학습 불필요 방법인 IVRA를 소개합니다. IVRA는 인스턴스 수준 특징이 존재하는 언어 모델 계층에 이러한 친화도 신호를 선택적으로 주입합니다. 이러한 추론 시점 개입은 모든 모델 매개변수를 고정한 상태에서 시각-토큰 상호작용을 재조정하고 기하학적 구조를 더 잘 보존합니다. 우리는 다양한 VLA 아키텍처(LLaRA, OpenVLA, FLOWER)에 IVRA를 적용하고 2D 및 3D 조작(VIMA 및 LIBERO)을 아우르는 시뮬레이션 벤치마크와 다양한 실제 로봇 과제에서 IVRA의 일반성을 입증합니다. 2D VIMA에서 IVRA는 낮은 데이터 환경에서 기준 LLaRA 대비 평균 성공률을 +4.2% 향상시켰습니다. 3D LIBERO에서는 기준 정확도가 포화 상태에 가까운 경우(96.3% → 97.1%)를 포함하여 OpenVLA 및 FLOWER 기준선 대비 일관된 성능 향상을 보여줍니다. 모든 코드와 모델은 공개될 예정이며, 시각화 자료는 jongwoopark7978.github.io/IVRA에서 확인할 수 있습니다.
기존 에이전트 시스템은 작업 분포가 지속적으로 변화하고 외부 감독이 부족한 개방형 환경에서 어려움을 겪는 경우가 많습니다. 정적 도구 세트나 오프라인 학습에 의존하는 기존 방식은 이러한 동적 변화를 따라가지 못해 시스템의 능력 한계가 경직되고 불확실한 상태로 남아 있습니다. 이를 해결하기 위해 우리는 현장 자기 진화 패러다임을 제안합니다. 이 접근법은 순차적 작업 상호작용을 지속적인 경험 흐름으로 간주하여, 시스템이 정답 레이블 없이도 단기 실행 피드백을 장기적이고 재사용 가능한 능력으로 승화시킬 수 있도록 합니다. 이 프레임워크 내에서 우리는 검증 가능한 이진 피드백 신호를 제공하는 도구 진화를 능력 확장의 핵심 경로로 규정합니다. 이를 바탕으로 우리는 새로운 도전 과제를 해결하기 위해 도구를 반복적으로 합성, 최적화, 재사용하는 윤류(雲鷺) 에이전트 시스템을 개발했습니다. 진화 효율을 최적화하기 위해 우리는 추가로 병렬 배치 진화 전략을 도입했습니다. 제로-스타트 설정 하에 다섯 가지 다양한 벤치마크에서 수행한 실증 평가에서 독점 베이스라인 대비 상당한 성능 향상을 입증했습니다. 또한 보완적인 웜-스타트 평가를 통해 축적된 일반 지식이 새로운 도메인으로 원활하게 전이될 수 있음을 확인했습니다. 마지막으로, 우리는 기존 최적화에서의 훈련 손실과 유사한 기능을 하는 진화 수렴 모니터링을 위한 새로운 지표를 제안합니다. 우리는 회복력 있는 자기 진화 인텔리전스 연구의 발전을 위해 코드베이스, 시스템 트레이스 및 진화된 도구를 오픈소스로 공개합니다.
대규모 언어 모델(LLM)의 정렬은 모델 출력을 인간의 선호도와 일치시키는 것을 목표로 하며, 개인화 정렬은 이를 더 나아가 개별 사용자에 맞게 모델을 조정합니다. 이는 사용자별 선호도를 파악하고 자동으로 개인화된 피드백을 제공하는 개인화 보상 모델에 의존합니다. 그러나 이러한 모델 개발에는 두 가지 주요 과제가 있습니다: 개별 사용자로부터의 피드백 부족과 새로운 사용자에 대한 효율적인 적응 필요성입니다. 우리는 이러한 제약을 해결하기 위해서는 데이터 적응을 통한 선호도 학습에서, 선호도 적응 과정 자체를 학습하는 패러다임 전환이 필요하다고 주장합니다. 이를 실현하기 위해 개인화 보상 모델링을 메타학습 문제로 재정의하는 메타 보상 모델링(MRM)을 제안합니다. 구체적으로, 각 사용자의 보상 모델을 기본 보상 함수들의 가중 조합으로 표현하고, 제한된 피드백 하에서 빠른 적응을 지원하기 위해 MAML 스타일 프레임워크를 사용하여 이러한 가중치들의 초기화를 최적화합니다. 강건성을 보장하기 위해 메타 최적화 과정에서 학습이 어려운 사용자에게 더 큰 중요도를 부여하는 강건 개인화 목표(RPO)를 도입합니다. 개인화 선호도 데이터셋에 대한 폭넓은 실험을 통해 MRM이 소수 샷 개인화 성능을 향상시키고, 사용자 강건성을 높이며, 기준 모델들을 일관되게 능가함을 검증합니다.
대규모 언어 모델(LLM)이 과학 연구 워크플로우에서 점차 확산되고 있음에도 불구하고, 학술 커뮤니케이션 및 동료 검토의 핵심 단계인 학술 반론(rebuttal)에 대한 자동화된 지원은 여전히 크게 미개척 분야로 남아 있습니다. 기존 접근법은 일반적으로 상용 LLM이나 단순한 파이프라인에 의존하는데, 이는 긴 맥락 이해에 어려움을 겪으며 표적적이고 설득력 있는 응답을 생성하는 데 종종 실패합니다. 본 논문에서는 학술 반론 자동 생성을 위한 에이전트 기반 프레임워크인 DRPG를 제안합니다. DRPG는 네 단계, 즉 검토 내용을 원자적 문제점으로 분해(Decompose), 논문에서 관련 증거 검색(Retrieve), 반론 전략 수립(Plan), 이에 따른 응답 생성(Generate)을 통해 운영됩니다. 특히 DRPG의 플래너(Planner)는 가장 실현 가능한 반론 방향을 식별하는 데 98% 이상의 정확도를 달성합니다. 최상위 학회 데이터를 활용한 실험 결과, DRPG는 기존 반론 파이프라인을 크게 능가하며 8B 규모의 모델만으로도 평균 인간 수준을 넘어서는 성능을 달성함을 보여줍니다. 우리의 분석은 플래너 설계의 효과성과 다각적이고 설명 가능한 제안을 제공하는 데 있어 그 가치를 추가로 입증합니다. 또한 DRPG가 보다 복잡한 다중 라운드 설정에서도 잘 작동함을 확인했습니다. 이러한 결과는 DRPG의 효과성과 고품질 반론 콘텐츠 제공 및 학술 논의의 확장을 지원할 잠재력을 강조합니다. 본 연구의 코드는 https://github.com/ulab-uiuc/DRPG-RebuttalAgent 에서 확인할 수 있습니다.
글로벌 이산 확산 언어 모델의 가장 강력한 특징 중 하나는 전역적 양방향 문맥 이해 능력입니다. 그러나 기존 블록 기반 확산 연구는 자기회귀적 사전 분포를 도입하는 경향이 있어 일부 이점은 있지만 거시적 수준에서 이러한 전역적 일관성을 상실할 수 있습니다. 준-자기회귀 패러다임의 장점을 유지하면서 전역적 문맥 이해를 회복하기 위해, 우리는 블록 확산 모델에 내재된 비가역성과 근시안적 문제를 극복하기 위한 '초안 생성 후 정제' 프레임워크인 Diffusion in Diffusion을 제안합니다. 우리의 접근법은 먼저 소규모 블록을 사용한 블록 확산으로 신속한 초안을 생성한 다음, 더 큰 양방향 수용 영역을 갖춘 전역적 양방향 확산을 통해 이러한 초안을 정제합니다. 스냅샷 신뢰도 재마스킹을 통해 수정이 가장 필요한 핵심 토큰을 식별하고, 혼합 규모 학습을 적용하여 블록 확산 모델의 전역적 능력을 확장합니다. 실험 결과는 우리의 접근법이 OpenWebText 데이터셋에서 이산 확산 모델의 새로운 벤치마크를 수립함을 보여줍니다. 기준 모델 대비 26%의 미세 조정 예산만으로 생성적 perplexity를 25.7에서 21.9로 낮추어 자기회귀 모델과의 성능 격차를 크게 좁혔습니다.
코드 전환(code-switching)은 전 세계 다언어 사용자 다수에게 널리 퍼진 현상이지만, 일상적 의사소통에서의 복잡성을 정확히 반영하는 벤치마크는 거의 없다. 본 논문은 5가지 언어 조합 변형(그 중 일부는 3개 언어 사용)을 아우르는 자연스러운 다자간 코드 전환 대화 벤치마크인 PingPong을 소개한다. 우리의 데이터셋은 2~4명의 참가자가 진행한 인간이 작성한 대화로 구성되며, 응답이 대화 중 훨씬 이전 지점을 빈번히 참조하는 실제적이고 다중 스레드 구조를 포함한다. 우리의 데이터가 기계 생성 대안보다 메시지 길이, 화자 주도성, 응답 거리 측면에서 더 큰 변이를 제공하며 훨씬 더 자연스럽고 구조적으로 다양함을 입증한다. 이러한 대화를 바탕으로 질의응답, 대화 요약, 주제 분류라는 세 가지 하위 작업을 정의한다. PingPong에 대한 여러 최첨단 언어 모델 평가 결과, 코드 전환 입력에 대한 성능은 여전히 제한적이며, 이는 현실 세계 다언어 담론의 복잡성을 다룰 수 있는 더 강력한 NLP 시스템의 필요성을 시급히 보여준다.
아동-성인 음성 상호작용의 정확한 전사와 화자 분할은 발달 및 임상 연구에 매우 중요합니다. 그러나 수동 주석은 시간이 많이 소요되고 규모 확장이 어렵습니다. 기존 자동화 시스템은 일반적으로 화자 분할과 음성 인식의 연속적 파이프라인에 의존하여 오류 전파를 초래할 수 있습니다. 본 논문은 Whisper 인코더-디코더 아키텍처를 확장하여 음성 인식과 아동-성인 화자 역할 분할을 공동으로 모델링하는 통합된 종단 간 프레임워크를 제안합니다. 제안된 접근법은 (i) 화자 태그와 시작/종료 타임스탬프를 출력하는 직렬화 출력 훈련 기법, (ii) 화자 구별적 인코더 표현을 강화하는 경량 프레임 수준 분할 헤드, (iii) 향상된 시간 정밀도를 위한 분할 기반 무음 구간 억제, (iv) 구조적으로 유효한 출력을 보장하는 상태 기반 강제 디코딩 절차를 통합합니다. 두 데이터셋에 대한 포괄적 평가를 통해 두 가지 연속적 기준 모델 대비 일관적이고 상당한 성능 향상을 보여주며, 더 낮은 다중 화자 단어 오류율을 달성하고 Whisper-small 및 Whisper-large 모델 전반에 걸쳐 경쟁력 있는 분할 정확도를 입증했습니다. 이러한 결과는 대규모 아동-성인 상호작용에 대해 신뢰할 수 있는 화자 귀속 전사본을 생성하는 제안된 공동 모델링 프레임워크의 효과성과 실용적 유용성을 강조합니다. 코드와 모델 가중치는 공개되어 있습니다.
전문가 혼합(MoE) 모델은 일반적으로 통계적으로 균형 잡힌 전문가 라우팅을 보장하기 위해 명시적 부하 분산 제약 조건과 함께 사전 학습됩니다. 그럼에도 불구하고, 잘 학습된 MoE 모델조차도 상당히 불균형한 라우팅을 보인다는 것을 관찰했습니다. 이러한 동작은 자연스러운—심지어 바람직한—것으로 여겨질 수 있습니다. 불균형 라우팅은 모델이 도메인 특화 지식을 전문가 하위 집합 내에 집중할 수 있게 하기 때문입니다. 전문가 병렬화(EP)는 전문가를 여러 장치에 분산하여 MoE 모델의 규모 확장성을 위해 설계되었지만, 균형 잡힌 라우팅이라는 덜 논의된 가정을 수반합니다. 극단적인 불균형 상황에서 EP는 과도한 수의 토큰을 소수의 전문가로 집중시켜, 명시적 부하 분산이 종종 적용되지 않는 사후 학습 또는 추론 단계에서 과부하 장치의 계산 및 메모리 한계 초과 오류를 야기할 수 있습니다. 우리는 과부하 장치에서 활용도가 낮은 장치로 초과 토큰과 관련 전문가 매개변수를 동적으로 재라우팅하는 새로운 EP 알고리즘인 최소 부하 전문가 병렬화(LLEP)를 제안합니다. 이를 통해 메모리 제약을 준수하면서 모든 장치가 최소 집합 지연 시간 내에 작업 부하를 완료할 수 있습니다. 다양한 모델 규모에서 LLEP는 표준 EP 대비 최대 5배의 속도 향상과 최대 4배의 피크 메모리 사용량 감소를 달성했습니다. 이는 gpt-oss-120b의 경우 약 1.9배 더 빠른, 더 빠르고 높은 처리량의 사후 학습 및 추론을 가능하게 합니다. 우리는 이 방법을 포괄적인 이론적 분석과 절제 연구를 포함한 체계적인 실증 평가로 뒷받침합니다. 이러한 결과는 주요 절충점을 밝히고 하드웨어별 하이퍼파라미터 조정을 위한 원칙적인 프레임워크를 제공하여 최적의 성능을 달성할 수 있게 합니다.
효과적인 키-값(KV) 캐시 관리 기술은 대규모 언어 모델(LLM)의 실용적 배포에 핵심적이지만, 기존 압축 기법들은 일반적으로 성능 저하와 계산 오버헤드 사이의 트레이드오프를 수반합니다. 본 연구에서는 고정 가중치 LLM을 위한 새로운 게이팅 기반 KV 캐시 축출 방식을 제안하며, 이는 미미한 계산 비용으로 높은 압축률을 달성합니다. 우리의 접근법은 경량화된 싱크-어텐션 게이팅 모듈을 도입하여 핵심적인 KV 쌍을 식별하고 보존하며, 프리필 단계와 디코딩 단계 모두에 원활하게 통합됩니다. 제안된 게이트 학습 알고리즘은 LLM의 순전파에 기반하여 고비용의 역전파를 회피하면서도, 태스크-불변 재구성 목표를 통해 강력한 태스크 일반화 성능을 얻습니다. Qwen2.5-1M, Qwen3, Gemma3 모델 패밀리에서 수행한 폭넓은 실험 결과, 우리의 방법은 KV 캐시의 최대 70%를 축출하면서도 무손실에 가까운 성능을 유지함을 보여줍니다. 이러한 결과는 장문 맥락 이해, 코드 이해, 수학적 추론 등 다양한 태스크에서 일관되게 관찰되어 우리 접근법의 일반성을 입증합니다.
대규모 언어 모델은 일반적인 대화보다 복잡한 작업의 정확한 수행을 우선시하는 심층 추론 최적화가 점차 강화되고 있습니다. 본 연구는 이러한 계산 중심 접근이 위급한 상황에서 안전을 도외시하는 '터널 비전'을 초래하는지 조사합니다. 우리는 사용자가 점차 생명을 위협하는 비상 상황(뇌졸중 증상, 자유 낙하 등)을 설명하며 대수학 도움을 요청하는 150개 시나리오로 구성된 MortalMATH 벤치마크를 소개합니다. 연구 결과는 뚜렷한 행동 차이를 보여줍니다: 일반 모델(예: Llama-3.1)은 수학 문제를 거부하고 위험 대처에 성공한 반면, 특화 추론 모델(예: Qwen-3-32b 및 GPT-5-nano)은 사용자가 죽어가는 상황을 설명하는 동안 비상 상황을 완전히 무시하고 95% 이상의 작업 완료율을 유지했습니다. 더욱이 추론에 필요한 계산 시간은 위험한 지연을 초래합니다: 도움이 제공되기까지 최대 15초가 소요됩니다. 이러한 결과는 정답 추구에만 집중하는 모델 훈련이 안전한 배포에 필요한 생존 본능을 오히려 상실하게 할 수 있음을 시사합니다.
사용자 인터페이스(UI) 설계는 제품 출시, 포트폴리오 구축 또는 프로젝트 개인화 과정에서 핵심적인 단계이지만, 설계 전문 지식이 없는 최종 사용자들은 자신의 의도를 명확히 표현하고 설계 선택을 신뢰하는 데 어려움을 겪습니다. 기존의 예시 기반 도구들은 광범위한 탐색을 유도하여 과부하와 설계 편향을 초과하거나, 단일 예시에 의존하여 설계 고정관념의 위험을 안고 있습니다. 본 논문에서는 예시 기반 설계 워크플로우를 통해 모바일 UI 설계를 지원하는 상호작용형 시스템인 UI Remix를 소개합니다. 다중 모드 검색-증강 생성(MMRAG) 모델을 기반으로 하는 UI Remix는 전역(전체 인터페이스) 및 지역(구성 요소) 수준에서 예시의 반복적 검색, 선택 및 적용을 가능하게 합니다. 신뢰 형성을 위해 평점, 다운로드 수, 개발자 정보 등의 출처 투명성 신호를 제공합니다. 24명의 최종 사용자를 대상으로 한 실증 연구에서 UI Remix는 참가자들의 설계 목표 달성 능력을 크게 향상시키고, 효과적인 반복 작업을 용이하게 하며, 대안 설계 탐색을 촉진한 것으로 나타났습니다. 참가자들은 출처 투명성 신호가 예시 적용에 대한 자신감을 높인다고 보고했습니다. 본 연구 결과는 최종 사용자가 더 높은 통제력, 신뢰, 탐색 개방성을 가지고 설계할 수 있도록 지원하는 AI 기반 예시 주도 시스템의 새로운 방향성을 제시합니다.
어텐션 행렬은 해석 가능성, 시각화, 조작, 증류 등 광범위한 응용 분야를 지원하며 트랜스포머 연구의 기초를 이룹니다. 그러나 기존 분석 대부분은 개별 어텐션 헤드나 계층에 집중하여 모델의 전역적 동작을 설명하지 못합니다. 여러 헤드 간 어텐션 공식을 평균화 및 행렬 곱셈으로 확장하거나 정규화 및 FFN과 같은 구성 요소를 통합한 선행 연구들이 있음에도, 모든 트랜스포머 블록을 포괄하는 통일되고 완전한 표현은 여전히 부재합니다. 우리는 이러한 격차를 해소하기 위해 전체 트랜스포머를 고차원 어텐션-상호작용 텐서로 표현된 단일 입력 종속 선형 연산자로 포착하는 새로운 공식인 TensorLens를 제안합니다. 이 텐서는 어텐션, FFN, 활성화 함수, 정규화, 잔차 연결을 함께 인코딩하여 이론적으로 일관되고 표현력丰富的한 모델 계산의 선형 표현을 제공합니다. TensorLens는 이론적으로 근거를 가지며, 우리의 실증 검증을 통해 기존 어텐션 집계 방법보다 더 풍부한 표현을 생성함을 보여줍니다. 우리의 실험은 어텐션 텐서가 해석 가능성 및 모델 이해를 목표로 하는 도구 개발의 강력한 기반으로 활용될 수 있음을 입증합니다. 우리의 코드는 부록으로 첨부됩니다.
LLM 기반 검색 에이전트가 다단계 정보 탐색 작업에 점점 더 많이 활용되고 있지만, IR 커뮤니티는 에이전트 검색 세션이 어떻게 전개되고 검색된 증거가 어떻게 사용되는지에 대한 실증적 이해가 부족합니다. 본 논문은 외부 에이전트 클라이언트가 접근하는 오픈소스 검색 API인 DeepResearchGym에서 수집된 1,444만 건의 검색 요청(397만 개의 세션)을 기반으로 에이전트 검색에 대한 대규모 로그 분석을 제시합니다. 우리는 로그를 세션화하고, LLM 기반 주석을 사용하여 세션 수준 의도와 단계별 쿼리 재구성 레이블을 할당하며, 새로 도입된 쿼리 용어가 이전에 검색된 증거로 추적 가능한지 정량화하기 위한 Context-driven Term Adoption Rate(CTAR)를 제안합니다. 우리의 분석은 뚜렷한 행동 패턴을 보여줍니다. 첫째, 다중 턴 세션의 90% 이상이 최대 10단계를 포함하며, 단계 간 간격의 89%가 1분 미만입니다. 둘째, 행동은 의도에 따라 다릅니다. 사실 탐색 세션은 시간이 지남에 따라 증가하는 높은 반복성을 보이는 반면, 추론이 필요한 세션은 더 광범위한 탐색을 유지합니다. 셋째, 에이전트는 단계 간에 증거를 재사용합니다. 평균적으로 새로 도입된 쿼리 용어의 54%가 누적된 증거 컨텍스트에 나타나며, 가장 최근 검색 결과를 넘어 이전 단계들의 기여가 있습니다. 이러한 결과는 에이전트 검색이 반복 인식 조기 중단, 의도 적응형 검색 예산, 명시적인 단계 간 컨텍스트 추적을 통해 이점을 얻을 수 있음을 시사합니다. 향후 연구를 지원하기 위해 익명화된 로그를 공개할 계획입니다.
강화 학습(RL)은 능동 유동 제어(AFC) 분야에서 유망한 결과를 보여주고 있지만, 기존 연구들이 상이한 관측 및 작동 방식, 수치적 설정, 평가 프로토콜에 의존하고 있어 해당 분야의 진전을 평가하기는 여전히 어렵습니다. 현재의 AFC 벤치마크는 이러한 문제를 해결하려 시도하지만 외부 전산 유체 역학(CFD) 솔버에 크게 의존하며, 완전히 미분 가능하지 않고, 제한적인 3차원 및 다중 에이전트 지원만을 제공합니다. 이러한 한계를 극복하기 위해 본 논문은 AFC 분야 RL 연구를 위한 최초의 독립형이며 완전히 미분 가능한 벤치마크 제품군인 FluidGym을 소개합니다. GPU 가속 PICT 솔버 위에 PyTorch로 완전히 구축된 FluidGym은 단일 Python 스택에서 실행되며 외부 CFD 소프트웨어가 필요 없고 표준화된 평가 프로토콜을 제공합니다. PPO와 SAC를 이용한 기준 성능 결과를 제시하며, 모든 환경, 데이터셋 및 학습된 모델을 공개 리소스로 공개합니다. FluidGym은 제어 방법론의 체계적인 비교를 가능하게 하고, 학습 기반 유동 제어 미래 연구를 위한 확장 가능한 기반을 마련하며, https://github.com/safe-autonomous-systems/fluidgym에서 이용 가능합니다.
다중 양식 대규모 언어 모델(MLLM)이 복잡한 다중 이미지 명령을 처리할 수 있는 강력한 추론 능력을 획득함에 따라, 이러한 발전은 새로운 안전 위험을 초래할 수 있습니다. 우리는 이 문제를 연구하기 위해 9가지 다중 이미지 관계 분류 체계에 걸친 2,676개의 인스턴스로 구성된, 다중 이미지 추론 안전성에 초점을 맞춘 최초의 벤치마크인 MIR-SafetyBench을 소개합니다. 19개의 MLLM에 대한 광범위한 평가 결과, 다중 이미지 추론 능력이 더 발전된 모델일수록 MIR-SafetyBench에서 더 취약할 수 있다는 우려스러운 경향을 확인했습니다. 공격 성공률을 넘어서, 안전하게 분류된 많은 응답이 피상적이며 종종 오해나 회피적이고 모호한 답변에 기인한다는 점을 발견했습니다. 또한 안전하지 않은 생성물이 평균적으로 안전한 생성물보다 낮은 어텐션 엔트로피를 보인다는 것을 관찰했습니다. 이러한 내부적 특성은 모델이 안전 제약을 소홀히 한 채 과도하게 과업 해결에 집중할 수 있는 위험 가능성을 시사합니다. 우리의 코드와 데이터는 https://github.com/thu-coai/MIR-SafetyBench에서 확인할 수 있습니다.
시각적 토큰 압축은 대규모 시각-언어 모델(LVLM)의 추론 효율성을 향상시키기 위해 널리 채택되어 있으며, 지연 시간에 민감하고 자원이 제한된 시나리오에서의 배포를 가능하게 합니다. 그러나 기존 연구는 주로 효율성과 성능에 초점을 맞추어 왔으며, 시각적 토큰 압축의 보안적 함의는 크게 탐구되지 않은 상태입니다. 본 연구에서는 먼저 시각적 토큰 압축이 LVLM의 강건성을 현저히 저하시킨다는 사실을 밝힙니다: 압축되지 않은 추론 환경에서 강건했던 모델들은 압축이 활성화되면 매우 취약해집니다. 이러한 취약점은 상태 특이적입니다. 즉, 실패 모드들은 압축 설정에서만 나타나며 압축이 비활성화되면 완전히 사라져 특히 숨겨져 있고 진단하기 어렵습니다. 압축 과정의 주요 단계를 분석함으로써, 토큰 중요도 순위 결정의 불안정성이 이러한 강건성 저하의 주된 원인임을 규명합니다. 작고 지각하기 어려운 섭동이 토큰 순위를 크게 바꿔, 압축 메커니즘이 작업에 핵심적인 정보를 오판하여 버리게 하고 결국 모델 실패를 초래하게 됩니다. 이러한 관찰에 기반하여, 우리는 이 취약점을 체계적으로 연구하고 이용하기 위한 압축 인식 공격(CAA)을 제안합니다. CAA는 토큰 선택 메커니즘을 직접 대상으로 하며, 압축된 추론 환경에서만 독점적으로 실패를 유도합니다. 우리는 이 접근법을 더 현실적인 블랙박스 설정으로 확장하여, 대상 모델이나 압축 구성에 모두 접근할 수 없는 환경에서의 전이 CAA를 소개합니다. 또한 잠재적인 방어 방법들을 평가한 결과, 이들이 제한된 보호만을 제공함을 발견했습니다. 모델, 데이터셋, 압축 방법에 걸친 폭넓은 실험을 통해 시각적 토큰 압축이 강건성을 심각하게 훼손하며, 이전에 간과되었던 효율성과 보안 간의 트레이드오프가 존재함을 밝혔습니다.
의료, 법률, 과학적 발견과 같은 고위험 분야에서 대규모 언어 모델(LLM)의 신뢰성은 흔히 환각 현상으로 인해 훼손됩니다. 이러한 오류는 일반적으로 데이터 기반 환각과 추론 기반 환각이라는 두 가지 원인에서 비롯됩니다. 그러나 기존 탐지 방법들은 대개 한 가지 원인만을 다루거나 특정 작업에 의존적인 휴리스틱에 기반하여, 복잡한 시나리오로의 일반화가 제한됩니다. 이러한 한계를 극복하기 위해 우리는 '환각 위험 경계'를 제안합니다. 이는 통합 이론적 프레임워크로, 환각 위험을 훈련 시 불일치 및 추론 시 불안정성과 각각 연관된 데이터 기반 및 추론 기반 구성 요소로 공식적으로 분해합니다. 이를 통해 환각이 어떻게 발생하고 진화하는지 분석할 수 있는 원칙적인 기초를 마련합니다. 이 기초를 바탕으로, 우리는 NTK에서 유도된 기하학적 구조와 포착된 표현을 활용하여 데이터 기반 및 추론 기반 환각을 동시에 식별하는 NTK 기반 점수인 HalluGuard를 소개합니다. 우리는 HalluGuard를 10개의 다양한 벤치마크, 11개의 경쟁력 있는 베이스라인, 9개의 인기 있는 LLM 백본에서 평가하였으며, 다양한 형태의 LLM 환각 탐지에서 최첨단 성능을 일관되게 달성했습니다.
혼합 에이전트(MoA)는 계층적 협력을 통해 LLM 성능을 향상시키지만, 밀집된 토폴로지로 인해 비용과 지연 시간이 증가합니다. 기존 방법은 LLM 판단기를 사용하여 응답을 필터링하지만, 여전히 판단 전에 모든 모델의 추론을 수행해야 하므로 비용 절감 효과가 미흡합니다. 또한 모델 선정 기준이 부재하고 대규모 모델 풀에서 전체 추론 비용이 높아지며 컨텍스트 제한을 초과할 수 있는 문제점이 있습니다. 이를 해결하기 위해 우리는 동적 라우팅을 적용한 효율적인 혼합 에이전트 프레임워크인 RouteMoA를 제안합니다. 본 프레임워크는 경량 스코어를 통해 질의만으로 조악한 성능을 예측하여 사전 추론 없이 후보 모델을 고성능 잠재력 집합으로 축소합니다. 이후 혼합 판단기가 기존 모델 출력을 기반으로 한 경량 자기 평가 및 상호 평가를 통해 점수를 정제하여 추가 추론 없이 사후 보정을 수행합니다. 마지막으로 모델 랭킹 메커니즘이 성능, 비용, 지연 시간을 균형 있게 고려하여 최종 모델을 선정합니다. RouteMoA는 다양한 작업 및 모델 풀 규모에서 MoA를 능가하며, 대규모 모델 풀에서 비용을 89.8%, 지연 시간을 63.6% 절감했습니다.
텍스처가 적용된 3D 모핑은 두 3D 자산 간의 부드럽고 자연스러운 전환을 생성하며, 구조적 일관성과 세밀한 외관을 모두 보존하는 것을 목표로 합니다. 이러한 능력은 3D 생성 연구를 발전시키는 것뿐만 아니라 애니메이션, 편집, 디지털 콘텐츠 제작 등 실용적인 응용 분야에서도 매우 중요합니다. 기존 방법론은 기하학적 구조를 직접적으로 변형하여 텍스처를 고려하지 않은 형태 중심의 모핑에 그치거나, 2D 보간 전략을 3D로 확장하는 방식인 경우가 많아 의미적 모호성, 구조적 불일치 및 텍스처 흐림 현상을 초래합니다. 이러한 한계는 전환 과정 전반에 걸쳐 기하학적 일관성, 텍스처 정렬, 그리고 강건성을 함께 유지할 필요성을 강조합니다. 이를 해결하기 위해 우리는 텍스처가 적용된 3D 모핑을 위한 새로운 학습 불필요 프레임워크인 Interp3D를 제안합니다. Interp3D는 생성적 사전 지식을 활용하고 점진적 정렬 원칙을 채택하여 기하학적 정확도와 텍스처 일관성을 모두 보장합니다. 조건 공간에서 의미론적으로 정렬된 보간을 시작으로, Interp3D는 SLAT(Structured Latent) 기반 구조 보간을 통해 구조적 일관성을 강화하고, 마지막으로 세밀한 텍스처 융합을 통해 외관 디테일을 전달합니다. 포괄적인 평가를 위해 우리는 난이도가 구분된 전용 데이터셋인 Interp3DData를 구축하고, 생성 결과를 정확도, 전환 부드러움, 자연스러움의 관점에서 평가합니다. 정량적 지표와 인간 평가 모두에서 우리가 제안한 방법이 기존 방법론 대비 뚜렷한 우위를 보임을 입증합니다. 소스 코드는 https://github.com/xiaolul2/Interp3D에서 확인할 수 있습니다.