번역이 포함된 일일 선별된 AI 연구 논문
과학적 진보를 위한 여정에서 연구 성과의 전달은 발견 자체만큼 중요합니다. 그러나 연구자들은 종종 난해한 논문을 이해하기 쉽게 만들기 위한 프로젝트 웹페이지 수동 구축이라는 반복적인 작업에 주의가 분산됩니다. 자동화 기술이 정적인 슬라이드와 포스터 생성은 해결해왔지만, 웹페이지의 동적이고 상호작용적인 특성은 여전히 해결되지 않은 과제로 남아있었습니다. 이러한 격차를 해소하기 위해 우리는 이 문제를 재정의하며, 해결책이 단일 명령어가 아닌 협력적이고 계층적인 과정에 있다고 주장합니다. 우리는 이러한 철학을 구현한 새로운 다중 에이전트 시스템인 AutoPage를 소개합니다. AutoPage는 논문에서 웹페이지 생성 과정을 내러티브 기획부터 멀티모달 콘텐츠 생성 및 상호작용적 렌더링에 이르는 coarse-to-fine 파이프라인으로 분해합니다. AI의 허구적 생성(hallucination) 문제를 해결하기 위해 전담 "검증(Checker)" 에이전트가 각 단계를 원본 논문과 대조하여 검증하며, 선택적 인간 검증 지점을 통해 최종 결과물이 저자의 의도와 완벽하게 일치하도록 보장합니다. 이는 시스템을 단순한 도구가 아닌 강력한 협력 조력자로 변모시킵니다. 우리의 접근 방식을 엄격하게 검증하기 위해, 우리는 이 새로운 과제를 위한 최초의 벤치마크인 PageBench도 구축했습니다. 실험 결과, AutoPage는 높은 품질과 시각적으로 매력적인 페이지를 생성할 뿐만 아니라 놀라운 효율성(15분 미만, \$0.1 미만)으로 이를 수행하는 것으로 나타났습니다. 코드와 데이터 세트는 https://mqleet.github.io/AutoPage_ProjectPage/ 에서 공개될 예정입니다.
추론적 디코딩(Speculative Decoding, SD)은 작은 드래프트 모델이 예측을 생성하고 이를 더 큰 대상 모델이 검증하는 방식으로 대규모 언어 모델의 추론 속도를 높입니다. SD의 효과는 이러한 모델 간의 정렬에 달려있으며, 이는 일반적으로 지식 증류(Knowledge Distillation, KD)를 통해 강화됩니다. 그러나 기존의 KD 방법은 모든 토큰에 대해 드래프트 모델과 대상 모델 간의 KL 발산을 최소화하는 것을 목표로 하는데, 이는 토큰 수용률을 최대화해야 하는 SD의 실제 목표와 일치하지 않습니다. 따라서 용량 제약으로 인해 드래프트 모델은 대상 모델의 지식을 완전히 흡수하는 데 어려움을 겪어 성능이 저하됩니다. 이 문제를 해결하기 위해 우리는 KD 과정에 선택적 토큰 필터링을 도입한 새로운 방법인 AdaSPEC을 제안합니다. AdaSPEC은 레퍼런스 모델을 활용하여 학습하기 어려운 토큰을 식별하고 걸러내어, 더 단순한 토큰에 대해 대상 모델과 더 잘 정렬된 드래프트 모델을 증류할 수 있게 합니다. 이 접근법은 생성 품질을 저하시키지 않으면서 전체 토큰 수용률을 향상시킵니다. 우리는 31M/1.4B 및 350M/2.7B 매개변수의 모델 구성을 사용하여 산술 추론, 지시 따르기, 코드 생성, 요약 등 다양한 작업에 대해 AdaSPEC을 평가했습니다. 결과는 AdaSPEC이 모든 작업에서 최신 방법인 DistillSpec을 일관되게 능가하며(최대 15%), 더 높은 수용률을 달성함을 보여줍니다. 코드는 https://github.com/yuezhouhu/adaspec 에서 공개되어 있습니다.
대부분의 비디오 추론 모델은 언제, 어디서 핵심 증거가 나타나는지 표시하지 않은 채 텍스트 기반 추론 흔적만 생성합니다. OpenAI-o3와 같은 최신 모델이 이미지에 대한 증거 중심 추론 분야에서 폭넓은 관심을 불러일으켰지만, 이러한 능력을 비디오로 확장하는 것은 동적 장면에서의 시간적 추적과 공간적 위치 파악을 동시에 수행해야 하므로 더욱 어려운 과제입니다. 본 연구에서는 명시적인 시공간 증거를 비디오 추론에 통합하는 비-에이전트 프레임워크인 Open-o3 Video를 소개하며, 앞서 언급한 과제를 해결하기 위해 신중하게 훈련 데이터를 수집하고 훈련 전략을 설계합니다. 이 모델은 답변과 함께 핵심 타임스탬프, 객체, 바운딩 박스를 강조표시하여 구체적인 시각적 관찰에 기반한 추론이 가능하도록 합니다. 이러한 기능을 구현하기 위해, 기존 데이터셋 대부분이 비디오에 대한 시간적 범위 또는 이미지에 대한 공간적 박스만 제공하여 통합된 시공간 감독과 추론 흔적이 부족하기 때문에, 신중하게 구성된 시간 및 공간 주석을 가진 SFT용 STGR-CoT-30k와 RL용 STGR-RL-36k라는 두 가지 고품질 데이터셋을 먼저 선별 및 구축합니다. 그런 다음, 답변 정확도, 시간적 정렬, 공간적 정밀도를 함께 장려하기 위해 특별히 설계된 다중 보상을 활용한 콜드-스타트 강화 학습 전략을 채택합니다. V-STAR 벤치마크에서 Open-o3 Video는 최첨단 성능을 달성하여 Qwen2.5-VL 기준선 대비 mAM을 14.4%, mLGM을 24.2% 향상시켰습니다. VideoMME, WorldSense, VideoMMMU, TVGBench 등 다양한 비디오 이해 벤치마크에서도 일관된 성능 향상이 관찰됩니다. 정확도 외에도 Open-o3 Video가 생성하는 추론 흔적은 테스트 시간 스케일링을 위한 가치 있는 신호를 제공하여 신뢰도 인식 검증을 가능하게 하고 답변의 신뢰성을 높입니다.
최첨단 텍스트-비디오 모델은 단일 클립 생성에는 뛰어나나 스토리텔링의 핵심인 일관된 멀티샷 narrative를 생성하는 데는 한계가 있습니다. 우리는 이러한 "내러티브 격차"를 HoloCine 모델로 해소합니다. HoloCine은 전체 장면을 종합적으로 생성하여 첫 샷부터 마지막 샷까지 전역적 일관성을 보장합니다. 우리의 아키텍처는 텍스트 프롬프트를 특정 샷에 지역화하는 Window Cross-Attention 메커니즘을 통해 정확한 연출 제어를 달성하며, Sparse Inter-Shot Self-Attention 패턴(샷 내부는 조밀하지만 샷 간에는 희소)은 분 단위 생성에 필요한 효율성을 보장합니다. 내러티브 일관성에서 새로운 최첨단 성능을 보여주는 것을 넘어, HoloCine은 주목할 만한 창발적 능력인 캐릭터와 장면에 대한 지속적 메모리와 영화 기법에 대한 직관적 이해력을 발전시켰습니다. 우리의 연구는 클립 합성에서 자동화된 영화 제작으로의 중추적 전환을 의미하며, 종단간 시네마틱 창작을 현실 가능한 미래로 만듭니다. 코드는 https://holo-cine.github.io/에서 이용 가능합니다.
디퓨전 트랜스포머 모델은 놀라운 정확도와 디테일로 이미지를 생성할 수 있지만, 자기 주의 메커니즘이 이미지 토큰의 수에 대해 2차적으로 증가하는 복잡도를 가지기 때문에 초고해상도에서의 학습은 여전히 매우 많은 비용이 든다. 본 논문에서는 사전 학습된 디퓨전 트랜스포머가 추가적인 샘플링 비용 없이 훈련 데이터를 훨씬 초과하는 해상도에서 이미지를 합성할 수 있도록 하는 새로운 훈련 불필요 방법인 동적 위치 외삽법(DyPE)을 소개한다. DyPE는 저주파수 구조는 일찍 수렴하는 반면 고주파수는 해결에 더 많은 단계가 필요한 디퓨전 과정의 내재적인 스펙트럼 진행을 활용한다. 구체적으로 DyPE는 각 디퓨전 단계에서 모델의 위치 인코딩을 동적으로 조정하여, 그 주파수 스펙트럼이 생성 과정의 현재 단계와 일치하도록 한다. 이 접근법을 통해 FLUX를 사용하여 1,600만 화소와 같이 훈련 해상도를 크게 초과하는 해상도에서 이미지를 생성할 수 있다. 여러 벤치마크에서 DyPE는 성능을 지속적으로 향상시키고 초고해상도 이미지 생성에서 최첨단 정확도를 달성하며, 이 이점은 해상도가 높아질수록 더욱 두드러진다. 프로젝트 페이지는 https://noamissachar.github.io/DyPE/에서 확인할 수 있다.
이산 확산 모델은 병렬 디코딩을 통해 자기회귀 생성에 대한 유망한 대안을 제공하지만, 샘플링 벽이라는 한계가 존재합니다: 범주형 샘플링이 발생하면 풍부한 분포 정보가 원-핫 벡터로 축소되어 단계 간 전파가 불가능해지며, 이후 단계들은 제한된 정보만으로 작동해야 합니다. 이 문제를 완화하기 위해 우리는 결정론적 잠재 경로를 통해 이러한 정보를 보존하는 새롭고 간단한 메커니즘인 Loopholing을 도입하여 Loopholing 이산 확산 모델(LDDMs)을 제안합니다. 자기 조건화 전략으로 효율적으로 학습된 LDDMs는 기존 기준 대비 생성 복잡도를 최대 61%까지 감소시키는 상당한 성능 향상을 달성하며, 자기회귀 모델과의 격차를 줄이고(일부 경우에는 능가하는) 더 일관된 텍스트를 생성합니다. 추론 작업에 적용된 LDDMs는 Countdown 및 Game of 24와 같은 산술 벤치마크에서도 성능을 향상시킵니다. 이러한 결과는 Loopholing이 유휴 단계와 진동을 완화하여 고품질 비자기회귀 텍스트 생성으로 확장 가능한 경로를 제공함을 시사합니다.
신체화 AI 에이전트 개발에는 콘텐츠 다양성과 물리 정확성 간의 균형을 맞추는 확장 가능한 훈련 환경이 필요합니다. 세계 시뮬레이터는 이러한 환경을 제공하지만 뚜렷한 한계에 직면합니다: 비디오 기반 방법은 다양한 콘텐츠를 생성하지만 상호작용 학습을 위한 실시간 물리 피드백이 부족한 반면, 물리 기반 엔진은 정확한 역학을 제공하지만 수동 애셋 생성의 높은 비용으로 인해 확장성에 한계가 있습니다. 우리는 단일 이미지로부터 시뮬레이션 준비가 된 3D 애셋을 생성하여 확장성 문제를 해결하면서도 물리적 엄격성을 유지하는 파운데이션 모델인 Seed3D 1.0을 제시합니다. 기존 3D 생성 모델과 달리, 우리 시스템은 정확한 기하학, 잘 정렬된 텍스처, 현실적인 물리 기반 재질을 갖춘 애셋을 생성합니다. 이러한 애셋은 최소한의 설정으로 물리 엔진에 직접 통합되어 로봇 매니퓰레이션 및 시뮬레이션 훈련에 배포될 수 있습니다. 개별 객체를 넘어, 이 시스템은 객체를 일관된 환경으로 조립하여 완전한 장면 생성까지 확장됩니다. 확장 가능한 시뮬레이션 준비 콘텐츠 생성을 가능하게 함으로써, Seed3D 1.0은 물리 기반 세계 시뮬레이터 발전을 위한 기반을 제공합니다. Seed3D 1.0은 현재 https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D 에서 이용 가능합니다.
지식 편집은 전체 재학습 없이 모델 지식을 업데이트하는 효율적인 방법을 제공하지만, 기존 연구는 거의 전적으로 텍스트나 시각 양식에 집중해왔습니다. 우리는 대규모 오디오-언어 모델(LALM)에서 청각 속성 지식을 편집하기 위해 특별히 설계된 첫 번째 벤치마크인 SAKE를 소개합니다. 사실적 업데이트와 달리 SAKE는 여러 추상적인 청각 속성을 대상으로 하여 기존 텍스트 및 시각 영역을 넘어서는 지식 유형을 포착합니다. 우리는 두 가지 LALM에 대해 7가지 편집 방법을 신뢰도, 일반성, 오디오/텍스트 지역성, 이식성이라는 네 가지 차원에서 벤치마크했습니다. 결과는 편집과 무관한 속성 내 지식 보존, 다중 모달 추론으로의 편집 일반화, 순차적 업데이트 하에서 편집 내용 유지와 같은 과제를 부각시킵니다. SAKE는 지식 편집이 청각 양식으로 어떻게 확장되는지 연구하기 위한 체계적인 프레임워크를 제공하며, 보다 다양화된 실제 시나리오에서 LALM을 유지 및 적응시키는 새로운 방향을 제시합니다.
우리는 정량화 가능한 인간 가치 신호를 대규모 언어 모델(LLM) 최적화에 직접 연계하는 방법론인 RLEV(Reinforcement Learning with Explicit Human Values)를 제안한다. 검증 가능한 보상 기반 강화 학습(RLVR)이 객관적 영역에서 이진 정확도 보상을 통해 모델을 효과적으로 훈련시키는 반면, 이는 모든 작업이 동등한 중요도를 가지지 않음을 간과한다. RLEV는 인간이 정의한 가치 신호를 보상 함수에 직접 통합하여 이 프레임워크를 확장한다. 명시적 실제 가치 레이블이 포함된 시험 형식 데이터를 사용한 실험에서, RLEV는 다양한 RL 알고리즘과 모델 규모에서 정확도만을 고려한 기준선을 지속적으로 능가하였다. 중요한 것은, RLEV 정책이 가치 가중 정확도를 향상시킬 뿐만 아니라 가치에 민감한 종료 정책을 학습한다는 점이다: 낮은 가치의 프롬프트에는 간결하게, 높은 가치의 프롬프트에는 철저하게 응답한다. 우리는 이러한 행동이 시퀀스 종료 토큰에 대한 가치 가중 그래디언트 증폭에서 비롯됨을 입증한다. 제거 실험을 통해 이득이 가치 정렬과 인과적으로 연결되었음을 확인하였다. RLEV는 난이도 기반 레이블과 같은 잡음이 포함된 가치 신호 하에서도 견고하게 작동하며, 명시적 효용 함수에 대한 최적화가 인간의 우선순위에 LLM을 정렬시키는 실용적인 경로를 제공함을 입증한다.
대규모 오디오-언어 모델(LALMs)은 텍스트 기반 대규모 언어 모델을 청각적 이해 능력으로 확장하여 다중 모달 응용 분야에 새로운 가능성을 제시합니다. 인지, 추론 및 과제 수행 능력은 광범위하게 연구되었으나, 준언어적 변형 조건에서의 안전성 정렬은 아직 충분히 탐구되지 않았습니다. 본 연구는 화자의 감정 역할을 체계적으로 조사합니다. 다양한 감정과 강도로 표현된 악성 음성 지시 데이터셋을 구축하고 여러 최신 LALMs를 평가한 결과, 상당한 안전성 불일치가 확인되었습니다. 서로 다른 감정이 다양한 수준의 안전하지 않은 응답을 유발하며, 강도 영향은 비단조적이어서 중간 강도 표현이 가장 큰 위험을 초래하는 경우가 많았습니다. 이러한 결과는 LALMs에서 간과된 취약성을 부각시키며, 감정 변동 하에서 견고성을 보장하기 위해 명시적으로 설계된 정렬 전략의 필요성을 시사합니다. 이는 실제 환경에서 신뢰할 수 있는 배포를 위한 선행 조건입니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 LLM 에이전트 훈련의 주류 기술로 자리 잡았습니다. 그러나 RLVR은 정확한 보상을 제공하기 위해 정교하게 설계된 작업 질의와 이에 상응하는 정답에 크게 의존하는데, 이는 많은 인간의 노력을 요구하며 특히 에이전트 시나리오에서 RL 확장 과정을 저해합니다. 최근 몇몇 연구에서 작업 합성 방법을 탐구했지만, 생성된 에이전트 작업의 난이도를 효과적인 RL 훈련 이점을 제공할 수 있도록 제어하는 것은 매우 어려웠습니다. 더 높은 확장성을 지닌 에이전트 RLVR을 달성하기 위해, 우리는 딥 검색 에이전트를 위한 자기 주도적 훈련(self-play training)을 탐구합니다. 여기서 학습 LLM은 다중 턴 검색 엔진 호출을 활용하며 동시에 작업 제안자와 문제 해결자 역할을 수행합니다. 작업 제안자는 명확하게 정의된 정답과 점차 증가하는 작업 난이도를 가진 딥 검색 질의를 생성하는 것을 목표로 합니다. 문제 해결자는 생성된 검색 질의를 처리하고 정답 예측을 출력하려고 시도합니다. 생성된 각 검색 질의가 정확한 정답을 가지도록 보장하기 위해, 우리는 제안자의 행동 경로에서 모든 검색 결과를 수집하여 외부 지식으로 활용한 후, 검색 증강 생성(RAG)을 수행하여 제안된 질의가 필요한 모든 검색 문서가 제공될 때 정확히 답변될 수 있는지 테스트합니다. 이 검색 자기 주도 게임(SSP)에서 제안자와 해결자는 경쟁과 협력을 통해 에이전트 능력을 공동으로 진화시킵니다. 상당한 실험 결과를 통해 우리는 SSP가 초기 훈련부터 지속적인 RL 훈련 설정에 이르기까지 다양한 벤치마크에서 어떠한 감독 없이도 검색 에이전트의 성능을 균일하게 크게 향상시킬 수 있음을 확인했습니다. 코드는 https://github.com/Alibaba-Quark/SSP에서 확인할 수 있습니다.
본 논문에서는 현재까지 가장 규모가 크고 다양하며 포괄적인 오픈소스 법률 정보 검색 벤치마크인 MLEB(Massive Legal Embedding Benchmark)를 제안한다. MLEB는 미국, 영국, EU, 호주, 아일랜드, 싱가포르 등 여러 관할권과, 판례, 법률, 규제 지침, 계약, 문헌 등 다양한 문서 유형, 그리고 검색, 제로샷 분류, 질의응답 등 다양한 과제 유형을 아우르는 10개의 전문가 주석 데이터셋으로 구성된다. MLEB에 포함된 7개 데이터셋은 오픈소스 법률 정보 검색 환경에서의 분야 및 관할권 간 격차를 해소하기 위해 새롭게 구축되었다. 본 논문은 MLEB 구축 및 새로운 구성 데이터셋 생성 방법론을 상세히 기술하며, 재현 가능한 평가를 지원하기 위해 코드, 결과, 데이터를 공개한다.
자연어는 오랫동안 인간의 협력을 가능하게 해왔지만, 그 손실성과 모호성, 간접적인 특성은 집단 지성의 잠재력을 제한합니다. 기계는 이러한 제약을 받지 않음에도 대부분의 LLM 기반 다중 에이전트 시스템은 토큰이나 그 임베딩을 교환하며 자연어에만 의존하고 있습니다. 언어를 넘어서기 위해 우리는 새로운 패러다임인 '사고 통신(thought communication)'을 소개합니다. 이는 텔레파시와 유사하게 에이전트가 마음과 마음으로 직접 상호작용할 수 있게 합니다. 이러한 잠재적 사고를 체계적으로 발견하기 위해 우리는 이 과정을 일반적인 잠재 변수 모델로 정형화합니다. 여기서 에이전트 상태는 근본적인 사고의 알려지지 않은 함수에 의해 생성됩니다. 우리는 보조 정보 없이 비모수적 설정에서 어떤 에이전트 쌍 간의 공유 및 비공개 잠재 사고가 모두 식별 가능함을 증명합니다. 나아가, 어떤 에이전트가 어떤 사고를 공유하는지, 이러한 관계가 어떻게 구조화되는지를 포함한 사고 공유의 글로벌 구조도 이론적 보장 하에 복원될 수 있음을 보입니다. 정립된 이론에 기반하여, 우리는 통신 전 모든 에이전트로부터 잠재 사고를 추출하고 각 에이전트에게 관련 사고와 그 공유 패턴을 할당하는 프레임워크를 개발했습니다. 이 패러다임은 대부분의 관측 데이터가 숨겨진 생성 과정에서 비롯되므로, LLM을 넘어 모든 모달리티로 자연스럽게 확장됩니다. 합성 및 실제 벤치마크에 대한 실험은 이론을 검증하고 사고 통신의 협력적 이점을 입증합니다. 우리는 이 연구가 계산이나 데이터 규모와 무관하게 표면적 관찰만으로는 해결되지 않는 많은 과제들이 있듯이, 숨겨진 세계를 활용하는 잠재력을 밝히는 데 기여하기를 바랍니다.
프레임 간 다단계 추론을 요구하는 비디오 추론은 멀티모달 대규모 언어 모델(MLLM)의 주요 과제로 남아 있습니다. 강화 학습(RL) 기반 방법은 추론 능력을 향상시키지만, 텍스트만으로 구성된 사슬에 의존하여 근거가 부족하거나 허구적인 결론을 도출하는 경우가 많습니다. 반면 프레임 검색 접근법은 시각적 근거를 도입하지만 여전히 정확하지 않은 증거 위치 특정에 어려움을 겪습니다. 이러한 문제를 해결하기 위해 우리는 증거 기반 다단계 비디오 추론 프레임워크인 Conan을 제시합니다. Conan은 맥락 프레임과 증거 프레임을 식별하고 프레임 간 단서를 추론하며, 적응적으로 결론을 내릴지 또는 추가 탐색을 할지를 결정합니다. 이를 위해 우리는 (1) 프레임 식별, 증거 추론, 행동 결정을 포함한 자동 생성 추론 흔적의 대규모 데이터셋인 Conan-91K를 구축하고, (2) 다단계 시각적 추론을 공동으로 향상시키기 위해 다단계 점진적 콜드 스타트 전략과 Identification-Reasoning-Action(IRA) RLVR 훈련 프레임워크를 결합했습니다. 6개의 다단계 추론 벤치마크에서 진행한 폭넓은 실험 결과, Conan은 기준 모델인 Qwen2.5-VL-7B-Instruct보다 평균 정확도에서 10% 이상 우수한 성능을 보여 최첨단 수준을 달성했습니다. 더 나아가 Conan은 장영상 이해 작업에도 효과적으로 일반화되어 뛰어난 확장성과 강건성을 입증했습니다.
기존의 개인화 생성 모델은 높은 시각적 정확도를 자랑하지만 공간 구성에 대한 상호작용적 제어가 부족하고 다중 객체 생성으로 확장 적용하기에 한계가 있습니다. 이러한 한계를 해결하기 위해 본 논문에서는 개인화된 다중 객체 텍스트-이미지 생성을 위한 상호작용형 프레임워크인 LayerComposer를 제안합니다. 우리의 접근 방식은 두 가지 주요 기여점을 도입합니다: (1) 각 객체가 별도의 레이어에 배치되어 중복 없이 구성할 수 있는 새로운 표현 방식인 '계층화 캔버스'와, (2) 선택된 레이어는 높은 정확도로 보존하면서 나머지 레이어가 주변 맥락에 유연하게 적응할 수 있도록 하는 '잠금 메커니즘'입니다. 전문 이미지 편집 소프트웨어와 유사하게, 제안된 계층화 캔버스를 통해 사용자는 직관적인 레이어 조작을 통해 입력 객체를 배치, 크기 조정 또는 잠글 수 있습니다. 우리의 다용도 잠금 메커니즘은 구조 변경 없이, 내재적 위치 임베딩과 새로운 상호 보완적 데이터 샘플링 전략을 활용합니다. 광범위한 실험을 통해 LayerComposer가 다중 객체 개인화 이미지 생성 분야의 최신 방법론 대비 우수한 공간 제어 및 정체성 보존 성능을 달성함을 입증합니다.
우리는 이미지 분할을 위한 새로운 자기회귀 생성 기반 패러다임(ARGenSeg)을 제안하며, 통합 프레임워크 내에서 다중모달 이해와 픽셀 수준 인식을 달성합니다. 이미지 분할을 다중모달 대규모 언어 모델(MLLM)에 통합한 기존 연구들은 일반적으로 경계점 표현이나 전용 분할 헤드를 사용해 왔습니다. 이러한 방법들은 이산적 표현이나 작업 특화 디코더에 입력되는 의미론적 프롬프트에 의존하여, MLLM이 세밀한 시각적 디테일을 포착하는 능력을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 이미지 생성 기반의 MLLM 분할 프레임워크를 도입하여 대상 객체에 대한 밀집 마스크를 자연스럽게 생성합니다. 우리는 MLLM이 시각적 토큰을 출력하도록 하고 범용 VQ-VAE를 사용하여 이를 이미지로 디토큰화함으로써 분할이 MLLM의 픽셀 수준 이해에 완전히 의존하도록 합니다. 추론 지연 시간을 줄이기 위해, 다음 스케일 예측 전략을 활용하여 필요한 시각적 토큰을 병렬로 생성합니다. 광범위한 실험을 통해 우리의 방법이 여러 분할 데이터셋에서 기존 최첨단 접근법을 능가하며 추론 속도가 현저히 향상되고 강력한 이해 능력을 유지함을 입증합니다.
코드 차이(diff)를 신뢰할 수 있게 처리하는 것은 저장소를 대규모로 편집하고 리팩토링하는 에이전트의 핵심 기능입니다. 본 연구에서는 코드 차이 이해를 위한 간결한 벤치마크인 Diff-XYZ를 소개합니다. 이 벤치마크는 적용(기존 코드 + 차이 → 새 코드), 역적용(새 코드 - 차이 → 기존 코드), 차이 생성(새 코드 - 기존 코드 → 차이)이라는 세 가지 지도 과제로 구성됩니다. 벤치마크의 인스턴스는 CommitPackFT의 실제 커밋에서 추출한 삼중항 ⟨기존 코드, 새 코드, 차이⟩로, 자동 평가 지표와 명확한 평가 프로토콜이 함께 제공됩니다. 우리는 이 벤치마크를 사용하여 통합 차이(unified diff) 형식에 대한 집중적인 실증 연구를 수행하고 다양한 차이 표현 방식의 교차 형식 비교를 실행했습니다. 연구 결과에 따르면 사용 사례와 모델 규모에 따라 서로 다른 형식을 사용해야 합니다. 예를 들어, 차이를 검색-대체(search-replace) 형식으로 표현하는 것은 차이 생성 시나리오에서 대규모 모델에는 효과적이지만, 차이 분석 및 소규모 모델에는 적합하지 않습니다. Diff-XYZ 벤치마크는 LLM의 차이 처리 능력을 평가하고 개선하기 위한 재사용 가능한 기반으로, 향후 차이 형식 및 코드 편집 모델 개발에 기여할 수 있습니다. 데이터셋은 HuggingFace Hub에 공개되어 있습니다: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
대규모 언어 모델(LLM)은 과학적 글쓰기의 유망한 보조 도구로 부상했습니다. 그러나 생성된 텍스트의 품질과 신뢰성, 특히 인용의 정확성과 신뢰성에 대한 우려가 제기되어 왔습니다. 최근 연구 대부분이 LLM-as-a-Judge와 같은 방법에 의존하고 있지만, LLM-as-a-Judge 단독의 신뢰성 또한 의문시되고 있습니다. 본 연구에서는 인용 평가를 인용 귀속 정합성 문제, 즉 LLM이 생성한 인용이 동일한 텍스트에 대해 인간 저자가 포함할 인용과 일치하는지 평가하는 문제로 재정의합니다. 우리는 인용 검증을 위해 더욱 신뢰할 수 있는 근거를 제공하도록 설계된 검색 인식 에이전트 프레임워크인 CiteGuard를 제안합니다. CiteGuard는 기존 기준선을 12.3% 개선하고 CiteME 벤치마크에서 최대 65.4%의 정확도를 달성하여 인간 수준의 성능(69.7%)에 버금가는 결과를 보여줍니다. 또한 대체 가능하면서도 유효한 인용을 식별할 수 있도록 합니다.
MeanFlow는 최근 처음부터 학습된 few-step 생성 모델링을 위한 강력한 프레임워크로 부상했지만, 그 성공 요인은 아직 완전히 이해되지 않았습니다. 본 연구에서 우리는 MeanFlow 목적 함수가 자연스럽게 두 부분, 즉 궤적 흐름 매칭(trajectory flow matching)과 궤적 일관성(trajectory consistency)으로 분해됨을 보여줍니다. 그래디언트 분석을 통해 우리는 이 두 항이 강한 음의 상관관계를 보여 최적화 충돌과 느린 수렴을 초래한다는 사실을 발견했습니다. 이러한 통찰을 바탕으로 우리는 궤적 흐름 매칭, Shortcut Model, MeanFlow를 하나의 공식으로 통합하는 광범위한 목적 함수 패밀리인 alpha-Flow를 소개합니다. 궤적 흐름 매칭에서 MeanFlow로 부드럽게 변화하는 커리큘럼 전략을 채택함으로써, alpha-Flow는 상충되는 목표를 분리하고 더 나은 수렴을 달성합니다. 클래스 조건부 ImageNet-1K 256x256 데이터를 vanilla DiT 백본으로 처음부터 학습할 때, alpha-Flow는 다양한 규모와 설정에서 MeanFlow를 지속적으로 능가합니다. 우리의 가장 큰 alpha-Flow-XL/2+ 모델은 vanilla DiT 백본을 사용하여 FID 점수 2.58(1-NFE) 및 2.15(2-NFE)로 새로운 최첨단 결과를 달성했습니다.
매개변수 수와 훈련 데이터 규모를 확장하는 것이 대규모 언어 모델(LLM) 성능 향상에 효과적인 전략임이 입증되었습니다. 그러나 이러한 모델이 점점 더 강력해지고 광범위하게 배포됨에 따라 추론 비용이 중요한 문제로 대두되고 있습니다. 그 중요성에도 불구하고, 모델 정확도와 추론 효율성 간의 상호 관계는 아직 충분히 연구되지 않았습니다. 본 연구에서는 은닉층 크기, MLP와 어텐션 간 매개변수 할당 비율(MLP-대-어텐션 비율), 그룹화된 질의 어텐션(GQA)과 같은 주요 구조적 요인들이 추론 비용과 정확도에 미치는 영향을 분석합니다. 우리는 Chinchilla 프레임워크에 구조적 정보를 추가한 조건부 스케일링 법칙과, 추론 효율성과 정확도를 동시에 만족하는 구조를 탐색하기 위한 검색 프레임워크를 제안합니다. 제안 방법의 타당성을 검증하기 위해 80M에서 3B에 이르는 매개변수와 8B에서 100B에 이르는 훈련 토큰으로 구성된 200개 이상의 모델을 훈련하고 조건부 스케일링 법칙을 적용했습니다. 그 결과, 조건부 스케일링 법칙이 최적의 구조적 선택을 안정적으로 예측하며, 이를 통해 도출된 모델이 기존 오픈소스 기준 모델들을 능가함을 확인했습니다. 동일한 훈련 예산 하에서 최적화된 구조는 LLaMA-3.2 대비 최대 2.1% 높은 정확도와 42% 더 큰 추론 처리량을 달성했습니다.
이 글은 세계 모델에 대한 일반적인 개론서가 아닌, 세계를 구축하고자 하는 이들을 위한 안내서입니다. 우리의 목표는 '세계 모델'을 언급한 모든 논문을 일일이 열거하는 것이 아닙니다. 대신 우리는 한 가지 명확한 길을 따라갑니다: 다양한 양식 간 표현 학습을 통합한 초기 마스킹 모델에서 시작하여, 단일 패러다임을 공유하는 통합 아키텍처로, 인지와 행동의 순환을 완성하는 상호작용적 생성 모델을 거쳐, 궁극적으로 시간이 흐름에 따라 일관된 세계를 유지하는 메모리 강화 시스템에 이르는 길입니다. 우리는 직접적 연관성이 적은 분야들은 지나쳐 핵심, 즉 생성의 본질, 상호작용 순환, 그리고 메모리 시스템에 집중합니다. 이것이 진정한 세계 모델로 가는 가장 유망한 길임을 보여줍니다.
과제 수행을 위해 '지름길'을 찾고 활용하려는 경향은 대규모 언어 모델(LLM)의 신뢰할 수 있는 평가와 배포에 상당한 위험을 초래합니다. 예를 들어, 단위 테스트에 접근 권한이 있는 LLM 에이전트가 기본적인 버그를 수정하는 대신 실패하는 테스트를 삭제할 수 있습니다. 이러한 행동은 벤치마크 결과의 타당성과 실제 LLM 코딩 지원 도구 배포의 신뢰성을 모두 훼손합니다. 이러한 행동을 정량화, 연구 및 완화하기 위해 우리는 불가능한 과제 벤치마크(ImpossibleBench)를 소개합니다. 이는 LLM 에이전트가 테스트 케이스를 악용하는 성향을 체계적으로 측정하는 벤치마크 프레임워크입니다. ImpossibleBench는 LiveCodeBench 및 SWE-bench와 같은 기존 벤치마크의 과제에 자연어 명세와 단위 테스트 간의 직접적인 충돌을 도입하여 '불가능한' 변형을 생성합니다. 우리는 에이전트의 '치팅율'을 이러한 불가능한 과제에서의 통과율로 측정하며, 여기서 어떤 통과도 명세 위반 지름길을 의미합니다. 실용적인 프레임워크로서 ImpossibleBench는 단순한 평가 도구를 넘어 다목적 도구입니다. 우리는 다음과 같은 유용성을 입증합니다: (1) 모델 행동 연구: 단순한 테스트 수정부터 복잡한 연산자 오버로딩에 이르기까지 치팅 행동의 더 세분화된 세부 사항을 밝혀냄. (2) 컨텍스트 엔지니어링: 프롬프트, 테스트 접근 권한 및 피드백 루프가 치팅율에 어떻게 영향을 미치는지 보여줌. (3) 모니터링 도구 개발: 검증된 기만적 솔루션을 갖춘 테스트베드 제공. 우리는 ImpossibleBench가 더 강력하고 신뢰할 수 있는 LLM 시스템 구축을 위한 유용한 프레임워크로 역할하기를 바랍니다. 구현 내용은 https://github.com/safety-research/impossiblebench에서 확인할 수 있습니다.
트랜스포머 기반 대규모 언어 모델(LLM)은 놀라운 성과를 거두었지만, 표준 어텐션 메커니즘은 시퀀스 길이에 대해 2차적인 계산 및 메모리 비용을 발생시켜 장문맥 학습의 주요 병목 현상으로 작용합니다. 선행 연구는 이 문제를 두 가지 방향으로 접근해 왔습니다: (1) 밀집 및 희소 어텐션 연산자를 가속화하는 커널 수준 최적화와, (2) 분산 어텐션 또는 컨텍스트 병렬 학습으로 불리는 모듈 수준 전략으로, 여러 장치에 걸쳐 어텐션을 확장합니다. 그러나 체계적인 평가는 여전히 제한적입니다: 연산자 수준 비교는 종종 불완전하고, 컨텍스트 병렬 전략은 일반적으로 특정 프레임워크에 종속되어 있으며 다양한 컨텍스트 간 명확한 성능 분석이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 평가를 위한 모듈화되고 확장 가능한 인터페이스로 대표적인 어텐션 커널과 컨텍스트 병렬 메커니즘을 통합한 통합 벤치마크를 제안합니다. 본 벤치마크는 두 가지 핵심 차원에서 방법들을 평가합니다: (1) 효율성, 확장성 및 사용성에 큰 영향을 미치는 어텐션 마스크 패턴과, (2) 극단적인 장문맥 학습 조건에서의 성능을 결정하는 시퀀스 길이 및 분산 규모입니다. 최대 96개의 GPU로 구성된 클러스터에서의 포괄적인 실험을 통해, 우리의 벤치마크는 재현 가능한 비교를 가능하게 하고 방법별 장단점을 부각하며, 장문맥 LLM 학습을 위한 어텐션 메커니즘의 설계 및 배치에 실용적인 지침을 제공합니다.
복잡한 작업을 위한 작업 공간에서의 팀워크는 다양한 커뮤니케이션 전략을 필요로 하지만, 현재의 다중 에이전트 LLM 시스템에는 작업 지향적 커뮤니케이션을 위한 체계적인 프레임워크가 부족합니다. 우리는 이 격차를 해결하기 위한 확장 가능한 프레임워크인 Communication to Completion(C2C)을 소개합니다. C2C는 두 가지 핵심 혁신을 통해 이를 해결합니다: (1) 작업 효율성에 직접적인 영향을 미치는 새로운 지표인 에이전트 작업 정렬도(AF)와 (2) 단계적 실행과 지능형 커뮤니케이션 의사결정을 통합한 순차적 액션 프레임워크입니다. C2C는 에이전트가 비용 인식형 커뮤니케이션 선택을 할 수 있게 하여, 표적화된 상호작용을 통해 작업 이해도를 동적으로 향상시킵니다. 우리는 C2C를 3가지 복잡도 계층과 5명에서 17명에 이르는 다양한 에이전트 규모의 현실적인 코딩 워크플로우에서 평가했으며, 커뮤니케이션 없음 및 고정 단계 기준선과 비교했습니다. 결과에 따르면 C2C는 허용 가능한 커뮤니케이션 비용으로 작업 완료 시간을 약 40% 단축했습니다. 이 프레임워크는 표준 구성에서 모든 작업을 성공적으로 완료하며 대규모에서도 효과를 유지합니다. C2C는 다중 에이전트 시스템에서 커뮤니케이션 효과성을 측정하는 이론적 기반과 복잡한 협업 작업을 위한 실용적인 프레임워크를 모두 확립합니다.
우리는 계층적 모델-컨텍스트 프로토콜(MCP) 생태계에서 LLM 에이전트의 다중 홉, 종단 간 도구 오케스트레이션을 평가하기 위한 대규모 벤치마크인 MSC-Bench를 소개한다. 기존 벤치마크는 종종 도구를 단독으로 평가하여 기능 중복 및 크로스-서버 오케스트레이션과 같은 과제를 간과함으로써 지나치게 낙관적인 평가를 내놓는다. MSC-Bench는 '동등 기능 집합(equal function sets)'을 통해 실측 기준을 구성하여 F1 점수와 같은 객관적 지표를 허용하고 LLM-as-a-judge 평가에 대한 의존도를 줄여 이러한 격차를 해결한다. 5단계 커리큘럼으로 구성된 본 벤치마크는 단일 도구 오케스트레이션부터 복잡한 크로스-서버 계획 수립, 그리고 범위 외 요청에 대한 견고성에 이르기까지 에이전트 능력을 체계적으로 테스트한다. 실험 결과, 공동 설계 전략 없이는 경직된 계층 구조가 성능을 저해할 수 있으며, 최첨단 에이전트조차도 견고성 측면에서 체계적인 약점을 보여준다. MSC-Bench는 이러한 한계를 드러내고 더 능력 있고 효율적인 도구 활용 에이전트 개발을 안내하는 진단 프레임워크를 제공한다. 벤치마크 및 관련 자료는 https://github.com/snooow1029/MSC_Bench에서 공개적으로 이용할 수 있다.
대규모 언어 모델(LLM)은 이제 수십만 개에서 수백만 개의 토큰에 이르는 컨텍스트 윈도우를 지원하여 장문 문서 요약, 대규모 코드 합성, 다중 문서 질의응답 및 지속적 다중 회차 대화와 같은 애플리케이션을 가능하게 합니다. 그러나 이러한 확장된 컨텍스트는 자기 주의력(self-attention)의 이차 비용을 악화시켜 자기회귀 디코딩에서 심각한 지연을 초래합니다. 기존의 희소 주의력 방법은 이러한 비용을 완화하지만, 각 질의(query)에 대한 중요한 키-값(key-value) 쌍을 회상하는 데 어려움을 겪는 경험적 패턴에 의존하여 정확도 저하를 초래합니다. 본 연구는 장문 컨텍스트 추론을 위해 설계된 경량이면서도 매우 정확한 희소 주의력 메커니즘인 Adamas를 소개합니다. Adamas는 Hadamard 변환, 버킷화(bucketization) 및 2비트 압축을 적용하여 컴팩트한 표현을 생성하고, 효율적인 상위 k개(top-k) 선택을 위해 Manhattan 거리 추정을 활용합니다. 실험 결과, Adamas는 단 64개의 토큰 예산으로 전체 주의력(full attention)의 정확도를 일치시키고, 128개 토큰에서는 거의 무손실 성능을 달성하며, 기존 최첨단(SOTA) 방법 대비 최대 8배 높은 희소성을 지원하면서 32K 길이 시퀀스에서 최대 4.4배의 자기 주의력 속도 향상과 1.5배의 종단 간(end-to-end) 속도 향상을 제공합니다. 특히 Adamas는 전체 주의력과 비슷하거나 더 낮은 퍼플렉서티(perplexity)를 달성하여 공격적인 희소성 조건에서도 정확도를 유지하는 효과성을 입증합니다.
다양한 사전 학습된 대규모 언어 모델의 등장 이후, 과학 텍스트로부터 구조화된 지식을 추출하는 분야는 기존의 전통적인 기계 학습이나 자연어 처리 기술과 비교하여 혁명적인 변화를 겪었습니다. 이러한 발전에도 불구하고, 사용자가 과학 문헌에서 추출한 데이터셋을 구축하고 검증하며 시각화할 수 있는 접근성 높은 자동화 도구는 여전히 부족한 실정입니다. 이에 저희는 기계 판독 가능한 화학적 조성과 특성, 그리고 합성 데이터를 저널 논문에서 추출하여 포괄적인 데이터베이스 생성을 위해 통합하는 작업을 지원하는 자율 다중 에이전트 플랫폼인 ComProScanner를 개발했습니다. 본 프레임워크는 세라믹 압전 재료와 관련된 매우 복잡한 조성 및 대응하는 압전 변형 계수(d33)를 추출하는 데 있어, 이러한 재료에 대한 대규모 데이터셋이 부족하다는 점에 동기를 부여받아 100개의 저널 논문을 대상으로 오픈소스와 상용 모델을 포함한 10가지 다른 LLM을 비교 평가했습니다. DeepSeek-V3-0324는 0.82라는 유의미한 전체 정확도로 모든 모델을 능가했습니다. 이 프레임워크는 문헌에 숨겨진 매우 복잡한 실험 데이터를 추출하여 기계 학습 또는 딥러닝 데이터셋을 구축하기 위한 간단하고 사용자 친화적이며 즉시 사용 가능한 패키지를 제공합니다.
최근 프로빙 연구에 따르면 대규모 언어 모델은 참과 거짓 문장을 구분하는 선형 부분공간을 나타내지만, 그 발생 메커니즘은 불분명합니다. 본 연구에서는 이러한 진실 부분공간을 종단간으로 재현하고 그 발생 경로를 구체적으로 보여주는 투명한 1층 트랜스포머 토이 모델을 소개합니다. 우리는 진실 인코딩이 발생할 수 있는 단순한 설정을 연구했는데, 이는 사실적 주장이 다른 사실적 주장과 함께 나타나는(그 반대의 경우도 마찬가지) 데이터 분포로, 모델이 향후 토큰에 대한 언어 모델 손실을 줄이기 위해 이러한 구분을 학습하도록 유도합니다. 우리는 사전 학습된 언어 모델 실험을 통해 이 패턴을 입증합니다. 마지막으로 토이 설정에서 두 단계 학습 역학을 관찰했습니다: 네트워크는 먼저 몇 단계 만에 개별 사실 연관 관계를 암기한 다음, 더 긴 시간에 걸쳐 참과 거짓을 선형적으로 구분하는 법을 학습하며, 이는 결국 언어 모델링 손실을 감소시킵니다. 종합적으로, 이러한 결과는 언어 모델에서 선형 진실 표현이 어떻게 그리고 왜 발생하는지에 대한 기계론적 실증과 경험적 동기를 제공합니다.