번역이 포함된 일일 선별된 AI 연구 논문
LLM에 붙은 '엔드투엔드'라는 꼬리표는 잘못된 명칭입니다. 실제로는 비분화 가능한 디코딩 과정에 의존하며, temperature나 top-p 같은 하이퍼파라미터를 수작업으로 힘들게 튜닝해야 합니다. 본 논문에서는 자체 디코딩 전략을 학습하여 제어함으로써 진정한 '엔드투엔드' 생성이 가능한 새로운 아키텍처인 AutoDeco를 소개합니다. 표준 트랜스포머에 경량 헤드를 추가하여 각 단계마다 다음 토큰 로짓과 함께 상황에 맞는 temperature 및 top-p 값을 동적으로 예측합니다. 이 접근법은 디코딩을 매개변수화된 토큰 수준 과정으로 전환하여 단일 순전파 내에서 모델이 자체 샘플링 전략을 조절할 수 있게 합니다. 8개 벤치마크에 대한 폭넓은 실험을 통해 AutoDeco가 기본 디코딩 전략을 크게 능가할 뿐만 아니라 '테스트 세트 해킹'에서 도출된 오라클 튜닝 기준선—어떤 정적 방법에 대한 실용적 상한선—에 버금가는 성능을 달성함을 입증했습니다.更重要的是, 우리는 지시 기반 디코딩 제어라는 새로운 능력을 발견했습니다: 모델이 자연어 명령(예: "낮은 무작위성으로 생성")을 해석하고 토큰 단위로 예측된 temperature와 top-p를 조정하는 법을 학습하며, 이는 조종 가능하고 상호작용적인 LLM 디코딩을 위한 새로운 패러다임을 엽니다.
우리는 공정한 비교 하에서 단문 컨텍스트, 장문 컨텍스트, 강화학습(RL) 확장 영역 등 다양한 시나리오에서 기존 전체 어텐션(Full Attention)을 최초로 능가하는 하이브리드 선형 어텐션 아키텍처인 Kimi Linear를 소개한다. 그 핵심에는 제한된 유한 상태 RNN 메모리를 보다 효과적으로 활용할 수 있도록 더 세분화된 게이팅 메커니즘으로 Gated DeltaNet을 확장한 표현력豊富한 선형 어텐션 모듈인 Kimi Delta Attention(KDA)이 있다. 우리의 맞춤형 청크 방식 알고리즘은 특수화된 DPLR(Diagonal-Plus-Low-Rank) 전이 행렬 변형을 통해 높은 하드웨어 효율을 달성하며, 이는 일반 DPLR 공식 대비 계산량을 상당히 줄이면서도 고전적인 델타 규칙과 더 일관성을 유지한다. 우리는 KDA와 MLA(Multi-Head Latent Attention)를 계층별로 하이브리드 구성한, 활성화 매개변수 3B개와 총 매개변수 48B개를 가진 Kimi Linear 모델을 사전 학습했다. 실험 결과, 동일한 학습 레시피로 Kimi Linear는 평가된 모든 과제에서 전체 MLA를 상당한 차이로 능가하면서도 KV 캐시 사용량을 최대 75%까지 줄이고 100만 컨텍스트 길이 대비 디코딩 처리량을 최대 6배까지 달성했다. 이러한 결과는 Kimi Linear가 더 긴 입력 및 출력 길이를 포함한 과제에서도 우수한 성능과 효율성을 바탕으로 전체 어텐션 아키텍처를 대체하여 사용(Drop-in Replacement)할 수 있음을 입증한다. 추가 연구를 지원하기 위해 우리는 KDA 커널 및 vLLM 구현체를 오픈소스로 공개하고, 사전 학습 및 지시 튜닝된 모델 체크포인트를 공개한다.
우리는 시각과 언어를 아우르는 차기 상태를 기본적으로 예측하는 대규모 멀티모달 월드 모델인 Emu3.5를 소개한다. Emu3.5는 인터넷 동영상의 연속 프레임과 자막에서 주로 추출된 10조 개 이상의 토큰으로 구성된 시각-언어 연속 데이터 코퍼스에 대해 통합된 다음 토큰 예측 목표로 엔드투엔드 사전 학습되었다. 이 모델은 시각-언어가 혼합된 입력을 자연스럽게 받아들이고 혼합된 시각-언어 출력을 생성한다. Emu3.5는 멀티모달 추론 및 생성을 향상시키기 위해 대규모 강화 학습을 추가 사후 학습하였다. 추론 효율을 개선하기 위해 토큰 단위 디코딩을 양방향 병렬 예측으로 전환하는 Discrete Diffusion Adaptation(DiDA)을 제안하며, 이는 성능 저하 없이 이미지당 추론 속도를 약 20배 가속화한다. Emu3.5는 장기 시각-언어 생성, 임의 입력-이미지(X2I) 생성, 복잡한 텍스트 중심 이미지 생성 등 강력한 기본 멀티모달 능력을 보여준다. 또한 일반화 가능한 월드 모델링 능력을 통해 다양한 시나리오와 작업에서 시공간적으로 일관된 월드 탐색 및 오픈 월드 구현 조작이 가능하다. 비교 평가에서 Emu3.5는 이미지 생성 및 편집 작업에서 Gemini 2.5 Flash Image(Nano Banana)에 버금가는 성능을 달성했으며,一系列 연속 생성 작업에서 우수한 결과를 보인다. 우리는 커뮤니티 연구 지원을 위해 Emu3.5를 https://github.com/baaivision/Emu3.5 에 오픈소스로 공개한다.
OpenAI의 ChatGPT Atlas는 웹 상호작용을 위한 새로운 기능을 도입하여, 모델이 웹페이지를 분석하고 사용자 의도를 처리하며 브라우저 내에서 직접 커서 및 키보드 입력을 실행할 수 있게 합니다. 정보 검색 작업에서의 능력은 입증되었으나, 역동적이고 상호작용적인 환경에서의 성능은 아직 덜 탐구된 상태입니다. 본 연구에서는 Google의 T-Rex Runner, Sudoku, Flappy Bird, Stein.world를 포함한 브라우저 기반 게임을 테스트 시나리오로 활용하여 Atlas의 웹 상호작용 능력에 대한 초기 평가를 수행합니다. 게임 내 성적 점수를 정량적 지표로 사용하여 다양한 작업 유형별 성능을 평가했습니다. 결과에 따르면 Atlas는 Sudoku와 같은 논리적 추론 작업에서는 인간 기준점보다 훨씬 빠르게 퍼즐을 완료하며 강력한 성능을 보이지만, 정밀한 타이밍과 운동 제어가 필요한 실시간 게임에서는 상당한 어려움을 겪어 초반 장애물을 넘지 못하는 경우가 많았습니다. 이러한 결과는 Atlas가 분석 처리 능력은 보유하고 있으나, 실시간 상호작용이 필요한 역동적인 웹 환경에서는 여전히 뚜렷한 한계가 있음을 시사합니다. 본 프로젝트 웹사이트는 https://atlas-game-eval.github.io에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 다단계 추론이 필요한 문제에 대해 종종 어려움을 겪습니다. 소규모 오픈소스 모델의 경우, 검증 가능한 보상을 활용한 강화 학습(RLVR)은 여러 번의 시도에도 정답이 거의 샘플링되지 않으면 실패하는 반면, 지도 미세 조정(SFT)은 토큰 단위의 경직된 모방을 통해 긴 시연 데이터에 과적합되는 경향이 있습니다. 이러한 격차를 해결하기 위해 우리는 문제 해결을 논리적인 "행동"의 연속적 생성으로 재구성하는 지도 강화 학습(SRL) 프레임워크를 제안합니다. SRL은 모델이 각 행동을 수행하기 전에 내부 추론 과정(monologue)을 생성하도록 훈련합니다. 이 프레임워크는 SFT 데이터셋에서 추출한 전문가의 행동과 모델의 행동 간 유사성을 단계별로 평가하여 더 부드러운 보상을 제공합니다. 이러한 지도 방식은 모든 롤아웃이 틀린 경우에도 더 풍부한 학습 신호를 제공하면서, 전문가 시연에 기반한 유연한 추론을 장려합니다. 그 결과, SRL은 SFT나 RLVR로는 학습이 불가능했던 난제들을 소규모 모델이 학습할 수 있게 합니다. 더 나아가, RLVR로 정교화를 수행하기 전에 SRL로 훈련을 초기화하면 전반적으로 가장 강력한 성능을 달성합니다. 추론 벤치마크를 넘어, SRL은 에이전트형 소프트웨어 엔지니어링 작업에도 효과적으로 일반화되어, 추론 중심 LLM을 위한 강력하고 다재다능한 훈련 프레임워크로 자리매김합니다.
사전 훈련된 시각 표현이 모방 학습을 크게 발전시켰지만, 정책 학습 중에 고정된 상태로 남아 있어 종종 작업에 무관한(task-agnostic) 특성을 보입니다. 본 연구에서는 모델 자체를 미세 조정하지 않고 로봇 제어를 위한 작업 적응형 시각 표현을 얻기 위해 사전 훈련된 텍스트-이미지 확산 모델 활용 방안을 탐구합니다. 그러나 다른 비전 영역에서 성공적인 전략인 텍스트 조건을 단순히 적용하는 것은 제어 작업에서 최소한의 이득만을 보이거나 오히려 성능 저하를 초래함을 발견했습니다. 우리는 이를 확산 모델의 훈련 데이터와 로봇 제어 환경 간의 영역 차이(domain gap)로 귀결 지으며, 제어에 필요한 구체적이고 동적인 시각 정보를 고려한 조건의 필요성을 주장합니다. 이를 위해 우리는 제어 환경에 적응하는 학습 가능한 작업 프롬프트(task prompt)와 프레임별 세부 사항을 포착하는 시각 프롬프트(visual prompt)를 도입한 ORCA를 제안합니다. 새롭게 설계된 조건을 통해 작업 적응형 표현을 용이하게 하는 우리의 접근 방식은 다양한 로봇 제어 벤치마크에서 기존 방법들을 크게 능가하는 최첨단 성능을 달성합니다.
웹, 데스크톱, 모바일 환경을 아우르는 일반화된 에이전트 구축은 기존 시스템이 환경별 인터페이스에 의존하여 크로스 플랫폼 배포가 제한됨에 따라 여전히 해결과제로 남아 있습니다. 본 연구에서는 순수 시각 관찰만으로 작동하며 세 환경 모두에서 최첨단 성능을 달성하는 통합 아키텍처인 Surfer 2를 소개합니다. Surfer 2는 계층적 컨텍스트 관리, 분리된 계획 및 실행, 적응형 복구를 통한 자체 검증을 통합하여 장기간 작업에서도 신뢰할 수 있는 운영을 가능하게 합니다. 우리 시스템은 WebVoyager에서 97.1%, WebArena에서 69.6%, OSWorld에서 60.1%, AndroidWorld에서 87.1%의 정확도를 달성하여 작업별 미세 조정 없이 모든 기존 시스템을 능가합니다. 여러 번의 시도를 통해 Surfer 2는 모든 벤치마크에서 인간의 성능을 초과했습니다. 이러한 결과는 체계적인 오케스트레이션이 파운데이션 모델의 능력을 증폭시키고 시각 상호작용만을 통해 범용 컴퓨터 제어를 가능하게 함을 보여주며, 동시에 파레토 최적의 비용 효율성을 달성하기 위한 차세대 비전 언어 모델의 필요성을 제기합니다.
최신 비디오 생성 모델은 높은 정밀도와 시간적 일관성을 갖춘 비디오를 생성할 수 있어, 상당한 양의 세계 지식을 인코딩하고 있을 가능성을 시사합니다. 사실적인 합성 능력을 넘어, 이러한 모델들은 시각적 인지, 모델링, 조작을 암시하는 새로운 양상을 보여주고 있습니다. 그러나 중요한 질문이 여전히 남아있습니다: 도전적인 시각 추론 시나리오에서 비디오 모델이 제로샷 추론기로 활용될 준비가 되었는가? 본 연구에서는 이 질문을 종합적으로 탐구하기 위한 실증적 연구를 수행하며, 선도적이고 대중적인 Veo-3 모델에 집중합니다. 우리는 공간, 기하학, 물리, 시간, 구현적 논리를 포함한 12가지 차원에 걸쳐 모델의 추론 행동을 평가하여 그 강점과 실패 패턴을 체계적으로 분석합니다. 이 연구를 표준화하기 위해 평가 데이터를 MME-CoF라는 간결한 벤치마크로 정리하여 프레임 연쇄(Chain-of-Frame, CoF) 추론에 대한 깊이 있고 철저한 평가를 가능하게 합니다. 우리의 연구 결과는 현재의 비디오 모델이 단기간의 공간 일관성, 세밀한 그라운딩, 지역적으로 일관된 역학 분야에서 유망한 추론 패턴을 보여주는 반면, 장기적인 인과 추론, 엄격한 기하학적 제약, 추상적 논리 분야에서는 여전히 한계를 보인다는 것을 밝혀냅니다. 전체적으로, 이들은 독립적인 제로샷 추론기로는 아직 신뢰할 만하지 않지만, 전용 추론 모델과 함께 보완적 시각 엔진으로서 고무적인 가능성을 보여줍니다. 프로젝트 페이지: https://video-cof.github.io
우리는 국제수학올림피아드(IMO) 이상의 난이도를 갖춘 50개의 인공 창작 문제로 구성된 고급 수학 추론 벤치마크인 AMO-Bench를 소개한다. 기존 벤치마크는 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위해 고등학교 수학 경시대회 문제를 광범위하게 활용해왔다. 그러나 AIME24/25와 같이 많은 기존 수학 경시대회 문제들은 성능 포화 현상으로 인해 최상위 LLM을 평가하는 데 점점 효과를 잃고 있다. 이를 해결하기 위해 AMO-Bench는 모든 50개 문제가 (1) 전문가들의 교차 검증을 통해 최소 IMO 난이도 기준을 충족하도록 하고, (2) 데이터 암기로 인한 성능 누출 가능성을 방지하기 위해 완전히 독창적인 문제로 구성되어 더 엄격한 도전 과제를 제시한다. 더불어 AMO-Bench의 각 문제는 증명이 아닌 최종 답안만을 요구하여 평가를 위한 자동화되고 강력한 채점이 가능하도록 했다. AMO-Bench에서 26개의 LLM에 대한 실험 결과, 가장 성능이 좋은 모델조차 52.4%의 정확도에 그쳤으며 대부분의 LLM은 40% 미만의 점수를 기록했다. 이러한 저조한 성능 이상으로, 추가 분석을 통해 테스트 시간 계산량 증가에 따른 유망한 스케일링 경향을 AMO-Bench에서 확인했다. 이러한 결과는 현재 LLM의 수학적 추론 능력 향상을 위한 여지가 상당함을 보여준다. 우리는 언어 모델의 추론 능력 발전을 위한 추가 연구를 촉진하기 위해 AMO-Bench를 공개한다. https://amo-bench.github.io/
우리는 에이전트들이 협력적이고 동시적으로 작업하여 복잡한 문제를 해결함으로써 개별 지능의 한계를 넘어서는 성과를 달성하는 '에이전트 조직(agentic organization)'이라는 새로운 AI 시대를 전망합니다. 이러한 비전을 실현하기 위해 우리는 대규모 언어 모델의 새로운 추론 패러다임으로 비동기적 사고(AsyncThink)를 제안하며, 이는 내부 사고 과정을 동시 실행 가능한 구조로 조직화합니다. 구체적으로, 조직자가 동적으로 하위 질의를 작업자들에게 할당하고 중간 지식을 통합하며 일관된 해결책을 도출하는 사고 프로토콜을 제시합니다. 더욱 중요하게는, 이 프로토콜의 사고 구조는 강화 학습을 통해 추가로 최적화될 수 있습니다. 실험 결과, AsyncThink는 병렬 사고 방식 대비 추론 지연 시간을 28% 감소시키면서 수학적 추론 정확도는 향상시키는 것으로 나타났습니다. 또한 AsyncThink는 학습된 비동기 사고 능력을 일반화하여 추가 훈련 없이도 새로운 작업을 효과적으로 해결합니다.
최근 표준 벤치마크에서 3D 인간 모션 생성(MoGen) 기술이 발전했음에도 불구하고, 기존 모델들은 일반화 능력에 있어 근본적인 한계에 직면해 있습니다. 이와 대조적으로, 가장 두드러지게 비디오 생성(ViGen)을 포함한 인접 생성 분야는 인간 행동 모델링에서 뛰어난 일반화 능력을 입증하며, MoGen이 활용할 수 있는 전이 가능한 통찰력을 부각시켰습니다. 이러한 관찰에 동기를 받아, 우리는 데이터, 모델링, 평가라는 세 가지 핵심 축에서 ViGen의 지식을 MoGen으로 체계적으로 전이하는 포괄적인 프레임워크를 제시합니다. 먼저, 고품질 광학 MoCap 데이터와 웹 비디오의 의미론적 주석이 달린 모션, 그리고 최신 ViGen 모델로 생성된 합성 샘플을 통합한 228,000개의 고품질 모션 샘플로 구성된 대규모 데이터셋인 ViMoGen-228K를 소개합니다. 이 데이터셋은 텍스트-모션 쌍과 텍스트-비디오-모션 삼중항을 모두 포함하여 의미론적 다양성을 크게 확장합니다. 둘째, 우리는 게이트 다중모드 조건화를 통해 MoCap 데이터와 ViGen 모델의 사전 지식을 통합하는 플로우 매칭 기반 확산 트랜스포머인 ViMoGen을 제안합니다. 효율성을 높이기 위해, 비디오 생성 의존성을 제거하면서도 강력한 일반화 성능을 유지하는 경량화 변형인 ViMoGen-light를 추가로 개발했습니다. 마지막으로, 모션 품질, 프롬프트 정확도, 일반화 능력에 걸친 세분화된 평가를 위해 설계된 계층적 벤치마크인 MBench를 제시합니다. 광범위한 실험을 통해 우리의 프레임워크가 자동 및 인간 평가 모두에서 기존 접근법을 크게 능가함을 보여줍니다. 코드, 데이터 및 벤치마크는 공개될 예정입니다.
3D 장면을 구축하는 방법에는 절차적 생성과 2D 리프팅이라는 두 가지 보편적인 방식이 있습니다. 이 중 파노라마 기반 2D 리프팅은 강력한 2D 생성 사전 지식을 활용하여 몰입감 있고 현실적이며 다양한 3D 환경을 생성하는 유망한 기술로 부상했습니다. 본 연구에서는 이 기술을 발전시켜 물리 기반 렌더링(PBR), 재조명, 시뮬레이션에 적합한 그래픽 지원 3D 장면을 생성합니다. 우리의 핵심 통찰은 2D 생성 모델을 지오메트리, 텍스처, PBR 재질에 대한 파노라마 인식으로 재활용하는 것입니다. 외관 생성에 중점을 두고 내재적 속성 인식을 간과하는 기존 2D 리프팅 접근법과 달리, 우리는 다목적 통합 프레임워크인 OmniX를 제시합니다. 경량이고 효율적인 크로스 모달 어댑터 구조를 기반으로 하는 OmniX는 파노라마 인식, 생성, 완성을 포함한 광범위한 파노라마 비전 작업에 2D 생성 사전 지식을 재사용합니다. 더 나아가 우리는 다양한 실내외 장면에서 추출한 고품질 멀티모달 파노라마로 구성된 대규모 합성 파노라마 데이터셋을 구축했습니다. 폭넓은 실험을 통해 우리 모델의 파노라마 시각 인식 및 그래픽 지원 3D 장면 생성 성능을 입증하여, 몰입적이고 물리적으로 현실적인 가상 세계 생성의 새로운 가능성을 제시합니다.
현재 텍스트-이미지 생성 모델은 다양한 생성 능력을 구현하기 위해 대규모 비선별 데이터셋으로 학습됩니다. 그러나 이는 사용자 선호도와 잘 일치하지 않습니다. 최근에는 생성된 이미지의 사후 선택을 수행하고 일반적으로 사용자 선호도에 부합하도록 정렬하기 위해 특별히 설계된 보상 모델이 등장했습니다. 이러한 정보성 데이터의 폐기와 단일 보상 최적화는 다양성, 의미적 충실도 및 효율성을 저해하는 경향이 있습니다. 이러한 사후 처리 대신, 우리는 학습 과정에서 다중 보상 모델을 조건으로 설정하여 모델이 직접 사용자 선호도를 학습하도록 제안합니다. 이 방법이 생성된 이미지의 시각적 품질을 획기적으로 향상시킬 뿐만 아니라 학습 속도도 크게 개선함을 보여줍니다. MIRO로 명명된 우리의 제안 방법은 GenEval 구성 벤치마크와 사용자 선호도 점수(PickAScore, ImageReward, HPSv2)에서 최첨단 성능을 달성합니다.
스마트 글래스와 같은 웨어러블 기기는 사용자가 시야 내 개체에 대한 정보를 탐색할 수 있도록 하여 사람들이 주변 환경과 상호작용하는 방식을 변화시키고 있습니다. 다중 모드 검증 증강 생성(MM-RAG)은 이러한 질의를 지원하는 데 핵심적인 역할을 하지만, 특히 웨어러블 시나리오와 관련하여 이 작업을 위한 포괄적인 벤치마크는 아직 부재합니다. 이러한 공백을 메우기 위해 우리는 CRAG-MM(다중 모드 다중 턴 대화를 위한 포괄적인 RAG 벤치마크)을 제안합니다. CRAG-MM은 13개 도메인에 걸쳐 6.5K개의 다양한 (이미지, 질문, 답변) 삼중항과 2K개의 시각 기반 다중 턴 대화를 포함하며, 이 중 6.2K개의 이미지는 웨어러블 기기에서 캡처된 영상을 모방하도록 설계된 에고센트릭 이미지입니다. 우리는 실제 시나리오와 도전 과제를 반영하도록 질문을 신중하게 구성했으며, 다섯 가지 유형의 이미지 품질 문제, 여섯 가지 질문 유형, 다양한 개체 인기도, 상이한 정보 동적 특성, 그리고 다른 대화 턴을 포함합니다. 우리는 단일 소스 증강, 다중 소스 증강, 다중 턴 대화라는 세 가지 작업을 설계했으며, 각각 이미지-지식 그래프 검색과 웹페이지 검색을 위한 연관 검색 코퍼스 및 API와配对되었습니다. 우리의 평가에 따르면 단순한 RAG 접근법은 CRAG-MM 단일 턴 및 다중 턴 QA에서 각각 32%, 43%의 정확도만 달성한 반면, 최신 산업 솔루션도 유사한 품질(32%/45%)을 보여 향상 가능성이 크게 남아 있음을 시사합니다. 이 벤치마크는 KDD Cup 2025를 주최하여 약 1,000명의 참가자와 5,000건의 제출을 유치했으며, 우승 솔루션은 기준 성능을 28% 향상시켜 해당 분야 발전에 대한 초기 영향력을 입증했습니다.
전자의무기록(EHR)은 풍부하면서도 복잡한 정보를 포함하고 있으며, 이의 자동화된 분석은 임상 의사결정에 매우 중요합니다. 대규모 언어 모델(LLM)의 임상 워크플로우 적용에 관한 최근 발전에도 불구하고, EHR 분석 능력은 제한된 과제 범위와 EHR 지향적 추론 능력 부족으로 인해 여전히 제한적입니다. 본 논문은 이러한 격차를 해소하고자 하며, 구체적으로 42개의 distinct EHR 과제에 걸쳐 30만 건의 고품질 추론 사례와 400만 건의 비추론 사례로 구성된 대규모 종합 EHR 추론 명령어 데이터셋인 EHR-Ins를 제시합니다. 핵심 혁신은 대규모 고품질 추론 데이터 생성을 가능하게 하는 Thinking-Graph 주도 프레임워크입니다. 이를 바탕으로 EHR 분석에 맞춤화된 최대 720억 개의 매개변수를 가진 추론 강화 LLM 시리즈인 EHR-R1을 개발했습니다. 도메인 적응, 추론 강화, 강화 학습을 포함한 다단계 학습 패러다임을 통해 EHR-R1은 체계적으로 도메인 지식과 다양한 추론 능력을 습득하여 정확하고 견고한 EHR 분석을 가능하게 합니다. 마지막으로, MIMIC-IV에서 선별된 42개 과제를 아우르는 새로운 벤치마크인 EHR-Bench를 소개하여 EHR 시나리오 전반에 걸친 추론 및 예측 능력을 종합적으로 평가합니다. 실험 결과, 개발된 EHR-R1은 최첨단 상용 및 오픈소스 LLM(DeepSeek-V3 및 GPT-4o 포함)을 꾸준히 능가하며, MIMIC-Bench에서 GPT-4o 대비 30점 이상, EHRSHOT에서는 10% 더 높은 제로샷 AUROC를 달성했습니다. 종합적으로 EHR-Ins, EHR-R1 및 EHR-Bench는 더욱 신뢰할 수 있고 임상적으로 관련성 높은 EHR 분석 개발을 크게 진전시켰습니다.
문서 AI는 빠르게 발전하며 점차 더 많은 관심을 끌고 있습니다. 그러나 대부분의 연구가 문서 레이아웃 분석(DLA)에 집중된 반면, 그 생성적 상대역인 문서 레이아웃 생성은 아직 충분히 탐구되지 않고 있습니다. 주요 장애물은 다양한 레이아웃의 부족에 있습니다: 맨해튼 스타일 구조를 가진 학술 논문이 기존 연구를 지배하는 반면, 신문이나 잡지와 같은 현실 세계의 다양한 장르는 심각하게 저조하게 표현되고 있습니다. 이러한 격차를 해소하기 위해 우리는 6가지 일반적인 문서 유형을 포함하며 여러 출처에서 수집된 현대적인 레이아웃으로 구성된, 최초의 백만 규모 다양한 문서 레이아웃 데이터셋인 OmniLayout-1M을 구축했습니다. 더욱이 기존 방법론들이 복잡한 영역에서 어려움을 겪고 긴 시퀀스를 일관성 있게 배열하는 데 자주 실패하기 때문에, 우리는 0.5B 규모의 OmniLayout-LLM 모델을 소개합니다. 이 모델은 설계된 2단계 Coarse-to-Fine 학습 패러다임을 갖추고 있습니다: 1) 대략적인 범주 정의를 통해 OmniLayout-1M에서 보편적인 레이아웃 원리를 학습하고, 2) 세분화된 주석이 달린 특정 도메인으로 해당 지식을 전이합니다. 광범위한 실험을 통해 우리의 접근 방식이 M^{6}Doc 데이터셋의 여러 도메인에서 강력한 성능을 달성하며, 기존 레이아웃 생성 전문 모델들과 여러 최신 범용 LLM들을 크게 능가함을 입증했습니다. 우리의 코드, 모델, 데이터셋은 공개될 예정입니다.
LLM 에이전트가 발전함에 따라 사용자를 대신해 제품 탐색부터 거래까지 경제적 결정을 중재하는 역할이 점차 확대되고 있습니다. 이러한 응용은 혜택을 약속하지만, 에이전트의 책임성과 사용자에 대한 가치에 관한 많은 의문도 제기합니다. 이러한 의문을 해결하려면 현실적인 시장 조건에서 에이전트가 어떻게 행동하는지 이해하는 것이 필요합니다. 그러나 기존 연구는 대부분 단일 작업 시장(예: 협상)이나 구조화된 두 에이전트 간 상호작용과 같이 제한된 환경에서 에이전트를 평가해왔습니다. 실세계 시장은 근본적으로 다릅니다. 에이전트는 다양한 경제 활동을 처리하고, 불투명한 행동을 보이는 여러 에이전트가 개방형 대화에 참여할 수 있는 대규모의 역동적인 생태계 내에서 조정해야 합니다. 이 격차를 해소하기 위해 우리는 어시스턴트(Assistant) 에이전트가 소비자를, 서비스(Service) 에이전트가 경쟁 기업을 대표하는 양측 에이전트 시장을 조사합니다. 이러한 상호작용을 안전하게 연구하기 위해 어시스턴트와 서비스가 활동할 수 있는 시뮬레이션 환경인 Magentic-Marketplace를 개발했습니다. 이 환경을 통해 우리는 에이전트가 달성하는 효용, 행동 편향, 조작에 대한 취약성, 검색 메커니즘이 시장 결과를 형성하는 방식 등 주요 시장 역학을 연구할 수 있습니다. 우리의 실험에 따르면 최첨단 모델은 이상적인 검색 조건에서만 최적의 복지에 근접할 수 있습니다. 규모가 커지면 성능이 급격히 저하되며, 모든 모델에서 응답 속도가 품질보다 10~30배 우선시되는 심각한 첫 번째 제안 편향이 관찰됩니다. 이러한 발견은 다양한 시장 조건에서 행동이 어떻게 나타나는지 보여주며, 공정하고 효율적인 에이전트 시장 설계에 정보를 제공합니다.
부품 기반 3D 생성은 다양한 응용 분야에서 큰 잠재력을 지닙니다. 암묵적 벡터-집합 토큰을 사용하여 부품을 표현하는 기존 부품 생성기들은 종종 불충분한 기하학적 디테일 문제를 겪습니다. 다른 연구 흐름은 명시적 복셀 표현을 채택하지만 모든 부품이 전역 복셀 그리드를 공유합니다. 이는 작은 부품들이 너무 적은 수의 복셀을 점유하게 만들어 품질 저하를 초래하곤 합니다. 본 논문에서는 암묵적 및 명시적 패러다임을 결합한 새로운 프레임워크인 FullPart를 제안합니다. 우리 방법은 먼저 암묵적 박스 벡터-집합 확산 과정을 통해 바운딩 박스 레이아웃을 도출하는데, 박스 토큰은 기하학적 디테일이 거의 포함되지 않아 암묵적 확산이 효과적으로 처리하는 과업입니다. 그 다음, 각 부품을 고정된 전체 해상도의 자체 복셀 그리드 내에서 상세하게 생성합니다. 전역 저해상도 공간을 공유하는 대신, 우리 방법의 각 부품(작은 부품도 포함)은 전체 해상도로 생성되어 정교한 디테일의 합성이 가능해집니다. 또한 실제 크기가 다른 부품들 간 정보 교환 시 발생하는 정렬 불일치 문제를 해결하기 위해 중심점 인코딩 전략을 도입하여 전역적 일관성을 유지합니다. 더 나아가 신뢰할 수 있는 부품 데이터의 부족 문제를 해결하기 위해 4만 개 객체와 32만 개 부품으로 구성된 현재까지 가장 큰 인간 주석 3D 부품 데이터셋인 PartVerse-XL을 제시합니다. 폭넓은 실험을 통해 FullPart가 3D 부품 생성 분야에서 최첨단 성능을 달성함을 입증합니다. 3D 부품 생성의 미래 연구 발전을 위해 모든 코드, 데이터 및 모델을 공개할 예정입니다.
대규모 멀티모달 모델(LMMs)은 이미지와 텍스트에 대한 통합 추론이 필요한 의학 질문에 답변하는 능력이 점차 향상되고 있으나, 대규모이면서 공개적으로 사용 가능한 고품질 코퍼스의 부족으로 인해 일반적인 의료 VQA 시스템의 훈련은 어려움을 겪고 있습니다. 본 연구는 MedVLSynther를 제시합니다. 이는 루브릭 가이드 생성-검증 프레임워크로, 생의학 논문의 그림, 설명문, 본문 내 참조를 조건으로 하여 고품질의 객관식 VQA 항목을 직접 생성합니다. 생성기는 머신 체크 가능한 JSON 스키마 하에서 독립적인 질문 줄기와 병렬적이며 상호 배타적인 선택지를 생성합니다. 다단계 검증기는 필수 기준(독립성, 단일 정답, 임상적 타당성, 이미지-텍스트 일관성)을 적용하고, 세분화된 긍정 점수를 부여하며, 일반적인 실패 유형에 대해 패널티를 부여한 후 항목을 최종 수락합니다. 이 파이프라인을 PubMed Central에 적용하여 MedSynVQA를 구축했습니다: 13,803개의 이미지에 대한 13,087개의 검수된 질문으로, 13개의 영상 기법과 28개의 해부학적 영역을 포괄합니다. 검증 가능한 보상을 활용한 강화 학습으로 공개 가중치 LMMs을 훈련시킨 결과, 6개의 의료 VQA 벤치마크 전반에서 정확도가 향상되었으며, 3B 모델은 평균 55.85, 7B 모델은 평균 58.15를 달성했습니다. VQA-RAD에서는 최대 77.57, PathVQA에서는 67.76의 성능을 보여 강력한 의료 LMMs을 능가했습니다. 어블레이션 실험을 통해 생성과 검증 단계가 모두 필요하며, 검증된 데이터가 많을수록 지속적으로 도움이 됨을 확인했습니다. 또한 표적 오염 분석을 통해 평가 세트로부터의 유출은 발견되지 않았습니다. MedVLSynther는 전 과정을 공개 논문과 공개 가중치 모델에 기반하여 운영함으로써, 검증 가능하고 재현 가능하며 개인정보를 보호하는 방식으로 확장 가능한 의료 VQA 훈련 데이터를 구축하는 경로를 제시합니다.
인공지능은 지식과 추론 관련 연구 중심 벤치마크에서 빠른 진전을 보였으나, 이러한 성과가 경제적 가치와 자동화로 어떻게 전환되는지는 여전히 불분명합니다. 이를 측정하기 위해 우리는 실질적이고 경제적 가치를 지닌 과제들로 구성된 광범위한 다분야 벤치마크인 원격 노동 지수(RLI)를 도입했습니다. 이 지수는 실전 환경에서 엔드투엔드 에이전트 성능을 평가하기 위해 설계되었습니다. AI 에이전트들은 RLI에서 거의 최하위 수준의 성능을 보였으며, 가장 높은 성능을 보인 에이전트의 자동화율은 2.5%에 그쳤습니다. 이러한 결과는 AI 자동화 논의를 경험적 증거에 기반하게 하여 AI 영향 추적을 위한 공통 기준을 마련하고, 이해관계자들이 AI 주도 노동 자동화를 선제적으로 탐색할 수 있도록 합니다.
본 연구는 소규모 언어 모델(LM)이 지시어 튜닝으로부터 이점을 얻을 수 있는지 탐구한다. 우리는 대화형 및 질의응답형 지시어 튜닝 데이터셋을 병합 방식과 순차적 커리큘럼 방식으로 적용하여 1억 개와 1.4억 개 매개변수를 가진 디코더 전용 모델을 비교한다. 평가는 미세 조정(SuperGLUE)과 제로샷(BLiMP, EWoK, WUGs, 개체 추적, 심리언어학적 상관관계) 설정 모두를 포괄한다. 결과에 따르면 지시어 튜닝은 미세 조정 시나리오에서 작지만 일관된 성능 향상을 가져오며, 순차적 커리큘럼이 병합 데이터보다 우수한 것으로 나타났다. 그러나 이러한 개선 효과가 제로샷 과제로 일관되게 전이되지는 않아, 상호작용 중심 적응과 광범위한 언어적 일반화 사이에 트레이드오프가 존재함을 시사한다. 이러한 결과는 인간의 학습 전략을 저자원 언어 모델에 적용하는 것의 잠재력과 한계를 동시에 부각하며, 생태학적 훈련 제약 조건 내에서 일반화 능력을 향상시키기 위한 혼합형 커리큘럼 접근법의 방향을 제시한다.
현재 도구 활용 대규모 언어 모델(LLM)은 정적 데이터셋으로 훈련되어 외부 도구와 상호작용하며 다단계의 도구 통합 추론을 수행함으로써 도구 호출 궤적을 생성합니다. 그러나 이러한 모델들은 일반적인 도구 호출 루틴에서 쿼리가 해결되는 방식을 모방할 뿐, 가능한 해결책을 탐색하지 못하며 진화하는 동적 도구 호출 환경에서 제한된 성능을 보입니다. 본 연구에서는 도구 활용 LLM이 정답을 도출하는 다양한 궤적을 탐색하도록 유도하는 강화 학습(RL) 기법인 PORTool을 제안합니다. 구체적으로, 이 방법은 주어진 쿼리에 대해 여러 롤아웃을 생성하는 것으로 시작하며, 이들 중 일부는 초기 몇 단계의 도구 호출 단계를 공유하여 트리 구조를 형성합니다. 다음으로 각 단계가 정답을 생성하고 성공적인 도구 호출을 수행하는 능력을 기반으로 보상을 부여합니다. 서로 다른 궤적에서 공유되는 단계는 동일한 보상을 받는 반면, 동일한 분기점 아래의 서로 다른 단계는 다른 보상을 받습니다. 마지막으로, 이러한 단계별 보상은 도구 사용을 위해 LLM을 훈련시키기 위해 궤적 상대적 이점과 혼합된 분기 상대적 이점을 계산하는 데 사용됩니다. 실험에서는 시간 민감 및 시간 불변 주제를 모두 포괄하는 17가지 도구를 활용하여 사용자 쿼리를 해결합니다. 단계별 보상의 필요성과 설계 견고성을 체계적으로 입증하기 위해 애블레이션 연구를 수행합니다. 더 나아가, 제안된 PORTool을 다른 훈련 접근법과 비교하여 최종 정확도와 도구 호출 단계 수에서의 유의미한 개선을 입증합니다.
대규모 언어 모델(LLM)은 자연어 이해 및 생성 작업에서 최첨단 성능을 제공합니다. 그러나 전자상거래와 같은 특화된 작업에 선도적인 상용 모델을 배포하는 것은 높은 컴퓨팅 비용, 지연 시간, 운영 비용으로 인해 종종 제약을 받습니다. 본 논문은 자원 효율적인 대안으로 더 작은 오픈 웨이트 모델의 타당성을 조사합니다. 우리는 다국어 전자상거래 의도 인식을 위해 10억 파라미터 규모의 Llama 3.2 모델을 최적화하는 방법론을 제시합니다. 이 모델은 실제 사용자 질의를 모방하도록 설계된 합성 데이터셋을 사용하여 양자화된 로우 랭크 적응(QLoRA) 방식으로 미세 조정되었습니다. 이후 훈련 후 양자화 기법을 적용하여 GPU 최적화(GPTQ) 및 CPU 최적화(GGUF) 버전을 생성했습니다. 우리의 결과는 특화된 10억 파라미터 모델이 99% 정확도를 달성하며, 훨씬 더 큰 GPT-4.1 모델의 성능과 일치함을 보여줍니다. 상세한 성능 분석을 통해 하드웨어에 따른 중요한 절충점이 밝혀졌습니다: 4비트 GPTQ는 VRAM 사용량을 41% 줄였지만, 오래된 GPU 아키텍처(NVIDIA T4)에서는 역양자화 오버헤드로 인해 추론 속도가 82% 느려졌습니다. 반면 CPU에서 GGUF 형식은 FP16 기준과 비교하여 추론 처리량에서 최대 18배의 속도 향상과 RAM 사용량에서 90% 이상의 감소를 달성했습니다. 우리는 적절히 최적화된 소규모 오픈 웨이트 모델이 특정 도메인 애플리케이션에 대해 단순히 타당한 대안이 아닌, 훨씬 적은 컴퓨팅 비용으로 최첨단 정확도를 제공하는 더 적합한 대안이라고 결론지었습니다.
자기 발전(self-improvement)은 대규모 시각-언어 모델(LVLM)의 추론 능력을 향상시키는 주류 패러다임으로 부상했으며, 이 과정에서 모델은 성공적인 트랙터리를 반복적으로 탐색하고 학습합니다. 그러나 본 연구에서는 이 과정에서 중요한 문제점을 확인했습니다: 모델은 단순한 질의(즉, 헤드 데이터)에 대해서는 고품질 트랙터리 생성을 잘 수행하지만, 더 복잡한 질의(즉, 테일 데이터)에 대해서는 어려움을 겪습니다. 이로 인해 불균형한 최적화가 발생하여 모델이 단순한 추론 기술을 우선시하게 되고, 더 복잡한 추론 과제 해결 능력은 저해됩니다. 이러한 불균형은 반복을 거듭할수록 점점 더 두드러지는데, 우리는 이러한 동적 현상을 "매튜 효과(Matthew effect)"로 명명하며, 이는 궁극적으로 모델의 추가 발전을 저해하고 성능 병목 현상을 초래한다고 봅니다. 이러한 문제를 해결하기 위해 우리는 탐색-학습 자기 발전 과정에서 헤드-테일 재균형을 달성하기 위해 두 가지 관점(분포 재구성 및 트랙터리 재샘플링)에서 네 가지 효율적인 전략을 제안합니다. 시각적 추론 작업에 대한 Qwen2-VL-7B-Instruct 및 InternVL2.5-4B 모델을 대상으로 한 광범위한 실험 결과, 우리의 방법이 시각적 추론 능력을 지속적으로 향상시키며, 일반적인 자기 발전 방법보다 평균 3.86점 높은 성능을 보여주었습니다.
대규모 언어 모델은 다양한 자연어 처리 과제에서 뛰어난 추론 능력을 입증해왔습니다. 그러나 과학적 발견 분야에서 이에 상응하는 혁신은 더 제한적입니다. 왜냐하면 복잡한 물리적 현상을 이해하려면 언어만으로는 부족한 다각적 표현이 필요하기 때문입니다. 대표적인 사례가 탄소 포집 및 수소 저장 등 중요한 응용 분야에 필수적인 MOF(금속-유기 골격체)와 같은 기능성 소재 설계입니다. LLM이 해석할 수 있는 언어 기반 표현으로 MOF의 방대하고 복잡한 설계 공간을 탐색하는 것은 수많은 가능한 3차원 원자 배열과 배위 기하학 및 위상수학의 엄격한 그물망 규칙으로 인해 어려운 과제입니다. 더 단순한 물질 시스템에서 LLM 지원 발견의 초기 성과가 기대를 모으고 있지만, MOF 설계는 여전히 텍스트 정보만으로는 체계화되기 어려운 암묵적 인간 전문성에 크게 의존하고 있습니다. 이러한 장벽을 극복하기 위해 우리는 MOF 최초의 다중모달 LLM인 L2M3OF를 소개합니다. L2M3OF는 구조적, 텍스트, 지식 모달리티를 공동으로 처리하기 위해 결정 표현 학습과 언어 이해를 통합합니다. L2M3OF는 사전 훈련된 결정 인코더와 경량 투사 계층을 사용하여 구조 정보를 토큰 공간으로 압축함으로써 언어 지시어와의 효율적인 정렬을 가능하게 합니다. 훈련과 평가를 위해 우리는 결정성 소재의 구조-물성-지식 데이터베이스를 구축하고 L2M3OF를 GPT-5, Gemini-2.5-Pro, DeepSeek-R1과 같은 최첨단 독점 LLM과 성능을 비교했습니다. 실험 결과, L2M3OF는 매개변수 수가 훨씬 적음에도 불구하고 물성 예측 및 지식 생성 과제에서 선도적인 텍스트 기반 독점 LLM들을 능가하는 것으로 나타났습니다. 이러한 결과는 다공성 물질 이해를 위한 다중모달 접근법의 중요성을 강조하며, 소재 발견 분야 차세대 AI 시스템의 기반으로서 L2M3OF의 위상을 확립합니다.
기질 특이적 기능을 갖는 효소 백본 설계는 계산 단백질 공학의 핵심 과제입니다. 기존 생성 모델은 단백질 설계에서 뛰어난 성능을 보이지만, 결합 데이터 부족, 기질 특이적 제어의 한계, 그리고 데노보 효소 백본 생성의 유연성 측면에서 한계를 보입니다. 이를 해결하기 위해 우리는 PDBbind에서 특별히 선별한 11,100개의 실험적으로 검증된 효소-기질 쌍으로 구성된 EnzyBind 데이터셋을 소개합니다. 이를 기반으로 효소 백본 생성에서 기능적 및 기질 특이적 제어가 가능한 EnzyControl 방법을 제안합니다. 우리의 접근법은 선별된 효소-기질 데이터에서 자동 추출된 MSA로 주석 처리된 촉매 부위와 해당 기질에 조건부로 효소 백본을 생성합니다. EnzyControl의 핵심은 사전 훈련된 모티프-스캐폴딩 모델에 통합된 경량 모듈식 구성 요소인 EnzyAdapter로, 모델이 기질 인식 능력을 갖추도록 합니다. 2단계 학습 패러다임은 정확하고 기능적인 효소 구조 생성 능력을 추가로 개선합니다. 실험 결과, 우리의 EnzyControl은 EnzyBind 및 EnzyBench 벤치마크에서 구조적 및 기능적 지표 전반에 걸쳐 최고 성능을 달성했으며, 기준 모델 대비 설계 가능성에서 13%, 촉매 효율에서 13%라는 특히 두드러진 향상을 보였습니다. 코드는 https://github.com/Vecteur-libre/EnzyControl에서 공개되었습니다.
구어 언어 처리의 최근 발전은 자동 음성 인식(ASR), 음소 인식(PR), 자소-음소 변환(G2P), 음소-자소 변환(P2G)과 같은 음운 작업에서 상당한 진전을 가져왔습니다. 개념적 유사성에도 불구하고, 이러한 작업들은 주로 각각 독립적으로 연구되어 왔으며, 각각 작업별 맞춤형 아키텍처와 데이터셋에 의존해왔습니다. 본 논문에서는 음운 관련 다중 작업을 통합적으로 수행할 수 있는 최초의 프레임워크인 POWSM(Phonetic Open Whisper-style Speech Model)을 소개합니다. POWSM은 오디오, 텍스트(자소), 음소 간의 원활한 변환을 가능하게 하여 범용 및 저자원 음성 처리에 새로운 가능성을 열어줍니다. 우리의 모델은 유사한 규모의 전용 PR 모델(Wav2Vec2Phoneme 및 ZIPA)을 능가하거나 동등한 성능을 보이면서도 G2P, P2G, ASR을 통합적으로 지원합니다. 공개 과학을 촉진하기 위해 학습 데이터, 코드 및 모델을 공개합니다.
거리 뷰 및 위성 영상과 같은 공개된 대규모 웹 데이터를 활용한 도시 사회경제적 센싱은 글로벌 지속가능발전목표(SDGs)를 달성하는 데 매우 중요합니다. 대규모 시각-언어 모델(LVLMs)의 등장으로 이 과제를 다중 모달 인식 및 이해 문제로 접근하여 해결할 새로운 기회가 생겼습니다. 그러나 최근 연구에 따르면 LVLM은 시각 데이터에서 정확하고 해석 가능한 사회경제적 예측을 수행하는 데 여전히 어려움을 겪고 있습니다. 이러한 한계를 해결하고 LVLM의 잠재력을 극대화하기 위해 우리는 순수 강화 학습(RL)을 통해 LVLM에서 도시 사회경제적 상태를 추론하는 새로운 프레임워크인 CityRiSE를 소개합니다. 신중하게 구성된 다중 모달 데이터와 검증 가능한 보상 설계를 통해 우리의 접근 방식은 LVLM이 의미론적으로 의미 있는 시각적 단서에 집중하도록 유도하여 일반적인 사회경제적 상태 예측을 위한 구조화되고 목표 지향적인 추론을 가능하게 합니다. 실험 결과, CityRiSE의 창발적 추론 과정이 기존 베이스라인을 크게 능가하며, 특히 보지 않은 도시와 보지 않은 지표에 대한 예측에서 다양한 도시 환경 전반에 걸쳐 예측 정확도와 일반화 성능을 모두 향상시키는 것으로 나타났습니다. 이 작업은 해석 가능하고 일반적인 도시 사회경제적 센싱을 위해 RL과 LVLM을 결합하는 것의 가능성을 강조합니다.
차트는 시각화, 추론, 데이터 분석 및 인간 간 아이디어 교환에서 중요한 역할을 합니다. 그러나 기존 시각-언어 모델(VLM)은 여전히 세부 요소에 대한 정확한 인식이 부족하며 차트에서 세밀한 구조를 추출하는 데 어려움을 겪습니다. 이러한 차트 기반 인식의 한계는 여러 차트를 비교하고 이를 기반으로 추론하는 모델의 능력도 저해합니다. 본 논문에서는 다양한 유형과 복잡성을 지닌 차트로부터 표 형식 데이터 추출, 시각화 요소 위치 파악, 다양한 속성 인식 등 차트 기반 인식 과제에서 VLM의 종합적인 평가를 제공하는 새로운 "ChartAlign Benchmark(ChartAB)"를 소개합니다. 우리는 각 기반 인식 과제에 특화된 평가 지표 계산을 용이하게 하기 위해 JSON 템플릿을 설계했습니다. 새로운 2단계 추론 워크플로우를 도입함으로써, 본 벤치마크는 두 차트 간 요소/속성 정렬 및 비교 능력까지 추가로 평가할 수 있습니다. 최근 여러 VLM에 대한 평가 분석을 통해 차트 이해 과정에서의 인식 편향, 취약점, 견고성 및 환각 현상에 대한 새로운 통찰을 얻었습니다. 이러한 결과는 차트 이해 과제에서 VLM 간 존재하는 세밀한 차이를 부각시키며, 현재 모델에서 강화해야 할 구체적인 기술적 개선점을 제시합니다.