번역이 포함된 일일 선별된 AI 연구 논문
우리는 새로운 장면을 객체, 카메라, 배경을 재구성하여 합성하는 생성형 시각적 합성 프레임워크인 BlenderFusion을 소개합니다. 이 프레임워크는 레이어링-편집-합성 파이프라인을 따릅니다: (i) 시각적 입력을 분할하고 편집 가능한 3D 엔티티로 변환(레이어링), (ii) Blender에서 3D 기반 제어를 통해 편집(편집), (iii) 생성형 합성기를 사용하여 일관된 장면으로 융합(합성). 우리의 생성형 합성기는 사전 훈련된 확산 모델을 확장하여 원본(소스) 장면과 편집된(타겟) 장면을 병렬로 처리합니다. 이 모델은 두 가지 주요 훈련 전략을 통해 비디오 프레임에 대해 미세 조정됩니다: (i) 소스 마스킹을 통해 배경 교체와 같은 유연한 수정 가능, (ii) 시뮬레이션된 객체 지터링을 통해 객체와 카메라에 대한 분리된 제어 가능. BlenderFusion은 복잡한 구성적 장면 편집 작업에서 기존 방법들을 크게 능가합니다.
본 논문에서는 비디오 다중모달 대형 언어 모델을 위한 학습 없이 적용 가능한 토큰 압축 전략인 LLaVA-Scissor를 제안한다. 기존 방법들은 주로 어텐션 점수를 기반으로 토큰을 압축하려 시도했으나, 모든 의미 영역을 효과적으로 포착하지 못하고 토큰 중복을 초래하는 경우가 많았다. 이와 달리, 본 연구에서는 토큰 집합 내에서 서로 다른 의미 영역에 토큰을 할당하는 의미 연결 컴포넌트(Semantic Connected Components, SCC) 접근법을 활용하여 포괄적인 의미 커버리지를 보장한다. 이를 통해 공간적 및 시간적 영역 모두에서 SCC를 활용하는 2단계 시공간 토큰 압축 전략을 제안한다. 이 전략은 비디오 전체를 중복되지 않는 의미 토큰 집합으로 표현함으로써 토큰을 효과적으로 압축할 수 있다. LLaVA-Scissor의 토큰 압축 능력을 비디오 질의응답, 장기 비디오 이해, 종합적인 다중 선택 벤치마크 등 다양한 비디오 이해 벤치마크에서 광범위하게 평가하였다. 실험 결과, 제안된 LLaVA-Scissor는 특히 낮은 토큰 유지 비율에서 다른 토큰 압축 방법들을 능가하며 다양한 비디오 이해 벤치마크에서 우수한 성능을 달성함을 보여준다. 프로젝트 페이지: https://github.com/HumanMLLM/LLaVA-Scissor.
텍스트-이미지 생성에서 주체의 정체성과 의미론적 속성(포즈, 스타일, 조명)에 대한 세밀한 제어를 달성하는 것은, 특히 다중 주체의 경우, Diffusion Transformers(DiTs)의 편집 가능성과 일관성을 저해하는 경우가 많다. 많은 접근법이 아티팩트를 유발하거나 속성 간의 얽힘 문제를 겪는다. 이러한 문제를 극복하기 위해, 우리는 새로운 다중 주체 제어 생성 모델 XVerse를 제안한다. XVerse는 참조 이미지를 토큰별 텍스트 스트림 변조를 위한 오프셋으로 변환함으로써, 이미지 잠재 공간이나 특징을 방해하지 않으면서 특정 주체에 대한 정밀하고 독립적인 제어를 가능하게 한다. 결과적으로, XVerse는 개별 주체 특성과 의미론적 속성에 대한 강력한 제어를 통해 고품질의 편집 가능한 다중 주체 이미지 합성을 제공한다. 이러한 발전은 개인화된 복잡한 장면 생성 능력을 크게 향상시킨다.
영화의 기본적인 시각적 언어인 촬영 기법은 내러티브, 감정, 미적 품질을 전달하는 데 필수적이다. 최근 비전-언어 모델(VLMs)은 강력한 일반 시각 이해 능력을 보여주지만, 개별 샷에 내재된 미묘한 영화 문법을 이해하는 데 대한 숙련도는 여전히 크게 탐구되지 않았으며, 강력한 평가가 부족하다. 이러한 중요한 격차는 세밀한 시각적 이해와 AI 지원 비디오 생성의 정밀도를 모두 제한한다. 이를 해결하기 위해, 우리는 촬영 언어 이해를 위해 특별히 설계된 포괄적인 벤치마크인 ShotBench를 소개한다. ShotBench는 200편 이상의 명성 높은(주로 오스카 후보에 오른) 영화에서 선별된 이미지와 비디오 클립으로부터 전문가가 주석을 단 3,500개 이상의 QA 쌍을 포함하며, 여덟 가지 주요 촬영 기법 차원을 아우른다. ShotBench에서 24개의 주요 VLMs을 평가한 결과, 이들의 상당한 한계가 드러났다: 최고 성능 모델조차도 평균 정확도가 60% 미만으로, 특히 세밀한 시각적 단서와 복잡한 공간 추론에서 어려움을 겪었다. 이 분야의 발전을 촉진하기 위해, 우리는 약 70,000개의 영화 QA 쌍으로 구성된 대규모 멀티모달 데이터셋인 ShotQA를 구축했다. ShotQA를 활용하여, 우리는 지도 미세 조정과 그룹 상대 정책 최적화를 통해 ShotVL을 개발했다. ShotVL은 ShotBench에서 모든 기존 오픈소스 및 독점 모델을 크게 능가하며, 새로운 최첨단 성능을 확립했다. 우리는 이 중요한 AI 기반 영화 이해 및 생성 분야의 빠른 진전을 촉진하기 위해 모델, 데이터, 코드를 오픈소스로 공개한다.
내부 세계 모델(World Models, WMs)은 에이전트가 세계의 상태를 이해하고 전이를 예측할 수 있게 하여, 고급 사고적 추론의 기반을 제공한다. 최근 OpenAI의 GPT-4o와 Gemini와 같은 대규모 시각-언어 모델(Vision-Language Models, VLMs)은 범용 세계 모델로서의 잠재력을 보여주고 있다. 최신 연구들은 시각 이해와 같은 특정 능력에 대한 한계를 평가하고 보여주었지만, VLMs의 기본적인 세계 모델 능력에 대한 체계적인 평가는 아직 이루어지지 않았다. 비교심리학과 인지과학을 바탕으로, 우리는 시각, 공간, 시간, 양적, 운동적 지각(Perception)과 기계적 시뮬레이션, 전이 추론, 구성적 추론(Prediction)을 평가하는 두 단계 프레임워크를 제안하여 VLMs를 세계 모델로서 원자적 수준에서 평가한다. 이 프레임워크를 기반으로, 우리는 WM-ABench라는 대규모 벤치마크를 소개한다. 이 벤치마크는 6가지 다양한 시뮬레이션 환경에서 통제된 반사실적 시뮬레이션을 통해 23개의 세부 평가 차원을 포함한다. 15개의 최신 상용 및 오픈소스 VLMs에 대한 660개의 실험을 통해, 우리는 이러한 모델들이 기본적인 세계 모델링 능력에서 현저한 한계를 보인다는 것을 발견했다. 예를 들어, 거의 모든 모델들이 운동 궤적을 구별할 때 거의 무작위 수준의 정확도를 보였다. 또한, 이들은 분리된 이해 능력이 부족하다. 예를 들어, 일부 모델들은 파란색 물체가 초록색 물체보다 더 빠르게 움직인다고 믿는 경향이 있다. 더 풍부한 결과와 분석은 VLMs과 인간 수준의 세계 모델링 사이에 상당한 격차가 있음을 보여준다.
밀집 예측(dense prediction) 작업은 컴퓨터 비전에서 중요한 위치를 차지하며, 입력 이미지에 대해 픽셀 단위로 주석이 달린 레이블을 학습하는 것을 목표로 합니다. 이 분야의 발전에도 불구하고, 기존 방법들은 주로 이상적인 조건에 초점을 맞추고 있어 실제 시나리오로의 일반화가 제한적이며, 실제 데이터의 부족이라는 어려움에 직면해 있습니다. 이 문제를 체계적으로 연구하기 위해, 우리는 먼저 DenseWorld를 소개합니다. 이는 긴급한 실제 응용 프로그램에 해당하는 25개의 다양한 밀집 예측 작업을 아우르는 벤치마크로, 작업 간 통일된 평가를 특징으로 합니다. 그런 다음, 우리는 생성 모델의 시각적 사전 지식을 최대한 활용하여 다양한 실제 밀집 예측 작업을 통일된 전략으로 수행하는 DenseDiT를 제안합니다. DenseDiT는 매개변수 재사용 메커니즘과 다중 스케일 컨텍스트를 적응적으로 통합하는 두 개의 경량 분기를 결합하여, 추가 매개변수를 0.1% 미만으로 사용합니다. DenseWorld에 대한 평가 결과, 기존의 일반적 및 특수화된 베이스라인들이 현저한 성능 하락을 보이며, 이들의 실제 일반화 능력이 제한적임을 확인했습니다. 반면, DenseDiT는 베이스라인의 0.01% 미만의 학습 데이터를 사용하여 우수한 결과를 달성하며, 실제 배포를 위한 실용적 가치를 입증했습니다. 우리의 데이터, 체크포인트 및 코드는 https://xcltql666.github.io/DenseDiTProj에서 확인할 수 있습니다.
로보틱스는 DARPA의 Urban 및 Robotics Challenges부터 첫 번째 휴머노이드 로봇 킥복싱 토너먼트에 이르기까지 하드웨어 측면에서 놀라운 발전을 이루었지만, 상업적 자율성은 여전히 머신러닝의 진보에 뒤처져 있습니다. 주요 병목 현상은 소프트웨어에 있습니다: 현재의 로봇 스택은 가파른 학습 곡선, 저수준 C/C++ 전문 지식, 분산된 도구, 그리고 복잡한 하드웨어 통합을 요구하며, 이는 현대 AI를 이끌어온 Python 중심의 잘 문서화된 생태계와는 극명한 대조를 이룹니다. 우리는 이러한 격차를 해소하기 위해 오픈소스 Python 우선 로보틱스 프레임워크인 ARK를 소개합니다. ARK는 Gym 스타일의 환경 인터페이스를 제공하여 사용자가 데이터를 수집하고 전처리하며, 최신의 모방 학습 알고리즘(예: ACT, Diffusion Policy)을 사용해 정책을 훈련할 수 있도록 하며, 고해상도 시뮬레이션과 물리적 로봇 간의 원활한 전환을 가능하게 합니다. 경량화된 클라이언트-서버 아키텍처는 네트워크 기반의 발행자-구독자 통신을 제공하며, 필요 시 실시간 성능을 보장하기 위한 선택적 C/C++ 바인딩을 포함합니다. ARK는 제어, SLAM, 모션 플래닝, 시스템 식별, 시각화를 위한 재사용 가능한 모듈과 함께 기본 ROS 상호 운용성을 제공합니다. 조작부터 모바일 내비게이션에 이르는 포괄적인 문서와 사례 연구는 빠른 프로토타이핑, 손쉬운 하드웨어 교체, 그리고 주류 머신러닝 워크플로우의 편의성에 필적하는 엔드투엔드 파이프라인을 보여줍니다. ARK는 로보틱스와 AI 실무를 공통의 Python 환경 아래 통합함으로써 진입 장벽을 낮추고 자율 로봇의 연구 및 상업적 배포를 가속화합니다.
대규모 언어 모델(Large Language Models)에서 전문가 혼합(Mixture of Experts, MoE)의 등장은 훨씬 더 많은 모델 파라미터 수와 학습 능력을 제공하면서도 실행 비용을 적게 유지할 수 있음을 약속합니다. 이는 각 입력 토큰에 대해 활성화되는 파라미터가 일부에 불과하기 때문입니다. 그러나 일반적으로 일부 전문가가 다른 전문가보다 훨씬 더 자주 활성화되는 현상이 관찰되며, 이는 여러 장치에서 전문가를 병렬로 실행할 때 시스템 비효율성을 초래합니다. 따라서 우리는 전문가 선택 과정에서 전문가를 그룹화하고, MoE보다 본질적으로 더 나은 전문가 작업 부하 균형을 제공하는 그룹화된 전문가 혼합(Mixture of Grouped Experts, MoGE)을 소개합니다. MoGE는 각 사전 정의된 전문가 그룹 내에서 동일한 수의 전문가를 활성화하도록 토큰을 제한합니다. 모델 실행이 여러 장치에 분산될 때, 이러한 아키텍처 설계는 장치 간의 계산 부하를 균형 있게 유지하여 특히 추론 단계에서 처리량을 크게 향상시킵니다. 더 나아가, 우리는 Ascend NPU에서 720억 개의 총 파라미터를 가진 MoGE 기반의 희소 모델인 Pangu Pro MoE를 구축했습니다. 이 중 각 토큰에 대해 160억 개의 파라미터가 활성화됩니다. Pangu Pro MoE의 구성은 Ascend 300I Duo와 800I A2를 위해 광범위한 시스템 시뮬레이션 연구를 통해 최적화되었습니다. 우리의 실험 결과, MoGE는 Ascend NPU에서 모델 학습과 추론 모두에 대해 더 나은 전문가 부하 균형과 더 효율적인 실행을 이끌어냄을 보여줍니다. Pangu Pro MoE의 추론 성능은 카드당 1148 토큰/초를 달성하며, 추론 가속(speculative acceleration)을 통해 카드당 1528 토큰/초로 더욱 향상될 수 있어, 비교 가능한 32B 및 72B Dense 모델을 능가합니다. 또한, Ascend 300I Duo에서 모델 추론에 대한 탁월한 비용 대비 성능 비율을 달성했습니다. 우리의 연구는 Ascend NPU가 대규모 병렬화를 통해 Pangu Pro MoE를 학습할 수 있으며, 이를 통해 100B 미만의 총 파라미터 클래스에서 선두 모델로 자리매김할 수 있음을 보여줍니다. 이는 GLM-Z1-32B 및 Qwen3-32B와 같은 유명한 오픈소스 모델을 능가하는 성능을 보입니다.
최근 딥 생성 모델링의 발전으로 비디오 합성 분야에서 전례 없는 기회가 열렸다. 그러나 실제 응용에서는 사용자들이 정밀하고 일관된 제어를 통해 창의적인 편집 의도를 충실히 실현할 수 있는 도구를 원하는 경우가 많다. 기존 방법들이 이룬 진전에도 불구하고, 사용자 의도와의 세밀한 정렬을 보장하는 것은 여전히 열려 있고 도전적인 문제로 남아 있다. 본 연구에서는 정밀하고 일관된 비디오 편집을 위해 3D 프록시를 통합한 새로운 프레임워크인 Shape-for-Motion을 제안한다. Shape-for-Motion은 입력 비디오의 대상 객체를 시간적으로 일관된 메시, 즉 3D 프록시로 변환함으로써 이를 달성한다. 이를 통해 편집을 프록시에서 직접 수행한 후 비디오 프레임으로 다시 추론할 수 있다. 편집 과정을 단순화하기 위해, 우리는 사용자가 단일 프레임의 3D 메시에서 편집을 수행하면 해당 편집이 다른 프레임의 3D 메시로 자동 전파되는 새로운 이중 전파 전략을 설계했다. 서로 다른 프레임의 3D 메시는 2D 공간에 투영되어 편집된 기하학적 구조와 텍스처 렌더링을 생성하며, 이는 편집된 결과를 생성하기 위해 디커플링된 비디오 확산 모델의 입력으로 사용된다. 우리의 프레임워크는 포즈 편집, 회전, 크기 조정, 이동, 텍스처 수정 및 객체 합성과 같은 비디오 프레임 전반에 걸친 다양한 정밀하고 물리적으로 일관된 조작을 지원한다. 우리의 접근 방식은 고품질의 제어 가능한 비디오 편집 워크플로우를 향한 중요한 단계를 표시한다. 광범위한 실험을 통해 우리 접근 방식의 우수성과 효과성을 입증했다. 프로젝트 페이지: https://shapeformotion.github.io/
현재의 시각-언어 모델(VLMs)은 특히 다단계 논리와 정밀한 공간 정렬이 요구되는 미세한 공간 추론에서 어려움을 겪고 있다. 본 연구에서는 이러한 한계를 해결하기 위해 설계된 시각-언어 추론 모델인 SpatialReasoner-R1을 소개한다. 고품질의 공간 추론 지도를 구축하기 위해, 우리는 다양한 논리적으로 일관된 장기 사고 사슬(Long Chain-of-Thought, LongCoT) 추론 궤적을 생성하는 다중 모델 몬테카를로 트리 탐색(Multi-Model Monte Carlo Tree Search, M3CTS) 방법을 설계하였다. 또한, 시각적 일관성, 공간 정착, 논리적 일관성을 기반으로 후보 응답을 평가하는 공간 보상 메커니즘의 지도 하에, 기술적 근거와 논리적 추론을 위한 세그먼트별 선호도 세분화를 도입한 미세 직접 선호 최적화(fine-grained Direct Preference Optimization, fDPO)를 제안한다. 실험 결과, fDPO는 공간 품질 작업에서 표준 DPO 대비 평균 4.1%의 개선을 달성했으며, 공간 양 작업에서는 9.0%의 향상을 보였다. fDPO로 훈련된 SpatialReasoner-R1은 SPATIALRGPT-Bench에서 새로운 최첨단 기술(SoTA)을 설정하며, 가장 강력한 기준선 대비 평균 정확도에서 9.8% 우수한 성능을 보였고, 일반 시각-언어 작업에서도 경쟁력 있는 성능을 유지하였다.
본 연구는 다중 이미지 간의 시각적 단서를 연결하기 위해 Chain-of-Thought(CoT) 추론을 가능하게 하는 방법을 탐구합니다. 간단한 해결책으로는 Vision-Language Models(VLMs)에 규칙 기반 강화 학습을 적용하는 것이 있습니다. 그러나 이러한 방법은 일반적으로 수작업으로 정제된 질문-답변 쌍에 의존하는데, 이는 미세한 시각적 세부 사항과 이미지 간의 복잡한 논리를 다룰 때 특히 어려울 수 있습니다. 자기 지도 시각 표현 학습에서 영감을 받아, 우리는 이미지가 감독 역할을 할 수 있는 내재적 제약을 포함하고 있음을 관찰했습니다. 이러한 통찰을 바탕으로, 우리는 동일한 이미지의 두 가지 증강된 뷰와 세 번째로 유사하지만 구별되는 이미지로 구성된 이미지 트리플렛을 구성합니다. 학습 중에 모델은 이러한 이미지를 비교(즉, 동일한지 다른지 결정)하기 위한 추론 과정을 생성하도록 유도됩니다. 그런 다음 규칙 기반 강화 학습을 통해 모델을 최적화합니다. 높은 시각적 유사성과 증강의 존재로 인해, 모델은 미묘한 시각적 변화에 주의를 기울이고 논리적 추론을 수행해야 성공할 수 있습니다. 실험 결과, 시각적 비교 작업만으로 학습된 추론 능력이 다양한 질문에 효과적으로 일반화됨을 보여줍니다. 인간이 주석을 단 질문-답변 쌍에 의존하지 않고도, 우리의 방법은 다중 이미지 추론 벤치마크에서 상당한 개선을 달성하고 일반적인 시각 작업에서도 강력한 성능을 보입니다.
대규모 언어 모델(LLM)의 급속한 발전은 과학적 진보를 지원할 잠재력을 가지고 있습니다. 이러한 목표를 향한 중요한 능력은 기존 연구를 재현할 수 있는 능력입니다. 활발한 연구 분야에서 AI 에이전트가 결과를 재현할 수 있는 능력을 평가하기 위해, 우리는 NanoGPT 스피드런(가장 짧은 시간 내에 GPT-2 모델을 학습시키는 경쟁)에 대한 연구 커뮤니티의 기여를 활용한 자동화된 LLM 스피드런 벤치마크를 소개합니다. 19개의 스피드런 작업 각각은 에이전트에게 이전 기록의 학습 스크립트를 제공하며, 선택적으로 의사코드에서부터 새로운 기록의 개선 사항에 대한 논문과 같은 설명까지 세 가지 힌트 형식 중 하나와 함께 제공됩니다. 기록은 설계상 빠르게 실행되며, 스피드런 개선 사항은 고수준 알고리즘 발전부터 하드웨어 인식 최적화에 이르기까지 다양한 코드 수준의 변경을 포함합니다. 이러한 특징들은 LLM 학습 개선이라는 최전선 문제에 대해 벤치마크를 접근 가능하고 현실적으로 만듭니다. 우리는 최근의 추론 LLM과 최첨단 스캐폴드를 결합하더라도 상세한 힌트가 주어졌을 때조차 우리 벤치마크에서 이미 알려진 혁신을 재구현하는 데 어려움을 겪는다는 것을 발견했습니다. 따라서 우리의 벤치마크는 자율 연구 에이전트에게 필수적이지만 충분하지는 않은 과학적 재현 자동화 능력을 측정하는 간단하고 포화되지 않은 척도를 제공합니다.
비전 언어 모델(VLMs)은 인간처럼 단 몇 개의 시각적 정보만으로도 전체 장면을 상상할 수 있을까? 인간은 보이지 않는 공간에 대한 내적 표현인 공간적 정신 모델을 형성하여 레이아웃, 관점, 움직임에 대해 추론한다. 우리의 새로운 MindCube 벤치마크는 3,268개의 이미지에 걸쳐 21,154개의 질문을 통해 이러한 중요한 격차를 드러내며, 기존 VLMs가 거의 무작위 수준의 성능을 보이는 것을 확인했다. MindCube를 사용하여 VLMs가 위치(인지적 매핑), 방향(관점 수용), 동역학("만약" 움직임에 대한 정신적 시뮬레이션)을 통해 얼마나 견고한 공간적 정신 모델을 구축하는지 체계적으로 평가했다. 이후 우리는 VLMs가 공간적 정신 모델을 근사화할 수 있도록 도와주는 세 가지 접근 방식을 탐구했는데, 이는 보이지 않는 중간 시각적 정보, 자연어 추론 체인, 그리고 인지적 지도를 포함한다. 가장 큰 개선은 "지도를 먼저 생성한 후 추론"이라는 시너지적 접근 방식에서 이루어졌으며, 이는 모델이 먼저 인지적 지도를 생성한 후 이를 기반으로 추론하도록 공동으로 훈련시키는 방식이다. 이러한 내적 지도를 기반으로 추론하도록 모델을 훈련시킴으로써 정확도를 37.8%에서 60.8%로(+23.0%) 향상시켰다. 여기에 강화 학습을 추가하면 성능은 70.7%로(+32.9%) 더욱 향상되었다. 우리의 핵심 통찰은 이러한 공간적 정신 모델의 구조화, 즉 내적 구조화된 공간 표현을 능동적으로 구축하고 유연한 추론 과정을 활용하는 것이 관찰 불가능한 공간에 대한 이해를 크게 개선한다는 것이다.
멀티모달 인컨텍스트 학습(ICL)은 의학과 같은 분야에서 상당한 잠재력을 가지고 있음에도 불구하고 아직 충분히 탐구되지 않고 있다. 임상의들은 제한된 예시로부터 적응을 요구하는 다양한 전문 작업을 일상적으로 접한다. 이는 몇 가지 관련된 이전 사례에서 통찰을 도출하거나 제한된 차별 진단 목록을 고려하는 것과 같은 작업을 포함한다. 멀티모달 대형 언어 모델(MLLM)이 의학 시각 질의 응답(VQA)에서 진전을 보여왔지만, 이러한 모델들이 컨텍스트에서 멀티모달 작업을 학습하는 능력은 대체로 알려져 있지 않다. 우리는 의학 작업을 위한 첫 번째 전문가 주도 멀티모달 ICL 벤치마크인 SMMILE를 소개한다. 11명의 의학 전문가들이 문제를 선별하였으며, 각 문제는 멀티모달 질의와 멀티모달 인컨텍스트 예시를 작업 데모로 포함한다. SMMILE는 6개의 의학 전문 분야와 13개의 영상 모달리티를 아우르는 111개의 문제(517개의 질문-이미지-답변 삼중항)로 구성된다. 또한, 우리는 1038개의 순열된 문제를 포함하는 확장 버전인 SMMILE++를 소개한다. 15개의 MLLM에 대한 포괄적인 평가 결과, 대부분의 모델이 의학 작업에서 중간에서 낮은 수준의 멀티모달 ICL 능력을 보이는 것으로 나타났다. 개방형 평가에서 ICL은 SMMILE에서 제로샷 대비 평균 8%, SMMILE++에서 9.4%의 개선만을 기여했다. 우리는 관련 없는 인컨텍스트 예시에 대한 취약성을 관찰했다: 단 하나의 노이즈가 있거나 관련 없는 예시라도 성능을 최대 9.5%까지 저하시킬 수 있다. 또한, 예시 순서는 최신성 편향을 보였는데, 가장 관련 있는 예시를 마지막에 배치하면 성능이 최대 71%까지 크게 향상될 수 있었다. 우리의 연구 결과는 현재 MLLM들이 컨텍스트에서 멀티모달 의학 작업을 학습할 때의 중요한 한계와 편향을 강조한다.
최근 문맥 내 학습(in-context learning, ICL)을 분석한 연구에서는 다양한 실험 조건에서 모델의 행동을 설명하는 광범위한 전략들을 확인하였다. 우리는 이러한 발견들을 통합하기 위해, 왜 모델이 이러한 상이한 전략들을 학습하는지에 대한 질문을 던진다. 구체적으로, 우리는 문헌에서 흔히 볼 수 있는 여러 작업의 혼합을 학습하도록 훈련된 모델이 ICL을 수행하기 위해 학습한 전략들이 베이지안 예측자(Bayesian predictor)의 패밀리로 포착될 수 있다는 관찰에서 출발한다: 이는 본 작업 집합에 대해 이산적 사전 분포를 가정하는 기억형 예측자(memorizing predictor)와, 기본 작업 분포와 일치하는 사전 분포를 가진 일반화형 예측자(generalizing predictor)를 포함한다. 학습자의 행동이 계산적 제약 하에서 데이터에 대한 최적의 적응으로 설명된다는 합리적 분석(normative analysis)의 관점을 채택하여, 우리는 훈련 과정 전반에 걸쳐 Transformer의 다음 토큰 예측을 거의 완벽하게 예측하는 계층적 베이지안 프레임워크를 개발한다. 이 프레임워크는 모델의 가중치에 접근하지 않고도 이를 가능하게 한다. 이 프레임워크 하에서, 사전 훈련은 다양한 전략들의 사후 확률을 업데이트하는 과정으로 간주되며, 추론 시 행동은 이러한 전략들의 예측에 대한 사후 가중 평균으로 해석된다. 우리의 프레임워크는 신경망 학습 역학에 대한 일반적인 가정을 기반으로 하며, 이는 후보 전략들 간의 손실과 복잡성 사이의 트레이드오프를 명시적으로 드러낸다: 데이터를 얼마나 잘 설명하는지 이상으로, 모델이 특정 전략을 구현하는 데 대한 선호도는 그 전략의 복잡성에 의해 결정된다. 이는 잘 알려진 ICL 현상을 설명하는 동시에 새로운 예측을 제공한다: 예를 들어, 작업 다양성이 증가함에 따라 일반화에서 기억으로 전환되는 시간 척도에서 초선형적 경향을 보인다. 전반적으로, 우리의 연구는 전략의 손실과 복잡성 간의 트레이드오프에 기반한 ICL의 설명적 및 예측적 설명을 발전시킨다.
우리는 의료 추론 분야에서 최첨단 성능을 달성하면서 임상 의사결정에 대한 투명하고 단계별 설명을 제공하는 320억 개의 파라미터를 가진 언어 모델인 Gazal-R1을 소개한다. Qwen3 32B를 기반으로 구축된 이 모델은 전략적인 훈련을 통해 중간 규모의 모델이 특수 분야에서 훨씬 더 큰 모델을 능가할 수 있음을 보여준다. 우리는 새로운 두 단계 훈련 파이프라인을 개발했다: 첫째, 구조화된 임상 사고를 가르치는 107,033개의 합성 의료 추론 예제로 구성된 신중하게 선별된 데이터셋에 대한 지도 미세 조정을 수행하였으며, 이는 Weight-Decomposed Low-Rank Adaptation(DoRA) 및 Rank-Stabilized LoRA(rsLoRA)와 같은 고급 파라미터 효율 기술로 강화되었다. 둘째, 정확성, 형식 준수 및 추론 품질을 개선하는 정교한 다중 구성 요소 보상 시스템과 함께 Group Relative Policy Optimization(GRPO)을 사용한 강화 학습을 적용했다. Gazal-R1은 의료 벤치마크에서 뛰어난 성능을 보이며, MedQA에서 87.1%, MMLU Pro(Medical)에서 81.6%, PubMedQA에서 79.6%의 점수를 기록하여 최대 12배 더 큰 모델을 능가했다. 강력한 실험 결과를 넘어, 이 연구는 보장 해킹, 훈련 불안정성, 사실 회상과 상세 추론 사이의 근본적인 긴장을 포함하여 특수 분야에서 추론 능력을 갖춘 모델을 훈련하는 데 따른 도전 과제에 대한 상세한 통찰을 제공한다. 우리의 방법론은 성능, 효율성 및 설명 가능성의 균형을 맞추는 고성능 도메인 특화 언어 모델을 개발하기 위한 재현 가능한 프레임워크를 제시한다.
대부분의 언어 모델은 강력한 능력을 발휘하기 위해 상당한 계산 자원이 필요하다는 근본적인 딜레마에 직면해 있습니다. 우리는 이러한 제약을 깨뜨린 Jan-nano를 통해 효율성을 재정의했습니다. Jan-nano는 40억 개의 파라미터를 가진 언어 모델로, 모든 것을 알려고 하기보다는 무엇이든 즉시 찾아내는 기술에 특화함으로써 혁신적인 접근 방식을 보여줍니다. Qwen3-4B를 기반으로 우리의 독창적인 다단계 RLVR 시스템을 통해 미세 조정된 Jan-nano는 다음 토큰 예측 학습(SFT)에 대한 의존성을 완전히 제거했습니다. 이를 통해 Jan-nano는 소비자용 하드웨어에서 실행되면서도 MCP 통합 시 SimpleQA 벤치마크에서 83.2%의 성능을 달성했습니다. 128K의 컨텍스트 길이를 갖춘 Jan-nano는 지능이 규모가 아니라 전략에 달려 있음을 증명합니다.
효율적이고 제어 가능한 고품질 콘텐츠 생성을 추구하는 것은 인공지능 생성 콘텐츠(AIGC) 분야의 핵심 과제로 남아 있습니다. 확산 증류 기술을 통해 가능해진 원스텝 생성기는 뛰어난 생성 품질과 계산 효율성을 제공하지만, 구조적 제약, 의미론적 지침 또는 외부 입력과 같은 새로운 제어 조건에 적응하는 것은 상당한 도전 과제입니다. 기존의 접근 방식은 기본 모델에 대한 계산 비용이 높은 수정과 후속 확산 증류를 필요로 하는 경우가 많습니다. 본 논문에서는 사전 훈련된 원스텝 생성기에 새로운 제어 신호를 직접 통합할 수 있는 경량화된 새로운 접근 방식인 Noise Consistency Training(NCT)을 소개합니다. NCT는 원본 훈련 이미지에 접근하거나 기본 확산 모델을 재훈련할 필요 없이, 어댑터 모듈을 도입하고 생성기의 노이즈 공간에서 노이즈 일관성 손실을 사용합니다. 이 손실은 다양한 정도로 조건부 의존적인 노이즈들 간에 적응된 모델의 생성 행동을 정렬함으로써, 새로운 제어를 암묵적으로 준수하도록 유도합니다. 이론적으로, 이 훈련 목표는 적응된 생성기와 새로운 조건에 의해 유도된 조건부 분포 간의 분포적 거리를 최소화하는 것으로 이해할 수 있습니다. NCT는 모듈식이며 데이터 효율적이고 쉽게 배포할 수 있으며, 사전 훈련된 원스텝 생성기와 제어 신호 모델만을 필요로 합니다. 광범위한 실험을 통해 NCT는 단일 순방향 패스에서 최첨단 제어 가능한 생성을 달성하며, 생성 품질과 계산 효율성 모두에서 기존의 다단계 및 증류 기반 방법을 능가함을 입증했습니다. 코드는 https://github.com/Luo-Yihong/NCT에서 확인할 수 있습니다.
우리는 140억 개의 파라미터를 가진 오픈소스 대형 언어 모델인 Confucius3-Math를 소개합니다. 이 모델은 (1) 단일 소비자용 GPU에서 효율적으로 실행되며, (2) 다양한 수학적 추론 작업에서 SOTA(State-of-the-Art) 성능을 달성하여 훨씬 더 큰 규모의 모델들을 능가합니다. 특히, AI를 통해 교육과 지식 전파를 강화하려는 우리의 사명의 일환으로, Confucius3-Math는 중국 K-12 학생들과 교육자들을 위한 수학 학습에 특화되어 있습니다. 대규모 강화 학습(RL)을 통한 사후 훈련으로 구축된 이 모델은 국가 교육과정과 일치하며, 저비용으로 중국 K-12 주요 수학 문제를 해결하는 데 탁월한 성능을 보입니다. 본 보고서에서는 우리의 개발 과정, 직면한 도전 과제, 그리고 이를 극복하기 위해 개발한 기술들을 공유합니다. 특히, 우리는 세 가지 기술적 혁신을 소개합니다: Targeted Entropy Regularization, Recent Sample Recovery, 그리고 Policy-Specific Hardness Weighting. 이러한 혁신들은 새로운 엔트로피 정규화, 독창적인 데이터 스케줄링 정책, 그리고 개선된 그룹 상대적 이점 추정기를 포함합니다. 이들은 모두 RL 훈련을 크게 안정화시키고, 데이터 효율성을 향상시키며, 성능을 크게 끌어올립니다. 우리의 작업은 저비용으로 특정 도메인에서 강력한 추론 모델을 구축하는 것이 가능함을 보여줍니다. 우리는 모델과 코드를 https://github.com/netease-youdao/Confucius3-Math에서 오픈소스로 공개합니다.
다양한 산업 분야에서 대규모 시스템의 지표 결과를 예측하는 것은 전통적인 표 형식 회귀 분석에 크게 의존하는 근본적인 문제입니다. 그러나 이러한 방법들은 구성 파일이나 시스템 로그와 같은 복잡한 시스템 데이터를 다룰 때 특징 공학이 실현 불가능한 경우가 많아 어려움을 겪습니다. 본 연구에서는 일반적이고 확장 가능한 대안으로 텍스트-텍스트 회귀 분석을 제안합니다. Google의 대규모 컴퓨팅 클러스터 스케줄링 시스템인 Borg에서 자원 효율성을 예측하기 위해 무작위 초기화로부터 학습된 60M 파라미터의 인코더-디코더 모델은 전체 시스템에 걸쳐 거의 완벽에 가까운 0.99(평균 0.9)의 순위 상관관계를 달성했으며, 표 형식 접근법보다 100배 낮은 평균 제곱 오차(MSE)를 보였습니다. 또한 이 모델은 단 500개의 소수 샘플 예제로도 새로운 작업에 쉽게 적응할 수 있으며, 복잡한 결과 분포의 밀도를 효과적으로 포착합니다. 제거 연구(ablation study)를 통해 인코더 사용, 시퀀스 길이 증가, 그리고 모델의 내재적 불확실성 정량화의 중요성이 강조되었습니다. 이러한 연구 결과는 현실 세계 결과에 대한 보편적 시뮬레이터 개발의 길을 열어줍니다.
LLaMA, Qwen, DeepSeek 시리즈와 같은 현대의 대규모 언어 모델(Large Language Models)은 주로 Pre-LayerNorm(Pre-LN) 트랜스포머 아키텍처를 채택하고 있다. Pre-LN은 사전 학습 중 안정적이며 대규모 모델 크기로 확장 가능하지만, 계층 간 활성화 분산이 기하급수적으로 증가하는 문제가 있다. 이는 잔차 경로(residual path)가 하위 계층 출력을 지배하게 하여 더 깊은 계층의 학습 능력을 제한한다. 이러한 문제를 완화하기 위해, 우리는 기존 접근법과 함께 사용할 수 있는 간단한 기법인 Gradient-Preserving Activation Scaling(GPAS)을 제안한다. GPAS는 중간 활성화를 축소하되 그 기울기는 변경하지 않음으로써 동작한다. 이는 활성화 내 정보를 그대로 유지하면서 기울기 소실 문제를 방지한다. 71M에서 1B에 이르는 다양한 모델 크기에서의 광범위한 실험을 통해 GPAS가 일관된 성능 향상을 달성함을 확인했다. Pre-LN 트랜스포머를 개선하는 것 외에도, GPAS는 Sandwich-LN 및 DeepNorm과 같은 대체 아키텍처에서도 개선 가능성을 보여주며, 다양한 설정에서의 학습 역학 개선을 위한 다재다능성과 잠재력을 입증했다.
광간섭단층촬영(OCT)과 같은 영상 기술의 발전과 딥러닝(DL)의 진보는 임상의와 연구자들이 망막 질환 단계를 효율적으로 분류할 수 있게 해주었다. 이 중에서도 자기지도학습(SSL)은 대량의 라벨이 없는 데이터를 통해 모델을 학습시켜 비용이 많이 드는 주석 작업을 피할 수 있는 인기 있는 DL 접근법이다. SSL은 다양한 하위 작업에 사용할 수 있는 대형 모델인 파운데이션 모델(FMs)의 개발을 가능하게 했다. 그러나 OCT를 위해 단순히 이미지 데이터만으로 학습된 기존 FMs는 이미지에 대한 포괄적이고 강력한 의미론적 이해가 부족하며, 이는 특히 복잡한 작업에서의 하위 성능으로 입증된다. 따라서 특정 응용 프로그램 및 인구에 더 잘 적응하기 위해 지도 미세 조정이 필요할 수 있지만, 이는 실현 가능하지 않을 수도 있다. 이를 해결하기 위해, 우리는 RetFiner를 제안한다. RetFiner는 기존 FMs의 표현을 개선하고 특정 인구에 대한 효율적이고 직접적인 적응을 가능하게 하여 하위 성능을 향상시키는 SSL 비전-언어 정제 기법이다. 우리의 방법은 텍스트 데이터에서 발견되는 풍부한 감독 신호를 활용하는 다양한 훈련 목표를 사용한다. 우리는 RetFiner를 망막 FMs인 RETFound, UrFound, VisionFM에 테스트하여, 7가지 매우 다양한 OCT 분류 작업에서 각각 베이스라인 대비 평균 5.8, 3.9, 2.1% 포인트의 성능 향상을 보였다. 우리의 코드와 모델 가중치는 https://github.com/ronnief1/RetFiner에서 공개적으로 이용 가능하다.
비전-언어 모델에서 데이터의 계층적 구조를 학습하는 것은 중요한 과제입니다. 기존 연구들은 이러한 과제를 해결하기 위해 함의 학습(entailment learning)을 적용하려 시도했습니다. 그러나 이러한 접근 방식들은 표현 공간 내에서 순서와 의미 간의 관계를 설정하는 함의의 전이적 특성을 명시적으로 모델링하지 못했습니다. 본 연구에서는 전이적 특성이 강제된 함의를 명시적으로 모델링할 수 있는 Radial Cross-Modal Embeddings (RCME) 프레임워크를 제안합니다. 우리가 제안한 프레임워크는 비전-언어 모델 내 개념들의 부분적 순서를 최적화합니다. 이 프레임워크를 활용하여, 우리는 생명의 나무(Tree of Life)의 계층 구조를 표현할 수 있는 계층적 비전-언어 기반 모델을 개발했습니다. 계층적 종 분류 및 계층적 검색 작업에 대한 실험을 통해, 우리의 모델이 기존 최첨단 모델 대비 향상된 성능을 보임을 입증했습니다. 우리의 코드와 모델은 https://vishu26.github.io/RCME/index.html에서 공개되어 있습니다.
우리는 TAPAS(Task-based Adaptation and Planning using AgentS)를 소개합니다. TAPAS는 대규모 언어 모델(LLMs)과 기호적 계획을 통합하여 복잡한 작업을 해결하기 위한 다중 에이전트 프레임워크로, 수동으로 정의된 환경 모델 없이도 작동합니다. TAPAS는 구조화된 도구 호출 메커니즘을 통해 도메인 모델, 초기 상태 및 목표 사양을 필요에 따라 협력적으로 생성하고 적응시키는 전문화된 LLM 기반 에이전트를 사용합니다. 이 도구 기반 상호작용을 통해 하위 에이전트는 상위 에이전트에게 수정을 요청할 수 있으며, 이를 통해 새로운 속성과 제약 조건에 적응할 수 있게 되어 수동 도메인 재정의가 필요 없습니다. ReAct(Reason+Act) 스타일의 실행 에이전트와 자연어 계획 번역을 결합하여 동적으로 생성된 계획과 실제 로봇 기능 간의 격차를 해소합니다. TAPAS는 벤치마크 계획 도메인과 VirtualHome 시뮬레이션된 실제 환경에서 강력한 성능을 보여줍니다.
테스트 시간 계산(Test-time compute)은 대형 언어 모델(LLMs)의 성능을 향상시키는 강력한 패러다임으로 부상했으며, 다중 출력을 생성하거나 개별 추론 체인을 개선함으로써 답변 정확도를 크게 높일 수 있습니다. 그러나 Best-of-N, 다수결 투표, 자기 반영과 같은 기존 방법들은 일반적으로 입력에 걸쳐 균일한 방식으로 추론을 적용하는데, 이는 서로 다른 문제가 서로 다른 수준의 추론 깊이를 요구할 수 있다는 사실을 간과합니다. 본 연구에서는 고정된 지시 프롬프트의 한계를 넘어, 추론 시점에 추론 강도를 연속적으로 제어할 수 있는 학습이 필요 없고 모델에 독립적인 프레임워크인 Fractional Reasoning을 제안합니다. 우리의 방법은 더 깊은 추론과 관련된 잠재적 조정 벡터를 추출하고 조정 가능한 스케일링 계수로 이를 재적용함으로써, 모델이 각 입력의 복잡성에 맞게 추론 과정을 조정할 수 있도록 합니다. 이는 테스트 시간 스케일링의 두 가지 주요 모드를 지원합니다: (1) Best-of-N, 다수결 투표와 같은 폭 기반 전략에서 출력 품질을 개선하고, (2) 자기 반영과 같은 깊이 기반 전략에서 개별 추론 체인의 정확성을 향상시킵니다. GSM8K, MATH500, GPQA에 대한 실험을 통해 Fractional Reasoning이 다양한 추론 작업과 모델에서 일관되게 성능을 개선함을 입증했습니다.