번역이 포함된 일일 선별된 AI 연구 논문
메모리는 파운데이션 모델 기반 에이전트의 핵심 능력으로 부상했으며, 앞으로도 그 중요성은 지속될 것입니다. 에이전트 메모리 연구가 급속히 확장되고 전례 없는 관심을 끌면서, 해당 분야는 점점 더 파편화되고 있습니다. 에이전트 메모리 범주에 속하는 기존 연구들은 동기, 구현 방식, 평가 방법에서 상당한 차이를 보이는 반면, 느슨하게 정의된 메모리 용어들이 난무하며 개념적 명확성을 더욱 흐리고 있습니다. 장기/단기 메모리와 같은 기존 분류법은 현대 에이전트 메모리 시스템의 다양성을 포착하기에 부족함이 입증되었습니다. 본 논문은 현재 에이전트 메모리 연구의 최신 동향을 종합적으로 제시하는 것을 목표로 합니다. 먼저 에이전트 메모리의 범위를 명확히 구획하고, LLM 메모리, 검색 증강 생성(RAG), 컨텍스트 엔지니어링과 같은 관련 개념과 구분합니다. 그런 다음 메모리의 형태, 기능, 동역학이라는 통합된 렌즈를 통해 에이전트 메모리를 조망합니다. 형태 측면에서는 토큰 수준 메모리, 파라메트릭 메모리, 잠재 메모리라는 세 가지 주요 구현 방식을 확인합니다. 기능 측면에서는 사실 메모리, 경험 메모리, 작업 메모리로 구분하는 더 세분화된 분류법을 제안합니다. 동역학 측면에서는 시간에 따라 메모리가 어떻게 형성, 발전, 검색되는지 분석합니다. 실용적 개발을 지원하기 위해 메모리 벤치마크와 오픈소스 프레임워크를 포괄적으로 정리했습니다. 종합을 넘어, 메모리 자동화, 강화학습 통합, 멀티모달 메모리, 다중 에이전트 메모리, 신뢰성 문제 등 부상하는 연구 프론티어에 대한 전망을 제시합니다. 본 서베이가 기존 연구에 대한 참고자료로서뿐만 아니라, 미래 에이전트 인텔리전스 설계에 있어 메모리를 1급 객체로 재고하는 개념적 기반으로도 역할하기를 바랍니다.
자기회귀 모델(ARM)은 순차적 추론 속도가 느리다는 한계를 지닙니다. 마스크 확산 모델(MDM)은 병렬적 대안을 제공하지만, 주요 단점이 존재합니다: 키-값(KV) 캐싱을 배제함으로써 발생하는 높은 계산 부담과, 다루기 힘든 토큰 조합 공간에서의 의존성 학습으로 인한 비일관적 생성이 그것입니다. 이러한 한계를 해결하기 위해 우리는 ReFusion을 소개합니다. 이는 병렬 디코딩을 토큰 수준에서 더 높은 슬롯 수준으로 격상시켜 우수한 성능과 효율을 달성하는 새로운 마스크 확산 모델입니다. 여기서 각 슬롯은 고정 길이의 연속적인 부분 시퀀스입니다. 이는 반복적인 "계획 및 채우기(plan-and-infill)" 디코딩 과정을 통해 이루어집니다: 확산 기반 계획 단계에서 먼저 약하게 의존적인 슬롯 집합을 식별하고, 자기회귀적 채우기 단계에서 이 선택된 슬롯들을 병렬로 디코딩합니다. 슬롯 기반 설계는 통합된 인과적 프레임워크 내에서 완전한 KV 캐시 재사용을 가능하게 하면서 동시에 학습 복잡도를 토큰 조합 공간에서 관리 가능한 슬롯 수준의 순열 공간으로 축소합니다. 7가지 다양한 벤치마크에 대한 폭넓은 실험 결과, ReFusion은 기존 MDM을 34%의 성능 향상과 평균 18배 이상의 속도 향상으로 압도적으로 능가할 뿐만 아니라, 강력한 ARM과의 성능 격차를 좁히면서도 평균 2.33배의 속도 우위를 유지하는 것으로 나타났습니다.
QwenLong-L1.5을 소개합니다. 본 모델은 체계적인 사후 훈련(post-training) 혁신을 통해 우수한 장문 맥락 추론 능력을 달성했습니다. QwenLong-L1.5의 핵심 기술적 돌파구는 다음과 같습니다. (1) 장문 맥락 데이터 합성 파이프라인: 전역적으로 분산된 증거에 대한 다중 홉 근거화(multi-hop grounding)를 필요로 하는 도전적인 추론 과제를 생성하는 체계적인 합성 프레임워크를 개발했습니다. 문서를 원자적 사실과 그 밑바탕의 관계로 해체한 후, 프로그램 방식으로 검증 가능한 추론 질문을 구성함으로써, 단순한 검색 작업을 크게 넘어서 진정한 장거리 추론 능력을 가능하게 하는 고품질 훈련 데이터를 대규모로 생성합니다. (2) 장문 맥락 훈련을 위한 안정화된 강화 학습: 장문 맥락 강화 학습(RL)에서 발생하는 중요한 불안정성을 극복하기 위해, 보상 편향을 완화하는 과제별 이점 추정(task-specific advantage estimation)을 통한 과제 균형 샘플링(task-balanced sampling)을 도입하고, 탐험-활용 균형(exploration-exploitation trade-offs)을 동적으로 조절하는 적응형 엔트로피 제어 정책 최적화(AEPO)를 제안합니다. (3) 초장문 맥락을 위한 메모리 증강 아키텍처: 확장된 맥락 창문만으로는 임의로 긴 시퀀스를 수용할 수 없음을 인지하고, 400만 토큰을 초과하는 과제를 위해 단일 패스 추론(single-pass reasoning)과 반복적 메모리 기반 처리를 원활하게 통합하는 다단계 융합 강화 학습 훈련을 갖춘 메모리 관리 프레임워크를 개발했습니다. Qwen3-30B-A3B-Thinking을 기반으로 하는 QwenLong-L1.5는 장문 맥락 추론 벤치마크에서 GPT-5 및 Gemini-2.5-Pro에 필적하는 성능을 달성하여 기준 모델 대비 평균 9.90점을 앞섭니다. 초장문 과제(100만~400만 토큰)에서 QwenLong-L1.5의 메모리-에이전트 프레임워크는 에이전트 기준선 대비 9.48점의 성능 향상을 가져옵니다. 또한, 획득한 장문 맥락 추론 능력은 과학적 추론, 메모리 도구 사용, 확장된 대화와 같은 일반 영역에서의 향상된 성능으로도 이어집니다.
시각적 토크나이저(예: VAE)의 잠재 공간 품질은 현대 생성 모델에 있어 핵심적입니다. 그러나 표준 재구성 기반 훈련 패러다임은 저수준 정보에 편향된 잠재 공간을 생성하며, 이는 근본적인 결함으로 이어집니다: 더 나은 픽셀 수준 정확성이 더 높은 품질의 생성을 보장하지 않는다는 점입니다. 이는 시각적 토크나이저 사전 훈련에 막대한 계산 자원을 투입해도 생성 성능 향상으로는 효율적으로 이어지지 않음을 시사합니다. 우리는 이를 "사전 훈련 스케일링 문제"로 규정하고, 생성에 효과적이기 위해서는 잠재 공간이 고수준 의미론을 간결하게 표현해야 한다는 필수적인 전환을 제안합니다. 우리는 이미지-텍스트 대조 학습, 자기 지도 학습, 재구성 손실을 결합한 최초의 통합 시각적 토크나이저 사전 훈련 프레임워크인 VTP를 제시합니다. 대규모 연구를 통해 두 가지 주요 결과를 도출했습니다: (1) 이해는 생성의 핵심 동인이며, (2) 시각적 토크나이저 사전 훈련에 할당된 계산량, 매개변수, 데이터에 따라 생성 성능이 효과적으로 스케일되는 훨씬 우수한 스케일링 특성입니다. 대규모 사전 훈련 후, 우리의 토크나이저는 경쟁력 있는 성능(ImageNet 기준 78.2% 제로샷 정확도 및 0.36 rFID)을 보여주며, 고급 증류 방법 대비 4.1배 빠른 생성 수렴 속도를 달성했습니다. 더 중요하게는, 이는 효과적으로 스케일됩니다: 표준 DiT 훈련 사양을 수정하지 않고 오직 VTP 사전 훈련에 더 많은 FLOPS를 투자하면 하류 생성 작업에서 65.8%의 FID 향상을 달성한 반면, 기존 오토인코더는 1/10 FLOPS 수준에서 매우 초기에 성능이 정체되었습니다. 우리의 사전 훈련된 모델은 https://github.com/MiniMax-AI/VTP에서 이용 가능합니다.
사전 훈련된 비디오 생성 시스템을 기반으로 한 비디오 세계 모델 구축은 일반적인 시공간 인텔리전스로 나아가는 중요한 동시에 어려운 단계를 나타냅니다. 세계 모델은 세 가지 필수 속성, 즉 제어 가능성, 장기간 시각적 품질, 그리고 시간적 일관성을 갖추어야 합니다. 이를 위해 우리는 점진적 접근법(먼저 제어 가능성을 향상시킨 후 장기간 고품질 생성으로 확장)을 취합니다. 우리는 세 단계로 훈련된 종단 간 자기회귀 프레임워크인 LongVie 2를 제시합니다: (1) **다중 모달 지도**: 밀집 및 희소 제어 신호를 통합하여 암묵적인 세계 수준의 지도를 제공하고 제어 가능성을 향상시킵니다. (2) **입력 프레임에 대한 저하 인식 훈련**: 훈련과 장기 추론 간의 차이를 줄여 높은 시각적 품질을 유지합니다. (3) **히스토리 컨텍스트 지도**: 인접 클립 간의 맥락 정보를 정렬하여 시간적 일관성을 보장합니다. 우리는 더 나아가 다양한 실제 및 합성 환경을 포함하는 100개의 고해상도 1분 길이 비디오로 구성된 포괄적인 벤치마크인 LongVGenBench를 소개합니다. 광범위한 실험을 통해 LongVie 2가 장거리 제어 가능성, 시간적 일관성, 시각적 정확도에서 최첨단 성능을 달성하며 최대 5분 동안 지속되는 연속 비디오 생성을 지원함을 입증하여, 통합 비디오 세계 모델링을 향한 중요한 진전을 이루었습니다.
우리는 실제 기업 수준의 전문 업무 흐름(데이터 입력, 구조화, 서식 지정, 웹 검색, 파일 간 검색, 계산, 모델링, 검증, 번역, 시각화, 보고 등이 복합적으로 이루어지는)에서 AI 에이전트를 평가하기 위한 금융·회계 벤치마크(Finch)를 소개한다. Finch는 엔론(150명의 직원으로부터 수집한 15,000개의 스프레드시트와 50만 통의 이메일) 및 기타 금융 기관의 실제 기업 작업 환경에서 확보한 자료를 바탕으로 하여, 다양한 모달리티(텍스트, 표, 수식, 차트, 코드, 이미지)에 걸친 실제 환경의 복잡성을 그대로 보존하며, 예산 편성, 트레이딩, 자산 관리 등 다양한 영역을 아우른다. 우리는 LLM 지원 발견과 전문가 주석화를 결합한 워크플로우 구축 프로세스를 제안한다: (1) 실제 이메일 스레드와 스프레드시트 파일 버전 기록에서 LLM을 지원하여 워크플로우를 도출하고 전문가가 검증하는 단계, (2) 700시간 이상의 도메인 전문가 노력이 투입된 워크플로우에 대한 세심한 전문가 주석화 단계. 이를 통해 172개의 복합 워크플로우와 384개 태스크, 2,710만 개의 셀을 포함하는 1,710개의 스프레드시트, PDF 및 기타 아티팩트로 구성된 데이터셋이 구축되어, 실제 기업 업무의 본질적으로 복잡하고 장기적이며, 지식 집약적이고 협업적인 특성을 포착한다. 우리는 GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4, Qwen 3 Max를 포함한 최첨단 AI 시스템에 대한 인간 평가와 자동화 평가를 수행했으며, GPT 5.1 Pro는 총 48시간을 소요했음에도 전체 워크플로우의 38.4%만 통과했고, Claude Sonnet 4.5는 25.0%만 통과했다. 포괄적인 사례 연구를 통해 실제 기업 워크플로우가 AI 에이전트에게 제기하는 도전 과제를 추가로 파악하였다.
코딩 에이전트 분야의 최근 발전은 자율적 소프트웨어 개발로의 급속한 진전을 시사하지만, 기존 벤치마크는 완전한 소프트웨어 시스템 구축에 필요한 장기적(Long-horizon) 능력을 엄격하게 평가하지 못하고 있습니다. 대부분의 기존 평가는 국소적인 코드 생성, 구조화된 완성, 또는 단기적인 수정 작업에 초점을 맞춰, 실제 저장소(Repository) 구축에 필요한 장기적인 관점에서 에이전트가 일관된 추론, 계획 수립 및 실행을 지속할 수 있는지에 대한 의문을 남겼습니다. 이러한 격차를 해결하기 위해, 우리는 코딩 에이전트의 장기적 저장소 생성 능력을 명시적으로 평가하도록 설계된 벤치마크인 NL2Repo Bench를 제시합니다. 단일 자연어 요구사항 문서와 빈 작업 공간만 주어졌을 때, 에이전트는 아키텍처를 자율적으로 설계하고, 의존성을 관리하며, 다중 모듈 로직을 구현하고, 완전히 설치 가능한 Python 라이브러리를 생성해야 합니다. 최첨단 오픈소스 및 클로즈드소스 모델을 대상으로 한 실험 결과, 장기적 저장소 생성은 여전히 대부분 해결되지 않은 과제로 드러났습니다: 가장 강력한 에이전트조차 평균 40% 미만의 테스트 통과율을 보였으며, 전체 저장소를 정확히 완성하는 경우는 드물었습니다. 상세 분석을 통해 조기 종료, 전역 일관성 상실, 취약한 파일 간 의존성, 수백 차례의 상호작용 단계에 걸친 불충분한 계획 수립 등 근본적인 장기적 실패 모드가 발견되었습니다. NL2Repo Bench는 지속적인 에이전트 역량을 측정하기 위한 엄격하고 검증 가능한 테스트베드를 마련하며, 차세대 자율 코딩 에이전트의 핵심 병목 현상으로서 장기적 추론의 중요성을 부각합니다.
선형 시간 어텐션과 상태 공간 모델(SSM)은 소프트맥스 어텐션을 사용하는 장문맥 언어 모델의 이차 비용 병목 현상을 해결할 것을 약속합니다. 본 논문에서는 수치적으로 안정적이며 완전한 병렬 처리가 가능하고 델타 규칙을 일반화한 오류 없는 선형 어텐션(EFLA)을 소개합니다. 구체적으로, 온라인 학습 업데이트를 연속 시간 동역학 시스템으로 공식화하고, 그 정확한 해가 달성 가능할 뿐만 아니라 선형 시간에 완전한 병렬 처리로 계산 가능함을 증명합니다. 동역학 행렬의 랭크-1 구조를 활용하여 무한 차수 런게-쿠타 방법에 효과적으로 해당하는 정확한 폐쇄형 해를 직접 유도합니다. 이 어텐션 메커니즘은 이론적으로 오류 누적이 없으며, 선형 시간 복잡도를 유지하면서 연속 동역학을 완벽하게 포착합니다. 광범위한 실험을 통해 EFLA가 잡음이 있는 환경에서도 견고한 성능을 발휘하며, 추가 매개변수를 도입하지 않고도 DeltaNet보다 낮은 언어 모델링 복잡도와 우수한 다운스트림 벤치마크 성능을 달성함을 보여줍니다. 본 연구는 높은 정확도와 확장성을 갖춘 선형 시간 어텐션 모델 구축을 위한 새로운 이론적 기반을 제공합니다.
최근 아바타 비디오 생성 모델은 놀라운 발전을 이루었습니다. 그러나 기존 연구들은 장시간 고해상도 비디오 생성에 있어 제한된 효율성을 보이며, 비디오 길이가 증가함에 따라 시간적 드리프트(temporal drifting), 화질 저하, 약한 프롬프트 추종 문제가 발생합니다. 이러한 과제를 해결하기 위해 우리는 공간 해상도와 시간 차원 모두에서 업스케일링을 수행하는 시공간 캐스케이드 프레임워크인 KlingAvatar 2.0을 제안합니다. 본 프레임워크는 먼저 전역 의미론과 동작을 포착하는 저해상도 청사진 비디오 키프레임을 생성한 후, first-last 프레임 전략을 사용하여 이를 고해상도이면서 시간적으로 일관된 서브 클립으로 정제하며 장편 비디오에서 부드러운 시간적 전환을 유지합니다. 장시간 비디오에서의 크로스 모달 명령어 융합 및 정렬을 강화하기 위해, 우리는 세 가지 모달리티 특화 대규모 언어 모델(LLM) 전문가로 구성된 Co-Reasoning Director를 도입했습니다. 이러한 전문가들은 모달리티 우선순위를 추론하고 사용자의 잠재적 의도를 추측하며, 다중 턴 대화를 통해 입력을 상세한 스토리라인으로 변환합니다. Negative Director는 부정 프롬프트를 추가로 정제하여 명령어 정렬을 개선합니다. 이러한 구성 요소를 바탕으로, 우리는 프레임워크를 확장하여 ID 특화 다중 캐릭터 제어를 지원합니다. 광범위한 실험을 통해 우리 모델이 효율적이고 다중 모달리티로 정렬된 장편 고해상도 비디오 생성의 과제를 효과적으로 해결하며, 향상된 시각적 선명도, 정확한 입 동기화를 통한 사실적인 입술-이진 렌더링, 강력한 신원 보존, 그리고 일관된 다중 모달리티 명령어 추종 성능을 제공함을 입증했습니다.
정신 건강 장애는 전 세계적으로 수억 명의 사람들에게 영향을 미치며, 현재 웹은 지원, 정보, 평가를 얻기 위한 주요 매체로 자리 잡았습니다. 대규모 언어 모델(LLM)은 확장성 있고 접근성이 높은 지원을 제공하지만, 그 추론이 불완전하거나 일관성이 없거나 근거가 부족한 경우 정신 건강 관련 환경에 배포하는 것은 여전히 위험합니다. 기존의 심리학적 LLM은 정서적 이해나 지식 회상에 중점을 두지만, 평가, 진단, 중재 계획 수립, 추상화, 검증에 필요한 단계적이고 임상적으로 정렬된 추론을 간과하고 있습니다. 이러한 문제를 해결하기 위해 우리는 신뢰할 수 있는 정신 건강 추론을 발전시키기 위한 통합 프레임워크인 MentraSuite를 소개합니다. 우리는 MentraBench를 제안하는데, 이는 5개의 핵심 추론 측면, 6가지 과제, 13개의 데이터셋을 포괄하는 종합적인 벤치마크로, 과제 수행 성능과 간결성, 일관성, 환각 회피, 과제 이해, 내적 일관성이라는 5가지 차원에서의 추론 품질을 모두 평가합니다. 우리는 더 나아가 충실하고 일관된 추론을 강화하기 위해 불일치 감지 보상이 적용된 하이브리드 SFT-RL 프레임워크를 통해 최적화된 사후 학습 모델인 Mindora를 제시합니다. 학습을 지원하기 위해, 우리는 난이도 높은 샘플을 전략적으로 필터링하고 간결하고 가독성이 높으며 균형 잡힌 궤적을 생성하기 위해 구조화되고 일관성 중심의 재작성 과정을 적용하는 새로운 추론 궤적 생성 전략을 사용하여 고품질의 궤적을 구축합니다. 평가된 20개의 LLM 전체에서 Mindora는 MentraBench에서 가장 높은 평균 성능을 달성했으며 추론 신뢰성에서도 뛰어난 성능을 보여 복잡한 정신 건강 시나리오에서의 효과성을 입증했습니다.
2025 BEHAVIOR 챌린지는 시뮬레이션 환경에서 물리적 에이전트의 장기적 과제 해결 능력 향상 과정을 엄격하게 추적하기 위해 설계되었습니다. BEHAVIOR-1K는 사람들이 로봇의 지원을 가장 원하는 일상적인 가정 내 작업에 중점을 두며, 이러한 과제들은 현실적인 환경에서 장기적 이동 조작 문제를 제기함으로써 현재 연구와 실제 인간 중심 응용 분야 간의 격차를 해소합니다. 본 보고서는 2025 BEHAVIOR 챌린지에서 아주 근소한 차이로 2위를 기록한 우리의 솔루션을 소개하며, 이는 제출된 다른 솔루션들을 상당히 큰 차이로 능가하는 성능을 보였습니다. π_{0.5}를 기반으로, 우리는 훈련 기법과 데이터의 영향을 체계적으로 연구함으로써 솔루션을 구축하는 데 주력했습니다. 신중한 애블레이션 연구를 통해 경쟁력 있는 성능을 달성하기 위한 사전 훈련 및 사후 훈련 단계의 확장 가능성을 입증합니다. 우리는 강력한 파운데이션 모델을 복잡한 구현 AI 시나리오에 적용할 때 더 넓은 구현 AI 커뮤니티에 실행 가능한 통찰력을 제공할 것으로 기대하는 실용적인 교훈과 설계 권장 사항을 요약합니다.
비전-언어-행동(VLA) 모델은 시각 인식과 언어 기반 정책 학습을 통합하여 로봇 학습에 유망한 패러다임을 제공합니다. 그러나 기존 대부분의 접근법은 3D 물리 환경에서 행동을 수행하기 위해 2D 시각 입력에 의존함으로써 인식과 행동 기반 사이에 상당한 격차를 만들어냅니다. 이러한 격차를 해소하기 위해 우리는 사전 학습 단계에서 시각 공간과 물리 공간 간의 명시적 정렬을 수행하는 공간 인식 VLA 사전 학습 패러다임을 제안합니다. 이는 로봇 정책 학습 전에 모델이 3D 공간 이해 능력을 획득할 수 있도록 합니다. 사전 학습된 비전-언어 모델을 시작점으로 대규모 인간 데모 비디오를 활용하여 3D 시각 및 3D 행동 주석을 추출함으로써 2D 시각 관측과 3D 공간 추론을 정렬하는 새로운 감독 정보 원천을 구성합니다. 우리는 이 패러다임을 VIPA-VLA로 구체화하며, 3D 인식 기능으로 의미론적 시각 표현을 강화하는 3D 시각 인코더를 통합한 이중 인코더 아키텍처입니다. 하류 로봇 작업에 적용 시 VIPA-VLA는 2D 비전과 3D 행동 간의 기반 정확도를 크게 향상시켜 더 강력하고 일반화 가능한 로봇 정책을 달성합니다.
LLM 기반 에이전트는 종종 탐욕적이며 단계별 방식으로 동작하여, 장기적 결과나 대체 경로를 고려하지 않고 현재 관측만을 기반으로 행동을 선택합니다. 이러한 전망 부족은 부분적으로만 관찰 가능한 웹 환경(브라우저 가시적 콘텐츠, 예: DOM 및 UI 요소로 제한됨)에서 특히 문제가 됩니다. 이러한 환경에서는 단일 실수도 복구하기 위해 복잡하고 취약한 탐색이 필요한 경우가 많습니다. 명시적인 역추적 메커니즘이 없으면 에이전트는 오류를 수정하거나 대체 경로를 체계적으로 탐색하는 데 어려움을 겪습니다. 트리 탐색 방법은 이러한 구조화된 탐색을 위한 원칙적인 프레임워크를 제공하지만, 기존 접근법은 안전한 역추적 메커니즘을 갖추지 못해 의도치 않은 부작용에 취약합니다. 또한 모든 행동이 되돌릴 수 있다고 가정하여 되돌릴 수 없는 행동의 존재를 무시함으로써 현실적인 웹 작업에서 효과성을 떨어뜨리는 한계가 있습니다. 이러한 문제를 해결하기 위해 우리는 신뢰할 수 있는 역추적과 전략적 탐색을 가능하게 하는 트리 탐색 프레임워크인 WebOperator를 소개합니다. 우리의 방법은 보상 추정치와 안전 고려 사항을 모두 고려하여 행동을 순위 매기는 최우선 탐색 전략과, 재수행 전에 이전에 방문한 경로의 실행 가능성을 검증하여 의도치 않은 부작용을 방지하는 강력한 역추적 메커니즘을 통합합니다. 탐색을 더욱 효과적으로 안내하기 위해 WebOperator는 다양한 추론 컨텍스트에서 행동 후보를 생성하여 다양하고 강력한 탐색을 보장하며, 실행 전에 유효하지 않은 행동을 걸러내고 의미적으로 동등한 행동을 병합하여 고품질 행동 집합을 선별합니다. WebArena와 WebVoyager에서의 실험 결과는 WebOperator의 효과성을 입증합니다. WebArena에서 WebOperator는 gpt-4o를 사용하여 54.6%의 최첨단 성공률을 달성하며, 전략적 전망과 안전한 실행의 통합이 갖는 결정적 이점을 강조합니다.
우리는 성격에 부합하는 표현, 적응형 상호작용, 자기 진화가 가능한 새로운 패러다임의 디지털 휴먼인 '인터랙티브 인텔리전스'를 소개한다. 이를 구현하기 위해 우리는 Thinker, Talker, Face Animator, Body Animator, Renderer라는 5개의 전문 모듈로 구성된 종단간(end-to-end) 프레임워크인 Mio(멀티모달 인터랙티브 옴니-아바타)를 제안한다. 이 통합 아키텍처는 인지 추론과 실시간 멀티모달 구현을 결합하여 유연하고 일관된 상호작용을 가능하게 한다. 더 나아가 우리는 인터랙티브 인텔리전스의 능력을 엄격하게 평가할 새로운 벤치마크를 구축했다. 다양한 실험을 통해 우리의 프레임워크가 평가된 모든 차원에서 최신 방법론 대비 우수한 성능을 달성함을 입증한다. 이러한 종합적 기여는 디지털 휴먼이 단순한 모방을 넘어 지능형 상호작용으로 나아가도록 한다.
많은 시각-언어 모델(VLM)이 대부분의 벤치마크에서와 같이 명확하게 정의된 직설적인 질문에 답하도록 개발되었지만, 실제로는 시각 공간에서 다중 단계의 탐색과 추론이 필요한 복잡한 개방형 과제에는 종종 어려움을 겪습니다. 이러한 시각적 사고 경로는 AI 탐정처럼 단계별 탐색과 검증을 제공할 뿐만 아니라 최종 답변에 대한 더 나은 해석을 생성합니다. 그러나 중간 단계의 방대한 탐색 공간으로 인해 이러한 경로를 평가하는 것은 어려운 과제입니다. 이러한 격차를 해소하기 위해 우리는 본질적으로 다중 단계 탐색이 필요한 난해한 시각 추론 과제로 구성된 벤치마크와 평가 프로토콜로 이루어진 평가 도구인 ``V-REX(Visual Reasoning with multi-step EXploration)''를 개발했습니다. V-REX는 다양한 영역에 걸친 풍부한 적용 시나리오를 다룹니다. V-REX는 다중 단계 탐색적 추론을 Chain-of-Questions(CoQ)로 구성하고, VLM의 능력을 (1) 기획: 탐색적 질문 체인을 선택하여 개방형 과제를 분해하는 능력과 (2) 실행: 최종 답변을 도출하기 위해 정보를 수집하도록 정련된 CoQ에 순차적으로 답하는 능력으로 분리하여 평가합니다. V-REX는 각 단계별로 질문과 답변의 유한한 옵션을 정련함으로써 중간 단계에 대한 신뢰할 수 있는 정량적이고 세분화된 분석을 가능하게 합니다. 최첨단 독점 및 오픈소스 VLM을 평가함으로써, 우리는 일관된 확장 경향, 기획과 실행 능력 간의 상당한 차이, 그리고 다중 단계 탐색적 추론에서의 개선 필요성을 확인했습니다.
멀티모달 대규모 언어 모델(MLLM)이 다양한 분야에서 강력한 능력을 보여주고 있지만, 자율 주행에서 세밀한 3D 인식 및 예측 출력을 생성하는 적용 분야는 아직 충분히 탐구되지 않았습니다. 본 논문에서는 통합 Vision-Language-Action(VLA) 프레임워크이면서 Vision-Action(VA) 모델과도 호환되는 새로운 공간 인식형 4D MLLM인 DrivePI를 제안합니다. 우리의 방법은 종단간 최적화를 통해 공간 이해, 3D 인식(즉, 3D 점유), 예측(즉, 점유 흐름) 및 계획(즉, 행동 출력)을 병렬로 공동 수행합니다. 정밀한 기하학적 정보와 풍부한 시각적 외관을 모두 얻기 위해, 우리의 접근 방식은 포인트 클라우드, 다중 뷰 이미지 및 언어 지시를 통합된 MLLM 아키텍처 내에 통합합니다. 또한 4D 공간 이해를 위한 텍스트-점유 및 텍스트-흐름 QA 쌍을 생성하는 데이터 엔진을 추가로 개발했습니다. 주목할 점은, 단지 0.5B 규모의 Qwen2.5 모델을 MLLM 백본으로만 사용하여도 DrivePI는 단일 통합 모델로서 기존 VLA 모델과 특화된 VA 모델 모두를 능가하거나 그에 버금가는 성능을 보입니다. 구체적으로, VLA 모델과 비교할 때 DrivePI는 nuScenes-QA에서 OpenDriveVLA-7B보다 평균 정확도가 2.5% 높으며, nuScenes에서 ORION 대비 충돌률을 70% 감소시켰습니다(0.37%에서 0.11%로). 특화된 VA 모델과 대비하여, DrivePI는 OpenOcc에서 3D 점유에 대해 FB-OCC보다 RayIoU가 10.3 높고, OpenOcc에서 점유 흐름에 대한 mAVE를 0.591에서 0.509로 낮추며, nuScenes에서 계획에 대해 VAD보다 32% 낮은 L2 오차를 달성했습니다(0.72m에서 0.49m로). 코드는 https://github.com/happinesslz/DrivePI 에서 공개될 예정입니다.
비전 언어 모델(VLM)은 시각 질의응답(VQA)에서 뛰어난 성능을 보이지만 정적 이미지 기반의 추론에 국한된 '스냅샷 시각' 방식의 한계를 지닙니다. 이에 반해 구체화 에이전트는 보다 유익한 시각적 정보를 얻기 위해 능동적으로 움직이는 '이동 시각'이 요구됩니다. 본 연구에서는 장면 메모리나 외부 지식에 의존하지 않고 현재 이미지의 시각 정보만을 활용해 가장 유익한 다음 시점의 시점을 선택하는 '시각 기반 능동 시점 선택(VG-AVS)' 과제를 소개합니다. 해당 과제를 지원하기 위해 자동 생성된 쿼리-대상 시점 쌍과 질문-응답 프롬프트로 구성된 합성 데이터셋을 구축하였습니다. 또한 사전 학습된 VLM을 지도 미세 조정(SFT)과 강화 학습 기반 정책 최적화를 통해 조정하는 프레임워크를 제안합니다. 우리의 접근법은 시점 선택 기반 질의응답에서 강력한 성능을 달성하며, 보이지 않는 합성 및 실제 장면에 대해 견고하게 일반화됩니다. 나아가 학습된 VG-AVS 프레임워크를 기존 장면 탐색 기반 EQA 시스템에 통합하면 하위 작업의 질의응답 정확도가 향상됩니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 다양한 로봇 매니퓰레이션 작업에서 일반화하는 뛰어난 능력을 입증했습니다. 그러나 물리적 상호작용 중 발생 가능한 충돌을 방지하는 등, 작업 준수와 안전 보장을 동시에 확보해야 하는 비구조화 환경에서 이러한 모델을 배포하는 것은 여전히 과제로 남아 있습니다. 본 연구에서는 제어 장벽 함수(control barrier functions)를 통해 공식화된 플러그 앤 플레이(plug-and-play) 안전 제약(Safety Constraint, SC) 계층을 포함하는 AEGIS라는 비전-언어-안전 행동(Vision-Language-Safe Action, VLSA) 아키텍처를 소개합니다. AEGIS는 기존 VLA 모델과 직접 통합되어 이론적 보장 하에 안전성을 향상시키면서도 원래의 지시 따르기 성능을 유지합니다. 우리 아키텍처의 효용성을 평가하기 위해 공간적 복잡성과 장애물 개입 정도가 다른 다양한 매니퓰레이션 시나리오를 아우르는 포괄적인 안전 중점 벤치마크인 SafeLIBERO를 구축했습니다. 대규모 실험을 통해 우리의 방법이 최첨단 베이스라인 대비 우수함을 입증했습니다. 특히 AEGIS는 장애물 회피율에서 59.16%의 향상을 달성하는 동시에 작업 실행 성공률을 17.25% 크게 높였습니다. 재현성과 향후 연구를 위해 코드, 모델 및 벤치마크 데이터 세트를 https://vlsa-aegis.github.io/ 에 공개합니다.
이미지 생성 모델을 일반화된 미적 선호도에 과도하게 정렬하는 것은 사용자 의도와 상충되며, 특히 예술적 또는 비판적 목적으로 '반미적' 결과물을 요청하는 경우에 두드러집니다. 이러한 정렬은 개발자 중심의 가치를 우선시함으로써 사용자 자율성과 미적 다원성을 훼손합니다. 우리는 광범위한 미적 스펙트럼 데이터셋을 구축하고 최첨단 생성 모델 및 보상 모델을 평가하여 이러한 편향을 실험합니다. 연구 결과, 미적 정렬이 된 생성 모델은 종관적으로 아름다운 결과물을 기본값으로 생성하는 경향이 있어 저품질 또는 부정적 이미지 생성 지시를 존중하지 못하는 것으로 나타났습니다. 결정적으로, 보상 모델은 사용자의 명시적 프롬프트와 완벽하게 일치하는 반미적 이미지조차 불이익 처리합니다. 우리는 이미지-이미지 편집 작업과 실제 추상 미술 작품에 대한 평가를 통해 이 체계적 편향을 확인합니다.
이미지 확산 모델의 느린 추론 과정은 상호작용적 사용자 경험을 크게 저하시킵니다. 이를 해결하기 위해 우리는 신속한 저스텝 샘플링을 통해 사용자 평가를 위한 예비 결과를 생성하고, 미리보기가 만족스러울 때까지 전체 스텝 정제를 연기하는 새로운 패러다임인 Diffusion Preview를 소개합니다. 학습 없이 적용 가능한 솔버와 학습 후 경량화 방법을 포함한 기존 가속화 기술은 고품질 미리보기 제공이나 미리보기와 최종 결과 간 일관성 보장에 어려움을 겪습니다. 우리는 일반 선형 다단계 방법에서 유래한 ConsistencySolver를 제안합니다. 이는 강화 학습을 통해 최적화된 경량화된 학습 가능 고차 솔버로, 미리보기 품질과 일관성을 향상시킵니다. 실험 결과는 ConsistencySolver가 저스텝 시나리오에서 생성 품질과 일관성을 크게 개선하여 효율적인 미리보기-정제 워크플로우에 이상적임을 보여줍니다. 특히 이 방법은 Multistep DPM-Solver 대비 47% 더 적은 스텝으로 동등한 FID 점수를 달성하면서 경량화 기준 모델들을 능가합니다. 더불어 사용자 연구 결과, 우리의 접근법이 생성 품질을 유지하면서 전체 사용자 상호작용 시간을 약 50% 단축하는 것으로 나타났습니다. 코드는 https://github.com/G-U-N/consolver에서 확인할 수 있습니다.
표현 정렬(REPA)은 강력한 사전 학습 비전 인코더의 표현을 확산 모델의 중간 특징으로 증류하여 생성적 학습을 유도합니다. 본 연구에서는 생성 작업에 있어 목표 표현의 어떤 측면이 중요한지에 대한 근본적인 질문을 탐구합니다: 글로벌 의미 정보(예: ImageNet-1K 정확도로 측정)와 공간 구조(즉, 패치 토큰 간의 pairwise 코사인 유사도) 중 무엇이 중요한가? 일반적인 통념은 더 강력한 글로벌 의미 성능이 목표 표현으로서 더 나은 생성을 이끈다는 것입니다. 이를 연구하기 위해, 우리는 먼저 27개의 서로 다른 비전 인코더와 다양한 모델 규모에 걸쳐 대규모 실증 분석을 수행합니다. 결과는 놀랍습니다; 글로벌 성능보다는 공간 구조가 목표 표현의 생성 성능을 주도합니다. 이를 추가로 연구하기 위해, 우리는 공간 정보 전달을 특별히 강조하는 두 가지 간단한 수정 사항을 도입합니다. REPA의 표준 MLP 투영 층을 간단한 합성곱 층으로 대체하고, 외부 표현을 위한 공간 정규화 층을 도입합니다. 놀라운 점은, iREPA라고 명명된 우리의 간단한 방법(4줄 미만의 코드로 구현됨)이 다양한 비전 인코더, 모델 크기, 그리고 학습 변형(REPA, REPA-E, Meanflow, JiT 등)에 걸쳐 REPA의 수렴 속도를 지속적으로 향상시킨다는 것입니다. 우리의 작업은 표현 정렬의 근본적인 작동 메커니즘과 이를 생성 모델의 개선된 학습에 어떻게 활용할 수 있는지를 재검토하는 동기를 부여합니다. 코드와 프로젝트 페이지는 https://end2end-diffusion.github.io/irepa에서 확인할 수 있습니다.
풀-길이 노래에 대한 Music-to-Video(M2V) 생성은 상당한 과제에 직면해 있습니다. 기존 방법들은 짧고 단절된 클립을 생성하며, 비주얼을 음악적 구조, 비트 또는 가사와 정렬하는 데 실패하고 시간적 일관성이 부족합니다. 우리는 노래에서 직접 풀 뮤직비디오(MV)를 생성하는 다중 에이전트 시스템인 AutoMV를 제안합니다. AutoMV는 먼저 음악 처리 도구를 적용하여 구조, 보컬 트랙, 시간 정렬된 가사와 같은 음악적 속성을 추출하고, 이러한 특징들을 후속 에이전트를 위한 맥락적 입력으로 구성합니다. 이후 스크린라이터 에이전트와 디렉터 에이전트는 이 정보를 사용하여 짧은 스크립트를 설계하고, 공유 외부 뱅크에 캐릭터 프로필을 정의하며, 카메라 지시사항을 명시합니다. 이어서 이러한 에이전트들은 키프레임 생성을 위해 이미지 생성기를, "스토리" 또는 "가수" 장면 생성을 위해 다양한 비디오 생성기를 호출합니다. 검증자 에이전트는 그들의 출력을 평가하여 다중 에이전트 협업이 일관된 장편 MV를 생성할 수 있도록 합니다. M2V 생성을 평가하기 위해, 우리는 4개의 상위 범주(음악 콘텐츠, 기술, 후반 작업, 예술)와 12개의 세부 기준을 가진 벤치마크를 추가로 제안합니다. 이 벤치마크를 적용하여 상용 제품, AutoMV, 그리고 인간이 제작한 MV를 전문가 평가자들과 비교했습니다: AutoMV는 4개 범주 모두에서 현재 기준선을 크게 능가하며 전문 MV와의 격차를 좁혔습니다. 마지막으로, 우리는 대규모 멀티모달 모델을 자동 MV 평가자로 활용하는 방안을 조사했습니다; 유망하지만, 여전히 인간 전문가에 뒤처져 향후 연구의 필요성을 보여줍니다.
확산 모델은 훈련 데이터를 의도치 않게 재생산할 수 있어, 이러한 시스템이 대규모로 배포됨에 따라 개인정보 보호 및 저작권 문제가 제기되고 있다. 기존의 추론 단계 완화 방법들은 일반적으로 classifier-free guidance(CFG)를 조작하거나 프롬프트 임베딩에 잡음을 추가하지만, 조건부 프롬프트와의 정합성을 해치지 않으면서 암기 현상을 줄이는 데는 어려움을 겪는다. 본 연구에서는 디노이징 과정에서 잠재 특징을 직접 수정하여 암기 현상을 완화하는 학습 불필요 프레임워크인 CAPTAIN을 소개한다. CAPTAIN은 먼저 주파수 기반 노이즈 초기화를 적용하여 디노이징 과정 초기에 암기된 패턴을 복제하려는 경향을 줄인다. 이후 특징 주입에 최적인 디노이징 타임스텝을 식별하고 암기된 영역을 지역화한다. 마지막으로 CAPTAIN은 암기되지 않은 참조 이미지에서 의미론적으로 정합된 특징을 지역화된 잠재 공간에 주입함으로써 프롬프트 충실도와 시각적 품질을 유지하면서 암기 현상을 억제한다. 실험 결과, CAPTAIN은 CFG 기반 베이스라인 대비 암기 현상을 상당히 줄이면서도 의도된 프롬프트와의 강력한 정합성을 유지하는 것으로 나타났다.
물리 인식 주행 세계 모델은 주행 계획, 분포 외 데이터 합성 및 폐루프 평가에 필수적입니다. 그러나 기존 방법들은 단일 확산 모델을 사용하여 주행 동작을 비디오로 직접 매핑하는 경우가 많아 학습이 어렵고 물리적으로 일관성 없는 결과를 초래합니다. 이러한 문제를 해결하기 위해 우리는 물리 인식 주행 비디오 생성을 위해 설계된 새로운 프레임워크인 GenieDrive를 제안합니다. 우리의 접근 방식은 후속 비디오 생성을 위한 물리 정보 기반으로 기능하는 4D 점유율을 생성하는 것에서 시작합니다. 4D 점유율은 고해상도 3D 구조와 동역학을 포함한 풍부한 물리 정보를 담고 있습니다. 이러한 고해상도 점유율의 효과적인 압축을 위해 우리는 점유율을 잠재 삼각 평면 표현으로 인코딩하는 VAE를 제안하여 잠재 크기를 기존 방법 대비 58%로 줄였습니다. 또한 제어가 점유율 변화에 미치는 영향을 정확하게 모델링하기 위해 상호 제어 주의(MCA)를 도입하고, 예측 정확도를 극대화하기 위해 VAE와 후속 예측 모듈을 종단 간 방식으로 공동 학습합니다. 이러한 설계를 통해 41 FPS의 추론 속도에서 예측 mIoU가 7.2% 향상되었으며, 매개변수는 3.47 M만 사용합니다. 추가적으로 비디오 생성 모델에는 정규화 다중 뷰 주의를 도입하여 우리의 4D 점유율의 guidance를 통해 다중 뷰 주행 비디오를 생성하며, FVD 20.7% 감소로 비디오 품질을 크게 개선했습니다. 실험 결과, GenieDrive가 높은 제어성, 다중 뷰 일관성 및 물리 인식 주행 비디오 생성을 가능하게 함을 입증했습니다.
효과적인 사후 훈련은 지도 미세 조정(SFT)과 강화 학습(RL)을 통합하지만, 전문가 궤적을 활용하기 위한 최적의 메커니즘은 여전히 해결되지 않은 과제로 남아 있다. 본 연구는 이러한 현황을 이론적으로 정립하기 위해 소성-한계 프레임워크를 제안하며, 성능을 기초적인 SFT 성능과 후속 RL 소성으로 분해한다. 광범위한 벤치마킹을 통해 동기화 접근법의 안정성 결함을 극복하는 순차적 SFT 후 RL 파이프라인이 우수한 표준임을 입증한다. 더 나아가 다음과 같은 정밀한 확장 지침을 도출한다: (1) SFT 안정 또는 경미한 과적합 하위 단계에서 RL로 전환하면 RL 소성을 훼손하지 않으면서 기초 SFT 성능을 확보함으로써 최종 한계를 극대화한다; (2) SFT 후 RL 확장 맥락에서 '적을수록 더 좋다'는 주장을 반증하며, 데이터 규모가 사후 훈련의 주요 잠재력을 결정하는 반면 궤적 난이도는 성능 승수 역할을 함을 입증한다; (3) 최소 SFT 검증 손실이 최종 성능 한계를 극대화하는 전문가 궤적을 선택하기 위한 강력한 지표임을 확인한다. 본 연구의 결과는 전문가 궤적에서 추출하는 가치를 극대화하기 위한 실질적인 지침을 제공한다.
확산 증류는 클래스 조건부 이미지 합성을 극적으로 가속화했지만, 개방형 텍스트-이미지(T2I) 생성에 대한 적용 가능성은 여전히 불분명합니다. 본 연구에서는 강력한 T2I 교사 모델인 FLUX.1-lite에 대해 최신 증류 기법을 적용하고 비교하는 첫 번째 체계적인 연구를 제시합니다. 기존 방법들을 통합 프레임워크로 재구성함으로써, 이산적 클래스 레이블에서 자유 형식 언어 프롬프트로 전환할 때 발생하는 주요 장애요인을 규명합니다. 철저한 방법론적 분석을 넘어, 입력 스케일링, 네트워크 아키텍처, 하이퍼파라미터에 대한 실용적인 지침을 오픈소스 구현 및 사전 학습된 학생 모델과 함께 제공합니다. 우리의 연구 결과는 실제 T2I 애플리케이션에서 고속, 고충실도, 자원 효율적인 확산 생성기를 배포하기 위한 견고한 기반을 마련합니다. 코드는 github.com/alibaba-damo-academy/T2I-Distill에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 복잡한 작업에서 성능을 향상시키기 위해 최종 답변에 앞서 추론 토큰을 생성할 수 있습니다. 이러한 토큰 열은 인간의 사고 과정처럼 보이지만, 경험적 증거에 따르면 이는 모델의 실제 추론 과정을 충실히 설명하지 않습니다. 이러한 외양과 기능 간의 괴리를 해결하기 위해 우리는 '토큰에 대한 상태(State over Tokens, SoT)' 개념적 프레임워크를 제시합니다. SoT는 추론 토큰을 언어적 서사가 아닌 외현화된 계산적 상태, 즉 모델의 상태 비보유(stateless) 생성 주기 전체를 관통하는 유일한 지속적 정보 운반체로 재정의합니다. 이는 해당 토큰들이 텍스트로 읽혔을 때에는 충실한 설명이 아니면서도 어떻게 정확한 추론을 주도할 수 있는지를 설명하고, 이 토큰들에 대해 기존에 간과되었던 연구 질문들을 부각시킵니다. 우리는 LLM이 수행하는 과정을 진정으로 이해하기 위해서는 추론 토큰을 텍스트로 읽는 것을 넘어, 이를 상태(state)로 디코딩하는 데 연구 초점을 맞춰야 한다고 주장합니다.
3D 포인트 클라우드 처리를 위한 현대적 신경망 아키텍처는 합성곱 계층과 어텐션 블록을 모두 포함하지만, 이를 효과적으로 조합하는 최선의 방법은 여전히 명확하지 않습니다. 본 연구에서는 3D 포인트 클라우드 네트워크에서 다양한 계산 블록의 역할을 분석하고 직관적인 동작 방식을 발견했습니다: 합성곱은 초기 계층에서 고해상도의 저수준 기하학적 특징을 추출하는 데 적합하며, 이 단계에서는 어텐션이 비용만 높일 뿐 이점을 제공하지 않습니다; 반면 어텐션은 저해상도의 깊은 계층에서 고수준 의미론 및 문맥 정보를 더 효율적으로 포착합니다. 이러한 설계 원칙에 기반하여, 우리는 초기 단계에서는 합성곱을 사용하고 깊은 계층으로 갈수록 어텐션으로 전환하는 새로운 개선된 3D 포인트 클라우드 백본을 제안합니다. 중복된 합성곱 계층을 제거할 때 공간 배치 정보의 손실을 방지하기 위해, 훈련이 필요 없는 새로운 3D 위치 인코딩인 PointROPE를 도입했습니다. 그 결과 개발된 LitePT 모델은 최첨단 모델인 Point Transformer V3 대비 매개변수 수가 3.6배 적고, 실행 속도가 2배 빠르며, 메모리 사용량이 2배 적음에도 불구하고, 다양한 작업과 데이터셋에서 동등하거나 더 나은 성능을 보입니다. 코드와 모델은 https://github.com/prs-eth/LitePT에서 이용 가능합니다.
시각적 토크나이저는 확산 모델에서 중요한 역할을 수행합니다. 잠재 공간의 차원은 재구성 정확도와 잠재 특징의 의미론적 표현력을 동시에 결정합니다. 그러나 차원과 생성 품질 사이에는 본질적인 트레이드오프가 존재하여, 기존 방법론들은 낮은 차원의 잠재 공간에 한정됩니다. 최근 연구들이 시각 기반 모델을 활용하여 시각적 토크나이저의 의미론을 풍부하게 하고 수렴 속도를 높이려는 시도를 하고 있지만, 고차원 토크나이저들은 여전히 저차원 대비 성능이 떨어집니다. 본 연구에서는 흐름 의미론 증류와 재구성-정렬 증류라는 두 가지 핵심 혁신을 통해 고차원 시각적 토크나이저의 한계를 극복하는 RecTok을 제안합니다. 우리의 핵심 통찰은 기존 연구처럼 잠재 공간에 집중하기보다, 확산 트랜스포머의 학습 공간 역할을 하는 흐름 정합의 순방향 흐름을 의미론적으로 풍부하게 만드는 데 있습니다. 구체적으로, 우리의 방법은 VFM의 의미론 정보를 흐름 정합의 순방향 흐름 궤적으로 증류합니다. 또한 마스킹된 특징 재구성 손실을 도입하여 의미론을 더욱 강화합니다. 우리의 RecTok은 우수한 이미지 재구성, 생성 품질 및 판별 성능을 달성합니다. 분류자 없음 지도 설정 유무와 관계없이 gFID-50K에서 최첨단 성능을 보이며 의미론적으로 풍부한 잠재 공간 구조를 유지합니다. 나아가 잠재 차원이 증가함에 따라 지속적인 성능 향상을 관찰할 수 있습니다. 코드와 모델은 https://shi-qingyu.github.io/rectok.github.io에서 확인할 수 있습니다.
Flowception은 새로운 비자기회귀(non-autoregressive) 및 가변 길이 비디오 생성 프레임워크입니다. Flowception은 이산적인 프레임 삽입과 연속적인 프레임 잡음 제거를 교차하는 확률 경로(probability path)를 학습합니다. 자기회귀 방법론과 비교했을 때, Flowception은 샘플링 과정에서의 프레임 삽입 메커니즘이 장기 맥락을 처리하는 효율적인 압축 메커니즘으로 작용하여 오류 누적/드리프트(error accumulation/drift)를 완화합니다. 전체 시퀀스 흐름(full-sequence flows) 방법론과 비교했을 때, 우리의 방법은 학습 시 FLOPs를 3분의 1로 줄이면서도 지역적 주의(local attention) 변형에 더욱 적합하고, 비디오의 내용과 함께 그 길이를 함께 학습할 수 있도록 합니다. 정량적 실험 결과는 자기회귀 및 전체 시퀀스 기준선(baselines) 대비 향상된 FVD 및 VBench 지표를 보여주며, 이는 정성적 결과를 통해 추가로 입증됩니다. 마지막으로, 프레임 삽입 및 잡음 제거를 순차적으로 학습함으로써 Flowception은 이미지-비디오 생성 및 비디오 보간과 같은 다양한 작업을 원활하게 통합합니다.
일반화는 여전히 대화형 3D 장면 생성의 핵심 과제로 남아 있습니다. 기존의 학습 기반 접근법은 제한된 장면 데이터셋에 공간 이해를 근거로 두어 새로운 레이아웃에 대한 일반화를 제한합니다. 우리는 대신 사전 학습된 3D 인스턴스 생성기를 재프로그래밍하여 장면 수준 학습자로 작동하도록 하고, 데이터셋에 종속된 지도 학습을 모델 중심의 공간 지도 학습으로 대체합니다. 이 재프로그래밍은 생성기의 전이 가능한 공간 지식을 해제하여 보지 않은 레이아웃과 새로운 객체 구성에 대한 일반화를 가능하게 합니다. 놀랍게도, 훈련 장면이 무작위로 구성된 객체라 하더라도 공간 추론이 여전히 나타납니다. 이는 생성기의 전이 가능한 장면 사전 지식이 순수한 기하학적 단서로부터 근접성, 지지, 대칭성을 추론하는 풍부한 학습 신호를 제공함을 보여줍니다. 널리 사용되는 정규 공간을 대체하여, 우리는 장면 공간을 뷰 중심의 공식으로 구현하여 인스턴스 모델로부터 직접 공간 관계를 학습하는 완전 순전파 방식의 일반화 가능한 장면 생성기를 도출합니다. 정량적 및 정성적 결과는 3D 인스턴스 생성기가 암묵적인 공간 학습자이자 추론자임을 보여주며, 대화형 3D 장면 이해 및 생성을 위한 파운데이션 모델로의 방향을 제시합니다. 프로젝트 페이지: https://luling06.github.io/I-Scene-project/
비디오 확산 모델은 생성적 비디오 합성에 혁명을 일으켰지만, 정확도가 낮고 생성 속도가 느리며 생성 과정이 불투명하여 사용자가 장시간 동안 결과를 알 수 없는 한계가 있습니다. 본 연구에서는 비디오 노이즈 제거 과정 중 임의의 지점(타임스텝 또는 트랜스포머 블록)에서 사용자가 대화형으로 미리보기를 생성할 수 있는 모델 불가지론적 경량 디코더 프레임워크인 DiffusionBrowser를 제안합니다. 우리 모델은 최종 비디오와 일관된 외관과 움직임을 전달하는 RGB 및 장면 내재적 특성을 포함한 다중 모달 미리보기 표현을 실시간 속도의 4배 이상(4초 길이 비디오 기준 1초 미만)으로 생성할 수 있습니다. 학습된 디코더를 통해 중간 노이즈 단계에서 확률성 재주입 및 모달 조정을 이용해 생성 과정을 대화형으로 유도하는 새로운 제어 기능을 구현 가능함을 보여줍니다. 또한 학습된 디코더를 활용하여 모델을 체계적으로 분석함으로써, 기존에는 블랙박스였던 노이즈 제거 과정 동안 장면, 객체 및 기타 세부 요소가 어떻게 구성되고 조립되는지를 밝혀냅니다.
텍스트 반전(Textual Inversion, TI)은 텍스트-이미지 개인화에 효율적인 접근법이지만 복잡한 프롬프트에서 종종 실패합니다. 우리는 이러한 실패의 원인이 임베딩 노름 팽창(norm inflation), 즉 학습된 토큰이 분포 외(out-of-distribution) 크기로 치우쳐 pre-norm 트랜스포머의 프롬프트 조건화를 저하시키는 현상임을 규명합니다. 실증적으로 CLIP 토큰 공간에서 의미는 주로 방향에 의해 인코딩되는 반면, 팽창된 노름은 문맥화를 해친다는 것을 보입니다. 이론적으로는 큰 크기가 위치 정보를 약화시키고 pre-norm 블록의 잔차 업데이트를 방해하는 방식을 분석합니다. 우리는 임베딩 크기를 분포 내 규모로 고정하고 리만 SGD를 통해 단위 초구(unit hypersphere) 상에서 방향만을 최적화하는 방향성 텍스트 반전(Directional Textual Inversion, DTI)을 제안합니다. 방향 학습을 von Mises-Fisher 사전 분포를 활용한 MAP 문제로 재구성하여, 통합이 간단하고 효율적인 상수 방향 사전 그래디언트를 도출합니다. 다양한 개인화 작업에서 DTI는 대상 유사성을 유지하면서 TI 및 TI 변형 모델보다 텍스트 정확도를 향상시킵니다. 결정적으로, DTI의 초구 매개변수화는 학습된 개념 간의 부드럽고 의미적으로 일관된 보간(slerp)을 가능하게 하며, 이는 기존 TI에는 없는 기능입니다. 우리의 연구 결과는 방향 전용 최적화가 프롬프트에 충실한 개인화를 위한 강력하고 확장 가능한 방법임을 시사합니다.
운동 이해는 물리적 추론의 기초를 이루며, 모델이 역학을 추론하고 미래 상태를 예측할 수 있게 합니다. 그러나 최첨단 모델들도 최근의 운동 벤치마크에서 여전히 어려움을 겪고 있는데, 이는 주로 대규모의 세분화된 운동 데이터셋의 부족 때문입니다. 기존 운동 데이터셋은 비용이 많이 드는 수동 주석 작업으로 구축되는 경우가 많아 확장성이 심각하게 제한됩니다. 이러한 문제를 해결하기 위해 우리는 대규모 운동 데이터셋을 구축하는 완전 자동화된 데이터 큐레이션 파이프라인인 FoundationMotion을 소개합니다. 우리의 접근 방식은 먼저 비디오에서 객체를 감지 및 추적하여 궤적을 추출한 다음, 이러한 궤적과 비디오 프레임을 대규모 언어 모델(LLM)과 결합하여 운동 및 공간 추론에 대한 세분화된 설명과 다양한 질문-답변 쌍을 생성합니다. 이 파이프라인으로 생성된 데이터셋을 사용하여 NVILA-Video-15B 및 Qwen2.5-7B를 포함한 오픈소스 모델을 미세 조정하여 다른 작업의 성능을 저하시키지 않으면서 운동 이해 능력에서 상당한 향상을 달성했습니다. 특히, 우리의 모델은 다양한 운동 이해 데이터셋과 벤치마크에서 Gemini-2.5 Flash와 같은 강력한 클로즈드소스 기준 모델과 Qwen2.5-VL-72B와 같은 대형 오픈소스 모델을 능가하는 성능을 보였습니다. 따라서 FoundationMotion은 다양한 모델의 효과적인 미세 조정을 가능하게 하여 운동 이해와 공간 추론 능력을 향상시키는 세분화된 운동 데이터셋을 큐레이션하기 위한 확장 가능한 솔루션을 제공합니다.
차트 이해는 과학 논문 및 기술 보고서 분석과 같은 실제 현장에 멀티모달 대규모 언어 모델(MLLM)을 적용하는 데 핵심적입니다. 자연 이미지와 달리 차트는 구조화된 시각적 레이아웃(공간적 속성)과 기반 데이터 표현(텍스트적 속성)을 결합하고 있으며, 정밀하고 세분화된 차트 추론을 위해서는 이 둘 모두를 파악하는 것이 필수적입니다. 이러한 관찰에 기반하여, 우리는 공간 및 텍스트 학습을 통한 차트 이해 방법론인 START를 제안합니다. 구체적으로, (i) 차트 요소 기반 위치 추적과 (ii) 차트-코드 변환 생성을 도입하여 MLLM의 차트 시각 레이아웃 및 데이터 세부사항 이해를 강화합니다. 공간 및 텍스트 학습을 지원하기 위해, 우리는 새로운 데이터 생성 파이프라인으로 생성된 START 데이터셋을 제안합니다. 이 파이프라인은 먼저 실제 차트 이미지를 실행 가능한 차트 코드로 변환하기 위해 MLLM을 활용하여 기반 데이터 표현을 복원함과 동시에 실제 차트의 시각적 분포를 보존합니다. 그런 다음 대규모 언어 모델(LLM)을 사용하여 코드를 발전시켜 차트의 시각적 구조를 포착하는 차트 요소들의 위치를 확인하며, 기존 방법이 처리하지 못하는 문제를 해결합니다. 모델의 차트 공간 구조 이해 능력을 평가하기 위해 우리는 Chart Spatial understanding Benchmark(CS-Bench)를 제안하며, 이는 포괄적인 차트 이해 평가에서 중요한 공백을 메꿉니다. 공간 및 텍스트 학습을 활용한 START는 기본 모델 대비 다양한 모델 크기와 벤치마크에서 지속적인 성능 향상을 보여주며, 기존 최첨단 기술을 명확한 차이로 능가합니다. 코드, 데이터 및 모델은 공개될 예정입니다.
실제 세계의 장면은 종종 여러 정적 및 동적 객체로 구성됩니다. 이러한 객체들의 4차원 구조, 구성, 그리고 실제 환경에서의 시공간적 배치를 포착하는 것은 매우 흥미롭지만 동등하게 어려운 과제입니다. 따라서 기존 연구들은 주로 한 번에 하나의 객체에 집중하며, 동적 객체에 대해 범주별 파라미터적 형태 모델에 의존해 왔습니다. 이는 모델링된 객체 범주로 제한될 뿐만 아니라 일관성 없는 장면 구성을 초래할 수 있습니다. 우리는 정적 다중 객체 또는 동적 단일 객체 감독만을 사용하여 4D/3D 객체의 구조와 시공간적 구성을 일관되게 공동 예측하는 방법인 COM4D(Compositional 4D)를 제안합니다. 이를 위해 2D 비디오 입력에 대한 공간 및 시간 어텐션을 신중하게 설계하여 학습을 수행합니다. 학습은 한편으로는 객체 구성에 대한 학습과, 다른 한편으로는 비디오 전반에 걸친 단일 객체 동역학 학습으로 분리되어 4D 구성 학습 데이터에 대한 의존성을 완전히 회피합니다. 추론 시에는 우리가 제안하는 어텐션 혼합 메커니즘이 이러한 독립적으로 학습된 어텐션들을 결합하며, 4D 구성 예시가 전혀 필요하지 않습니다. 공간 추론과 시간 추론을 번갈아 가며 수행함으로써, COM4D는 단안 비디오로부터 직접 여러 객체가 상호작용하는 완전하고 지속적인 4D 장면을 복원합니다. 더 나아가, COM4D는 순수하게 데이터 주도적 접근법임에도 불구하고, 4D 객체 재구성 및 구성적 3D 재구성이라는 기존의 개별 문제들에서 최첨단 결과를 제공합니다.
정확한 어업 데이터는 효과적이고 지속 가능한 해양 자원 관리에 필수적입니다. 최근 전자 모니터링(EM) 시스템의 도입으로, 수동으로 검토하기에 실질적으로 불가능한 양의 영상 데이터가 수집되고 있습니다. 본 논문은 컨베이어 벨트가 설치된 EM 시스템을 모방하고 외형이 유사한 6종의 어종을 포함하는 새로운 AutoFish 데이터셋을 활용하여, 자동화된 어종 재식별(Re-ID)을 위한 최적화된 딥러닝 파이프라인을 개발함으로써 이 문제를 해결합니다. 데이터셋에 특화된 정규화를 포함한 맞춤형 이미지 변환 파이프라인과 하드 트리플렛 마이닝을 함께 사용하면 핵심 재식별 지표(R1 및 mAP@k)가 크게 향상됨을 보여줍니다. 이러한 전략을 통해 Vision Transformer 기반의 Swin-T 아키텍처가 Convolutional Neural Network 기반의 ResNet-50보다 consistently 우수한 성능을 보이며, mAP@k 41.65%, Rank-1 정확도 90.43%의 최고 성능을 달성함을 입증합니다. 심층 분석 결과, 주요 과제는 동일 종 내에서 시각적으로 유사한 개체를 구별하는 것(종내 오류)이며, 부분 폐색보다 시점 불일치가 성능에 훨씬 더 치명적인 영향을 미치는 것으로 나타났습니다. 소스 코드 및 문서는 https://github.com/msamdk/Fish_Re_Identification.git에서 확인할 수 있습니다.
우리는 핀란드어 대규모 언어 모델 평가를 위한 통합 벤치마크 제품군인 FIN-bench-v2를 소개한다. FIN-bench-v2는 널리 사용되는 벤치마크의 핀란드어 버전을 기존 FIN-bench의 업데이트 및 확장 버전과 통합하여, 독해, 상식 추론, 감정 분석, 세계 지식, 정렬(alignment)에 걸친 객관식 및 생성형 과제를 포괄하는 일관된 형식의 단일 컬렉션으로 구성된다. 모든 데이터셋은 HuggingFace Datasets 형식으로 변환되었으며, 각 과제당 5가지 변형을 포함한 빈칸 채우기 및 객관식 프롬프트 형식을 제공한다. 또한 GoldenSwag 및 XED와 같은 기계 번역 자원에 대해서는 인간의 주석 작업 또는 검토를 포함시켰다. 강건한 과제를 선별하기 위해 2.15B 매개변수 디코더 전용 모델 세트를 사전 학습하고, 그 학습 곡선을 활용하여 단조성(monotonicity), 신호 대 잡음비(signal-to-noise), 비무작위 성능(non-random performance), 모델 순서 일관성(model ordering consistency)을 계산하여 모든 기준을 충족하는 과제만을 선정하였다. 또한 더 큰 규모의 지시 튜닝 모델 세트를 추가 평가하여 다양한 과제와 프롬프트 형식에 따른 성능 특성을 분석하였다. 모든 데이터셋, 프롬프트 및 평가 설정은 https://github.com/LumiOpen/lm-evaluation-harness 의 Language Model Evaluation Harness 포크를 통해 공개되어 있다. 보조 자료는 별도 저장소인 https://github.com/TurkuNLP/FIN-bench-v2 에서 공개한다.
월드 모델은 로봇 학습 과제에서 인상적인 성능을 입증해왔다. 이러한 과제 다수는 본질적으로 다중 모드 추론을 요구한다. 예를 들어, 물병에 물을 채우는 작업은 시각 정보만으로는 모호하거나 불완전하여, 오디오의 시간적 변화를 추론하고 그 기반이 되는 물리적 특성과 음높이 패턴을 고려해야 한다. 본 논문에서는 생성적 잠재 흐름 매칭 모델을 제안하여 미래의 오디오 관측을 예측함으로써, 로봇 정책에 통합될 때 시스템이 장기적 결과에 대해 추론할 수 있도록 한다. 우리는 미래 예측 기능이 없는 방법론들과 비교하여, 실제 환경의 오디오나 음악 신호를 인지해야 하는 두 가지 조작 과제를 통해 본 시스템의 우수한 능력을 입증한다. 나아가, 이러한 과제들에 대한 성공적인 로봇 행동 학습은 단순한 다중 모드 입력이 아닌, 내재된 리듬 패턴을 구현하는 미래 오디오 상태의 정확한 예측에 크게 의존함을 강조한다.
대규모 멀티모달 모델의 최근 발전은 명시적 추론 메커니즘이 모델의 신뢰성, 해석 가능성, 그리고 크로스모달 정렬 향상에 중요한 역할을 한다는 것을 시사합니다. 이러한 추론 중심 접근법이 언어 및 비전 작업에서 효과적임이 입증되었지만, 3D 영역으로의 확장은 아직 미흡한 실정입니다. CoRe3D는 의미론적 및 공간적 추상화를 함께 연산하는 통합 3D 이해 및 생성 추론 프레임워크를 제안하며, 언어로부터 추론된 높은 수준의 의도가 낮은 수준의 3D 콘텐츠 형성을 직접 안내할 수 있게 합니다. 이 설계의 핵심은 3D 잠재 공간을 지역화된 영역으로 분해하여 모델이 구성적 및 절차적 방식으로 기하학적 구조에 대해 추론할 수 있게 하는 공간적으로 기반을 둔 추론 표현입니다. 의미론적 사고의 연쇄 추론과 구조화된 공간 추론을 긴밀하게 결합함으로써, CoRe3D는 강력한 지역적 일관성과 언어적 설명에 대한 충실한 정렬을 보여주는 3D 출력 결과를 생성합니다.
연령 관련 황반변성(AMD) 및 맥락막 신생혈관(CNV) 관련 질환은 전 세계적으로 시력 손실의 주요 원인이며, 광간섭단층촬영(OCT)은 조기 발견 및 관리의 핵심 수단으로 활용되고 있습니다. 그러나 ConvNeXtV2-Large와 같은 최첨단 딥러닝 모델을 임상 현장에 배포하는 것은 높은 계산량 요구로 인해 제약을 받고 있습니다. 따라서 높은 진단 성능을 유지하면서 실시간 배포가 가능한 효율적인 모델 개발이 요구됩니다. 본 연구에서는 고성능 ConvNeXtV2-Large 교사 모델(고급 증강 기법, 확률적 가중 평균, focal loss로 강화됨)을 경량 EfficientNet-B2 학생 모델로 압축하기 위해 KD-OCT라는 새로운 지식 증류 프레임워크를 제안합니다. 이는 정상, 드루젠, CNV 케이스를 분류하는 데 사용됩니다. KD-OCT는 소프트 교사 지식 전달과 하드 실측값 감독 간의 균형을 맞춘 결합 손실 함수를 통한 실시간 증류를 적용합니다. 제안된 방법의 효과는 환자 수준 교차 검증을 사용하여 Noor Eye Hospital(NEH) 데이터셋에서 평가되었습니다. 실험 결과, KD-OCT는 효율성과 정확도의 균형 측면에서 유사한 다중 스케일 또는 특징 융합 OCT 분류기들을 능가하며, 모델 크기와 추론 시간을 대폭 줄이면서 교사 모델에 근접한 성능을 달성함을 보여줍니다. 압축에도 불구하고 학생 모델은 대부분의 기존 프레임워크를 뛰어넘어 AMD 스크리닝을 위한 에지 디바이스 배포를 용이하게 합니다. 코드는 https://github.com/erfan-nourbakhsh/KD-OCT에서 확인할 수 있습니다.