번역이 포함된 일일 선별된 AI 연구 논문
Yume는 이미지, 텍스트 또는 비디오를 활용하여 상호작용적이고 사실적이며 동적인 세계를 생성하는 것을 목표로 합니다. 이를 통해 주변 장치나 신경 신호를 사용한 탐색과 제어가 가능합니다. 본 보고서에서는 입력 이미지로부터 동적인 세계를 생성하고 키보드 동작을 통해 탐색할 수 있는 \method의 프리뷰 버전을 소개합니다. 이러한 고품질의 상호작용적 비디오 세계 생성을 위해, 우리는 카메라 모션 양자화, 비디오 생성 아키텍처, 고급 샘플러, 모델 가속화 등 네 가지 주요 구성 요소로 이루어진 잘 설계된 프레임워크를 제안합니다. 먼저, 안정적인 학습과 사용자 친화적인 키보드 입력 상호작용을 위해 카메라 모션을 양자화합니다. 그런 다음, 무한 비디오 생성을 위해 메모리 모듈이 포함된 Masked Video Diffusion Transformer~(MVDT)를 소개합니다. 이후, 더 나은 시각적 품질과 정밀한 제어를 위해 훈련이 필요 없는 Anti-Artifact Mechanism (AAM)과 Stochastic Differential Equations (TTS-SDE) 기반의 Time Travel Sampling을 샘플러에 도입합니다. 또한, 적대적 증류와 캐싱 메커니즘의 시너지 최적화를 통해 모델 가속화를 연구합니다. 우리는 고품질의 세계 탐색 데이터셋 \sekai를 사용하여 \method를 훈련시켰으며, 다양한 장면과 응용 분야에서 뛰어난 결과를 달성했습니다. 모든 데이터, 코드베이스, 모델 가중치는 https://github.com/stdstu12/YUME에서 확인할 수 있습니다. Yume는 원래 목표를 달성하기 위해 매월 업데이트될 예정입니다. 프로젝트 페이지: https://stdstu12.github.io/YUME-Project/.
다중모드 대형 언어 모델(MLLMs)에서 인간과 유사한 인지 및 추론 능력을 달성하는 것은 인공지능 분야의 핵심 과제로 남아 있습니다. 최근 연구는 주로 MLLMs의 추론 능력 향상에 초점을 맞추어 왔지만, 근본적인 질문은 여전히 남아 있습니다: 다중모드 대형 언어 모델이 정말로 인간처럼 세상을 인지할 수 있는가? 본 논문은 추론에서 인지로 초점을 전환합니다. 추론을 위한 벤치마크를 구축하는 대신, 우리는 인간이 직관적으로 처리하는 합성 이미지에 대한 MLLMs의 성능을 평가하는 네 가지 진단 작업으로 구성된 도전적인 인지 중심 벤치마크인 튜링 아이 테스트(TET)를 소개합니다. 우리의 연구 결과는 최첨단 MLLMs가 인간에게는 사소한 인지 작업에서 치명적인 실패를 보인다는 것을 밝혀냈습니다. 이전 벤치마크에서 효과적이었던 컨텍스트 내 학습과 언어 백본 학습 모두 우리의 작업에서 성능 향상을 이루지 못한 반면, 비전 타워를 미세 조정하면 빠른 적응이 가능했는데, 이는 우리의 벤치마크가 언어 백본의 지식과 추론 능력보다는 비전 타워의 일반화에 도전을 제기한다는 것을 시사합니다. 이는 현재의 MLLMs와 인간 인지 사이의 주요 격차를 나타냅니다. 이번 버전에서는 TET 작업의 대표적인 하위 집합을 공개하며, 향후 작업에서는 시각적 일반화를 강화하기 위해 더 다양한 작업과 방법을 소개할 예정입니다.
고품질 프레젠테이션 슬라이드 설계는 다양한 디자인 선택을 탐색하는 과정의 복잡성으로 인해 비전문가에게는 어려운 과제가 될 수 있습니다. 수많은 자동화 도구들이 레이아웃과 색상 구성을 제안할 수 있지만, 실제 워크플로에서 중요한 측면인 자체 출력을 개선하는 능력은 종종 부족합니다. 우리는 DesignLab을 제안하며, 이는 디자인 프로세스를 디자인 리뷰어(디자인 관련 문제를 식별)와 디자인 기여자(문제를 수정)라는 두 가지 역할로 분리합니다. 이러한 분해는 리뷰어가 지속적으로 문제를 감지하고 기여자가 이를 수정하는 반복적인 루프를 가능하게 하여, 각 반복마다 초안을 더욱 다듬어 이전에는 달성할 수 없었던 품질에 도달할 수 있도록 합니다. 우리는 이러한 역할을 위해 대규모 언어 모델을 미세 조정하고, 통제된 변동을 도입하여 중간 초안을 시뮬레이션함으로써 디자인 리뷰어가 디자인 오류를 학습하고 기여자가 이를 수정하는 방법을 학습할 수 있도록 합니다. 우리의 실험 결과, DesignLab은 반복적인 디자인의 특성을 수용하여 세련되고 전문적인 슬라이드를 생성함으로써 상용 도구를 포함한 기존 디자인 생성 방법들을 능가하는 성능을 보여줍니다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 강력한 패러다임으로 부상하고 있다. 기존 연구는 주로 수학 문제 해결, 코딩 작업, 논리적 추론과 같은 독립적인 추론 영역에 집중해왔다. 그러나 실제 세계의 추론 시나리오는 본질적으로 여러 인지 능력을 통합적으로 적용할 것을 요구한다. 그럼에도 불구하고, 강화 학습 하에서 이러한 추론 능력 간의 상호작용은 여전히 잘 이해되지 않고 있다. 이러한 격차를 해소하기 위해, 우리는 RLVR 프레임워크 내에서 다중 도메인 추론에 대한 체계적인 연구를 제시하며, 특히 수학적 추론, 코드 생성, 논리 퍼즐 해결이라는 세 가지 주요 도메인에 초점을 맞춘다. 우리는 네 가지 핵심 구성 요소를 포함한 포괄적인 연구를 수행한다: (1) GRPO 알고리즘과 Qwen-2.5-7B 모델 패밀리를 활용하여, 단일 도메인 데이터셋으로 학습된 모델의 도메인 내 개선 및 도메인 간 일반화 능력을 철저히 평가한다. (2) 또한, 교차 도메인 학습 중에 발생하는 상호 강화 및 충돌을 포함한 복잡한 상호작용을 조사한다. (3) SFT(Supervised Fine-Tuning)가 강화 학습에 미치는 영향을 더 깊이 이해하기 위해, 동일한 RL 설정 하에서 기본 모델과 지시 모델 간의 성능 차이를 분석하고 비교한다. (4) 더 나아가, 커리큘럼 학습 전략, 보상 설계의 변형, 언어별 요소와 같은 중요한 RL 학습 세부 사항을 체계적으로 탐구한다. 광범위한 실험을 통해, 우리의 결과는 도메인 간 상호작용을 지배하는 역학에 대한 중요한 통찰을 제공하며, 특화된 추론 성능과 일반화 가능한 추론 성능에 영향을 미치는 핵심 요소를 밝힌다. 이러한 발견들은 LLM의 포괄적이고 다중 도메인 추론 능력을 육성하기 위해 RL 방법론을 최적화하는 데 유용한 지침을 제공한다.
최근 희소 복셀 표현 기술의 발전은 고해상도 모델링과 세밀한 기하학적 구조를 가능하게 하여 3D 콘텐츠 생성의 품질을 크게 향상시켰다. 그러나 기존 프레임워크는 두 단계 확산 파이프라인에서 어텐션 메커니즘의 이차 복잡성으로 인해 심각한 계산 비효율성을 겪고 있다. 본 연구에서는 품질 저하 없이 희소 복셀 모델링을 크게 가속화하는 효율적인 3D 생성 프레임워크인 Ultra3D를 제안한다. 우리의 방법은 첫 번째 단계에서 컴팩트한 VecSet 표현을 활용하여 거친 객체 레이아웃을 효율적으로 생성함으로써 토큰 수를 줄이고 복셀 좌표 예측을 가속화한다. 두 번째 단계에서는 복셀별 잠재 특징을 정제하기 위해, 의미적으로 일관된 부분 영역 내에서만 어텐션 계산을 제한하는 기하학적 인식의 지역화된 어텐션 메커니즘인 Part Attention을 도입한다. 이 설계는 구조적 연속성을 유지하면서 불필요한 전역 어텐션을 피하여 잠재 생성에서 최대 6.7배의 속도 향상을 달성한다. 이 메커니즘을 지원하기 위해, 원시 메시를 부분 레이블이 지정된 희소 복셀로 변환하는 확장 가능한 부분 주석 파이프라인을 구축한다. 광범위한 실험을 통해 Ultra3D가 1024 해상도에서 고해상도 3D 생성을 지원하며 시각적 충실도와 사용자 선호도 모두에서 최신 기술을 능가하는 성능을 달성함을 입증한다.
에이전트 기반 검색은 더 자율적이고 적응적인 검색 보강 패러다임으로서, 지능형 검색 시스템의 진화를 주도하고 있습니다. 그러나 기존의 평가 프레임워크는 에이전트 기반 검색의 목표와 잘 맞지 않습니다. 첫째, 현재 벤치마크에서 일반적으로 사용되는 복잡한 쿼리는 실제 사용자 검색 시나리오와는 거리가 있는 경우가 많습니다. 둘째, 기존 접근 방식은 종단 간 평가를 위한 정답 데이터를 추출할 때 노이즈를 유입시켜, 세밀한 수준에서 왜곡된 평가를 초래하는 경향이 있습니다. 셋째, 대부분의 현재 프레임워크는 최종 답변의 품질에만 초점을 맞추어, 에이전트 기반 검색에 내재된 반복적 프로세스의 평가를 소홀히 합니다. 이러한 한계를 해결하기 위해, 우리는 RAVine(Reality-Aligned eValuation)을 제안합니다. RAVine은 사용자 의도를 더 잘 반영하는 다중 포인트 쿼리와 장문 답변을 대상으로 하며, 세밀한 평가의 정확성을 높이기 위해 귀속 가능한 정답 구성 전략을 도입합니다. 또한, RAVine은 반복적 프로세스 전반에 걸쳐 모델의 검색 도구와의 상호작용을 검토하고, 효율성 요소를 고려합니다. 우리는 RAVine을 사용하여 일련의 모델을 벤치마킹하고 몇 가지 통찰을 도출했으며, 이를 통해 에이전트 기반 검색 시스템의 발전에 기여하기를 바랍니다. 코드와 데이터셋은 https://github.com/SwordFaith/RAVine에서 확인할 수 있습니다.
기존의 비공식 언어 기반(예: 인간 언어) 대형 언어 모델(LLMs)은 강화 학습(Reinforcement Learning, RL)을 통해 훈련되지만, 중요한 훈련 신호를 제공하는 검증 과정이 신뢰할 수 없고 확장 가능하지 않다는 중대한 문제에 직면해 있습니다. 실제로, 널리 사용되는 대형 독점 모델들은 검증 가능한 프로그램을 생성하기 어려운 상황입니다. 이에 대한 유망하면서도 아직 많이 탐구되지 않은 대안은 형식 언어 기반 추론입니다. 형식적 시스템에 기반을 둔 LLMs는 형식 언어 공간(예: Dafny)에서 생성 모델이 작동하도록 함으로써, 그들의 추론 과정과 결과를 자동적이고 수학적으로 검증 가능하게 만듭니다. 이 능력은 대규모의 신뢰할 수 있는 형식적 소프트웨어 검증을 달성하는 데 핵심적입니다. 일반적으로 인간이 주석을 단 사고의 연쇄(chain-of-thought) 및 기타 인간의 사전 지식을 활용하여 LLMs의 추론 및 코딩 능력을 유도합니다. 그러나 복잡한 프로그래밍 작업을 감독하기 위해 이러한 사전 지식을 제공하는 것은 현실적으로 감당하기 어려울 정도로 많은 비용을 요구합니다. 본 연구에서는 형식 언어인 Dafny를 주요 환경으로 삼아 인간의 사전 지식을 줄이는 방법을 체계적으로 탐구합니다. 우리의 파이프라인은 주로 자동적이고 확장 가능한 데이터 큐레이션 파이프라인을 도입하고, 형식 언어 검증기의 피드백과 통합된 신중한 RL 설계에 의존합니다. 우리는 사양 추론을 위한 자동 형식화된 사양을 포함한 구성적 형식 프로그램 벤치마크인 DafnyComp를 소개합니다. 우리의 지도 미세 조정(Supervised Fine-Tuning, SFT) 단계는 작은 모델(예: 0.5B)조차도 구문적으로 유효하고 검증 가능한 Dafny 코드를 생성할 수 있게 하여 독점 모델들을 능가합니다. 정규화를 적용한 RL은 성능을 더욱 개선하여 도메인 외 작업에 대한 더 강력한 일반화를 달성하고, 도전적인 DafnyComp 벤치마크에서 모든 강력한 기준선을 능가합니다.
대규모 언어 모델(LLMs)은 잘 구성된 프롬프트를 통해 최상의 성능을 발휘하지만, 프롬프트 엔지니어링은 여전히 수동적이고 일관성이 없으며 비전문가에게는 접근하기 어려운 실정이다. 본 연구에서는 자연어 작업 설명을 고품질 프롬프트로 변환하는 자동 프롬프트 최적화 프레임워크인 Promptomatix를 소개한다. Promptomatix는 수동 조정이나 도메인 전문 지식 없이도 프롬프트를 최적화할 수 있으며, 경량 메타 프롬프트 기반 최적화기와 DSPy 기반 컴파일러를 모두 지원한다. 모듈식 설계를 통해 향후 더 발전된 프레임워크로의 확장이 가능하다. 이 시스템은 사용자 의도를 분석하고, 합성 훈련 데이터를 생성하며, 프롬프트 전략을 선택하고, 비용 인식 목표를 사용하여 프롬프트를 개선한다. 5가지 작업 범주에 걸쳐 평가한 결과, Promptomatix는 기존 라이브러리와 비교하여 경쟁력 있거나 우수한 성능을 보였으며, 프롬프트 길이와 계산 오버헤드를 줄여 프롬프트 최적화를 확장 가능하고 효율적으로 만드는 것으로 나타났다.
고품질 3D 자산은 컴퓨터 그래픽스와 3D 비전 분야의 다양한 응용 프로그램에 필수적이지만, 높은 획득 비용으로 인해 여전히 부족한 상황입니다. 이러한 부족 문제를 해결하기 위해, 우리는 쉽게 접근할 수 있는 저품질 3D 자산을 고품질로 변환하는 새로운 프레임워크인 Elevate3D를 소개합니다. Elevate3D의 핵심은 HFS-SDEdit이라는 특화된 텍스처 향상 방법으로, 이는 텍스처 품질을 크게 개선하면서 외관과 기하학적 구조를 보존하고 열화 현상을 수정합니다. 또한, Elevate3D는 뷰별(view-by-view) 방식으로 작동하며, 텍스처와 기하학적 정제를 번갈아가며 수행합니다. 기존 방법들이 주로 기하학적 정제를 간과했던 것과 달리, 우리의 프레임워크는 HFS-SDEdit으로 정제된 이미지에서 기하학적 단서를 활용하며, 최신의 단안(monocular) 기하학 예측기를 사용합니다. 이 접근 방식은 향상된 텍스처와 완벽하게 조화를 이루는 세밀하고 정확한 기하학적 구조를 보장합니다. Elevate3D는 최근의 경쟁자들을 능가하며 3D 모델 정제 분야에서 최첨단 품질을 달성함으로써, 고품질 오픈소스 3D 자산의 부족 문제를 효과적으로 해결합니다.
비디오 확산 모델의 급속한 발전은 시간적 모델링의 근본적인 한계, 특히 기존의 스칼라 시간 단계 변수가 부과하는 프레임 진화의 경직된 동기화로 인해 방해를 받아왔다. 작업별 적응 및 자기회귀 모델이 이러한 문제를 해결하려고 시도했지만, 이들은 계산 비효율성, 파국적 망각 또는 제한된 적용 범위에 의해 여전히 제약을 받고 있다. 본 연구에서는 벡터화된 시간 단계 적응(VTA)을 활용하여 통합 비디오 확산 프레임워크 내에서 세밀한 시간적 제어를 가능하게 하는 혁신적인 패러다임인 Pusa를 제시한다. 또한, VTA는 비파괴적 적응으로, 기본 모델의 기능을 완전히 보존한다. SOTA Wan2.1-T2V-14B 모델을 VTA로 미세 조정함으로써, 우리는 전례 없는 효율성을 달성했다 -- Wan-I2V-14B의 성능을 훈련 비용의 1/200 이하(\500 대 \geq 100,000) 및 데이터셋 크기의 1/2500 이하(4K 대 geq 10M 샘플)로 능가했다. Pusa는 이미지-투-비디오(I2V) 생성을 위한 새로운 기준을 설정하며, VBench-I2V 총점 87.32\%(Wan-I2V-14B의 86.86\% 대비)를 달성했을 뿐만 아니라, 시작-종료 프레임 및 비디오 확장과 같은 많은 제로샷 다중 작업 능력을 작업별 훈련 없이도 해제한다. 동시에, Pusa는 텍스트-투-비디오 생성도 수행할 수 있다. 기계적 분석은 우리의 접근 방식이 기본 모델의 생성적 사전 지식을 보존하면서 시간적 역동성을 정밀하게 주입하여 벡터화된 시간 단계에 내재된 조합적 폭발을 피한다는 것을 보여준다. 이 연구는 차세대 비디오 합성을 위한 확장 가능하고 효율적이며 다재다능한 패러다임을 확립하여, 연구 및 산업 분야 모두를 위한 고품질 비디오 생성을 민주화한다. 코드는 https://github.com/Yaofang-Liu/Pusa-VidGen에서 오픈소스로 제공된다.
텍스트-이미지 확산 모델(DMs)은 이미지 생성 분야에서 놀라운 성과를 거두었습니다. 그러나 이러한 모델이 훈련 데이터를 의도치 않게 암기하고 복제할 가능성 때문에 데이터 프라이버시와 지적 재산권에 대한 우려가 남아 있습니다. 최근의 완화 노력은 암기 현상이 특정 위치에 국한될 수 있다는 가정에 기반하여, 데이터 복제를 유발하는 가중치를 식별하고 제거하는 데 초점을 맞추고 있습니다. 본 연구는 이러한 가지치기 기반 접근법의 견고성을 평가합니다. 우리는 가지치기를 수행한 후에도 입력 프롬프트의 텍스트 임베딩에 사소한 조정을 가하는 것만으로 데이터 복제가 다시 유발될 수 있음을 보여주며, 이러한 방어 메커니즘의 취약성을 강조합니다. 더 나아가, 우리는 암기 현상의 국한성이라는 근본적인 가정에 도전합니다. 텍스트 임베딩 공간 내 다양한 위치에서 복제가 유발될 수 있으며, 모델 내에서 서로 다른 경로를 따르는 것을 보여줌으로써 이를 입증합니다. 우리의 연구 결과는 기존의 완화 전략이 불충분하며, 암기된 내용의 검출을 억제하려는 시도보다는 이를 진정으로 제거할 수 있는 방법의 필요성을 강조합니다. 이를 위한 첫 번째 단계로, 우리는 복제 유발 요소를 반복적으로 탐색하고 모델을 업데이트하여 견고성을 높이는 새로운 적대적 미세 조정 방법을 소개합니다. 본 연구를 통해 우리는 텍스트-이미지 DMs에서의 암기 현상의 본질에 대한 새로운 통찰을 제공하며, 더 신뢰할 수 있고 규정을 준수하는 생성형 AI를 구축하기 위한 기반을 마련합니다.