번역이 포함된 일일 선별된 AI 연구 논문
본 보고서에서는 다중 모달 이해, 텍스트-이미지 생성, 이미지 편집 기능을 통합한 30억 파라미터 규모의 통합 모델인 Ovis-U1을 소개합니다. Ovis 시리즈의 기반 위에 구축된 Ovis-U1은 확산 기반 시각 디코더와 양방향 토큰 정제기를 결합하여 GPT-4o와 같은 선도 모델에 필적하는 이미지 생성 작업을 가능하게 합니다. 이전 일부 모델들이 생성 작업을 위해 고정된 MLLM(Multimodal Large Language Model)을 사용한 것과 달리, Ovis-U1은 언어 모델에서 시작하는 새로운 통합 학습 방식을 활용합니다. 이해 또는 생성 작업만을 단독으로 학습하는 것과 비교했을 때, 통합 학습은 두 작업을 통합함으로써 달성된 성능 향상을 보여줍니다. Ovis-U1은 OpenCompass 다중 모달 학술 벤치마크에서 69.6점을 달성하며, Ristretto-3B 및 SAIL-VL-1.5-2B와 같은 최신 최첨단 모델들을 능가합니다. 텍스트-이미지 생성에서는 DPG-Bench와 GenEval 벤치마크에서 각각 83.72점과 0.89점으로 우수한 성능을 보입니다. 이미지 편집에서는 ImgEdit-Bench와 GEdit-Bench-EN에서 각각 4.00점과 6.42점을 기록합니다. Ovis 통합 모델 시리즈의 초기 버전인 Ovis-U1은 다중 모달 이해, 생성, 편집의 경계를 넓혀 나갑니다.
최근 강화 학습의 발전은 언어 모델이 검증 가능한 보상이 있는 작업에 대한 훈련을 통해 정교한 추론 능력을 개발할 수 있음을 보여주었지만, 이러한 접근 방식은 인간이 선별한 문제-답변 쌍과 도메인 특화된 보상 설계에 의존합니다. 우리는 SPIRAL이라는 자가 대결(self-play) 프레임워크를 소개합니다. 이 프레임워크에서는 모델이 지속적으로 개선되는 자신의 버전과 다중 턴, 제로섬 게임을 하며 학습함으로써 인간의 감독이 필요 없습니다. 자가 대결을 통해 SPIRAL은 점점 더 어려워지는 문제들의 무한한 커리큘럼을 생성하며, 모델은 더 강력한 상대에 지속적으로 적응해야 합니다. 이러한 대규모 자가 대결 훈련을 가능하게 하기 위해, 우리는 LLM을 위한 완전 온라인, 다중 턴, 다중 에이전트 강화 학습 시스템을 구현하고, 다중 에이전트 훈련을 안정화하기 위해 역할 기반 이점 추정(RAE)을 제안합니다. SPIRAL을 사용하여 제로섬 게임에서의 자가 대결은 광범위하게 전이 가능한 추론 능력을 생성합니다. Kuhn Poker만으로 Qwen3-4B-Base를 훈련시킨 결과, 수학에서 8.6%, 일반 추론에서 8.4%의 향상을 달성하여 25,000개의 전문가 게임 궤적에 대한 SFT를 능가했습니다. 분석 결과, 이러한 전이는 세 가지 인지 패턴을 통해 발생함이 밝혀졌습니다: 체계적인 분해, 기대값 계산, 사례별 분석. 다중 게임 훈련(TicTacToe, Kuhn Poker, Simple Negotiation)은 각 게임이 고유한 추론 강점을 개발함에 따라 성능을 더욱 향상시킵니다. 강력한 추론 모델(DeepSeek-R1-Distill-Qwen-7B)에 SPIRAL을 적용해도 평균 2.0%의 개선을 이끌어낼 수 있습니다. 이러한 결과는 제로섬 게임이 전이 가능한 추론 능력을 자연스럽게 개발한다는 것을 보여주며, 자율적인 추론 개발을 위한 유망한 방향을 제시합니다.
우리는 디지털 캘리그래피 및 디자인 애플리케이션을 위해 고급 텍스트 커스터마이제이션과 예술적 타이포그래피를 혁신적으로 통합한 새로운 디퓨전 기반 프레임워크인 Calligrapher를 소개한다. 타이포그래피 커스터마이제이션에서 정밀한 스타일 제어와 데이터 의존성 문제를 해결하기 위해, 우리의 프레임워크는 세 가지 핵심 기술적 기여를 포함한다. 첫째, 사전 훈련된 텍스트-이미지 생성 모델과 대형 언어 모델을 활용하여 스타일 중심의 타이포그래피 벤치마크를 자동으로 구축하는 자기-증류 메커니즘을 개발한다. 둘째, 참조 이미지에서 강력한 스타일 특징을 추출하기 위해 Qformer와 선형 레이어로 구성된 훈련 가능한 스타일 인코더를 통한 지역적 스타일 주입 프레임워크를 도입한다. 또한, 참조 이미지를 디노이징 프로세스에 직접 임베드하여 목표 스타일의 정교한 정렬을 더욱 강화하는 인-컨텍스트 생성 메커니즘을 활용한다. 다양한 폰트와 디자인 컨텍스트에서 수행된 광범위한 정량적 및 정성적 평가를 통해 Calligrapher가 복잡한 스타일적 세부 사항과 정확한 글리프 위치를 정확하게 재현함을 확인하였다. 고품질의 시각적으로 일관된 타이포그래피를 자동화함으로써, Calligrapher는 전통적인 모델을 능가하며 디지털 아트, 브랜딩, 컨텍스트 기반 타이포그래피 디자인 분야의 창의적 실무자들에게 강력한 도구를 제공한다.
전체 어텐션 메커니즘의 이차 복잡도는 장기간 고해상도 비디오를 생성하려는 비디오 확산 모델(VDM)에 있어 상당한 병목 현상을 야기합니다. 다양한 희소 어텐션 방법들이 제안되었지만, 많은 방법들이 학습 없이 추론 속도를 높이는 데 초점을 맞추거나, 비디오 데이터에 내재된 고유한 시공간적 특성을 최적으로 포착하지 못하는 경우가 많습니다. 본 논문에서는 VDM에 특화된 새로운 희소 어텐션 메커니즘인 Video Mixture of Block Attention (VMoBA)을 소개합니다. 사전 학습된 비디오 트랜스포머 내의 어텐션 패턴을 심층 분석한 결과, 강한 시공간적 지역성, 다양한 쿼리 중요도, 그리고 헤드별 집중 수준이 발견되었으며, 이를 바탕으로 VMoBA는 원래의 MoBA 프레임워크를 세 가지 주요 수정 사항으로 개선했습니다: (1) 다양한 시공간적 어텐션 패턴에 동적으로 적응하고 효율성을 높이기 위한 계층별 순환 블록 분할 방식(1D-2D-3D); (2) 전체 어텐션 헤드에서 가장 중요한 쿼리-키 블록 상호작용을 우선시하는 글로벌 블록 선택; (3) 누적 유사도를 기반으로 참여할 블록의 수를 동적으로 결정하는 임계값 기반 블록 선택. 광범위한 실험을 통해 VMoBA가 더 긴 시퀀스에서 VDM의 학습 속도를 크게 가속화하며, 2.92배의 FLOPs와 1.48배의 지연 시간 감소를 달성하면서도 전체 어텐션과 비슷하거나 더 나은 생성 품질을 얻음을 입증했습니다. 또한, VMoBA는 학습 없이 추론에서도 경쟁력 있는 성능을 보이며, 고해상도 비디오 생성에서 2.40배의 FLOPs와 1.35배의 지연 시간 감소를 제공합니다.
최근 광학 흐름(optical flow) 추정 기술의 발전은 정확도를 우선시하면서 GPU 메모리 소비량이 증가하는 경향을 보여왔으며, 특히 고해상도(FullHD) 입력에 있어서 더욱 두드러졌다. 본 연구에서는 다중 프레임 추정과 GPU 메모리 사용 간의 최적의 균형을 찾아내는 메모리 효율적인 다중 프레임 광학 흐름 방법인 MEMFOF를 소개한다. 특히, MEMFOF는 1080p 입력에 대해 런타임 시 단 2.09GB의 GPU 메모리를 요구하며, 학습 시에는 28.5GB를 사용한다. 이는 본 방법이 크롭핑(cropping)이나 다운샘플링(downsampling) 없이도 네이티브 1080p 해상도로 학습할 수 있음을 의미한다. 우리는 RAFT와 유사한 아키텍처의 설계 선택을 체계적으로 재검토하여, 감소된 상관 볼륨(correlation volume)과 고해상도 학습 프로토콜을 다중 프레임 추정과 통합함으로써, 메모리 오버헤드를 크게 줄이면서도 여러 벤치마크에서 최첨단 성능을 달성하였다. 본 방법은 정확도와 런타임 효율성 모두에서 더 많은 자원을 요구하는 대안들을 능가하며, 고해상도에서의 흐름 추정에 있어서의 견고성을 입증하였다. 제출 시점 기준으로, 본 방법은 Spring 벤치마크에서 1픽셀(1px) 이상 오차율(outlier rate) 3.289로 1위를 차지하였으며, Sintel(clean)에서 엔드포인트 오차(endpoint error, EPE) 0.963으로 선두를 달리고 있고, KITTI-2015에서 Fl-all 오차 2.94%로 최고 성적을 기록하였다. 코드는 https://github.com/msu-video-group/memfof에서 확인할 수 있다.
인간의 시각적 선호도에 대한 강건하고 일반화 가능한 보상 모델을 훈련하는 것은 텍스트-이미지 및 텍스트-비디오 생성 모델을 인간의 의도와 일치시키는 데 필수적입니다. 그러나 현재의 보상 모델은 종종 일반화에 실패하며, 지도 학습을 통한 미세 조정은 암기로 이어져 복잡한 주석 파이프라인을 요구합니다. 강화 학습(RL), 특히 그룹 상대 정책 최적화(GRPO)는 일반화를 개선하지만, 우리는 중요한 실패 모드를 발견했습니다: 모델의 추적이 동일한 출력을 평가하는 독립적이고 고정된 시각-언어 모델("리스너")의 추적과 모순될 때 추론 정확도가 크게 떨어지는 현상입니다. 이를 해결하기 위해 우리는 리스너-보강 GRPO 프레임워크를 도입했습니다. 여기서 리스너는 추론자의 사고 사슬을 재평가하여 밀도 있고 보정된 신뢰 점수를 제공하며, 이는 RL 보상 신호를 형성합니다. 이는 추론자가 정답을 맞추는 것뿐만 아니라 독립적인 모델에게 설득력 있는 설명을 생성하도록 장려합니다. 우리의 리스너-형 보상 체계는 ImageReward 벤치마크에서 최고 정확도(67.4%)를 달성했으며, 대규모 인간 선호도 데이터셋(120만 표, 순수 추론자 대비 최대 +6%)에서의 분포 외(OOD) 성능을 크게 개선했고, 강력한 GRPO 및 SFT 기준선과 비교하여 추론 모순을 줄였습니다. 이러한 결과는 리스너 기반 보상이 시각-언어 모델을 미묘한 인간 선호도와 일치시키는 확장 가능하고 데이터 효율적인 경로를 제공함을 보여줍니다. 우리는 추론 모델을 여기에 공개할 것입니다: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
우리는 대규모 언어 모델(LLM) 프롬프팅에서 기존의 통념에 도전하는 새로운 프롬프트 설계 패러다임을 제안한다. 기존의 통념은 인컨텍스트 학습(ICL)을 위해 잘 구성된 지시문과 데모를 우선시하지만, 우리는 무작위 데모를 겉보기에는 일관성 없는 "지저분한 말"로 정제하는 것이 다양한 작업에서 놀라운 성능 향상을 이끌어낼 수 있음을 보여준다. 특히, 이러한 "지저분한 말"은 항상 최신 자동 프롬프트 최적화 기술을 능가하거나 동등한 성능을 보이며, LLM 정렬과 무관하게 상당한 이점을 달성한다. 그러나 효과적인 정제 전략을 발견하는 것은 간단하지 않은데, 기존의 속성 분석 방법과 프롬프트 압축 알고리즘은 견고한 결과를 제공하지 못할 뿐만 아니라 인간의 직관도 이를 대체할 수 없다. 이를 위해 우리는 자가 발견 프롬프트 최적화 프레임워크인 PromptQuine을 제안한다. 이는 진화적 탐색 프레임워크로, 저데이터 환경에서 스스로 정제 전략을 탐색한다. 자연에서 발생하는 공생과 자기 조직화와 같은 복잡성이 자원 제약에 대응하여 나타나는 것처럼, 우리의 프레임워크는 컨텍스트 내에 존재하는 토큰만을 활용하여 비전통적이지만 매우 효과적인 프롬프트를 진화시키고 개선한다. 우리는 이 프레임워크의 효과를 분류, 다중 선택 질문 응답, 생성 및 수학 추론 작업에서 다양한 LLM에 걸쳐 입증하며, 상당한 런타임 효율성을 달성한다. 우리의 연구 결과가 인컨텍스트 학습에 대한 기계적 연구를 안내하고, 더 효과적인 LLM 프롬프팅을 위한 더 개방적인 탐색 알고리즘의 길을 열어주는 행동 촉구가 되기를 바란다.
LLM(Large Language Model) 파인튜닝은 계산 및 메모리 측면에서 모두 많은 자원을 요구합니다. QLoRA나 DoRA와 같은 파라미터 효율적 파인튜닝 방법은 학습 가능한 파라미터 수를 줄이고 메모리 사용량을 낮추지만, 계산 비용을 감소시키지는 못합니다. 경우에 따라 이 방법들은 오히려 파인튜닝 속도를 저하시킬 수도 있습니다. 본 논문에서는 컨텍스트 스파시티(contextual sparsity)를 통해 LLM 파인튜닝을 가속화하는 SparseLoRA 방법을 소개합니다. 우리는 손실 및 그래디언트 계산을 위해 동적으로 스파스 가중치 서브셋을 선택하는 경량화된 학습 불필요 SVD 스파시티 추정기를 제안합니다. 또한, 레이어, 토큰, 학습 단계에 걸친 민감도를 체계적으로 분석하고 해결합니다. 실험 결과, SparseLoRA는 계산 비용을 최대 2.2배 감소시키고 측정된 속도 향상을 최대 1.6배 달성하면서도 상식 및 산술 추론, 코드 생성, 지시 사항 수행 등 다양한 다운스트림 작업에서 정확도를 유지합니다.
ToF(Time-of-Flight) 센서로 캡처한 깊이 이미지는 노이즈가 발생하기 쉬워 신뢰할 수 있는 다운스트림 애플리케이션을 위해 노이즈 제거가 필요합니다. 기존 연구들은 단일 프레임 처리에 집중하거나, 프레임 간 해당 픽셀의 깊이 변화를 고려하지 않고 다중 프레임 처리를 수행하여 바람직하지 않은 시간적 불일치와 공간적 모호성을 초래했습니다. 본 논문에서는 시간적 안정성과 공간적 선명도를 동시에 향상시키기 위해 모션 불변 그래프 융합을 활용한 새로운 ToF 깊이 노이즈 제거 네트워크를 제안합니다. 구체적으로, 프레임 간 깊이 변화에도 불구하고 그래프 구조는 시간적 자기 유사성을 나타내며, 이를 통해 프레임 간 기하학적 주의를 기반으로 그래프 융합이 가능합니다. 그런 다음, 융합된 그래프에 이미지 평활성 사전 정보와 ToF 노이즈 분포에서 도출된 데이터 충실도 항을 통합하여 ToF 노이즈 제거를 위한 최대 사후 확률 문제를 공식화합니다. 마지막으로, 이 해결책은 그래프 기반 기하학적 주의에서 적응적으로 학습된 가중치를 가진 반복적 필터로 전개되어, 고성능이면서도 해석 가능한 네트워크를 생성합니다. 실험 결과, 제안된 기법은 합성 DVToF 데이터셋에서 정확성과 일관성 측면에서 최첨단 성능을 달성했으며, 실제 Kinectv2 데이터셋에서도 강력한 일반화 능력을 보였습니다. 소스 코드는 https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}에서 공개될 예정입니다.
다양한 모달리티의 정보를 처리하고 이를 단계별로 추론하는 능력은 인공지능 발전에 있어 여전히 중요한 과제로 남아 있습니다. 그러나 기존의 추론 벤치마크는 텍스트 기반 추론에 초점을 맞추거나, 비텍스트 모달리티에서 직접 정보를 검색하여 답할 수 있는 다중모달 질문을 사용합니다. 따라서 다중모달 영역에서의 복잡한 추론은 여전히 제대로 이해되지 않고 있습니다. 본 연구에서는 다중모달 언어 모델(MLLMs)이 복잡한 다중모달 문제와 환경을 통해 단계별로 신중하게 추론하는 능력을 평가하기 위해 설계된 도전적인 다중모달 추론 벤치마크인 MARBLE을 소개합니다. MARBLE은 공간적, 시각적, 물리적 제약 하에서 다단계 계획을 수립하고 이해해야 하는 두 가지 매우 도전적인 과제인 M-Portal과 M-Cube로 구성됩니다. 현재의 MLLMs는 MARBLE에서 매우 낮은 성능을 보였습니다. 12개의 고급 모델 모두 M-Portal에서 거의 무작위 수준의 성능을 보였고, M-Cube에서는 0%의 정확도를 기록했습니다. 단순화된 하위 과제에서만 일부 모델이 무작위 기준선을 능가했는데, 이는 복잡한 추론이 여전히 기존 MLLMs에게 어려운 과제임을 나타냅니다. 또한, MLLMs가 시각적 입력에서 정보를 추출하는 데 가끔 실패하는 등 인식 능력이 여전히 병목 현상으로 작용함을 보여줍니다. MLLMs의 한계를 조명함으로써, MARBLE이 다수의 다중모달 추론 단계를 통해 추론하고 계획할 수 있는 차세대 모델 개발을 촉진할 수 있기를 바랍니다.
최근 대규모 언어 모델(LLMs)의 발전은 디코딩 시 스케일링 및 자기 개선과 같은 추론 시점 계산 기술이 외부 지식에 의존하지 않고도 추론 능력을 크게 향상시킬 수 있음을 보여주었습니다. 이러한 성공의 주요 동인은 강화 학습(RL)을 통해 유도되는 자기 수정 및 자기 검증 행동의 등장입니다. 본 논문에서는 이러한 추론 시점 기술이 시각-언어 모델(VLMs), 특히 RL로 훈련된 모델에 효과적으로 확장될 수 있는지 조사합니다. 우리는 다수결 투표 및 자기 검증을 통한 best-of-N 선택과 같은 디코딩 전략이 VLM의 추론 성능을 모두 향상시키지만, 전자와 같은 생성에 의존하는 방법이 후자와 같은 검증에 의존하는 방법보다 훨씬 더 큰 성능 향상을 달성한다는 것을 발견했습니다. 또한, '아하 순간'과 같은 RL로 조정된 모델에서 종종 관찰되는 자기 수정 행동은 측정 가능한 성능 향상으로 이어지지 않았습니다. 우리는 추론 시점 스케일링 프레임워크 내에서 광범위한 실험을 통해 주요 근본 원인을 확인했습니다: RL로 훈련된 VLMs는 여전히 시각 및 텍스트 양쪽 모달리티에서 강력한 자기 검증 능력이 부족합니다.
대형 언어 모델(LLM) 기반 에이전트는 정교한 소프트웨어 엔지니어링 작업을 자율적으로 수행하는 데 유망한 가능성을 보여주고 있습니다. 또한, 머신러닝 및 자연과학 분야의 연구 파이프라인 일부를 수행할 수 있는 에이전트 개발에도 진전이 있었습니다. 우리는 연구 확장 및 그 구현이 이러한 시스템의 핵심 역량이라고 주장하며, 이 역량을 평가하기 위해 RExBench를 소개합니다. RExBench는 이전에 구현된 적 없는 연구 가설을 조사하기 위한 12개의 현실적인 연구 실험 구현 작업으로 구성된 벤치마크입니다. 각 작업은 기존 연구 논문 및 코드베이스의 확장으로 설정되며, 해당 분야 전문가가 작성한 지침이 함께 제공됩니다. RExBench는 데이터 오염에 강건하며, 에이전트 출력을 실행하여 성공 기준이 충족되는지 확인할 수 있는 자동 평가 인프라를 지원합니다. 우리는 이 벤치마크를 사용하여 aider, Claude Code, OpenHands라는 세 가지 다른 프레임워크를 사용해 구현된 9개의 LLM 에이전트를 평가했습니다. 평가된 모든 에이전트가 대부분의 확장을 자율적으로 구현하지 못한 것으로 나타났습니다. 추가적인 인간 작성 힌트를 통해 성공률이 향상되긴 했지만, 이 설정에서의 최고 성능도 40% 미만으로 나타났습니다. 이는 현재의 에이전트가 상당한 인간의 지도 없이 현실적인 연구 확장 작업을 처리할 수 있는 수준에 이르지 못했음을 시사합니다.
엔드투엔드 비디오-투-오디오 생성 기술이 크게 개선되었음에도 불구하고, 시각적 콘텐츠의 미묘한 뉘앙스를 진정성 있게 담아내는 고품질 오디오를 생성하는 것은 여전히 어려운 과제로 남아 있다. 창작 산업의 전문가들과 마찬가지로, 이러한 생성 과정은 시각적 역학, 음향 환경, 시간적 관계와 같은 요소에 대한 정교한 추론을 요구한다. 본 연구에서는 체인-오브-생각(Chain-of-Thought, CoT) 추론을 활용하여 단계적이고 상호작용적인 비디오 오디오 생성 및 편집을 가능하게 하는 새로운 프레임워크인 ThinkSound를 제안한다. 우리의 접근 방식은 이 과정을 세 가지 상호 보완적인 단계로 분해한다: 의미론적으로 일관된 사운드스케이프를 생성하는 기초 폴리(foley) 생성, 정밀한 사용자 상호작용을 통한 객체 중심의 상호작용적 정제, 그리고 자연어 지시에 따라 이루어지는 타겟팅 편집. 각 단계에서 멀티모달 대형 언어 모델은 통합 오디오 기반 모델을 안내하는 맥락에 맞는 CoT 추론을 생성한다. 또한, 우리는 시각적 콘텐츠, 텍스트 설명, 사운드 합성 간의 연결을 설정하는 구조화된 추론 주석을 포함한 포괄적인 데이터셋인 AudioCoT를 소개한다. 실험 결과, ThinkSound는 오디오 메트릭과 CoT 메트릭 모두에서 비디오-투-오디오 생성 분야에서 최첨단 성능을 달성하며, 분포 외(out-of-distribution) Movie Gen Audio 벤치마크에서도 우수한 성과를 보인다. 데모 페이지는 https://ThinkSound-Project.github.io에서 확인할 수 있다.
도시 연구는 다중 모드 데이터의 이해를 요구하는 다양한 시나리오와 작업을 포함합니다. 현재의 방법들은 특정 데이터 유형에 초점을 맞추는 경우가 많으며, 이를 포괄적으로 처리하기 위한 통합된 프레임워크가 도시 분야에서 부족합니다. 최근 다중 모드 대형 언어 모델(MLLMs)의 성공은 이러한 한계를 극복할 수 있는 유망한 기회를 제공합니다. 본 논문에서는 이러한 네 가지 유형의 데이터를 동시에 처리하고 일반적인 MLLMs에 비해 다양한 도시 작업에서 강력한 성능을 달성하기 위해 설계된 다중 모드 대형 언어 모델인 UrbanLLaVA를 소개합니다. UrbanLLaVA에서는 위치 뷰에서 도시 환경의 글로벌 뷰에 이르는 단일 모드 및 교차 모드 도시 데이터를 포함한 다양한 도시 명령 데이터 세트를 먼저 정제합니다. 또한, 공간 추론 강화와 도메인 지식 학습을 분리하여 UrbanLLaVA의 호환성과 다운스트림 성능을 개선하는 다단계 훈련 프레임워크를 제안합니다. 마지막으로, 다양한 도시 작업에서 MLLMs의 성능을 평가하기 위해 기존의 벤치마크를 확장합니다. 세 도시에서의 실험 결과는 UrbanLLaVA가 단일 모드 작업과 복잡한 교차 모드 작업 모두에서 오픈소스 및 독점 MLLMs를 능가하며 도시 간 강력한 일반화 능력을 보여줌을 입증합니다. 소스 코드와 데이터는 https://github.com/tsinghua-fib-lab/UrbanLLaVA를 통해 연구 커뮤니티에 공개적으로 접근 가능합니다.
세계 모델은 현실적인 로봇 비디오를 생성하면서도 중요한 데이터 부족 문제를 해결할 수 있는 강력한 시뮬레이터로서, 구체화된 지능을 위한 필수적인 도구가 되었습니다. 그러나 현재의 구체화된 세계 모델은 3D 기하학과 운동 역학을 모델링하는 데 있어 제한된 물리적 인식을 보여주며, 이는 접촉이 빈번한 로봇 시나리오에서 비현실적인 비디오 생성을 초래합니다. 본 논문에서는 RGB 비디오 생성과 물리 지식을 통합된 프레임워크 내에서 공동으로 학습하는 통합 물리 기반 세계 모델인 RoboScape를 제시합니다. 우리는 두 가지 주요 물리 기반 공동 학습 과제를 소개합니다: 비디오 렌더링에서 3D 기하학적 일관성을 강화하는 시간적 깊이 예측과, 복잡한 운동 모델링을 개선하면서 물체의 형태 및 재료 특성과 같은 물리적 특성을 암묵적으로 인코딩하는 키포인트 역학 학습입니다. 광범위한 실험을 통해 RoboScape가 다양한 로봇 시나리오에서 우수한 시각적 충실도와 물리적 타당성을 갖춘 비디오를 생성함을 입증합니다. 또한, 생성된 데이터를 활용한 로봇 정책 훈련 및 정책 평가와 같은 하위 응용 프로그램을 통해 실용성을 검증합니다. 본 연구는 구체화된 지능 연구를 발전시키기 위한 효율적인 물리 기반 세계 모델 구축에 대한 새로운 통찰을 제공합니다. 코드는 https://github.com/tsinghua-fib-lab/RoboScape에서 확인할 수 있습니다.
외부 도구 통합을 위한 함수 호출 기능은 실용적인 언어 모델 애플리케이션에 필수적이지만, 대부분의 다국어 모델은 비영어권 언어에서 신뢰할 수 있는 도구 사용 능력이 부족합니다. 최첨단 다국어 모델조차도 언제 도구를 사용해야 하는지 결정하고 함수 호출에 필요한 구조화된 출력을 생성하는 데 어려움을 겪으며, 자원이 부족한 언어로 프롬프트를 받을 경우 언어 혼동을 보이는 경우가 많습니다. 본 연구는 불가리아어를 사례 연구로 사용하여 기존 언어 모델을 적응시켜 모든 목표 언어에서 강력한 도구 사용을 가능하게 하는 방법론을 제시합니다. 이 접근법은 BgGPT 모델 시리즈(2.6B, 9B, 27B 매개변수)를 MCP(Model Context Protocol)와 같은 표준화된 프로토콜을 지원하기 위해 설계된 10,035개의 함수 호출 예제로 구성된 새로운 이중 언어 데이터셋에 대해 지속적으로 학습하는 것을 포함합니다. 본 연구는 TUCAN(Tool-Using Capable Assistant Navigator)을 소개하며, 이는 기존 불가리아어 벤치마크에서 검증된 바와 같이 핵심 언어 이해 능력을 유지하면서 기본 모델 대비 함수 호출 정확도에서 최대 28.75%의 향상을 달성합니다. 정확도 향상 외에도, TUCAN 모델은 기본 모델의 장황하고 일관성 없는 출력과 대조적으로 깔끔하고 파싱 가능한 함수 호출을 통해 프로덕션 준비가 된 응답 형식을 보여줍니다. 이 모델, 평가 프레임워크, 데이터셋은 다른 언어에 대한 복제를 가능하게 하기 위해 공개됩니다. 본 연구는 영어 중심 시스템을 넘어 도구 강화 능력을 확장하는 실용적인 접근법을 보여줍니다.
사전 학습된 대형 언어 모델(LLM)을 미세 조정하는 것은 기계 번역과 같은 특정 작업에서 최첨단 성능을 달성하기 위한 효과적인 전략으로 입증되어 왔다. 그러나 이러한 적응 과정은 대화형 추론 및 지시 따르기와 같은 일반적인 목적의 능력을 희생해야 하는 경우가 많아, 다양한 기술이 요구되는 실제 애플리케이션에서 시스템의 유용성을 저해한다. 본 논문에서는 번역과 다국어 일반 텍스트 처리 능력 모두에서 강력한 성능을 제공하도록 설계된 Tower+ 모델 제품군을 소개한다. 우리는 Tower(Alves et al., 2024)를 기반으로 한 새로운 학습 레시피를 도입하여 번역 특화와 다국어 일반 목적 능력 간의 파레토 최적을 달성한다. 이 레시피는 지속적인 사전 학습, 지도 미세 조정, 선호도 최적화, 그리고 검증 가능한 보상을 활용한 강화 학습으로 구성된다. 각 학습 단계에서 우리는 번역뿐만 아니라 코드 생성, 수학 문제 해결, 일반 지시 따르기와 같은 일반 작업에서의 성능을 강화하기 위해 데이터를 신중하게 생성하고 정제한다. 우리는 2B, 9B, 72B 규모의 다양한 모델을 개발하였다. 우리의 소규모 모델은 종종 더 큰 일반 목적의 오픈 웨이트 및 독점 LLM(예: Llama 3.3 70B, GPT-4o)을 능가한다. 우리의 가장 큰 모델은 고자원 언어에서 최고 수준의 번역 성능을 제공하며, 다국어 Arena Hard 평가와 번역 및 지시 따르기를 모두 평가하기 위해 도입한 IF-MT 벤치마크에서도 최상위 결과를 달성한다. 우리의 연구 결과는 번역 및 현지화와 같은 특정 비즈니스 영역을 최적화하면서도 일반적인 능력에서 최첨단 모델과 경쟁할 수 있음을 강조한다.
본 논문에서는 드래프트 기반 스펙큘레이티브 디코딩(SpD) 방법의 성능을 향상시키기 위한 간단한 학습 불필요 기법을 소개한다. 이 기법은 드래프팅 과정에서 언어 모델링 헤드(LM 헤드)를 통합한다. 드래프트 기반 스펙큘레이티브 디코딩은 하나 이상의 더 작은 언어 모델, 즉 드래프터 또는 드래프트 모델을 활용하여 여러 토큰으로 구성된 드래프트 시퀀스 또는 트리를 샘플링한 후, 기본 LLM인 타겟 모델이 이를 검증하여 일부를 유효한 생성으로 수락한다. 일반적으로 스펙큘레이티브 디코딩은 타겟 모델과 드래프트 모델의 어휘 간 일대일 매핑이 필요하다고 여겨지기 때문에, 이 둘 간에 어휘를 공유하거나 EAGLE이나 Medusa에서와 같이 LM 헤드를 공유하는 것이 자연스러운 접근이었다. 우리는 먼저 이 드래프트 토큰 샘플링 방식이 특히 매우 큰 어휘를 가진 일부 타겟 LLM의 경우, 드래프팅 과정에서 불필요한 추론 오버헤드를 포함하고 있음을 확인했다. 그런 다음, 메모리 제약 환경에서 생성 속도를 향상시키기 위해 드래프팅 오버헤드를 완화하는 간단한 기법인 VocabTrim을 제안한다. VocabTrim은 드래프터 LM 헤드를 재구성하여 타겟 모델의 어휘에서 가장 빈번하게 샘플링된 토큰들로만 제한된 집합을 포함하도록 한다. 드래프팅에서 어휘를 제한하는 것은 수락률을 약간 저하시키지만, 에지 디바이스에서 흔히 발생하는 메모리 제약 프로세스에서 드래프팅 지연을 크게 줄여 더 높은 메모리 제약 속도 향상(MBSU)을 가져온다. 우리는 이 방법이 Spec-Bench에서 Llama-3 모델의 메모리 제약 속도 향상을 촉진할 수 있음을 보여주며, 특히 Llama-3.2-3B-Instruct의 경우 16%의 속도 향상을 달성했다.
메타렌즈는 초소형 계산 이미징에 상당한 잠재력을 제공하지만, 복잡한 광학적 열화와 계산 복원의 어려움으로 인해 도전에 직면해 있습니다. 기존 방법들은 일반적으로 정밀한 광학 보정 또는 대규모의 짝지어진 데이터셋에 의존하는데, 이는 실제 이미징 시스템에서는 간단하지 않은 문제입니다. 더욱이, 추론 과정에 대한 통제 부족은 종종 바람직하지 않은 허구적 아티팩트를 초래합니다. 우리는 대규모 데이터셋 대신 사전 훈련된 모델에서 얻은 강력한 자연 이미지 사전 지식을 활용하여 조정 가능한 메타렌즈 사진 촬영을 위한 Degradation-Modeled Multipath Diffusion을 소개합니다. 우리의 프레임워크는 고주파 디테일 생성, 구조적 충실도, 그리고 메타렌즈 특유의 열화 억제를 균형 있게 조절하기 위해 긍정적, 중립적, 부정적 프롬프트 경로를 사용하며, 가상 데이터 증강도 함께 활용합니다. 조정 가능한 디코더는 충실도와 지각적 품질 사이의 균형을 조절할 수 있게 해줍니다. 또한, 공간적으로 변화하는 열화 인지 주의(SVDA) 모듈은 복잡한 광학적 및 센서 유발 열화를 적응적으로 모델링합니다. 마지막으로, 우리는 실제 검증을 위해 밀리미터 규모의 MetaCamera를 설계하고 제작했습니다. 광범위한 결과는 우리의 접근 방식이 최신 기술을 능가하며, 고충실도와 선명한 이미지 재구성을 달성함을 보여줍니다. 추가 자료는 https://dmdiff.github.io/에서 확인할 수 있습니다.