번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 자연어 처리 분야에서 놀라운 성과를 거두었습니다. 최근의 발전으로 인해 새로운 종류의 추론 LLMs가 개발되었으며, 예를 들어 오픈소스 DeepSeek-R1은 깊은 사고와 복잡한 추론을 통합하여 최첨단 성능을 달성했습니다. 이러한 인상적인 능력에도 불구하고, 이러한 모델의 내부 추론 메커니즘은 여전히 탐구되지 않은 상태입니다. 본 연구에서는 신경망의 잠재 표현을 해석 가능한 특징으로 희소 분해하는 방법인 Sparse Autoencoders(SAEs)를 사용하여 DeepSeek-R1 시리즈 모델의 추론을 주도하는 특징을 식별합니다. 먼저, SAE 표현에서 '추론 특징' 후보를 추출하는 접근법을 제안합니다. 이러한 특징을 실증적 분석과 해석 가능성 방법을 통해 검증하며, 이들이 모델의 추론 능력과 직접적인 상관관계가 있음을 입증합니다. 특히, 이러한 특징을 체계적으로 조정함으로써 추론 성능을 향상시킬 수 있음을 보여주며, 이는 LLMs의 추론에 대한 첫 번째 기계적 설명을 제공합니다. 코드는 https://github.com/AIRI-Institute/SAE-Reasoning에서 확인할 수 있습니다.
훈련 데이터, 모델 크기, 그리고 계산 비용의 규모가 증가함에 따라, 비디오 생성은 디지털 창작 분야에서 인상적인 결과를 달성하며 사용자들이 다양한 영역에서 창의성을 표현할 수 있게 하였습니다. 최근 대형 언어 모델(LLMs) 연구자들은 테스트 시간에서의 스케일링을 확장하여, 더 많은 추론 시간 계산을 사용함으로써 LLM 성능을 크게 향상시킬 수 있음을 보여주었습니다. 비디오 기반 모델을 비싼 훈련 비용을 통해 스케일업하는 대신, 우리는 비디오 생성에서 테스트 시간 스케일링(TTS)의 힘을 탐구하며, 다음과 같은 질문에 답하고자 합니다: 만약 비디오 생성 모델이 상당한 양의 추론 시간 계산을 사용할 수 있다면, 도전적인 텍스트 프롬프트가 주어졌을 때 생성 품질을 얼마나 향상시킬 수 있을까? 이 연구에서, 우리는 비디오 생성의 테스트 시간 스케일링을 가우시안 노이즈 공간에서 목표 비디오 분포로 더 나은 궤적을 샘플링하는 탐색 문제로 재해석합니다. 구체적으로, 우리는 테스트 시간 검증기를 사용하여 탐색 공간을 구축하고, 탐색 과정을 안내하기 위한 휴리스틱 알고리즘을 제공합니다. 주어진 텍스트 프롬프트에 대해, 우리는 먼저 추론 시간에 노이즈 후보를 증가시켜 직관적인 선형 탐색 전략을 탐구합니다. 모든 프레임을 동시에 완전히 디노이징하는 것은 높은 테스트 시간 계산 비용을 요구하기 때문에, 우리는 더 효율적인 TTS 방법인 Tree-of-Frames(ToF)를 설계합니다. 이 방법은 비디오 브랜치를 자동회귀 방식으로 적응적으로 확장하고 가지치기합니다. 텍스트 조건 비디오 생성 벤치마크에서의 광범위한 실험은 테스트 시간 계산을 증가시키는 것이 비디오 품질의 지속적인 개선으로 이어진다는 것을 보여줍니다. 프로젝트 페이지: https://liuff19.github.io/Video-T1
현대 게임 개발은 전통적인 게임 엔진의 사전 정의된 콘텐츠로 인해 창의성과 비용 측면에서 상당한 어려움에 직면해 있습니다. 최근 현실적이고 상호작용 가능한 가상 환경을 합성할 수 있는 비디오 생성 모델의 획기적인 발전은 게임 제작 방식을 혁신할 기회를 제공합니다. 본 포지션 페이퍼에서는 차세대 게임에서 무한한 새로운 콘텐츠 생성을 가능하게 하는 생성형 게임 엔진(Generative Game Engine, GGE)의 기반으로서 인터랙티브 생성 비디오(Interactive Generative Video, IGV)를 제안합니다. GGE는 IGV의 무한한 고품질 콘텐츠 합성, 물리 기반 세계 모델링, 사용자 제어 상호작용, 장기 기억 능력, 그리고 인과적 추론과 같은 독보적인 강점을 활용합니다. 우리는 GGE의 핵심 모듈을 상세히 설명하는 포괄적인 프레임워크와 그 진화를 이끌 계층적 성숙도 로드맵(L0-L4)을 제시합니다. 본 연구는 AI 시대의 게임 개발을 위한 새로운 방향을 제시하며, AI 기반 생성 시스템이 게임이 제작되고 경험되는 방식을 근본적으로 재구성하는 미래를 전망합니다.
DeepSeek-R1은 규칙 기반 보상을 사용한 간단한 강화 학습(RL) 프레임워크를 통해 긴 사고 사슬(CoT) 추론이 자연스럽게 나타날 수 있음을 보여주었으며, 이때 훈련은 기본 모델에서 직접 시작할 수 있습니다. 이를 제로 RL 훈련(Zero RL Training) 패러다임이라고 부릅니다. 최근 제로 RL 훈련을 재현하려는 대부분의 연구는 주로 Qwen2.5 모델 시리즈에 초점을 맞추고 있는데, 이는 대표적이지 않을 수 있습니다. 왜냐하면 우리는 기본 모델들이 이미 강력한 지시 따르기 및 자기 반성 능력을 보인다는 사실을 발견했기 때문입니다. 본 연구에서는 LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B 및 0.5B부터 32B까지의 모든 Qwen2.5 모델을 포함한 10가지 다양한 기본 모델에 걸쳐 제로 RL 훈련을 조사했습니다. 형식 보상 조정 및 질문 난이도 제어와 같은 몇 가지 핵심 설계 전략을 활용하여 대부분의 설정에서 추론 정확도와 응답 길이 모두에서 상당한 개선을 달성했습니다. 그러나 훈련 동역학을 주의 깊게 모니터링하면서, 서로 다른 기본 모델들이 훈련 중에 뚜렷한 패턴을 보인다는 사실을 관찰했습니다. 예를 들어, 응답 길이의 증가가 항상 검증(즉, "아하 순간")과 같은 특정 인지 행동의 출현과 상관관계를 가지지는 않았습니다. 특히, Qwen 계열이 아닌 소형 모델에서 처음으로 "아하 순간"을 관찰했습니다. 우리는 성공적인 제로 RL 훈련을 가능하게 한 핵심 설계와 함께 발견 사항 및 실천 방법을 공유합니다. 더 나아가 연구를 촉진하기 위해 코드, 모델 및 분석 도구를 오픈소스로 공개합니다.
기하학적 재구성과 생성 모델링의 통합은 인간과 유사한 공간 추론 능력을 갖춘 AI 시스템 개발에서 여전히 중요한 과제로 남아 있습니다. 본 논문은 Aether라는 통합 프레임워크를 제안하며, 이는 세 가지 핵심 기능인 (1) 4D 동적 재구성, (2) 행동 조건 비디오 예측, (3) 목표 조건 시각적 계획을 공동으로 최적화함으로써 세계 모델 내에서 기하학적 인식 추론을 가능하게 합니다. 작업 간 특성 학습을 통해 Aether는 재구성, 예측, 계획 목표 간의 시너지적 지식 공유를 달성합니다. 비디오 생성 모델을 기반으로 한 우리의 프레임워크는 훈련 중 실제 세계 데이터를 전혀 관찰하지 않았음에도 불구하고 전례 없는 합성-실제 일반화를 보여줍니다. 더욱이, 본 접근법은 내재된 기하학적 모델링 덕분에 행동 추종 및 재구성 작업 모두에서 제로샷 일반화를 달성합니다. 주목할 만한 점은, 실제 세계 데이터 없이도 재구성 성능이 도메인 특화 모델을 훨씬 능가한다는 것입니다. 또한, Aether는 기하학적 정보를 반영한 행동 공간을 활용하여 예측을 행동으로 원활하게 변환함으로써 효과적인 자율 궤적 계획을 가능하게 합니다. 우리의 연구가 물리적으로 타당한 세계 모델링과 그 응용 분야에서 새로운 지평을 탐구하도록 커뮤니티에 영감을 주기를 바랍니다.
Omnimatte는 주어진 비디오를 의미론적으로 중요한 레이어로 분해하는 것을 목표로 하며, 여기에는 배경과 그림자 및 반사와 같은 관련 효과를 포함한 개별 객체들이 포함됩니다. 기존의 방법들은 종종 광범위한 훈련이나 비용이 많이 드는 자기 지도 최적화를 필요로 합니다. 본 논문에서는 Omnimatte를 위해 사전 훈련된 비디오 확산 모델을 활용하는 훈련이 필요 없는 접근 방식인 OmnimatteZero를 제시합니다. 이 방법은 비디오에서 객체를 제거하고, 개별 객체 레이어와 그 효과를 추출하며, 새로운 비디오에 해당 객체를 합성할 수 있습니다. 이를 위해 제로샷 이미지 인페인팅 기술을 비디오 객체 제거 작업에 적용하였으며, 이 기술은 기본적으로 효과적으로 처리하지 못하는 문제를 해결합니다. 그런 다음, 자기 주의 맵이 객체와 그 흔적에 대한 정보를 포착한다는 것을 보여주고, 이를 사용하여 객체의 효과를 인페인팅하여 깔끔한 배경을 남깁니다. 또한, 간단한 잠재 연산을 통해 객체 레이어를 분리하고 새로운 비디오 레이어와 원활하게 재결합하여 새로운 비디오를 생성할 수 있습니다. 평가 결과, OmnimatteZero는 배경 재구성 측면에서 우수한 성능을 달성할 뿐만 아니라, 최소한의 프레임 실행 시간으로 실시간 성능을 달성하여 가장 빠른 Omnimatte 접근 방식으로 새로운 기록을 세웠습니다.
과학적 발견의 진전은 단일한 "유레카" 순간의 결과라기보다는, 수백 명의 과학자들이 공동의 목표를 향해 점진적으로 협력한 결과물인 경우가 많습니다. 기존의 에이전트 워크플로우는 자율적으로 연구를 수행할 수 있지만, 이는 고립된 상태에서 이루어지며, 이전 연구 결과를 지속적으로 개선할 수 있는 능력이 없습니다. 이러한 문제를 해결하기 위해, 우리는 LLM 에이전트 연구실들이 공유 프리프린트 서버에 보고서를 업로드하고 검색하여 협력하고, 통찰을 공유하며, 서로의 연구를 반복적으로 발전시킬 수 있는 AgentRxiv 프레임워크를 소개합니다. 우리는 에이전트 연구실들에게 새로운 추론 및 프롬프팅 기술을 개발하도록 요구했으며, 이전 연구에 접근할 수 있는 에이전트들이 고립된 상태에서 작동하는 에이전트들에 비해 더 높은 성능 향상을 달성함을 발견했습니다(MATH-500 기준 11.4% 상대적 개선). 또한, 가장 성능이 뛰어난 전략은 다른 도메인의 벤치마크에도 일반화되었습니다(평균 3.3% 개선). AgentRxiv를 통해 연구를 공유하는 여러 에이전트 연구실들은 공동의 목표를 향해 협력할 수 있으며, 고립된 연구실들보다 더 빠르게 진전하여 전반적으로 더 높은 정확도를 달성했습니다(MATH-500 기준 13.7% 상대적 개선). 이러한 발견들은 자율 에이전트들이 인간과 함께 미래의 AI 시스템을 설계하는 데 역할을 할 수 있음을 시사합니다. 우리는 AgentRxiv가 에이전트들이 연구 목표를 향해 협력할 수 있도록 하고, 연구자들이 발견을 가속화할 수 있기를 바랍니다.
Classifier-Free Guidance(CFG)는 확산/흐름 모델에서 이미지 충실도와 제어 가능성을 향상시키기 위해 널리 채택된 기법입니다. 본 연구에서는 먼저 가우시안 혼합 데이터에 대해 학습된 흐름 매칭 모델에서 CFG의 영향을 분석적으로 연구합니다. 이 경우 정확한 지상 진실 흐름을 도출할 수 있습니다. 우리는 학습 초기 단계에서 흐름 추정이 부정확할 때 CFG가 샘플을 잘못된 궤적으로 유도한다는 것을 관찰했습니다. 이 관찰을 바탕으로 두 가지 개선 사항을 도입한 CFG-Zero*를 제안합니다: (a) 최적화된 스케일 - 추정된 속도의 부정확성을 보정하기 위해 스칼라 값을 최적화하며, 이로 인해 이름에 *가 포함됨; (b) 제로 초기화 - ODE 솔버의 초기 몇 단계를 0으로 설정합니다. 텍스트-이미지 생성(Lumina-Next, Stable Diffusion 3, Flux) 및 텍스트-비디오 생성(Wan-2.1) 실험에서 CFG-Zero*는 CFG를 일관되게 능가하며, 흐름 매칭 모델을 효과적으로 안내하는 것을 입증했습니다. (코드는 github.com/WeichenFan/CFG-Zero-star에서 확인 가능)
대형 언어 모델(LLM)은 외부 환경과 상호작용하는 에이전트 시스템에 점점 더 많이 배포되고 있습니다. 그러나 LLM 에이전트는 신뢰할 수 없는 데이터를 처리할 때 프롬프트 주입 공격에 취약합니다. 본 논문에서는 LLM 주위에 보호 시스템 계층을 생성하여 기본 모델이 공격에 취약할지라도 이를 안전하게 보호하는 강력한 방어 기법인 CaMeL을 제안합니다. CaMeL은 동작 시 (신뢰할 수 있는) 쿼리에서 제어 흐름과 데이터 흐름을 명시적으로 추출하므로, LLM이 검색한 신뢰할 수 없는 데이터가 프로그램 흐름에 영향을 미칠 수 없습니다. 보안을 더욱 강화하기 위해 CaMeL은 권한 없는 데이터 흐름을 통해 개인 데이터가 유출되는 것을 방지하기 위한 '능력(capability)' 개념을 활용합니다. 최근 에이전트 보안 벤치마크인 AgentDojo [NeurIPS 2024]에서 CaMeL은 검증 가능한 보안을 통해 67%의 과제를 해결함으로써 그 효과성을 입증했습니다.
다양한 모달리티(예: 이미지, 오디오, 비디오)에 걸친 개방형 다중모달 이해(MMU) 및 생성(MMG) 작업에서 생성형 기반 모델을 평가하는 것은 모달리티 간 상호작용의 복잡성으로 인해 상당한 도전을 제기합니다. 이를 위해 다중모달 대형 언어 모델(MLLM)을 자동 평가자로 활용하는 아이디어가 등장했으며, 시각-언어 이해 작업 평가에서 고무적인 결과를 보여주었습니다. 이 논문은 이를 더 나아가 MLLM-as-a-Judge를 모든 모달리티에 걸쳐 통합된 방식으로 확장하기 위해 TaskAnything과 JudgeAnything이라는 두 가지 벤치마크를 소개합니다. 이는 각각 MLLM의 전반적인 성능과 판단 능력을 임의의 모달리티 작업에서 평가하기 위한 것입니다. 구체적으로, TaskAnything은 15개의 임의의 모달리티 범주에 걸친 MMU 및 MMG 능력을 평가하며, 잘 정립된 벤치마크에서 선별된 1,500개의 질의를 사용합니다. 또한, JudgeAnything은 GPT-4o와 Gemini-2.0-Flash와 같은 5개의 고급 모델의 판단 능력을 Pair Comparison과 Score Evaluation의 관점에서 평가하며, 인간 판단과 상세한 평가 기준을 포함한 표준화된 테스트베드를 제공합니다. 우리의 광범위한 실험은 이러한 MLLM들이 MMU 평가에서 유망한 성과를 보이지만(즉, Pair Comparison 설정에서 평균 66.55%, Score Evaluation 설정에서 평균 42.79% 달성), MMG 작업에서는 상당한 어려움을 겪는 것으로 나타났습니다(즉, Pair Comparison 설정에서 평균 53.37%, Score Evaluation 설정에서 평균 30.05% 달성). 이는 모달리티 간 편향과 환각 문제를 드러냅니다. 이를 해결하기 위해 우리는 OmniArena를 제시합니다. 이는 오므니 모델과 다중모달 보상 모델을 평가하기 위한 자동화된 플랫폼입니다. 우리의 작업은 더 공정한 평가 프로토콜과 인간 선호도와의 더 강한 정렬의 필요성을 강조합니다. 소스 코드와 데이터셋은 https://urrealhero.github.io/judgeanythingweb/에서 공개적으로 이용 가능합니다.
우리는 FFN Fusion을 소개합니다. 이는 대규모 언어 모델에서 순차적 계산을 줄이기 위해 자연스러운 병렬화 기회를 식별하고 활용하는 아키텍처 최적화 기술입니다. 우리의 핵심 통찰은, 특히 특정 어텐션 레이어를 제거한 후 남은 Feed-Forward Network(FFN) 레이어 시퀀스가 종종 최소한의 정확도 손실로 병렬화될 수 있다는 것입니다. 우리는 이러한 시퀀스를 식별하고 병합하는 원칙적인 방법론을 개발하여, 모델의 동작을 유지하면서 추론 지연 시간을 크게 줄이는 병렬 연산으로 변환합니다. 이러한 기술을 Llama-3.1-405B-Instruct에 적용하여, Llama-Nemotron-Ultra-253B-Base(Ultra-253B-Base)라는 효율적이며 곧 공개될 모델을 생성했습니다. 이 모델은 벤치마크에서 강력한 성능을 유지하면서 추론 지연 시간에서 1.71배의 속도 향상과 토큰당 비용에서 35배의 절감을 달성했습니다. 49B에서 253B 파라미터에 이르는 모델에 대한 광범위한 실험을 통해, FFN Fusion이 더 큰 규모에서 점점 더 효과적이며 양자화 및 가지치기와 같은 기존 최적화 기술을 보완할 수 있음을 입증했습니다. 가장 흥미롭게도, 어텐션과 FFN 레이어를 모두 포함하는 완전한 트랜스포머 블록도 때로는 병렬화될 수 있다는 것을 발견했는데, 이는 신경망 아키텍처 설계에 대한 새로운 방향을 제시합니다.
대규모 시각-언어 모델(LVLMs)은 일반적으로 사전 학습과 지도 미세 조정이라는 두 단계의 훈련 패러다임을 따릅니다. 최근에는 언어 도메인에서 유래한 선호도 최적화가 LVLMs의 능력을 향상시키는 효과적인 사후 훈련 강화 전략으로 부상했습니다. 그러나 고품질의 인간 주석 선호도 데이터를 구축하고 이러한 선호도를 모방할 강력한 보상 모델을 개발하는 것은 비용이 많이 들고 어려운 작업입니다. 이러한 관찰에 동기를 받아, 우리는 결정적인 시각 피드백으로 모델을 보상하는 새로운 시각-안내 R1 유사 강화 학습 알고리즘인 Vision-R1을 제안합니다. 이 방법은 특별한 보상 모델과 수작업으로 만든 선호도 데이터셋이 필요 없이, 선별된 지시 데이터만을 활용합니다. 우리는 시각 작업 논리에 기반하여 모델 완성물을 종합적으로 평가하기 위해 다차원 피드백을 통합하는 기준 기반 보상 함수를 도입했습니다. 더 나아가, 훈련 중에 보상 기준을 동적으로 조정하는 점진적 규칙 정제 전략을 도입하여 지속적인 모델 개선과 보상 해킹 완화를 가능하게 했습니다. 인-디스트리뷰션과 아웃-오브-디스트리뷰션 벤치마크에서의 광범위한 실험을 통해, Vision-R1으로 7B LVLMs를 미세 조정했을 때 일관된 성능 향상을 달성했으며, 최대 50%의 개선과 함께 10배 크기의 최첨단 모델을 능가하는 결과를 보였습니다.
현재의 자기회귀(autoregressive) 및 확산(diffusion) 접근법과 같은 생성 모델들은 고차원 데이터 분포 학습을 일련의 더 단순한 하위 작업으로 분해합니다. 그러나 이러한 하위 작업들을 공동으로 최적화하는 과정에서 본질적인 충돌이 발생하며, 기존의 해결책들은 효율성이나 확장성을 희생하지 않고는 이러한 충돌을 해결하지 못했습니다. 우리는 자연 시각 신호의 병진 불변성(translation invariance)을 활용하여 하위 작업 간 최적화 목표를 본질적으로 정렬하는 새로운 등변(equivariant) 이미지 모델링 프레임워크를 제안합니다. 우리의 방법은 (1) 수평 축을 따라 병진 대칭성을 강화하는 열 단위 토큰화(column-wise tokenization)와 (2) 위치 간 일관된 문맥 관계를 강제하는 윈도우드 인과적 주의(windowed causal attention)를 도입합니다. 256x256 해상도의 클래스 조건부 ImageNet 생성에서 평가한 결과, 우리의 접근법은 최신 AR 모델과 비슷한 성능을 달성하면서도 더 적은 계산 자원을 사용합니다. 체계적인 분석은 강화된 등변성이 작업 간 충돌을 줄여 제로샷 일반화를 크게 개선하고 초장기 이미지 합성을 가능하게 함을 보여줍니다. 이 연구는 생성 모델링에서 작업 정렬 분해를 위한 첫 번째 프레임워크를 확립하며, 효율적인 매개변수 공유와 충돌 없는 최적화에 대한 통찰을 제공합니다. 코드와 모델은 https://github.com/drx-code/EquivariantModeling에서 공개되어 있습니다.
대규모 언어 모델(LLMs)은 수학 문제 해결에서 놀라운 추론 능력을 보여주고 있습니다. 그러나 기존 접근 방식은 주로 올바른 학습 데이터의 품질을 향상시키는 데 초점을 맞추고 있으며, 예를 들어 고급 모델에서 고품질의 올바른 해결책을 추출하는 방식이 주를 이룹니다. 이 과정에서 오류 데이터가 지닌 가치를 간과함으로써 모델의 반성적 능력을 저해할 가능성이 있습니다. 일부 연구에서는 오류 데이터를 활용하려는 시도가 있지만, 이러한 연구들은 종종 Monte Carlo Tree Search (MCTS)와 같은 복잡한 메커니즘을 사용하여 오류 노드를 탐색합니다. 본 연구에서는 수학적 발전을 위한 오류 학습(LEMMA)을 통해 LLMs의 추론 능력을 향상시키는 방법을 제안합니다. LEMMA는 잘못된 단계와 올바른 해결책으로의 반성적 연결을 포함하는 오류 해결책으로 구성된 데이터를 미세 조정에 사용합니다. 구체적으로, 우리는 모델이 생성한 오류 유형을 체계적으로 분석하고, 다양한 대표성을 지닌 오류를 수집하기 위해 오류 유형 기반의 실수 증강 방법을 도입합니다. 올바른 해결책은 오류를 수정하거나 처음부터 다시 생성한 것입니다. 모델 인식형 부드러운 반성적 연결을 통해 오류 해결책은 올바른 해결책으로 전환됩니다. 구성된 데이터셋을 통해 미세 조정함으로써, 모델은 외부 비평 모델에 의존하지 않고도 생성 과정 내에서 자율적으로 오류를 수정할 수 있습니다. 실험 결과는 LEMMA가 다른 강력한 베이스라인 대비 상당한 성능 향상을 달성함을 보여줍니다.
언어 모델(LM) 사전 학습을 위한 컴퓨팅 자원의 확장 속도가 인간이 작성한 텍스트의 증가 속도를 앞지르면서, 데이터가 LM 확장의 병목 현상이 될 것이라는 우려가 제기되고 있습니다. 이러한 데이터 제약 상황에서 사전 학습의 확장을 지속하기 위해, 우리는 텍스트 생성 과정의 기저에 있는 잠재적 사고를 명시적으로 모델링하고 추론함으로써 사전 학습 데이터의 효율성을 크게 향상시킬 수 있다고 제안합니다. 직관적으로, 우리의 접근 방식은 웹 텍스트를 인간의 상세한 사고 과정의 압축된 최종 결과물로 간주하며, 잠재적 사고에는 데이터 효율적 학습에 중요한 문맥적 지식과 추론 단계가 포함되어 있다고 봅니다. 우리는 수학 분야에서 데이터 제약 하의 지속적 사전 학습을 통해 이 접근 방식의 효과를 실증적으로 입증합니다. 먼저, 잠재적 사고를 추론하기 위한 합성 데이터 접근법이 데이터 효율성을 크게 향상시켜 동일한 양의 원시 데이터를 사용한 학습을 능가함을 보여줍니다(MATH 데이터셋에서 5.7% → 25.4%). 더 나아가, 강력한 교사 모델 없이도 잠재적 사고 추론이 가능함을 입증합니다. 여기서 LM은 EM 알고리즘을 사용하여 학습된 LM의 능력과 사고가 강화된 사전 학습 데이터의 품질을 반복적으로 개선함으로써 스스로의 성능을 부트스트랩합니다. 우리는 1B 규모의 LM이 최소 세 번의 반복을 통해 성능을 부트스트랩할 수 있으며, 원시 데이터로 학습된 베이스라인을 크게 능가함을 보여줍니다. 또한 E-단계를 수행할 때 추가적인 추론 컴퓨팅 자원을 투입할수록 점점 더 큰 성능 향상을 얻을 수 있습니다. 추론 확장과 EM 반복을 통해 얻은 성능 향상은 데이터 제약 하의 사전 학습 확장을 위한 새로운 가능성을 제시합니다.
자연어에서 SQL로의 변환(NL2SQL)은 대규모 언어 모델(LLMs)의 발전으로 상당한 진전을 이루었습니다. 그러나 이러한 모델들은 종종 폐쇄형 시스템과 높은 컴퓨팅 자원에 의존하기 때문에 데이터 프라이버시와 배포 측면에서 어려움을 겪고 있습니다. 반면, 소규모 언어 모델(SLMs)은 NL2SQL 작업에서 성능이 낮고 기존 프레임워크와의 호환성이 부족한 문제를 보입니다. 이러한 문제를 해결하기 위해, 우리는 SLMs에 맞춤화된 새로운 경량 프레임워크인 Feather-SQL을 소개합니다. Feather-SQL은 1) 스키마 정제 및 연결, 2) 다중 경로 및 다중 후보 생성을 통해 SQL 실행 가능성과 정확성을 향상시킵니다. 또한, 강력한 일반 목적 채팅 모델과 정밀하게 조정된 SQL 전문가 모델을 결합한 1+1 모델 협업 패러다임을 도입하여 강력한 분석적 추론과 고정밀 SQL 생성을 결합합니다. BIRD 데이터셋에서의 실험 결과는 Feather-SQL이 SLMs의 NL2SQL 성능을 향상시키며, 미세 조정 없이도 약 10%의 성능 향상을 보여줍니다. 제안된 패러다임은 SLMs의 정확도 상한선을 54.76%까지 끌어올려 그 효과성을 입증했습니다.
3D 가우시안 스플래팅(3DGS)은 실시간 고성능 렌더링을 위한 강력한 표현 방식으로 등장하며 다양한 응용 분야에서 활용되고 있습니다. 그러나 수많은 명시적 가우시안 프리미티브로 3D 장면을 표현하는 것은 상당한 저장 공간과 메모리 오버헤드를 초래합니다. 최근 연구에 따르면, 고정밀 속성으로 표현할 경우 훨씬 적은 수의 가우시안으로도 고품질 렌더링이 가능하다는 것이 밝혀졌습니다. 그럼에도 불구하고, 기존의 3DGS 압축 방법들은 여전히 상대적으로 많은 수의 가우시안에 의존하며 주로 속성 압축에 초점을 맞추고 있습니다. 이는 더 적은 수의 가우시안 집합이 손실 압축에 점점 더 민감해져 심각한 품질 저하를 초래하기 때문입니다. 가우시안의 수는 계산 비용과 직접적으로 연관되어 있으므로, 저장 공간만 최적화하는 것이 아니라 가우시안의 수를 효과적으로 줄이는 것이 필수적입니다. 본 논문에서는 최소한의 프리미티브를 사용하면서도 저장 공간을 크게 줄이는 최적화된 최소 가우시안 표현(OMG)을 제안합니다. 먼저, 중복성을 최소화하면서도 품질을 희생하지 않도록 근접한 가우시안들 중에서 독특한 가우시안을 결정합니다. 둘째, 프리미티브 간의 연속성과 불규칙성을 효율적으로 포착하는 간결하고 정밀한 속성 표현을 제안합니다. 또한, 빠른 학습을 유지하면서도 코드북 크기를 무시할 수 있을 정도로 작게 유지하는 서브-벡터 양자화 기법을 제안하여 불규칙성 표현을 개선합니다. 광범위한 실험을 통해 OMG가 이전의 최신 기술 대비 저장 공간 요구량을 거의 50% 줄이고, 고품질 렌더링을 유지하면서도 600 FPS 이상의 렌더링을 가능하게 한다는 것을 입증했습니다. 소스 코드는 https://maincold2.github.io/omg/에서 확인할 수 있습니다.
디퓨전 모델은 시각적 콘텐츠 생성에서 뛰어난 능력을 보여왔지만, 추론 과정에서의 높은 계산 비용으로 인해 배포에 어려움을 겪고 있습니다. 이러한 계산 부담은 주로 이미지 또는 비디오 해상도에 대한 자기 주의(self-attention)의 이차 복잡성에서 비롯됩니다. 기존의 가속화 방법들은 종종 출력 품질을 저하시키거나 비용이 많이 드는 재학습을 필요로 하지만, 우리는 대부분의 디퓨전 모델이 낮은 해상도에서 사전 학습된다는 점을 관찰했습니다. 이는 성능 저하 없이 더 효율적인 추론을 위해 이러한 낮은 해상도 사전 지식을 활용할 수 있는 기회를 제공합니다. 본 연구에서는 이러한 낮은 해상도 사전 지식을 활용하여 계산 오버헤드를 줄이면서 출력 충실도를 유지하는 학습이 필요 없는 프레임워크인 Bottleneck Sampling을 소개합니다. Bottleneck Sampling은 높은-낮은-높은 디노이징 워크플로우를 따릅니다: 초기 및 최종 단계에서는 높은 해상도에서 디노이징을 수행하고, 중간 단계에서는 낮은 해상도에서 작동합니다. 앨리어싱과 블러링 아티팩트를 완화하기 위해, 우리는 해상도 전환 지점을 세밀하게 조정하고 각 단계에서 디노이징 타임스텝을 적응적으로 조정합니다. 우리는 Bottleneck Sampling을 이미지 및 비디오 생성 작업에서 평가하며, 광범위한 실험을 통해 이미지 생성에서는 최대 3배, 비디오 생성에서는 최대 2.5배의 추론 가속화를 달성하면서도 여러 평가 지표에서 표준 전체 해상도 샘플링 프로세스와 비슷한 출력 품질을 유지함을 입증했습니다. 코드는 https://github.com/tyfeld/Bottleneck-Sampling에서 확인할 수 있습니다.
대형 비디오 언어 모델(LVLMs)의 최근 발전은 이들의 다중 모달 이해 능력의 잠재력을 강조했지만, 비디오 맥락에서의 사실적 근거 평가는 여전히 해결되지 않은 중요한 과제로 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 LVLMs의 사실성 평가를 위해 특별히 설계된 첫 번째 포괄적인 벤치마크인 Video SimpleQA를 소개합니다. 우리의 작업은 다음과 같은 주요 특징들로 기존 비디오 벤치마크와 차별화됩니다: 1) 필요한 지식: 명시적인 서사 이상의 외부 지식 통합을 요구; 2) 사실 탐구 질문: 주관적 해석을 피하고 객관적이며 논쟁의 여지가 없는 사건이나 관계를 대상으로 함; 3) 명확하고 간결한 답변: 답변은 모호하지 않고 명확하게 정확하도록 간결하게 구성되어, LLM-as-a-judge 프레임워크를 통해 자동 평가가 가능하며 점수 변동이 최소화됨; 4) 외부 소스 검증: 모든 주석은 신뢰성을 보장하기 위해 권위 있는 외부 참조 자료에 대해 엄격하게 검증됨; 5) 시간적 추론 요구: 주석된 질문 유형은 정적 단일 프레임 이해와 동적 시간적 추론을 모두 포함하여, 장기 맥락 의존성 하에서 LVLMs의 사실성을 명시적으로 평가합니다. 우리는 41개의 최신 LVLMs를 광범위하게 평가하고 주요 결과를 다음과 같이 요약합니다: 1) 현재 LVLMs는 특히 오픈소스 모델에서 사실적 준수에 있어 상당한 결함을 보임. 최고 성능 모델인 Gemini-1.5-Pro는 F-score가 54.4%에 불과함; 2) 테스트 시점 계산 패러다임은 성능 향상에 있어 미미한 이득만을 보여, 사후 계산을 통해 사실성을 향상시키는 데 근본적인 제약이 있음을 드러냄; 3) 검색 증강 생성은 추가 추론 시간 오버헤드의 대가로 일관된 개선을 보여주며, 중요한 효율성-성능 트레이드오프를 제시함.
본 논문은 대규모 언어 모델(LLM)의 3D 직교 좌표계 공간 탐색을 위한 공간 추론 능력을 향상시키기 위해 설계된 새로운 방법론인 AlphaSpace를 소개한다. AlphaSpace는 의미 기반 토큰화 전략을 사용하여, 특수한 의미 토큰을 통해 높이 정보를 인코딩하며, 주로 기호적 합성 추론 데이터를 통합한다. 이 접근법은 LLM이 특정 [x, y, z] 좌표에 객체를 정확하게 배치할 수 있도록 한다. 실험 결과는 AlphaSpace가 조작 하위 작업에서 기존 모델들을 크게 능가하며, 총 정확도 66.67%를 달성했음을 보여준다. 이는 GPT-4o의 37.5%와 Claude 3.5 Sonnet의 29.17%와 비교된다.
텍스트-투-비디오(T2V) 생성은 확산 모델을 통해 상당한 진전을 이루었습니다. 그러나 기존 방법들은 여전히 속성의 정확한 바인딩, 공간 관계 결정, 그리고 다중 주체 간의 복잡한 동작 상호작용 포착에 어려움을 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 이중 단계 정제를 통해 구성적 T2V 생성을 향상시키는 학습이 필요 없는 방법인 MagicComp를 제안합니다. 구체적으로, (1) 조건화 단계: 우리는 의미적 앵커의 방향 벡터를 원본 텍스트 임베딩에 점진적으로 주입함으로써 주체별 의미를 강화하고 주체 간 모호성을 해결하는 의미적 앵커 명확화를 도입합니다. (2) 노이즈 제거 단계: 우리는 그라운딩 사전 지식과 모델 적응형 공간 인식을 통합하여 마스크된 주의 변조를 통해 주체를 시공간 영역에 유연하게 바인딩하는 동적 레이아웃 융합 주의를 제안합니다. 또한, MagicComp는 모델에 구애받지 않고 다용도로 사용 가능한 접근법으로, 기존 T2V 아키텍처에 원활하게 통합될 수 있습니다. T2V-CompBench와 VBench에서의 광범위한 실험을 통해 MagicComp가 최신 방법들을 능가하며, 복잡한 프롬프트 기반 및 궤적 제어 가능한 비디오 생성과 같은 응용 분야에서의 잠재력을 입증했습니다. 프로젝트 페이지: https://hong-yu-zhang.github.io/MagicComp-Page/.
본 논문에서는 텍스트-이미지 확산 모델을 사용하여 직접 초고해상도 이미지를 합성하는 새로운 프레임워크인 Diffusion-4K를 소개한다. 주요 개선 사항은 다음과 같다: (1) Aesthetic-4K 벤치마크: 공개적으로 이용 가능한 4K 이미지 합성 데이터셋의 부재를 해결하기 위해, 우리는 초고해상도 이미지 생성을 위한 포괄적인 벤치마크인 Aesthetic-4K를 구축했다. GPT-4o로 생성된 신중하게 선별된 이미지와 캡션으로 구성된 고품질 4K 데이터셋을 정제했다. 또한, 미세한 디테일을 평가하기 위해 GLCM 점수와 압축 비율 지표를 도입하고, FID, Aesthetics, CLIPScore와 같은 종합적인 측정 지표와 결합하여 초고해상도 이미지를 포괄적으로 평가한다. (2) 웨이블릿 기반 미세 조정: 우리는 다양한 잠재 확산 모델에 적용 가능한 사실적인 4K 이미지를 직접 학습하기 위한 웨이블릿 기반 미세 조정 접근법을 제안하며, 이를 통해 고도로 디테일한 4K 이미지 합성의 효과를 입증한다. 결과적으로, Diffusion-4K는 특히 최신 대규모 확산 모델(예: SD3-2B 및 Flux-12B)을 기반으로 할 때 고품질 이미지 합성과 텍스트 프롬프트 준수에서 인상적인 성능을 달성한다. 우리의 벤치마크에서 얻은 광범위한 실험 결과는 Diffusion-4K가 초고해상도 이미지 합성에서 우수성을 보임을 입증한다.
대형 언어 모델(LLMs)은 코딩, 수학적 추론, 논리적 문제 해결 등 다양한 분야에서 상당한 발전을 이루었습니다. 그러나 중요한 질문이 남아 있습니다: 이러한 수학적 추론 능력이 문화적으로 적응된 수학 문제에 직면했을 때도 유지되는가? 특히, 주류 웹 규모의 AI 훈련 데이터에서 상당한 표현이 없는 문화적 맥락에 내재된 수학 문제에 대해 LLMs는 어떻게 수행하는가? 이를 탐구하기 위해, 우리는 LLMs의 수학적 추론 능력을 평가하는 데 널리 사용되는 벤치마크인 GSM8K에서 6개의 합성 문화 데이터셋을 생성했습니다. 원본 GSM8K 테스트 세트의 수학적 논리와 수치적 값을 유지하면서, 개인 이름, 음식 항목, 장소 이름 등과 같은 문화적 요소를 수정했습니다. 이러한 문화적으로 적응된 데이터셋은 변화하는 문화적 맥락에서 LLMs의 수학적 추론을 평가하는 데 더 신뢰할 수 있는 프레임워크를 제공합니다. 우리의 연구 결과는 LLMs가 문화적 참조가 변경될 때 수학 문제에 어려움을 겪는 것으로 나타났으며, 이는 기본적인 수학적 구조가 일정함에도 불구하고 발생합니다. 더 작은 모델은 더 큰 모델에 비해 더 큰 성능 저하를 보였습니다. 흥미롭게도, 우리의 결과는 문화적 친숙함이 수학적 추론을 향상시킬 수 있음을 시사합니다. 명시적인 수학적 훈련은 없지만 관련 문화적 맥락에 노출된 모델이 때로는 더 크고 수학적으로 능숙한 모델보다 문화적으로 내재된 수학 문제에서 더 나은 성능을 보이기도 했습니다. 이 연구는 LLMs의 수학적 추론 능력에 미치는 문화적 맥락의 영향을 강조하며, 실제 응용 프로그램에서의 견고성을 향상시키기 위해 더 다양하고 대표적인 훈련 데이터의 필요성을 강조합니다. 결과를 재현하기 위한 벤치마크 데이터셋과 스크립트는 https://github.com/akarim23131/Lost_in_Cultural_Translation에서 확인할 수 있습니다.
최근 대규모 언어 모델(LLM)의 기하급수적인 성장은 GPU 기반 시스템에 의존해 왔습니다. 그러나 CPU는 특히 추론 및 논리 작업을 대상으로 할 때 유연하고 저비용의 대안으로 부상하고 있습니다. RISC-V는 개방적이고 벤더 중립적인 ISA(Instruction Set Architecture) 덕분에 이 분야에서 빠르게 주목받고 있습니다. 하지만 도메인 특화적 튜닝이 요구됨에 따라 LLM 작업을 위한 RISC-V 하드웨어와 이에 상응하는 소프트웨어 생태계는 아직 완전히 성숙하고 최적화되지 못했습니다. 본 논문은 이러한 격차를 메우고자 하며, 벡터 처리 기능을 갖춘 최초의 상용 다중 코어 RISC-V CPU인 Sophon SG2042에서 LLM 추론을 최적화하는 데 초점을 맞춥니다. 추론을 위해 최적화된 최신 LLM인 DeepSeek R1 Distill Llama 8B와 DeepSeek R1 Distill QWEN 14B에서, 우리는 토큰 생성 시 4.32/2.29 토큰/초, 프롬프트 처리 시 6.54/3.68 토큰/초를 달성했으며, 이는 기준선 대비 최대 2.9배/3.0배의 속도 향상을 보여줍니다.
비사실적 질문응답(NFQA)은 그 개방형 특성, 다양한 의도, 그리고 다면적 추론의 필요성으로 인해 상당한 도전 과제로 여겨진다. 이는 기존의 사실적 QA 접근법, 즉 검색 강화 생성(RAG)을 포함한 방법들로는 부적합하다는 것을 의미한다. 사실적 질문과 달리, 비사실적 질문(NFQs)은 명확한 답이 없으며 다양한 추론 차원에서 여러 출처의 정보를 종합해야 한다. 이러한 한계를 해결하기 위해, 우리는 RAG 패러다임 내에서 타입 인식 다면적 분해 프레임워크인 Typed-RAG를 제안한다. Typed-RAG는 NFQs를 토론, 경험, 비교 등과 같은 구별되는 타입으로 분류하고, 측면 기반 분해를 적용하여 검색 및 생성 전략을 개선한다. 다면적 NFQs를 단일 측면 하위 질문으로 분해하고 결과를 집계함으로써, Typed-RAG는 더 많은 정보를 제공하고 문맥적으로 관련성 높은 응답을 생성한다. Typed-RAG를 평가하기 위해, 우리는 다양한 NFQ 타입을 포함하는 벤치마크 데이터셋인 Wiki-NFQA를 소개한다. 실험 결과는 Typed-RAG가 기준 모델들을 능가함을 보여주며, 이는 NFQA에서 효과적인 검색과 생성을 위한 타입 인식 분해의 중요성을 강조한다. 우리의 코드와 데이터셋은 https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}에서 확인할 수 있다.
텍스트-투-비디오(T2V) 생성은 텍스트 설명으로부터 사실적인 비디오를 합성할 수 있는 능력으로 인해 상당한 관심을 받고 있습니다. 그러나 기존 모델들은 특히 iGPU와 휴대폰과 같은 리소스가 제한된 장치에서 계산 효율성과 높은 시각적 품질 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 대부분의 기존 연구는 시각적 충실도를 우선시하면서 실제 배포에 적합한 더 작고 효율적인 모델의 필요성을 간과했습니다. 이러한 문제를 해결하기 위해, 우리는 경량화된 T2V 프레임워크인 Hummingbird를 제안합니다. 이 프레임워크는 기존 모델을 정제하고 시각적 피드백 학습을 통해 시각적 품질을 향상시킵니다. 우리의 접근 방식은 U-Net의 크기를 14억 개에서 7억 개의 파라미터로 줄여 고품질 비디오 생성을 유지하면서도 효율성을 크게 개선했습니다. 또한, 우리는 대형 언어 모델(LLM)과 비디오 품질 평가(VQA) 모델을 활용하여 텍스트 프롬프트와 비디오 데이터의 품질을 향상시키는 새로운 데이터 처리 파이프라인을 도입했습니다. 사용자 주도 학습 및 스타일 맞춤화를 지원하기 위해, 데이터 처리 및 모델 학습을 포함한 전체 학습 코드를 공개했습니다. 광범위한 실험 결과, 우리의 방법은 VideoCrafter2와 같은 최첨단 모델에 비해 31배의 속도 향상을 달성했으며, VBench에서도 최고의 종합 점수를 기록했습니다. 또한, 우리의 방법은 최대 26프레임의 비디오 생성을 지원하여 기존 U-Net 기반 방법의 장편 비디오 생성의 한계를 해결했습니다. 특히, 전체 학습 과정은 단 4개의 GPU만 필요하지만 기존의 선도적인 방법들과 경쟁력 있는 성능을 제공합니다. Hummingbird는 고성능, 확장성, 그리고 실제 애플리케이션을 위한 유연성을 결합한 T2V 생성을 위한 실용적이고 효율적인 솔루션을 제시합니다.
대규모 언어 모델(LLM) 사전 학습의 결과는 가중치 초기화 및 분산 제어 전략에 크게 의존합니다. 일반적으로 신경망에서 초기 분산 제어의 중요성은 잘 문서화되어 있지만, 특히 LLM 사전 학습 동안의 초기화 및 그 성장 관리를 다룬 문헌은 다소 부족한 실정입니다. 본 논문에서는 레이어 인덱스 재조정(Layer Index Rescaling, LIR) 가중치 초기화 기법과 목표 분산 재조정(Target Variance Rescaling, TVR) 분산 제어 전략을 소개합니다. 10억 파라미터 규모의 LLaMA 모델을 대상으로 한 실험에서, 이러한 기법을 통해 더 나은 분산 관리를 수행함으로써 다운스트림 작업 성능이 상당히 향상되었으며(일반적인 사전 학습 벤치마크에서 최대 4.6% 향상), 극단적인 활성화 값이 감소하여 양자화 및 저정밀도 학습과 관련된 문제를 완화할 수 있음을 입증했습니다. 우리의 코드는 https://github.com/bluorion-com/weight_rescaling에서 확인할 수 있습니다.
우리는 3D 공간 추론 능력을 강화하기 위해 설계된 최초의 강화 학습(RL) 기반 프레임워크인 MetaSpatial을 소개한다. 이 프레임워크는 하드코딩된 최적화 없이도 실시간 3D 장면 생성을 가능하게 하며, 비전-언어 모델(VLMs)의 두 가지 핵심 문제를 해결한다: (i) VLMs의 내재화된 3D 공간 추론 부재로 인해 현실적인 레이아웃 생성이 제한되는 문제, 그리고 (ii) 완벽한 지상 진실(ground truth) 주석이 없어 전통적인 지도 미세 조정(SFT)이 레이아웃 생성 작업에 비효율적인 문제. MetaSpatial의 핵심 혁신은 물리학적 제약 조건과 렌더링된 이미지 평가를 통합한 다중 턴 RL 기반 최적화 메커니즘으로, 생성된 3D 레이아웃이 일관성 있고 물리적으로 타당하며 미적으로 일관되도록 보장한다. 방법론적으로, MetaSpatial은 적응적이고 반복적인 추론 프로세스를 도입하여, VLM이 렌더링된 출력을 분석함으로써 여러 턴에 걸쳐 공간 배열을 개선하고 장면의 일관성을 점진적으로 향상시킨다. 실험적 평가를 통해 MetaSpatial이 다양한 규모의 모델에서 공간 일관성과 형식 안정성을 크게 향상시킴을 입증했다. 학습 후, 객체 배치는 더 현실적이고 정렬되며 기능적으로 일관성이 있어, 메타버스, AR/VR, 디지털 트윈 및 게임 개발 애플리케이션에서 3D 공간 추론을 위한 RL의 효과를 검증한다. 우리의 코드, 데이터 및 학습 파이프라인은 https://github.com/PzySeere/MetaSpatial에서 공개적으로 이용 가능하다.
자연어 지시문은 자동화된 이미지 편집을 직관적으로 안내할 수 있는 방법을 제공하지만, 대규모 고품질 학습 데이터셋을 구축하는 데 어려움이 있어 딥러닝 모델이 고품질 결과를 달성하기는 쉽지 않습니다. 기존 연구에서는 주로 텍스트-이미지(T2I) 생성 모델을 활용하여 지시문 기반 이미지 편집 모델의 입력/출력을 시뮬레이션하는 원본 및 편집된 이미지 쌍을 생성했습니다. 그러나 이러한 이미지 쌍은 T2I 모델의 한계로 인해 지정된 편집 지시문과 잘 맞지 않는 경우가 많으며, 이는 해당 데이터셋으로 학습된 모델에 부정적인 영향을 미칩니다. 이를 해결하기 위해, 우리는 Instruct-CLIP를 제안합니다. 이는 기존 데이터셋의 지시문을 개선하고 더 잘 정렬하기 위해 원본 및 편집된 이미지 간의 의미적 변화를 학습하는 자기 지도(self-supervised) 방법입니다. 또한, Instruct-CLIP를 잡음이 있는 잠재 이미지와 디퓨전 타임스텝을 처리할 수 있도록 조정하여 잠재 디퓨전 모델(LDMs) [19]을 학습하는 데 사용할 수 있게 하고, 디퓨전 파이프라인의 어느 단계에서나 편집 지시문과 잠재 공간에서의 이미지 변화 간의 정렬을 효율적으로 강제할 수 있도록 합니다. 우리는 Instruct-CLIP를 사용하여 InstructPix2Pix 데이터셋을 수정하고 120,000개 이상의 정제된 샘플을 얻은 후, 이를 우리의 새로운 Instruct-CLIP 기반 손실 함수를 통해 해당 모델을 미세 조정하는 데 사용했습니다. 그 결과, 주어진 지시문과 더 잘 정렬된 편집을 생성할 수 있는 모델을 얻었습니다. 우리의 코드와 데이터셋은 https://github.com/SherryXTChen/Instruct-CLIP.git에서 확인할 수 있습니다.
언어 모델은 최근 추론 영역으로 진보했지만, 보다 포괄적이고 인간과 유사한 인지 능력을 달성하기 위해서는 다중모달 추론을 통해 그 잠재력을 완전히 발휘할 수 있습니다. 본 조사는 최근의 다중모달 추론 접근법을 체계적으로 개관하며, 이를 언어 중심 다중모달 추론과 협력적 다중모달 추론 두 가지 수준으로 분류합니다. 전자는 일회성 시각 인지와 능동적 시각 인지를 포함하며, 여기서 시각은 주로 언어 추론을 보조하는 역할을 합니다. 후자는 추론 과정 내에서의 행동 생성과 상태 업데이트를 포함하며, 이를 통해 모달리티 간의 보다 동적인 상호작용이 가능해집니다. 또한, 이러한 방법들의 기술적 진화를 분석하고, 내재된 과제를 논의하며, 다중모달 추론 성능을 평가하기 위한 주요 벤치마크 작업과 평가 지표를 소개합니다. 마지막으로, (i) 시각-언어 추론에서 오미모달 추론으로, (ii) 다중모달 추론에서 다중모달 에이전트로의 두 가지 관점에서 미래 연구 방향에 대한 통찰을 제공합니다. 본 조사는 다중모달 추론 연구의 추가 발전을 촉진할 구조화된 개관을 제공하는 것을 목표로 합니다.
이산적 시각 토크나이저는 이미지를 토큰 시퀀스로 변환하여 언어 모델과 유사한 토큰 기반 시각 생성이 가능하게 합니다. 그러나 이 과정은 본질적으로 어려운 과제인데, 시각 신호를 압축된 표현으로 축소하는 동시에 고정된 코드 집합으로 이산화해야 하기 때문입니다. 기존의 이산적 토크나이저는 일반적으로 이 두 작업을 함께 학습하지만, 이로 인해 훈련 불안정성, 낮은 코드북 활용도, 제한된 재구성 품질 등의 문제가 발생합니다. 본 논문에서는 압축과 이산화를 분리하는 CODA(COntinuous-to-Discrete Adaptation) 프레임워크를 소개합니다. CODA는 처음부터 이산적 토크나이저를 훈련시키는 대신, 이미 지각적 압축에 최적화된 기존의 연속적 VAE(변분 자동인코더)를 신중하게 설계된 이산화 과정을 통해 이산적 토크나이저로 적응시킵니다. 이산화에 주력함으로써, CODA는 연속적 VAE의 강력한 시각적 충실도를 유지하면서도 안정적이고 효율적인 훈련을 보장합니다. 실험적으로, 표준 VQGAN 대비 6배 적은 훈련 비용으로, 우리의 접근 방식은 100%의 놀라운 코드북 활용률과 ImageNet 256×256 벤치마크에서 8배 및 16배 압축 시 각각 0.43과 1.34의 뛰어난 재구성 FID(rFID)를 달성했습니다.
최근 비디오 생성 기술에서 큰 진전이 이루어져 학계의 폭넓은 관심을 끌고 있습니다. 이 기술을 자원이 제한된 조건에서의 다운스트림 애플리케이션에 적용하기 위해 연구자들은 일반적으로 Adapter나 Lora와 같은 파라미터 효율적인 튜닝 방법을 기반으로 사전 훈련된 모델을 미세 조정합니다. 이러한 방법들은 소스 도메인의 지식을 타겟 도메인으로 전이할 수 있지만, 적은 수의 훈련 파라미터로 인해 적합 능력이 떨어지고, 소스 도메인의 지식이 타겟 도메인에서의 추론 과정을 벗어나게 할 수 있습니다. 본 논문에서는 제한된 자원 하에서, 더 큰 모델에 대한 파라미터 효율적 튜닝보다 백만 수준의 샘플만을 사용해 처음부터 더 작은 비디오 생성 모델을 훈련시키는 것이 다운스트림 애플리케이션에서 더 나은 성능을 낼 수 있다고 주장합니다: 핵심은 데이터와 커리큘럼 전략의 효과적인 활용에 있습니다. 애니메이션 스티커 생성(ASG)을 사례 연구로 삼아, 먼저 낮은 프레임 속도를 가진 스티커를 위한 이산 프레임 생성 네트워크를 구축하여, 제한된 자원 하에서 모델 훈련 요구 사항을 충족하도록 합니다. 처음부터 훈련된 모델을 위한 데이터 지원을 제공하기 위해, 이중 마스크 기반 데이터 활용 전략을 제안하여 제한된 데이터의 가용성을 향상시키고 다양성을 확장합니다. 이중 마스크 상황에서의 수렴을 용이하게 하기 위해, 샘플 엔트로피를 정적 및 적응적 구성 요소로 분해하여 쉬운 것부터 어려운 순으로 샘플을 얻는 난이도 적응형 커리큘럼 학습 방법을 제안합니다. 실험 결과, 우리의 자원 효율적 이중 마스크 훈련 프레임워크가 I2V-Adapter 및 SimDA와 같은 파라미터 효율적 튜닝 방법보다 양적 및 질적으로 우수함을 보여주어, 제한된 자원 하에서의 다운스트림 작업에 대한 우리의 방법의 타당성을 검증합니다. 코드는 공개될 예정입니다.
대규모 언어 모델의 등장과 이를 AI 에이전트로 활용하는 사례는 최신 코드 생성 벤치마크를 크게 발전시켜 현대 소프트웨어 엔지니어링 작업을 변화시키고 있습니다. 그러나 테스트 시점에서 계산된 추론 모델을 사용하더라도, 이러한 시스템은 여전히 복잡한 소프트웨어 엔지니어링 문제에 어려움을 겪고 있습니다. 본 연구는 언어적 프로세스 감독(VPS)으로 강화된 코드 이해 및 추론 에이전트 시스템인 CURA를 소개하며, BigCodeBench와 같은 도전적인 벤치마크에서 기준 모델 대비 3.65%의 성능 향상을 달성했습니다. 더 나아가, CURA는 o3-mini 모델과 VPS 기술과 결합되었을 때 최첨단 성능을 보여줍니다. 이 연구는 추론 중심 아키텍처와 LLM 기반 코드 생성을 통합함으로써 언어 모델이 복잡한 소프트웨어 엔지니어링 작업을 해결할 수 있는 에이전트적 추론을 가능하게 하는 한 걸음을 내딛은 것입니다.
우리는 유해한 애니메이션의 합성을 방지하면서도 일반적인 텍스트-모션 생성 성능을 유지하기 위해 인간 동작 언러닝(unlearning) 작업을 소개합니다. 유해한 동작을 언러닝하는 것은 이러한 동작이 명시적인 텍스트 프롬프트뿐만 아니라 안전한 동작들의 암묵적인 유해한 조합(예: "차기"는 "다리를 들고 휘두르기")으로부터 생성될 수 있기 때문에 어려운 과제입니다. 우리는 대규모 최신 텍스트-모션 데이터셋인 HumanML3D와 Motion-X에서 유해한 동작을 필터링하여 최초의 모션 언러닝 벤치마크를 제안합니다. 또한, 최신 이미지 언러닝 기술을 시공간 신호 처리에 적용하여 베이스라인을 제안합니다. 마지막으로, 우리는 Latent Code Replacement(LCR)라는 새로운 모션 언러닝 모델을 제안합니다. LCR은 학습이 필요 없으며, 최신 텍스트-모션 디퓨전 모델의 이산적 잠재 공간에 적합합니다. LCR은 간단하면서도 질적 및 양적으로 베이스라인을 일관되게 능가합니다. 프로젝트 페이지: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
다중 광원이 존재하는 장면에서의 화이트 밸런스(WB) 보정은 컴퓨터 비전 분야에서 지속적인 과제로 남아 있습니다. 최근의 방법들은 신경망이 미리 정의된 WB 프리셋으로 처리된 입력 이미지의 여러 sRGB 버전을 선형적으로 혼합하는 융합 기반 접근 방식을 탐구했습니다. 그러나 우리는 이러한 방법들이 일반적인 다중 광원 시나리오에 대해 최적이 아니라는 것을 입증합니다. 또한, 기존의 융합 기반 방법들은 전용 다중 광원 이미지가 부족한 sRGB WB 데이터셋에 의존함으로써 학습과 평가 모두에 제한을 받고 있습니다. 이러한 문제를 해결하기 위해 우리는 두 가지 주요 기여를 제안합니다. 첫째, sRGB WB 프리셋 간의 공간적 의존성을 효과적으로 포착하는 효율적인 트랜스포머 기반 모델을 제안하여 선형 융합 기법을 크게 개선합니다. 둘째, 5가지 다른 WB 설정으로 렌더링된 16,000개 이상의 sRGB 이미지와 WB 보정 이미지로 구성된 대규모 다중 광원 데이터셋을 소개합니다. 우리의 방법은 새로운 다중 광원 이미지 융합 데이터셋에서 기존 기술 대비 최대 100%의 성능 향상을 달성합니다.
최근 이미지 초해상도(SR) 기술의 발전으로 출력물의 지각적 품질이 지속적으로 개선되고 있지만, 이러한 기술들은 종종 정량적 평가에서 실패할 수 있습니다. 이러한 불일치는 SR 평가를 위한 기존 이미지 메트릭에 대한 불신을 증가시키고 있습니다. 이미지 평가는 메트릭과 기준이 되는 참조 지상 참조(GT) 모두에 의존하지만, 연구자들은 일반적으로 GT를 '완벽한' 참조로 간주하여 그 역할을 검토하지 않습니다. 그러나 초기 수집된 데이터와 다른 유형의 왜곡을 통제하지 못한 점으로 인해, 기존 SR 데이터셋의 GT가 상대적으로 낮은 품질을 보일 수 있으며, 이는 편향된 평가로 이어질 수 있습니다. 이러한 관찰을 바탕으로, 본 논문에서는 다음과 같은 질문에 관심을 가집니다: 기존 SR 데이터셋의 GT 이미지는 모델 평가를 위해 100% 신뢰할 수 있는가? GT 품질이 이 평가에 어떤 영향을 미치는가? 그리고 불완전한 GT가 존재할 경우 공정한 평가를 어떻게 할 수 있는가? 이러한 질문에 답하기 위해, 본 논문은 두 가지 주요 기여를 제시합니다. 첫째, 세 가지 실제 SR 데이터셋에서 최신의 7개 SR 모델을 체계적으로 분석함으로써, SR 성능이 저품질 GT에 의해 모델 간 일관되게 영향을 받을 수 있으며, GT 품질이 통제될 때 모델의 성능이 상당히 다를 수 있음을 보여줍니다. 둘째, 이미지 쌍의 상대적 품질 차이를 측정하는 새로운 지각적 품질 메트릭인 상대 품질 지수(RQI)를 제안하여, 신뢰할 수 없는 GT로 인한 편향된 평가를 해결합니다. 우리가 제안한 모델은 인간의 의견과 훨씬 더 일관된 결과를 보여줍니다. 우리의 연구가 SR 커뮤니티에 향후 데이터셋, 모델, 메트릭이 어떻게 개발되어야 하는지에 대한 통찰을 제공할 것으로 기대합니다.
GPT-4와 같은 대형 시각-언어 모델(VLMs)은 다양한 분야에서 주목할 만한 성과를 거두었습니다. 그러나 VLMs를 활용한 3D 실내 장면 생성에 대한 연구는 거의 이루어지지 않았습니다. 본 논문에서는 이 문제를 공간 및 레이아웃 상식 제약 조건 하의 계획 문제로 간주합니다. 이 문제를 VLM으로 해결하기 위해, 우리는 새로운 전역-지역 트리 탐색 알고리즘을 제안합니다. 전역적으로, 이 방법은 각 객체를 순차적으로 배치하고 각 배치 과정에서 여러 배치를 탐색하며, 문제 공간을 트리로 표현합니다. 트리의 깊이를 줄이기 위해, 우리는 장면 구조를 계층적으로 분해합니다. 즉, 방 수준, 영역 수준, 바닥 객체 수준, 그리고 지지 객체 수준으로 나눕니다. 이 알고리즘은 서로 다른 영역의 바닥 객체와 서로 다른 바닥 객체 위에 배치된 지지 객체를 독립적으로 생성합니다. 지역적으로, 우리는 각 객체의 배치라는 하위 작업을 여러 단계로 분해합니다. 알고리즘은 문제 공간의 트리를 탐색합니다. VLM 모델을 활용하여 객체의 위치를 생성하기 위해, 우리는 위에서 내려다본 공간을 조밀한 그리드로 이산화하고 각 셀을 다양한 이모지로 채워 셀을 구별합니다. 우리는 이모지 그리드로 VLM에 프롬프트를 제공하면, VLM은 이모지 이름을 사용하여 객체의 합리적인 위치를 설명합니다. 양적 및 질적 실험 결과는 우리의 접근 방식이 최신 기술보다 더 그럴듯한 3D 장면을 생성함을 보여줍니다. 우리의 소스 코드는 https://github.com/dw-dengwei/TreeSearchGen에서 확인할 수 있습니다.
단안 깊이 추정(Monocular Depth Estimation, MDE)은 컴퓨터 비전 분야에서 중요한 과제로 부상하며, 다양한 실생활 애플리케이션을 지원하고 있습니다. 그러나 고정밀 깊이 추정 모델을 자원이 제한된 에지 디바이스, 특히 주문형 반도체(ASIC)에 배포하는 것은 높은 계산 및 메모리 요구량으로 인해 어려운 과제입니다. 최근 기본 깊이 추정 기술의 발전은 인상적인 결과를 제공하지만, ASIC에 배포하는 데 있어 더 큰 어려움을 야기하고 있습니다. 이를 해결하기 위해, 우리는 ASIC을 위한 하드웨어 가속을 통해 MDE 모델을 양자화하는 사후 학습 양자화(post-training quantization)를 채택한 QuartDepth를 제안합니다. 우리의 접근 방식은 가중치와 활성화를 4비트 정밀도로 양자화하여 모델 크기와 계산 비용을 줄이는 것입니다. 성능 저하를 완화하기 위해, 활성화 양자화 전후에 적용되는 활성화 다듬기 및 보상 알고리즘과 가중치 양자화에서의 오류를 최소화하기 위한 가중치 재구성 방법을 도입했습니다. 또한, 커널 융합과 맞춤형 명령어 프로그래밍 가능성을 지원하여 유연하고 프로그래밍 가능한 하드웨어 가속기를 설계하여 처리량과 효율성을 향상시켰습니다. 실험 결과는 우리의 프레임워크가 ASIC에서 빠른 추론과 높은 에너지 효율성을 달성하면서도 경쟁력 있는 정확도를 유지함으로써, 고성능 깊이 추정과 실용적인 에지 디바이스 적용 가능성 간의 격차를 줄이는 것을 보여줍니다. 코드: https://github.com/shawnricecake/quart-depth
원격 감지 기술의 발전으로 위성 이미지의 공간 해상도가 향상되어 다양한 해석을 위한 더욱 세밀한 시각적 표현이 가능해졌습니다. 그러나 기존 방법들은 다양한 응용 분야에서 제한된 일반화 능력을 보여줍니다. 일부 최신 기반 모델들이 잠재력을 보이지만, 이들은 교차 작업 적응성이 부족하고 주로 제한된 크기의 저해상도 이미지를 처리하므로 고해상도 데이터를 완전히 활용하거나 대규모 장면 의미를 충분히 활용하지 못합니다. 특히, 원격 감지 이미지는 자연 이미지와 근본적으로 다르며, 주요 전경 대상(예: 해양 물체, 인공 구조물)이 종종 최소한의 공간 비율(~1%)을 차지하고 희소한 분포를 보입니다. 긴 2D 토큰(~100,000)으로부터 교차 작업 일반화 가능한 지식을 효율적으로 모델링하는 것은 원격 감지 이미지 이해에 있어 중요한 과제이지만 여전히 상당한 도전 과제로 남아 있습니다. 인간 시각 시스템에 내재된 선택적 주의 메커니즘에 영감을 받아, 우리는 원격 감지 이미지를 위한 동적 시각 인식 기반 모델인 DynamicVis를 제안합니다. 이 프레임워크는 선택적 상태 공간 모델을 기반으로 한 새로운 동적 영역 인식 백본을 통합하여, 지역적 세부 정보 추출과 전역적 맥락 통합을 전략적으로 균형 있게 조정하며, 대규모 데이터의 계산 효율적인 인코딩을 가능하게 하면서도 아키텍처 확장성을 유지합니다. 교차 작업 지식 전이를 강화하기 위해, 우리는 메타 임베딩 표현을 활용한 다중 인스턴스 학습 패러다임을 도입하고, 이를 백만 규모의 영역 수준 주석으로 학습시킵니다. 9개의 하위 작업에 대한 평가를 통해 모델의 다재다능함을 입증했습니다. DynamicVis는 (2048x2048) 픽셀을 97ms의 지연 시간(ViT의 6%)과 833MB의 GPU 메모리(ViT의 3%)로 처리하며 탁월한 효율성으로 다중 수준 특징 모델링을 달성합니다.