번역이 포함된 일일 선별된 AI 연구 논문
정규화 계층은 현대 신경망에서 어디서나 볼 수 있으며 오랫동안 필수적인 요소로 여겨져 왔습니다. 본 연구는 정규화 없이도 Transformer가 놀랍도록 간단한 기법을 사용하여 동등하거나 더 나은 성능을 달성할 수 있음을 보여줍니다. 우리는 정규화 계층을 대체할 수 있는 요소별 연산인 Dynamic Tanh(DyT), 즉 DyT(x) = tanh(alpha x)를 소개합니다. DyT는 Transformer의 레이어 정규화가 종종 tanh와 유사한 S자 형태의 입력-출력 매핑을 생성한다는 관찰에서 영감을 받았습니다. DyT를 도입함으로써, 정규화 없이도 Transformer는 대부분 하이퍼파라미터 튜닝 없이 정규화된 모델과 동등하거나 더 나은 성능을 보일 수 있습니다. 우리는 DyT를 적용한 Transformer의 효과를 인식에서 생성, 지도 학습에서 자기 지도 학습, 컴퓨터 비전에서 언어 모델에 이르기까지 다양한 설정에서 검증합니다. 이러한 결과는 현대 신경망에서 정규화 계층이 필수적이라는 기존의 통념에 도전하며, 심층 신경망에서의 역할에 대한 새로운 통찰을 제공합니다.
현재 수백만 개의 공개된 신경망 모델이 존재함에 따라, 대규모 모델 저장소를 탐색하고 분석하는 작업은 점점 더 중요해지고 있습니다. 이처럼 많은 모델을 탐색하기 위해서는 아틀라스가 필요하지만, 대부분의 모델이 제대로 문서화되지 않아 이러한 아틀라스를 작성하는 것은 어려운 과제입니다. 모델 저장소의 잠재력을 탐구하기 위해, 우리는 Hugging Face의 문서화된 부분을 나타내는 예비 아틀라스를 작성했습니다. 이 아틀라스는 모델 생태계와 그 진화를 놀라울 정도로 시각적으로 보여줍니다. 우리는 이 아틀라스의 여러 응용 사례를 보여주는데, 이는 모델 속성(예: 정확도) 예측과 컴퓨터 비전 모델의 트렌드 분석을 포함합니다. 그러나 현재 아틀라스는 여전히 불완전하므로, 문서화되지 않은 영역을 작성하는 방법을 제안합니다. 구체적으로, 우리는 실제 모델 학습 관행에서 주로 사용되는 고신뢰도 구조적 사전 정보를 식별합니다. 이러한 사전 정보를 활용함으로써, 우리의 접근 방식은 이전에 문서화되지 않은 아틀라스 영역을 정확하게 매핑할 수 있게 합니다. 우리는 데이터셋, 코드, 그리고 인터랙티브 아틀라스를 공개적으로 제공합니다.
Stable Diffusion과 DALLE-3 같은 텍스트-이미지 모델들은 여전히 다중 단계 이미지 편집에 어려움을 겪고 있습니다. 우리는 이러한 작업을 다양한 비용의 AI 도구를 사용하여 일련의 하위 작업을 해결하는 도구 사용의 에이전트 워크플로우(경로)로 분해합니다. 기존의 탐색 알고리즘은 도구 경로를 찾기 위해 비용이 많이 드는 탐색을 필요로 합니다. 반면, 대형 언어 모델(LLMs)은 하위 작업 계획에 대한 사전 지식을 가지고 있지만, 각 하위 작업에 어떤 도구를 적용할지 결정하기 위해 도구의 능력과 비용을 정확히 추정하지 못할 수 있습니다. LLMs와 그래프 탐색의 강점을 결합하여 비용 효율적인 도구 경로를 찾을 수 있을까요? 우리는 "CoSTA*"라는 세 단계 접근법을 제안합니다. 이 방법은 LLMs를 활용하여 하위 작업 트리를 생성하고, 주어진 작업에 대한 AI 도구 그래프를 정제한 다음, 작은 하위 그래프에서 A* 탐색을 수행하여 도구 경로를 찾습니다. 총 비용과 품질을 더 잘 균형 잡기 위해, CoSTA*는 각 하위 작업에서 각 도구의 두 가지 메트릭을 결합하여 A* 탐색을 안내합니다. 각 하위 작업의 출력은 시각-언어 모델(VLM)에 의해 평가되며, 실패가 발생하면 해당 하위 작업에서 도구의 비용과 품질이 업데이트됩니다. 따라서 A* 탐색은 실패에서 빠르게 복구하여 다른 경로를 탐색할 수 있습니다. 또한, CoSTA*는 하위 작업 간에 모달리티를 자동으로 전환하여 더 나은 비용-품질 균형을 달성할 수 있습니다. 우리는 도전적인 다중 단계 이미지 편집을 위한 새로운 벤치마크를 구축했으며, CoSTA*는 비용과 품질 모두에서 최신 이미지 편집 모델이나 에이전트를 능가하고, 사용자 선호에 따라 다양한 균형을 제공합니다.
대규모 시각-언어 모델(LVLMs)의 최근 발전은 구체화된 작업 계획에 있어 유망한 가능성을 보여주었지만, 여전히 의존성 제약과 효율성과 같은 근본적인 문제에 직면해 있습니다. 기존 접근 방식은 단순히 행동 선택을 최적화하거나 추론 과정에서 세계 모델을 활용하는 데 그쳐, 계획 능력을 강화하기 위한 방법으로 세계를 모델링하는 학습의 이점을 간과해 왔습니다. 우리는 상태 예측과 행동 선택을 선호 학습을 통해 공동으로 최적화하는 새로운 학습 프레임워크인 이중 선호 최적화(Dual Preference Optimization, D^2PO)를 제안합니다. 이를 통해 LVLMs가 환경 역학을 이해하여 더 나은 계획을 수립할 수 있도록 합니다. 인간의 주석 없이도 궤적과 단계별 선호 데이터를 자동으로 수집하기 위해, 우리는 시행착오를 통한 광범위한 탐색을 위한 트리 탐색 메커니즘을 도입했습니다. VoTa-Bench에서의 광범위한 실험을 통해, 우리의 D^2PO 기반 방법이 Qwen2-VL (7B), LLaVA-1.6 (7B), 그리고 LLaMA-3.2 (11B)에 적용될 때 기존 방법들과 GPT-4o를 크게 능가하며, 더 효율적인 실행 경로로 우수한 작업 성공률을 달성함을 입증했습니다.
현재의 이미지 생성 및 편집 방법은 주로 텍스트 프롬프트를 직접 입력으로 처리하며, 시각적 구성과 명시적인 작업에 대한 추론을 수행하지 않습니다. 우리는 Generation Chain-of-Thought (GoT)라는 새로운 패러다임을 제시합니다. 이는 이미지를 출력하기 전에 명시적인 언어 추론 과정을 통해 생성과 편집을 가능하게 합니다. 이 접근 방식은 기존의 텍스트-이미지 생성 및 편집을 시맨틱 관계와 공간적 배열을 분석하는 추론-가이드 프레임워크로 변환합니다. 우리는 GoT의 공식을 정의하고, 시맨틱-공간적 관계를 포착한 상세한 추론 체인을 포함한 900만 개 이상의 샘플로 구성된 대규모 GoT 데이터셋을 구축했습니다. GoT의 장점을 활용하기 위해, 우리는 Qwen2.5-VL을 추론 체인 생성에 통합하고, 새로운 Semantic-Spatial Guidance Module로 강화된 엔드-투-엔드 확산 모델을 포함한 통합 프레임워크를 구현했습니다. 실험 결과, 우리의 GoT 프레임워크는 생성 및 편집 작업에서 우수한 성능을 보이며, 기준선 대비 상당한 개선을 달성했습니다. 또한, 우리의 접근 방식은 사용자가 추론 단계를 명시적으로 수정하여 정확한 이미지 조정을 가능하게 하는 인터랙티브 시각적 생성을 가능하게 합니다. GoT는 추론-주도 시각적 생성 및 편집을 위한 새로운 방향을 개척하며, 인간의 의도와 더 잘 일치하는 이미지를 생성합니다. 향후 연구를 촉진하기 위해, 우리는 데이터셋, 코드, 그리고 사전 훈련된 모델을 https://github.com/rongyaofang/GoT에서 공개합니다.
본 논문은 초고속 텍스트-이미지(T2I) 생성을 위한 효율적인 확산 모델인 SANA-Sprint를 소개합니다. SANA-Sprint는 사전 훈련된 기반 모델을 기반으로 하이브리드 증류 기법을 추가하여 추론 단계를 20단계에서 1-4단계로 획기적으로 줄였습니다. 본 연구에서는 세 가지 주요 혁신을 도입했습니다: (1) 사전 훈련된 흐름 매칭 모델을 연속 시간 일관성 증류(sCM)를 위해 변환하는 훈련 불필요 방식을 제안하여, 처음부터의 고비용 훈련을 제거하고 높은 훈련 효율성을 달성했습니다. 우리의 하이브리드 증류 전략은 sCM과 잠재적 적대적 증류(LADD)를 결합합니다: sCM은 교사 모델과의 정렬을 보장하고, LADD는 단일 단계 생성의 충실도를 향상시킵니다. (2) SANA-Sprint는 1-4단계에서 고품질 생성을 달성하는 통합 단계 적응형 모델로, 단계별 훈련을 제거하고 효율성을 개선했습니다. (3) SANA-Sprint에 ControlNet을 통합하여 실시간 인터랙티브 이미지 생성을 가능하게 하여, 사용자 상호작용에 대한 즉각적인 시각적 피드백을 제공합니다. SANA-Sprint는 속도-품질 트레이드오프에서 새로운 파레토 프론티어를 확립하며, 단 1단계에서 7.59 FID와 0.74 GenEval로 최첨단 성능을 달성했습니다. 이는 FLUX-schnell(7.94 FID / 0.71 GenEval)을 능가하면서도 10배 더 빠른 속도(0.1초 대 1.1초, H100 기준)를 보여줍니다. 또한 H100에서 1024 x 1024 이미지에 대해 0.1초(T2I)와 0.25초(ControlNet)의 지연 시간을, RTX 4090에서 0.31초(T2I)의 지연 시간을 달성하여, AI 기반 소비자 애플리케이션(AIPC)을 위한 탁월한 효율성과 잠재력을 입증했습니다. 코드와 사전 훈련된 모델은 오픈소스로 공개될 예정입니다.
우리는 8B 파라미터를 가진 고급 멀티모달 프로세스 보상 모델(PRM)인 VisualPRM을 소개합니다. 이 모델은 Best-of-N(BoN) 평가 전략을 통해 다양한 모델 규모와 계열에 걸쳐 기존 멀티모달 대형 언어 모델(MLLM)의 추론 능력을 향상시킵니다. 구체적으로, 우리의 모델은 세 가지 유형의 MLLM과 네 가지 다른 모델 규모에서 추론 성능을 개선합니다. 특히, 매우 강력한 성능을 가진 InternVL2.5-78B에 적용했을 때, 7개의 멀티모달 추론 벤치마크에서 5.9점의 향상을 달성했습니다. 실험 결과는 우리의 모델이 BoN 평가 중 Outcome Reward Models 및 Self-Consistency와 비교하여 우수한 성능을 보인다는 것을 나타냅니다. 멀티모달 PRM의 학습을 용이하게 하기 위해, 우리는 자동화된 데이터 파이프라인을 사용하여 멀티모달 프로세스 감독 데이터셋 VisualPRM400K를 구축했습니다. 멀티모달 PRM의 평가를 위해, 우리는 인간이 주석을 단 단계별 정확성 레이블을 포함한 벤치마크인 VisualProcessBench를 제안하여, 멀티모달 추론 작업에서 잘못된 단계를 감지하는 PRM의 능력을 측정합니다. 우리의 작업이 더 많은 미래 연구를 영감으로 삼고 MLLM의 발전에 기여하기를 바랍니다. 우리의 모델, 데이터 및 벤치마크는 https://internvl.github.io/blog/2025-03-13-VisualPRM/에서 공개되었습니다.
텍스트-이미지 확산 모델은 텍스트 프롬프트로부터 고품질 콘텐츠를 생성하는 데 있어 놀라운 성과를 거두었습니다. 그러나 이러한 모델들은 공개적으로 이용 가능한 데이터에 의존하며, 미세 조정을 위한 데이터 공유가 증가하는 추세로 인해 데이터 중독 공격에 특히 취약합니다. 본 연구에서는 특정 브랜드 로고나 상징을 텍스트 트리거 없이도 생성하도록 텍스트-이미지 확산 모델을 조작하는 새로운 데이터 중독 기법인 'Silent Branding Attack'을 소개합니다. 우리는 특정 시각적 패턴이 훈련 데이터에서 반복적으로 등장할 경우, 모델이 이를 자연스럽게 출력물에 재현하는 것을 발견했습니다. 이를 활용하여, 원본 이미지에 로고를 자연스럽게 혼합하고 탐지되지 않도록 하는 자동화된 데이터 중독 알고리즘을 개발했습니다. 이 중독된 데이터셋으로 훈련된 모델은 이미지 품질이나 텍스트 정렬을 저하시키지 않으면서도 로고가 포함된 이미지를 생성합니다. 우리는 대규모 고품질 이미지 데이터셋과 스타일 개인화 데이터셋에서 두 가지 현실적인 설정에 걸쳐 Silent Branding Attack을 실험적으로 검증하였으며, 특정 텍스트 트리거 없이도 높은 성공률을 달성했습니다. 인간 평가 및 로고 탐지를 포함한 정량적 지표는 우리의 방법이 로고를 은밀하게 내장할 수 있음을 보여줍니다.
텍스트-이미지(T2I) 생성 모델이 빠르고 우수한 샘플을 생성하는 것은 유망한 연구 방향입니다. 기존 연구들은 일반적으로 샘플링 효율성을 희생하면서 합성된 이미지의 시각적 품질을 향상시키거나, 기본 모델의 생성 능력을 개선하지 않고 샘플링 속도를 극적으로 가속화하는 데 초점을 맞추었습니다. 또한, 거의 모든 추론 방법들은 확산 모델(DMs)과 시각적 자기회귀 모델(ARMs) 모두에서 동시에 안정적인 성능을 보장하지 못했습니다. 본 논문에서는 Collect, Reflect, Refine이라는 세 가지 하위 프로세스로 구성된 새로운 플러그 앤 플레이 추론 패러다임인 CoRe^2를 소개합니다. CoRe^2는 먼저 classifier-free guidance(CFG) 궤적을 수집한 다음, 수집된 데이터를 사용하여 학습하기 쉬운 내용을 반영하는 약한 모델을 훈련시키면서 추론 중 함수 평가 횟수를 절반으로 줄입니다. 이후, CoRe^2는 약한 모델에서 강한 모델로의 guidance를 사용하여 조건부 출력을 정제함으로써, 기본 모델이 포착하기 어려운 고주파 및 사실적인 내용을 생성하는 모델의 능력을 향상시킵니다. 우리가 아는 한, CoRe^2는 SDXL, SD3.5, FLUX와 같은 다양한 DMs뿐만 아니라 LlamaGen과 같은 ARMs에서도 효율성과 효과성을 동시에 입증한 최초의 방법입니다. CoRe^2는 HPD v2, Pick-of-Pic, Drawbench, GenEval, T2I-Compbench에서 상당한 성능 향상을 보였습니다. 또한, CoRe^2는 최첨단 Z-Sampling과 원활하게 통합될 수 있으며, SD3.5를 사용하여 PickScore와 AES에서 각각 0.3과 0.16의 성능 향상을 달성하면서 5.64초의 시간 절약을 이루었습니다. 코드는 https://github.com/xie-lab-ml/CoRe/tree/main에서 공개되었습니다.
시간에 민감하며 개방형 언어 질의를 동적 장면에서 가능하게 하는 4D 언어 필드를 학습하는 것은 많은 실제 응용 프로그램에 필수적입니다. LangSplat은 CLIP 특징을 3D 가우시안 표현으로 성공적으로 고정시켜 3D 정적 장면에서 정밀도와 효율성을 달성했지만, 정적 이미지-텍스트 작업을 위해 설계된 CLIP이 비디오의 시간적 동역학을 포착할 수 없기 때문에 동적 4D 필드를 처리하는 능력이 부족합니다. 실제 환경은 본질적으로 동적이며, 객체 의미론이 시간에 따라 진화합니다. 정밀한 4D 언어 필드를 구축하려면 픽셀 정렬된 객체별 비디오 특징을 얻어야 하는데, 현재의 비전 모델은 이를 달성하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 동적 장면에서 시간에 무관하거나 시간에 민감한 개방형 어휘 질의를 효율적으로 처리하기 위해 4D 언어 필드를 학습하는 4D LangSplat을 제안합니다. 4D LangSplat은 비전 특징에서 언어 필드를 학습하는 것을 우회하고, 대신 Multimodal Large Language Models (MLLMs)을 통해 객체별 비디오 캡션에서 생성된 텍스트로부터 직접 학습합니다. 구체적으로, 우리는 비주얼 및 텍스트 프롬프트로 구성된 멀티모달 객체별 비디오 프롬프팅 방법을 제안하여 MLLMs가 비디오 전반에 걸쳐 객체에 대한 상세하고 시간적으로 일관된 고품질 캡션을 생성하도록 유도합니다. 이러한 캡션은 Large Language Model을 사용하여 고품질 문장 임베딩으로 인코딩되며, 이는 픽셀 정렬된 객체별 특징 감독으로 작용하여 공유 임베딩 공간을 통해 개방형 어휘 텍스트 질의를 용이하게 합니다. 4D 장면의 객체가 상태 간에 부드러운 전환을 보인다는 점을 인식하여, 우리는 이러한 연속적인 변화를 효과적으로 모델링하기 위해 상태 변형 가능 네트워크를 추가로 제안합니다. 여러 벤치마크에서의 결과는 4D LangSplat이 시간에 민감하거나 시간에 무관한 개방형 어휘 질의 모두에 대해 정밀하고 효율적인 결과를 달성함을 보여줍니다.
본 논문은 Light-R1 시리즈에 대한 우리의 연구를 소개하며, 모델, 데이터 및 코드를 모두 공개한다. 우리는 먼저 장기 사고 사슬(COT) 능력이 없는 모델을 기반으로 장기 COT 모델을 처음부터 학습하는 데 초점을 맞췄다. 두 단계의 지도 미세 조정(SFT)과 준 온-정책 DPO로 구성된 커리큘럼 학습 레시피를 사용하여 Qwen2.5-32B-Instruct에서 Light-R1-32B 모델을 학습시켰으며, 이는 DeepSeek-R1-Distill-Qwen-32B보다 우수한 수학 성능을 보였다. 수학 데이터만으로 학습되었음에도 불구하고, Light-R1-32B는 다른 영역에서도 강력한 일반화 능력을 보였다. 이 작업의 후속 단계에서는 두 번째 SFT 단계를 위해 구축된 3k 데이터셋이 다른 모델의 성능 향상에 미치는 상당한 이점을 강조했다. 이 데이터셋을 사용하여 DeepSeek-R1-Distilled 모델을 미세 조정함으로써, 7B와 14B 크기에서 새로운 SOTA 모델을 얻었으며, 32B 모델인 Light-R1-32B-DS는 QwQ-32B 및 DeepSeek-R1과 비슷한 성능을 보였다. 또한, 우리는 장기 COT 모델에 강화 학습(GRPO)을 적용하여 추론 성능을 더욱 개선하는 작업을 확장했다. RL을 통해 최종 Light-R1-14B-DS 모델을 성공적으로 학습시켰으며, 14B 파라미터 모델 중에서 수학 분야에서 SOTA 성능을 달성했다. AIME24 및 AIME25 점수 각각 74.0과 60.2로, Light-R1-14B-DS는 많은 32B 모델과 DeepSeek-R1-Distill-Llama-70B를 능가했다. RL 학습은 또한 응답 길이와 보상 점수가 동시에 증가하는 예상된 동작을 잘 보여주었다. Light-R1 시리즈 작업은 장기 COT 모델을 처음부터 학습하는 방법을 검증하고, SFT 데이터의 기술을 보여주며, RL을 통해 SOTA 모델을 공개한다.
디퓨전 기반 생성 모델은 객체 지향 이미지 편집 분야에 혁신을 가져왔지만, 현실적인 객체 제거 및 삽입 작업에서의 활용은 물리적 효과의 복잡한 상호작용과 충분하지 않은 페어링된 학습 데이터와 같은 문제로 인해 여전히 제약을 받고 있습니다. 본 연구에서는 OmniPaint를 소개합니다. 이는 객체 제거와 삽입을 독립적인 작업이 아닌 상호 의존적인 프로세스로 재구성하는 통합 프레임워크입니다. 사전 학습된 디퓨전 프라이어와 초기 페어링된 샘플 최적화 및 CycleFlow를 통한 대규모 비페어링 정제로 구성된 점진적 학습 파이프라인을 활용함으로써, OmniPaint는 정확한 전경 제거와 원활한 객체 삽입을 달성하면서도 장면의 기하학적 구조와 내재적 특성을 충실히 보존합니다. 더불어, 본 연구에서 제안한 새로운 CFD 메트릭은 컨텍스트 일관성과 객체 환각에 대한 강력한 참조 없는 평가를 제공하여, 고품질 이미지 편집을 위한 새로운 벤치마크를 확립합니다. 프로젝트 페이지: https://yeates.github.io/OmniPaint-Page/
비전-언어 모델(Vision-Language Models)은 많은 인식 중심 작업에서 상당한 진전을 이루었지만, 고품질이고 다양한 학습 데이터의 부족으로 인해 추론 중심 작업에서는 진전이 제한적인 것으로 보입니다. 본 연구에서는 추론 중심의 멀티모달 데이터셋 부족 문제를 해결하고자 합니다. 우리는 VisualWebInstruct라는 새로운 접근 방식을 제안합니다. 이 방법은 검색 엔진을 활용하여 수학, 물리학, 금융, 화학 등 다양한 분야에 걸친 고품질의 데이터셋을 생성합니다. 신중하게 선별된 30,000개의 시드 이미지를 시작점으로, Google 이미지 검색을 사용하여 유사한 이미지를 포함한 웹사이트를 식별합니다. 700,000개 이상의 고유 URL 소스에서 HTML을 수집 및 처리합니다. 콘텐츠 추출, 필터링 및 합성 파이프라인을 통해 약 900,000개의 질문-답변 쌍으로 구성된 데이터셋을 구축하며, 이 중 40%는 시각적 QA 쌍이고 나머지는 텍스트 QA 쌍입니다. VisualWebInstruct로 미세 조정된 모델은 상당한 성능 향상을 보여줍니다: (1) Llava-OV-mid에서 학습한 모델은 벤치마크 전반에 걸쳐 10-20%의 절대적 성능 향상을 보였고, (2) MAmmoTH-VL에서 학습한 모델은 5%의 절대적 성능 향상을 보였습니다. 우리의 최고 성능 모델인 MAmmoTH-VL2는 10B 파라미터 클래스 내에서 MMMU-Pro-std(40.7%), MathVerse(42.6%), DynaMath(55.7%)에서 최첨단 성능을 달성했습니다. 이러한 놀라운 결과는 우리의 데이터셋이 복잡한 멀티모달 작업에 대한 VLM의 추론 능력을 향상시키는 데 효과적임을 보여줍니다.
대규모 추론 모델(Large Reasoning Models, LRMs), 특히 사고 연쇄(Chain-of-Thought, CoT) 추론을 활용한 모델의 최근 발전은 기계 번역(Machine Translation, MT)에 대한 완전히 새로운 가능성을 열어주었습니다. 이 포지션 논문은 LRMs가 전통적인 신경망 기반 MT와 대형 언어 모델(LLMs) 기반 MT 패러다임을 크게 변형시켰다고 주장하며, 번역을 맥락적, 문화적, 언어적 이해와 추론이 필요한 동적 추론 작업으로 재구성했다고 설명합니다. 우리는 세 가지 근본적인 변화를 확인했습니다: 1) 맥락적 일관성(contextual coherence), LRMs는 문장 간 및 복잡한 맥락 또는 맥락 부재 상황에서 명시적 추론을 통해 모호성을 해결하고 담화 구조를 보존합니다; 2) 문화적 의도성(cultural intentionality), 모델이 화자의 의도, 청중의 기대, 사회언어학적 규범을 추론하여 출력을 조정할 수 있게 합니다; 3) 자기 반영(self-reflection), LRMs는 추론 시간 동안 자기 반영을 수행하여 특히 매우 노이즈가 많은 경우의 번역 오류를 수정할 수 있으며, 단순한 X->Y 매핑 번역에 비해 더 나은 견고성을 보여줍니다. 우리는 스타일화된 번역, 문서 수준 번역, 다중모달 번역을 포함한 다양한 번역 시나리오를 탐구하며 LRMs의 우수성을 입증하는 실증적 예시를 제시합니다. 또한, 자동 피벗 번역(auto-pivot translation)과 같은 LRMs의 흥미로운 현상과 번역에서의 과도한 지역화(over-localisation) 및 추론 효율성과 같은 중요한 도전 과제를 식별합니다. 결론적으로, 우리는 LRMs가 번역 시스템을 단순한 텍스트 변환기가 아닌 텍스트를 넘어 의미를 추론할 수 있는 다국어 인지 에이전트로 재정의한다고 생각합니다. 이 패러다임 전환은 LRMs를 통해 전통적인 번역 시나리오를 넘어 더 넓은 맥락에서 번역 문제를 생각하고, 이를 기반으로 무엇을 달성할 수 있는지 고민하도록 상기시킵니다.
최근 장문 맥락 대형 언어 모델(LLM)의 발전은 주로 확장된 입력 맥락 처리에 집중되어 장문 이해 능력에서 상당한 진전을 이루었습니다. 그러나 동등하게 중요한 장문 출력 생성 측면은 상대적으로 덜 주목받아 왔습니다. 본 논문은 자연어 처리(NLP) 연구의 패러다임 전환을 촉구하며, 장문 출력 생성의 도전 과제를 해결할 것을 제안합니다. 소설 작성, 장기 계획 수립, 복잡한 추론과 같은 작업들은 모델이 광범위한 맥락을 이해하고 일관성 있으며 맥락적으로 풍부하고 논리적으로 일관된 장문 텍스트를 생성할 것을 요구합니다. 이러한 요구 사항들은 현재 LLM의 능력에서 중요한 격차를 드러냅니다. 우리는 이 미개척 분야의 중요성을 강조하고, 고품질의 장문 출력 생성을 위해 특화된 기초 LLM 개발에 집중적인 노력을 기울일 것을 촉구합니다. 이는 실세계 응용 분야에서 막대한 잠재력을 지니고 있습니다.
비디오 생성 모델은 지난 한 해 동안 놀라운 발전을 이루었습니다. AI 비디오의 품질은 계속해서 향상되고 있지만, 이는 더 큰 모델 크기, 증가된 데이터 양, 그리고 더 많은 훈련 컴퓨팅 자원을 필요로 하는 대가를 치르고 있습니다. 본 보고서에서는 단 20만 달러의 비용으로 훈련된 상업 수준의 비디오 생성 모델인 Open-Sora 2.0을 소개합니다. 이 모델을 통해 최고 수준의 비디오 생성 모델을 훈련하는 비용이 매우 제어 가능함을 입증합니다. 데이터 큐레이션, 모델 아키텍처, 훈련 전략, 시스템 최적화 등 이러한 효율성 돌파를 이끈 모든 기술을 상세히 설명합니다. 인간 평가 결과와 VBench 점수에 따르면, Open-Sora 2.0은 오픈소스인 HunyuanVideo와 클로즈드소스인 Runway Gen-3 Alpha를 포함한 글로벌 선두 비디오 생성 모델과 견줄 만한 성능을 보입니다. Open-Sora 2.0을 완전히 오픈소스로 공개함으로써, 우리는 고급 비디오 생성 기술에 대한 접근을 민주화하고, 콘텐츠 창작 분야에서 더 넓은 혁신과 창의성을 촉진하고자 합니다. 모든 리소스는 https://github.com/hpcaitech/Open-Sora에서 공개되어 있습니다.
본 연구에서는 텍스트-이미지 생성을 위한 Diffusion Transformer(DiT)를 실증적으로 연구하며, 아키텍처 선택, 텍스트 조건화 전략, 그리고 학습 프로토콜에 초점을 맞춥니다. 우리는 PixArt 스타일과 MMDiT 변형을 포함한 다양한 DiT 기반 아키텍처를 평가하고, 이를 텍스트와 노이즈 입력을 직접 연결하여 처리하는 표준 DiT 변형과 비교합니다. 놀랍게도, 우리의 연구 결과는 표준 DiT의 성능이 이러한 특화된 모델들과 비슷한 수준임을 보여주며, 특히 규모가 커질 때 더 우수한 파라미터 효율성을 보여줍니다. 계층별 파라미터 공유 전략을 활용하여, 우리는 MMDiT 아키텍처 대비 모델 크기를 66% 더 줄이면서도 성능 저하를 최소화했습니다. 텍스트 인코더와 Variational Auto-Encoder(VAE)와 같은 핵심 구성 요소에 대한 심층 분석을 바탕으로, 우리는 DiT-Air와 DiT-Air-Lite를 소개합니다. 지도 학습과 보상 미세 조정을 통해, DiT-Air는 GenEval과 T2I CompBench에서 최첨단 성능을 달성했으며, DiT-Air-Lite는 컴팩트한 크기에도 불구하고 대부분의 기존 모델을 능가하며 매우 경쟁력 있는 성능을 유지했습니다.
픽셀 그라운딩(Pixel Grounding)은 Referring Expression Segmentation(RES)과 같은 작업을 포함하며, 시각과 언어 모달리티 간의 격차를 해소할 수 있는 막대한 잠재력으로 인해 상당한 관심을 받고 있습니다. 그러나 이 분야의 발전은 현재 기존 데이터셋의 한계로 인해 제약을 받고 있습니다. 이러한 한계에는 제한된 객체 카테고리, 불충분한 텍스트 다양성, 그리고 고품질 주석의 부족 등이 포함됩니다. 이러한 한계를 완화하기 위해, 우리는 GroundingSuite를 소개합니다. GroundingSuite는 다음과 같은 요소로 구성됩니다: (1) 다중 Vision-Language Model(VLM) 에이전트를 활용한 자동화된 데이터 주석 프레임워크; (2) 956만 개의 다양한 참조 표현(referring expression)과 해당 세그멘테이션을 포함한 대규모 훈련 데이터셋; 그리고 (3) 3,800개의 이미지로 구성된 세심하게 선별된 평가 벤치마크. GroundingSuite 훈련 데이터셋은 모델의 성능을 크게 향상시켜, 이를 기반으로 훈련된 모델들이 최첨단 결과를 달성할 수 있도록 합니다. 구체적으로, gRefCOCO에서 68.9의 cIoU와 RefCOCOm에서 55.3의 gIoU를 달성했습니다. 또한, GroundingSuite 주석 프레임워크는 현재 선도적인 데이터 주석 방법인 GLaMM보다 4.5배 더 빠른 우수한 효율성을 보여줍니다.
대형 언어 모델(Large Language Models)은 복잡한 텍스트 작업에서 놀라운 추론 능력을 보여주었습니다. 그러나 시각적 정보와 텍스트 정보를 통합해야 하는 다중 모드(multimodal) 추론은 여전히 큰 도전 과제로 남아 있습니다. 기존의 시각-언어 모델들은 시각적 콘텐츠를 효과적으로 분석하고 추론하는 데 어려움을 겪으며, 복잡한 추론 작업에서 최적의 성능을 내지 못하는 경우가 많습니다. 또한, 포괄적인 벤치마크의 부재는 다중 모드 추론 능력을 정확하게 평가하는 데 걸림돌이 되고 있습니다. 본 논문에서는 시각적 인식과 심층 추론 간의 격차를 해소하기 위해 설계된 다중 모드 추론 모델인 R1-Onevision을 소개합니다. 이를 위해 우리는 이미지를 형식적인 텍스트 표현으로 변환하여 정밀한 언어 기반 추론을 가능하게 하는 교차 모드(cross-modal) 추론 파이프라인을 제안합니다. 이 파이프라인을 활용하여, 우리는 다양한 도메인에 걸친 단계별 다중 모드 추론 주석을 제공하는 R1-Onevision 데이터셋을 구축했습니다. 또한, 고급 추론 능력과 강력한 일반화 능력을 배양하기 위해 지도 미세 조정(supervised fine-tuning)과 강화 학습(reinforcement learning)을 통해 R1-Onevision 모델을 개발했습니다. 다양한 학년 수준에 걸친 다중 모드 추론 성능을 포괄적으로 평가하기 위해, 우리는 중학교부터 대학 및 그 이상의 시험을 아우르는 인간 교육 단계와 맞춰진 벤치마크인 R1-Onevision-Bench를 도입했습니다. 실험 결과, R1-Onevision은 GPT-4o 및 Qwen2.5-VL과 같은 모델을 여러 도전적인 다중 모드 추론 벤치마크에서 능가하며 최첨단 성능을 달성했습니다.
증류된 확산 모델은 기본 모델에 비해 샘플 다양성이 감소한다는 중요한 한계를 가지고 있습니다. 본 연구에서는 이러한 다양성 손실에도 불구하고, 증류된 모델이 기본 모델의 근본적인 개념 표현을 유지한다는 사실을 발견했습니다. 우리는 컨트롤 증류를 입증합니다. 여기서는 기본 모델에서 학습된 Concept Sliders와 LoRA와 같은 컨트롤 메커니즘이 추가적인 재학습 없이도 증류된 모델로 원활하게 전이될 수 있으며, 그 반대의 경우도 마찬가지임을 보여줍니다. 이는 컨트롤을 효과적으로 증류할 수 있음을 의미합니다. 이러한 표현 구조의 보존은 증류 과정 중 다양성 붕괴의 메커니즘을 조사하도록 우리를 이끌었습니다. 증류가 다양성에 미치는 영향을 이해하기 위해, 우리는 Diffusion Target (DT) Visualization이라는 분석 및 디버깅 도구를 도입했습니다. 이 도구는 모델이 중간 단계에서 최종 출력을 어떻게 예측하는지를 보여줍니다. DT-Visualization을 통해 우리는 생성 아티팩트와 불일치를 식별하고, 초기 확산 타임스텝이 출력 다양성을 불균형적으로 결정하는 반면, 후속 단계는 주로 세부 사항을 정제한다는 것을 입증했습니다. 이러한 통찰을 바탕으로, 우리는 다양성 증류를 소개합니다. 이는 효율적인 증류 모델로 전환하기 전에 첫 번째 중요한 타임스텝에만 기본 모델을 전략적으로 사용하는 하이브리드 추론 접근법입니다. 우리의 실험은 이 간단한 수정이 기본 모델의 다양성 능력을 증류된 모델로 복원할 뿐만 아니라, 놀랍게도 이를 초과하는 동시에 증류된 추론의 계산 효율성을 거의 유지할 수 있음을 보여줍니다. 이 모든 것은 추가적인 학습이나 모델 수정 없이 이루어집니다. 우리의 코드와 데이터는 https://distillation.baulab.info에서 확인할 수 있습니다.
최근 비디오 생성 기술의 발전으로 확장 가능한 디퓨전 트랜스포머를 사용하여 사실적이고 1분 길이의 단일 샷 비디오를 생성할 수 있게 되었습니다. 그러나 실제 세계의 내러티브 비디오는 시각적 및 동적 일관성을 유지하며 여러 샷으로 구성된 장면이 필요합니다. 본 연구에서는 사전 훈련된 단일 샷 비디오 디퓨전 모델의 컨텍스트 윈도우를 확장하여 장면 수준의 일관성을 데이터로부터 직접 학습하는 Long Context Tuning(LCT) 훈련 패러다임을 소개합니다. 우리의 방법은 개별 샷에 대한 전체 주의 메커니즘을 확장하여 장면 내 모든 샷을 포함하도록 하고, 인터리브된 3D 위치 임베딩과 비동기 노이즈 전략을 통합하여 추가 매개변수 없이 공동 및 자동 회귀 샷 생성을 가능하게 합니다. LCT 이후 양방향 주의 메커니즘을 갖춘 모델은 컨텍스트-인과적 주의를 통해 추가로 미세 조정될 수 있으며, 효율적인 KV 캐시를 사용한 자동 회귀 생성을 용이하게 합니다. 실험 결과, LCT 이후의 단일 샷 모델이 일관된 다중 샷 장면을 생성할 수 있고, 구성적 생성 및 인터랙티브 샷 확장과 같은 새로운 기능을 보여주어 보다 실용적인 시각적 콘텐츠 제작의 길을 열어줍니다. 자세한 내용은 https://guoyww.github.io/projects/long-context-video/를 참조하십시오.
더 대규모의 머신러닝 모델로 확장함에 따라, 데이터 병렬 접근 방식에 내재된 빈번한 동기화 요구는 상당한 속도 저하를 초래하며, 추가적인 확장에 있어 중요한 과제로 대두됩니다. 최근 연구에서는 모델 품질을 저하시키지 않으면서 동기화 요구를 완화하는 접근 방식(DiLoCo)을 개발했습니다. 그러나 이러한 연구들은 DiLoCo의 동작이 모델 크기에 따라 어떻게 변화하는지를 면밀히 분석하지 않았습니다. 본 연구에서는 고정된 컴퓨팅 예산 하에서 대규모 언어 모델(LLM)을 훈련할 때 DiLoCo의 스케일링 법칙 행동을 연구합니다. 우리는 모델 복제본 수, 하이퍼파라미터, 토큰 예산을 포함한 알고리즘적 요소들이 스케일링 법칙을 통해 정확히 예측 가능한 방식으로 훈련에 미치는 영향에 초점을 맞춥니다. 우리는 DiLoCo가 모델 크기에 따라 예측 가능하고 견고하게 확장됨을 발견했습니다. 잘 조정된 경우, DiLoCo는 데이터 병렬 훈련보다 모델 크기에 따라 더 나은 확장성을 보이며, 작은 모델 크기에서도 데이터 병렬 훈련을 능가할 수 있습니다. 우리의 결과는 이전에 문서화된 것보다 더 일반적인 DiLoCo의 이점을 보여주는데, 이는 증가된 최적 배치 크기, 규모에 따른 개선된 다운스트림 일반화, 그리고 고정된 토큰 예산에 대한 개선된 평가 손실을 포함합니다.
딥 생성 모델, 특히 디퓨전 모델의 등장으로 비디오 생성 분야는 눈부신 발전을 이루었습니다. 기존 방법들은 텍스트 프롬프트나 단일 이미지에서 고품질 비디오를 생성하는 데 뛰어난 성과를 보여주었지만, 개인화된 다중 주체 비디오 생성은 여전히 크게 탐구되지 않은 과제로 남아 있습니다. 이 작업은 각각 별도의 참조 이미지로 정의된 여러 개의 독립적인 주체를 포함하면서도 시간적 및 공간적 일관성을 유지하는 비디오를 합성하는 것을 포함합니다. 현재의 접근 방식은 주로 주체 이미지를 텍스트 프롬프트의 키워드에 매핑하는 데 의존하고 있어 모호성을 초래하고 주체 간 관계를 효과적으로 모델링하는 데 한계가 있습니다. 본 논문에서는 멀티모달 대형 언어 모델(MLLM)을 활용하여 일관된 다중 주체 비디오 생성을 위한 새로운 프레임워크인 CINEMA를 제안합니다. 우리의 접근 방식은 주체 이미지와 텍스트 엔티티 간의 명시적인 대응 관계를 필요로 하지 않아 모호성을 완화하고 주석 작업을 줄입니다. MLLM을 활용하여 주체 간 관계를 해석함으로써, 우리의 방법은 확장성을 촉진하여 대규모 및 다양한 데이터셋을 훈련에 사용할 수 있게 합니다. 또한, 우리의 프레임워크는 다양한 수의 주체에 따라 조건화될 수 있어 개인화된 콘텐츠 생성에 더 큰 유연성을 제공합니다. 광범위한 평가를 통해, 우리의 접근 방식이 주체 일관성과 전반적인 비디오 일관성을 크게 개선함을 입증하며, 스토리텔링, 인터랙티브 미디어, 개인화된 비디오 생성과 같은 고급 응용 분야로의 길을 열어줍니다.
본 논문은 텍스트-이미지 모델을 제로샷 설정에서 활용하여 분류학 개념에 대한 이미지를 생성하는 가능성을 탐구한다. 분류학 확장을 위한 텍스트 기반 방법은 잘 정립되어 있지만, 시각적 차원의 잠재력은 아직 탐구되지 않았다. 이를 해결하기 위해, 우리는 분류학 개념을 이해하고 관련성 높은 고품질 이미지를 생성하는 모델의 능력을 평가하는 '분류학 이미지 생성'을 위한 포괄적인 벤치마크를 제안한다. 이 벤치마크는 상식적 개념과 무작위로 샘플링된 WordNet 개념, 그리고 대형 언어 모델(LLM)이 생성한 예측을 포함한다. 12개의 모델은 9개의 새로운 분류학 관련 텍스트-이미지 메트릭과 인간 피드백을 통해 평가된다. 또한, 우리는 GPT-4 피드백을 활용한 이미지 생성에 대한 페어와이즈 평가를 최초로 시도한다. 실험 결과는 모델의 순위가 표준 T2I 작업과 크게 다르다는 것을 보여준다. Playground-v2와 FLUX는 다양한 메트릭과 하위 집단에서 일관되게 우수한 성능을 보였으며, 검색 기반 접근법은 낮은 성능을 보였다. 이러한 발견은 구조화된 데이터 리소스의 자동화된 큐레이션 가능성을 강조한다.
비전 언어 모델(VLMs)은 이미지/비디오 생성, 시각적 질문 응답, 멀티모달 챗봇, 비디오 이해 등 다양한 다운스트림 작업에서 상당한 잠재력을 보여주었습니다. 그러나 이러한 모델들은 기본적인 이미지 변환 작업에서 종종 어려움을 겪습니다. 본 논문은 OpenAI의 CLIP와 Google의 SigLIP를 중심으로 VLMs의 이미지 수준 이해 능력을 조사합니다. 우리의 연구 결과에 따르면, 이러한 모델들은 다중 이미지 수준 증강 작업을 이해하지 못하는 것으로 나타났습니다. 이 연구를 위해 우리는 Flickr8k 데이터셋의 증강 버전을 생성하여 각 이미지에 적용된 변환에 대한 상세 설명을 추가했습니다. 또한 이러한 결함이 이미지 편집과 같은 다운스트림 작업에 미치는 영향을 탐구하고, 최신 Image2Image 모델들의 단순 변환 작업에 대한 성능을 평가했습니다.
스타일 전환은 참조 이미지의 스타일을 대상 이미지의 콘텐츠에 전달하는 과정을 포함합니다. 최근 LoRA(Low-Rank Adaptation) 기반 방법의 발전은 단일 이미지의 스타일을 효과적으로 포착하는 데 유망한 결과를 보여주었습니다. 그러나 이러한 접근법들은 여전히 콘텐츠 불일치, 스타일 정렬 오류, 콘텐츠 누출과 같은 중요한 문제에 직면해 있습니다. 본 논문에서는 스타일 전환 맥락에서 노이즈를 예측하도록 학습하는 표준 확산 파라미터화의 한계를 포괄적으로 분석합니다. 이러한 문제를 해결하기 위해, 우리는 LoRA 가중치를 최적화하여 노이즈가 아닌 원본 이미지를 예측하도록 함으로써 콘텐츠와 스타일 일관성을 모두 강화하는 LoRA 기반 방법인 ConsisLoRA를 소개합니다. 또한, 참조 이미지로부터 콘텐츠와 스타일 학습을 분리하는 두 단계의 학습 전략을 제안합니다. 콘텐츠 이미지의 전역적 구조와 지역적 세부 사항을 효과적으로 포착하기 위해, 단계적 손실 전환 전략을 도입합니다. 더불어, 추론 과정에서 콘텐츠와 스타일 강도를 연속적으로 제어할 수 있는 추론 가이던스 방법을 제시합니다. 정성적 및 정량적 평가를 통해, 우리의 방법은 콘텐츠와 스타일 일관성을 크게 개선하면서 콘텐츠 누출을 효과적으로 줄이는 것을 입증합니다.
우리는 ARPG라는 새로운 시각적 자기회귀 모델을 소개합니다. 이 모델은 기존의 래스터 순서 접근법의 본질적인 한계를 해결하여 무작위 병렬 생성을 가능하게 합니다. 기존 방식은 순차적이고 미리 정의된 토큰 생성 순서로 인해 추론 효율성과 제로샷 일반화를 저해했습니다. 우리의 핵심 통찰은 효과적인 무작위 순서 모델링이 다음에 예측할 토큰의 위치를 결정하기 위한 명시적 지침을 필요로 한다는 것입니다. 이를 위해, 우리는 위치 지침과 내용 표현을 분리하여 각각 쿼리와 키-값 쌍으로 인코딩하는 새로운 가이드 디코딩 프레임워크를 제안합니다. 이 지침을 인과적 주의 메커니즘에 직접 통합함으로써, 우리의 접근 방식은 양방향 주의가 필요 없는 완전한 무작위 순서 학습과 생성을 가능하게 합니다. 결과적으로, ARPG는 이미지 인페인팅, 아웃페인팅, 해상도 확장과 같은 제로샷 작업에 쉽게 일반화됩니다. 또한, 공유 KV 캐시를 사용하여 여러 쿼리를 동시에 처리함으로써 병렬 추론을 지원합니다. ImageNet-1K 256 벤치마크에서, 우리의 접근 방식은 단 64개의 샘플링 단계로 FID 1.94를 달성하며, 유사한 규모의 최근 대표적인 자기회귀 모델과 비교하여 처리량을 20배 이상 증가시키고 메모리 소비를 75% 이상 줄였습니다.
고급 생성 모델은 이미지 합성에 뛰어나지만 주로 텍스트 기반 조건화에 의존합니다. 그러나 시각 디자이너들은 종종 언어를 넘어서 기존의 시각적 요소에서 직접 영감을 얻어 작업합니다. 많은 경우, 이러한 요소들은 잠재적인 개념의 일부만을 나타내며, 예를 들어 독특한 구조의 날개나 특정한 헤어스타일과 같은 요소들이 예술가에게 창의적으로 조합되어 일관된 전체를 형성할 수 있는 영감을 제공합니다. 이러한 필요를 인식하여, 우리는 사용자가 제공한 시각적 구성 요소의 일부를 원활하게 통합하면서도 그럴듯하고 완전한 개념을 생성하기 위해 필요한 누락된 부분을 동시에 샘플링하는 생성 프레임워크를 소개합니다. 우리의 접근 방식은 IP-Adapter+에서 추출된 강력하고 충분히 탐구되지 않은 표현 공간을 기반으로 하며, 이를 통해 도메인 특화된 사전 정보를 기반으로 일관된 구성을 합성하는 경량의 플로우 매칭 모델인 IP-Prior를 학습합니다. 이는 다양하고 문맥을 고려한 생성을 가능하게 합니다. 또한, 우리는 주어진 작업에서 IP-Adapter+의 프롬프트 준수도를 크게 향상시키는 LoRA 기반의 미세 조정 전략을 제시하며, 이는 재구성 품질과 프롬프트 준수도 사이의 일반적인 트레이드오프를 해결합니다.
비전 트랜스포머(Vision Transformer) 모델은 엄청난 성능을 보이지만 인간의 이해를 넘어서는 불투명성을 가지고 있어 실용적인 응용에 있어 도전과 위험을 안고 있습니다. 기존 연구에서는 입력 속성 분석과 뉴런 역할 분석을 통해 이러한 모델을 해석하려는 시도가 있었지만, 계층 수준의 정보와 계층 간 정보 흐름의 전체적인 경로를 고려하는 데에는 상당한 공백이 있었습니다. 본 논문에서는 비전 트랜스포머 내에서 가장 중요한 영향을 미치는 뉴런 경로, 즉 모델 입력부터 출력까지 모델 추론에 가장 큰 영향을 미치는 뉴런들의 경로를 연구합니다. 먼저, 우리는 모델 결과에 대한 일련의 뉴런들의 기여도를 평가하기 위한 공동 영향력 측정 방법을 제안합니다. 그리고 대상 모델 내에서 입력부터 출력까지의 중요한 뉴런 경로를 발견하기 위해 각 계층에서 가장 영향력 있는 뉴런을 효율적으로 선택하는 계층별 점진적 뉴런 위치 지정 방법을 추가로 제시합니다. 우리의 실험은 정보가 흐르는 가장 영향력 있는 뉴런 경로를 찾는 데 있어 기존의 베이스라인 솔루션보다 우리의 방법이 우수함을 입증합니다. 또한, 뉴런 경로는 비전 트랜스포머가 동일한 이미지 카테고리 내에서 시각 정보를 처리하기 위한 특정한 내부 작동 메커니즘을 가지고 있음을 보여줍니다. 우리는 이미지 분류 작업에서 이러한 뉴런들의 주요 효과를 추가로 분석하며, 발견된 뉴런 경로가 이미 하위 작업에서의 모델 능력을 보존하고 있음을 보여줍니다. 이는 모델 가지치기와 같은 실제 응용에도 유용한 통찰을 제공할 수 있습니다. 구현 코드를 포함한 프로젝트 웹사이트는 https://foundation-model-research.github.io/NeuronPath/에서 확인할 수 있습니다.
본 논문에서는 범용 제로샷 목표 지향 내비게이션을 위한 일반적인 프레임워크를 제안한다. 기존의 제로샷 방법들은 특정 작업을 위해 대형 언어 모델(LLM)을 기반으로 추론 프레임워크를 구축하지만, 이는 전체 파이프라인이 크게 다르며 다양한 유형의 목표에 일반화되지 못한다. 범용 제로샷 내비게이션을 목표로, 우리는 객체 카테고리, 인스턴스 이미지, 텍스트 설명 등 다양한 목표를 통합하기 위한 균일한 그래프 표현을 제안한다. 또한 에이전트의 관찰을 온라인으로 유지되는 장면 그래프로 변환한다. 이러한 일관된 장면 및 목표 표현을 통해 순수 텍스트와 비교하여 대부분의 구조적 정보를 보존하고, LLM을 활용하여 명시적인 그래프 기반 추론을 수행할 수 있다. 구체적으로, 각 시간 단위에서 장면 그래프와 목표 그래프 간의 그래프 매칭을 수행하고, 다양한 매칭 상태에 따라 탐색의 장기 목표를 생성하기 위한 전략을 제안한다. 에이전트는 제로 매칭 시 목표의 서브그래프를 반복적으로 탐색한다. 부분 매칭 시에는 좌표 투영 및 앵커 쌍 정렬을 활용하여 목표 위치를 추론한다. 마지막으로 완벽한 매칭을 위해 장면 그래프 보정 및 목표 검증이 적용된다. 또한 단계 간의 견고한 전환을 가능하게 하는 블랙리스트 메커니즘을 제시한다. 여러 벤치마크에서의 광범위한 실험을 통해 우리의 UniGoal이 단일 모델로 세 가지 연구된 내비게이션 작업에서 최첨단 제로샷 성능을 달성하며, 작업별 제로샷 방법과 지도 학습 범용 방법을 능가함을 보여준다.
자동 음성 인식(ASR) 모델은 자막 생성, 음성 번역, 실시간 필기와 같은 응용 분야에서 두각을 나타내고 있다. 본 논문은 Whisper와 두 가지 모델 변형을 연구한다: 하나는 실시간 음성 스트리밍에 최적화되었고, 다른 하나는 오프라인 필기를 위해 설계되었다. 특히, 이러한 모델들은 환각적 내용을 생성하여 필기의 신뢰성을 저하시키는 것으로 나타났다. 또한, 더 큰 모델 변형은 지연 시간이 증가하며, 자원이 제한된 장치에 배포하기 어려운 문제를 야기한다. 본 연구는 세 가지 Whisper 모델 간의 유사점과 차이점을 분석하고, 각 모델의 고유한 능력을 정성적으로 검토한다. 다음으로, 모델 양자화가 지연 시간에 미치는 영향을 정량화하고, 이를 에지 디바이스 배포에 활용할 수 있는지 평가한다. 오픈 소스 LibriSpeech 데이터셋을 사용하여, 본 논문은 3가지 양자화 방법(INT4, INT5, INT8)을 적용한 whispercpp의 단어 오류율(WER)과 지연 시간 분석을 평가한다. 결과는 양자화가 지연 시간을 19% 줄이고 모델 크기를 45% 감소시키면서도 필기 정확도를 유지함을 보여준다. 이러한 결과는 다양한 Whisper 모델의 최적 사용 사례와 에지 디바이스 배포 가능성에 대한 통찰을 제공한다. 모든 코드, 데이터셋 및 구현 세부 사항은 공개 GitHub 저장소에서 확인할 수 있다: https://github.com/allisonandreyev/WhisperQuantization.git
대형 언어 모델(LLMs)은 부모 주도의 도입, 학교, 또래 네트워크를 통해 어린이들의 삶에 빠르게 침투하고 있지만, 현재의 AI 윤리 및 안전 연구는 미성년자에게 특화된 콘텐츠 관련 위험을 충분히 다루지 못하고 있습니다. 본 논문에서는 중학교 환경에 배포된 LLM 기반 챗봇의 실제 사례 연구를 통해 이러한 격차를 부각시키고, 학생들이 시스템을 사용하고 때로는 오용하는 방식을 밝혀냅니다. 이러한 연구 결과를 바탕으로, 우리는 미성년자를 위한 콘텐츠 기반 위험의 새로운 분류 체계를 제안하고, 어린이의 안전하지 않거나 부적절한 질문을 거부하는 LLM의 능력을 평가하기 위해 설계된 오픈소스 벤치마크인 MinorBench를 소개합니다. 우리는 다양한 시스템 프롬프트 하에서 6개의 주요 LLM을 평가하여, 이들이 아동 안전 준수 측면에서 상당한 변동성을 보임을 입증합니다. 연구 결과는 더 강력하고 아동 중심의 안전 메커니즘을 위한 실질적인 단계를 제시하며, 젊은 사용자를 보호하기 위해 AI 시스템을 맞춤화하는 것이 시급함을 강조합니다.
오픈소스 대형 시각-언어 모델(LVLM)에서 유망한 성능을 보였음에도 불구하고, 전이 기반의 표적 공격은 블랙박스 상용 LVLM에 대해 종종 실패합니다. 실패한 적대적 섭동을 분석해 보면, 학습된 섭동은 일반적으로 균일한 분포에서 비롯되며 명확한 의미론적 세부 사항이 부족하여 의도하지 않은 응답을 초래합니다. 이러한 의미론적 정보의 심각한 부재는 상용 LVLM이 섭동을 완전히 무시하거나 내포된 의미를 잘못 해석하게 하여 공격이 실패하게 만듭니다. 이러한 문제를 극복하기 위해, 우리는 다양한 데이터셋과 방법론으로 훈련된 모델의 핵심 목표가 핵심 의미론적 객체를 식별하는 것임을 주목했습니다. 이러한 통찰은 우리의 접근 방식을 동기부여하며, 지역적 영역 내에 명시적인 의미론적 세부 사항을 인코딩하여 상호 운용성을 보장하고 더 세밀한 특징을 포착하며, 균일하게 적용하는 대신 의미론적으로 풍부한 영역에 수정을 집중함으로써 의미론적 명확성을 개선합니다. 이를 달성하기 위해, 우리는 각 최적화 단계에서 적대적 이미지를 제어된 종횡비와 스케일로 무작위로 자르고, 크기를 조정한 후 타겟 이미지와 임베딩 공간에서 정렬하는 간단하지만 매우 효과적인 솔루션을 제안합니다. 실험 결과는 우리의 가설을 확인합니다. 핵심 영역에 집중된 지역적 집계 섭동으로 제작된 우리의 적대적 예제는 GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, 그리고 심지어 o1, Claude-3.7-thinking, Gemini-2.0-flash-thinking과 같은 추론 모델을 포함한 상용 LVLM에 놀라운 전이성을 보입니다. 우리의 접근 방식은 GPT-4.5, 4o, o1에서 90%를 초과하는 성공률을 달성하며, 모든 기존의 최첨단 공격 방법을 크게 능가합니다. 다양한 구성과 훈련 코드에 따른 우리의 최적화된 적대적 예제는 https://github.com/VILA-Lab/M-Attack에서 확인할 수 있습니다.
객체 환각(Object Hallucination, OH)은 대형 시각-언어 모델(Large Vision-Language Models, LVLMs)의 주요 신뢰성 문제 중 하나로 인식되어 왔습니다. 최근 대형 언어 모델(Large Language Models, LLMs)의 발전은 은닉 상태(hidden states)와 같은 내부 상태가 생성된 응답의 "전반적인 진실성"을 인코딩한다는 것을 보여주었습니다. 그러나 LVLMs의 내부 상태가 어떻게 작동하며, 이들이 "토큰 단위" 환각 지표로 활용될 수 있는지에 대한 연구는 아직 미흡한 상황입니다. 이러한 연구는 OH를 완화하는 데 필수적입니다. 본 논문에서는 먼저 LVLM의 내부 상태와 OH 문제 간의 관계를 심층적으로 탐구하고, (1) LVLM 내부 상태가 환각 행동에 대한 고도의 특이성을 지닌 토큰 단위 지표임을 발견했습니다. 또한, (2) 다양한 LVLMs가 공통의 잠재 부분 공간(latent subspaces)에서 환각의 보편적인 패턴을 인코딩한다는 사실을 확인했으며, 이는 다양한 LVLMs 간에 공유되는 "일반적인 진실 방향(generic truthful directions)"이 존재함을 시사합니다. 이러한 발견을 바탕으로, 우리는 LVLM 디코딩의 진실 방향을 먼저 학습한 후, LVLM 디코딩 과정에서 진실성 기반 추론 시점 개입(truthful-guided inference-time intervention)을 적용하는 Truthful-Guided Pre-Intervention(TruthPrInt)을 제안합니다. 또한, 환각 잠재 부분 공간을 구성하고 정렬함으로써 LVLM 간 및 데이터 간 환각 탐지 전이성을 강화하는 ComnHallu를 제안합니다. 우리는 TruthPrInt를 다양한 실험 설정에서 평가하였으며, 이는 인-도메인 및 아웃-오브-도메인 시나리오를 포함한 인기 있는 LVLMs와 OH 벤치마크에서 최신 방법들을 크게 능가하는 성능을 보여주었습니다. 코드는 https://github.com/jinhaoduan/TruthPrInt에서 공개될 예정입니다.
버그 리포트 토론에서의 독성은 오픈소스 소프트웨어 개발의 협업 역학에 상당한 도전을 제기합니다. 버그 리포트는 결함을 식별하고 해결하는 데 필수적이지만, 그 자체가 문제 중심적이고 감정적으로 예민한 맥락을 가지고 있어 독성 상호작용에 취약합니다. 본 연구는 GitHub 버그 리포트에서의 독성을 203개의 버그 스레드(이 중 81개가 독성이 있는 스레드)에 대한 질적 분석을 통해 탐구합니다. 연구 결과, 독성은 종종 버그 심각도와 우선순위에 대한 인식 차이, 도구에 대한 해결되지 않은 좌절감, 그리고 전문적인 커뮤니케이션의 결여에서 비롯되는 것으로 나타났습니다. 이러한 독성 상호작용은 생산적인 토론을 방해할 뿐만 아니라, 이슈와 풀 리퀘스트를 연결하는 것과 같은 실행 가능한 결과물의 가능성을 줄입니다. 본 연구의 예비 결과는 독성을 완화하여 버그 해결을 개선하기 위한 실행 가능한 권장사항을 제시합니다.
미니배치 최적 수송 커플링은 무조건적 흐름 매칭에서 경로를 직선화합니다. 이는 테스트 시점에 상미분 방정식을 수치적으로 해결할 때 더 적은 수의 적분 단계와 덜 복잡한 수치 솔버를 사용할 수 있게 함으로써 계산적으로 덜 부담스러운 추론을 가능하게 합니다. 그러나 조건부 설정에서는 미니배치 최적 수송이 한계를 보입니다. 이는 기본 최적 수송 매핑이 조건을 무시하기 때문에 훈련 중에 조건적으로 치우친 사전 분포가 생성되기 때문입니다. 반면, 테스트 시점에는 치우친 사전 분포에 접근할 수 없고, 대신 완전하고 편향되지 않은 사전 분포에서 샘플링하게 됩니다. 이러한 훈련과 테스트 간의 차이는 성능 저하로 이어집니다. 이 차이를 해소하기 위해, 우리는 최적 수송 할당을 계산할 때 비용 행렬에 조건부 가중치 항을 추가하는 조건부 최적 수송(C^2OT)을 제안합니다. 실험 결과, 이 간단한 수정이 8gaussians-to-moons, CIFAR-10, ImageNet-32x32, ImageNet-256x256에서 이산적 및 연속적 조건 모두에서 효과적으로 작동함을 보여줍니다. 우리의 방법은 다양한 함수 평가 예산에 걸쳐 기존 베이스라인보다 전반적으로 더 나은 성능을 보입니다. 코드는 https://hkchengrex.github.io/C2OT에서 확인할 수 있습니다.
저희는 대역폭과 저장 공간이 제한된 애플리케이션을 위해 설계된 새로운 오픈 소스 초저비트레이트 지각 이미지 압축 시스템인 PerCoV2를 소개합니다. PerCoV2는 Careil 등의 선행 연구를 기반으로, 원래의 공식을 Stable Diffusion 3 생태계로 확장하고 이산 초잠재 이미지 분포를 명시적으로 모델링하여 엔트로피 코딩 효율을 향상시켰습니다. 이를 위해 최근의 자기회귀 방법(VAR 및 MaskGIT)을 엔트로피 모델링에 대해 포괄적으로 비교하고, 대규모 MSCOCO-30k 벤치마크에서 우리의 접근 방식을 평가했습니다. 이전 연구와 비교하여 PerCoV2는 (i) 더 낮은 비트레이트에서도 더 높은 이미지 충실도를 유지하면서 경쟁력 있는 지각 품질을 달성하고, (ii) 추가 비트레이트 절약을 위한 하이브리드 생성 모드를 제공하며, (iii) 전적으로 공개된 구성 요소로 구축되었습니다. 코드와 훈련된 모델은 https://github.com/Nikolai10/PerCoV2에서 공개될 예정입니다.
본 논문은 명시적인 포즈 추정 없이 2D 이미지를 관절 각도로 직접 매핑하기 위해 투영된 표현을 사용하는 로봇 손 제어를 위한 새로운 프레임워크인 PoseLess를 소개합니다. 우리의 접근 방식은 무작위 관절 구성으로 생성된 합성 학습 데이터를 활용하여, 실제 시나리오에 대한 제로샷 일반화와 로봇 손에서 인간 손으로의 교차 형태 전달을 가능하게 합니다. 시각적 입력을 투영하고 트랜스포머 기반 디코더를 사용함으로써, PoseLess는 깊이 모호성 및 데이터 부족과 같은 문제를 해결하면서도 견고하고 낮은 지연 시간의 제어를 달성합니다. 실험 결과는 인간이 라벨링한 데이터셋에 의존하지 않으면서도 관절 각도 예측 정확도에서 경쟁력 있는 성능을 보여줍니다.
분류자 없는 가이던스(classifier-free guidance)는 노이즈 제거 확산 모델(denoising diffusion models)을 사용한 조건부 생성에서 필수적인 요소가 되었습니다. 그러나 분류자 없는 가이던스에 대한 포괄적인 이해는 아직 부족한 상태입니다. 본 연구에서는 분류자 없는 가이던스에 대한 새로운 관점을 제공하기 위해 실증적 연구를 수행합니다. 구체적으로, 분류자 없는 가이던스에만 초점을 맞추는 대신, 그 근원인 분류자 가이던스(classifier guidance)로 거슬러 올라가, 그 유도 과정의 핵심 가정을 명확히 하고, 분류자의 역할을 이해하기 위한 체계적인 연구를 진행합니다. 우리는 분류자 가이던스와 분류자 없는 가이던스 모두가 조건부 정보가 일반적으로 얽혀 있고 학습하기 어려운 영역인 결정 경계(decision boundaries)로부터 노이즈 제거 확산 궤적을 밀어내는 방식으로 조건부 생성을 달성한다는 사실을 발견했습니다. 이러한 분류자 중심의 이해를 바탕으로, 우리는 사전 학습된 노이즈 제거 확산 모델의 학습된 분포와 실제 데이터 분포 사이의 격차, 특히 결정 경계 주변에서의 격차를 줄이기 위해 흐름 매칭(flow-matching)을 기반으로 한 일반적인 후처리 단계를 제안합니다. 다양한 데이터셋에서의 실험을 통해 제안된 접근법의 효과를 검증합니다.