번역이 포함된 일일 선별된 AI 연구 논문
초해상도(Super-Resolution, SR)를 위한 확산 모델(Diffusion Models)은 고품질의 시각적 결과를 생성하지만 높은 계산 비용을 요구합니다. 확산 기반 SR 모델의 속도를 높이기 위한 여러 방법이 개발되었음에도 불구하고, 일부 방법(예: SinSR)은 현실적인 지각적 디테일을 생성하지 못하는 반면, 다른 방법(예: OSEDiff)은 존재하지 않는 구조를 허구적으로 생성할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 최고 수준의 확산 기반 SR 모델 중 하나인 ResShift를 위한 새로운 지식 증류(Distillation) 방법인 RSD를 제안합니다. 우리의 방법은 학생 네트워크가 새로운 가짜 ResShift 모델이 그 위에서 학습될 때 교사 모델과 일치하는 이미지를 생성하도록 훈련하는 것을 기반으로 합니다. RSD는 단일 단계 복원을 달성하며 교사 모델을 크게 능가합니다. 우리의 지식 증류 방법이 ResShift를 위한 다른 지식 증류 기반 방법인 SinSR를 능가하여 최신 확산 기반 SR 지식 증류 방법과 동등한 수준임을 보여줍니다. 사전 훈련된 텍스트-이미지 모델 기반의 SR 방법과 비교했을 때, RSD는 경쟁력 있는 지각적 품질을 제공하며, 저하된 입력 이미지와 더 잘 정렬된 이미지를 생성하고, 더 적은 매개변수와 GPU 메모리를 요구합니다. 우리는 RealSR, RealSet65, DRealSR, ImageNet, DIV2K를 포함한 다양한 실제 및 합성 데이터셋에 대한 실험 결과를 제공합니다.
LLM 기반 에이전트의 등장은 AI 분야에서 패러다임 전환을 의미하며, 동적 환경과 상호작용하면서 계획 수립, 추론, 도구 사용, 메모리 유지 등이 가능한 자율 시스템을 가능하게 합니다. 본 논문은 이러한 점점 더 강력해지는 에이전트들을 평가하기 위한 방법론에 대한 첫 번째 포괄적인 조사를 제공합니다. 우리는 평가 벤치마크와 프레임워크를 네 가지 핵심 차원에서 체계적으로 분석합니다: (1) 계획, 도구 사용, 자기 반성, 메모리를 포함한 기본적인 에이전트 능력; (2) 웹, 소프트웨어 엔지니어링, 과학, 대화형 에이전트를 위한 응용 특화 벤치마크; (3) 일반 목적 에이전트를 위한 벤치마크; (4) 에이전트 평가를 위한 프레임워크. 우리의 분석은 지속적으로 업데이트되는 벤치마크를 통해 더 현실적이고 도전적인 평가로의 전환을 포함한 새로운 트렌드를 밝혀냅니다. 또한, 비용 효율성, 안전성, 견고성 평가와 세분화된 확장 가능한 평가 방법 개발 등 미래 연구가 해결해야 할 중요한 격차를 식별합니다. 이 조사는 빠르게 진화하는 에이전트 평가의 지형을 매핑하고, 해당 분야의 새로운 트렌드를 밝히며, 현재의 한계를 지적하고 미래 연구 방향을 제안합니다.
대형 언어 모델(LLMs)은 복잡한 작업에서 놀라운 능력을 보여주고 있습니다. 최근 OpenAI o1과 DeepSeek-R1과 같은 대형 추론 모델(LRMs)의 발전은 지도 미세 조정(SFT)과 강화 학습(RL) 기법을 활용하여 수학 및 프로그래밍과 같은 System-2 추론 영역에서의 성능을 더욱 향상시켰습니다. 그러나 더 긴 사고 연쇄(CoT) 추론 시퀀스는 성능을 개선시키는 동시에, 장황하고 중복된 출력으로 인해 상당한 계산 오버헤드를 초래하는 "과도 사고 현상(overthinking phenomenon)"을 야기합니다. 본 논문에서는 LLMs에서 효율적인 추론을 달성하기 위한 현재의 진척을 체계적으로 조사하고 탐구하는 첫 번째 구조화된 조사를 제공합니다. 전반적으로, LLMs의 내재적 메커니즘에 의존하여 기존 연구를 몇 가지 주요 방향으로 분류합니다: (1) 모델 기반 효율적 추론, 이는 전체 길이 추론 모델을 더 간결한 추론 모델로 최적화하거나 직접 효율적 추론 모델을 훈련하는 것을 고려합니다; (2) 추론 출력 기반 효율적 추론, 이는 추론 단계와 길이를 동적으로 줄이는 것을 목표로 합니다; (3) 입력 프롬프트 기반 효율적 추론, 이는 입력 프롬프트의 난이도나 길이 제어와 같은 속성을 기반으로 추론 효율성을 향상시키려고 합니다. 또한, 추론 모델 훈련을 위한 효율적 데이터 사용을 소개하고, 소형 언어 모델의 추론 능력을 탐구하며, 평가 방법과 벤치마킹에 대해 논의합니다.
본 연구는 대규모 언어 모델(LLM)이 출력물에서 표현하는 것보다 더 많은 사실적 지식을 매개변수에 내재하고 있는지를 평가하기 위한 프레임워크를 제시한다. 몇몇 연구에서 이러한 가능성을 암시하고 있지만, 이를 명확히 정의하거나 입증한 연구는 아직 없다. 우리는 먼저 주어진 질문에 대해 지식을 정량화하는 공식적 정의를 제안한다. 이는 정답과 오답 쌍 중에서 정답이 더 높은 순위에 오르는 비율로 지식을 측정한다. 이를 통해 개별 답변 후보를 평가하는 데 사용되는 정보에 따라 외부 지식과 내부 지식이 구분된다: 외부 지식은 모델의 관측 가능한 토큰 수준 확률을 사용하고, 내부 지식은 모델의 중간 계산 결과를 사용한다. 내부 지식이 외부 지식을 초과할 때, 이는 숨겨진 지식으로 간주된다. 이어서, 우리는 이 프레임워크를 세 가지 인기 있는 오픈 웨이트 LLM에 적용하여 폐쇄형 질의응답(closed-book QA) 설정에서 사례 연구를 진행한다. 연구 결과는 다음과 같다: (1) LLM은 외부적으로 표현하는 것보다 내부적으로 더 많은 사실적 지식을 일관되게 내재하고 있으며, 평균적으로 40%의 격차가 존재한다. (2) 놀랍게도, 일부 지식은 너무 깊이 숨겨져 있어 모델이 내부적으로는 답을 완벽히 알고 있음에도 불구하고, 1,000번의 대규모 반복 샘플링을 통해 답을 생성하지 못하는 경우가 있다. 이는 LLM의 생성 능력에 근본적인 한계가 있음을 보여준다. (3) 이는 폐쇄형 질의응답에서 반복적인 답변 샘플링을 통해 테스트 시 계산 자원을 확장하는 데 실질적인 제약을 가한다: 일부 답변은 실질적으로 샘플링되지 않기 때문에 상당한 성능 개선이 불가능하지만, 만약 샘플링된다면 우리는 이를 반드시 최상위로 평가할 수 있다.
대규모 언어 모델(LLM)의 추론 능력을 향상시키는 것은 일반적으로 방대한 컴퓨팅 자원과 광범위한 데이터셋에 의존하며, 이는 자원이 제한된 환경에서의 접근성을 제한합니다. 본 연구는 강화 학습(RL)을 활용하여 소규모 LLM의 추론 능력을 개선할 가능성을 탐구하며, 특히 1.5억 개의 파라미터를 가진 모델인 DeepSeek-R1-Distill-Qwen-1.5B를 엄격한 제약 조건(4개의 NVIDIA A40 GPU, 각각 48GB VRAM, 24시간 이내 훈련) 하에서 분석합니다. Group Relative Policy Optimization(GRPO) 알고리즘을 적용하고, 간결하면서도 고품질의 수학적 추론 데이터셋을 구성하여 모델의 행동과 성능을 탐구하는 세 가지 실험을 수행했습니다. 그 결과, 단 7,000개의 샘플과 $42의 훈련 비용으로도 AMC23 정확도가 63%에서 80%로, AIME24는 46.7%로 향상되어 o1-preview를 능가하는 빠른 추론 능력 향상을 보였습니다. 이는 기존 모델의 수천 달러에 비해 매우 경제적인 대안입니다. 그러나 장기 훈련 시 최적화 불안정성과 길이 제약과 같은 문제가 발생했습니다. 이러한 결과는 소규모 LLM에 대한 RL 기반 미세 조정의 효용성을 강조하며, 대규모 접근 방식에 비해 비용 효율적인 대안을 제시합니다. 우리는 코드와 데이터셋을 오픈소스로 공개하여 트레이드오프에 대한 통찰을 제공하고, 자원이 제한된 환경에서도 확장 가능한 추론 능력을 갖춘 LLM의 기반을 마련했습니다. 모든 자료는 https://github.com/knoveleng/open-rs에서 확인할 수 있습니다.
물리적 AI 시스템은 물리적 세계를 인지하고 이해하며 복잡한 행동을 수행할 수 있어야 합니다. 본 논문에서는 물리적 세계를 이해하고 긴 사고 사슬 추론 과정을 통해 자연어로 적절한 구체화된 결정(예: 다음 단계 행동)을 생성할 수 있는 Cosmos-Reason1 모델을 제시합니다. 우리는 물리적 상식과 구체화된 추론에 초점을 맞춰 물리적 AI 추론을 위한 핵심 역량을 정의하는 것으로 시작합니다. 물리적 상식을 표현하기 위해 공간, 시간, 물리학에 대한 기본 지식을 포착하는 계층적 온톨로지를 사용합니다. 구체화된 추론을 위해 다양한 물리적 구현을 일반화하는 2차원 온톨로지를 활용합니다. 이러한 역량을 바탕으로 두 가지 멀티모달 대규모 언어 모델인 Cosmos-Reason1-8B와 Cosmos-Reason1-56B를 개발합니다. 우리는 데이터를 정제하고 모델을 네 단계로 학습시킵니다: 시각 사전 학습, 일반 지도 미세 조정(SFT), 물리적 AI SFT, 그리고 사후 학습으로서의 물리적 AI 강화 학습(RL). 모델을 평가하기 위해 우리의 온톨로지에 따라 물리적 상식과 구체화된 추론을 위한 포괄적인 벤치마크를 구축합니다. 평가 결과는 물리적 AI SFT와 강화 학습이 상당한 개선을 가져온다는 것을 보여줍니다. 물리적 AI 개발을 촉진하기 위해 우리는 코드와 사전 학습된 모델을 NVIDIA 오픈 모델 라이선스 하에 https://github.com/nvidia-cosmos/cosmos-reason1에서 공개할 예정입니다.
다중 에이전트 시스템(MAS)에 대한 열기가 높아지고 있음에도 불구하고, 여러 LLM 에이전트가 협력하여 작업을 수행하는 MAS의 성능 향상은 단일 에이전트 프레임워크에 비해 인기 벤치마크에서 미미한 수준에 머물고 있습니다. 이러한 격차는 MAS의 효과를 방해하는 도전 과제들을 분석할 필요성을 강조합니다. 이 논문에서 우리는 MAS의 도전 과제에 대한 첫 번째 포괄적인 연구를 제시합니다. 우리는 150개 이상의 작업에 걸쳐 5개의 인기 있는 MAS 프레임워크를 분석하고, 6명의 전문가 인간 주석자들을 포함시켰습니다. 우리는 14가지 고유한 실패 모드를 식별하고 다양한 MAS 프레임워크에 적용 가능한 포괄적인 분류 체계를 제안합니다. 이 분류 체계는 연구당 3명의 전문가 주석자들 간의 합의를 통해 반복적으로 도출되었으며, Cohen's Kappa 점수 0.88을 달성했습니다. 이러한 세분화된 실패 모드는 (i) 명세 및 시스템 설계 실패, (ii) 에이전트 간 불일치, (iii) 작업 검증 및 종료의 3가지 범주로 구성됩니다. 확장 가능한 평가를 지원하기 위해 우리는 MASFT를 LLM-as-a-Judge와 통합했습니다. 또한 우리는 식별된 실패들이 쉽게 예방될 수 있는지 탐구하기 위해 두 가지 개입 방안을 제안합니다: 에이전트 역할의 개선된 명세와 강화된 오케스트레이션 전략. 우리의 연구 결과는 식별된 실패들이 더 복잡한 해결책을 필요로 한다는 것을 보여주며, 미래 연구를 위한 명확한 로드맵을 제시합니다. 우리는 데이터셋과 LLM 주석자를 오픈소스로 공개합니다.
3D 형태 생성은 소위 "네이티브" 3D 디퓨전, 특히 Vecset Diffusion Model(VDM)의 발전을 통해 크게 번성해 왔습니다. 최근의 발전은 고해상도 3D 형태 생성에서 유망한 결과를 보여주고 있지만, VDM은 여전히 고속 생성에 어려움을 겪고 있습니다. 이러한 어려움은 디퓨전 샘플링 가속화뿐만 아니라 VDM의 VAE 디코딩에서도 발생하며, 이는 이전 연구에서 충분히 탐구되지 않은 분야입니다. 이러한 문제를 해결하기 위해, 우리는 VDM에서 VAE와 DiT를 모두 가속화하는 체계적인 프레임워크인 FlashVDM을 제시합니다. DiT의 경우, FlashVDM은 우리가 새롭게 도입한 Progressive Flow Distillation을 통해 일관성 증류를 안정화함으로써 단 5번의 추론 단계로도 유사한 품질의 유연한 디퓨전 샘플링을 가능하게 합니다. VAE의 경우, Adaptive KV Selection, Hierarchical Volume Decoding, Efficient Network Design을 갖춘 경량 Vecset 디코더를 소개합니다. Vecset의 지역성과 볼륨 내 형태 표면의 희소성을 활용함으로써, 우리의 디코더는 FLOPs를 크게 줄여 전체 디코딩 오버헤드를 최소화합니다. 우리는 FlashVDM을 Hunyuan3D-2에 적용하여 Hunyuan3D-2 Turbo를 얻었습니다. 체계적인 평가를 통해, 우리의 모델이 기존의 빠른 3D 생성 방법을 크게 능가하며, 최첨단 기술과 유사한 성능을 유지하면서 재구성 시간을 45배 이상, 생성 시간을 32배 이상 단축함을 보여줍니다. 코드와 모델은 https://github.com/Tencent/FlashVDM에서 확인할 수 있습니다.
우리는 확산 모델(Diffusion Models, DMs)을 위한 스케일별 지식 증류(scale-wise distillation, SwD) 프레임워크를 제안한다. 이 프레임워크는 확산 기반의 소수 스텝 생성기에서 다음 스케일 예측 아이디어를 효과적으로 활용한다. 보다 구체적으로, SwD는 최근 확산 과정과 암묵적 스펙트럼 자기회귀(implicit spectral autoregression) 간의 관계에 대한 통찰에서 영감을 받았다. 우리는 DMs가 더 낮은 데이터 해상도에서 생성 과정을 시작하고, 각 노이즈 제거 단계에서 샘플을 점진적으로 업스케일링하면서도 성능 저하 없이 계산 비용을 크게 줄일 수 있다고 가정한다. SwD는 이러한 아이디어를 기존의 분포 매칭(distribution matching) 기반 확산 증류 방법에 자연스럽게 통합한다. 또한, 우리는 대상 분포와 더 세밀한 유사성을 강제하는 새로운 패치 손실(patch loss)을 도입하여 분포 매칭 접근법의 범위를 확장한다. 최신 텍스트-이미지 확산 모델에 적용했을 때, SwD는 두 번의 전체 해상도 스텝에 해당하는 추론 시간에 근접하며, 동일한 계산 예산 하에서 경쟁 모델들을 크게 능가한다. 이는 자동화된 메트릭과 인간 선호도 연구를 통해 입증되었다.
최근, 오픈 월드 환경에서의 행동 기반 의사 결정이 상당한 주목을 받고 있습니다. 대규모 웹 데이터셋으로 사전 학습된 시각 언어 행동(Visual Language Action, VLA) 모델들은 의사 결정 작업에서 유망한 성과를 보여주었습니다. 그러나 기존 연구는 주로 사후 학습 단계의 행동에 초점을 맞추어, 기본 모델 자체의 개선을 소홀히 해왔습니다. 이에 대응하여, 우리는 시각 언어 모델(Visual Language Models, VLMs)을 시각적 및 언어적 지도를 통해 자기 지도 방식으로 개선하는 새로운 접근법인 "Act from Visual Language Post-Training"을 제안합니다. 이 개선은 모델의 세계 지식, 시각 인식, 그리고 오픈 월드 환경에서의 공간적 기반 능력을 향상시킵니다. 이러한 사후 학습 패러다임을 따라, 우리는 Minecraft에서 1,000개 이상의 다양한 원자적 작업(예: 제작, 용광로 작업, 요리, 채굴, 몬스터 처치 등)에 대해 인간의 지시를 따를 수 있는 최초의 VLA 모델을 얻었습니다. 우리의 실험은 비-궤적 작업에 대한 사후 학습이 다양한 원자적 작업에서 최고의 에이전트 기준선보다 40%의 상당한 성능 향상을 가져온다는 것을 보여줍니다. 더 나아가, 우리의 접근법이 Minecraft에서 전통적인 모방 학습 기반 정책을 능가하며 최첨단 성능을 달성한다는 것을 입증합니다. 우리는 코드, 모델, 데이터셋을 공개하여 추가 연구를 촉진하고자 합니다. 프로젝트 페이지는 https://craftjarvis.github.io/JarvisVLA에서 확인할 수 있습니다.
유연하고 고품질의 정체성 보존 이미지 생성은 특히 FLUX와 같은 고급 Diffusion Transformer(DiT)를 사용할 때 여전히 어려운 과제로 남아 있습니다. 우리는 이 작업을 위해 DiT를 활용한 초기 강력한 프레임워크 중 하나인 InfiniteYou(InfU)를 소개합니다. InfU는 기존 방법들의 주요 문제점인 부족한 정체성 유사성, 낮은 텍스트-이미지 정렬, 그리고 낮은 생성 품질과 미적 요소를 해결합니다. InfU의 핵심은 InfuseNet으로, 이는 잔차 연결을 통해 DiT 기본 모델에 정체성 특성을 주입하여 생성 능력을 유지하면서 정체성 유사성을 향상시킵니다. 합성된 단일 인물-다중 샘플(SPMS) 데이터를 사용한 사전 학습과 지도 미세 조정(SFT)을 포함한 다단계 학습 전략은 텍스트-이미지 정렬을 개선하고 이미지 품질을 향상시키며 얼굴 복사-붙여넣기 문제를 완화합니다. 광범위한 실험을 통해 InfU가 최신 기술을 능가하는 성능을 달성하며 기존 베이스라인을 뛰어넘는 것을 입증했습니다. 또한, InfU의 플러그 앤 플레이 설계는 다양한 기존 방법과의 호환성을 보장하여 더 넓은 커뮤니티에 가치 있는 기여를 제공합니다.
단일 이미지로부터 애니메이션 가능한 3D 인간 모델을 재구성하는 것은 기하학적 구조, 외관, 변형을 분리하는 데 있어 모호성으로 인해 어려운 문제입니다. 최근 3D 인간 재구성 분야의 발전은 주로 정적 인간 모델링에 초점을 맞추고 있으며, 합성 3D 스캔 데이터에 의존한 학습 방식은 일반화 능력을 제한합니다. 반면, 최적화 기반 비디오 방법은 더 높은 정확도를 달성하지만 제어된 촬영 조건과 계산 집약적인 정제 과정을 요구합니다. 효율적인 정적 재구성을 위한 대규모 재구성 모델의 등장에 영감을 받아, 우리는 LHM(Large Animatable Human Reconstruction Model)을 제안하여 피드포워드 방식으로 3D 가우시안 스플래팅으로 표현된 고정밀 아바타를 추론합니다. 우리의 모델은 멀티모달 트랜스포머 아키텍처를 활용하여 인간 신체의 위치 특성과 이미지 특성을 주의 메커니즘을 통해 효과적으로 인코딩함으로써 의복의 기하학적 구조와 텍스처를 상세하게 보존합니다. 또한, 얼굴 정체성 보존과 미세한 디테일 복원을 강화하기 위해, 우리는 머리 영역의 다중 스케일 특성을 집계하는 헤드 피라미드 인코딩 기법을 제안합니다. 광범위한 실험을 통해 우리의 LHM이 얼굴과 손에 대한 후처리 없이도 몇 초 내에 그럴듯한 애니메이션 가능한 인간 모델을 생성하며, 재구성 정확도와 일반화 능력 모두에서 기존 방법을 능가함을 입증했습니다.
추론 대형 언어 모델(LLM)은 다양한 분야에서 빠르게 진화하고 있습니다. 그러나 복잡한 금융 업무를 처리하는 데 있어서의 능력은 여전히 심도 있는 탐구가 필요합니다. 본 논문에서는 금융 분야를 위해 특별히 설계된 추론 대형 언어 모델인 Fin-R1을 소개합니다. Fin-R1은 DeepSeek-R1을 기반으로 정제 및 처리된 금융 추론 데이터셋을 활용하여 2단계 아키텍처로 구축되었습니다. 지도 미세 조정(SFT)과 강화 학습(RL) 훈련을 통해, Fin-R1은 70억 개의 파라미터 규모로 다양한 금융 추론 과제에서 DeepSeek-R1에 근접한 성능을 보여줍니다. 평가에서 FinQA와 ConvFinQA 과제에서 평가된 다른 LLM들 중 최신 기술 수준(SOTA)을 달성했으며, 다른 과제에서도 더 큰 모델들을 능가했습니다. Fin-R1은 강력한 추론 및 의사결정 능력을 보여주며, 금융 분야에서 직면하는 다양한 문제에 대한 해결책을 제공합니다. 저희 코드는 https://github.com/SUFE-AIFLM-Lab/Fin-R1에서 확인할 수 있습니다.
확산 모델(Diffusion models)은 다양한 이미지 생성 작업에서 뛰어난 성과를 보여왔지만, 다양한 조건과 노이즈 수준에 걸쳐 입력을 균일하게 처리함으로써 성능이 제한되는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 확산 과정의 본질적 이질성을 활용한 새로운 접근 방식을 제안합니다. 우리의 방법인 DiffMoE는 배치 수준의 글로벌 토큰 풀을 도입하여 전문가들이 훈련 중에 글로벌 토큰 분포에 접근할 수 있게 함으로써 전문가의 특수화된 행동을 촉진합니다. 확산 과정의 전체 잠재력을 발휘하기 위해, DiffMoE는 노이즈 수준과 샘플 복잡성에 따라 계산 자원을 동적으로 할당하는 용량 예측기(capacity predictor)를 통합합니다. 포괄적인 평가를 통해, DiffMoE는 ImageNet 벤치마크에서 확산 모델 중 최첨단 성능을 달성하며, 활성화된 매개변수가 3배인 조밀한 아키텍처와 기존의 MoE 접근 방식을 크게 능가하면서도 1배의 활성화된 매개변수를 유지합니다. 우리의 접근 방식의 효과는 클래스 조건부 생성을 넘어 텍스트-이미지 생성과 같은 더 도전적인 작업까지 확장되어, 다양한 확산 모델 애플리케이션에서의 광범위한 적용 가능성을 입증합니다. 프로젝트 페이지: https://shiml20.github.io/DiffMoE/
우리는 텍스트 설명으로부터 3D 세계를 생성하는 과제를 다룹니다. 우리는 사전 학습된 3D 생성 모델의 기하학적 정밀도와 2D 이미지 생성기의 예술적 다양성을 활용하여 대규모의 고품질 3D 공간을 생성하는 학습 및 최적화가 필요 없는 접근 방식인 SynCity를 제안합니다. 대부분의 3D 생성 모델은 객체 중심이며 대규모 세계를 생성할 수 없지만, 우리는 3D와 2D 생성기를 결합하여 끊임없이 확장되는 장면을 생성하는 방법을 보여줍니다. 타일 기반 접근 방식을 통해 장면의 레이아웃과 외관에 대한 세밀한 제어를 가능하게 합니다. 세계는 타일별로 생성되며, 각 새로운 타일은 해당 세계의 문맥 내에서 생성된 후 장면과 융합됩니다. SynCity는 세부 사항과 다양성이 풍부한 매력적이고 몰입감 있는 장면을 생성합니다.
비디오 대형 언어 모델(VideoLLMs)은 더 긴 비디오 입력을 처리하고 복잡한 추론 및 분석을 가능하게 하는 능력을 입증했습니다. 그러나 비디오 프레임에서 수천 개의 시각적 토큰이 생성되기 때문에 키-값(KV) 캐시는 메모리 요구 사항을 크게 증가시켜 추론 속도와 메모리 사용의 병목 현상이 될 수 있습니다. 이를 해결하기 위해 KV 캐시 양자화가 널리 사용되는 접근 방식입니다. 본 논문에서는 VideoLLMs의 2비트 KV 양자화가 모델 성능에 거의 영향을 미치지 않음을 발견했으며, 더 낮은 비트에서의 KV 캐시 양자화 한계는 아직 연구되지 않았습니다. 이 간극을 메우기 위해, 우리는 KV 캐시를 2비트 미만으로 압축하는 플러그 앤 플레이 KV 캐시 양자화 방법인 VidKV를 소개합니다. 구체적으로, (1) 키에 대해서는 채널 차원에서 혼합 정밀도 양자화 전략을 제안하며, 여기서 비정상 채널에 대해서는 2비트 양자화를 수행하고 정상 채널에 대해서는 1비트 양자화와 FFT를 결합합니다; (2) 값에 대해서는 1.58비트 양자화를 구현하면서 의미론적으로 중요한 시각적 토큰을 선택적으로 필터링하여 정밀도와 모델 성능 간의 더 나은 균형을 달성합니다. 중요한 것은, VideoLLMs의 값 캐시는 기존 LLMs용 KV 캐시 양자화 연구에서 제안된 토큰 단위 방식이 아닌 채널 단위 방식으로 양자화되어야 한다는 우리의 발견입니다. 실험적으로, LLaVA-OV-7B와 Qwen2.5-VL-7B를 사용한 6개 벤치마크에서의 광범위한 결과는 VidKV가 KV 캐시를 1.5비트 및 1.58비트 정밀도로 효과적으로 압축하면서 FP16 대비 거의 성능 저하 없이 작동함을 보여줍니다.
대형 언어 모델(LLMs)은 수학적 추론에서 인상적인 진전을 보여왔습니다. 데이터 증강은 수학적 문제 해결 능력을 향상시키는 데 유망하지만, 현재의 접근 방식은 주로 인스턴스 수준의 수정(예: 재구성 또는 구문적 변형 생성)에 국한되어 있어 수학적 지식에 내재된 관계적 구조를 포착하고 활용하지 못합니다. 인간의 학습 과정에서 수학적 숙련도가 상호 연결된 개념에 체계적으로 노출되면서 발전한다는 점에서 영감을 받아, 우리는 교차 문제 지시 합성을 통해 수학적 추론을 강화하는 새로운 프레임워크인 MathFusion을 소개합니다. MathFusion은 이를 세 가지 융합 전략을 통해 구현합니다: (1) 순차적 융합, 이는 관련 문제를 연결하여 해결책의 의존성을 모델링합니다; (2) 병렬 융합, 이는 유사한 문제를 결합하여 개념적 이해를 강화합니다; (3) 조건적 융합, 이는 맥락을 고려한 선택적 문제를 생성하여 추론의 유연성을 높입니다. 이러한 전략을 적용하여 새로운 데이터셋인 MathFusionQA를 생성한 후, 이를 기반으로 모델(DeepSeekMath-7B, Mistral-7B, Llama3-8B)을 미세 조정합니다. 실험 결과는 MathFusion이 데이터 효율성을 유지하면서 수학적 추론에서 상당한 개선을 달성함을 보여줍니다. 다양한 벤치마크에서 정확도가 18.0점 향상되었으며, 단 45K개의 추가 합성 지시만으로도 기존의 단일 지시 접근 방식에 비해 상당한 개선을 이루었습니다. 우리의 데이터셋, 모델 및 코드는 https://github.com/QizhiPei/mathfusion에서 공개되어 있습니다.
본 논문은 집합 기반 토큰화와 분포 모델링을 통해 이미지 생성을 위한 근본적으로 새로운 패러다임을 제안합니다. 고정 위치 잠재 코드에 균일한 압축 비율로 이미지를 직렬화하는 기존 방법과 달리, 우리는 지역적 의미론적 복잡성에 기반하여 동적으로 코딩 용량을 할당하는 비순서 토큰 집합 표현을 도입합니다. 이 TokenSet은 전역 컨텍스트 집계를 강화하고 지역적 섭동에 대한 견고성을 향상시킵니다. 이산 집합 모델링의 중요한 과제를 해결하기 위해, 우리는 집합을 합계 제약 조건이 있는 고정 길이 정수 시퀀스로 쌍방향 변환하는 이중 변환 메커니즘을 고안했습니다. 더 나아가, 이산 값, 고정 시퀀스 길이, 합계 불변성을 동시에 처리하는 최초의 프레임워크인 Fixed-Sum Discrete Diffusion을 제안하여 효과적인 집합 분포 모델링을 가능하게 합니다. 실험 결과, 우리의 방법이 의미론적 인식 표현과 생성 품질에서 우수함을 입증했습니다. 새로운 표현 및 모델링 전략에 걸친 우리의 혁신은 전통적인 순차적 토큰 패러다임을 넘어 시각적 생성을 발전시킵니다. 우리의 코드와 모델은 https://github.com/Gengzigang/TokenSet에서 공개적으로 이용 가능합니다.
중간 규모의 정적 장면에 대한 정보를 비디오 소스를 통해 시각적으로 인지하고 유지하기 위해 설계된 다중모달 메모리 시스템인 3D 공간 다중모달 메모리(M3)를 소개합니다. M3는 3D 가우시안 스플래팅 기법과 파운데이션 모델을 통합하여 다양한 지식을 포괄하는 세분화된 수준의 특징 표현을 렌더링할 수 있는 다중모달 메모리를 구축합니다. 우리의 연구에서, 기존의 특징 스플래팅 연구에서 두 가지 주요 문제점을 확인했습니다: (1) 각 가우시안 프리미티브에 대해 고차원 특징을 저장하는 데 따른 계산적 제약, 그리고 (2) 추출된 특징과 파운데이션 모델 특징 간의 불일치 또는 정보 손실. 이러한 문제를 해결하기 위해, 주요 장면 구성 요소와 가우시안 메모리 어텐션을 핵심 구성 요소로 하는 M3를 제안하여 효율적인 학습과 추론을 가능하게 합니다. M3의 유효성을 검증하기 위해, 특징 유사성과 다운스트림 작업에 대한 포괄적인 정량적 평가를 수행하고, 가우시안 메모리 어텐션의 픽셀 추적을 강조하는 정성적 시각화를 제공합니다. 우리의 접근 방식은 시각-언어 모델(VLM), 인지 모델, 대형 다중모달 및 언어 모델(LMM/LLM)을 포함한 다양한 파운데이션 모델을 포괄합니다. 또한, 실제 적용 가능성을 입증하기 위해, M3의 특징 필드를 사족 보행 로봇의 실내 장면에 배치합니다. 특히, M3는 3D 특징 추출의 핵심 압축 문제를 해결한 첫 번째 연구라고 주장합니다.
지식 편집(Knowledge Editing, KE)은 대규모 언어 모델(Large Language Models, LLMs) 내의 오래되거나 잘못된 정보를 수정할 수 있게 해줍니다. 기존의 KE 방법들은 고립된 사실들을 업데이트할 수 있지만, 수정된 지식에 의존하는 다중 홉 추론 작업(multi-hop reasoning tasks)으로 이러한 업데이트를 일반화하는 데 어려움을 겪습니다. 추론 회로(reasoning circuits) — LLMs가 지식 기반 추론을 위해 사용하는 신경 경로 — 를 분석한 결과, MEMIT 및 WISE와 같은 현재의 계층-지역적 KE 접근법은 단일 또는 소수의 모델 계층만을 편집하기 때문에 이러한 추론 경로에 업데이트된 정보를 효과적으로 통합하는 데 어려움을 겪는 것으로 관찰되었습니다. 이러한 한계를 해결하기 위해, 우리는 CaKE(Circuit-aware Knowledge Editing)라는 새로운 방법을 제안합니다. CaKE는 회로 기반 분석을 통해 전략적으로 선별된 데이터를 활용하여 모델이 수정된 지식을 활용하도록 강제하고, 새로 통합된 지식에 적합한 추론 회로를 개발하도록 자극합니다. 실험 결과, CaKE는 관련된 추론 작업에서 업데이트된 지식을 더 정확하고 일관되게 사용할 수 있게 하여, MQuAKE 데이터셋에서 기존 KE 방법들에 비해 다중 홉 추론 정확도가 평균 20% 향상되었음을 보여줍니다. 우리는 코드와 데이터를 https://github.com/zjunlp/CaKE에서 공개합니다.
본 논문은 가변 길이의 과거 동작과 입력 텍스트를 기반으로 다음 단계의 인간 자세를 예측해야 하는 텍스트 조건부 스트리밍 동작 생성의 문제를 다룹니다. 기존 방법들은 스트리밍 동작 생성에 어려움을 겪고 있습니다. 예를 들어, 확산 모델은 사전 정의된 동작 길이에 제약을 받으며, GPT 기반 방법들은 이산화된 비인과적 토큰화로 인해 지연된 응답과 오류 누적 문제를 겪습니다. 이러한 문제를 해결하기 위해, 우리는 연속적인 인과적 잠재 공간을 확률적 자기회귀 모델에 통합한 새로운 프레임워크인 MotionStreamer를 제안합니다. 연속적인 잠재 변수는 이산화로 인한 정보 손실을 완화하고 장기적인 자기회귀 생성 동안 오류 누적을 효과적으로 줄입니다. 또한, 현재와 과거 동작 잠재 변수 간의 시간적 인과적 의존성을 설정함으로써, 우리의 모델은 사용 가능한 정보를 최대한 활용하여 정확한 온라인 동작 디코딩을 달성합니다. 실험 결과, 우리의 방법은 기존 접근법을 능가하며 다중 라운드 생성, 장기 생성, 동적 동작 구성 등 더 많은 응용 분야를 제공합니다. 프로젝트 페이지: https://zju3dv.github.io/MotionStreamer/
장문맥 트랜스포머 모델(LCTMs)은 실세계 애플리케이션에 필수적이지만, 어텐션의 2차 복잡도로 인해 높은 계산 비용이 발생합니다. 블록 희소 어텐션은 중요한 영역에 계산을 집중함으로써 이를 완화하지만, 기존 방법들은 비용이 많이 드는 블록 중요도 측정으로 인해 정확도와 효율성 간의 균형을 맞추는 데 어려움을 겪습니다. 본 논문에서는 희소 어텐션을 사용하여 트랜스포머 모델의 장문맥 추론을 획기적으로 가속화하는 플러그 앤 플레이 프레임워크인 XAttention을 소개합니다. XAttention의 핵심 혁신은 어텐션 행렬에서 대각선 값(즉, 좌하단에서 우상단으로)의 합이 블록 중요도를 측정하는 강력한 대리 지표로 사용될 수 있다는 통찰입니다. 이를 통해 비필수 블록을 정확하게 식별하고 제거할 수 있어 높은 희소성과 획기적으로 가속화된 추론을 가능하게 합니다. 언어를 위한 RULER 및 LongBench, 비디오 이해를 위한 VideoMME, 비디오 생성을 위한 VBench 등 까다로운 장문맥 벤치마크에 대한 포괄적인 평가에서 XAttention은 전체 어텐션과 비슷한 정확도를 유지하면서도 상당한 계산 이점을 제공합니다. 우리는 어텐션 계산에서 최대 13.5배의 가속화를 입증했습니다. 이러한 결과는 XAttention이 블록 희소 어텐션의 실용적 잠재력을 해제할 수 있는 능력을 보여주며, LCTMs의 확장 가능하고 효율적인 실세계 배포를 위한 길을 열어줍니다. 코드는 https://github.com/mit-han-lab/x-attention에서 확인할 수 있습니다.
4D 가우시안 스플래팅(4DGS)은 최근 동적 장면 재구성을 위한 방법으로 상당한 주목을 받고 있습니다. 우수한 품질을 달성했음에도 불구하고, 4DGS는 일반적으로 상당한 저장 공간을 필요로 하며 느린 렌더링 속도로 인해 어려움을 겪습니다. 본 연구에서는 이러한 문제를 심층적으로 분석하고 시간적 중복성의 두 가지 주요 원인을 식별했습니다. (Q1) 짧은 수명의 가우시안: 4DGS는 장면 동역학을 표현하기 위해 짧은 시간 범위를 가진 다수의 가우시안을 사용함으로써 과도한 수의 가우시안을 생성합니다. (Q2) 비활성 가우시안: 렌더링 시 각 프레임에 기여하는 가우시안은 소수에 불과하지만, 래스터화 과정에서는 모든 가우시안이 처리되어 불필요한 계산 오버헤드가 발생합니다. 이러한 중복성을 해결하기 위해, 우리는 현대 GPU에서 1000 FPS 이상으로 동작하는 4DGS-1K를 제안합니다. Q1에 대해서는, 짧은 수명의 가우시안을 효과적으로 제거하면서 더 긴 시간 범위를 가진 가우시안을 사용하여 장면 동역학을 포착하도록 유도하는 새로운 가지치기 기준인 공간-시간 변동 점수(Spatial-Temporal Variation Score)를 도입했습니다. Q2에 대해서는, 연속된 프레임에 걸쳐 활성 가우시안에 대한 마스크를 저장함으로써 렌더링에서의 불필요한 계산을 크게 줄였습니다. 기존의 4DGS와 비교하여, 우리의 방법은 복잡한 동적 장면에서 저장 공간을 41배 줄이고 래스터화 속도를 9배 향상시키면서도 비슷한 시각적 품질을 유지합니다. 자세한 내용은 프로젝트 페이지(https://4DGS-1K.github.io)를 참조하십시오.
디퓨전 모델은 시각적 생성 분야에서 주류 프레임워크로 자리 잡았습니다. 이러한 성공을 바탕으로, 전문가 혼합(Mixture of Experts, MoE) 방법의 통합은 모델의 확장성과 성능 향상에 있어 유망한 가능성을 보여주었습니다. 본 논문에서는 디퓨전 트랜스포머를 위한 새로운 MoE 모델인 Race-DiT를 소개합니다. 이 모델은 유연한 라우팅 전략인 Expert Race를 통해 토큰과 전문가가 함께 경쟁하며 최상위 후보를 선택함으로써, 모델이 중요한 토큰에 전문가를 동적으로 할당하는 방법을 학습합니다. 또한, 얕은 층 학습의 문제를 해결하기 위해 층별 정규화를 제안하고, 모드 붕괴를 방지하기 위한 라우터 유사성 손실을 도입하여 전문가 활용도를 개선합니다. ImageNet에 대한 광범위한 실험을 통해 우리의 접근 방식의 효과를 검증하였으며, 상당한 성능 향상과 함께 확장 가능성을 확인하였습니다.
텍스트-이미지 확산 모델은 최근 몇 년 동안 놀라운 발전을 이루었습니다. 그러나 고해상도 이미지 생성을 위한 모델 훈련은 여전히 어려운 과제로 남아 있으며, 특히 훈련 데이터와 계산 자원이 제한된 상황에서는 더욱 그러합니다. 본 논문에서는 이러한 실질적인 문제를 데이터 효율성과 파라미터 효율성이라는 두 가지 핵심 관점에서 탐구하고, 초고해상도 적응을 위한 일련의 핵심 지침인 URAE(Ultra-Resolution Adaptation Efficiency)를 제안합니다. 데이터 효율성 측면에서는, 일부 교사 모델에 의해 생성된 합성 데이터가 훈련 수렴을 크게 촉진할 수 있음을 이론적 및 실증적으로 입증합니다. 파라미터 효율성 측면에서는, 합성 데이터를 사용할 수 없는 경우 가중치 행렬의 작은 구성 요소를 조정하는 것이 널리 사용되는 저순위 어댑터를 능가하며, 효율성을 유지하면서 상당한 성능 향상을 제공함을 발견했습니다. 또한, FLUX와 같은 지도 증류를 활용하는 모델의 경우, 적응 과정에서 분류자 없는 지도를 비활성화(즉, 지도 스케일을 1로 설정)하는 것이 만족스러운 성능을 위해 중요함을 보여줍니다. 광범위한 실험을 통해 URAE가 단 3,000개의 샘플과 2,000회의 반복만으로도 FLUX1.1 [Pro] Ultra와 같은 최첨단 폐쇄형 모델과 비슷한 2K 생성 성능을 달성하며, 4K 해상도 생성에서 새로운 벤치마크를 설정함을 검증했습니다. 코드는 https://github.com/Huage001/URAE에서 확인할 수 있습니다.
본 논문에서는 제한된 데이터와 최소한의 계산량으로도 간단한 선형 탐색(linear probing)을 통해 다양한 3D 작업에 활용할 수 있는 신뢰할 만한 자기 지도 학습(self-supervised) 포인트 클라우드 모델이 존재하는지에 대해 질문을 던집니다. 우리는 기존의 3D 자기 지도 학습 접근법들이 선형 탐색을 통해 평가된 표현 품질 측면에서 부족함을 발견했습니다. 우리는 이를 "기하학적 지름길(geometric shortcut)"이라고 명명한 현상 때문이라고 가설을 세웠는데, 이는 표현이 저수준의 공간적 특징으로 붕괴되게 만듭니다. 이러한 문제는 3D에 고유하며, 포인트 클라우드 데이터의 희소성에서 비롯됩니다. 우리는 이 문제를 공간 정보를 흐리게 하고 입력 특징에 대한 의존성을 강화하는 두 가지 주요 전략을 통해 해결했으며, 궁극적으로 자기 지식 증류(self-distillation)를 통해 140k 포인트 클라우드로 구성된 Sonata를 만들었습니다. Sonata는 단순하고 직관적이지만, 학습된 표현은 강력하고 신뢰할 만합니다: 제로샷 시각화는 의미론적 그룹화를 보여주며, 최근접 이웃 관계를 통한 강력한 공간 추론 능력을 함께 보여줍니다. Sonata는 탁월한 매개변수 및 데이터 효율성을 입증했는데, ScanNet에서 선형 탐색 정확도를 3배(21.8%에서 72.5%로) 향상시켰으며, 이전 접근법 대비 데이터의 1%만 사용해도 성능을 거의 두 배로 끌어올렸습니다. 전체 미세 조정(full fine-tuning)을 통해 3D 실내 및 실외 인식 작업 모두에서 SOTA(State-of-the-Art)를 더욱 발전시켰습니다.
최근 비디오 생성 분야의 발전으로 시각적 품질과 시간적 일관성이 크게 향상되었습니다. 이를 바탕으로, 명시적으로 정의된 공간 경로를 통해 정확한 객체 움직임 제어를 가능하게 하는 궤적 제어 가능 비디오 생성 기술이 등장했습니다. 그러나 기존 방법들은 복잡한 객체 움직임과 다중 객체 움직임 제어에 어려움을 겪어, 궤적 준수의 부정확성, 객체 일관성의 저하, 그리고 시각적 품질의 손상을 초래합니다. 더욱이, 이러한 방법들은 단일 형식의 궤적 제어만을 지원하여 다양한 시나리오에서의 적용 가능성이 제한됩니다. 또한, 궤적 제어 가능 비디오 생성을 위해 특별히 고안된 공개 데이터셋이나 벤치마크가 없어, 강력한 훈련과 체계적인 평가가 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 MagicMotion이라는 새로운 이미지-투-비디오 생성 프레임워크를 소개합니다. 이 프레임워크는 밀집에서 희소까지 세 가지 수준의 조건(마스크, 바운딩 박스, 희소 박스)을 통해 궤적 제어를 가능하게 합니다. 입력 이미지와 궤적이 주어지면, MagicMotion은 정의된 궤적을 따라 객체를 자연스럽게 움직이면서 객체 일관성과 시각적 품질을 유지합니다. 또한, 우리는 MagicData라는 대규모 궤적 제어 비디오 데이터셋과 주석 및 필터링을 위한 자동화된 파이프라인을 제시합니다. 그리고 MagicBench라는 종합 벤치마크를 도입하여, 다양한 객체 수에 걸친 비디오 품질과 궤적 제어 정확성을 평가합니다. 광범위한 실험을 통해 MagicMotion이 다양한 메트릭에서 이전 방법들을 능가함을 입증했습니다. 우리의 프로젝트 페이지는 https://quanhaol.github.io/magicmotion-site에서 공개되어 있습니다.
애니메이션 가능한 헤드 아바타 생성은 일반적으로 훈련을 위해 방대한 데이터를 필요로 합니다. 이러한 데이터 요구량을 줄이기 위한 자연스러운 해결책은, 사전 훈련된 확산 모델과 점수 증류 샘플링(SDS)과 같은 기존의 데이터가 필요 없는 정적 아바타 생성 방법을 활용하는 것입니다. 이 방법은 확산 모델에서 생성된 가짜 ground-truth 출력과 아바타를 정렬합니다. 그러나 비디오 확산에서 직접 4D 아바타를 증류하는 경우, 생성된 비디오의 공간적 및 시간적 불일치로 인해 과도하게 매끄러운 결과가 나올 수 있습니다. 이 문제를 해결하기 위해, 우리는 비디오 확산 모델을 사용하여 4D 아바타 재구성을 위한 공간적 및 시간적 일관성 데이터셋을 합성하는 강력한 방법인 Zero-1-to-A를 제안합니다. 구체적으로, Zero-1-to-A는 비디오 데이터셋을 반복적으로 구성하고 애니메이션 가능한 아바타를 점진적으로 최적화하여, 학습 과정 전반에 걸쳐 아바타 품질이 부드럽고 일관되게 향상되도록 합니다. 이 점진적 학습은 두 단계로 이루어집니다: (1) 공간적 일관성 학습은 표정을 고정하고 정면에서 측면까지의 뷰를 학습하며, (2) 시간적 일관성 학습은 뷰를 고정하고 여유로운 표정에서 과장된 표정까지 학습하여, 단순한 것에서 복잡한 것으로 4D 아바타를 생성합니다. 광범위한 실험을 통해 Zero-1-to-A가 기존의 확산 기반 방법들에 비해 충실도, 애니메이션 품질, 렌더링 속도를 개선하며, 생생한 아바타 생성에 대한 해결책을 제공함을 입증했습니다. 코드는 https://github.com/ZhenglinZhou/Zero-1-to-A에서 공개되어 있습니다.
본 논문에서는 성에서 고층 빌딩에 이르기까지 광활한 야외 장면을 생성하는 작업을 탐구한다. 기존 연구가 주로 실내 장면 생성에 초점을 맞추었던 것과 달리, 야외 장면 생성은 장면 높이의 광범위한 변화와 대규모 풍경을 신속하게 생성할 수 있는 방법의 필요성 등 독특한 도전 과제를 제시한다. 이를 해결하기 위해, 우리는 장면 청크를 균일한 벡터 집합으로 인코딩하는 효율적인 접근 방식을 제안한다. 이는 기존 방법에서 사용된 공간적으로 구조화된 잠재 변수보다 더 나은 압축과 성능을 제공한다. 더불어, 우리는 무한한 생성을 위한 명시적 아웃페인팅 모델을 학습시켰는데, 이는 기존의 리샘플링 기반 인페인팅 방식에 비해 일관성을 개선하고 추가적인 디퓨전 단계를 제거함으로써 생성 속도를 높인다. 이 작업을 지원하기 위해, 우리는 NuiScene43이라는 소규모이지만 고품질의 장면 데이터셋을 구축하여 공동 학습을 위해 전처리했다. 특히, 다양한 스타일의 장면으로 학습할 경우, 우리의 모델은 시골 주택과 도시 고층 빌딩과 같은 서로 다른 환경을 동일한 장면 내에서 혼합할 수 있으며, 이는 이질적인 장면을 공동 학습에 활용할 수 있는 우리의 데이터셋 구축 과정의 잠재력을 강조한다.
분류(Classification)는 머신러닝의 핵심 과제 중 하나입니다. 최근 연구에 따르면, 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 초기에는 이미지 분류에서 성능이 낮지만, 적절한 양의 데이터로 미세 조정(fine-tuning)을 수행하면 성능이 크게 향상되어 SOTA(State-of-the-Art) 분류 모델과 비슷한 수준까지 도달할 수 있음이 밝혀졌습니다. 그러나 대규모 레이블 데이터를 확보하는 것은 비용이 많이 듭니다. 본 논문에서는 소량의 데이터를 활용한 MLLM 분류 미세 조정(few-shot MLLM classification fine-tuning)을 탐구합니다. 우리는 SFT(Supervised Fine-Tuning)가 심각한 과적합 문제를 일으키고, 심지어 제로샷(zero-shot) 접근법보다 성능이 저하될 수 있음을 발견했습니다. 이러한 문제를 해결하기 위해, 최근 규칙 기반 강화 학습(rule-based reinforcement learning)의 성공 사례에서 영감을 받아 검증 가능한 신호를 보상으로 사용하여 MLLM을 미세 조정하는 CLS-RL을 제안합니다. 우리는 CLS-RL이 대부분의 데이터셋에서 SFT를 능가하며, 기본-새로운(base-to-new) 및 소량 학습(few-shot learning) 설정에서 훨씬 높은 평균 정확도를 보임을 발견했습니다. 또한, CLS-RL에서 무료 점심 현상(free-lunch phenomenon)을 관찰했습니다. 특정 데이터셋에서 모델을 미세 조정할 때, 분포와 클래스 이름이 다른 다른 데이터셋에서도 제로샷 모델보다 성능이 향상될 수 있다는 것입니다. 이는 RL 기반 방법이 모델에게 분류의 기본 원리를 효과적으로 가르친다는 것을 시사합니다. 마지막으로, 최근 추론 시간 사고(inference time thinking) 연구에서 영감을 받아, 시각적 분류 맥락에서 RL 기반 방법의 중요한 측면인 미세 조정 중의 '사고 과정(thinking process)'을 재검토합니다. 우리는 이러한 과제가 미세 조정 중에 광범위한 사고 과정을 필요로 하는지 의문을 제기하며, 이는 오히려 성능을 저하시킬 수 있다고 제안합니다. 이를 바탕으로, 우리는 사고 과정을 최소화하기 위해 동등 정확도 보상(equality accuracy reward)을 설정하는 No-Thinking-CLS-RL 방법을 소개합니다. 우리의 연구 결과는, 훨씬 적은 미세 조정 시간으로도 No-Thinking-CLS-RL 방법이 CLS-RL보다 우수한 도메인 내 성능과 일반화 능력을 달성함을 보여줍니다.
우리는 생성형 언어 모델이 지정된 시간 및 공간 복잡도를 이해하고 이를 반영한 코드를 생성하는 능력을 평가하기 위해 설계된 새로운 코딩 벤치마크인 BigO(Bench)를 소개합니다. 이 벤치마크는 현재의 평가 방식에서 종종 간과되는 모델의 계산 복잡도를 고려한 코드 이해 및 생성 능력의 격차를 해소합니다. BigO(Bench)는 프로파일링 측정값을 통해 Python 함수의 알고리즘 복잡도를 추론할 수 있는 도구를 포함하며, 이는 인간 또는 LLM(대형 언어 모델)이 생성한 솔루션 모두에 적용됩니다. 또한 BigO(Bench)는 Code Contests에서 수집된 3,105개의 코딩 문제와 1,190,250개의 솔루션을 포함하며, 이들은 복잡도 프레임워크를 통해 추론된 (합성된) 시간 및 공간 복잡도 레이블과 다양한 입력 크기에 대한 런타임 및 메모리 사용량 값을 함께 제공합니다. 우리는 이 벤치마크를 사용하여 여러 최신 언어 모델을 평가한 결과를 제시하며, 복잡도 요구 사항을 처리하는 데 있어 각 모델의 강점과 약점을 강조합니다. 특히, 토큰-공간 추론 모델들은 코드 생성에서는 탁월하지만 복잡도 이해에서는 그렇지 못해, 훈련 시 보상이 주어지지 않은 작업에는 잘 일반화되지 않을 가능성을 시사합니다.
우리는 언어 기반 정책 생성을 통해 수천 가지의 3D 비디오 게임을 플레이할 수 있는 인공지능 에이전트를 개발하기 위한 새로운 프레임워크인 PORTAL을 소개한다. 의사결정 문제를 언어 모델링 작업으로 변환함으로써, 이 접근법은 대규모 언어 모델(LLMs)을 활용하여 도메인 특화 언어(DSL)로 표현된 행동 트리를 생성한다. 이 방법은 전통적인 강화 학습 접근법과 관련된 계산 부담을 제거하면서도 전략적 깊이와 빠른 적응성을 유지한다. 우리의 프레임워크는 규칙 기반 노드와 신경망 구성 요소를 결합한 하이브리드 정책 구조를 도입하여, 높은 수준의 전략적 추론과 정밀한 저수준 제어를 모두 가능하게 한다. 양적 게임 지표와 시각-언어 모델 분석을 통합한 이중 피드백 메커니즘은 전술적 및 전략적 수준에서 반복적인 정책 개선을 촉진한다. 결과적으로 생성된 정책은 즉시 배포 가능하며, 인간이 해석할 수 있고, 다양한 게임 환경에서 일반화할 수 있다. 실험 결과는 PORTAL이 수천 가지의 1인칭 슈팅 게임(FPS)에서 효과적임을 보여주며, 전통적인 접근법에 비해 개발 효율성, 정책 일반화, 행동 다양성에서 상당한 개선을 입증한다. PORTAL은 게임 AI 개발에서 중요한 진전을 나타내며, 최소한의 개발 비용으로 수천 가지의 상용 비디오 게임에서 작동할 수 있는 정교한 에이전트를 생성하기 위한 실용적인 솔루션을 제공한다. 3D 비디오 게임에 대한 실험 결과는 https://zhongwen.one/projects/portal 에서 최적의 상태로 확인할 수 있다.
자기회귀 모델은 언어 모델링에서의 순차적 예측 기법을 적용하여 이미지 생성 분야에서 놀라운 성과를 보여왔습니다. 그러나 이러한 접근 방식을 이미지에 적용하기 위해서는 VQ-VAE와 같은 벡터 양자화 방법을 통해 연속적인 픽셀 데이터를 이산화해야 합니다. VQ-VAE에 존재하는 양자화 오류를 완화하기 위해 최근 연구들은 더 큰 코드북을 사용하는 경향이 있습니다. 그러나 이는 어휘 크기를 증가시켜 자기회귀 모델링 작업을 더 복잡하게 만듭니다. 본 논문은 자기회귀 모델링을 더 어렵게 만들지 않으면서도 큰 코드북의 이점을 누릴 수 있는 방법을 찾는 것을 목표로 합니다. 실험적 연구를 통해, 우리는 유사한 코드워드 표현을 가진 토큰들이 최종 생성된 이미지에 유사한 효과를 미친다는 것을 발견했으며, 이는 큰 코드북에 상당한 중복성이 존재함을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 유사한 토큰에 동일한 coarse 레이블을 할당하여 coarse에서 fine으로(CTF) 토큰을 예측하는 방법을 제안합니다. 우리의 프레임워크는 두 단계로 구성됩니다: (1) 시퀀스의 각 토큰에 대해 coarse 레이블을 순차적으로 예측하는 자기회귀 모델, 그리고 (2) coarse 레이블에 조건부로 모든 토큰의 fine-grained 레이블을 동시에 예측하는 보조 모델. ImageNet에서의 실험은 우리의 방법이 우수한 성능을 보이며, 기준 모델 대비 Inception Score에서 평균 59점의 향상을 달성함을 보여줍니다. 특히, 추론 단계가 추가되었음에도 불구하고, 우리의 접근 방식은 더 빠른 샘플링 속도를 달성합니다.
의료 영상 분할의 복잡한 특성은 도메인 특화된 세부 특징을 포착하도록 특별히 설계된 모델을 요구합니다. 대규모 기반 모델(foundation model)은 상당한 유연성을 제공하지만, 이러한 모델을 미세 조정(fine-tuning)하는 데 드는 비용은 여전히 큰 장벽으로 남아 있습니다. 매개변수 효율적 미세 조정(Parameter-Efficient Fine-Tuning, PEFT) 방법 중 하나인 Low-Rank Adaptation(LoRA)은 저랭크(low-rank) 행렬을 사용하여 모델 가중치를 효율적으로 업데이트하지만, 선택한 랭크가 도메인 특화된 뉘앙스를 포착하기에 부족할 경우 과소적합(underfitting) 문제가 발생할 수 있습니다. 반면, 완전 랭크(full-rank) 특이값 분해(Singular Value Decomposition, SVD) 기반 방법은 모든 특이값을 수정함으로써 포괄적인 업데이트를 제공하지만, 유연성이 부족하고 데이터셋 간 성능 변동이 큰 단점이 있습니다. 우리는 SALT(Singular Value Adaptation with Low-Rank Transformation)를 제안합니다. 이 방법은 학습 가능한 스케일 및 시프트 매개변수를 사용하여 가장 영향력 있는 특이값을 선택적으로 조정하는 동시에, 나머지 부분 공간에 대해 저랭크 업데이트를 보완합니다. 이 하이브리드 접근법은 LoRA와 SVD의 장점을 모두 활용하여 모델 크기나 깊이를 증가시키지 않으면서도 효과적인 적응을 가능하게 합니다. 20개에서 1000개에 이르는 5개의 도전적인 의료 데이터셋에서 평가한 결과, SALT는 단 3.9%의 학습 가능한 매개변수만으로도 LoRA 및 SVD와 같은 최신 PEFT 방법을 Dice 점수에서 2%에서 5%까지 능가하며, 저자원 환경에서도 강력한 적응 능력을 입증했습니다. SALT의 코드는 https://github.com/BioMedIA-MBZUAI/SALT에서 확인할 수 있습니다.
대규모 시각-언어 모델(LVLMs)은 시각-언어 이해 및 추론 작업에서 유망한 성능을 보여주고 있습니다. 그러나 이들의 시각적 이해 행동은 아직 충분히 탐구되지 않았습니다. 근본적인 질문이 제기됩니다: LVLMs가 시각적 입력에 어느 정도 의존하며, 어떤 이미지 영역이 그들의 응답에 기여하는가? LVLMs의 자유 형식 생성은 복잡한 시각적 아키텍처(예: 다중 인코더 및 다중 해상도)와 가변 길이 출력으로 인해 해석하기 쉽지 않습니다. 본 논문에서는 기존의 열지도 시각화 방법(예: iGOS++)를 확장하여 개방형 시각 질문 응답을 위한 LVLMs를 지원합니다. 우리는 생성된 답변과 입력 이미지 간의 관련성을 반영하는 시각적으로 관련된 토큰을 선택하는 방법을 제안합니다. 또한, 시각 정보가 필요한 벤치마크에서 최신 LVLMs에 대한 포괄적인 분석을 수행합니다. 우리의 연구 결과는 초점 영역과 답변 정확성 간의 관계, 아키텍처 간 시각적 주의 차이, 그리고 LLM 규모가 시각적 이해에 미치는 영향 등 LVLM 행동에 대한 여러 통찰을 제공합니다. 코드와 데이터는 https://github.com/bytedance/LVLM_Interpretation에서 확인할 수 있습니다.
최근 대규모 언어 모델과 그 다중모달 확장의 발전은 자동회귀적 다음 토큰 예측을 통해 생성과 이해를 통합하는 접근법의 효과를 입증했습니다. 그러나 과학 분야의 AI에서 3D 구조 생성 및 이해({3D GU})가 중요한 역할을 함에도 불구하고, 이러한 작업들은 대체로 독립적으로 발전해 왔으며, 자동회귀적 방법은 여전히 충분히 탐구되지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 자동회귀 예측을 통해 {3D GU} 작업을 원활하게 통합하는 통합 프레임워크인 Uni-3DAR를 소개합니다. Uni-3DAR의 핵심은 3D 공간의 고유한 희소성을 활용하여 옥트리를 사용해 3D 공간을 압축하는 새로운 계층적 토큰화 방식을 채택합니다. 또한 미세한 구조적 세부 사항을 포착하기 위해 추가적인 토큰화를 적용하여, 원자 유형 및 정확한 공간 좌표와 같은 핵심 속성을 미시적 3D 구조에서 포착합니다. 우리는 효율성과 효과성을 향상시키기 위해 두 가지 최적화 방안을 추가로 제안합니다. 첫 번째는 옥트리 토큰 시퀀스를 최대 8배까지 줄이는 두 단계 서브트리 압축 전략입니다. 두 번째는 동적으로 변화하는 토큰 위치에 맞춤화된 마스크된 다음 토큰 예측 메커니즘으로, 모델 성능을 크게 향상시킵니다. 이러한 전략들을 결합함으로써, Uni-3DAR는 단일 자동회귀 프레임워크 내에서 다양한 {3D GU} 작업을 성공적으로 통합합니다. 분자, 단백질, 고분자, 결정 등 여러 미시적 {3D GU} 작업에 걸친 광범위한 실험을 통해 그 효과성과 다용도성을 검증했습니다. 특히, Uni-3DAR는 이전의 최첨단 확산 모델을 상당한 차이로 능가하며, 최대 256%의 상대적 개선을 달성하면서 최대 21.8배 빠른 추론 속도를 제공합니다. 코드는 https://github.com/dptech-corp/Uni-3DAR에서 공개되어 있습니다.
3D 분자 생성은 신약 개발과 재료 과학에서 중요한 역할을 하며, 원자 유형, 화학 결합, 3D 좌표 등 복잡한 다중 모달리티를 처리할 수 있는 모델이 필요합니다. 주요 과제는 이러한 다양한 형태의 모달리티를 통합하면서도 3D 좌표에 대한 SE(3) 등변성을 유지하는 것입니다. 이를 위해 기존 접근 방식은 일반적으로 불변성과 등변성 모달리티를 위한 별도의 잠재 공간을 유지함으로써 학습 및 샘플링 효율성을 저하시켰습니다. 본 연구에서는 이러한 문제를 해결하기 위해 Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D)를 제안합니다. UAE-3D는 다중 모달리티 VAE로, 3D 분자를 통합된 잠재 공간에서 잠재 시퀀스로 압축하면서도 거의 제로에 가까운 재구성 오차를 유지합니다. 이 통합 잠재 공간은 잠재 확산 모델링을 수행할 때 다중 모달리티와 등변성을 처리하는 복잡성을 제거합니다. 이를 위해 분자적 귀납적 편향 없이도 일반적으로 사용 가능한 확산 모델인 Diffusion Transformer를 잠재 생성에 활용합니다. GEOM-Drugs 및 QM9 데이터셋에 대한 광범위한 실험을 통해, 우리의 방법이 데 노보 및 조건부 3D 분자 생성 모두에서 새로운 벤치마크를 확립하며, 선도적인 효율성과 품질을 달성함을 입증합니다.
기존의 주요 비디오 학습 방법들은 주로 미리 정의된 시공간 그리드에서 샘플링된 고정된 수의 토큰을 기반으로 작동하며, 이는 비디오 내재적 중복성으로 인해 최적이 아닌 정확도-계산량 트레이드오프를 초래합니다. 또한 이러한 방법들은 다운스트림 작업에 대한 다양한 계산 예산에 적응할 수 없어, 현실 세계에서 가장 경쟁력 있는 모델의 적용을 방해합니다. 이에 따라 우리는 예산 범위 내에서 입력 정보를 최대화하기 위한 새로운 테스트 설정인 토큰 최적화를 제안합니다. 이는 더 적절하게 샘플링된 비디오에서 토큰을 선택함으로써 크기가 제한된 입력 토큰 집합을 최적화합니다. 이를 위해 우리는 플럭스(Flux)라는 새로운 증강 도구를 제안합니다. 플럭스는 샘플링 그리드를 유연하게 만들고 토큰 선택을 활용함으로써 대부분의 인기 있는 비디오 학습 프레임워크에 쉽게 적용될 수 있으며, 거의 추가 비용 없이 모델의 견고성을 향상시킵니다. 우리는 플럭스를 대규모 비디오 사전 학습에 통합했으며, 그 결과 플럭스ViT(FluxViT)는 표준 비용으로 다양한 작업에서 새로운 최첨단 결과를 달성했습니다. 특히, 토큰 최적화를 통해 단 1/4의 토큰만으로도 이전 최첨단 모델의 성능을 유지하면서 거의 90%의 비용 절감을 이뤄냈습니다. 모든 모델과 데이터는 https://github.com/OpenGVLab/FluxViT에서 확인할 수 있습니다.
비전-언어(VL) 모델은 다양한 작업에서 강력한 성능을 보여주고 있습니다. 그러나 이러한 모델들은 종종 예측을 위해 특정 모달리티에 의존하는 경향이 있어 "지배적 모달리티 편향"을 초래합니다. 이러한 편향은 특히 한 모달리티가 손상되었을 때 성능에 큰 악영향을 미칩니다. 본 연구에서는 지배적 모달리티 편향 하에서의 모델 동작을 분석하고, 정렬되지 않은 그래디언트 또는 그래디언트 크기의 차이가 손실의 균형 잡힌 수렴을 방해한다는 것을 이론적으로 보여줍니다. 이러한 발견을 바탕으로, 우리는 지배적 모달리티 편향을 완화하기 위한 새로운 프레임워크인 BalGrad를 제안합니다. 우리의 접근 방식에는 모달리티 간 그래디언트 재가중치 조정, 각 모달리티의 기여도에 기반한 KL 발산의 그래디언트 조정, 그리고 작업 방향을 비충돌적으로 정렬하기 위한 작업 간 그래디언트 투영이 포함됩니다. UPMC Food-101, Hateful Memes, 그리고 MM-IMDb 데이터셋에 대한 실험을 통해 BalGrad가 예측 시 특정 모달리티에 대한 과도한 의존을 효과적으로 완화한다는 것을 확인하였습니다.
비디오 아이덴티티 커스터마이제이션은 사용자의 참조 이미지를 기반으로 일관된 아이덴티티를 유지하면서도 상당한 동적 특성을 보이는 고화질 비디오를 생성하는 것을 목표로 합니다. 그러나 기존 방법들은 두 가지 주요 문제에 직면해 있습니다: 긴 비디오 길이에 걸친 아이덴티티 저하와 훈련 중 동적 특성 감소로, 이는 주로 정적 이미지를 사용한 전통적인 자기 재구성 훈련에 의존하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 사용자 선호에 맞춰 아이덴티티가 일관되고 동적 특성이 풍부한 비디오를 직접적으로 촉진하기 위해 설계된 새로운 프레임워크인 MagicID를 소개합니다. 구체적으로, 우리는 전통적인 자기 재구성에 얽매이지 않고 명시적인 아이덴티티와 동적 보상을 포함한 쌍별 선호 비디오 데이터를 구성하여 선호 학습을 진행할 것을 제안합니다. 커스터마이즈된 선호 데이터의 제약을 해결하기 위해, 우리는 하이브리드 샘플링 전략을 도입합니다. 이 접근법은 먼저 참조 이미지에서 파생된 정적 비디오를 활용하여 아이덴티티 보존을 우선시한 다음, Frontier 기반 샘플링 방법을 사용하여 생성된 비디오의 동적 움직임 품질을 향상시킵니다. 이러한 하이브리드 선호 쌍을 활용함으로써, 우리는 모델을 커스터마이즈된 선호 간의 보상 차이에 맞춰 최적화합니다. 광범위한 실험을 통해 MagicID가 일관된 아이덴티티와 자연스러운 동적 특성을 성공적으로 달성하며, 다양한 메트릭에서 기존 방법들을 능가함을 보여줍니다.
비디오 생성 모델(VGMs)의 급속한 성장과 함께, AI 생성 비디오(AIGVs)를 위한 신뢰할 수 있고 포괄적인 자동 평가 지표를 개발하는 것이 중요해졌습니다. 기존 방법들은 다른 작업에 최적화된 기성 모델을 사용하거나, 인간 평가 데이터에 의존하여 특화된 평가자를 학습시키는 방식에 머물러 있습니다. 이러한 접근법들은 특정 평가 측면에 국한되며, 더 세분화되고 포괄적인 평가 요구가 증가함에 따라 확장하기 어렵다는 한계가 있습니다. 이러한 문제를 해결하기 위해, 본 연구는 다중모드 대형 언어 모델(MLLMs)이 강력한 시각 인식 및 언어 이해 능력을 활용하여 AIGVs를 위한 통합 평가자로 사용될 가능성을 탐구합니다. 통합 AIGV 평가에서 자동 평가 지표의 성능을 평가하기 위해, 우리는 UVE-Bench라는 벤치마크를 도입했습니다. UVE-Bench는 최신 VGMs에 의해 생성된 비디오를 수집하고, 15개의 평가 측면에 걸친 인간의 쌍대 비교 선호도 주석을 제공합니다. UVE-Bench를 사용하여, 우리는 16개의 MLLMs을 광범위하게 평가했습니다. 실험 결과, 고급 MLLMs(예: Qwen2VL-72B 및 InternVL2.5-78B)은 여전히 인간 평가자에 뒤처지지만, 통합 AIGV 평가에서 유망한 능력을 보여주며, 기존의 특화된 평가 방법들을 크게 능가하는 것으로 나타났습니다. 또한, 우리는 MLLM 기반 평가자의 성능에 영향을 미치는 주요 설계 선택 사항에 대한 심층 분석을 수행하여, AIGV 평가에 대한 미래 연구를 위한 귀중한 통찰을 제공합니다. 코드는 https://github.com/bytedance/UVE에서 확인할 수 있습니다.
우리는 비디오 생성 모델을 활용하여 무한한 실세계 장면에 대한 사실적인 3D 가우시안 스플래팅(3DGS)을 생성하는 직접적인 텍스트-3D 모델인 VideoRFSplat을 제안합니다. 다양한 카메라 포즈와 무한한 공간 범위의 실세계 장면을 생성하면서도 임의의 텍스트 프롬프트에 대한 일반화를 보장하기 위해, 기존 방법들은 2D 생성 모델을 미세 조정하여 카메라 포즈와 다중 뷰 이미지를 함께 모델링했습니다. 그러나 이러한 방법들은 모달리티 간의 차이로 인해 2D 생성 모델을 공동 모델링으로 확장할 때 불안정성을 겪으며, 이는 훈련과 추론을 안정화하기 위해 추가 모델을 필요로 합니다. 본 연구에서는 비디오 생성 모델을 미세 조정할 때 다중 뷰 이미지와 카메라 포즈를 공동으로 모델링하기 위한 아키텍처와 샘플링 전략을 제안합니다. 우리의 핵심 아이디어는 사전 훈련된 비디오 생성 모델과 전용 포즈 생성 모델을 통신 블록을 통해 연결하는 이중 스트림 아키텍처로, 별도의 스트림을 통해 다중 뷰 이미지와 카메라 포즈를 생성합니다. 이 설계는 포즈와 이미지 모달리티 간의 간섭을 줄입니다. 또한, 우리는 다중 뷰 이미지보다 카메라 포즈를 더 빠르게 노이즈 제거하는 비동기적 샘플링 전략을 제안하여, 빠르게 노이즈가 제거된 포즈가 다중 뷰 생성을 조건화하도록 함으로써 상호 모호성을 줄이고 크로스 모달 일관성을 강화합니다. 여러 대규모 실세계 데이터셋(RealEstate10K, MVImgNet, DL3DV-10K, ACID)에서 훈련된 VideoRFSplat은 스코어 증류 샘플링을 통한 사후 정제에 크게 의존하는 기존의 텍스트-3D 직접 생성 방법들을 능가하며, 이러한 정제 없이도 우수한 결과를 달성합니다.
딥러닝(DL) 기반 코드 완성 도구는 고급 코드 생성을 가능하게 함으로써 소프트웨어 개발을 혁신적으로 변화시켰습니다. 이러한 도구들은 수많은 저장소에서 수집된 방대한 양의 코드를 학습한 모델을 활용하여 일반적인 코딩 패턴을 포착합니다. 그러나 특정 조직이나 개발자에 맞춰 이러한 모델을 미세 조정(fine-tuning)하여 해당 주제에서의 성능을 향상시키는 것의 영향력은 아직 탐구되지 않았습니다. 본 연구에서는 이 질문에 대한 확실한 실증적 증거를 제시함으로써 이러한 공백을 메웁니다. 보다 구체적으로, 우리는 두 조직(Apache와 Spring)의 136명 개발자, 두 가지 모델 아키텍처(T5와 Code Llama), 그리고 세 가지 모델 크기(6천만, 7억 5천만, 70억 개의 학습 가능한 매개변수)를 고려했습니다. T5 모델(6천만, 7억 5천만)은 대상 조직의 데이터를 제외한 2,000개 이상의 오픈소스 프로젝트에서 사전 학습 및 미세 조정되었으며, 조직 및 개발자별 데이터셋으로 미세 조정된 버전과 비교되었습니다. Code Llama 모델(70억)의 경우, 온라인에서 공개적으로 제공되는 사전 학습된 모델의 성능을 조직 및 개발자별 데이터셋으로 파라미터 효율적 미세 조정(parameter-efficient fine-tuning)을 통해 미세 조정된 동일 모델과 비교했습니다. 우리의 결과는 조직별 및 개발자별 추가 미세 조정이 예측 능력을 향상시킨다는 것을 보여주며, 특히 조직별 미세 조정이 더 뛰어난 성능을 보였습니다. 이러한 발견은 (i) 두 대상 조직(Apache와 Spring)과 (ii) 완전히 다른 규모의 모델(6천만에서 70억 개의 학습 가능한 매개변수)에 걸쳐 일반화됩니다. 마지막으로, 조직별 데이터셋으로 미세 조정된 DL 모델이 즉시 사용 가능한 사전 학습된 코드 모델과 동일한 완성 성능을 달성하면서도 모델 크기가 약 10배 더 작아 배포 및 추론 비용(예: 더 작은 GPU 필요) 측면에서 상당한 절감 효과를 보인다는 것을 입증했습니다.
이미지 캡셔닝은 오랫동안 시각 이해의 핵심 과제로 자리 잡아 왔으며, 최근 비전-언어 모델(VLMs)의 발전으로 상세한 이미지 캡션 생성 능력이 크게 향상되었습니다. 그러나 상세한 이미지 캡셔닝의 평가는 구식 평가 지표와 대략적인 주석으로 인해 충분히 탐구되지 못했습니다. 본 논문에서는 상세 캡셔닝 작업을 위해 특별히 설계된 새로운 지표인 DCScore와 함께 DeCapBench를 소개합니다. DCScore는 응답을 가장 작은 자립 단위인 원시 정보 단위로 분해하고 이를 개별적으로 평가함으로써 환각(hallucination)과 세분화된 포괄성을 평가합니다. 우리의 평가 결과, DCScore는 다른 규칙 기반 또는 모델 기반 지표보다 인간의 판단과 더 밀접하게 일치함을 보여줍니다. 동시에, DeCapBench는 기술적 작업에서 VLM 아레나 결과와 높은 상관관계를 보이며, 기존의 비전-언어 모델 벤치마크를 능가합니다. 또한, 우리는 고급 지표를 기반으로 선호도 최적화를 위한 자동 세분화 피드백 수집 방법인 FeedQuill을 제시하며, 이는 자동 생성된 선호도 데이터에서 강력한 일반화 능력을 보여줍니다. 여러 VLM에 대한 광범위한 실험을 통해 우리의 방법이 환각을 크게 줄일 뿐만 아니라 다양한 벤치마크에서 성능을 향상시키며, GPT-4o를 능가하는 우수한 상세 캡셔닝 성능을 달성함을 입증합니다.
본 논문은 허위 주장과 허위 정보에서 비롯된 유머를 연구하기 위한 새로운 리소스인 Deceptive Humor Dataset(DHD)를 소개합니다. 허위 정보가 만연한 시대에, 유머가 어떻게 기만과 얽혀 있는지 이해하는 것은 필수적입니다. DHD는 ChatGPT-4o 모델을 사용하여 허위 주장과 조작된 정보를 포함한 허구적 서사에서 생성된 유머가 담긴 댓글로 구성되어 있습니다. 각 사례는 1(미묘한 풍자)부터 3(고수준 풍자)까지의 Satire Level로 라벨링되며, 다섯 가지의 뚜렷한 Humor Category(블랙 유머, 아이러니, 사회적 논평, 말장난, 부조리)로 분류됩니다. 이 데이터셋은 영어, 텔루구어, 힌디어, 칸나다어, 타밀어 및 이들의 코드 혼합 변형(Te-En, Hi-En, Ka-En, Ta-En)을 포함한 다국어로 구성되어 있어, 다국어 벤치마크로서의 가치를 지닙니다. DHD를 도입함으로써, 우리는 기만적 맥락에서의 유머를 분석하기 위한 구조화된 기반을 마련하고, 유머가 허위 정보와 상호작용할 뿐만 아니라 그 인식과 확산에 미치는 영향을 탐구하는 새로운 연구 방향을 제시합니다. 또한, 제안된 데이터셋에 대한 강력한 베이스라인을 수립하여, 향후 연구에서 기만적 유머 탐지 모델을 벤치마킹하고 발전시키기 위한 기반을 제공합니다.
다음 토큰 예측 기반의 자기 지도 사전 학습은 대규모 언어 모델이 텍스트의 기본 구조를 포착할 수 있게 하여, 대규모로 적용될 때 다양한 작업에서 전례 없는 성능을 달성하게 했습니다. 마찬가지로, 자율 주행은 방대한 양의 시공간 데이터를 생성하며, 이를 통해 환경의 기하학적 및 의미론적 구조와 시간에 따른 변화를 학습할 가능성을 시사합니다. 이러한 방향에서, 우리는 기하학적 및 의미론적 자기 지도 사전 학습 방법인 GASP를 제안합니다. GASP는 시공간 내의 임의의 미래 지점에서 (1) 3D 장면의 변화하는 구조를 포착하는 일반 점유율, (2) 환경을 통과하는 자체 차량 경로를 모델링하는 자체 점유율, 그리고 (3) 비전 기반 모델에서 추출된 고수준 특징을 예측함으로써 통합된 표현을 학습합니다. 원시 센서 측정값 대신 기하학적 및 의미론적 4D 점유 필드를 모델링함으로써, 이 모델은 환경과 시간에 따른 변화를 구조화되고 일반화 가능한 표현으로 학습합니다. 우리는 GASP를 여러 자율 주행 벤치마크에서 검증하며, 의미론적 점유율 예측, 온라인 매핑, 자체 궤적 예측에서의 상당한 개선을 입증합니다. 우리의 결과는 연속적인 4D 기하학적 및 의미론적 점유율 예측이 자율 주행을 위한 확장 가능하고 효과적인 사전 학습 패러다임을 제공함을 보여줍니다. 코드 및 추가 시각화 자료는 \href{https://research.zenseact.com/publications/gasp/}에서 확인할 수 있습니다.
생성형 AI의 부상과 함께, 텍스트 캡션에서 도형을 합성하는 것은 매력적인 응용 분야가 되었습니다. 그러나 높은 기하학적 정밀도와 편집성을 달성하기 위해서는 TikZ와 같은 언어로 도형을 그래픽 프로그램으로 표현해야 하며, 정렬된 학습 데이터(즉, 캡션이 있는 그래픽 프로그램)는 여전히 부족합니다. 한편, 정렬되지 않은 대량의 그래픽 프로그램과 캡션이 있는 래스터 이미지는 더 쉽게 구할 수 있습니다. 우리는 이러한 상이한 데이터 소스를 조화롭게 통합하기 위해 TikZero를 제안합니다. TikZero는 이미지 표현을 중간 다리로 사용하여 그래픽 프로그램 생성과 텍스트 이해를 분리합니다. 이를 통해 그래픽 프로그램과 캡션이 있는 이미지를 독립적으로 학습할 수 있으며, 추론 과정에서 제로샷 텍스트 기반 그래픽 프로그램 합성을 가능하게 합니다. 우리의 방법은 캡션이 정렬된 그래픽 프로그램만을 사용할 수 있는 베이스라인을 크게 능가함을 보여줍니다. 더 나아가, 캡션이 정렬된 그래픽 프로그램을 보완적인 학습 신호로 활용할 때, TikZero는 GPT-4o와 같은 상용 시스템을 포함한 훨씬 더 큰 모델의 성능을 따라가거나 능가합니다. 우리의 코드, 데이터셋, 그리고 선택된 모델은 공개적으로 이용 가능합니다.
만성 질환을 가진 개인들에게 처방된 치료를 준수하는 것은 비용이 많이 들거나 부작용이 있는 건강 결과를 피하기 위해 중요합니다. 특정 환자 그룹의 경우, 약물 복용 준수성을 향상시키기 위해 강도 높은 생활습관 개입이 필수적입니다. 치료 준수성을 정확하게 예측하는 것은 적시에 맞춤형 지원을 제공할 수 있는 주문형 개입 도구를 개발하는 길을 열어줄 수 있습니다. 스마트폰과 웨어러블 기기의 보급이 증가함에 따라 스마트 활동 모니터링 시스템을 개발하고 배포하는 것이 이전보다 쉬워졌습니다. 그러나 웨어러블 센서 기반의 치료 준수성 예측 시스템은 아직 널리 사용되지 않고 있습니다. 우리는 이러한 격차를 메우기 위해 머신 인텔리전스를 활용한 준수성 예측 및 개입 시스템(Adherence Forecasting and Intervention with Machine Intelligence, AIMI)을 제안합니다. AIMI는 스마트폰 센서와 이전 약물 복용 기록을 활용하여 처방된 약물 복용을 잊어버릴 가능성을 추정하는 지식 기반 준수성 예측 시스템입니다. 심혈관 질환을 관리하기 위해 매일 약물을 복용하는 27명의 참가자를 대상으로 사용자 연구를 수행했습니다. 다양한 입력 특징 조합을 사용하여 CNN과 LSTM 기반 예측 모델을 설계하고 개발했으며, LSTM 모델이 약물 복용 준수성을 0.932의 정확도와 0.936의 F-1 점수로 예측할 수 있음을 발견했습니다. 또한, 컨볼루션 및 순환 신경망 아키텍처를 포함한 일련의 제거 연구를 통해 미래에 대한 알려진 지식과 맞춤형 훈련을 활용하는 것이 약물 복용 준수성 예측의 정확도를 향상시킨다는 것을 입증했습니다. 코드는 https://github.com/ab9mamun/AIMI에서 확인할 수 있습니다.