번역이 포함된 일일 선별된 AI 연구 논문
대규모 다중 모달 생성 모델의 최근 발전은 이미지 및 동영상 생성을 포함한 다중 모달 생성 분야에서 인상적인 능력을 보여주고 있습니다. 이러한 모델들은 일반적으로 확산(diffusion) 및 플로우 매칭(flow matching)과 같은 다단계 프레임워크를 기반으로 구축되어, 본질적으로 추론 효율성(40-100 NFE 기능 평가 횟수 필요)이 제한됩니다. 다양한 few-step 방법이 추론 가속화를 목표로 하지만, 기존 솔루션들은 명확한 한계점을 가지고 있습니다. 점진적 증류(progressive distillation) 및 일관성 증류(consistency distillation)와 같은 주요 증류 기반 방법들은 반복적인 증류 과정을 필요로 하거나 매우 적은 단계(< 4-NFE)에서 성능이 크게 저하됩니다. 한편, 성능 향상을 위해 적대적 학습을 증류에 통합하는 방법(DMD/DMD2 및 SANA-Sprint 등)은 훈련 불안정성, 추가적 복잡성, 그리고 보조 훈련 모델로 인한 높은 GPU 메모리 오버헤드를 초래합니다. 이를 위해 우리는 고정된 사전 훈련된 교사 모델의 필요성을 우회하고 훈련 중 표준 적대적 네트워크를 회피하는 간단하면서 효과적인 1-단계 생성 모델 훈련 프레임워크인 TwinFlow를 제안합니다. 이는 대규모 효율적 모델 구축에 이상적입니다. 텍스트-이미지 변환 작업에서 우리의 방법은 1-NFE로 GenEval 점수 0.83을 달성하여, SANA-Sprint(GAN 손실 기반 프레임워크) 및 RCGM(일관성 기반 프레임워크)과 같은 강력한 기준 모델들을 능가합니다. 특히, 우리는 Qwen-Image-20B에 대한 전체 매개변수 훈련을 통해 TwinFlow의 확장성을 입증하고 이를 효율적인 few-step 생성기로 변환합니다. 단 1-NFE로 우리의 접근 방식은 GenEval 및 DPG-Bench 벤치마크에서 원본 100-NFE 모델의 성능에 필적하며, 미미한 품질 저하만으로 계산 비용을 100배 절감합니다. 프로젝트 페이지는 https://zhenglin-cheng.com/twinflow 에서 확인할 수 있습니다.
지시 기반 이미지 편집은 이미지 생성 기반 모델의 혜택을 받아 높은 심미적 품질을 달성하며 주요 과제로 지시 따르기 능력이 부각된 중요한 연구 분야로 등장했습니다. 기존 접근법은 지도 학습 또는 강화 학습을 통해 지시 준수를 개선하지만, 내재된 확률성과 숙고 과정의 부재로 인해 단일 단계 성공률은 여전히 제한적입니다. 본 연구에서는 인간의 인지 과정을 모방하여 '편집하면서 생각하는' 숙고적 편집 프레임워크를 제안합니다. 이는 비판적 결과 평가와 지시 개선, 이후 만족할 때까지 생성 과정을 반복하는 Think-while-Edit 사이클을 반복적으로 실행합니다. 구체적으로, 우리는 이 프레임워크의 추론 엔진 역할을 하는 단일 MLLM인 EditThinker를 훈련시켜 비판 점수, 추론 과정, 개선된 지시를 함께 생성합니다. 강화 학습을 통해 EditThinker의 사고와 편집 행위를 정렬함으로써 더 목표 지향적인 지시 개선이 가능합니다. 4개 벤치마크에 대한 폭넓은 실험을 통해 우리의 접근법이 모든 이미지 편집 모델의 지시 따르기 능력을 크게 향상시킴을 입증했습니다. 우리는 커뮤니티에 기여하기 위해 데이터 구축 프레임워크, 데이터셋 및 모델을 공개할 예정입니다.
강화 학습은 대규모 언어 모델의 사후 훈련 패러다임으로 부상하며, 그 추론 능력을 향상시키고 있습니다. 이러한 접근법은 각 샘플에 대해 기대 성능 대비 우수하거나 낮은 성능을 반영하는 어드밴티지 값을 계산함으로써 훈련에 긍정적 및 부정적 신호를 동시에 제공합니다. 그러나 기존 방법에서는 특히 초기 단계부터 두 신호를 무분별하게 혼합함으로써 모호한 지도와 제한된 성능 향상을 초래할 수 있습니다. 이러한 문제를 해결하기 위해 우리는 어드밴티지 신호 기반의 적응형 커리큘럼 메커니즘인 **CAPO**(**C**urriculum **A**dvantage **P**olicy **O**ptimization)를 제안합니다. 제안된 메커니즘은 긍정적 어드밴티지 샘플만으로 모방 학습을 부트스트랩하여 견고한 기반을 마련한 후, 부정적 신호를 점진적으로 도입하여 판별 능력을 배양함으로써 복잡한 시나리오에서의 일반화 성능을 향상시킵니다. GRPO, PPO, RLOO, Reinforce++ 등 다양한 최적화 방법과 호환되는 본 방법은 수학적 추론 과제에서 안정적이고 상당한 성능 향상을 꾸준히 달성하며, 더 나아가 다중 모드 그래픽 사용자 인터페이스(GUI) 추론 시나리오에도 효과적으로 일반화되어 다재다능하고 강력한 최적화 프레임워크로 자리매김합니다.
일관된 이미지 생성은 여러 이미지 간에 정체성, 스타일, 논리적 일관성을 충실히 보존하는 것을 요구하며, 이는 스토리텔링 및 캐릭터 디자인과 같은 응용 분야에서 필수적입니다. 지도 학습 기반 접근법은 시각적 일관성을 포착하는 대규모 데이터셋의 부족과 인간의 인지적 선호도를 모델링하는 복잡성으로 인해 이 작업에 어려움을 겪습니다. 본 논문에서는 강화 학습(RL)이 데이터 없이도 복잡하고 주관적인 시각적 기준을 모델이 학습할 수 있도록 함으로써 유망한 대안을 제공한다고 주장합니다. 이를 위해 우리는 특화된 일관성 보상 모델과 효율적인 RL 알고리즘을 결합한 포괄적인 프레임워크인 PaCo-RL을 소개합니다. 첫 번째 구성 요소인 PaCo-Reward는 자동화된 부분 그림 페어링을 통해 구축된 대규모 데이터셋으로 훈련된 pairwise 일관성 평가기입니다. 이는 작업 인지 지시문과 CoT 추론으로 강화된 생성적 자동회귀 채점 메커니즘을 통해 일관성을 평가합니다. 두 번째 구성 요소인 PaCo-GRPO는 RL 비용을 상당히 절감하는 새로운 해상도 분리 최적화 전략과 균형 잡히고 안정적인 보상 최적화를 보장하는 log-tamed 다중 보상 집계 메커니즘을 활용합니다. 두 가지 대표적인 하위 작업에 대한 광범위한 실험을 통해 PaCo-Reward가 시각적 일관성에 대한 인간의 인지와의 정렬을 크게 개선하며, PaCo-GRPO는 향상된 훈련 효율성과 안정성으로 최첨단 일관성 성능을 달성함을 보여줍니다. 이러한 결과들은 PaCo-RL이 실용적이고 확장 가능한 일관된 이미지 생성 솔루션으로서의 가능성을 강조합니다. 프로젝트 페이지는 https://x-gengroup.github.io/HomePage_PaCo-RL/에서 확인할 수 있습니다.
본 논문에서는 효율적인 멀티모달 이해, 생성 및 편집을 위한 통합 아키텍처인 EMMA를 제안한다. 구체적으로 EMMA는 다음과 같은 주요 구성 요소로 이루어진다. 1) 32배 압축률을 갖는 효율적인 오토인코더로, 생성에 필요한 토큰 수를 크게 줄인다. 이는 동일한 압축률을 이미지에 적용하여 이해와 생성 과업 간의 학습 균형을 보장한다. 2) 시각적 이해 토큰과 생성 토큰 간 토큰 단위 연결(concatenation) 대신 채널 단위 연결을 도입하여 통합 아키텍처 내 시각 토큰 수를 추가로 감소시킨다. 3) 과업별 모델링 요구사항을 충족시키면서 다양한 과업 간 상호 향상을 가능하게 하는 공유-분리 네트워크를 적용한다. 4) 시각적 이해 인코더에 적용된 전문가 혼합(MoE) 메커니즘으로, 적은 매개변수 증가만으로 인지 능력을 크게 향상시킨다. 폭넓은 실험을 통해 EMMA-4B가 효율성과 성능 모두에서 최첨단 통합 멀티모달 접근법(예: BAGEL-7B)을 크게 능가하는 동시에, 최근의 멀티모달 이해 및 생성 전문 모델(예: Qwen3-VL, Qwen-Image)과 비교하여 경쟁력 있는 결과를 달성함을 입증하였다. EMMA는 통합 멀티모달 아키텍처의 미래 발전을 위한 견고한 기반을 마련한 것으로 판단된다.
최근의 진전에도 불구하고 스튜디오 급 생산 기준을 충족하는 캐릭터 애니메이션 구현은 여전히 과제로 남아 있습니다. 기존 접근법은 구동 비디오의 모션을 참조 이미지로 전달할 수 있지만, 복잡한 모션과 크로스 아이덴티티 애니메이션을 포함한 실제 환경에서 구조적 정확도와 시간적 일관성을 유지하는 데 종종 실패합니다. 본 연구에서는 두 가지 핵심 혁신을 통해 이러한 과제를 해결하기 위해 설계된 프레임워크인 SCAIL(맥락 학습 기반 스튜디오 급 캐릭터 애니메이션)을 제시합니다. 첫째, 보다 강력하고 유연한 모션 신호를 제공하는 새로운 3D 포즈 표현 방식을 제안합니다. 둘째, 디퓨전-트랜스포머 아키텍처 내에서 전체 맥락 포즈 주입 메커니즘을 도입하여 전체 모션 시퀀스에 대한 효과적인 시공간 추론을 가능하게 합니다. 스튜디오 수준의 요구사항에 부응하기 위해 다양성과 품질을 모두 보장하는 정제된 데이터 파이프라인을 구축하고, 체계적인 평가를 위한 포괄적인 벤치마크를 마련했습니다. 실험 결과, SCAIL은 최첨단 성능을 달성하며 캐릭터 애니메이션의 스튜디오 급 신뢰성과 사실감을 한 단계 발전시킴을 보여줍니다.
대규모 언어 모델의 사후 훈련은 강화 학습을 통해 모델 성능과 정렬 품질을 향상시키는 데 의존합니다. 그러나 오프-폴리시 훈련 패러다임은 분포 이동을 초래하며, 이는 종종 정책을 신뢰 구역을 벗어나게 하여 정책 엔트로피 변동과 불안정한 기울기로 나타나는 훈련 불안정성을 야기합니다. PPO-Clip은 중요도 클리핑을 통해 이 문제를 완화하지만, 여전히 행동의 전역적 분포 이동을 간과합니다. 이러한 과제를 해결하기 위해 본 연구에서는 현재 정책과 이전 정책 간의 엔트로피 비율을 새로운 전역 지표로 제안합니다. 이 지표는 업데이트 과정 전반에 걸친 정책 탐색의 상대적 변화를 효과적으로 정량화합니다. 이 지표를 기반으로 엔트로피 비율 클리핑(ERC) 메커니즘을 도입하여 엔트로피 비율에 양방향 제약을 가합니다. 이를 통해 전역 분포 수준에서 정책 업데이트를 안정화하고, PPO-clip이 샘플링되지 않은 행동의 확률 변화를 규제하지 못하는 점을 보완합니다. ERC를 DAPO 및 GPPO 강화 학습 알고리즘에 통합하였으며, 다양한 벤치마크에서의 실험 결과 ERC가 지속적으로 성능을 향상시키는 것으로 나타났습니다.
단일 정적 이미지로부터 인터랙티브하고 동적인 4D 장면을 생성하는 것은 여전히 핵심적인 과제로 남아 있습니다. 기존의 대부분의 생성-후-복원 및 복원-후-생성 방법은 기하학적 구조와 운동을 분리하여 시공간적 불일치와 낮은 일반화 성능을 초래합니다. 이를 해결하기 위해 우리는 복원-후-생성 프레임워크를 확장하여 운동 생성과 기하학적 복원을 공동으로 수행하는 4D 합성 방법(MoRe4D)을 제안합니다. 먼저 고밀도 점 궤적을 포함한 60,000개의 비디오 샘플로 구성된 대규모 데이터셋인 TrajScene-60K를 도입하여 고품질 4D 장면 데이터의 부족 문제를 해결했습니다. 이를 기반으로 기하학적으로 일관되고 운동적으로 그럴듯한 4D 점 궤적을 공동 생성하는 확산 기반 4D 장면 궤적 생성기(4D-STraG)를 제안합니다. 단일 시점 사전 지식을 활용하기 위해 깊이 정보 기반 운동 정규화 전략과 효과적인 기하학 및 역학 통합을 위한 운동 인식 모듈을 설계했습니다. 또한 4D 점 궤적 표현으로부터 임의의 카메라 궤적을 가진 비디오를 렌더링하기 위한 4D 시점 합성 모듈(4D-ViSM)을 제안합니다. 실험 결과, MoRe4D는 단일 이미지로부터 다중 시점 일관성과 풍부한 동적 세부 정보를 갖춘 고품질 4D 장면을 생성함을 보여줍니다. 코드: https://github.com/Zhangyr2022/MoRe4D.
이미지 생성 기술의 지속적인 발전으로 GPT-Image-1 및 Qwen-Image와 같은 고급 모델들은 텍스트-이미지 일관성과 세계 지식 측면에서 뛰어난 성과를 거두었습니다. 그러나 이러한 모델들은 여전히 사실적인 이미지 생성에는 한계를 보입니다. 간단한 T2I 작업에서조차 이들은 "지나치게 매끄러운 피부"와 "얼굴의 기름기 있는 광택"과 같은 특징을 보이는 뚜렷한 AI 아티팩트를 가진 "가짜" 이미지를 생성하는 경향이 있습니다. "현실과 구분할 수 없음"이라는 원래의 생성 목표를 재점화하기 위해 우리는 사실적인 텍스트-이미지 프레임워크인 RealGen을 제안합니다. RealGen은 프롬프트 최적화를 위한 LLM 구성 요소와 사실적인 이미지 생성을 위한 디퓨전 모델을 통합합니다. 적대적 생성에서 영감을 받은 RealGen은 "검출기 보상" 메커니즘을 도입하며, 이는 의미 수준 및 특징 수준의 합성 이미지 검출기를 사용하여 아티팩트를 정량화하고 사실성을 평가합니다. 우리는 GRPO 알고리즘과 함께 이 보상 신호를 활용하여 전체 생성 파이프라인을 최적화하여 이미지의 사실성과 디테일을 크게 향상시킵니다. 더 나아가, 우리는 검출기 점수화와 아레나 점수화를 활용한 자동 평가 벤치마크인 RealBench를 제안합니다. 이를 통해 인간 개입 없이 사실성을 평가할 수 있으며, 실제 사용자 경험에 더 부합하는 정확한 결과를 도출합니다. 실험 결과, RealGen은 사실성, 디테일, 미적 측면에서 GPT-Image-1, Qwen-Image와 같은 일반 모델뿐만 아니라 FLUX-Krea와 같은 전문 사실적 생성 모델을 크게 능가하는 성능을 보여줍니다. 코드는 https://github.com/yejy53/RealGen에서 확인할 수 있습니다.
비전-언어 모델(VLM)의 효과적인 판단 모델은 모델 개발에 매우 중요합니다. 현재 VLM 판단 모델을 훈련하는 방법은 대규모 인간 선호도 주석에 주로 의존하고 있습니다. 그러나 이러한 접근 방식은 비용이 많이 들며, 모델이 빠르게 개선됨에 따라 주석은 쉽게 낡아빠지게 됩니다. 본 연구에서는 인간 선호도 주석 없이 오직 자체 합성된 데이터만을 사용하여 VLM 판단 모델을 자기 훈련시키는 프레임워크를 제시합니다. 우리의 방법은 반복적이며 세 단계로 구성됩니다: (1) 다양한 품질 수준의 다중모드 명령-응답 쌍을 생성하고, (2) 각 쌍에 대한 추론 과정과 판단을 생성하여 기대 품질 수준과 일치하지 않는 쌍을 제거하며, (3) 정확한 판단 답변과 그에 대한 추론 과정을 바탕으로 훈련합니다. 우리는 결과적인 판단 모델을 정확성, 선호도, 추론, 안전성, 시각 질의응답 등 다양한 영역에서 Multimodal RewardBench와 VL-RewardBench를 통해 평가합니다. 우리의 방법은 Llama-3.2-11B 다중모드 판단 모델의 VL-RewardBench 전체 정확도를 0.38에서 0.51로 향상시키며, 특히 일반성, 환각, 추론 차원에서 큰 향상을 보여 Llama-3.2-90B, GPT-4o, Claude 3.5 Sonnet 등 훨씬 더 큰 모델들을 종종 능가하는 성능을 보입니다. 이러한 인간 주석 불필요 방식의 전반적인 강점은 빠르게 발전하는 VLM 능력과 함께 진화하는 미래의 자기 판단 모델의 가능성을 시사합니다.
3D 자산 생성 방법론은 최근 눈부신 발전을 이루었으나, 객체 기하구조에 대한 직관적이고 정밀한 제어는 여전히 주요 과제로 남아 있습니다. 기존 접근법은 주로 텍스트나 이미지 프롬프트에 의존하는데, 이러한 방식은 기하학적 정밀도 측면에서 한계를 보입니다: 언어는 모호할 수 있으며, 이미지는 편집이 번거롭기 때문입니다. 본 연구에서는 3D 생성의 명시적 공간 제어를 위한 학습 불필요형 테스트-타임 방법론인 SpaceControl을 소개합니다. 우리의 접근법은 단순한 기본 도형부터 정교한 메쉬에 이르기까지 다양한 기하학적 입력을 수용하며, 추가 학습 없이도 최신 사전 학습된 생성 모델과 원활하게 통합됩니다. 제어 가능한 매개변수를 통해 사용자는 기하학적 정확도와 출력 결과의 현실감 사이에서 균형을 조절할 수 있습니다. 체계적인 정량적 평가와 사용자 연구를 통해 SpaceControl이 높은 시각적 품질을 유지하면서 기하학적 정확도 측면에서 학습 기반 및 최적화 기반 기준 방법들을 능가함을 입증합니다. 마지막으로, 초구면체(superquadric)의 실시간 편집을 통해 텍스처가 적용된 3D 자산으로 직접 변환할 수 있는 대화형 사용자 인터페이스를 제시하여 창의적인 작업 과정에서의 실용적 활용을 용이하게 합니다. 프로젝트 페이지는 https://spacecontrol3d.github.io/에서 확인할 수 있습니다.
시각적 공간 추론은 다중 모드 대규모 언어 모델(MLLM)이 객체 속성과 공간 관계를 이해하는 데 핵심적이지만, 현재 모델들은 여전히 3D 인식 추론에 어려움을 겪고 있습니다. 기존 접근법은 일반적으로 깊이 및 분할과 같은 보조 양상을 통해 RGB 입력을 증강하여 인식을 강화하거나, 공간 VQA 데이터셋으로 학습하고 강화 학습을 적용하여 추론을 향상시키는 방식으로 두 측면을 분리하여 다루고 있습니다. 본 연구에서는 통합 MLLM이 고유한 방식으로 공간 인식을 강화하고, 적응형 교차 추론을 통해 더 강력한 공간 지능을 달성할 수 있는지 조사합니다. 우리는 깊이와 분할을 보조 양상으로 활용하고, 보조 양상 생성 및 적응형 교차 추론 능력을 습득하기 위해 두 단계로 학습되는 통합 MLLM인 COOPER를 제안합니다. COOPER는 일반 성능을 유지하면서 공간 추론에서 평균 6.91%의 향상을 달성했습니다. 더욱이 보조 양상 생성만을 위해 학습된 변형 모델도 거리 및 크기 추정에서 7.92%의 성능 향상을 보였으며, 이는 보조 양상 생성을 학습함으로써 공간 지식을 내재화하고 공간 이해를 강화하는 데 도움이 됨을 시사합니다.
추론 중심 비디오 객체 분할은 본질적으로 복잡한 과제입니다. 쿼리는 정적 외형이 아닌 동역학, 인과관리, 시간적 상호작용을 참조하는 경우가 많기 때문입니다. 그러나 기존 솔루션들은 일반적으로 이러한 요소들을 잠재 임베딩을 통한 단순화된 추론으로 축소하여 추론 과정을 불투명하고 실질적으로 추적 불가능하게 만듭니다. 이에 우리는 명시적 분해 관점을 채택하고 사전 학습된 비전-언어 모델(VLM)의 기본 인터페이스에서 추론을 순차적 결정으로 실행하는 ReVSeg를 소개합니다. 모든 추론을 단일 단계 예측으로 접는 대신, ReVSeg는 의미 해석, 시간적 증거 선택, 공간적 위치 파악이라는 세 가지 명시적 연산을 실행하여 사전 학습된 능력을 정렬합니다. 더 나아가 강화 학습을 활용하여 다단계 추론 체인을 최적화함으로써 모델이 결과 기반 신호로부터 자신의 결정 품질을 자체 개선할 수 있게 합니다. 실험 결과, ReVSeg는 표준 비디오 객체 분할 벤치마크에서 최첨단 성능을 달성하고 해석 가능한 추론 궤적을 생성함을 보여줍니다. 프로젝트 페이지는 https://clementine24.github.io/ReVSeg/에서 확인할 수 있습니다.
최근 생성형 비디오 모델의 발전으로 고품질 비디오 합성, 특히 텍스트 및 동작 입력을 조건으로 하는 제어 가능 비디오 생성(예: 지시어 기반 비디오 편집 및 로봇 공학의 세계 모델링) 분야에서 중대한 돌파구가 이루어졌습니다. 이러한 뛰어난 능력에도 불구하고, 제어 가능 비디오 모델은 종종 환각(hallucination)을 일으키며, 이는 물리적 현실과 일치하지 않는 미래 비디오 프레임을 생성하여 로봇 정책 평가 및 계획과 같은 많은 작업에서 심각한 문제를 제기합니다. 그러나 최첨단 비디오 모델은 자신의 신뢰도를 평가하고 표현하는 능력이 부족해 환각 완화를 저해합니다. 이 문제를 체계적으로 해결하기 위해 우리는 서브패치 수준에서 조밀한 신뢰도 추정을 위한 연속 스케일 보정 제어 가능 비디오 모델을 훈련하는 불확실성 정량화(C3) 방법을 제안하며, 생성된 각 비디오 프레임의 불확실성을 정확하게 지역화합니다. 우리의 UQ 방법은 비디오 모델이 자신의 불확실성을 추정할 수 있도록 세 가지 핵심 혁신을 도입합니다. 첫째, 우리 방법은 엄격하게 적절한 채점 규칙을 통해 정확성과 보정을 위한 비디오 모델 훈련 프레임워크를 개발합니다. 둘째, 픽셀 공간 접근법과 관련된 훈련 불안정성과 과도한 훈련 비용을 피하며 잠재 공간에서 비디오 모델의 불확실성을 추정합니다. 셋째, 직관적인 시각화를 위해 조밀한 잠재 공간 불확실도를 해석 가능한 픽셀 수준의 RGB 공간 불확실도로 매핑하여 신뢰할 수 없는 영역을 식별하는 고해상도 불확실도 히트맵을 제공합니다. 대규모 로봇 학습 데이터셋(Bridge 및 DROID)에 대한 광범위한 실험과 실제 평가를 통해 우리 방법이 훈련 분포 내에서 보정된 불확실도 추정치를 제공할 뿐만 아니라 효과적인 분포 외 탐지를 가능하게 함을 입증합니다.
자기 발전은 현재 AI 분야를 흥분시키는 목표이지만 위험으로 가득하며 완전히 달성하는 데 시간이 걸릴 수 있습니다. 우리는 인류에게 더 실현 가능하고 나은 목표가 공동 발전, 즉 인간 연구자와 AI의 협력을 극대화하여 공동 초지능을 달성하는 것이라고 주장합니다. 즉, 아이디어 구상부터 실험까지 AI 연구를 함께 수행하기 위해 인간 연구자와 협력하는 AI 시스템의 능력을 향상시키는 것을 특별히 목표로 삼음으로써 AI 연구를 가속화하고 공생을 통해 AI와 인간 모두에게 더 안전한 초지능을 부여하는 것입니다. 인간 연구 개선을 포함하는 루프에 초점을 맞추면 더 빠르고 안전하게 목표에 도달할 수 있을 것입니다.
다중모달 문서 검색 시스템은 시맨틱 검색을 위한 시각 및 텍스트 콘텐츠 정렬에 있어 큰 진전을 보여왔습니다. 그러나 기존 대부분의 접근법은 여전히 영어 중심에 치우쳐 있어 다국어 환경에서의 효과성이 제한됩니다. 본 연구에서는 이러한 언어 간 격차를 해소하고 다양한 언어 및 문화적 맥락에서 적용 가능하도록 설계된 프레임워크인 M3DR(다국어 다중모달 문서 검색)을 제안합니다. M3DR은 합성 다국어 문서 데이터를 활용하며, 다양한 비전-언어 아키텍처와 모델 크기에 걸쳐 일반화되어 강력한 교차 언어 및 교차 모달 정렬을 가능하게 합니다. 대조 학습을 통해 우리의 모델은 언어 간에 효과적으로 전이되는 텍스트 및 문서 이미지에 대한 통합 표현을 학습합니다. 우리는 형태론적으로 다양한 22개 언어에서 이 능력을 검증하며, 언어 및 문자 체계 변이에 걸쳐 일관된 성능과 적응력을 입증합니다. 더 나아가 실제 다국어 시나리오를 포착하는 포괄적인 벤치마크를 도입하여 단일 언어, 다국어 및 혼합 언어 설정 하에서 모델을 평가합니다. M3DR은 단일 밀집 벡터 및 ColBERT 스타일의 토큰 수준 다중 벡터 검색 패러다임 모두에 걸쳐 일반화됩니다. 우리의 모델인 NetraEmbed와 ColNetraEmbed는 교차 언어 검색에서 약 150%의 상대적 성능 향상을 통해 최첨단 성능을 달성합니다.
장영상 이해(LVU)는 실제 세계의 질의에 답변하는 데 수시간 분량의 대부분 중복되고 관련 없는 콘텐츠 속에 흩어져 있는 희소하고 시간적으로 분산된 단서들에 의존해야 하기 때문에 어려운 과제입니다. 에이전트 기반 파이프라인이 비디오 추론 능력을 향상시키지만, 기존 프레임워크는 비디오 정보를 인지하기 위해 질의와 무관한 캡션 생성기에 의존하여 관련 없는 콘텐츠에 계산 자원을 낭비하고 세밀한 시간적·공간적 정보를 흐리게 만듭니다. 능동적 지각 이론에 기반하여, 우리는 LVU 에이전트가 무엇을, 언제, 어디를 관찰할지 능동적으로 결정하고 현재 관찰이 질의에 답변하기에 충분한지 지속적으로 평가해야 한다고 주장합니다. 우리는 비디오를 상호작용 가능한 환경으로 간주하고 픽셀에서 직접 질의 관련 증거를 간결하게 획득하는 증거 탐색 프레임워크인 능동적 비디오 지각(AVP)을 제시합니다. 구체적으로 AVP는 MLLM 에이전트를 활용한 반복적인 계획-관찰-성찰 과정을 실행합니다. 각 라운드에서 계획자는 표적 비디오 상호작용을 제안하고, 관찰자는 이를 실행하여 타임스탬프가 부착된 증거를 추출하며, 성찰자는 증거의 충분성을 평가하여 답변과 함께 중단하거나 추가 관찰을 트리거합니다. 5개의 LVU 벤치마크에서 AVP는 가장 높은 성능을 달성하며 상당한 향상을 보였습니다. 특히 AVP는 최고의 에이전트 기반 방법보다 평균 정확도에서 5.7% 우수한 성능을 보이면서도 추론 시간의 18.4%, 입력 토큰의 12.4%만을 요구합니다.
자율주행 분야의 시간적 이해는 최근 최첨단 시각-언어 모델(VLM)에게도 여전히 큰 과제로 남아 있습니다. 기존 연구에서는 시간적 추론 능력 향상을 목표로 한 데이터셋과 벤치마크를 도입했지만, 이러한 시도는 스포츠, 요리, 영화 등 다른 영상 콘텐츠에 중점을 두었습니다. 현재까지 에고센트릭(1인칭 시점) 자율주행 영상이 지닌 고유한 시간적 이해 과제에만 집중하는 벤치마크는 존재하지 않았습니다. 이러한 공백을 메우기 위해 자율주행 시간적 이해(TAD) 벤치마크를 제안하며, 이는 VLM이 자율주행 환경에서 동작 간의 동적 관계를 파악하는 능력을 평가합니다. TAD는 인간이 설계한 7가지 과제를 아우르는 약 6,000개의 질문-응답(QA) 쌍으로 구성됩니다. 또한 9개의 오픈소스 및 클로즈드소스 일반-purpose 모델과 최첨단 자율주행 전문 모델에 대한 평가를 수행합니다. TAD에 적용했을 때, 현재 최첨단 모델들은 미세한 동작 이해의 부족으로 인해 기대에 미치지 못하는 정확도를 보였습니다. TAD에서의 동작 이해와 전반적인 정확도를 향상시키기 위해 두 가지 새로운 비학습(non-learning) 기반 해결책을 제안합니다: 사고 연쇄(Chain-of-Thought, CoT)를 활용하는 Scene-CoT와 에고센트릭 시간 인지 지도(temporal cognitive map)를 통합하는 TCogMap입니다. 제안된 방법론을 기존 VLM과 결합하여 TAD 평균 정확도를 최대 17.72%까지 향상시켰습니다. TAD 벤치마크의 도입, 여러 최첨단 모델에 대한 벤치마킹 수행, 그리고 효과적인 개선 방안 제안을 통해, 본 연구는 자율주행 시간적 이해에 관한 향후 연구를 촉진하는 것을 목표로 합니다. 벤치마크 및 평가 코드는 각각 https://huggingface.co/datasets/vbdai/TAD 와 https://github.com/vbdi/tad_bench 에서 이용 가능합니다.
본 연구에서는 대장내시경 분야의 다중모달 인텔리전스 발전을 위한 오픈 이니셔티브인 Colon-X를 소개한다. 먼저 76개 임상 소견과 18개 다중모달 작업에 걸쳐 110만 개 이상의 시각 질의응답 항목으로 구성된 역대 가장 포괄적인 다중모달 데이터셋인 ColonVQA를 구축하였다. 커뮤니티 차원의 데이터 기반을 제공하는 것을 넘어, 우리는 대장내시경에서 중요한 yet 미개척된 전환점—다중모달 이해에서 임상 추론으로의 진화—을 심도 있게 탐구한다: (a) 현재 다중모달 이해 행태의 현황을 파악하기 위해 22개 다중모달 대규모 언어 모델의 일반화 성능을 체계적으로 평가하고 인간에 의한 교란 하에서의 신뢰성을 검토하였다. 그 결과, 주요 MLLM들의 임상 출력이 견고성과 신뢰성 측면에서 아직 요원한 수준임이 드러났다. (b) 이 격차를 해소하기 위해 대장내시경에 특화된 추론 중심 인텔리전스를 추가로 탐구한다. 구체적으로, 다중 전문가 토론 파이프라인을 통해 주석이 달린 임상 기반 추론 데이터셋인 ColonReason을 구축하고, 작업 적응형 보상 및 경사 안정화 최적화 기법을 통합한 최초의 R1 스타일 모델인 ColonR1을 개발하였다. 데이터 부족 조건에서 우리의 ColonR1은 56.61%의 전체 정확도를 달성하여 지도 미세조정 대비 25.22% 우수한 성능을 보였으며, 다중모달 대장내시경 분석을 위한 새로운 추론 가능 기반선을 설정하였다. 모든 데이터와 모델 리소스는 https://github.com/ai4colonoscopy/Colon-X에서 공개적으로 이용 가능하다.
최근 비디오 생성 분야의 발전은 세계 시뮬레이터 구축에 대한 뛰어난 가능성을 보여주고 있습니다. 그러나 현존하는 모델들은 여전히 물리적 일관성을 유지한 결과물을 생성하는 데 어려움을 겪고 있으며, 특히 대규모 또는 복잡한 동역학을 다룰 때 두드러집니다. 이러한 한계는 기존 접근법들이 물리적 프롬프트에 대해 등방적으로 반응하고 생성된 콘텐츠와 지역화된 물리적 단서 사이의 세밀한 정렬을 소홀히 하기 때문에 발생합니다. 이러한 문제를 해결하기 위해 우리는 명시적인 물리 인식 조건화와 이방성 생성을 가능하게 하는 Progressive Physical Alignment Framework(ProPhy)를 제안합니다. ProPhy는 판별적 물리 사전 지식 추출을 위한 2단계 Mixture-of-Physics-Experts(MoPE) 메커니즘을 사용합니다. 여기서 의미 전문가(Semantic Experts)는 텍스트 설명으로부터 의미 수준의 물리 법칙을 추론하고, 정제 전문가(Refinement Experts)는 토큰 수준의 물리적 동역학을 포착합니다. 이 메커니즘을 통해 모델은 기저 물리 법칙을 더 잘 반영하는 세밀한 물리 인식 비디오 표현을 학습할 수 있습니다. 더 나아가, 우리는 비전-언어 모델(VLMs)의 물리 추론 능력을 정제 전문가로 이전하여 동적 물리 현상을 더 정확하게 표현할 수 있도록 하는 물리 정렬 전략을 도입합니다. 물리 인식 비디오 생성 벤치마크에서의 광범위한 실험을 통해 ProPhy가 기존 최첨단 방법들보다 더 사실적이고 동적이며 물리적으로 일관된 결과를 생성함을 입증했습니다.
훈련 후 양자화(PTQ)는 대규모 언어 모델(LLM)의 대중화에 중요한 역할을 합니다. 그러나 기존의 저비트 양자화 및 희소화 기술은 제한된 하드웨어 지원으로 인해 정확도와 효율성의 균형을 맞추기 어렵습니다. 예를 들어, W4A8은 W8A8과 동일한 최고 TOPS만 달성할 수 있으며, GPU에서 지원하는 희소 데이터 형식(2:4 반구조적 희소화)은 정확도 손실로 인해 거의 채택되지 않습니다. 이러한 격차를 해소하기 위해 본 논문에서는 새로운 하드웨어와 기존 GPU에서 잠재적으로 쉽게 지원될 수 있는 양자화와 희소화를 위한 통합 데이터 형식인 SQ-형식(Sparse-Quantized Format)을 제안합니다. SQ-형식은 희소 행렬이 높은 정밀도에서 가속될 수 있고, 낮은 정밀도 행렬 곱셈도 그에 따라 가속될 수 있다는 사실을 활용합니다. 이를 통해 SQ-형식은 성능과 처리량 사이의 파레토 개선을 달성하고자 제안되었습니다. 이 형식은 이상치 불평등 상태를 보이는 활성화 함수에 특히 적합하며, 이들의 정적 압축을 가능하게 합니다. 우리는 SQ-형식을 사용한 최첨단 PTQ 성능을 보여주고, 이를 지원하는 데 필요한 하드웨어를 제안하며, 더 나아가 차세대 AI 가속기를 위한 설계 탐색과 통찰을 제공합니다.
효과적인 지진 위험 감소는 정확한 현장 특화 평가에 기반합니다. 이는 현지 지반 조건이 지진동 특성에 미치는 영향을 나타낼 수 있는 모델을 필요로 합니다. 이러한 맥락에서 기록된 지진동으로부터 지반 조건에 의해 제어되는 특징을 학습하는 데이터 기반 접근법은 유망한 방향을 제시합니다. 본 연구는 시간 영역 가속도계 기록으로부터 강한 지진동 생성을 다루며, 시간 영역 조건부 생성기인 TimesNet-Gen을 소개합니다. 이 접근법은 관측소 특화 잠재 병목 구간을 사용합니다. 생성 결과는 관측소별 실제 기록과 생성된 기록 간의 HVSR 곡선 및 기본 지반 주파수(f_0) 분포를 비교하여 평가하며, f_0 분포 혼동 행렬을 기반으로 한 점수로 관측소 특이성을 요약합니다. TimesNet-Gen은 강력한 관측소 단위 정렬 성능을 달성하며, 현장 특화 강한 지진동 합성을 위한 스펙트로그램 기반 조건부 VAE 기준 모델과 비교하여 유리한 결과를 보입니다. 우리의 코드는 https://github.com/brsylmz23/TimesNet-Gen 에서 이용 가능합니다.
계산 수요가 지속적으로 증가함에 따라 AI의 환경적 발자국을 평가하려면 에너지 및 물 소비를 넘어 특수 하드웨어의 물질적 수요를 포함해야 합니다. 본 연구는 계산 작업량을 물리적 하드웨어 수요와 연결하여 AI 훈련의 물질적 발자국을 정량화합니다. 유도결합 플라즈마 발광 분광법을 통해 Nvidia A100 SXM 40GB 그래픽 처리 장치(GPU)의 원소 구성을 분석한 결과 32가지 원소가 확인되었습니다. 결과에 따르면 AI 하드웨어는 약 90%가 중금속으로 구성되어 있으며 귀금속은 극미량만 포함되어 있습니다. 구리, 철, 주석, 실리콘, 니켈 원소가 질량 기준으로 GPU 구성의 대부분을 차지합니다. 다단계 방법론을 통해 이러한 측정값을 다양한 수명 주기별 GPU당 계산 처리량과 통합하고, 서로 다른 훈련 효율 체계에서 특정 AI 모델을 훈련시키는 데 필요한 계산 요구 사항을 고려합니다. 시나리오 기반 분석에 따르면 Model FLOPs Utilization(MFU) 및 하드웨어 수명에 따라 GPT-4 훈련에는 1,174~8,800개의 A100 GPU가 필요하며, 이는 최대 7톤의 유해 원소 채굴 및 최종적 처분에 해당합니다. 소프트웨어와 하드웨어 최적화 전략을 결합하면 물질적 수요를 줄일 수 있습니다. MFU를 20%에서 60%로 높이면 GPU 요구량이 67% 감소하며, 수명을 1년에서 3년으로 연장하면 유사한 수준의 절감 효과를 얻습니다. 두 조치를 함께 구현하면 GPU 필요량을 최대 93%까지 줄일 수 있습니다. 본 연구의 결과는 GPT-3.5와 GPT-4 사이에서 관찰된 것과 같은 점진적인 성능 향상이 균형을 잃을 정도로 높은 물질적 비용을 수반함을 보여줍니다. 이 연구는 AI 확장성에 대한 논의에 물질 자원 고려 사항을 반드시 포함해야 함을 강조하며, AI의 미래 발전은 자원 효율성과 환경 책임성 원칙과 조화를 이루어야 함을 시사합니다.
대규모 언어 모델(LLM)은 일반적으로 사후 훈련 단계에서 안전성을 위해 조정되지만, 여전히 사용자에게 잠재적 위험을 초래할 수 있는 부적절한 출력을 생성할 수 있습니다. 이러한 과제는 모델 입력과 출력 모두에서 작동하는 견고한 안전 장치의 필요성을 강조합니다. 본 연구에서는 포괄적인 입출력 조정을 통해 LLM 시스템의 안전성을 강화하도록 설계된 최첨단 인스트럭션 파인튜닝 LLM인 Roblox Guard 1.0을 소개합니다. 이는 조정 능력을 향상시키기 위해 다중 LLM 파이프라인을 활용합니다. Llama-3.1-8B-Instruct 백본을 기반으로 구축된 우리 모델은 이전에 접하지 못한 안전 분류 체계에 대해 일반화하도록 인스트럭션 파인튜닝되었으며, 도메인 외 안전 벤치마크에서 강력한 성능을 보여줍니다. 인스트럭션 파인튜닝 과정은 합성 및 오픈 소스 안전 데이터셋의 혼합을 사용하며, 상황적 이해와 의사 결정을 향상시키기 위해 사고 연쇄(CoT) 근거 및 입력 반전 기법으로 증강됩니다. 체계적인 평가를 지원하기 위해, 우리는 LLM 안전 장치 및 조정 프레임워크의 효과를 평가하기 위한 확장 가능한 안전 분류 체계를 갖춘 새로운 벤치마크인 RobloxGuard-Eval도 공개합니다.