번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 최적화는 여전히 중요한 과제로 남아 있으며, 특히 모델 규모 확장이 알고리즘 부정확성과 훈련 불안정성에 대한 민감도를 악화시킵니다. 옵티마이저 분야의 최근 발전은 모멘텀 직교화를 통해 수렴 효율성을 향상시켰지만, 두 가지 주요 강건성 한계를 지닙니다: 직교화 정밀도의 차원 취약성과 이상치 유발 노이즈에 대한 취약성입니다. 이러한 강건성 문제를 해결하기 위해 우리는 이중 강건성 메커니즘을 통해 훈련 안정성을 향상시키는 강건한 직교화 옵티마이저인 ROOT를 소개합니다. 첫째, 특정 행렬 크기에 맞춰진 세분화된 계수를 적용한 적응형 뉴턴 반복법을 사용하여 다양한 아키텍처 구성에서 일관된 정밀도를 보장하는 차원 강건 직교화 기법을 개발했습니다. 둘째, 의미 있는 기울기 방향을 보존하면서 이상치 노이즈를 억제하는 근위 최적화를 통한 최적화 강건 프레임워크를 도입했습니다. 폭넓은 실험을 통해 ROOT가 Muon 및 Adam 기반 옵티마이저 대비 특히 노이즈가 많고 비볼록한 시나리오에서 더 빠른 수렴과 우수한 최종 성능으로 현저히 향상된 강건성을 달성함을 입증했습니다. 우리의 연구는 현대 대규모 모델 훈련의 복잡성을 처리할 수 있는 강건하고 정밀한 옵티마이저 개발을 위한 새로운 패러다임을 정립합니다. 코드는 https://github.com/huawei-noah/noah-research/tree/master/ROOT에서 공개될 예정입니다.
최근 LLM(대형 언어 모델) 기반 진화 연산, 특히 AlphaEvolve(Novikov et al., 2025; Georgiev et al., 2025)의 발전은 새로운 수학적 구조를 발견하고 도전적인 최적화 문제를 해결하는 데 있어 놀라운 성과를 보여주었다. 그러나 출판된 연구에서 제공되는 높은 수준의 설명은 많은 구현 세부 사항을 명시하지 않아 재현성과 추가 연구를 방해하고 있다. 본 보고서에서는 AlphaEvolve에서 영감을 받은 하이브리드 LLM-진화 접근법을 연구하고 실험할 수 있는 확장 가능한 오픈소스 프레임워크인 GigaEvo를 소개한다. 우리의 시스템은 주요 구성 요소의 모듈식 구현을 제공한다: MAP-Elites 품질-다양성 알고리즘, 비동기 DAG 기반 평가 파이프라인, 통찰 생성 및 양방향 계보 추적이 가능한 LLM 기반 변이 연산자, 그리고 유연한 다중 아일랜드 진화 전략. 재현성을 평가하고 구현을 검증하기 위해 GigaEvo를 AlphaEvolve 논문에서 제시된 도전적인 문제들(Heilbronn 삼각형 배치, 정사각형 내 원 채우기, 고차원 입맞춤 수)에 대해 평가한다. 이 프레임워크는 모듈성, 동시성, 실험의 용이성을 강조하며, 선언적 구성을 통해 신속한 프로토타이핑을 가능하게 한다. 우리는 시스템 아키텍처, 구현 결정, 실험 방법론에 대한 상세한 설명을 제공하여 LLM 기반 진화 방법에 대한 추가 연구를 지원한다. GigaEvo 프레임워크와 모든 실험 코드는 https://github.com/AIRI-Institute/gigaevo-core에서 확인할 수 있다.
의료 영상 분할은 생의학적 발견의 기초적 과제입니다. 기존 방법론은 일반화 능력이 부족하며 새로운 임상 적용을 위해 방대하고 시간 소모적인 수동 주석이 필요합니다. 본 연구에서는 의료 영상 및 비디오 분할을 위한 텍스트 프롬프트 가능 의료 분할 모델인 MedSAM-3를 제안합니다. 의미론적 개념 레이블이 결합된 의료 영상으로 Segment Anything Model(SAM) 3 아키텍처를 미세 조정함으로써, 우리의 MedSAM-3는 기하학적 프롬프트에만 의존하지 않고 개방형 어휘 텍스트 설명을 통한 해부학적 구조의 정밀한 타겟팅을 가능하게 하는 의료 프롬프트 가능 개념 분할(PCS)을 구현합니다. 또한 MLLM(다중 모드 대형 언어 모델)을 통합하여 에이전트 참여형 워크플로우에서 복잡한 추론과 반복적 정제를 수행하는 MedSAM-3 에이전트 프레임워크를 도입합니다. X선, MRI, 초음파, CT 및 비디오를 포함한 다양한 의료 영상 방식에 걸친 포괄적 실험을 통해 우리의 접근법이 기존 전문 모델 및 파운데이션 모델을 크게 능가함을 입증합니다. 코드와 모델은 https://github.com/Joey-S-Liu/MedSAM3에서 공개할 예정입니다.
비전-언어 에이전트는 다양한 다중모달 추론 과제에서 눈에 띄는 진전을 이루었지만, 학습은 여전히 인간 주석 감독의 한계에 제약을 받고 있습니다. 최근의 자기 보상 접근법은 모델이 스스로 비평가나 보상 제공자의 역할을 하도록 함으로써 이러한 제약을 극복하려 시도합니다. 그러나 순수하게 텍스트 기반의 자기 평가는 복잡한 시각 추론 단계를 검증하는 데 어려움을 겪으며 평가 환각 문제가 자주 발생합니다. 이러한 과제를 해결하기 위해 최근 도구 통합 추론 분야의 발전에 영감을 받아, 우리는 도구 통합 추론을 통해 지속적 개선을 이루는 자기 진화형 비전-언어 에이전트인 Agent0-VL을 제안합니다. Agent0-VL은 도구 사용을 추론뿐만 아니라 자기 평가와 자기 수정에도 통합하여, 모델이 증거 기반 분석을 통해 자신의 추론을 성찰하고 검증하며 개선할 수 있도록 합니다. 이는 단일 LVLM 내에서 두 가지 상호 시너지적인 역할을 통합합니다: 다중 턴 도구 통합 추론을 수행하는 Solver와, 도구 기반 비평을 통해 구조화된 피드백과 세분화된 자기 보상을 생성하는 Verifier입니다. 이러한 역할들은 자기 진화 추론 사이클을 통해 상호작용하며, 도구 기반 검증과 강화 학습이 함께 추론 및 평가 분포를 정렬하여 안정적인 자기 개선을 가능하게 합니다. 이러한 외부 보상 제로 진화를 통해 Agent0-VL은 인간 주석이나 외부 보상 모델 없이도 추론 및 검증 행동을 정렬하며 지속적인 자기 개선을 달성합니다. 기하학적 문제 해결 및 시각적 과학 분석에 대한 실험에서 Agent0-VL은 기본 모델 대비 12.5%의 성능 향상을 보였습니다. 우리의 코드는 https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}에서 확인할 수 있습니다.
첫 프레임 정체성 보존과 정확한 모션 제어의 동시 달성은 인간 이미지 애니메이션의 핵심 과제입니다. 기존 지배적인 참조-대-비디오(Reference-to-Video, R2V) 패러다임의 이미지-모션 결합(Image-to-Motion Binding) 과정은 실제 응용에서 흔히 발생하는 중요한 시공간적 불일치 문제를 간과하여 정체성 이탈 및 시각적 아티팩트와 같은 실패를 초래합니다. 본 연구에서는 조화롭고 일관된 애니메이션을 구현하며 첫 프레임 보존을 강력하게 보장하는 최초의 이미지-대-비디오(Image-to-Video, I2V) 패러다임 기반 프레임워크인 SteadyDancer를 소개합니다. 첫째, 상충하는 두 조건을 조화시키는 조건 조정 메커니즘(Condition-Reconciliation Mechanism)을 제안하여 충실도를 희생하지 않으면서 정밀한 제어를 가능하게 합니다. 둘째, 참조 이미지와 높은 호환성을 갖는 적응형 일관된 포즈 표현을 생성하는 상호 조화 포즈 변조 모듈(Synergistic Pose Modulation Modules)을 설계합니다. 마지막으로, 모션 충실도, 시각적 품질, 시간적 일관성을 계층적으로 최적화하는 단계적 분리 목적 학습 파이프라인(Staged Decoupled-Objective Training Pipeline)을 적용합니다. 실험 결과, SteadyDancer는 외관 충실도와 모션 제어 모두에서 최첨단 성능을 달성하면서도 유사 방법 대비 훨씬 적은 학습 자원만을 필요로 함을 입증합니다.
최근 통합 멀티모달 모델에서 상당한 진전이 있었지만, '이해가 실제로 생성을 향상시키는가?'라는 근본적인 질문은 여전히 남아 있습니다. 이를 탐구하기 위해 우리는 데이터 누출을 방지하고 세부적인 분석을 가능하게 하는 통제된 합성 데이터셋과 결합된 분리형 평가 프레임워크인 UniSandbox를 소개합니다. 우리의 연구 결과는 주로 추론 생성과 지식 전달이라는 두 가지 핵심 차원에서 나타나는 상당한 이해-생성 간극을 보여줍니다. 구체적으로, 추론 생성 작업의 경우 이해 모듈에서 명시적인 사고 사슬(CoT)이 이 간극을 효과적으로 메우는 것을 관찰했으며, 자기 주도 학습 접근법을 통해 이 능력을 내재화하여 생성 과정에서 암묵적 추론이 가능해짐을 추가로 입증했습니다. 또한 지식 전달 작업의 경우, CoT가 새로 습득한 지식을 검색하도록 돕는 방식으로 생성 과정을 지원한다는 것을 발견했으며, 질의 기반 아키텍처가 이러한 전달에 영향을 미치는 잠재적 CoT 유사 특성을 본질적으로 보유한다는 점도 확인했습니다. UniSandbox는 이해와 생성 간의 간극을 진정으로 메우는 미래 통합 아키텍처와 학습 전략 설계를 위한 예비 통찰을 제공합니다. 코드와 데이터는 https://github.com/PKU-YuanGroup/UniSandBox에서 이용할 수 있습니다.
강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 점점 더 중요한 역할을 하고 있지만, 안정적이고 높은 성능의 정책 최적화는 여전히 어려운 과제로 남아 있습니다. 토큰 수준 중요도 비율은 종종 높은 분산을 보이는데, 이 현상은 혼합 전문가(MoE) 모델에서 더욱 두드러져 불안정한 업데이트를 초래합니다. GSPO와 GRPO와 같은 기존의 그룹 기반 정책 최적화 방법은 하드 클리핑을 통해 이 문제를 완화하지만, 안정성과 효과적인 학습을 동시에 유지하기 어렵습니다. 우리는 하드 클리핑을 부드럽고 온도 제어 게이트로 대체하여 유용한 학습 신호를 보존하면서 오프-정책 업데이트를 적응적으로 감쇠하는 Soft Adaptive Policy Optimization(SAPO)을 제안합니다. GSPO 및 GRPO와 비교하여 SAPO는 시퀀스 일관성과 토큰 적응성을 모두 갖춥니다. GSPO처럼 SAPO는 시퀀스 수준 일관성을 유지하지만, 소프트 게이팅은 GSPO에서 사용하는 취약한 하드 클리핑 대역을 피하는 연속 신뢰 영역을 형성합니다. 시퀀스에 매우 오프-정책인 토큰이 소수 포함된 경우, GSPO는 해당 시퀀스의 모든 기울기를 억제하는 반면, SAPO는 문제가 되는 토큰만 선택적으로 가중치를 낮추고 온-정책에 가까운 토큰들의 학습 신호는 보존하여 샘플 효율성을 향상시킵니다. GRPO에 비해 SAPO는 하드 토큰-레벨 클리핑을 부드러운 온도 제어 스케일링으로 대체하여 더 많은 정보를 제공하고 안정적인 업데이트를 가능하게 합니다. 수학적 추론 벤치마크에 대한 실험 결과는 SAPO가 동등한 학습 예산 하에서 향상된 학습 안정성과 더 높은 Pass@1 성능을 보여줍니다. 더 나아가, 우리는 SAPO를 사용하여 Qwen3-VL 모델 시리즈를 학습시켜, SAPO가 다양한 과제와 다른 모델 크기에서 일관된 성능 향상을 가져온다는 것을 입증했습니다. 전반적으로 SAPO는 LLM의 RL 학습을 위한 더 안정적이고 확장 가능하며 효과적인 최적화 전략을 제공합니다.
사전 학습된 비디오 모델은 높은 품질의 시간적 일관성을 가진 콘텐츠를 생성하는 강력한 사전 지식(Prior)을 학습합니다. 이러한 모델들은 시간적 일관성에서 뛰어난 성능을 보이지만, 그 동역학(Dynamics)은 연속적인 훈련 데이터의 특성에 의해 종종 제한됩니다. 우리는 이미지 데이터가 가진 풍부하고 제약이 없는 콘텐츠 다양성을 이 일관된 시간적 프레임워크에 주입함으로써, 자연스러운 전환과 훨씬 더 확장된 동적 범위(Dynamic Range)를 모두 갖춘 이미지 세트를 생성할 수 있다고 가정합니다. 이를 위해 우리는 강력한 비디오 모델을 올인원(All-in-One) 이미지 생성기로 재탄생시키도록 설계된 통합 프레임워크인 iMontage를 소개합니다. 이 프레임워크는 가변 길이의 이미지 세트를 입력받고 생성하며, 다양한 이미지 생성 및 편집 작업을 통합합니다. 이를 실현하기 위해 우리는 정교하고 최소한의 변경을 통한 적응 전략과, 이를 보완하는 맞춤형 데이터 큐레이션 과정 및 훈련 패러다임을 제안합니다. 이 접근법은 모델이 그 가치 있는 원본 운동(Motion) 사전 지식을 손상시키지 않으면서도 광범위한 이미지 조작 능력을 획득할 수 있게 합니다. iMontage는 여러 주류 다수-입력-다수-출력(Many-in-Many-Out) 작업에서 탁월한 성능을 보이며, 강력한 이미지 간 맥락 일관성을 유지할 뿐만 아니라 기존 범위를 넘어서는 비범한 동역학을 가진 장면들을 생성합니다. 홈페이지는 https://kr1sjfu.github.io/iMontage-web/에서 확인할 수 있습니다.
월드 모델은 확장 가능하고 데이터 효율적인 구현 AI를 위한 핵심 패러다임으로 부상하고 있습니다. 본 연구에서는 비전-언어-행동(VLA) 학습을 위한 데이터 엔진으로 명시적으로 설계된 통합 월드 모델 프레임워크인 GigaWorld-0를 소개합니다. GigaWorld-0는 상호 시너지적인 두 가지 구성 요소를 통합합니다: 첫째, GigaWorld-0-Video는 대규모 비디오 생성을 활용하여 외관, 카메라 시점, 행동 의미론의 세밀한 제어 하에 다양하고 질감이 풍부하며 시간적으로 일관된 구현 시퀀스를 생성합니다. 둘째, GigaWorld-0-3D는 3D 생성 모델링, 3D 가우시안 스플래팅 재구성, 물리적 미분 가능 시스템 식별, 실행 가능한 모션 플래닝을 결합하여 기하학적 일관성과 물리적 현실감을 보장합니다. 이들의 공동 최적화를 통해 시각적으로 매력적이고 공간적으로 일관되며 물리적으로 타당하고 지시에 부합하는 구현 상호작용 데이터의 확장 가능한 합성이 가능해집니다. FP8 정밀도와 희소 어텐션을 활용하여 메모리 및 컴퓨팅 요구 사항을 획기적으로 줄이는 효율적인 GigaTrain 프레임워크를 통해 대규모 학습이 가능합니다. 포괄적인 평가를 통해 GigaWorld-0가 다차원에 걸쳐 고품질, 다양성, 제어 가능한 데이터를 생성함을 입증합니다. 중요한 것은, GigaWorld-0에서 생성된 데이터로 학습된 VLA 모델(예: GigaBrain-0)이 강력한 실세계 성능을 달성하여, 학습 중 실세계 상호작용 없이도 물리적 로봇에서의 일반화 및 작업 성공률을 크게 향상시킵니다.
전체 어텐션의 이차 복잡도는 대규모 언어 모델(LLM)에서 효율적인 장문맥 처리를 제한한다. 희소 어텐션은 각 쿼리가 이전 토큰의 일부 집합에만 주목하도록 제한하여 이러한 비용을 완화하지만, 훈련이 필요 없는 접근법은 종종 심각한 성능 저하를 초래한다. NSA, MoBA와 같은 기본 희소 어텐션 방법은 이 문제를 완화하지만 중요한 패러독스를 보인다: 이들은 전체 어텐션을 근사하려는 목표에도 불구하고 전체 어텐션 모델보다 더 낮은 어텐션 희소성을 생성하며, 이는 그 효과성을 제한할 수 있다. 우리는 이 패러독스를 그래디언트 업데이트 결함으로 귀결한다: 희소 훈련 동안 배제된 낮은 순위의 키-값 쌍은 순전파 기여도나 역전파 그래디언트를 받지 못하여 적절한 억제를 학습하지 못한다. 이 한계를 극복하기 위해 우리는 희소 어텐션과 전체 어텐션을 모두 고려하고 매 계층에서 양방향 정렬을 강제하는 통합 훈련 프레임워크인 SSA(Sparse Sparse Attention)를 제안한다. 이 설계는 모든 토큰으로의 그래디언트 흐름을 유지하면서 희소 어텐션 출력이 전체 어텐션 출력과 정렬되도록 명시적으로 장려하여 더 강력한 희소성을 촉진한다. 그 결과, SSA는 여러 상식 벤치마크에서 희소 및 전체 어텐션 추론 모두에서 최첨단 성능을 달성한다. 더 나아가, SSA는 모델이 다양한 희소 예산에 원활하게 적응할 수 있도록 한다; 더 많은 토큰이 주목하도록 허용될수록 성능이 지속적으로 향상되어 추론 시 유연한 계산-성능 트레이드오프를 지원한다. 마지막으로, 우리는 기본 희소 어텐션 훈련이 싱크 영역에서의 어텐션 값 과할당을 완화함으로써 놀랍게도 장문맥 외삽 능력을 향상시키며, SSA가 가장 강력한 외삽 능력을 보임을 확인한다.
본 논문은 OCR 작업에 특화된 상용 등급의 오픈소스 경량(10억 개 파라미터) Vision-Language Model(VLM)인 HunyuanOCR을 제안한다. 이 아키텍처는 MLP 어댑터로 연결된 Native Vision Transformer(ViT)와 경량 LLM으로 구성된다. HunyuanOCR은 상용 API, 기존 파이프라인, 더 큰 모델(예: Qwen3-VL-4B)을 능가하는 우수한 성능을 입증하였다. 특히 인식 작업(Text Spotting, Parsing)에서 현재 공개된 솔루션들을 앞섰으며, 의미론적 작업(IE, Text Image Translation)에서도 뛰어나 ICDAR 2025 DIMT Challenge(Small Model Track)에서 1위를 차지했다. 또한 30억 개 미만 파라미터를 가진 VLM 중 OCRBench에서 SOTA 성능을 달성하였다. HunyuanOCR은 다음 세 가지 핵심 측면에서 돌파구를 마련했다. 1) **다양성과 효율성의 통합**: 경량 프레임워크 내에서 spotting, parsing, IE, VQA, translation 등 핵심 역량에 대한 포괄적 지원을 구현한다. 이는 협소한 "OCR 전문 모델"과 비효율적인 "범용 VLM"의 한계를 해결한다. 2) **간소화된 엔드투엔드 아키텍처**: 순수 엔드투엔드 패러다임을 채택하여 레이아웃 분석 등 전처리 모듈에 대한 의존성을 제거했다. 이는 기존 파이프라인에서 흔히 발생하는 오류 전파 문제를 근본적으로 해결하고 시스템 배포를 단순화한다. 3) **데이터 기반 및 RL 전략**: 고품질 데이터의 결정적 역할을 확인하고, 업계 최초로 OCR 작업에서 강화 학습(RL) 전략이 상당한 성능 향상을 가져온다는 점을 입증했다. HunyuanOCR은 HuggingFace를 통해 정식 오픈소스로 공개되었다. 또한 vLLM 기반의 고성능 배포 솔루션을 제공하여 생산성 효율을 최상위 수준으로 유지한다. 본 모델이 첨단 연구를 촉진하고 산업 적용을 위한 견고한 기반을 제공하기를 기대한다.
최근의 대화형 비디오 세계 모델 방법론은 사용자 지시에 조건화된 장면 진화를 생성합니다. 이러한 방법론은 인상적인 결과를 달성했지만, 두 가지 주요 한계점이 여전히 존재합니다. 첫째, 지시 기반 장면 운동과 기반이 되는 3D 기하학 간의 대응 관계를 충분히 활용하지 못해 시점 변경 하에서 구조적 불안정성이 발생합니다. 둘째, 다단계 상호작용 과정에서 역사적 정보를 쉽게 망각하여 오류 누적 및 장면 의미론과 구조의 점진적 변이(Drift)가 발생합니다. 이러한 문제를 해결하기 위해 우리는 3D 기하학적 사전 지식(Prior)과 역사적 검색을 통합한 대화형 비디오 세계 모델인 MagicWorld를 제안합니다. MagicWorld는 단일 장면 이미지에서 시작하여 사용자 행동을 통해 동적 장면 진화를 구동하고, 자기회귀적으로 연속적인 장면을 합성합니다. 우리는 각 상호작용의 첫 번째 프레임과 해당 행동으로부터 포인트 클라우드를 구축하는 행동 유도 3D 기하학 모듈(AG3D)을 도입하여 시점 전환을 위한 명시적인 기하학적 제약을 제공함으로써 구조적 일관성을 향상시킵니다. 또한 생성 과정에서 관련 역사 프레임을 검색하여 조건화 신호로 주입하는 역사 캐시 검색(HCR) 메커니즘을 제안하며, 이를 통해 모델이 과거 장면 정보를 활용하고 오류 누적을 완화하도록 돕습니다. 실험 결과는 MagicWorld가 상호작용 반복에 걸쳐 장면 안정성과 연속성에서 뚜렷한 향상을 달성함을 입증합니다.
정규화 흐름(Normalizing Flows, NFs)은 연속 데이터를 위한 종단 간 우도 기반 생성 모델로, 최근 이미지 생성 분야에서 고무적인 진전을 보이며 다시 주목받고 있습니다. 그러나 시공간적 복잡성과 계산 비용이 훨씬 높은 비디오 생성 영역에서는 최첨단 시스템이 거의 전적으로 확산 기반 모델에 의존해 왔습니다. 본 연구에서는 정규화 흐름 기반 비디오 생성기인 STARFlow-V를 제시하여 이 설계 공간을 재조명합니다. STARFlow-V는 종단 간 학습, 강력한 인과적 예측, 기본적인 우도 추정 등 상당한 이점을 갖습니다. 최근 제안된 STARFlow를 기반으로 구축된 STARFlow-V는 인과적 의존성을 전역 잠재 공간으로 제한하면서도 풍부한 프레임 내 지역적 상호작용을 보존하는 글로벌-로컬 아키텍처로 시공간 잠재 공간에서 운영됩니다. 이는 표준 자기회귀 확산 모델 생성에서 흔히 발생하는 시간에 따른 오류 누적 문제를 완화합니다. 또한 플로우-스코어 매칭(flow-score matching)을 제안하여 모델에 경량 인과적 잡음 제거기를 장착하여 자기회귀 방식으로 비디오 생성 일관성을 향상시킵니다. 샘플링 효율성을 높이기 위해 STARFlow-V는 내부 업데이트를 인과성을 해치지 않고 병렬화 가능한 반복으로 재구성하는 비디오 인식 야코비 반복 기법을 사용합니다. 가역적 구조 덕분에 동일 모델이 텍스트-비디오, 이미지-비디오 및 비디오-비디오 생성 작업을 기본적으로 지원할 수 있습니다. 실험적으로 STARFlow-V는 확산 기반 기준선 대비 실용적인 샘플링 처리량으로 강력한 시각적 충실도와 시간적 일관성을 달성합니다. 이러한 결과는 저자들이 알기로 NFs가 고품질 자기회귀 비디오 생성이 가능하다는 첫 번째 증거를 제시하며, 세계 모델 구축을 위한 유망한 연구 방향으로 자리매김합니다. 코드와 생성 샘플은 https://github.com/apple/ml-starflow에서 확인할 수 있습니다.
진전이 있었음에도 불구하고, 비디오 확산 트랜스포머는 여전히 학습 길이를 벗어난 일반화에 어려움을 겪는데, 우리는 이 문제를 비디오 길이 외삽이라는 과제로 명명합니다. 우리는 두 가지 실패 모드를 확인했습니다: 모델 특이적인 주기적 콘텐츠 반복과 보편적인 화질 저하입니다. 기존 연구들은 위치 인코딩을 통해 반복 문제를 해결하려 시도했으나, 화질 저하 문제는 간과했고 제한된 외삽 성능만 달성했습니다. 본 논문에서는 출력에 영향을 미치는 컨텍스트의 작용 방식을 직접적으로 지배하는 어텐션 맵이라는 보다 근본적인 관점에서 이 문제를 재조명합니다. 우리는 두 실패 모드가 모두 통합된 원인, 즉 어텐션 분산에서 비롯된다고 파악했습니다. 어텐션 분산이란 학습 창을 벗어난 토큰들이 학습된 어텐션 패턴을 희석시키는 현상입니다. 이는 화질 저하를 초래하며, 위치 인코딩의 조화 특성에 의해 이 분산이 주기적인 어텐션 패턴으로 구조화될 때 반복 현상이 특수한 경우로 나타납니다. 이러한 통찰을 바탕으로, 우리는 학습이 필요 없고 즉시 사용 가능한 플러그인 방식인 UltraViCo를 제안합니다. 이 방법은 상수 감쇠 인자를 통해 학습 창을 벗어난 토큰들에 대한 어텐션을 억제합니다. 두 실패 모드를 함께 해결함으로써, 우리는 다양한 모델과 외삽 비율에 걸쳐 광범위한 기준선들을 크게 능가하며, 외삽 한계를 2배에서 4배로 끌어올렸습니다. 특히 4배 외삽에서 기존 최고 방법 대비 동적 정도와 이미징 품질을 각각 233%, 40.5% 향상시켰습니다. 나아가, 우리의 방법은 제어 가능한 비디오 합성 및 편집과 같은 하위 작업에 원활하게 일반화됩니다.
생성 모델은 RGB 합성에서는 뛰어난 성과를 보였으나, 실제 응용에서는 RGBA 조작이 필요합니다. 이로 인해 분절된 생태계가 형성되었습니다. 특화된 단일 작업 모델은 알파 채널을 처리하지만 다목적성이 부족한 반면, 통합된 다중 작업 프레임워크는 RGB 영역에 국한되어 있습니다. 이러한 중요한 격차를 해소하기 위해 우리는 시퀀스-투-시퀀스 RGBA 이미지 생성 및 편집을 위한 최초의 통합 다중 작업 생성 프레임워크인 OmniAlpha를 제안합니다. OmniAlpha의 아키텍처는 Diffusion Transformer(DiT) 백본을 위한 양방향 확장 가능한 레이어 축을 가진 새로운 RoPE 방법인 MSRoPE-BiL을 특징으로 하여, 다중 입력 및 대상 RGBA 레이어의 동시 처리를 가능하게 합니다. 이 프레임워크를 지원하기 위해 우리는 새로운 자동 합성 및 필터 파이프라인을 통해 구축된 1,000개의 고품질 다중 레이어 트리플렛으로 구성된 새로운 데이터셋인 AlphaLayers를 소개합니다. 21가지 다양한 작업군을 포괄하는 이 데이터셋에 대해 OmniAlpha를 공동으로 학습한 결과, 광범위한 실험을 통해 우리의 통합 접근법이 강력한 특화 베이스라인을 지속적으로 능가함을 입증했습니다. 특히 OmniAlpha는 AIM-500에서 마스크 없는 매팅 작업에서 SAD 기준 84.8%의 극적인 상대적 감소를 달성했으며, 레이어 조건부 완성 작업에서는 90% 이상의 인간 선호도를 획득했습니다. 우리의 연구는 통합 다중 작업 모델이 RGBA를 위한 우수한 공유 표현을 학습할 수 있음을 증명하여, 더 강력한 레이어 인식 생성 시스템으로 가는 길을 열었습니다.
저희는 동적으로 캡처된 가변 길이 비디오를 위한 새로운 카메라 제어 비디오 리테이크 생성 방법인 ReDirector를 제안합니다. 특히, 입력 비디오와 목표 리테이크의 시공간적 위치를 정렬하여 기존 연구에서 RoPE의 일반적인 오용을 바로잡습니다. 더 나아가, 입력 비디오와 목표 비디오 내부 및 간의 다중 뷰 관계를 포착하고 통합하는 카메라 조건부 RoPE 위상 변위인 Rotary Camera Encoding(RoCE)을 도입합니다. 카메라 조건을 RoPE에 통합함으로써 우리의 방법은 분포 외 카메라 궤적과 비디오 길이로도 일반화되어 향상된 동적 객체 위치 지정과 정적 배경 보존을 가능하게 합니다. 다양한 궤적과 길이에 걸친 카메라 제어성, 기하학적 일관성 및 비디오 품질에서의 상당한 향상을 광범위한 실험을 통해 추가로 입증합니다.
최근 비전-언어 모델(VLMs)은 강력한 이미지 이해 능력을 보여주지만, "이미지로 사고"하는 능력, 즉 다단계 시각적 상호작용을 통한 추론 능력은 여전히 제한적입니다. 본 연구에서는 VLMs의 도구 통합 시각 추론 능력을 강화하기 위한 확장 가능한 훈련 환경인 VISTA-Gym을 소개합니다. VISTA-Gym은 다양한 실제 다중모드 추론 과제(총 13개 데이터셋의 7개 과제)를 표준화된 시각 도구(예: grounding, parsing) 인터페이스, 실행 가능한 상호작용 루프, 검증 가능한 피드백 신호, 효율적인 궤적 기록으로 통합하여 대규모 시각 에이전트 강화 학습을 가능하게 합니다. 최근 VLMs이 텍스트 기반 추론에서는 강력한 성능을 보이지만, 사유 및 오픈소스 모델 모두 도구 선택, 호출, 조정에 어려움을 겪고 있습니다. VISTA-Gym을 통해 우리는 다중 회기 궤적 샘플링과 종단간 강화 학습을 통해 VISTA-R1이 에이전트 추론과 도구 사용을 교차적으로 수행하도록 훈련시켰습니다. 11개의 공개 추론 집중형 VQA 벤치마크에서 진행한 폭넓은 실험 결과, VISTA-R1-8B가 유사한 규모의 최첨단 기준 모델들을 9.51%~18.72% 앞섰으며, 이는 VISTA-Gym이 VLMs의 도구 통합 추론 능력을 개방하는 효과적인 훈련 장임을 입증합니다.
현실적인 3D 도시 생성은 세계 모델, 가상 현실 및 게임 개발의 기초적 과제로, 이상적인 도시 장면은 스타일적 다양성, 세밀함, 제어 가능성을 모두 충족해야 합니다. 그러나 기존 방법론은 텍스트 기반 생성이 제공하는 창의적 유연성과 명시적 구조 표현이 가능하게 하는 객체 수준 편집 기능 간의 균형을 맞추는 데 어려움을 겪습니다. 본 연구에서는 구조적으로 일관되고 스타일적으로 다양한 3D 도시 장면 합성을 위한 자연어 기반 미학 적응형 프레임워크인 MajutsuCity를 소개합니다. MajutsuCity는 도시를 제어 가능한 레이아웃, 에셋 및 재질의 조합으로 표현하며, 4단계 파이프라인을 통해 운영됩니다. 초기 생성 이상의 제어 기능을 확장하기 위해 5가지 객체 수준 작업을 지원하는 대화형 언어 기반 편집 에이전트인 MajutsuAgent를 추가로 통합합니다. 사실적이고 사용자 정의 가능한 장면 합성을 지원하기 위해 2D 의미론적 레이아웃 및 높이 맵, 다양한 3D 건물 에셋, 정제된 PBR 재질 및 스카이박스를 포함하며 각각 상세 주해가 수반된 고품질 다중 모달 데이터셋인 MajutsuDataset도 구축했습니다. 동시에 구조적 일관성, 장면 복잡도, 재질 정확도, 조명 분위기 등 핵심 차원을 포괄하는 실용적인 평가 메트릭 세트를 개발했습니다. 폭넓은 실험을 통해 MajutsuCity가 CityDreamer 대비 레이아웃 FID를 83.7%, CityCraft 대비 20.1% 감소시킴을 입증했습니다. 본 방법론은 모든 AQS 및 RDR 점수에서 1위를 기록하며 기존 방법론을 명백한 차이로 앞섰습니다. 이러한 결과는 MajutsuCity가 3D 도시 생성 분야에서 기하학적 정확도, 스타일 적응성, 의미론적 제어 가능성 측면에서 새로운 최첨단 기술임을 확인합니다. 본 프레임워크가 3D 도시 생성 연구의 새로운 방향을 고무시키길 기대합니다. 데이터셋과 코드는 https://github.com/LongHZ140516/MajutsuCity에서 공개될 예정입니다.
대규모 언어 모델(LLM)은 복잡한 문제는 해결하지만 더 단순한 변형 문제에는 실패하는데, 이는 인간의 추론 방식과 근본적으로 다른 메커니즘을 통해 정답을 도출함을 시사합니다. 이러한 차이를 이해하기 위해 우리는 인지 과학 연구를 종합하여 추론 불변성, 메타인지적 통제, 추론 및 지식 구성을 위한 표상, 변환 작업 등 28가지 인지 요소로 구성된 분류 체계를 마련했습니다. 우리는 세분화된 평가 프레임워크를 도입하고 텍스트, 비전, 오디오 분야의 18개 모델에서 추출한 192,000개의 추적 데이터와 공개된 54개의 인간 구술 사고 데이터를 활용한 첫 대규모 실증 분석을 수행했습니다. 분석 결과, 모델들은 성공과 상관관계가 있는 인지 요소를 충분히 활용하지 못하며, 다양한 표상과 메타인지적 모니터링이 중요한 비정형 문제에서는 경직된 순차 처리 방식으로 좁혀드는 것으로 나타났습니다. 인간의 추적 데이터는 더 많은 추상화와 개념적 처리를 보인 반면, 모델들은 표면적 열거 방식에 의존했습니다. 1,600편의 LLM 추론 논문에 대한 메타분석 결과, 연구 커뮤니티는 정량화가 쉬운 요소(순차적 구성: 55%, 분해: 60%)에 집중하는 반면 성공과 연관된 메타인지적 통제(자기인식: 16%)는 소홀히 하는 것으로 나타났습니다. 모델들은 성공과 연관된 행동 레퍼토리를 보유하고 있지만 이를 자발적으로 활용하지는 못했습니다. 이러한 패턴을 활용하여 우리는 성공적인 구조를 자동으로 지원하는 시험 시간 추론 가이던스를 개발했으며, 복잡한 문제에서 성능을 최대 66.7%까지 향상시켰습니다. 인지 과학과 LLM 연구 간 공유 어휘 체계를 확립함으로써, 우리의 프레임워크는 추론 실패의 체계적 진단과 우연적 단축이 아닌 견고한 인지 메커니즘을 통한 추론 모델의 원칙적 개발을 가능하게 하며, 대규모 인간 인지 이론 검증 도구를 제공합니다.
최소 예시만을 통한 추상적 추론은 GPT-5 및 Grok 4와 같은 최첨단 파운데이션 모델들에게 여전히 해결되지 않은 핵심 과제로 남아 있습니다. 이러한 모델들은 소수의 예시로부터 구조화된 변환 규칙을 추론하는 데 실패하는데, 이는 인간 지능의 핵심적 특징입니다. 인공 일반 지능을 위한 추상 및 추론 코퍼스(ARC-AGI)는 이러한 능력을 평가하는 엄격한 테스트베드로, 개념적 규칙 귀납과 새로운 과제로의 전이를 요구합니다. 기존 대부분의 방법은 ARC-AGI를 순수하게 텍스트 기반 추론 과제로 취급하여, 인간이 이러한 퍼즐을 해결할 때 시각적 추상화에 크게 의존한다는 사실을 간과했습니다. 그러나 우리의 파일럿 실험은 역설을 드러냈습니다: ARC-AGI 그리드를 단순히 이미지로 변환할 경우 부정확한 규칙 실행으로 인해 성능이 저하됩니다. 이로부터 우리는 시각과 언어가 서로 다른 추론 단계에서 상호 보완적 강점을 지닌다는 핵심 가설을 도출했습니다: 시각은 전역적 패턴 추상화와 검증을 지원하는 반면, 언어는 기호적 규칙 공식화와 정확한 실행에 특화되어 있습니다. 이러한 통찰을 바탕으로 우리는 두 가지 상승 효과 전략을 제안합니다: (1) ARC-AGI를 모달리티에 맞춰 하위 과제로 분해하는 시각-언어 시너지 추론(VLSR)과 (2) 시각을 활용하여 텍스트 기반 추론을 검증하여 내재적 오류 수정을 가능하게 하는 모달리티 전환 자기 수정(MSSC). 광범위한 실험을 통해 우리의 접근 방식이 다양한 주요 모델과 여러 ARC-AGI 과제에서 텍스트 전용 기준선 대비 최대 4.33%의 성능 향상을 가져옴을 입증했습니다. 우리의 연구 결과는 시각적 추상화와 언어적 추론의 통합이 미래 파운데이션 모델에서 일반화 가능한 인간 수준의 지능을 달성하기 위한 중요한 단계임을 시사합니다. 소스 코드는 곧 공개될 예정입니다.
컴퓨터 사용 에이전트(CUA)의 발전은 인간의 컴퓨터 상호작용 방식을 포착하는 대규모 고품질 데이터셋의 부재로 인해 제약을 받아왔습니다. 대규모 언어 모델(LLM)이 풍부한 텍스트 데이터로 발전하는 동안, CUA 트랙토리(trajectory)에 상응하는 코퍼스는 존재하지 않았습니다. 이러한 격차를 해결하기 위해 우리는 다단계 웹 작업을 위한 새로운 합성 데이터 생성 시스템인 FaraGen을 소개합니다. FaraGen은 자주 사용되는 웹사이트에서 다양한 작업을 제안하고, 여러 해결 시도를 생성하며, 다중 검증기를 사용하여 성공적인 트랙토리를 필터링할 수 있습니다. 이 시스템은 다단계 웹 작업에 대해 높은 처리량, 수율 및 다양성을 달성하며, 검증된 트랙토리를 약 $1당 생성합니다. 우리는 이 데이터를 사용해 Fara-7B를 학습시켰습니다. Fara-7B는 스크린샷만으로 컴퓨터를 인지하고, 예측된 좌표를 통해 액션을 실행하며, 온디바이스에서 실행될 수 있을 만큼 작은 네이티브 CUA 모델입니다. 우리는 Fara-7B가 WebVoyager, Online-Mind2Web, 그리고 기존 벤치마크에서 저조하게 나타나는 웹 작업을 더 잘 포착하는 우리의 새로운 벤치마크인 WebTailBench에서 동급 규모의 다른 CUA 모델들을 능가함을 확인했습니다. 더 나아가 Fara-7B는 훨씬 더 큰 최첨단 모델들과도 경쟁력을 보여주며, 작고 효율적인 에이전트 모델 발전에 확장 가능한 데이터 생성 시스템의 핵심 이점을 입증합니다. 우리는 Fara-7B를 Microsoft Foundry와 HuggingFace에 오픈웨이트(open-weight)로 공개하며, WebTailBench도 함께 릴리스합니다.
본 논문은 시각 질문-시각 응답(VQ-VA)을 연구한다. 이는 텍스트가 아닌 이미지를 생성하여 시각 질문에 답변하는 능력으로, 최근 NanoBanana 및 GPT-Image와 같은 독점 시스템에서 등장한 능력이다. 이러한 능력을 오픈소스 모델에도 제공하기 위해, 우리는 대규모 목표 데이터 구축을 위한 에이전트 기반 파이프라인을 중심으로 구축된 데이터 중심 프레임워크인 VQ-VA World를 소개한다. 웹 규모의 배포를 활용한 이 파이프라인은 모델 학습을 위해 약 180만 개의 고품질 인터리브 이미지-텍스트 샘플을 대량으로 수집한다. 평가를 위해 우리는 VQ-VA를 세계 지식, 디자인 지식, 추론 측면에서 체계적으로 평가하는 인간이 직접 선별한 벤치마크인 IntelligentBench를 추가로 공개한다. VQ-VA World 데이터로 학습한 결과 강력한 경험적 성능 향상을 보였다: 이를 통해 LightFusion은 IntelligentBench에서 53.06점을 달성하여 기존 최고 오픈소스 베이스라인(즉, 일반 LightFusion의 7.78점; UniWorld-V1의 1.94점)을 크게 앞섰으며, 선도적인 독점 시스템(예: NanoBanana의 81.67점; GPT-Image의 82.64점)과의 격차를 크게 좁혔다. 모델 가중치, 데이터셋, 파이프라인의 전체 패키지를 공개함으로써 VQ-VA에 대한 향후 연구를 촉진하기를 바란다.
작업 스케줄링은 구현형 AI에서 핵심적인 요소로, 에이전트가 자연어 지시를 따라 3D 물리 세계에서 효율적으로 행동을 실행할 수 있게 합니다. 그러나 기존 데이터셋은 운영연구(OR) 지식과 3D 공간 기반을 무시함으로써 작업 계획을 지나치게 단순화하는 경향이 있습니다. 본 연구에서는 언어 이해, 3D 기반, 효율성 최적화의 협응이 필요한 새로운 과제인 ORS3D(운영연구 지식 기반 3D 작업 스케줄링)를 제안합니다. 기존 설정과 달리, ORS3D는 에이전트가 전자레인지 가동 중에 싱크대 청소하기와 같은 병렬 실행 가능한 하위 작업을 활용하여 총 완료 시간을 최소화할 것을 요구합니다. ORS3D 연구를 촉진하기 위해 4,000개의 실제 환경 장면에서 60,000개의 복합 작업으로 구성된 대규모 데이터셋 ORS3D-60K를 구축했습니다. 더 나아가 효율적인 작업 스케줄과 기반 행동을 생성하기 위해 간단하면서 효과적인 스케줄링 토큰 메커니즘을 갖춘 구현형 다중 모달 대형 언어 모델 GRANT를 제안합니다. ORS3D-60K에 대한 폭넓은 실험을 통해 GRANT의 언어 이해, 3D 기반, 스케줄링 효율성 측면에서의 효과성을 입증했습니다. 코드는 https://github.com/H-EmbodVis/GRANT에서 확인할 수 있습니다.
현실적인 3D 도시 생성은 가상 현실과 디지털 트윈을 포함한 다양한 응용 분야의 기반이 됩니다. 그러나 기존 방법들은 대부분 단일 확산 모델에 의존하여 학습함으로써 개인화되고 무한한 도시 규모 장면 생성 능력이 제한됩니다. 본 논문에서는 상용 대규모 모델의 추론 및 구성 능력을 활용하여 사용자 맞춤형이면서 무한히 확장 가능한 3D 도시 생성을 가능하게 하는 새로운 에이전트 기반 프레임워크인 Yo'City를 제안합니다. 구체적으로, Yo'City는 먼저 계층적인 "도시-구역-그리드" 구조를 정의하는 하향식 계획 전략을 통해 도시 개념을 수립합니다. 글로벌 플래너는 전체 레이아웃과 잠재적 기능 구역을 결정하는 반면, 로컬 디자이너는 각 구역을 상세한 그리드 수준 설명으로 정제합니다. 이후 그리드 수준의 3D 생성은 아이소메트릭 이미지 합성 "생산-정제-평가" 루프와 이미지-3D 생성 과정을 통해 달성됩니다. 지속적인 도시 진화를 모의하기 위해 Yo'City는 추가로 사용자 상호작용 기반의 관계 가이드 확장 메커니즘을 도입하여, 장면 그래프 기반의 거리 및 의미 인식 레이아웃 최적화를 수행하고 공간적으로 일관된 도시 성장을 보장합니다. 본 방법론을 종합적으로 평가하기 위해 다양한 벤치마크 데이터셋을 구축하고 의미, 기하학, 텍스처, 레이아웃 관점에서 생성 품질을 평가하는 6가지 다차원적 메트릭을 설계했습니다. 폭넓은 실험을 통해 Yo'City가 모든 평가 측면에서 기존 최신 방법들을 일관되게 능가함을 입증했습니다.
검색 증대 생성(RAG)은 외부 지식을 통해 대규모 언어 모델(LLM)을 향상시키지만, 여전히 긴 문맥과 분리된 검색-생성 최적화 문제를 겪습니다. 본 연구에서는 공유된 연속 공간에서 임베딩 기반 압축과 결합 최적화를 수행하는 통합 프레임워크인 CLaRa(연속 잠재 추론)를 제안합니다. 의미적으로 풍부하고 검색 가능한 압축 벡터를 얻기 위해, 우리는 질의응답 및 파라프레이즈 지도를 활용하는 핵심 정보 보존 데이터 합성 프레임워크인 SCP를 도입합니다. CLaRa는 미분 가능한 상위 k 추정기를 통해 두 모듈에 그래디언트가 흐르도록 단일 언어 모델링 손실 함수로 리랭커와 생성기를 종단 간 학습합니다. 이론적으로 이러한 통합 최적화는 검색 관련성과 응답 품질을 일치시킵니다. 다양한 질의응답 벤치마크에서의 실험 결과, CLaRa가 최첨단 압축 및 재순위 성능을 달성하며 텍스트 기반 미세 조정 기준선을 종종 능가하는 것으로 나타났습니다.
최근 비디오 생성 모델들은 높은 시각적 정확도를 달성했지만, 명시적인 물리적 제어 가능성과 타당성이 부족한 경우가 많습니다. 이를 해결하기 위해 일부 최근 연구에서는 물리 기반 렌더링을 통해 비디오 생성을 유도하려는 시도를 하였습니다. 그러나 이러한 방법들은 복잡한 물리적 속성을 정확하게 모델링하고 장기간 시간 시퀀스에 걸쳐 결과적인 물리적 행동을 효과적으로 제어하는 데 본질적인 어려움에 직면해 있습니다. 본 연구에서는 단일 이미지로부터 다양한 제어 가능성과 물리적 현실감을 갖춘 비디오를 생성할 수 있는 새로운 프레임워크인 PhysChoreo를 소개합니다. 우리의 방법은 두 단계로 구성됩니다: 첫째, 부분 인식 물성 재구성을 통해 이미지 내 모든 객체의 정적 초기 물리적 속성을 추정합니다. 그런 다음, 시간적 지시 및 물리적 편집 가능 시뮬레이션을 통해 풍부한 동적 행동과 물리적 현실감을 지닌 고품질 비디오를 합성합니다. 실험 결과, PhysChoreo는 풍부한 행동과 물리적 현실감을 갖춘 비디오를 생성할 수 있으며, 여러 평가 지표에서 최첨단 방법들을 능가하는 성능을 보여줍니다.
확산 기반 편집 기술은 이미지의 국부 영역을 사실적으로 수정할 수 있어 AI 생성 콘텐츠의 탐지를 더욱 어렵게 만듭니다. 기존 AIGC 탐지 벤치마크는 전체 이미지 분류에 중점을 두어 확산 기반 편집의 위치 특정(localization)을 간과해왔습니다. 본 연구에서는 정교한 탐지를 지원하기 위해 픽셀 수준 주석이 달린 3만 장의 확산 편집 이미지로 구성된 공개 데이터셋인 DiffSeg30k를 소개합니다. DiffSeg30k의 특징은 다음과 같습니다: 1) 실제 환경 이미지—실제 세계의 콘텐츠 다양성을 반영하기 위해 COCO에서 이미지 또는 이미지 프롬프트를 수집함; 2) 다양한 확산 모델—8개의 최첨단(SOTA) 확산 모델을 이용한 국부 편집; 3) 다중 단계 편집—실제 순차 편집을 모방하기 위해 각 이미지에 최대 세 번의 순차적 편집 적용; 4) 현실적인 편집 시나리오—시각-언어 모델(VLM) 기반 파이프라인으로 의미 있는 영역을 자동 식별하고 추가, 제거, 속성 변경을 포괄하는 콘텍스트 인식 프롬프트를 생성함. DiffSeg30k는 AIGC 탐지를 이진 분류에서 의미 분할(semantic segmentation)로 전환하여 편집 위치와 함께 사용된 편집 모델을 동시에 식별할 수 있게 합니다. 우리는 세 가지 기준 분할 접근법에 대한 벤치마크를 수행하여, 특히 이미지 왜곡에 대한 강건성 측면에서 의미 분할 과제의 상당한 난이도를 확인했습니다. 실험 결과, 픽셀 수준 위치 특정을 위해 훈련된 분할 모델이 확산 편집에 대해 매우 신뢰할만한 전체 이미지 분류기로도 작동하며, 기존 위조 분류기를 능가하는 동시에 생성 모델 간 일반화에서 큰 잠재력을 보여주었습니다. 우리는 DiffSeg30k가 분할 기반 방법의 가능성과 한계를 입증함으로써 AI 생성 콘텐츠의 정교한 위치 특정 연구를 발전시킬 것이라고 믿습니다. DiffSeg30k는 다음에서 공개되었습니다: https://huggingface.co/datasets/Chaos2629/Diffseg30k
최근 멀티모달 대규모 언어 모델(MLLM)과 비디오 에이전트 시스템의 발전으로 일반적인 비디오 이해 능력이 크게 향상되었습니다. 그러나 외부 전문 지식 통합과 엄격한 단계적 추론을 요구하는 과학 영역의 비디오 이해 및 교육에 기존 접근법을 적용할 때는 한계를 보입니다. 이러한 격차를 해소하기 위해 본 연구에서는 과학 비디오 이해 및 교육을 위한 최초의 반복적 자가 진화 다중 에이전트 시스템인 SciEducator를 제안합니다. 관리 과학의 고전적인 데밍 사이클(Plan-Do-Study-Act)을 기반으로 한 우리의 설계는 이 철학을 자가 진화 추론 및 피드백 메커니즘으로 재구성하여 비디오에 나타난 복잡한 과학적 활동의 해석을 용이하게 합니다. 더 나아가 SciEducator는 텍스트 설명, 시각적 가이드, 오디오 나레이션, 상호 참조 자료를 포함하여 특정 과학 과정에 맞춤화된 멀티모달 교육 콘텐츠를 생성할 수 있습니다. 평가를 지원하기 위해 물리, 화학, 일상 현상 등 5개 범주에 걸쳐 전문가 검증 및 문헌 기반 과학 질의-응답 500쌍으로 구성된 벤치마크 SciVBench를 구축했습니다. 폭넓은 실험 결과, SciEducator는 해당 벤치마크에서 주요 클로즈드 소스 MLLM(예: Gemini, GPT-4o)과 최첨단 비디오 에이전트를 크게 능가하며, 해당 연구 커뮤니티에 새로운 패러다임을 정립하였습니다.
최근 텍스트-비디오(T2V) 확산 모델이 인상적인 품질과 프롬프트 정확도를 달성했지만, 단일 텍스트 프롬프트에서 여러 비디오를 샘플링할 때 낮은 다양성의 결과물을 생성하는 경우가 많습니다. 우리는 이 문제를 집합 수준의 정책 최적화 문제로 공식화하여 주어진 프롬프트에 대한 다양한 가능한 결과 범위를 포괄할 수 있는 정책을 학습하는 것을 목표로 이 과제에 접근합니다. 이를 해결하기 위해 우리는 다양한 비디오 생성을 위한 새로운 프레임워크인 DPP-GRPO를 소개합니다. 이 프레임워크는 Determinantal Point Processes(DPP)와 Group Relative Policy Optimization(GRPO) 이론을 결합하여 다양한 생성물에 명시적 보상을 부여합니다. 우리의 목적은 중복 샘플에 대해 체감 수익을 적용하고(DPP 통해) 후보 집합에 대해 그룹 단위 피드백을 제공함으로써(GRPO 통해) 다양성을 명시적 신호로 전환하는 것입니다. 우리의 프레임워크는 플러그 앤 플레이 방식이며 모델에 독립적이며, 프롬프트 정확도나 지각적 품질을 희생하지 않으면서 시각적 외관, 카메라 움직임, 장면 구조 전반에 걸쳐 다양한 생성을 촉진합니다. 우리는 이 방법을 WAN과 CogVideoX에 구현하고, VBench, VideoScore 및 인간 선호도 연구와 같은 최첨단 벤치마크에서 우리 방법이 비디오 다양성을 지속적으로 향상시킴을 보여줍니다. 더 나아가, 향후 연구를 지원하기 위해 우리의 코드와 30,000개의 다양한 프롬프트로 구성된 새로운 벤치마크 데이터셋을 공개합니다.
구조 기반 약물 설계를 위한 생성 모델은 특정 양식에 제한되는 경우가 많아 광범위한 적용 가능성이 제한됩니다. 이러한 문제를 해결하기 위해 우리는 컴퓨터 비전 기반 프레임워크인 FuncBind를 소개합니다. 이 프레임워크는 원자 시스템 전반에 걸쳐 표적 구조에 조건화된 전원자 분자를 생성합니다. FuncBind는 신경장을 사용하여 분자를 연속적인 원자 밀도로 표현하고, 컴퓨터 비전 문헌에서 차용한 현대적 아키텍처를 적용한 점수 기반 생성 모델을 활용합니다. 이러한 양식 독립적 표현을 통해 단일 통합 모델이 소분자부터 대분자에 이르기까지 다양한 원자 시스템에 대해 학습될 수 있으며, 비표준 아미노산을 포함한 가변적인 원자/잔기 수를 처리할 수 있습니다. FuncBind는 표적 구조에 조건화된 소분자, 거대환상 펩타이드, 항체 상보성 결정 영역 루프 생성에서 경쟁력 있는 전산 성능을 달성했습니다. 또한 FuncBind는 선택된 두 공동결정 구조의 상보성 결정 영역 H3 루프를 데노보 재설계를 통해 새로운 항체 결합체를 시험관 내에서 생성했습니다. 마지막으로, 우리는 구조 조건화 거대환상 펩타이드 생성을 위한 새로운 데이터셋과 벤치마크를 제안합니다. 코드는 https://github.com/prescient-design/funcbind에서 이용 가능합니다.
대규모 언어 모델(LLM)은 사회적, 정치적, 경제적 사건에 걸쳐 부분적인 예측 능력을 보여줍니다. 그러나 그들의 예측 능력은 영역의 구조와 프롬프트 구성에 따라 현저히 달라집니다. 우리는 모델의 학습 차단 날짜 이후에 발생한 실제 사건에 대한 질문들에서 서로 다른 모델 패밀리별로 예측 성능이 어떻게 변화하는지 조사합니다. 또한 맥락, 질문 유형, 외부 지식이 정확도와 보정(calibration)에 어떤 영향을 미치는지, 그리고 사실적 뉴스 맥락을 추가하는 것이 신념 형성과 실패 모드를 어떻게 변화시키는지 분석합니다. 우리의 결과는 예측 능력이 '무엇을', '어떻게' 질문하느냐에 따라 크게 달라짐을 보여줍니다.
비전-언어 모델은 어떤 데이터로 훈련해야 할까? 이 질문에 답하기 위해 많은 데이터 선별 작업은 데이터셋의 품질에 중점을 둡니다. 그러나 기존 방법 대부분은 (i) 오프라인 방식, 즉 미리 정해진 필터링 기준 세트로부터 정적 데이터셋을 생성하며, (ii) 개념 인식이 불가능한 방식, 즉 추가적인 데이터 편향을 유발하는 모델 기반 필터를 사용합니다. 본 연구에서는 이러한 오프라인적이고 개념 인식이 불가능한 방법을 넘어 더 유연하고 작업 적응형인 온라인 개념 기반 선별을 주장합니다. 우리의 첫 번째 기여는 개념 구성에 대한 세부적인 정보가 주석으로 달린 128M개의 웹 기반 이미지-텍스트 쌍 컬렉션인 DataConcept입니다. DataConcept를 기반으로 우리는 특정 목표 분포에 따라 즉시 배치를 유연하게 구성하는 간단하면서 효과적인 배치 샘플링 프레임워크인 개념 인식 배치 샘플링(CABS)을 소개합니다. 우리는 두 가지 변형을 제안합니다: (i) 사용 가능한 개념을 광범위하게 포괄하는 배치를 선별하는 다양성 극대화(CABS-DM)와 (ii) 높은 객체 중복도를 가진 배치를 선별하는 빈도 극대화(CABS-FM). 28개 벤치마크에 걸친 광범위한 평가를 통해 우리의 CABS 방법이 CLIP/SigLIP 모델 클래스에 상당한 이점을 제공하며 매우 높은 성능의 모델을 생성함을 입증합니다. 전반적으로 CABS는 독점적인 온라인 데이터 선별 알고리즘에 대한 강력한 오픈소스 대안을 제시하며, 실무자가 특정 다운스트림 작업에 최적화된 사용자 정의 개념 분포를 정의할 수 있게 합니다.
표준 단안 비디오에서 탁구 공의 정확한 3차원 운동을 획득하는 것은 기존의 합성 데이터로 훈련된 방법들이 실제 세계의 노이즈가 많고 불완전한 공 및 탁대 감지에 일반화하기 어려워 어려운 문제입니다. 이는 주로 실제 영상에 대한 3차원 실측 궤적 및 회전 주석의 본질적 부재 때문입니다. 이를 극복하기 위해, 우리는 문제를 프론트엔드 인식 작업과 백엔드 2D-to-3D 향상 작업으로 분리하는 새로운 2단계 파이프라인을 제안합니다. 이러한 분리를 통해 새로 구축한 TTPQ 데이터셋의 풍부한 2D 감독으로 프론트엔드 구성 요소를 훈련하는 동시에, 백엔드 향상 네트워크는 물리적으로 정확한 합성 데이터로만 독점적으로 훈련됩니다. 우리는 특히 누락된 감지 및 다양한 프레임 속도와 같은 일반적인 실제 현상에 강건하도록 향상 모델을 재설계합니다. 공 감지기와 탁대 키포인트 감지기를 통합함으로써, 우리의 접근 방식은 개념 증명 수준의 향상 방법을 실용적이고 강건하며 고성능의 종단간 3차원 탁구 궤적 및 회전 분석 애플리케이션으로 변환합니다.