번역이 포함된 일일 선별된 AI 연구 논문
우리는 개념 프롬프트(짧은 명사구(예: "노란 스쿨버스"), 이미지 예시, 또는 둘의 조합)를 기반으로 이미지와 비디오에서 객체를 감지, 분할, 추적하는 통합 모델인 Segment Anything Model(SAM) 3을 제안합니다. 프롬프트 가능 개념 분할(PCS)은 이러한 프롬프트를 입력받아 일치하는 모든 객체 인스턴스에 대한 분할 마스크와 고유 식별자를 반환합니다. PCS를 발전시키기 위해 우리는 이미지와 비디오 전반에 걸쳐 난제 예시를 포함한 400만 개의 고유 개념 레이블로 구성된 고품질 데이터셋을 생성하는 확장 가능한 데이터 엔진을 구축했습니다. 우리 모델은 단일 백본을 공유하는 이미지 수준 검출기와 메모리 기반 비디오 추적기로 구성됩니다. 인식과 위치 파악은 존재 감지 헤드를 통해 분리되어 검출 정확도를 향상시킵니다. SAM 3은 이미지 및 비디오 PCS 모두에서 기존 시스템의 정확도를 두 배로 높이며, 시각적 분할 작업에 대한 기존 SAM의 성능을 개선합니다. 우리는 SAM 3과 프롬프트 가능 개념 분할을 위한 새로운 벤치마크인 Segment Anything with Concepts(SA-Co)를 오픈 소스로 공개합니다.
현재 에이전트 기반 시각 추론 연구는 심층 다중모달 이해를 가능하게 하지만 주로 이미지 조작 도구에 집중되어 있어 보다 일반적인 목적의 에이전트 모델 개발로의 공백이 존재합니다. 본 연구에서는 미묘한 시각적 기반 추론뿐만 아니라 추론 과정에서 가설을 확인하거나 정제하기 위한 웹 검색이 필요한 지리 위치 확인(geolocalization) 과제를 재조명합니다. 기존 지리 위치 확인 벤치마크는 고해상도 이미지에 대한 요구와 심층 에이전트 추론을 위한 위치 확인 과제의 난이도를 충족시키지 못하므로, 전 세계의 사진과 파노라마, 그리고 다양한 도시의 위성 이미지 하위 집합을 포함하여 에이전트 모델의 지리 위치 확인 능력을 엄격하게 평가할 수 있는 GeoBench 벤치마크를 구축했습니다. 또한 관심 영역을 확대하는 이미지 확대 도구와 관련 웹 정보를 검색하는 웹 검색 도구를 포함하여 추론 루프 내에서 도구 호출을 원활하게 통합하는 에이전트 모델 GeoVista를 제안합니다. 이를 위해 추론 패턴과 도구 사용 사전 지식을 학습하는 콜드 스타트 지도 미세 조정(SFT) 단계와 추론 능력을 추가로 향상시키는 강화 학습(RL) 단계로 구성된 완전한 학습 파이프라인을 개발했습니다. 다단계 지리 정보를 활용하여 전반적인 지리 위치 확인 성능을 개선하기 위해 계층적 보상 방식을 채택했습니다. 실험 결과 GeoVista는 지리 위치 확인 과제에서 다른 오픈소스 에이전트 모델을 크게 능가하며 대부분의 메트릭에서 Gemini-2.5-flash 및 GPT-5와 같은 클로즈드소스 모델에 버금가는 성능을 달성함을 보여줍니다.
본질적 차원(ID)은 현대 LLM 분석에서 중요한 도구로, 훈련 역학, 확장 행동, 데이터셋 구조에 대한 연구에 기여하지만 그 텍스트적 결정인자는 아직 충분히 탐구되지 않았습니다. 본 연구는 교차 인코더 분석, 언어학적 특성, 희소 오토인코더(SAE)를 통해 해석 가능한 텍스트 속성에 ID를 근거 짓는 첫 번째 포괄적 연구를 제시합니다. 우리는 세 가지 핵심 발견을 정립했습니다. 첫째, ID는 엔트로피 기반 지표와 상호 보완적입니다: 길이를 통제한 후 두 지표는 상관관계가 없으며, ID는 예측 품질과 직교하는 기하학적 복잡성을 포착합니다. 둘째, ID는 강력한 장르 계층화를 보입니다: 과학적 산문은 낮은 ID(~8), 백과사전적 내용은 중간 ID(~9), 창의적/의견 기반 글은 높은 ID(~10.5)를 모든 모델에서 일관되게 나타냅니다. 이는 현대 LLM이 과학 텍스트를 "표현적으로 단순"하게 인식하는 반면, 소설은 추가적인 자유도를 필요로 함을 보여줍니다. 셋째, SAE를 사용하여 인과적 특성을 규명했습니다: 과학적 신호(격식적 어조, 보고서 템플릿, 통계)는 ID를 낮추고, 인간화 신호(개인화, 정서, 서사)는 ID를 증가시킵니다. 스티어링 실험은 이러한 효과가 인과적임을 확인합니다. 따라서 현대 모델에 대해 과학적 글쓰기는 상대적으로 "쉬운" 반면, 소설, 의견, 정서는 표현적 자유도를 추가하는 것으로 나타납니다. 본 다각적 분석은 ID의 적절한 사용과 ID 기반 결과의 건전한 해석을 위한 실용적 지침을 제공합니다.
대규모 추론 모델의 최근 발전은 이러한 능력을 다중모달 영역으로 확장하려는 관심을 고조시키고 있습니다. 그러나 시각적 추론 분야에서의 주목할 만한 진전에도 불구하고, 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략의 부족은 확장 가능한 연구의 주요 장벽으로 남아 있습니다. 본 연구에서는 지도 미세조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)을 아우르는 완전히 투명한 2단계 다중모달 추론 레시피인 OpenMMReasoner를 소개합니다. SFT 단계에서는 엄격한 단계별 검증을 통해 874K 샘플의 콜드 스타트 데이터셋을 구축하여 추론 능력의 견고한 기반을 제공합니다. 이후 RL 단계에서는 다양한 도메인에 걸친 74K 샘플 데이터셋을 활용하여 이러한 능력을 더욱 예리하고 안정적으로 다듬어, 더욱 견고하고 효율적인 학습 과정을 구현합니다. 광범위한 평가를 통해 우리의 훈련 레시피가 강력한 베이스라인을 능가할 뿐만 아니라, 다중모달 추론 성능을 형성하는 데 있어 데이터 품질과 훈련 설계의 중요성을 부각시킴을 입증했습니다. 특히, 우리의 방법은 9개의 다중모달 추론 벤치마크에서 Qwen2.5-VL-7B-Instruct 베이스라인 대비 11.6%의 성능 향상을 달성하여, 향후 대규모 다중모달 추론 연구를 위한 견고한 실증적 기반을 마련했습니다. 우리는 모든 코드, 파이프라인 및 데이터를 https://github.com/EvolvingLMMs-Lab/OpenMMReasoner에서 오픈소스로 공개했습니다.
RynnVLA-002는 통합된 Vision-Language-Action(VLA) 및 월드 모델입니다. 이 월드 모델은 동작과 시각 입력을 활용하여 미래의 이미지 상태를 예측하고, 환경의 기초 물리를 학습하여 동작 생성을 정교화합니다. 반대로, VLA 모델은 이미지 관측으로부터 후속 동작을 생성하여 시각 이해를 향상시키고 월드 모델의 이미지 생성을 지원합니다. RynnVLA-002의 통합 프레임워크는 환경 역학과 동작 계획의 결합 학습을 가능하게 합니다. 우리의 실험 결과, RynnVLA-002가 개별 VLA 및 월드 모델을 능가하며 상호 향상 효과를 보여줍니다. RynnVLA-002는 시뮬레이션과 실제 로봇 과제 모두에서 평가되었습니다. RynnVLA-002는 사전 훈련 없이 LIBERO 시뮬레이션 벤치마크에서 97.4%의 성공률을 달성했으며, 실제 LeRobot 실험에서는 통합 월드 모델이 전체 성공률을 50% 향상시켰습니다.
LLM 기반 에이전트의 최근 발전은 인간과 유사한 응답 생성에서 상당한 잠재력을 보여주고 있으나, 복잡한 환경 내에서 장기적 상호작용을 유지하는 데에는 맥락 일관성과 동적 개인화의 한계로 인해 여전히 어려움을 겪고 있습니다. 기존 메모리 시스템은 검색 전에 의미론적 그룹화에 의존하는 경우가 많아, 의미적으로는 무관하지만 중요한 사용자 정보를 간과하고 검색 노이즈를 유발할 수 있습니다. 본 보고서에서는 사용자의 능동적 에이전트 상호작용으로부터 사용자 특성과 이벤트 기록을 동적으로 추출 및 업데이트하는 능동적 사용자 프로파일링 기반의 새로운 메모리 프레임워크인 O-Mem의 초기 설계를 제안합니다. O-Mem은 개인 속성(persona attribute)과 주제 관련 맥락의 계층적 검색을 지원하여 보다 적응적이고 일관된 개인화 응답을 가능하게 합니다. O-Mem은 공개 벤치마크 LoCoMo에서 51.67%를 달성하여 기존 최고 기술인 LangMem 대비 약 3% 향상되었으며, PERSONAMEM에서는 62.99%를 달성하여 기존 최고 기술인 A-Mem 대비 3.5% 향상되었습니다. 또한 O-Mem은 기존 메모리 프레임워크 대비 토큰 및 상호작용 응답 시간 효율성도 향상시켰습니다. 본 연구는 향후 효율적이고 인간과 유사한 개인화 AI 어시스턴트 개발을 위한 유망한 방향을 제시합니다.
텍스트가 풍부한 동영상을 이해하려면 반복적인 확인이 필요한 작고 일시적인 텍스트 단서를 읽어내야 합니다. 그러나 대부분의 동영상 질의응답 모델은 고정된 프레임에 대한 단일 패스 인식에 의존하여 세밀한 증거에서 환각 현상과 실패를 초래합니다. 인간이 중요한 영역을 일시 정지, 확대, 재검토하는 방식에서 영감을 받아, 우리는 시각적 반추(Visual Rumination)를 수행하는 동영상 추론 LMM인 Video-R4(Reinforcing Text-Rich Video Reasoning with Visual Rumination)를 제안합니다. 이는 프레임을 반복적으로 선택하고 정보성 있는 영역을 확대하며 검색된 픽셀을 재인코딩하고 추론 상태를 업데이트합니다. 우리는 실행 가능한 반추 궤적을 가진 두 가지 데이터셋(Video-R4-CoT-17k: 지도 학습용, Video-R4-RL-30k: 강화 학습용)을 구축했습니다. 또한 SFT와 GRPO 기반 강화 학습을 통해 7B LMM을 점진적으로 미세 조정하여 원자적 및 혼합 시각 연산을 학습하는 다단계 반추 학습 프레임워크를 제안합니다. Video-R4-7B는 M4-ViteVQA에서 최첨단 성능을 달성하고 다중 페이지 문서 QA, 슬라이드 QA, 일반 동영상 QA로도 일반화되어 반복적 반추가 픽셀 기반 다중 모달 추론에 효과적인 패러다임임을 입증합니다.
월드젠(WorldGen)은 텍스트 프롬프트로부터 대규모 인터랙티브 3D 세계를 자동 생성할 수 있는 시스템을 소개합니다. 우리의 접근 방식은 자연어 설명을 표준 게임 엔진 내에서 즉시 탐색하거나 편집 가능한 완전한 텍스처가 적용된 이동 가능 환경으로 변환합니다. LLM 기반 장면 레이아웃 추론, 절차적 생성, 확산 기반 3D 생성 및 객체 인식 장면 분해를 결합함으로써 월드젠은 창의적 의도와 기능적 가상 공간 간의 간극을 메꾸어, 창작자들이 수동 모델링이나 전문 3D 기술 없이도 일관되고 탐색 가능한 세계를 설계할 수 있게 합니다. 본 시스템은 완전히 모듈화되어 레이아웃, 규모, 스타일에 대한 세밀한 제어를 지원하며, 기하학적으로 일관되고 시각적으로 풍부하며 실시간 렌더링에 효율적인 세계를 생성합니다. 이 작업은 게임, 시뮬레이션, 몰입형 소셜 환경 등에 적용 가능한 3D 생성 AI의 최전선을 발전시키며, 대규모 생성형 월드 빌딩의 접근성을 높이는 한 걸음을 나타냅니다.
본 연구는 대규모 언어 모델(LLM)에서 권위와 설득을 통해 사용자에게 가해지는 사회적 압력 하에서 발생하는 정확도 저하를 측정하기 위해 설계된 강건성 중심 프레임워크인 PARROT(Persuasion and Agreement Robustness Rating of Output Truth)를 제시한다. 이는 과도한 동조 현상인 아첨(sycophancy)을 정량화한다. PARROT는 (i) 동일한 질문의 중립 버전과 권위적으로 잘못된 버전을 이중 맹검 평가를 통해 비교하여 인과 관계 효과를 분리하고, (ii) 로그-우도 기반 보정 추적을 사용하여 정답과 강요된 오답에 대한 신뢰도 변화를 정량화하며, (iii) 8가지 상태의 행동 분류 체계를 사용하여 실패 모드(예: 강건한 정답, 아첨적 동의, 강화된 오류, 고집스러운 오류, 자기 수정 등)를 체계적으로 분류한다. 우리는 13개 분야와 분야별 권위 템플릿을 활용한 1,302개의 MMLU 스타일 객관식 질문으로 22개 모델을 평가했다. 결과는 뚜렷한 이질성을 보여준다: 최신 모델들(예: GPT-5, GPT-4.1, Claude Sonnet 4.5)은 낮은 '따르기 비율'(11% 이하, GPT-5: 4%)과 최소한의 정확도 손실을 보인 반면, 이전/소규모 모델들은 심각한 인식론적 붕괴(GPT-4: 80%, Qwen 2.5-1.5B: 94%)를 보였다. 위험은 응답 변경에만 국한되지 않는다; 취약한 모델들은 정답에 대한 신뢰도를 낮추면서 강요된 오답에 대한 신뢰도를 높인다. 분야 수준에서 국제법과 세계 지식은 높은 취약성을 보인 반면, 초등 수학은 상대적으로 강건했다. 결과적으로, 우리는 "과도한 압력에 대한 저항"이라는 목표가 정확도, 유해성 회피, 개인정보 보호와 함께 현실 세계에서의 안전한 배포를 위한 주요 목표로서 다루어져야 한다고 주장한다.
단계별 그림 튜토리얼은 예술 기법 학습에 필수적이지만, 기존 동영상 자료(예: YouTube)는 상호작용성과 개인화가 부족합니다. 최근 생성 모델은 예술적 이미지 합성에서 진전을 이루었으나, 다양한 매체 간 일반화에 어려움을 겪으며 시간적 또는 구조적 불일치를 보여 인간의 창작 워크플로우를 충실히 재현하는 데 방해가 됩니다. 이를 해결하기 위해 우리는 의미론 기반 스타일 제어 메커니즘을 통한 다매체 그림 과정 생성 통합 프레임워크를 제안합니다. 이는 여러 매체를 확산 모델의 조건 공간에 임베딩하고 교차 매체 스타일 증강을 사용하여 스타일 간 일관된 텍스처 진화와 과정 전이를 가능하게 합니다. 역방향 그림 학습 전략은 더욱 부드럽고 인간과 조화된 생성을 보장합니다. 또한 실제 그림 과정 대규모 데이터셋을 구축하고 교차 매체 일관성, 시간적 일관성, 최종 이미지 정확도를 평가하여 LPIPS, DINO, CLIP 메트릭에서 우수한 결과를 달성했습니다. 마지막으로, 우리의 지각 거리 프로파일(PDP) 곡선은 구성, 색상 배치, 디테일 정교화라는 창작 순서를 정량적으로 모델링하여 인간의 예술적 진행 과정을 반영합니다.
비전-언어 모델(VLMs)의 놀라운 성과에도 불구하고, 다양한 복잡한 시각 과제에서의 성능은 종종 "시각 처리 병목 현상"으로 인해 제한받습니다. 이는 장기 생성 과정에서 시각적 근거에 대한 기반을 상실하고 맥락화된 시각 경험의 결핍을 보이는 경향을 의미합니다. 인간의 인지 기억 이론, 즉 단기 시각 중심 기억과 장기 의미 중심 기억을 구분하는 이론에서 영감을 얻어, 우리는 VLM에 동적 잠재 시각 메모리(단기 미세 지각 유지 모듈과 장기 추상 의미 통합 모듈)를 부여하는 인지 정렬 프레임워크인 VisMem을 제안합니다. 이러한 메모리는 추론 과정에서 원활하게 호출되어 VLM이 사고와 생성 전반에 걸쳐 지각적 정확성과 의미적 일관성을 유지할 수 있도록 합니다. 이해, 추론, 생성을 위한 다양한 시각 벤치마크에서 진행된 폭넓은 실험을 통해 VisMem이 기본 모델 대비 평균 11.8%의显著的 성능 향상을 제공하며 모든 비교 대조군을 능가함으로써, 잠재 공간 메모리 강화에 대한 새로운 패러다임을 정립함을 확인했습니다. 코드는 https://github.com/YU-deep/VisMem.git에서 공개될 예정입니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델의 최근 발전은 시각 신호가 희소한 행동 감독을 효과적으로 보완할 수 있음을 보여줍니다. 그러나 VLA 모델이 고차원 시각 상태를 직접 예측하도록 하면 모델 용량이 분산되고 훈련 비용이 급증하는 반면, 시각 상태를 더 압축된 감독 신호로 압축하는 것은 필연적으로 정보 병목 현상을 초래합니다. 더욱이 기존 방법들은 언어 감독을 소홀히 함으로써 이해 및 추론 능력이 부족한 경우가 많습니다. 본 논문은 이러한 문제를 해결하기 위해 분리된 시각 예측(Disentangled Visual Foresight, DVF)을 특징으로 하는 새로운 프레임워크인 Mantis를 소개합니다. 구체적으로 Mantis는 메타 쿼리와 Diffusion Transformer(DiT) 헤드의 조합을 통해 시각 예측을 백본에서 분리합니다. 잔차 연결을 통해 현재 시각 상태가 DiT에 제공될 때, 단순한 다음 상태 예측 목표를 통해 메타 쿼리는 시각 궤적을 delineate하는 잠재 행동을 자동으로 포착하여 명시적 행동의 학습을 촉진합니다. 이러한 분리는 VLA 백본의 부담을 줄여 언어 감독을 통해 이해 및 추론 능력을 유지할 수 있게 합니다. 실험적으로, 인간 조작 비디오, 로봇 데모 및 이미지-텍스트 쌍으로 사전 훈련된 Mantis는 미세 조정 후 LIBERO 벤치마크에서 96.7%의 성공률을 달성하여 강력한 베이스라인을 능가하면서 높은 수렴 속도를 보여줍니다. 실제 환경 평가에서 Mantis는 주류 오픈소스 VLA 모델인 π_{0.5}보다 특히 지시 따르기 능력, 보지 않은 지시에 대한 일반화 및 추론 능력에서 우수한 성능을 보입니다. 코드와 가중치는 오픈소스 커뮤니티를 지원하기 위해 공개됩니다.
희소 입력 뷰에서의 다중 뷰 이미지 편집 과제를 다룹니다. 여기서 입력은 서로 다른 시점에서 장면을 포착한 이미지들의 혼합으로 간주될 수 있습니다. 목표는 텍스트 지시에 따라 장면을 수정하면서 모든 뷰 간 일관성을 유지하는 것입니다. 장면별 신경망 장면 표현이나 시간적 어텐션 메커니즘에 기반한 기존 방법들은 이 설정에서 어려움을 겪으며, 종종 아티팩트와 비일관적인 편집 결과를 생성합니다. 우리는 InstructMix2Mix(I-Mix2Mix)를 제안합니다. 이는 2D diffusion 모델의 편집 능리를 사전 학습된 다중 뷰 diffusion 모델에 증류하여, 해당 모델의 데이터 기반 3D 사전 지식을 뷰 간 일관성에 활용하는 프레임워크입니다. 핵심 기여는 Score Distillation Sampling(SDS)의 기존 신경망 통합기를 다중 뷰 diffusion student로 대체한 것으로, 이를 위해 새로운 적응 기법이 필요했습니다: 타임스텝 전반에 걸친 점진적 student 업데이트, 퇴화를 방지하기 위한 전용 teacher 노이즈 스케줄러, 추가 비용 없이 뷰 간 일관성을 향상시키는 어텐션 수정 등입니다. 실험을 통해 I-Mix2Mix가 프레임별 높은 편집 품질을 유지하면서 다중 뷰 일관성을 크게 개선함을 입증합니다.
멀티모달 모델의 규모 확대는 시각 이해 및 추론 분야에서 놀라운 발전을 가능하게 했지만, 실제 응용에서는 보다 소규모이면서 효율적인 시스템에 대한 요구가 증가하고 있습니다. 본 연구에서는 멀티모달 모델의 지능 규모 축소에 대한 체계적인 분석을 수행하며, 대규모 언어 모델(LLM)의 용량 감소가 멀티모달 능력에 미치는 영향을 검토합니다. 초기 연구 결과에 따르면, LLM 규모 축소는 LLM으로부터 상속된 능력보다 시각적 능력에 불균형적으로 큰 영향을 미치는 흥미로운 경향이 나타납니다. 우리는 이러한 성능 하락이 주로 예상되는 시각 추론 능력의 감소를 반영하는지, 아니면 더 근본적인 지각 능력의 상실을 나타내는지 추가적으로 검증합니다. LLM 규모 축소가 순수 지각 능력에 미치는 영향을 분리하여 분석한 결과, 성능이 여전히 급격히 하락하며 이는 추론 능력에 미치는 영향에 버금가거나 이를 넘어서는 경우가 많았습니다. 이러한 병목 현상을 해결하기 위해 우리는 시각 정보 추출 미세 조정(visual extraction tuning) 기법을 도입합니다. 이 방법은 모델이 다양한 작업에 걸쳐 지시 사항과 관련된 시각적 세부 정보를 일관성 있게 추출하도록 명시적으로 학습시킵니다. 추출된 시각적 세부 정보를 바탕으로 단계별 추론(step-by-step reasoning)을 적용하여 답변을 생성합니다. 이러한 구성 요소들이 결합된 우리의 Extract+Think 접근법은 해당 분야의 효율성과 성능 측면에서 새로운 기준을 제시합니다.
유전체 서열 모델링은 두 가지 해결되지 않은 과제에 직면해 있습니다: 정보 밀도가 영역마다 크게 다르며, 명확히 정의된 최소 어휘 단위가 존재하지 않는다는 점입니다. 네 가지 기본 염기나 독립적으로 설계된 DNA 토크나이저에 의존하는 기존 접근법들은 단순한 마스크 언어 모델링 사전 훈련을 통해 유전체 서열의 다양한 복잡성을 따라잡지 못하는 경우가 많습니다. 본 논문은 Token Merging 기법을 활용하여, 동적 유전체 토크나이저와 잠재 Transformer를 컨텍스트 인식 사전 훈련 과제와 함께 공동 최적화하는 계층적 아키텍처를 제안합니다. 네트워크 구조 측면에서, 토큰화 모듈은 지역-윈도우 제약을 가진 미분 가능한 토큰 병합 블록을 여러 층으로 쌓아 인접한 염기를 단어로 자동 분할합니다. 이후 잠재 인코더는 전체-어텐션 블록을 통해 이러한 병합된 단어들의 전역 컨텍스트를 포착합니다. MergeDNA는 잠재 디코더와 지역 디코더를 대칭적으로 사용하며 두 가지 사전 훈련 과제로 학습합니다: 병합 토큰 재구성은 동적 토큰화 모듈을 동시에 훈련시키고 중요한 토큰을 적응적으로 필터링하는 반면, 적응형 마스크 토큰 모델링은 이러한 필터링된 토큰을 예측하여 정보성이 높은 내용을 포착하는 방법을 학습합니다. 광범위한 실험을 통해 MergeDNA가 세 가지 주요 DNA 벤치마크와 여러 멀티오믹스 과제에서 미세 조정 또는 제로샷 평가를 수행할 때 일반적인 토큰화 방법과 대규모 DNA 파운데이션 모델을 능가하는 우수한 성능을 달성함을 입증했습니다.
비전-언어-행동(VLA) 모델은 일반적인 로봇 작업에 대한 잠재력을 보여주지만, 세밀한 표현이 필요한 시공간적 일관성 있는 조작에서는 여전히 과제로 남아 있습니다. 일반적으로 기존 방법은 동작의 공간적 정밀도를 향상시키기 위해 3D 위치 정보를 시각적 표현에 내재시킵니다. 그러나 이러한 방법들은 동작 실행에 대한 시간적 일관성 있는 제어를 달성하는 데 어려움을 겪습니다. 본 연구에서는 시공간적 일관성 있는 로봇 조작을 위한 4D 인식을 갖춘 일반 VLA 모델인 VLA-4D를 제안합니다. 우리의 모델은 두 가지 핵심 설계로 구성됩니다: 1) 4D 인식 시각적 표현. 시각적 특징을 추출하고, 1D 시간 정보를 3D 위치에 내재시켜 4D 임베딩을 생성한 후, 교차 주의 메커니즘을 통해 통합된 시각적 표현으로 융합합니다. 2) 시공간적 행동 표현. 기존의 공간적 행동 표현에 시간 정보를 추가하여 시공간적 계획을 가능하게 하고, 다중 모달 표현을 LLM에 정렬하여 시공간적 행동 예측을 수행합니다. 이 통합 프레임워크 내에서 설계된 시각 및 행동 표현은 로봇 조작이 공간적으로 매끄럽고 시간적으로 일관되도록 공동으로 기여합니다. 또한, 모델 미세 조정을 위해 시간적 행동 주석이 추가된 VLA 데이터셋을 확장했습니다. 다양한 실험을 통해 로봇 조작의 여러 과제에서 우리 방법의 우수성을 입증하였습니다.
페어 리뷰는 ICLR과 같은 주요 머신러닝 학회를 포함한 과학 출판의 초석입니다. 제출 논문 수가 증가함에 따라, 리뷰 과정의 본질과 역학을 이해하는 것은 그 효율성, 효과성 및 출판 논문의 질을 향상시키는 데 중요합니다. 본 논문은 ICLR 2024 및 2025 페어 리뷰 과정에 대한 대규모 분석을 제시하며, 리뷰 전/후 점수 및 검토자-저자 상호작용에 초점을 맞춥니다. 우리는 리뷰 점수, 저자-검토자 참여도, 리뷰 제출의 시간적 패턴, 그리고 공동 검토자의 영향력 효과를 검토합니다. 정량적 분석과 LLM 기반 리뷰 텍스트 및 반론(rebuttal) 논의 분류를 결합하여, 각 평점 그룹별 일반적인 강점과 약점, 그리고 점수 변화와 가장 강력하게 연관된 반론 전략의 경향을 규명합니다. 우리의 연구 결과는 초기 점수와 공동 검토자의 평점이 반론 단계 동안 점수 변화의 가장 강력한 예측 변수이며, 이는 일정 정도의 검토자 간 영향력을 시사함을 보여줍니다. 반론은 경계선상에 있는 논문들의 결과를 개선하는 데 가치 있는 역할을 하며, 신중하게 구성된 저자의 응답이 검토자의 시각을 의미 있게 바꿀 수 있습니다. 더 넓게 보면, 본 연구는 페어 리뷰 과정을 개선하기 위한 증거 기반 통찰을 제공하여, 저자들에게 효과적인 반론 전략을 안내하고 커뮤니티가 더 공정하고 효율적인 리뷰 과정을 설계하는 데 도움을 줍니다. 우리의 코드와 점수 변화 데이터는 https://github.com/papercopilot/iclr-insights에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 급속한 발전에 따라 AI 에이전트는 가설 생성, 실험 설계, 원고 작성에 이르기까지 과학적 과업에서 점차 향상된 숙련도를 보여주고 있습니다. 이러한 에이전트 시스템은 일반적으로 "AI 과학자"라고 불립니다. 그러나 기존 AI 과학자들은 과학적 발견을 주로 독립적인 탐색 또는 최적화 문제로 정형화하는데, 과학 연구가 본질적으로 사회적이고 협력적인 노력이라는 사실을 간과하고 있습니다. 실제 세계의 과학은 협력 메커니즘, 기여도 귀속, 동료 검토, 구조화된 과학 지식 네트워크로 구성된 복잡한 과학 인프라에 의존합니다. 이러한 핵심 차원에 대한 모델링이 부족하기 때문에 현재 시스템은 진정한 연구 생태계를 구축하거나 인간 과학 커뮤니티와 깊이 상호작용하는 데 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해 우리는 인간 연구의 근본적인 메커니즘을 AI 과학 워크플로우에 명시적으로 인코딩하는 프레임워크인 OmniScientist를 소개합니다. OmniScientist는 데이터 기반, 문헌 고찰, 연구 아이디어 창출, 실험 자동화, 과학적 글쓰기, 동료 검토에 이르는 엔드투엔드 자동화를 달성할 뿐만 아니라, 인간 과학 시스템을 시뮬레이션하여 포괄적인 인프라 지원을 제공합니다. 이는 다음과 같이 구성됩니다: (1) 인용 네트워크와 개념적 상관관계 위에 구축된 구조화된 지식 시스템; (2) 원활한 다중 에이전트 협력 및 인간 연구자 참여를 가능하게 하는 협력 연구 프로토콜(OSP); (3) 블라인드 방식의 사용자 쌍별 투표와 Elo 순위에 기반한 공개 평가 플랫폼(ScienceArena). 이 인프라는 에이전트가 인간의 지식 시스템을 이해하고 활용할 수 있을 뿐만 아니라 협력하고 공동 진화하여 지속 가능하고 확장 가능한 혁신 생태계를 조성할 수 있는 능력을 부여합니다.
시각적 자기회귀(VAR) 모델은 최근 혁신적인 다음 스케일 예측 패러다임으로 큰 주목을 받고 있으며, 기존의 다단계 자기회귀(AR) 모델 및 확산 모델 대비 추론 효율성과 화질 측면에서 뚜렷한 장점을 보여주고 있습니다. 그러나 효율성에도 불구하고 VAR 모델은 소수 단계 증류 확산 모델에서 관찰되는 것과 유사하게, 출력 다양성 감소 즉 다양성 붕괴(diversity collapse) 문제를 자주 겪습니다. 본 논문에서는 추가 학습 없이 VAR 모델의 생성 다양성을 회복시키는 간단하면서도 효과적인 접근법인 DiverseVAR를 소개합니다. 우리의 분석에 따르면 초기 스케일에서 다양성 형성을 지배하는 핵심 요소는 특징 맵의 중추 구성요소(pivotal component)로 나타납니다. 모델 입력에서는 이 중추 구성요소를 억제하고 모델 출력에서는 이를 증폭함으로써, DiverseVAR는 높은 정확도의 합성 성능을 유지하면서 VAR 모델의 내재된 생성 잠재력을 효과적으로 해제합니다. 실험 결과는 우리의 접근법이 성능 영향은 무시할 수준에 그치면서 생성 다양성을 크게 향상시킴을 입증합니다. 우리의 코드는 https://github.com/wangtong627/DiverseVAR에서 공개될 예정입니다.
금지품 탐지 모델 학습에는 대량의 X-ray 보안 이미지가 필요하지만, 이러한 이미지를 수집하고 주석을 달기는 시간과 노력이 많이 소요됩니다. 데이터 부족 문제를 해결하기 위해 X-ray 보안 이미지 합성 방법은 데이터셋 규모를 확장하기 위해 이미지를 합성합니다. 그러나 기존 방법은 주로 두 단계 파이프라인을 따르며, 첫 번째 단계에서 노동 집약적인 전경 추출을 구현한 후 두 번째 단계에서 이미지를 합성합니다. 이러한 파이프라인은 불가피한 추가 노동 비용을 발생시키고 효율적이지 않습니다. 본 논문에서는 텍스트-이미지 생성 기반의 단일 단계 X-ray 보안 이미지 합성 파이프라인(Xsyn)을 제안하며, 합성 이미지의 활용성을 향상시키기 위한 두 가지 효과적인 전략을 통합합니다. 교차 주의 정제(CAR) 전략은 디퓨전 모델의 교차 주의 맵을 활용하여 바운딩 박스 주석을 개선합니다. 배경 폐색 모델링(BOM) 전략은 이미징 복잡성을 향상시키기 위해 잠재 공간에서 배경 폐색을 명시적으로 모델링합니다. 우리가 알고 있는 한, Xsyn은 기존 방법 대비 추가 노동 비용 없이 고품질 X-ray 보안 이미지 합성을 최초로 달성했습니다. 실험 결과, 우리의 방법은 mAP 1.2% 향상으로 모든 기존 방법을 능가하며, 우리 방법으로 생성된 합성 이미지는 다양한 X-ray 보안 데이터셋과 탐지기에서 금지품 탐지 성능 향상에 도움이 되는 것으로 입증되었습니다. 코드는 https://github.com/pILLOW-1/Xsyn/에서 확인할 수 있습니다.
최근 비디오 생성 방법론들은 시간적 일관성과 움직임 정확도를 향상시키기 위해 객체 궤적과 같은 중간 제어 신호를 계획하는 방식으로 점점 더 발전하고 있습니다. 그러나 이러한 방법들은 대부분 단순한 움직임에 국한되는 일회성 계획을 사용하거나, 비디오 생성기를 여러 번 호출해야 하는 반복 정제 방식을 채택하여 높은 계산 비용이 발생합니다. 이러한 한계를 극복하기 위해 본 논문에서는 테스트 타임 샘플링 및 검증 루프를 도입하여 최종 비디오 생성 전에 보다 동적으로 일관된 궤적(즉, 물리적으로 타당하고 지시 사항과 일치하는 움직임)을 통해 움직임 계획 품질을 향상시키는 학습이 필요 없는 스케치-검증 기반 계획 프레임워크인 SketchVerify를 제안합니다. 주어진 프롬프트와 참조 이미지를 바탕으로, 본 방법론은 여러 후보 움직임 계획을 예측하고 지시 사항과의 의미론적 정렬 및 물리적 타당성을 함께 평가하는 시각-언어 검증기를 사용하여 순위를 매깁니다. 후보 움직임 계획을 효율적으로 평가하기 위해 각 궤적을 정적 배경 위에 객체를 합성하여 경량화된 비디오 스케치로 렌더링하며, 이는 고비용의 반복적인 디퓨전 기반 합성 과정 없이도 유사한 성능을 달성합니다. 만족스러운 움직임 계획이 확인될 때까지 이를 반복적으로 정제한 후, 해당 계획을 궤적 조건부 생성기에 전달하여 최종 합성을 수행합니다. WorldModelBench와 PhyWorldBench에서의 실험 결과, 본 방법론이 경쟁력 있는 베이스라인 대비 움직임 품질, 물리적 현실감, 장기적 일관성을 크게 향상시키면서도 훨씬 더 효율적임을 입증했습니다. 추가로 수행한 절제 연구는 궤적 후보의 수를 확장하면 전반적인 성능이 지속적으로 향상됨을 보여줍니다.
비전-언어 모델(VLM)의 오용이 증가함에 따라 제공업체들은 정렬 튜닝, 시스템 프롬프트, 콘텐츠 조정 등 다양한 안전장치를 도입하고 있습니다. 그러나 적대적 공격에 대항한 이러한 방어 메커니즘의 실제 강건성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 GPT-4o, Gemini-Pro, Llama-4와 같은 최신 방어 장치를 갖춘 선도적인 VLM에서 일반적인 안전 취약점을 체계적으로 드러내는 프레임워크인 다면적 공격(MFA)을 소개합니다. MFA의 핵심 구성 요소는 상충되는 목표를 가진 메타 작업 내에 유해한 지시를 숨기는 주의 전이 공격(ATA)입니다. 우리는 이 공격이 성공하는 이유를 설명하기 위해 보상 해킹에 기반한 이론적 관점을 제시합니다. 또한 교차 모델 전이성을 향상시키기 위해, 모델별 미세 조정 없이 입력 수준 및 출력 수준 필터를 모두 우회하는 경량화된 전이 강화 알고리즘과 단순 반복 전략을 결합했습니다. 실험적으로, 하나의 비전 인코더에 대해 최적화된 적대적 이미지가 보이지 않는 VLM으로 광범위하게 전이됨을 보여주며, 이는 공유된 시각 표현이 교차 모델 안전 취약점을 생성함을 시사합니다. 전체적으로 MFA는 58.5%의 성공률을 달성하며 기존 방법들을 일관되게 능가했습니다. 최신 상용 모델에서 MFA는 52.8%의 성공률에 도달하여 두 번째로 우수한 공격 대비 34% 높은 성과를 보였습니다. 이러한 결과는 현재 방어 메커니즘의 인식된 강건성에 의문을 제기하며 현대 VLM의 지속적인 안전 취약점을 부각시킵니다. 코드: https://github.com/cure-lab/MultiFacetedAttack
순수 AMD 하드웨어상에서 진행된 최초의 대규모 전문가 혼합(MoE) 사전 학습 연구를 보고합니다. 본 연구는 Pollara 상호 연결을 갖춘 MI300X GPU를 모두 활용하였으며, 시스템 및 모델 설계를 위한 실용적인 지침을 도출하였습니다. 시스템 측면에서는 포괄적인 클러스터 및 네트워킹 특성 분석을 제공합니다. 즉, Pollara 상에서 다양한 메시지 크기와 GPU 수에 걸쳐 모든 핵심 집단 통신(All-Reduce, Reduce-Scatter, All-Gather, Broadcast)에 대한 마이크로 벤치마크를 수행했습니다. 우리가 아는 한, 이는 이러한 규모로는 최초입니다. 또한 모델 설계에 도움을 주기 위해 커널 크기 조정 및 메모리 대역폭에 대한 MI300X 마이크로 벤치마크를 추가로 제공합니다. 모델링 측면에서는 어텐션 및 MLP 블록에 대한 MI300X 인지 트랜스포머 크기 조정 규칙을 소개하고 적용하며, 학습 처리량과 추론 지연 시간을 함께 최적화하는 MoE 폭을 정당화합니다. 자주 간과되는 장애 허용성 및 체크포인트 재구성과 같은 유틸리티뿐만 아니라 학습 레시피에 대한 상세한 정보를 포함하여 학습 스택을 깊이 있게 설명합니다. 또한 향후 논문에서 더욱 개선될 모델 아키텍처 및 기본 모델인 ZAYA1(활성 매개변수 7억 6천만 개, 총 매개변수 83억 개 MoE)에 대한 미리보기를 제공합니다. ZAYA1-base는 동급 및 더 큰 규모의 Qwen3-4B, Gemma3-12B와 같은 주요 기본 모델에 필적하는 성능을 달성하며, 추론, 수학, 코딩 벤치마크에서 Llama-3-8B 및 OLMoE를 포함한 모델들을 능가합니다. 이러한 결과들은 AMD 하드웨어, 네트워크 및 소프트웨어 스택이 경쟁력 있는 대규모 사전 학습을 수행하기에 충분히 성숙하고 최적화되었음을 보여줍니다.
살성시 맵은 딥러닝에서 시각적 설명을 위해 널리 사용되지만, 그 의도된 목적과 다양한 사용자 질의와의 정합성에 관한 근본적인 합의가 부족한 상황이 지속되고 있습니다. 이러한 모호성은 설명 방법의 효과적인 평가와 실용적 유용성을 저해합니다. 본 연구는 이러한 격차를 해소하기 위해 기준 프레임 × 세분성(RFxG) 분류 체계를 도입합니다. 이는 원칙에 기반한 개념적 프레임워크로, 살성시 설명을 두 가지 핵심 축을 따라 체계화합니다: **기준 프레임**: 점별 설명("왜 이 예측인가?")과 대조적 설명("왜 대안이 아닌 이것인가?")을 구분합니다. **세분성**: 세분화된 클래스 수준(예: "왜 허스키인가?")에서 거시적인 그룹 수준(예: "왜 개인가?")에 이르는 해석의 범위를 다룹니다. RFxG 렌즈를 통해 우리는 기존 평가 지표의 중대한 한계를 입증합니다. 이러한 지표는 압도적으로 점별 정합성에 초점을 두는 반면, 대조적 추론과 의미론적 세분성을 간과하고 있습니다. RFxG 두 차원에 걸쳐 설명 품질을 체계적으로 평가하기 위해, 우리는 네 가지 새로운 정합성 지표를 제안합니다. 우리의 포괄적 평가 프레임워크는 이러한 지표를 10개의 최신 살성시 방법, 4가지 모델 아키텍처, 3개의 데이터셋에 적용합니다. 사용자 의도 주도의 평가로의 전환을 촉구함으로써, 본 연구는 근본적인 모델 행동에 충실할 뿐만 아니라 인간의 이해와 탐구의 복잡성과 의미 있게 조응하는 시각적 설명을 개발하는 데 필요한 개념적 기반과 실용적 도구를 동시에 제공합니다.