번역이 포함된 일일 선별된 AI 연구 논문
본 보고서에서는 고품질 3D 형상 생성을 위한 확장 가능한 3D 디퓨전 프레임워크인 UltraShape 1.0을 소개한다. 제안하는 접근법은 두 단계 생성 파이프라인을 채택한다: 먼저 개략적인 전역 구조가 합성된 다음, 이를 정제하여 디테일하고 고품질의 형상을 생성한다. 신뢰할 수 있는 3D 생성을 지원하기 위해, 새로운 수밀(watertight) 처리 방법과 고품질 데이터 필터링을 포함하는 포괄적인 데이터 처리 파이프라인을 개발하였다. 이 파이프라인은 저품질 샘플을 제거하고, 구멍을 메우며, 얇은 구조를 두껍게 하는 동시에 세밀한 형상 디테일을 보존함으로써 공개된 3D 데이터셋의 기하학적 품질을 향상시킨다. 미세한 형상 정제를 가능하게 하기 위해, 디퓨전 과정에서 공간적 위치 지정과 기하학적 디테일 합성을 분리한다. 이를 위해 고정된 공간 위치에서 복셀 기반 정제를 수행하며, 여기서 조악한 형상에서 도출된 복셀 쿼리는 RoPE를 통해 인코딩된 명시적 위치 기준점을 제공하여 디퓨전 모델이 축소되고 구조화된 해결 공간 내에서 지역적 기하학적 디테일 합성에 집중할 수 있게 한다. 우리 모델은 공개된 3D 데이터셋만으로 훈련되었으며, 제한된 훈련 자원에도 불구하고 우수한 기하학적 품질을 달성한다. 광범위한 평가를 통해 UltraShape 1.0이 데이터 처리 품질과 형상 생성 모두에서 기존 오픈소스 방법들과 경쟁력 있는 성능을 보임을 입증한다. 향후 연구를 지원하기 위해 모든 코드와 훈련된 모델을 공개할 예정이다.
최근 통합 생성 및 편집 모델은 인상적인 성능으로 주목할만한 성과를 거두었습니다. 이러한 모델은 주로 텍스트 프롬프트에 의존하여 지시 기반 편집 및 생성을 수행하지만, 언어만으로는 사용자가 의도한 편집 위치와 세밀한 시각적 디테일을 충분히 표현하기 어렵습니다. 이를 위해 본 연구에서는 사용자의 텍스트, 이미지, 자유로운 스케치를 그래픽 사용자 인터페이스(GUI) 상에서 결합하여 보다 유연한 창작을 가능하게 하는 스크리블 기반 편집 및 생성이라는 두 가지 과제를 제안합니다. 우리는 DreamOmni3를 소개하며, 데이터 생성과 프레임워크 설계라는 두 가지 난제를 해결합니다. 우리의 데이터 합성 파이프라인은 스크리블 기반 편집과 생성 두 부분으로 구성됩니다. 스크리블 기반 편집을 위해 우리는 스크리블 및 지시 기반 편집, 스크리블 및 다중모달 지시 기반 편집, 이미지 융합, 낙서 편집이라는 네 가지 작업을 정의합니다. DreamOmni2 데이터셋을 기반으로 편집 가능한 영역을 추출하고 손으로 그린 사각형, 원, 낙서 또는 크롭된 이미지를 중첩하여 학습 데이터를 구축합니다. 스크리블 기반 생성을 위해서는 유사한 데이터 생성 파이프라인을 따라 스크리블 및 지시 기반 생성, 스크리블 및 다중모달 지시 기반 생성, 낙서 생성이라는 세 가지 작업을 정의합니다. 프레임워크 측면에서는 여러 스크리블, 이미지, 지시사항이 복합적으로 관여하는 편집에 취약한 이진 마스크 대신, 원본 이미지와 스크리블이 가해진 소스 이미지를 모두 모델에 입력하는 공동 입력 방식을 제안합니다. 서로 다른 색상을 사용하여 영역을 구분하고 처리를 단순화하며, 두 이미지에 동일한 인덱스 및 위치 인코딩을 적용함으로써 모델이 정확한 편집을 유지하면서 스크리블 영역을 정밀하게 지역화할 수 있습니다. 마지막으로, 해당 과제들에 대한 포괄적인 벤치마크를 구축하여 향후 연구를 촉진합니다. 실험 결과는 DreamOmni3가 우수한 성능을 달성함을 보여주며, 모델과 코드는 공개될 예정입니다.
우리는 장문맥 언어 모델링을 아키텍처 설계 문제가 아닌 연속 학습 문제로 재정의합니다. 이러한 재정의 하에서 우리는 슬라이딩 윈도우 어텐션을 적용한 표준 트랜스포머 아키텍처만을 사용합니다. 그러나 우리의 모델은 주어진 문맥에 대해 다음 토큰 예측을 통해 테스트 시간에 학습을 지속하며, 읽어 들이는 문맥을 자신의 가중치로 압축합니다. 또한 훈련 시간에 메타러닝을 통해 테스트 시간 학습을 위한 모델 초기화를 개선합니다. 전반적으로, 우리의 방법은 테스트 타임 트레이닝(TTT)의 한 형태로, 테스트 시간(다음 토큰 예측을 통해)과 훈련 시간(메타러닝을 통해) 모두에서 End-to-End(E2E)로 이루어지며, 이는 기존 형태와 대조적입니다. 우리는 확장 특성에 중점을 둔 폭넓은 실험을 수행합니다. 특히 164B 토큰으로 훈련된 3B 모델의 경우, 우리의 방법(TTT-E2E)은 전체 어텐션을 사용하는 트랜스포머와 동일한 방식으로 문맥 길이에 따라 성능이 확장되는 반면, Mamba 2나 Gated DeltaNet 등의 다른 방법들은 그렇지 못했습니다. 그러나 RNN과 유사하게 TTT-E2E는 문맥 길이와 관계없이 일정한 추론 지연 시간을 가지므로, 128K 문맥 길이에서 전체 어텐션 대비 2.7배 더 빠른 속도를 보입니다. 우리의 코드는 공개되어 있습니다.
우리는 검증 가능한 보상 강화학습(RLVR) 패러다임 하에서 매개변수 효율적 미세 조정(PEFT) 방법들을 체계적으로 평가한다. RLVR는 검증 가능한 피드백을 통해 언어 모델의 추론 능력을 향상시키도록 유도하지만, LoRA와 같은 방법이 일반적으로 사용됨에도 RLVR에 최적화된 PEFT 아키텍처는 아직 규명되지 않았다. 본 연구에서는 수학적 추론 벤치마크에서 DeepSeek-R1-Distill 모델군을 대상으로 12개 이상의 PEFT 방법론에 대한 첫 종합 평가를 수행한다. 우리의 실험 결과는 표준 LoRA의 기본 채택에 세 가지 주요 발견으로 의문을 제기한다. 첫째, DoRA, AdaLoRA, MiSS와 같은 구조적 변형이 LoRA를 지속적으로 능가함을 입증한다. 둘째, SVD 기반 초기화 전략(예: PiSSA, MiLoRA)에서 스펙트럼 붕괴 현상을 발견하며, 이들의 실패 원인을 주성분 갱신과 RL 최적화 간의 근본적 불일치로 규명한다. 또한, ablation 연구를 통해 극단적 매개변수 감소(예: VeRA, Rank-1)가 추론 능력을 심각하게 저하시킴을 밝힌다. 우리는 추가로 ablation 연구 및 규모 확장 실험을 통해 이러한 발견을 검증한다. 본 연구는 매개변수 효율적 RL 방법에 대한 보다 적극적 탐구의 필요성을 제시하는 결정적 지침을 제공한다.
이슈 지역화 작업은 자연어 형태의 이슈 설명이 주어졌을 때 수정이 필요한 소프트웨어 저장소 내 위치를 식별하는 것을 목표로 합니다. 이 작업은 이슈 설명과 소스 코드 구현 간의 의미적 차이로 인해 자동화된 소프트웨어 공학에서 기본적이면서도 어려운 과제입니다. 이러한 차이는 두 가지 불일치로 나타납니다: (1) 증상-원인 불일치로, 설명이 근본 원인을 명시적으로 드러내지 않는 경우이며; (2) 일대다 불일치로, 단일 이슈가 여러 상호 의존적인 코드 엔티티에 해당하는 경우입니다. 이러한 두 가지 불일치를 해결하기 위해 우리는 증상-원인 불일치는 인과 구조 발견을 통해 완화하고, 일대다 불일치는 동적 이슈 분리를 통해 해결하는 GraphLocator 접근법을 제안합니다. 핵심 산물은 정점이 발견된 하위 이슈와 관련 코드 엔티티를 나타내고 간선이 이들 간의 인과적 의존성을 인코딩하는 인과 이슈 그래프(CIG)입니다. GraphLocator의 워크플로우는 증상 정점 위치 지정과 동적 CIG 발견의 두 단계로 구성됩니다. 이 방법은 먼저 저장소 그래프에서 증상 위치를 식별한 다음, 인접 정점에 대해 반복적으로 추론하여 CIG를 동적으로 확장합니다. 3개의 실제 데이터셋에 대한 실험은 GraphLocator의 효과를 입증합니다: (1) 기준 방법과 비교했을 때, GraphLocator는 함수 수준 재현율에서 평균 +19.49%, 정밀도에서 +11.89% 향상된 더 정확한 지역화 성능을 달성했습니다. (2) GraphLocator는 증상-원인 및 일대다 불일치 시나리오 모두에서 기준 방법을 능가하며, 각각 재현율에서 +16.44% 및 +19.18%, 정밀도에서 +7.78% 및 +13.23%의 향상을 보였습니다. (3) GraphLocator가 생성한 CIG는 가장 높은 상대적 향상을 보여 하류 해결 작업에서 성능이 28.74% 증가했습니다.
전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 입력마다 매개변수의 희소 부분집합만을 활성화하여 대규모 언어 모델(LLM)의 규모 확장을 앞당겼으며, 이는 계산 비용을 줄이면서도 최첨단 성능을 가능하게 합니다. 이러한 모델들이 중요한 분야에 점차 배포됨에 따라, 유해한 출력을 방지하기 위해 그 정렬 메커니즘을 이해하고 강화하는 것이 필수적입니다. 그러나 기존의 LLM 안전성 연구는 거의 전적으로 조밀(Dense) 아키텍처에 집중되어 와서, MoE의 고유한 안전성 특성은 크게 검토되지 않은 상태입니다. MoE의 모듈화되고 희소 활성화된 설계는 안전 메커니즘이 조밀 모델과 다르게 작동할 수 있음을 시사하며, 이들의 견고성에 대한 의문을 제기합니다. 본 논문에서는 추론 시점에 현대적인 MoE LLM의 안전 정렬을 훼손하는 최초의 학습 불필요(Training-free), 경량, 아키텍처 불문(Architecture-agnostic) 공격 프레임워크인 GateBreaker를 제시합니다. GateBreaker는 세 단계로 작동합니다: (i) 유해 입력에 불균형적으로 라우팅되는 안전 전문가를 식별하는 게이트 수준 프로파일링, (ii) 안전 전문가 내부의 안전 구조를 국소화하는 전문가 수준 국소화, (iii) 식별된 안전 구조를 비활성화하여 안전 정렬을 훼손하는 표적 안전 제거. 우리의 연구는 MoE의 안전성이 희소 라우팅에 의해 조정되는 소수의 뉴런 하위 집합 내에 집중되어 있음을 보여줍니다. 대상 전문가 계층 내 약 3%의 뉴런을 선택적으로 비활성화하면, 최신 정렬된 8개의 MoE LLM에 대한 평균 공격 성공률(ASR)이 7.4%에서 64.9%로 크게 증가하며 유틸리티 저하는 제한적입니다. 이러한 안전 뉴런들은 동일 계열 내 모델 간에 전이되어, 원샷 전이 공격으로 ASR을 17.9%에서 67.7%로 높입니다. 더 나아가, GateBreaker는 5개의 MoE 시각 언어 모델(VLM)로 일반화되어 안전하지 않은 이미지 입력에 대해 60.9%의 ASR을 달성합니다.