번역이 포함된 일일 선별된 AI 연구 논문
범용 광도 측정 스테레오(Photometric Stereo, PS)는 특정 조명 모델에 의존하지 않고 임의의 조명 조건에서 물체의 고품질 표면 법선을 복원하는 것을 목표로 합니다. SDM-UniPS와 Uni MS-PS와 같은 최근의 발전에도 불구하고, 두 가지 근본적인 문제가 여전히 존재합니다: 1) 변화하는 조명과 표면 법선 특성 간의 깊은 결합으로, 관측된 강도의 모호성 때문에 밝기 변화가 조명 변화에서 비롯된 것인지 표면 방향 변화에서 비롯된 것인지 판단하기 어렵다는 점; 그리고 2) 복잡한 표면에서 고주파 기하학적 세부 사항을 보존하는 문제로, 정교한 기하학 구조가 자체 그림자, 상호 반사, 그리고 미묘한 법선 변화를 만들어내며, 이는 기존의 특성 처리 작업이 정확하게 포착하기 어렵다는 점입니다.
본 연구에서는 텍스트-이미지 생성, 이미지 편집, 컨텍스트 내 생성 등 다양한 생성 작업을 통합적으로 해결하기 위해 설계된 다목적 오픈소스 생성 모델인 OmniGen2를 소개합니다. OmniGen v1과 달리, OmniGen2는 텍스트와 이미지 모달리티를 위한 두 가지 독립적인 디코딩 경로를 갖추고 있으며, 공유되지 않은 파라미터와 분리된 이미지 토크나이저를 활용합니다. 이러한 설계는 VAE 입력을 재조정할 필요 없이 기존의 멀티모달 이해 모델을 기반으로 구축할 수 있게 하여 원본 텍스트 생성 능력을 유지합니다. OmniGen2의 학습을 지원하기 위해, 이미지 편집 및 컨텍스트 내 생성 데이터를 포함한 포괄적인 데이터 구축 파이프라인을 개발했습니다. 또한, 이미지 생성 작업에 특화된 리플렉션 메커니즘을 도입하고 OmniGen2를 기반으로 전용 리플렉션 데이터셋을 구축했습니다. 비교적 적은 파라미터 크기에도 불구하고, OmniGen2는 텍스트-이미지 생성 및 이미지 편집을 포함한 여러 작업 벤치마크에서 경쟁력 있는 결과를 달성했습니다. 컨텍스트 내 생성(주제 기반 작업이라고도 함)을 추가로 평가하기 위해 OmniContext라는 새로운 벤치마크를 도입했습니다. OmniGen2는 일관성 측면에서 오픈소스 모델 중 최첨단 성능을 보여줍니다. 향후 연구를 지원하기 위해 모델, 학습 코드, 데이터셋 및 데이터 구축 파이프라인을 공개할 예정입니다. 프로젝트 페이지: https://vectorspacelab.github.io/OmniGen2; GitHub 링크: https://github.com/VectorSpaceLab/OmniGen2
대형 언어 모델(LLM)의 초장문 생산은 널리 요구되는 시나리오이지만, 최대 생성 길이 제한과 시퀀스 길이가 증가함에 따른 전반적인 품질 저하로 인해 여전히 중요한 과제로 남아 있습니다. LongWriter와 같은 기존 접근 방식은 일반적으로 합성된 장문 출력에 대한 지도 미세 조정(SFT)을 포함하는 '가르침'에 의존합니다. 그러나 이 전략은 합성 SFT 데이터에 크게 의존하며, 이는 구축하기 어렵고 비용이 많이 들며, 종종 일관성과 통일성이 부족하고, 지나치게 인위적이고 구조적으로 단조로운 경향이 있습니다. 본 연구에서는 주석 처리된 데이터나 합성 데이터에 전혀 의존하지 않고, 처음부터 시작하여 강화 학습(RL)을 활용하여 LLM에서 초장문 고품질 텍스트 생성 능력이 발현되도록 유도하는 인센티브 기반 접근 방식을 제안합니다. R1-Zero와 유사한 기본 모델에서 시작하여 RL 훈련을 수행하며, 이를 통해 작성 과정에서 계획 및 개선을 촉진하는 추론에 참여하도록 유도합니다. 이를 지원하기 위해, LLM이 향상된 길이 제어, 작성 품질 및 구조적 형식화를 향하도록 유도하는 특수 보상 모델을 사용합니다. 실험 평가 결과, Qwen2.5-32B에서 훈련된 우리의 LongWriter-Zero 모델은 장문 작성 작업에서 전통적인 SFT 방법을 지속적으로 능가하며, WritingBench와 Arena-Write에서 모든 지표에서 최신 기술을 달성하고, DeepSeek R1 및 Qwen3-235B와 같은 100B+ 모델을 능가하는 결과를 보여줍니다. 우리는 데이터와 모델 체크포인트를 https://huggingface.co/THU-KEG/LongWriter-Zero-32B에서 오픈소스로 공개합니다.
동적 신시점 합성(Dynamic Novel View Synthesis)은 움직이는 대상의 임의의 시점에서 사실적인 뷰를 생성하는 것을 목표로 합니다. 이 작업은 단안 비디오(monocular video)에 의존할 때 특히 어려운데, 이는 구조와 움직임을 분리하는 것이 잘 정의되지 않은 문제이며 지도 학습 데이터가 부족하기 때문입니다. 우리는 Video Diffusion-Aware Reconstruction (ViDAR)을 소개합니다. 이는 개인화된 확산 모델(personalised diffusion models)을 활용하여 가짜 다중 뷰(pseudo multi-view) 지도 신호를 합성하고, 이를 통해 가우시안 스플래팅(Gaussian splatting) 표현을 학습하는 새로운 4D 재구성 프레임워크입니다. 장면별 특성에 조건을 부여함으로써, ViDAR는 세밀한 외관 디테일을 복원하면서 단안 모호성(monocular ambiguity)으로 인한 아티팩트를 완화합니다. 확산 기반 지도의 시공간적 불일치 문제를 해결하기 위해, 우리는 확산 인식 손실 함수(diffusion-aware loss function)와 합성 뷰를 기본 장면 기하학과 정렬하는 카메라 포즈 최적화 전략을 제안합니다. 극단적인 시점 변화를 포함한 도전적인 벤치마크인 DyCheck에서의 실험 결과, ViDAR는 시각적 품질과 기하학적 일관성 측면에서 모든 최신 베이스라인을 능가하는 성능을 보여줍니다. 또한, ViDAR가 동적 영역에서 베이스라인 대비 강력한 개선을 이루었음을 강조하고, 움직임이 풍부한 장면 부분의 재구성 성능을 비교하기 위한 새로운 벤치마크를 제공합니다. 프로젝트 페이지: https://vidar-4d.github.io
프로세스 보상 모델(Process Reward Models, PRMs)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 중간 추론 단계를 감독하기 위한 강력한 프레임워크로 부상하고 있다. 기존 PRMs는 주로 모델의 최종 출력 응답에 대해 훈련되었으며, 특히 Deepseek-R1과 같은 최신 추론 모델에서 생성되는 궤적-응답 출력과 같은 새로운 설정에서 중간 사고 궤적을 견고하게 평가하는 데 어려움을 겪었다. 본 연구에서는 궤적-응답 유형의 추론 흔적을 평가하기 위해 명시적으로 설계된 새로운 궤적 인식 PRM인 ReasonFlux-PRM을 소개한다. ReasonFlux-PRM은 단계별 및 궤적별 감독을 통합하여 구조화된 사고의 연쇄 데이터와 일치하는 세밀한 보상 할당을 가능하게 한다. 우리는 ReasonFlux-PRM을 오프라인 및 온라인 설정 모두에서 보상 감독을 지원하도록 적응시켰으며, 이는 (i) 더 작은 모델의 지도 미세 조정을 위한 고품질 모델 증류 데이터 선택, (ii) 강화 학습 중 정책 최적화를 위한 밀집 프로세스 수준 보상 제공, (iii) 보안 Best-of-N 테스트 시간 스케일링을 가능하게 하는 것을 포함한다. AIME, MATH500, GPQA-Diamond와 같은 도전적인 하위 벤치마크에서의 실험 결과는 ReasonFlux-PRM-7B가 강력한 PRMs(예: Qwen2.5-Math-PRM-72B) 및 인간이 선별한 기준선보다 더 높은 품질의 데이터를 선택함을 보여준다. 또한, 우리가 도출한 ReasonFlux-PRM-7B는 일관된 성능 향상을 달성하며, 지도 미세 조정에서 평균 12.1%, 강화 학습에서 4.5%, 테스트 시간 스케일링에서 6.3%의 이득을 얻었다. 우리는 또한 자원이 제한된 애플리케이션 및 에지 배포를 위한 효율적인 ReasonFlux-PRM-1.5B를 공개한다. 프로젝트: https://github.com/Gen-Verse/ReasonFlux
주제-대-비디오 생성은 최근 몇 년 동안 상당한 발전을 이루었습니다. 그러나 기존 모델들은 여전히 텍스트 지시를 충실히 따르는 데 있어 상당한 어려움을 겪고 있습니다. 이러한 한계는 일반적으로 복사-붙여넣기 문제로 알려져 있으며, 널리 사용되는 동일 쌍 내 훈련 패러다임에서 비롯됩니다. 이 접근 방식은 대상 비디오와 동일한 장면에서 참조 이미지를 샘플링함으로써 주제의 정체성을 배경 및 문맥적 속성과 본질적으로 얽히게 만듭니다. 이 문제를 해결하기 위해 우리는 다양한 범주에 걸쳐 약 100만 개의 정체성 일치 쌍을 포함한 최초의 범용 교차 쌍 주제-대-비디오 일관성 데이터셋인 Phantom-Data를 소개합니다. 우리의 데이터셋은 세 단계의 파이프라인을 통해 구축되었습니다: (1) 일반적이고 입력에 정렬된 주제 탐지 모듈, (2) 5,300만 개 이상의 비디오와 30억 개의 이미지로부터 대규모 교차 문맥 주제 검색, 그리고 (3) 문맥적 변화 하에서 시각적 일관성을 보장하기 위한 사전 지도 정체성 검증. 포괄적인 실험 결과, Phantom-Data를 사용한 훈련은 동일 쌍 내 기준선과 동등한 수준의 정체성 일관성을 유지하면서 프롬프트 정렬과 시각적 품질을 크게 향상시키는 것으로 나타났습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대형 언어 모델(LLM)의 추론 능력을 발전시킬 수 있는 유망한 잠재력을 보여줍니다. 그러나 그 성공은 주로 수학 및 코드 도메인에 국한되어 있습니다. 이러한 주요 한계는 도메인 특화 검증기에 대한 과도한 의존에서 비롯되며, 이는 복잡성을 과도하게 증가시키고 확장성을 제한하는 결과를 가져옵니다. 이 문제를 해결하기 위해, 우리는 LLM이 자유 형식의 정답을 생성할 때의 내재적 확률이 그 자체의 추론 보상(즉, 추론 과정이 정답으로 이어지는 정도)을 직접적으로 나타낸다는 핵심 관찰을 바탕으로 합니다. 이러한 통찰을 기반으로, 우리는 RLVR을 더 넓은 일반 도메인으로 확장하는 간단한 검증기 없는 프레임워크인 RLPR을 제안합니다. RLPR은 LLM의 토큰 확률 점수를 참조 답변에 대한 보상 신호로 사용하며, 훈련 중에 기대 보상을 최대화합니다. 우리는 이 잡음이 섞인 확률 보상의 높은 분산을 해결하는 것이 중요하다는 것을 발견했으며, 이를 위해 확률-보상 변환 및 안정화 기법을 제안하여 LLM의 내재적 확률로부터 정확하고 안정적인 보상을 보장합니다. 네 가지 일반 도메인 벤치마크와 세 가지 수학 벤치마크에서의 포괄적인 실험을 통해 RLPR이 Gemma, Llama, Qwen 기반 모델에서 두 영역 모두에서 추론 능력을 꾸준히 향상시킨다는 것을 확인했습니다. 특히, RLPR은 TheoremQA에서 VeriFree를 7.6점, Minerva에서 7.5점 앞섰으며, 강력한 검증기 모델에 의존하는 General-Reasoner 접근법보다도 7개 벤치마크에서 평균 1.6점 더 높은 성능을 보였습니다.
최근 에이전트 AI는 점점 더 인기 있는 연구 분야로 부상하고 있습니다. 그러나 현재의 에이전트 연구 관행은 표준화와 과학적 엄격성이 부족하여 다양한 방법론 간의 공정한 비교를 수행하기 어렵다는 점을 지적합니다. 그 결과, 에이전트 프레임워크에서의 다양한 설계 선택이 효과성에 미치는 영향이 여전히 명확하지 않으며, 그들의 진전을 측정하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 GAIA 벤치마크와 BrowseComp를 통해 주요 에이전트 구성 요소에서의 인기 있는 설계 선택이 미치는 영향을 공정하고 엄격하게 검토하는 체계적인 실증 연구를 수행합니다. 우리는 표준 평가 프로토콜의 부재로 인해 이전 연구들, 심지어 오픈소스 프로젝트들도 재현이 불가능하며, 무작위 실행 간에 상당한 변동성이 존재함을 발견했습니다. 따라서 우리는 비교를 안정화하기 위해 더 견고한 평가 프로토콜을 도입했습니다. 본 연구는 효과적인 에이전트를 위해 어떤 구성 요소와 설계가 중요한지, 그리고 논리적으로 보이지만 실제로는 불필요한 요소들이 무엇인지를 밝혀냈습니다. 이러한 연구 결과를 바탕으로, 우리는 오픈소스 프로젝트 중 최첨단 성능을 달성하는 새로운 기반 에이전트 프레임워크인 OAgents를 구축하고 공개했습니다. OAgents는 다양한 에이전트 구성 요소를 위한 모듈식 설계를 제공하여, 에이전트 AI 분야의 미래 연구를 촉진합니다.
본 논문은 시각적 이해와 생성을 공유된 이산적 의미 표현 내에서 통합하려는 다중모달 프레임워크를 제시한다. 핵심에는 대규모 언어 모델(LLM)의 어휘에서 투영된 텍스트 정렬 코드북을 사용하여 이미지를 이산적 토큰으로 변환하는 텍스트 정렬 토크나이저(TA-Tok)가 있다. 확장된 어휘를 통해 시각과 텍스트를 통합된 공간으로 통합함으로써, 우리의 다중모달 LLM인 Tar는 모달리티별 설계 없이 공유 인터페이스를 통해 크로스모달 입력과 출력을 가능하게 한다. 또한, 효율성과 시각적 세부 사항의 균형을 맞추기 위해 스케일 적응형 인코딩 및 디코딩을 제안하고, 고품질 시각적 출력을 생성하기 위한 생성적 디토크나이저를 제안한다. 다양한 디코딩 요구를 해결하기 위해, 우리는 빠른 자기회귀 모델과 확산 기반 모델이라는 두 가지 상호 보완적인 디토크나이저를 활용한다. 모달리티 융합을 강화하기 위해, 우리는 고급 사전 학습 작업을 조사하여 시각적 이해와 생성 모두에서 개선을 입증한다. 벤치마크 전반에 걸친 실험은 Tar가 기존의 다중모달 LLM 방법을 능가하거나 동등한 성능을 보이며, 더 빠른 수렴과 더 큰 훈련 효율성을 달성함을 보여준다. 코드, 모델 및 데이터는 https://tar.csuhan.com에서 이용 가능하다.
우리는 환경을 인터랙티브하게 탐색할 수 있는 비디오 생성기를 구축하기 위한 새로운 메모리 메커니즘을 제안한다. 이전에는 장면의 2D 뷰를 아웃페인팅하면서 점진적으로 3D 기하구조를 재구성하는 방식으로 유사한 결과를 달성했지만, 이 방법은 빠르게 오차가 누적되거나, 짧은 컨텍스트 윈도우를 가진 비디오 생성기를 사용하여 장기간 장면 일관성을 유지하는 데 어려움을 겪었다. 이러한 한계를 해결하기 위해, 우리는 Surfel-Indexed View Memory(VMem)를 도입한다. 이 메커니즘은 과거 뷰를 3D 표면 요소(surfels)를 기반으로 기하학적으로 인덱싱하여 기억한다. VMem은 새로운 뷰를 생성할 때 가장 관련성이 높은 과거 뷰를 효율적으로 검색할 수 있게 한다. 이러한 관련 뷰에만 초점을 맞춤으로써, 우리의 방법은 모든 과거 뷰를 컨텍스트로 사용하는 것보다 훨씬 적은 계산 비용으로 상상된 환경의 일관된 탐색을 생성한다. 우리는 이 접근 방식을 도전적인 장기 장면 합성 벤치마크에서 평가하고, 장면 일관성과 카메라 제어 측면에서 기존 방법 대비 우수한 성능을 입증한다.
본 논문에서는 대규모로 사전 학습된 비전 인코더의 밀집 이미지 표현을 향상시키기 위해, 컨텍스트 내 장면 이해를 목표로 하는 새로운 비지도 사후 학습 방법인 DIP(Dense Image Post-training)를 소개한다. 기존의 복잡한 자기-증류(self-distillation) 아키텍처에 의존하는 방법과 달리, 본 방법은 메타 학습 원리에 영감을 받아 다운스트림 컨텍스트 내 시나리오를 명시적으로 시뮬레이션하는 가상 작업(pseudo-task)을 통해 비전 인코더를 학습한다. 레이블이 없는 데이터에 대한 사후 학습을 가능하게 하기 위해, 사전 학습된 확산 모델(diffusion model)과 비전 인코더 자체를 결합한 컨텍스트 내 작업 생성 메커니즘을 제안한다. DIP는 단순하고 비지도 방식이며, 단일 A100 GPU에서 9시간 미만의 계산 효율성을 보인다. 가상 컨텍스트 내 작업을 통해 밀집 표현을 학습함으로써, 다양한 다운스트림 실제 세계의 컨텍스트 내 장면 이해 작업에서 강력한 성능을 달성한다. 이는 초기 비전 인코더와 기존 방법을 모두 능가하며, 밀집 표현을 개선하기 위한 실용적이고 효과적인 해결책을 제공한다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/sirkosophia/DIP
사용자 프로파일링은 추천 시스템에서 핵심적인 역할을 하며, 원시 사용자 상호작용 데이터를 간결하고 구조화된 표현으로 변환하여 개인화된 추천을 가능하게 합니다. 전통적인 임베딩 기반 프로파일은 해석 가능성과 적응성이 부족한 반면, 최근의 대형 언어 모델(LLM)의 발전은 의미적으로 더 풍부하고 투명한 텍스트 기반 프로파일을 가능하게 합니다. 그러나 기존 방법들은 고정된 형식을 따르는 경우가 많아 사용자 행동의 다양성을 충분히 포착하는 데 한계가 있습니다. 본 논문에서는 다양한 적응형 사용자 프로파일을 생성하기 위한 새로운 프레임워크인 LettinGo를 소개합니다. LLM의 표현력을 활용하고 하위 추천 작업으로부터 직접적인 피드백을 통합함으로써, 우리의 접근 방식은 지도 미세 조정(SFT)이 부과하는 엄격한 제약을 피합니다. 대신, 작업별 성능과 프로파일 생성기를 정렬하기 위해 직접 선호 최적화(DPO)를 사용하여 프로파일이 적응적이고 효과적으로 유지되도록 합니다. LettinGo는 세 단계로 작동합니다: (1) 여러 LLM을 통해 다양한 사용자 프로파일 탐색, (2) 추천 시스템에서의 영향력을 기반으로 프로파일 품질 평가, (3) 작업 성능에서 도출된 쌍별 선호 데이터를 통해 프로파일 생성 정렬. 실험 결과는 우리의 프레임워크가 추천 정확도, 유연성 및 상황 인식을 크게 향상시킴을 보여줍니다. 이 연구는 차세대 추천 시스템을 위한 핵심 혁신으로서 프로파일 생성을 강화합니다.
본 논문에서는 피드포워드 아키텍처를 사용하여 각 시간 단계에서 비디오 프레임과 3D 가우시안 입자로 구성된 4D 시공간 그리드를 계산할 수 있는 최초의 프레임워크를 제안한다. 우리의 아키텍처는 4D 비디오 모델과 4D 재구성 모델이라는 두 가지 주요 구성 요소로 이루어져 있다. 첫 번째 부분에서는 공간 및 시간 어텐션을 순차적으로 또는 병렬로 수행하는 현재의 4D 비디오 확산 아키텍처를 두 스트림 설계 내에서 분석한다. 기존 접근법의 한계를 지적하고, 단일 레이어 내에서 공간 및 시간 어텐션을 수행하는 새로운 융합 아키텍처를 소개한다. 우리 방법의 핵심은 토큰이 동일한 프레임, 동일한 타임스탬프 또는 동일한 시점에 있는 다른 토큰에 주의를 기울이는 희소 어텐션 패턴이다. 두 번째 부분에서는 기존 3D 재구성 알고리즘을 확장하여 가우시안 헤드, 카메라 토큰 교체 알고리즘, 추가적인 동적 레이어 및 학습을 도입한다. 전반적으로, 우리는 4D 생성 분야에서 시각적 품질과 재구성 능력을 모두 향상시키는 새로운 최첨단 기술을 확립한다.
본 논문에서는 사용자 제어 신호로부터 상호작용적 비디오 생성을 가능하게 하는 신경망 기반의 실세계 게임 엔진인 RealPlay를 소개한다. 기존의 게임 스타일 시각적 요소에 초점을 맞춘 연구와 달리, RealPlay는 실제 영상과 유사한 사실적이고 시간적으로 일관된 비디오 시퀀스를 생성하는 것을 목표로 한다. 이 엔진은 상호작용적인 루프로 동작한다: 사용자는 생성된 장면을 관찰하고, 제어 명령을 내리며, 그에 대한 응답으로 짧은 비디오 청크를 받는다. 이러한 사실적이고 즉각적인 생성을 가능하게 하기 위해, 저자들은 낮은 지연 시간 피드백을 위한 반복적 청크 단위 예측, 반복 간의 시간적 일관성, 그리고 정확한 제어 응답을 포함한 주요 문제들을 해결하였다. RealPlay는 실제 세계의 동작 주석이 필요 없이, 레이블이 지정된 게임 데이터와 레이블이 없는 실제 세계 비디오의 조합으로 학습된다. 특히, 두 가지 형태의 일반화가 관찰되었다: (1) 제어 전이(control transfer)—RealPlay는 가상 시나리오에서 실제 세계 시나리오로의 제어 신호를 효과적으로 매핑한다; (2) 개체 전이(entity transfer)—학습 레이블이 자동차 경주 게임에서만 유래했음에도 불구하고, RealPlay는 차량을 넘어 자전거와 보행자를 포함한 다양한 실제 세계 개체를 제어하도록 일반화된다. 프로젝트 페이지는 https://wenqsun.github.io/RealPlay/에서 확인할 수 있다.
전문가 혼합(Mixture of Experts, MoE) 아키텍처는 추론 효율성을 유지하면서 대규모 언어 모델(LLMs)을 확장하기 위한 강력한 패러다임으로 부상했습니다. 그러나 이러한 모델의 막대한 메모리 요구 사항은 리소스가 제한된 환경에서 미세 조정하거나 배포하기에는 비용이 너무 많이 든다는 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 대규모 MoE 모델을 훨씬 더 작고 효율적인 변형으로 변환하는 다단계 압축 프레임워크인 SlimMoE를 소개합니다. 이 방법은 전문가를 간소화하고 중간 단계를 통해 지식을 전달함으로써 매개변수 수를 체계적으로 줄여, 일회성 가지치기 접근법에서 흔히 발생하는 성능 저하를 효과적으로 완화합니다. 이 프레임워크를 사용하여, 우리는 Phi 3.5-MoE(총 41.9B/활성화 6.6B 매개변수)를 압축하여 Phi-mini-MoE(총 7.6B/활성화 2.4B 매개변수)와 Phi-tiny-MoE(총 3.8B/활성화 1.1B 매개변수)를 단 400B 토큰만으로 생성했습니다. 이는 원본 모델의 학습 데이터의 10%도 되지 않는 양입니다. 이러한 압축된 모델은 단일 GPU(A100은 Phi-mini-MoE, A6000은 Phi-tiny-MoE)에서 미세 조정할 수 있어, 학술적 및 리소스가 제한된 환경에 매우 적합합니다. 우리의 실험은 이러한 압축된 모델이 유사한 크기의 다른 모델을 능가하며 더 큰 모델과도 경쟁력을 유지한다는 것을 보여줍니다. 예를 들어, Phi-mini-MoE는 활성화 매개변수의 2/3만 사용하여 Phi-3-mini와 유사하거나 더 나은 성능을 달성하며, 훨씬 낮은 지연 시간에도 불구하고 Llama 3.1 8B와 비슷한 MMLU 점수를 얻습니다. 우리의 연구 결과는 구조화된 가지치기와 단계적 증류를 결합함으로써 고품질의 소형 MoE 모델을 만드는 효과적인 방법을 제시하며, MoE 아키텍처의 보다 광범위한 채택을 위한 길을 열어줍니다. 우리는 모델을 https://huggingface.co/microsoft/Phi-mini-MoE-instruct와 https://huggingface.co/microsoft/Phi-tiny-MoE-instruct에서 공개적으로 제공합니다.
다중모드 대형 언어 모델(MLLMs)은 일반적인 작업에서 강력한 추론 능력을 보이기 시작했지만, 의료 분야에서의 적용은 아직 초기 단계에 머물러 있습니다. 의료 MLLMs의 추론 능력을 강화하기 위해서는 사고의 연쇄(CoT) 훈련 데이터를 구축하는 것이 필수적입니다. 그러나 기존 접근법들은 중요한 진단을 위한 효과적인 추론 경로를 탐색하고 평가하는 포괄적인 프레임워크를 제공하는 데 있어 부족함을 보입니다. 이러한 문제를 해결하기 위해, 우리는 엄격하고 효과적인 의료 CoT 데이터를 생성하기 위한 새로운 추론 경로 탐색 기법인 멘토-인턴 협력 탐색(MICS)을 제안합니다. MICS는 먼저 멘토 모델을 활용하여 한 단계씩 추론을 초기화한 다음, 각 인턴 모델이 시작된 경로를 따라 사고를 계속하도록 유도하고, 마지막으로 여러 인턴 모델의 전반적인 추론 성능에 따라 최적의 추론 경로를 선택합니다. 추론 성능은 생성된 추론 경로의 품질을 평가하는 MICS-Score에 의해 결정됩니다. 결국, 우리는 난이도가 순위화된 다중 작업 의료 추론 데이터셋인 MMRP와 커리큘럼 학습 전략을 통해 설계된 새로운 의료 MLLM인 Chiron-o1을 구축했습니다. Chiron-o1은 강력한 시각적 질문 응답 및 일반화 가능한 추론 능력을 갖추고 있습니다. 광범위한 실험을 통해 MICS를 사용하여 구축한 CoT 데이터셋으로 훈련된 Chiron-o1이 다양한 의료 시각적 질문 응답 및 추론 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 코드는 GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs에서 확인할 수 있습니다.
본 논문은 도메인 전문가의 금융 추론에서 얻은 통찰을 통합하여 대규모 언어 모델의 추론 과정을 안내하는 구조화된 사고의 연쇄(Chain-of-Thought, CoT) 프롬프팅 접근법인 FinCoT를 제안한다. 우리는 FinNLP에서 세 가지 주요 프롬프팅 스타일이 있음을 확인했다: (1) 표준 프롬프팅--제로샷 프롬프팅; (2) 비구조화된 CoT--태그 사용과 같은 명시적 추론 구조 없이 이루어지는 CoT 프롬프팅; (3) 구조화된 CoT 프롬프팅--구조화된 추론 단계를 정의하는 명시적 지시나 예시를 포함한 CoT 프롬프팅. 이전의 FinNLP 연구는 주로 표준 또는 비구조화된 CoT 프롬프팅을 중심으로 프롬프트 엔지니어링에 초점을 맞추었다. 그러나 구조화된 CoT 프롬프팅은 선행 연구에서 제한적으로 다루어졌다. 더욱이, 구조화된 CoT 프롬프팅에서의 추론 구조 설계는 종종 비도메인 전문가의 경험적 방법에 기반을 두고 있었다. 본 연구에서는 FinNLP에서 각 프롬프팅 접근법을 조사하고, 세 가지 주요 프롬프팅 스타일과 FinCoT를 10개의 금융 도메인에 걸친 CFA 스타일 질문에 대해 평가한다. 우리는 FinCoT가 성능을 63.2%에서 80.5%로, Qwen-2.5-7B-Instruct의 경우 69.7%에서 74.2%로 향상시키는 동시에 구조화된 CoT 프롬프팅과 비교하여 생성된 토큰 수를 8분의 1로 줄이는 것을 관찰했다. 우리의 연구 결과는 도메인에 맞춰 구조화된 프롬프트가 성능을 개선하고 추론 비용을 절감할 뿐만 아니라 더 해석 가능하고 전문가의 추론과 일치하는 추론 과정을 제공한다는 것을 보여준다.
복잡한 동적 요소를 가진 긴 비디오에서 조명을 편집하는 작업은 시각적 콘텐츠 제작 및 조작을 비롯해, 시뮬레이션에서 실제로(sim2real) 그리고 실제에서 실제로(real2real) 전이를 통해 구현된 AI의 데이터 확장 등 다양한 다운스트림 작업에서 상당한 가치를 지닙니다. 그러나 기존의 비디오 재조명 기술은 주로 초상화 비디오에 국한되거나 시간적 일관성과 계산 효율성의 병목 현상에 직면해 있습니다. 본 논문에서는 두 단계의 사후 최적화 메커니즘으로 특징지어지는 새로운 패러다임인 TC-Light를 제안합니다. 이 방법은 인플레이트된 비디오 재조명 모델로 예비적으로 재조명된 비디오를 시작점으로 하여, 첫 번째 단계에서 전역 조명을 맞추기 위해 외형 임베딩을 최적화합니다. 그런 다음 두 번째 단계에서 제안된 정규 비디오 표현인 Unique Video Tensor(UVT)를 최적화하여 세밀한 질감과 조명을 맞춥니다. 성능을 종합적으로 평가하기 위해, 우리는 길고 매우 동적인 비디오 벤치마크도 구축했습니다. 광범위한 실험을 통해 우리의 방법이 물리적으로 타당한 재조명 결과를 우수한 시간적 일관성과 낮은 계산 비용으로 가능하게 함을 보여줍니다. 코드와 비디오 데모는 https://dekuliutesla.github.io/tclight/에서 확인할 수 있습니다.
DeepSeek-R1은 규칙 기반 보상 시스템을 통해 대규모 언어 모델(LLM)의 추론 능력을 성공적으로 향상시켰습니다. 이는 '완벽한' 보상 시스템으로, 보상 해킹을 효과적으로 완화하지만, 이러한 보상 함수는 종종 이산적입니다. 우리의 실험적 관찰에 따르면, 이산적 보상은 그래디언트 이상, 불안정한 최적화, 그리고 느린 수렴을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 ReDit(보상 디더링)을 제안합니다. 이 방법은 간단한 무작위 노이즈를 추가하여 이산적 보상 신호를 디더링합니다. 이렇게 교란된 보상을 통해 학습 과정 전반에 걸쳐 탐색적 그래디언트가 지속적으로 제공되어, 더 부드러운 그래디언트 업데이트와 빠른 수렴이 가능해집니다. 주입된 노이즈는 또한 평탄한 보상 영역에 확률성을 도입하여, 모델이 새로운 정책을 탐색하고 지역 최적점에서 벗어나도록 장려합니다. 다양한 작업에 걸친 실험은 ReDit의 효과성과 효율성을 입증합니다. 평균적으로, ReDit은 기존 GRPO와 비슷한 성능을 약 10%의 학습 단계로 달성하며, 더 나아가 비슷한 학습 기간 동안에도 기존 GRPO보다 4%의 성능 향상을 보입니다. 시각화는 ReDit을 통해 그래디언트 문제가 상당히 완화되었음을 확인시켜 줍니다. 또한, 이러한 장점을 추가로 검증하기 위한 이론적 분석이 제공됩니다.
최근 생성형 AI(GenAI) 애플리케이션이 클라우드 전용 환경에서 최종 사용자 기기로 전환되면서 자원 관리, 시스템 효율성, 사용자 경험 측면에서 새로운 도전 과제가 등장하고 있습니다. 본 논문은 최종 사용자 기기에서 실행되는 GenAI 모델의 시스템 효율성과 응답 시간을 평가하기 위해 설계된 포괄적인 벤치마킹 프레임워크인 ConsumerBench를 소개합니다. 전용 GPU에서 모델에 독점적으로 접근한다고 가정하는 기존 벤치마크와 달리, ConsumerBench는 제한된 하드웨어에서 동시에 실행되는 현실적인 다중 애플리케이션 시나리오를 시뮬레이션합니다. 또한 ConsumerBench는 여러 애플리케이션 간의 조정이 필요한 복잡한 작업을 시뮬레이션하는 사용자 정의 가능한 워크플로를 지원합니다. ConsumerBench는 지연 시간 및 서비스 수준 목표(SLO) 달성과 같은 애플리케이션 수준 메트릭과 CPU/GPU 사용률 및 메모리 대역폭과 같은 시스템 수준 메트릭을 모두 포착합니다. 광범위한 실험을 통해 ConsumerBench는 자원 공유의 비효율성, 탐욕적 할당 하에서의 불공정한 스케줄링, 정적 모델 서버 구성의 성능 문제점을 밝혀냅니다. 또한 본 논문은 소비자 등급 GPU 아키텍처에 맞춤화된 커널의 이점과 SLO 인식 스케줄링 전략 구현의 가치를 강조하며, 모델 개발자와 시스템 설계자를 위한 실용적인 통찰을 제공합니다.
보상 모델(Reward Models, RMs)은 인간 피드백을 통해 대형 언어 모델(Large Language Models, LLMs)을 정렬(align)하는 데 필수적이지만, 종종 보상 해킹(reward hacking) 문제에 직면합니다. 이 모델들은 응답 길이나 형식과 같은 피상적이거나 허위적인 속성에 집착하는 경향이 있으며, 훈련 데이터에서 학습된 상관관계를 질적 요소(예: 사실성, 관련성)의 진정한 원인으로 오해합니다. 이는 표준 훈련 목표가 이러한 요소들을 분리하는 데 어려움을 겪기 때문에 발생하며, 이로 인해 취약한 보상 모델과 잘못 정렬된 정책이 만들어집니다. 우리는 이러한 보상 해킹을 완화하기 위해 명시적인 인과 모델에 기반한 새로운 프레임워크인 Crome(Causally Robust Reward Modeling)을 소개합니다. Crome은 훈련 중에 다음과 같은 합성적이고 목표 지향적인 증강 기법을 사용합니다: (1) 특정 인과 속성에 따라 차이가 나는 쌍으로 구성된 **인과 증강(Causal Augmentations)**을 통해 각 인과 속성에 대한 민감성을 강화하고, (2) 주로 허위 속성에서 차이가 나는 동점 레이블 쌍으로 구성된 **중립 증강(Neutral Augmentations)**을 통해 허위 속성에 대한 불변성을 강화합니다. 특히, 우리의 증강 기법은 허위 요소에 대한 사전 지식 없이, 오라클 LLM을 질의하여 식별된 인과 기준(causal rubrics)에 따라 답변을 개입함으로써 생성됩니다. 실험적으로, Crome은 RewardBench에서 표준 베이스라인을 크게 능가하며, 평균 정확도를 최대 5.4% 향상시키고 특정 카테고리에서 각각 최대 13.2%와 7.2%의 성능 향상을 달성했습니다. Crome의 견고성은 Best-of-N 추론 설정에서 N이 증가함에 따라 일관된 성능 향상을 보이는 것으로도 입증되었으며, 이는 RewardBench(채팅, 채팅-하드, 안전성, 추론 작업 포함), 안전성 중심의 WildGuardTest, 추론 특화 GSM8k 등 다양한 벤치마크에서 확인되었습니다.
본 연구는 언어 모델(LLM) 내 잠재된 부분공간을 활성화함으로써 과학적 코드 생성을 특정 프로그래밍 언어로 유도할 수 있는지 여부를 탐구한다. 먼저, 다섯 가지 인과적 LLM을 과학적 코딩 프롬프트에 대해 평가하여 네 가지 프로그래밍 언어 간의 기본 편향을 정량화하였다. C++ 또는 CPP 토큰에 대해 가장 높게 활성화된 MLP 가중치를 교란시키는 정적 뉴런-속성 방법은 취약성을 보였으며, 프롬프트 스타일과 모델 규모에 걸쳐 제한된 일반화를 나타냈다. 이러한 한계를 해결하기 위해 그래디언트 기반 적응형 활성화 유도 프레임워크(G-ACT)를 개발하였다: 프롬프트별 활성화 차이를 소수의 유도 방향으로 클러스터링하고, 경량의 레이어별 프로브를 온라인으로 훈련 및 개선하여 적절한 유도 벡터를 선택한다. LLaMA-3.2 3B에서 이 접근법은 CPP 언어로의 생성을 안정적으로 편향시켰으며, 평균 프로브 분류 정확도를 15% 증가시키고, 초기 레이어(0-6)에서 프로브 분류 정확도를 표준 ACT 프레임워크 대비 61.5% 향상시켰다. 주의 헤드 신호가 더 확산되는 LLaMA-3.3 70B의 경우, 주요 레이어에서의 표적 주입은 여전히 언어 선택을 개선한다. 레이어별 프로빙은 약간의 추론 오버헤드를 도입하지만, 일부 레이어만을 유도함으로써 실용적이며 재현 가능한 모델 동작을 가능하게 한다. 이러한 결과는 실용적인 에이전트 시스템을 위한 개념 수준의 제어를 위한 확장 가능하고 해석 가능하며 효율적인 메커니즘을 입증한다.
생성형 3D 모델 평가는 자동화된 지표와 인간의 품질 인식 간의 불일치로 인해 여전히 어려운 과제로 남아 있다. 현재 벤치마크는 3D 구조를 무시하는 이미지 기반 지표나 지각적 매력과 실제 유용성을 포착하지 못하는 기하학적 측정에 의존하고 있다. 이러한 격차를 해결하기 위해, 우리는 이미지-3D 생성 모델을 평가하기 위한 오픈 플랫폼인 3D Arena를 제안한다. 이 플랫폼은 대규모 인간 선호도 수집을 통해 쌍별 비교를 수행한다. 2024년 6월 출시 이후, 이 플랫폼은 19개의 최신 모델에 대해 8,096명의 사용자로부터 123,243개의 투표를 수집하여 생성형 3D 분야에서 가장 큰 인간 선호도 평가를 확립했다. 우리는 100개의 평가 프롬프트로 구성된 iso3d 데이터셋을 제공하며, 통계적 사기 탐지를 통해 99.75%의 사용자 진위성을 달성한 품질 관리를 입증했다. ELO 기반 랭킹 시스템은 신뢰할 수 있는 모델 평가를 제공하며, 이 플랫폼은 확립된 평가 자원으로 자리 잡았다. 이 선호도 데이터를 분석함으로써, 우리는 인간 선호 패턴에 대한 통찰을 제시한다. 우리의 연구 결과는 가우시안 스플랫 출력이 메시보다 16.6 ELO 우위를, 텍스처가 적용된 모델이 텍스처가 없는 모델보다 144.1 ELO 우위를 달성하는 등 시각적 표현 특징에 대한 선호를 보여준다. 우리는 다중 기준 평가, 작업 지향 평가, 형식 인식 비교를 포함한 평가 방법 개선을 위한 권장 사항을 제공한다. 이 플랫폼의 커뮤니티 참여는 3D Arena를 해당 분야의 벤치마크로 확립함과 동시에 생성형 3D에서 인간 중심 평가에 대한 이해를 진전시킨다.
인간의 지시로부터 다중 시점 이미지를 생성하는 것은 3D 콘텐츠 제작에 있어 매우 중요하다. 주요 과제는 다중 시점 간의 일관성을 유지하고 다양한 조건 하에서 형태와 질감을 효과적으로 합성하는 것이다. 본 논문에서는 자동 회귀 모델을 활용하여 임의의 프롬프트로부터 점진적으로 일관된 다중 시점 이미지를 생성하는 다중 시점 자동 회귀(Multi-View Auto-Regressive, MV-AR) 방법을 제안한다. 첫째, AR 모델의 다음 토큰 예측 능력은 점진적 다중 시점 합성을 촉진하는 데 있어 그 효과를 크게 향상시킨다. 넓게 분리된 시점을 생성할 때, MV-AR은 모든 이전 시점을 활용하여 효과적인 참조 정보를 추출할 수 있다. 둘째, 다양한 프롬프트를 수용할 수 있는 통합 모델을 아키텍처 설계 및 학습 전략을 통해 제안한다. 다중 조건을 처리하기 위해 텍스트, 카메라 포즈, 이미지, 형태에 대한 조건 주입 모듈을 도입한다. 다중 모달 조건을 동시에 관리하기 위해 점진적 학습 전략을 채택한다. 이 전략은 초기에 텍스트-다중 시점(t2mv) 모델을 기준으로 삼아, 조건을 무작위로 제거하고 결합함으로써 포괄적인 X-다중 시점(X2mv) 모델의 개발을 촉진한다. 마지막으로, 고품질 데이터의 제한으로 인한 과적합 문제를 완화하기 위해 "셔플 뷰(Shuffle View)" 데이터 증강 기법을 제안함으로써 학습 데이터를 크게 확장한다. 실험 결과, 우리의 MV-AR은 다양한 조건에서 일관된 다중 시점 이미지를 생성하며, 선도적인 확산 기반 다중 시점 이미지 생성 모델과 동등한 성능을 보인다. 코드와 모델은 https://github.com/MILab-PKU/MVAR에서 공개될 예정이다.
희소 오토인코더(Sparse Autoencoders, SAEs)는 대규모 언어 모델의 표현을 해석 가능한 특징으로 분해하기 위한 유망한 해결책으로 부상했다. 그러나 Paulo와 Belrose(2025)는 다양한 초기화 시드 간의 불안정성을 지적했으며, Heap 등(2025)은 SAEs가 모델 내부 특징을 제대로 포착하지 못할 수 있음을 지적했다. 이러한 문제는 웹에서 수집되거나 다른 모델에 의해 생성된 외부 데이터셋에서 SAEs를 훈련시키는 데서 비롯된 것으로 보이며, 이는 모델의 일반화 능력을 벗어난 분포 외(Out-of-Distribution, OOD) 데이터를 포함할 가능성이 있다. 이로 인해 모델의 내부 활성화를 잘못 표현하는 "가짜 특징(Fake Features)"이라 불리는 SAE 특징이 생성될 수 있다. 이러한 문제를 해결하기 위해, 우리는 모델 자체의 합성 데이터셋에서 SAEs를 훈련시키는 FaithfulSAE 방법을 제안한다. FaithfulSAE를 사용하여, 덜 OOD인 명령어 데이터셋에서 SAEs를 훈련시킬 경우 시드 간 안정성이 더 높아짐을 입증했다. 특히, FaithfulSAE는 웹 기반 데이터셋에서 훈련된 SAEs보다 SAE 탐색 작업에서 더 우수한 성능을 보였으며, 7개 모델 중 5개에서 더 낮은 가짜 특징 비율을 나타냈다. 전반적으로, 우리의 접근 방식은 외부 데이터셋에 대한 의존성을 제거함으로써 모델 내부 특징을 더 잘 포착하여 해석 가능성을 향상시키고, SAE 훈련 데이터셋의 중요성을 강조한다.
대규모 언어 모델(LLM)은 긴 문맥 길이가 필요한 애플리케이션에서 점점 더 많이 사용되고 있지만, 문맥이 길어질수록 키-값(KV) 캐시가 GPU에서 메모리 병목 현상을 일으키는 경우가 많습니다. 이를 해결하기 위해, 우리는 긴 문맥 LLM 추론을 위한 메모리 사용량을 크게 줄이는 교환 가능한 벡터 양자화(CommVQ)를 제안합니다. 먼저, 가벼운 인코더와 코드북을 사용한 가법 양자화를 도입하여 KV 캐시를 압축하며, 이를 간단한 행렬 곱셈으로 디코딩할 수 있도록 합니다. 디코딩 과정에서의 계산 비용을 더욱 줄이기 위해, 우리는 코드북이 회전 위치 임베딩(RoPE)과 교환 가능하도록 설계하고, 이를 기대값 최대화(EM) 알고리즘을 사용하여 학습시킵니다. 이를 통해 디코딩을 자기 주의 메커니즘에 효율적으로 통합할 수 있습니다. 우리의 접근 방식은 가법 양자화를 통해 높은 정확도를 달성하고, RoPE-교환 가능한 코드북을 통해 낮은 오버헤드를 유지합니다. 긴 문맥 벤치마크와 GSM8K에 대한 실험 결과, 우리의 방법은 2비트 양자화로 FP16 KV 캐시 크기를 87.5% 줄이면서도 최신 KV 캐시 양자화 방법을 능가하는 성능을 보여줍니다. 특히, 최소한의 정확도 손실로 1비트 KV 캐시 양자화를 가능하게 하여, LLaMA-3.1 8B 모델이 단일 RTX 4090 GPU에서 128K 문맥 길이로 실행될 수 있도록 합니다. 소스 코드는 https://github.com/UMass-Embodied-AGI/CommVQ에서 확인할 수 있습니다.
인상적인 성능에도 불구하고, 정렬된 대형 언어 모델(LLM)은 종종 다양성이 부족한 출력을 생성한다. 이러한 생성 과정에서의 안정성은 무엇에 의해 유도되는가? 우리는 모델 출력 분포의 확률 집중이라는 관점에서 이 현상을 조사한다. 이러한 집중을 정량화하기 위해, 우리는 생성 과정 중 가능한 다음 단계의 유효한 수를 측정하는 토큰 불변의 지표인 분기 계수(Branching Factor, BF)를 도입한다. 실증 분석을 통해 두 가지 주요 발견을 얻었다: (1) BF는 생성이 진행됨에 따라 종종 감소하며, 이는 LLM이 생성할수록 더 예측 가능해진다는 것을 시사한다. (2) 정렬 튜닝은 모델의 출력 분포를 초기부터 크게 예리하게 만들어, 기본 모델에 비해 BF를 거의 한 자릿수 수준으로 감소시킨다(예: 12에서 1.2로). 이러한 급격한 감소는 정렬된 모델이 왜 디코딩 전략에 덜 민감하게 보이는지를 설명하는 데 도움을 준다. 이러한 통찰을 바탕으로, 우리는 이 안정성이 복잡한 추론에 놀라운 함의를 가짐을 발견했다. 예를 들어, 정렬된 사고 연쇄(Chain-of-Thought, CoT) 모델(예: DeepSeek-증류 모델)은 이러한 효과를 활용한다; 더 긴 추론 사슬을 생성함으로써, 생성 과정을 후반부의 더 결정론적(낮은 BF) 단계로 밀어 넣어 더 안정적인 출력을 얻는다. 우리는 정렬 튜닝이 모델의 행동을 근본적으로 바꾸는 것이 아니라, 기본 모델에 이미 존재하는 저엔트로피 궤적을 열어주는 스타일리시한 토큰(예: "Sure")을 향해 모델을 조종한다고 가정한다. 이러한 관점은 기본 모델에 이러한 토큰을 사용하여 유도하는 실험을 통해 뒷받침되며, 이는 BF를 유사하게 감소시킬 수 있음을 보여준다. 종합적으로, 우리의 연구 결과는 BF를 LLM 출력을 이해하고 제어하는 강력한 진단 도구로 확립하며, 정렬이 어떻게 변동성을 줄이는지, CoT가 어떻게 안정적인 생성을 촉진하는지, 그리고 기본 모델이 어떻게 다양성에서 벗어나도록 조종될 수 있는지를 명확히 한다.
AI 생성 코드, 딥페이크 및 기타 합성 콘텐츠를 탐지하는 것은 새로운 연구 과제로 부상하고 있습니다. 대형 언어 모델(LLM)에 의해 생성된 코드가 점점 더 보편화됨에 따라, 각 샘플의 배경이 되는 특정 모델을 식별하는 것이 점점 더 중요해지고 있습니다. 본 논문은 C 프로그램에 대한 LLM 저자 귀속의 첫 번째 체계적인 연구를 제시합니다. 우리는 CodeT5-Authorship이라는 새로운 모델을 공개했는데, 이 모델은 원래의 CodeT5 인코더-디코더 아키텍처에서 디코더를 제거하고 분류에 집중하기 위해 인코더 레이어만 사용합니다. 우리 모델의 인코더 출력(첫 번째 토큰)은 GELU 활성화와 드롭아웃이 적용된 2층 분류 헤드를 통과하여 가능한 저자들에 대한 확률 분포를 생성합니다. 우리의 접근 방식을 평가하기 위해, 우리는 다양한 작업에서 8개의 최신 LLM에 의해 생성된 32,000개의 컴파일 가능한 C 프로그램으로 구성된 LLM-AuthorBench 벤치마크를 소개합니다. 우리는 우리의 모델을 7개의 전통적인 ML 분류기와 BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer, 그리고 LoRA 미세 조정된 Qwen2-1.5B를 포함한 8개의 미세 조정된 트랜스포머 모델과 비교합니다. 이진 분류에서, 우리의 모델은 GPT-4.1과 GPT-4o와 같은 밀접하게 관련된 모델에 의해 생성된 C 프로그램을 구별하는 데 97.56%의 정확도를 달성했으며, 5개의 주요 LLM(Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3, DeepSeek-V3) 간의 다중 클래스 귀속에서 95.40%의 정확도를 달성했습니다. 개방형 과학을 지원하기 위해, 우리는 CodeT5-Authorship 아키텍처, LLM-AuthorBench 벤치마크 및 모든 관련 Google Colab 스크립트를 GitHub에 공개합니다: https://github.com/LLMauthorbench/.
4D 사전 학습을 확장하여 특정 시간의 몇 개의 뷰에서 객체를 재구성하고 임의의 시간에 임의의 뷰를 생성할 수 있는 일반적인 시공간 표현을 학습할 수 있을까? 우리는 이에 대해 긍정적인 답을 제시하며, 제약 없는 뷰와 타임스탬프에서 입력을 받아 임의의 새로운 뷰-시간 조합을 렌더링하는 최초의 대규모 4D 재구성 모델인 4D-LRM을 소개한다. 기존의 최적화 기반, 기하학 기반 또는 생성적 접근법과 달리 효율성, 일반화 능력 또는 정확성에 어려움을 겪는 반면, 4D-LRM은 통합된 시공간 표현을 학습하고 시간에 걸친 포즈된 이미지 토큰으로부터 픽셀 단위의 4D 가우시안 프리미티브를 직접 예측함으로써 원칙적으로 무한 프레임 속도에서 빠르고 고품질의 렌더링을 가능하게 한다. 우리의 결과는 시공간 사전 학습을 확장함으로써 정확하고 효율적인 4D 재구성이 가능함을 보여준다. 4D-LRM은 새로운 객체에 일반화되고 시간을 보간하며 다양한 카메라 설정을 처리할 수 있다. 이 모델은 단일 A100 GPU에서 1.5초 미만의 시간으로 24프레임 시퀀스를 한 번의 순방향 전달로 재구성한다.
최근 음악 파운데이션 모델의 발전으로 오디오 표현 학습이 개선되었지만, 다양한 음악 전통에 대한 효과성은 여전히 제한적입니다. 우리는 크로스컬처 음악 표현 학습과 이해를 향상시키기 위해 개발된 다문화 적응형 파운데이션 모델인 CultureMERT-95M을 소개합니다. 이를 위해, 제한된 계산 자원에서도 안정적인 적응을 가능하게 하는 학습률 재가열(re-warming) 및 재감소(re-decaying)를 통합한 두 단계의 지속적 사전 학습 전략을 제안합니다. 그리스, 터키, 인도 음악 전통을 포함한 650시간 분량의 다문화 데이터 믹스로 학습한 결과, 다양한 비서구 음악 자동 태깅 작업에서 ROC-AUC와 AP가 평균 4.9% 향상되었으며, 서구 중심 벤치마크에서의 망각 현상을 최소화하면서 기존 최첨단 기술을 능가했습니다. 또한, 단일 문화 적응 모델을 가중치 공간에서 병합하는 다문화 적응의 대안적 접근법인 작업 산술(task arithmetic)을 조사했습니다. 작업 산술은 비서구 자동 태깅 작업에서 우리의 다문화 학습 모델과 동등한 성능을 보였으며, 서구 데이터셋에서도 성능 저하가 없었습니다. 크로스컬처 평가 결과, 단일 문화 모델은 음악 전통 간에 다양한 효과성을 보이는 반면, 다문화 적응 모델은 전반적으로 최고의 성능을 달성했습니다. 세계 음악 표현 학습 연구를 지원하기 위해, 우리는 CultureMERT-95M과 CultureMERT-TA-95M을 공개하여 더 문화적으로 인식된 음악 파운데이션 모델의 개발을 촉진합니다.
최근의 다중 모드 대형 언어 모델(MLLMs)은 벤치마크 시각-언어 작업에서 뛰어난 성능을 보이고 있지만, 입력 시각적 품질이 이들의 응답에 어떻게 영향을 미치는지에 대해서는 알려진 바가 거의 없다. 더 높은 지각적 품질의 이미지가 이미 더 나은 MLLM 이해로 이어지는가? 우리는 주요 MLLMs와 일련의 시각-언어 벤치마크를 아우르는 첫 번째 체계적인 연구를 수행하여, 각 이미지에 통제된 저하 및 스타일적 변화를 적용했다. 놀랍게도, 우리는 시각적 품질의 역설을 발견했다: 모델, 작업, 심지어 개별 인스턴스의 성능이 이미지가 인간이 지각하는 충실도에서 벗어날 때 개선될 수 있다. 기성 복원 파이프라인은 이러한 특이한 선호도를 조정하는 데 실패한다. 이 격차를 해소하기 위해, 우리는 시각적 품질 테스트 타임 튜닝(VQ-TTT)을 도입했다. 이는 경량 적응 모듈로: (1) 고정된 시각 인코더 앞에 학습 가능한 저순위 커널을 삽입하여 주파수 내용을 조절하고; (2) LoRA를 통해 얕은 시각 인코더 레이어만 미세 조정한다. VQ-TTT는 단일 순방향 패스에서 각 입력 이미지를 동적으로 조정하여 작업별 모델 선호도와 일치시킨다. 평가된 모든 MLLMs와 데이터셋에서 VQ-TTT는 외부 모델, 캐시된 특징, 또는 추가 학습 데이터 없이도 평균 정확도를 크게 향상시켰다. 이러한 발견은 MLLMs를 위한 "더 나은" 시각적 입력을 재정의하고, AI가 주요 데이터 소비자인 새로운 시대에서 보편적으로 "깨끗한" 이미지가 아닌 적응적 이미지의 필요성을 강조한다.
대규모 언어 모델(LLMs)은 놀라운 발전을 이루었지만, 그 배포 과정에서 특히 안전 메커니즘을 우회하는 탈옥(jailbreak) 공격에 대한 취약성이 노출되었습니다. 이러한 문제를 해결하기 위해, LLM 상호작용을 모니터링하고 제어하는 외부 방어 메커니즘인 가드레일(guardrails)이 유망한 해결책으로 부상했습니다. 그러나 현재 LLM 가드레일 환경은 분열되어 있으며, 통일된 분류 체계와 포괄적인 평가 프레임워크가 부족한 상황입니다. 본 시스템화 지식(Systematization of Knowledge, SoK) 논문에서는 LLM을 위한 탈옥 가드레일에 대한 최초의 종합적 분석을 제시합니다. 우리는 여섯 가지 주요 차원을 따라 가드레일을 분류하는 새로운 다차원 분류 체계를 제안하고, 실질적인 효과를 평가하기 위한 보안-효율성-유용성(Security-Efficiency-Utility) 평가 프레임워크를 소개합니다. 광범위한 분석과 실험을 통해 기존 가드레일 접근법의 강점과 한계를 식별하고, 다양한 공격 유형에 대한 보편성을 탐구하며, 방어 조합을 최적화하기 위한 통찰을 제공합니다. 본 연구는 미래 연구 및 개발을 위한 구조화된 기반을 제공함으로써, 견고한 LLM 가드레일의 원칙적 발전과 배포를 안내하고자 합니다. 코드는 https://github.com/xunguangwang/SoK4JailbreakGuardrails에서 확인할 수 있습니다.
스토리 시각화는 여러 패널에 걸쳐 내러티브를 묘사하는 시각적 장면을 생성하는 인기 있는 작업으로 자리 잡았습니다. 이 설정에서의 주요 과제는 특히 캐릭터와 객체가 스토리 전반에 걸쳐 지속되고 진화하는 방식에서 시각적 일관성을 유지하는 것입니다. 최근 디퓨전 모델의 발전에도 불구하고, 현재의 접근법들은 주요 캐릭터 속성을 보존하지 못해 일관성 없는 내러티브를 초래하는 경우가 많습니다. 본 연구에서는 다중 패널 스토리 시각화에서 불일치를 자율적으로 식별, 수정, 개선하는 협업형 다중 에이전트 프레임워크를 제안합니다. 이 에이전트들은 반복적인 루프에서 작동하며, 전체 시퀀스를 재생성하지 않고도 세밀한 패널 수준의 업데이트를 가능하게 합니다. 우리의 프레임워크는 모델에 구애받지 않으며, Flux와 같은 정류 흐름 트랜스포머 및 Stable Diffusion과 같은 잠재 디퓨전 모델을 포함한 다양한 디퓨전 모델과 유연하게 통합됩니다. 정량적 및 정성적 실험을 통해 우리의 방법이 다중 패널 일관성 측면에서 기존 접근법들을 능가함을 보여줍니다.
최근의 다중 모드 대형 언어 모델(MLLM)은 고품질 캡션 데이터로 학습되었음에도 불구하고 개인화된 이미지 캡션 생성에 어려움을 겪는 경우가 많다. 본 연구에서는 이러한 한계가 기존의 사후 학습 기반 MLLM 개인화 방법에서도 지속적으로 나타남을 관찰하였다. 특히, 대규모 캡션 데이터를 지도 미세 조정(SFT)을 통해 사후 조정했음에도 불구하고, 이러한 모델들은 다중 개념 이미지 캡션 생성과 같은 실제 시나리오에서 충실한 설명을 생성하지 못하는 경우가 빈번하다. 그러나 이러한 복잡한 설정을 위한 대규모 고품질 캡션 데이터를 확보하는 것은 비용이 많이 들고 어려운 작업이다. 이러한 SFT의 데이터 중심적 특성을 해결하기 위해, 우리는 강화 학습(RL) 기반의 사후 학습 프레임워크를 제안한다. 우리가 아는 한, 이는 개인화된 이미지 캡션 생성을 위해 MLLM을 사후 학습하는 최초의 RL 기반 접근법이다. 우리의 방법은 MLLM의 시각적 인식 및 개인화된 생성 능력을 크게 향상시키며, 특히 도전적인 다중 개념 이미지 캡션 생성 작업에서 기존의 SFT 기반 베이스라인을 지속적으로 능가한다.
의료 시각 질의응답은 의료 이미지를 기반으로 자연어 질문에 답변할 수 있는 모델을 통해 임상적 의사결정을 지원하는 것을 목표로 합니다. 최근 다중 모달 학습의 발전으로 성능이 크게 향상되었지만, 현재의 방법들은 여전히 제한된 답변 신뢰도와 낮은 해석 가능성으로 인해 임상의와 환자가 모델이 생성한 답변을 이해하고 신뢰하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해, 본 연구에서는 먼저 '시각적 근거를 통한 사고(ThinkVG)' 데이터셋을 제안합니다. 이 데이터셋에서는 답변 생성이 중간 추론 단계로 분해되어 의료 이미지의 관련 시각적 영역을 명시적으로 근거로 삼아 세밀한 설명 가능성을 제공합니다. 더 나아가, 우리는 강화 학습을 위한 새로운 검증 가능한 보상 메커니즘을 도입하여 사후 훈련을 안내하고, 모델의 추론 과정과 최종 답변 간의 일치성을 개선합니다. 특히, 우리의 방법은 훈련 데이터의 1/8만 사용하여도 비슷한 성능을 달성함으로써 제안의 효율성과 효과성을 입증합니다. 이 데이터셋은 https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG에서 확인할 수 있습니다.
신생아 사망은 여전히 개발도상국뿐만 아니라 일부 선진국에서도 우려되는 현실입니다. Macro Trades에 따르면, 전 세계적으로 1,000명의 출생 중 26.693명의 아기가 사망한다고 합니다. 이 수치를 줄이기 위해서는 위험에 처한 아기를 조기에 예측하는 것이 중요합니다. 이러한 예측은 아기와 어머니에게 충분한 관리를 제공하여 조기 사망을 방지할 수 있는 기회를 제공합니다. 이러한 맥락에서, 신생아가 위험에 처해 있는지 여부를 판단하기 위해 머신러닝이 사용되었습니다. 예측 모델을 학습시키기 위해 140만 명의 신생아에 대한 역사적 데이터가 사용되었습니다. 로지스틱 회귀, K-최근접 이웃, 랜덤 포레스트 분류기, 극단적 그래디언트 부스팅(XGBoost), 합성곱 신경망, 장단기 메모리(LSTM)와 같은 머신러닝 및 딥러닝 기법이 데이터셋을 사용하여 구현되었으며, 신생아 사망률을 예측하기 위한 가장 정확한 모델을 식별했습니다. 머신러닝 알고리즘 중에서는 XGBoost와 랜덤 포레스트 분류기가 94%의 정확도로 가장 우수한 성능을 보였고, 딥러닝 모델 중에서는 LSTM이 99%의 정확도로 가장 높은 성능을 달성했습니다. 따라서 LSTM을 사용하는 것이 아기에게 예방 조치가 필요한지 여부를 예측하는 데 가장 적합한 접근 방식으로 보입니다.
LLM을 활용한 하드웨어 RTL 코드 생성 분야에서 최근 진전이 있었음에도 불구하고, 기존 솔루션들은 실제 응용 시나리오와 실세계 RTL 코드 개발 요구사항 간에 상당한 격차를 여전히 보이고 있다. 기존 접근법들은 지나치게 단순화된 하드웨어 설명에 초점을 맞추거나 복잡한 명세서를 처리하기 위해 광범위한 인간의 지도를 의존함으로써 확장성과 자동화 잠재력을 제한하고 있다. 본 논문에서는 이러한 격차를 해소하기 위해, 복잡한 명세서 문서를 직접 처리하고 해당 RTL 코드 구현을 생성하도록 설계된 Spec2RTL-Agent라는 LLM 에이전트 시스템을 제안함으로써 LLM 기반 RTL 코드 생성을 보다 현실적인 응용 환경으로 발전시킨다. 이를 달성하기 위해 Spec2RTL-Agent는 세 가지 핵심 요소를 통합한 새로운 다중 에이전트 협업 프레임워크를 도입한다: (1) 명세서를 구조화된 단계별 구현 계획으로 변환하는 추론 및 이해 모듈, (2) RTL 변환을 위한 정확성과 합성 가능성을 향상시키기 위해 다중 표현에 걸쳐 코드를 반복적으로 개선하는 점진적 코딩 및 프롬프트 최적화 모듈, (3) 생성 과정에서 오류의 원인을 식별하고 추적하여 보다 견고한 코드 생성 흐름을 보장하는 적응형 반성 모듈. 자연어에서 직접 RTL을 생성하는 대신, 본 시스템은 합성 가능한 C++ 코드를 전략적으로 생성한 후 HLS를 위해 최적화한다. 이 에이전트 주도적 개선은 단순한 직접 RTL 생성 접근법에 비해 더 큰 정확성과 호환성을 보장한다. 우리는 Spec2RTL-Agent를 세 가지 명세서 문서에 대해 평가하여, 기존 방법 대비 최대 75% 적은 인간 개입으로 정확한 RTL 코드를 생성함을 보였다. 이는 비구조화된 명세서에서 RTL 생성을 위한 최초의 완전 자동화된 다중 에이전트 시스템으로서, 하드웨어 설계에서 인간 노력에 대한 의존도를 줄이는 역할을 강조한다.
대규모 언어 모델(LLM)의 최근 발전은 자연어 처리 분야에서 놀라운 진전을 이뤄냈지만, 특히 장문맥 추론에서의 계산 및 메모리 요구량은 여전히 큰 과제로 남아 있습니다. 본 연구에서는 사전 학습된 Transformer 모델을 개선하기 위한 새로운 프레임워크인 TPTT(Transforming Pretrained Transformer into Titans)를 소개합니다. TPTT는 효율적인 선형화 어텐션 메커니즘과 고급 메모리 관리 기술을 활용하며, Memory as Gate(MaG)와 혼합 선형화 어텐션(LiZA)과 같은 기법을 사용합니다. 이 프레임워크는 Hugging Face Transformers 라이브러리와 완벽하게 호환되어, 전체 재학습 없이도 파라미터 효율적 미세 조정(LoRA)을 통해 모든 인과적 LLM을 원활하게 적용할 수 있습니다. 약 10억 개의 파라미터를 가진 모델을 대상으로 MMLU 벤치마크에서 TPTT의 효과를 입증했으며, 효율성과 정확도 모두에서 상당한 개선을 관찰했습니다. 예를 들어, Titans-Llama-3.2-1B는 기준 모델 대비 Exact Match(EM)에서 20%의 성능 향상을 달성했습니다. 통계적 분석 및 최신 최첨단 방법과의 비교를 통해 TPTT의 실용적 확장성과 견고성을 확인했습니다. 코드는 https://github.com/fabienfrfr/tptt에서 확인할 수 있으며, Python 패키지는 https://pypi.org/project/tptt/에서 제공됩니다.