번역이 포함된 일일 선별된 AI 연구 논문
텍스트-이미지(T2I) 생성 분야의 최근 발전은 인상적인 결과를 달성했지만, 기존 모델들은 여전히 풍부한 세계 지식과 암묵적 추론을 요구하는 프롬프트에서 어려움을 겪고 있습니다. 이 두 가지 요소는 실제 시나리오에서 의미적으로 정확하고 일관성 있으며 문맥에 적합한 이미지를 생성하는 데 매우 중요합니다. 이러한 격차를 해결하기 위해, 우리는 인문학과 자연 영역을 모두 아우르며 T2I 모델의 세계 지식 기반과 암묵적 추론 능력을 체계적으로 평가하기 위해 설계된 벤치마크인 WorldGenBench를 소개합니다. 우리는 생성된 이미지가 주요 의미적 기대를 얼마나 잘 충족시키는지를 측정하는 구조화된 지표인 지식 체크리스트 점수(Knowledge Checklist Score)를 제안합니다. 21개의 최신 모델에 대한 실험 결과, 디퓨전 모델이 오픈소스 방법론 중에서는 선두를 달리고 있지만, GPT-4o와 같은 독점적 자동회귀 모델이 훨씬 강력한 추론 및 지식 통합 능력을 보여주었습니다. 우리의 연구 결과는 차세대 T2I 시스템에서 더 깊은 이해와 추론 능력이 필요함을 강조합니다. 프로젝트 페이지: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
트랜스포머는 수많은 NLP 과제에서 큰 성공을 거두었지만, 특히 실제 세계 지식이 희소한 경우 다단계 사실 추론에서 여전히 눈에 띄는 격차를 보이고 있습니다. 최근 그로킹(grokking) 연구의 발전은 신경망이 기본 논리 패턴을 감지하면 암기에서 완벽한 일반화로 전환할 수 있음을 보여주었지만, 이러한 연구는 주로 작고 합성된 과제를 사용해 왔습니다. 본 논문에서는 처음으로 그로킹을 실제 세계의 사실 데이터로 확장하고, 기존 지식 그래프를 신중하게 설계된 합성 데이터로 보강하여 그로킹에 필요한 추론 사실 대 원자 사실 비율(phi_r)을 임계값 이상으로 높이는 방식으로 데이터셋 희소성 문제를 해결합니다. 놀랍게도, 사실적으로 부정확한 합성 데이터도 모델이 암기보다는 관계적 구조에 의존하도록 강제함으로써 정확도를 저하시키기보다는 오히려 새롭게 나타나는 추론 회로를 강화할 수 있음을 발견했습니다. 다중 홉 추론 벤치마크에서 평가한 결과, 우리의 접근 방식은 2WikiMultiHopQA에서 최대 95-100%의 정확도를 달성하며, 강력한 베이스라인을 크게 개선하고 현재 최첨단 결과와 동등하거나 이를 능가하는 성능을 보였습니다. 또한, phi_r을 증가시키는 것이 트랜스포머 내부에서 일반화 회로의 형성을 어떻게 촉진하는지에 대한 심층 분석을 제공합니다. 우리의 연구 결과는 그로킹 기반 데이터 증강이 암묵적인 다중 홉 추론 능력을 해제할 수 있음을 시사하며, 대규모 언어 모델에서 더 견고하고 해석 가능한 사실 추론의 문을 열 수 있음을 보여줍니다.
일상생활에 자연스럽게 녹아드는 음성 AI 에이전트는 인간과 자율적이고 실시간이며 감정 표현이 풍부한 방식으로 상호작용할 것입니다. 단순히 명령에 반응하는 것을 넘어, 지속적으로 듣고, 추론하며, 능동적으로 응답함으로써 유연하고 역동적이며 감정적으로 공감되는 상호작용을 조성할 것입니다. 우리는 이러한 비전을 향한 한 걸음을 내딛는 대규모 음성-언어 기반 모델 패밀리인 Voila를 소개합니다. Voila는 전통적인 파이프라인 시스템을 넘어, 새로운 종단 간(end-to-end) 아키텍처를 채택하여 풀 듀플렉스(full-duplex) 및 저지연 대화를 가능하게 하면서도 음색, 리듬, 감정과 같은 풍부한 음성 뉘앙스를 보존합니다. 이는 단 195밀리초의 응답 지연 시간을 달성하여 평균 인간 응답 시간을 능가합니다. 계층적 멀티스케일 트랜스포머는 대규모 언어 모델(LLM)의 추론 능력과 강력한 음향 모델링을 통합하여 자연스럽고 개성 인식형 음성 생성을 가능하게 합니다. 사용자는 단순히 텍스트 지시를 작성하여 화자의 정체성, 음색 및 기타 특성을 정의할 수 있습니다. 또한, Voila는 100만 개 이상의 사전 구축된 음성을 지원하며, 10초 정도의 짧은 오디오 샘플로부터 새로운 음성을 효율적으로 커스터마이징할 수 있습니다. 음성 대화를 넘어, Voila는 자동 음성 인식(ASR), 텍스트-음성 변환(TTS), 그리고 최소한의 적응만으로 다국어 음성 번역을 포함한 다양한 음성 기반 애플리케이션을 위한 통합 모델로 설계되었습니다. Voila는 오픈 소스로 공개되어 개방형 연구를 지원하고 차세대 인간-기계 상호작용을 가속화합니다.
보상 모델링은 인간의 선호도와 대형 언어 모델(LLM)을 정렬하는 데 필수적이며, 특히 인간 피드백을 통한 강화 학습(RLHF)을 통해 이를 달성합니다. 정확한 보상 신호를 제공하기 위해, 보상 모델(RM)은 점수나 판단을 내리기 전에 깊은 사고를 자극하고 해석 가능한 추론을 수행해야 합니다. 그러나 기존의 RM들은 불투명한 스칼라 점수를 생성하거나 선호하는 답변의 예측을 직접 생성하여 자연어 비판을 통합하는 데 어려움을 겪고, 이로 인해 해석 가능성이 부족합니다. 최근 추론 집약적 작업에서의 긴 사고의 연쇄(CoT)의 발전에 영감을 받아, 우리는 추론 능력을 보상 모델링에 통합하면 RM의 해석 가능성과 성능이 크게 향상될 것이라는 가설을 세우고 이를 검증했습니다. 본 연구에서는 보상 모델링을 추론 작업으로 공식화하는 새로운 종류의 생성적 보상 모델인 '추론 보상 모델(ReasRMs)'을 소개합니다. 우리는 추론 중심의 훈련 파이프라인을 제안하고, RM-R1이라는 ReasRMs 패밀리를 훈련시켰습니다. 이 훈련은 두 가지 주요 단계로 구성됩니다: (1) 고품질 추론 체인의 증류와 (2) 검증 가능한 보상을 통한 강화 학습. RM-R1은 자체적으로 추론 흔적이나 채팅 특정 루브릭을 생성하고 이를 기준으로 후보 응답을 평가함으로써 LLM 롤아웃을 개선합니다. 실험적으로, 우리의 모델은 여러 종합적인 보상 모델 벤치마크에서 생성적 RM의 최첨단 또는 최첨단에 근접한 성능을 달성하며, 훨씬 더 큰 오픈 웨이트 모델(예: Llama3.1-405B)과 사유 모델(예: GPT-4o)을 최대 13.8%까지 능가합니다. 최종 성능을 넘어, 우리는 성공적인 ReasRM 훈련의 핵심 요소를 이해하기 위해 철저한 실증적 분석을 수행합니다. 향후 연구를 촉진하기 위해, 우리는 https://github.com/RM-R1-UIUC/RM-R1에서 여섯 개의 ReasRM 모델과 코드 및 데이터를 공개합니다.
우리는 2차 최적화기의 가장 단순한 구현체인 Muon이 AdamW 대비 계산 시간과 성능 간의 파레토 프론티어를 명시적으로 확장한다는 것을 입증합니다. Muon은 소위 임계 배치 크기를 훨씬 넘어선 대규모 배치 크기에서도 데이터 효율성을 유지하는 데 AdamW보다 더 효과적이며, 동시에 계산 효율성을 유지함으로써 더 경제적인 학습을 가능하게 합니다. 우리는 효율적인 하이퍼파라미터 전이를 위해 Muon과 최대 업데이트 파라미터화(muP)의 조합을 연구하고, muP의 모든 오차 원인을 고려하면서도 리소스 오버헤드를 최소화하는 간단한 텔레스코핑 알고리즘을 제시합니다. 우리는 40억 개의 파라미터를 가진 모델 크기까지의 광범위한 실험과 데이터 분포 및 아키텍처에 대한 어블레이션을 통해 이러한 발견을 검증합니다.
대규모 언어 모델(LLM)은 챗봇, 코드 생성기, 검색 엔진 등에 널리 적용되고 있습니다. 사고의 연쇄(chain-of-thought), 복잡한 추론, 에이전트 서비스와 같은 작업 부하는 모델을 반복적으로 호출함으로써 추론 비용을 크게 증가시킵니다. 병렬 처리, 압축, 캐싱과 같은 최적화 방법이 비용 절감을 위해 도입되었지만, 다양한 서비스 요구 사항으로 인해 적절한 방법을 선택하기가 어렵습니다. 최근에는 서비스 지향 인프라에 최적화 방법을 통합하기 위한 핵심 구성 요소로 특화된 LLM 추론 엔진이 등장했습니다. 그러나 추론 엔진에 대한 체계적인 연구는 여전히 부족한 상황입니다. 본 논문은 25개의 오픈소스 및 상용 추론 엔진을 종합적으로 평가합니다. 각 추론 엔진을 사용 편의성, 배포 용이성, 범용 지원, 확장성, 처리량 및 지연 시간 인식 계산에 대한 적합성 측면에서 검토합니다. 또한, 각 추론 엔진이 지원하는 최적화 기술을 조사함으로써 설계 목표를 탐구합니다. 더불어, 오픈소스 추론 엔진의 생태계 성숙도를 평가하고 상용 솔루션의 성능 및 비용 정책을 다룹니다. 복잡한 LLM 기반 서비스 지원, 다양한 하드웨어 지원, 강화된 보안 등을 포함한 미래 연구 방향을 제시하여 연구자와 개발자들이 최적화된 LLM 추론 엔진을 선택하고 설계하는 데 실질적인 지침을 제공합니다. 또한, 이 빠르게 진화하는 분야의 발전을 지속적으로 추적하기 위한 공개 저장소를 제공합니다: https://github.com/sihyeong/Awesome-LLM-Inference-Engine
대규모 언어 모델(LLMs)은 복잡한 추론 작업에서 놀라운 진전을 이루었지만, 정적인 내부 지식과 텍스트 기반 추론에 의존한다는 근본적인 한계를 여전히 가지고 있다. 실제 문제 해결은 종종 동적이고 다단계적인 추론, 적응형 의사결정, 그리고 외부 도구 및 환경과의 상호작용 능력을 요구한다. 본 연구에서는 에이전트 기반 추론, 강화 학습, 도구 통합을 긴밀하게 결합한 통합 프레임워크인 ARTIST(Agentic Reasoning and Tool Integration in Self-improving Transformers)를 소개한다. ARTIST는 다중 턴 추론 체인 내에서 언제, 어떻게, 어떤 도구를 호출할지 모델이 자율적으로 결정할 수 있도록 하며, 결과 기반 강화 학습을 통해 단계별 감독 없이도 도구 사용 및 환경 상호작용을 위한 강력한 전략을 학습한다. 수학적 추론 및 다중 턴 함수 호출 벤치마크에서의 광범위한 실험을 통해 ARTIST가 최신 베이스라인을 꾸준히 능가하며, 기본 모델 대비 최대 22%의 절대적 성능 향상과 가장 어려운 작업에서의 강력한 성과를 보임을 확인했다. 상세한 연구 및 지표 분석은 에이전트 기반 강화 학습 훈련이 더 깊은 추론, 더 효과적인 도구 사용, 그리고 더 높은 품질의 해결책으로 이어짐을 보여준다. 본 연구 결과는 도구 통합을 통한 에이전트 기반 강화 학습이 LLMs에서 강력하고 해석 가능하며 일반화 가능한 문제 해결을 위한 새로운 전선으로 자리 잡았음을 입증한다.
형식적 수학적 추론은 여전히 인공지능의 주요 과제로 남아 있으며, 기존 벤치마크의 범위와 규모의 한계로 인해 더욱 어려움을 겪고 있다. 이를 해결하기 위해 우리는 고등학교 올림피아드 문제부터 학부 수준의 정리까지 다양한 영역(예: 대수학, 응용수학, 미적분학, 정수론, 이산수학)에 걸친 5,560개의 형식적으로 검증된 문제로 구성된 대규모 Lean4 벤치마크인 FormalMATH를 제시한다. 수동 형식화의 비효율성을 완화하기 위해, 우리는 다음과 같은 요소를 통합한 새로운 인간-참여형 자동 형식화 파이프라인을 도입한다: (1) 문장 자동 형식화를 위한 특화된 대형 언어 모델(LLM), (2) 다중 LLM 의미 검증, (3) 기성 LLM 기반 증명기를 활용한 부정 기반 반증 필터링 전략. 이 접근법은 전문가 주석 비용을 줄이면서도 원본 자연어 문제에 대한 충실도를 유지하며, 수동 검증 전에 72.09%의 문장을 보존한다. 최신 LLM 기반 정리 증명기에 대한 평가 결과, 가장 강력한 모델조차도 실질적인 샘플링 예산 하에서 16.46%의 성공률을 보이며, 특정 영역에 대한 편향(예: 대수학에서는 우수하지만 미적분학에서는 실패)과 단순화된 자동화 전술에 대한 과도한 의존성을 보였다. 특히, 우리는 사고 연쇄 추론 시나리오에서 자연어 해결 지침과 증명 성공률 간의 역설적인 역관계를 발견했는데, 이는 인간이 작성한 비형식적 추론이 형식적 추론 환경에서 명확성보다는 오히려 잡음을 유발한다는 것을 시사한다. 우리는 FormalMATH가 형식적 수학적 추론을 벤치마킹하기 위한 견고한 기준을 제공한다고 믿는다.
멀티모달 보상 모델(MRMs)은 멀티모달 대형 언어 모델(MLLMs)의 성능을 향상시키는 데 중요한 역할을 합니다. 최근의 발전은 주로 MRMs의 모델 구조와 훈련 데이터 개선에 초점을 맞추었으나, 보상 모델링을 위한 장기 추론 능력의 효과성과 이러한 능력을 MRMs에서 활성화하는 방법에 대한 탐구는 제한적이었습니다. 본 논문에서는 강화 학습(RL)을 활용하여 보상 모델링을 개선하는 방법을 탐구합니다. 구체적으로, 보상 모델링 문제를 규칙 기반 RL 작업으로 재구성합니다. 그러나 Reinforce++와 같은 기존 RL 알고리즘을 보상 모델링에 직접 적용할 경우, 이러한 알고리즘의 고유한 한계로 인해 훈련 불안정성 또는 심지어 붕괴가 발생하는 것을 관찰했습니다. 이 문제를 해결하기 위해, 우리는 StableReinforce 알고리즘을 제안합니다. 이 알고리즘은 기존 RL 방법의 훈련 손실, 이점 추정 전략, 보상 설계를 개선하여 더 안정적인 훈련 동역학과 우수한 성능을 달성합니다. MRM 훈련을 용이하게 하기 위해, 다양한 데이터셋에서 200K의 선호 데이터를 수집했습니다. 이 데이터셋에 StableReinforce 알고리즘을 사용하여 훈련된 우리의 보상 모델인 R1-Reward는 멀티모달 보상 모델링 벤치마크에서 성능을 크게 향상시켰습니다. 이전 SOTA 모델과 비교하여, R1-Reward는 VL Reward-Bench에서 8.4%, Multimodal Reward Bench에서 14.3%의 성능 향상을 달성했습니다. 또한, 더 많은 추론 계산을 통해 R1-Reward의 성능이 더욱 향상되어, RL 알고리즘이 MRMs를 최적화하는 데 있어 잠재력을 강조했습니다.
본 논문에서는 트랜스포머 블록을 선형 연산으로 효과적으로 대체하면서도 낮은 압축률에서도 높은 성능을 유지하는 일반화된 학습 불필요 깊이 가지치기 방법인 ReplaceMe를 소개한다. 추가적인 학습이나 미세 조정이 필요한 기존의 가지치기 접근법과 달리, 본 방법은 가지치기된 블록을 근사하기 위한 선형 변환을 추정하는 데 사용되는 소규모의 보정 데이터셋만을 필요로 한다. 이렇게 추정된 선형 매핑은 남아 있는 트랜스포머 블록과 원활하게 통합될 수 있어, 추가적인 네트워크 파라미터가 필요하지 않다. 실험 결과, ReplaceMe는 다른 학습 불필요 접근법들을 일관적으로 능가하며, 광범위한 재학습/미세 조정과 구조적 수정을 포함하는 최신 가지치기 방법들과도 높은 경쟁력을 보인다. 여러 대규모 언어 모델(LLMs)에 적용한 결과, ReplaceMe는 최대 25%의 가지치기를 달성하면서도 오픈 벤치마크에서 원본 모델 성능의 약 90%를 유지하였다. 이는 어떠한 학습이나 치유 단계 없이도 최소한의 계산 오버헤드로 달성된 결과이다(그림 1 참조). 본 연구는 ReplaceMe와 여러 최신 깊이 가지치기 기법을 구현한 오픈소스 라이브러리를 제공하며, 해당 저장소에서 이용 가능하다.
대규모 언어 모델(LLMs)에서의 사고 연쇄(Chain-of-Thought, CoT) 추론은 모델이 중간 추론 단계를 생성해야 하는 잠재 변수 문제로 공식화될 수 있습니다. 이전의 반복적 보험 순위 미세 조정(RAFT)과 같은 접근 방식은 이러한 공식화에 의존해 왔지만, 일반적으로 프롬프트 전반에 균일한 추론 예산을 적용하여 난이도와 수렴 행동의 변동성을 고려하지 못했습니다. 본 연구는 CoT 훈련의 주요 병목 현상을 정적 샘플링 전략으로 인한 비효율적인 확률적 경사 추정으로 식별합니다. 우리는 계산 예산 제약 하에서 확률적 경사 분산을 최소화하도록 설계된 프롬프트 특화 동적 샘플 할당 전략인 GVM-RAFT를 제안합니다. 이 방법은 프롬프트 수용률과 확률적 경사 노름을 모니터링하여 계산 자원을 동적으로 할당함으로써 결과적인 경사 분산이 최소화되도록 보장합니다. 우리의 이론적 분석은 제안된 동적 샘플링 전략이 적절한 조건 하에서 가속화된 수렴 보장을 이끌어냄을 보여줍니다. 수학적 추론 실험에서 GVM-RAFT는 기본 RAFT 대비 2-4배의 속도 향상과 상당한 정확도 개선을 달성했습니다. 제안된 동적 샘플링 전략은 일반적이며 GRPO와 같은 다른 강화 학습 알고리즘에 통합될 수 있어 수렴 및 테스트 정확도에서 유사한 개선을 이끌어냅니다. 우리의 코드는 https://github.com/RLHFlow/GVM에서 확인할 수 있습니다.
실시간, 지능적, 자연스러운 음성 상호작용은 차세대 인간-컴퓨터 상호작용의 핵심 요소입니다. 최근의 발전은 대규모 언어 모델(LLMs)을 기반으로 지능형 음성 챗봇을 구축할 수 있는 잠재력을 보여주었습니다. 본 논문에서는 0.5B에서 14B 파라미터 규모의 음성 언어 모델(SpeechLMs) 시리즈인 LLaMA-Omni 2를 소개합니다. 이 모델은 고품질의 실시간 음성 상호작용을 달성할 수 있습니다. LLaMA-Omni 2는 Qwen2.5 시리즈 모델을 기반으로 구축되었으며, 음성 인코더와 자동회귀 스트리밍 음성 디코더를 통합했습니다. 단 200K의 다중 턴 음성 대화 샘플로만 훈련되었음에도 불구하고, LLaMA-Omni 2는 여러 음성 질의응답 및 음성 명령 수행 벤치마크에서 강력한 성능을 보이며, 수백만 시간의 음성 데이터로 훈련된 GLM-4-Voice와 같은 이전의 최첨단 SpeechLMs를 능가합니다.
효과적인 사회적 지능 시뮬레이션을 위해서는 언어 에이전트가 추론 깊이를 동적으로 조절할 수 있는 능력이 필요하지만, 이는 현재의 접근 방식에서 두드러지게 부족한 부분입니다. 기존 방법들은 이러한 추론 능력이 없거나 모든 시나리오에 걸쳐 균일하게 긴 사고 연쇄(chain-of-thought) 추론을 강제함으로써 과도한 토큰 사용과 부적절한 사회적 시뮬레이션을 초래합니다. 본 논문에서는 실시간 컨텍스트에 기반하여 네 가지 사고 모드(직관적 반응 → 깊은 사색) 중에서 전략적으로 선택하는 적응형 모드 학습(Adaptive Mode Learning, AML)을 제안합니다. 우리 프레임워크의 핵심 혁신인 적응형 모드 정책 최적화(Adaptive Mode Policy Optimization, AMPO) 알고리즘은 기존 방법 대비 세 가지 주요 개선점을 도입했습니다: (1) 다중 세분화 사고 모드 설계, (2) 사회적 상호작용 전반에 걸친 컨텍스트 인식 모드 전환, (3) 깊이 적응형 처리를 통한 토큰 효율적 추론. 사회적 지능 과제에 대한 광범위한 실험을 통해 AML이 최신 방법 대비 15.6% 더 높은 과제 성능을 달성함을 확인했습니다. 특히, 우리의 방법은 GRPO 대비 7.0% 더 우수한 성능을 보였으며, 추론 연쇄 길이는 32.8% 더 짧았습니다. 이러한 결과는 AMPO에서 구현된 컨텍스트 민감적 사고 모드 선택이 GRPO의 고정 깊이 접근 방식보다 더 인간다운 적응적 추론을 가능하게 함을 보여줍니다.
상호작용 시연을 통한 강화 학습(RLID)에서의 근본적인 문제인 시연 노이즈와 커버리지 한계를 해결하고자 한다. 기존 데이터 수집 방법은 유용한 상호작용 시연을 제공하지만, 종종 희소하고 단절된 노이즈가 포함된 궤적을 생성하여 가능한 기술 변형과 전환의 전체 스펙트럼을 포착하지 못한다. 우리의 핵심 통찰은 노이즈가 많고 희소한 시연에도 불구하고, 시연된 기술 간을 자연스럽게 연결하거나 이웃 상태에서 발생하는 무한한 물리적으로 가능한 궤적이 존재하여 가능한 기술 변형과 전환의 연속적인 공간을 형성한다는 것이다. 이 통찰을 바탕으로, 우리는 두 가지 데이터 증강 기법을 제시한다: 시연 기술 간의 잠재적 전환을 발견하는 스티치드 궤적 그래프(STG)와 시연 이웃 내 임의의 상태에 대한 고유한 연결을 설정하는 상태 전환 필드(STF). 증강된 데이터를 활용한 효과적인 RLID를 위해, 우리는 동적 커리큘럼 생성을 위한 적응형 궤적 샘플링(ATS) 전략과 메모리 의존적 기술 학습을 위한 역사적 인코딩 메커니즘을 개발한다. 우리의 접근법은 참조 시연을 크게 넘어서는 강력한 기술 습득을 가능하게 한다. 다양한 상호작용 작업에 걸친 광범위한 실험을 통해, 수렴 안정성, 일반화 능력, 그리고 회복 견고성 측면에서 최신 방법 대비 상당한 개선을 입증한다.
정확한 편집 데이터를 수동으로 수집하는 데 어려움이 있기 때문에, 기존 데이터셋은 일반적으로 다양한 자동화된 방법을 사용하여 구축됩니다. 이로 인해 편집 지침과 원본-편집 이미지 쌍 간의 불일치로 인해 노이즈가 포함된 감독 신호가 발생합니다. 최근 연구에서는 더 높은 품질의 편집된 이미지를 생성하거나, 인식 작업에 대한 사전 학습을 수행하거나, 시각-언어 모델(VLMs)을 도입하여 편집 모델을 개선하려는 시도가 있었지만, 이러한 근본적인 문제를 해결하지 못했습니다. 본 논문에서는 주어진 이미지 쌍에 대해 더 효과적인 편집 지침을 구축함으로써 새로운 해결책을 제시합니다. 여기에는 편집 지침을 수정하여 원본-편집 이미지 쌍과 더 잘 일치시키고, 대조적 편집 지침을 사용하여 그 효과를 더욱 강화하는 것이 포함됩니다. 구체적으로, 우리는 편집 모델이 텍스트와 무관하게 다양한 추론 단계에서 특정 생성 속성을 나타낸다는 것을 발견했습니다. 이러한 사전 속성을 기반으로, 우리는 VLMs에 대한 통일된 가이드를 정의하여 편집 지침을 수정합니다. 그러나 수정된 지침만으로는 해결할 수 없는 어려운 편집 시나리오도 있습니다. 이를 위해, 우리는 긍정적 및 부정적 지침을 포함한 대조적 감독 신호를 구축하고, 이를 트리플렛 손실을 사용하여 모델 학습에 도입함으로써 감독 효과를 더욱 촉진합니다. 우리의 방법은 이전 연구에서 사용된 VLM 모듈이나 사전 학습 작업을 필요로 하지 않으며, 더 나은 감독 신호를 제공하는 더 직접적이고 효율적인 방법을 제공함으로써, 지침 기반 이미지 편집을 위한 새롭고 간단하며 효과적인 해결책을 제시합니다. 여러 벤치마크에서의 결과는 우리의 방법이 기존 접근법을 크게 능가함을 보여줍니다. 이전 SOTA인 SmartEdit과 비교하여, 우리는 Real-Edit 벤치마크에서 9.19%의 개선을 달성했으며, 학습 데이터는 30배 적고 모델 크기는 13배 더 작습니다.
Ming-Lite-Uni를 소개합니다. 이는 새롭게 설계된 통합 시각 생성기와 시각 및 언어를 통합하기 위해 맞춤화된 네이티브 멀티모달 자동회귀 모델을 특징으로 하는 오픈소스 멀티모달 프레임워크입니다. 구체적으로, 이 프로젝트는 통합 MetaQueries와 M2-omni 프레임워크의 오픈소스 구현을 제공하며, 새로운 다중 스케일 학습 가능 토큰과 다중 스케일 표현 정렬 전략을 도입합니다. 고정된 MLLM과 학습 가능한 확산 모델을 활용함으로써, Ming-Lite-Uni는 네이티브 멀티모달 AR 모델이 텍스트-이미지 생성과 명령 기반 이미지 편집 작업을 모두 수행할 수 있게 하여 순수 시각 이해를 넘어선 능력을 확장합니다. 우리의 실험 결과는 Ming-Lite-Uni의 강력한 성능을 보여주며, 그 상호작용 과정의 인상적인 유연성을 입증합니다. 모든 코드와 모델 가중치는 커뮤니티 내 추가 탐구를 촉진하기 위해 오픈소스로 공개되었습니다. 특히, 이 작업은 2025년 3월 25일에 업데이트된 네이티브 이미지 생성 기능을 갖춘 ChatGPT-4o와 같은 동시대의 멀티모달 AI 이정표와 일치하며, AGI로 가는 길에서 Ming-Lite-Uni와 같은 통합 모델의 광범위한 중요성을 강조합니다. Ming-Lite-Uni는 현재 알파 단계에 있으며 곧 더욱 개선될 예정입니다.
대규모 언어 모델(LLMs)은 다양한 분야에서 인상적인 성능을 달성했습니다. 그러나 이들의 학습에 필요한 상당한 하드웨어 자원은 효율성과 확장성에 있어 중요한 장벽으로 작용합니다. 이러한 문제를 완화하기 위해 저정밀도 학습 기법이 널리 채택되어 학습 효율성에서 주목할 만한 진전을 이루었습니다. 이러한 성과에도 불구하고, 저정밀도 학습은 가중치, 활성화, 그래디언트와 같은 여러 구성 요소를 포함하며, 각각은 서로 다른 수치 형식으로 표현될 수 있습니다. 이로 인해 저정밀도 학습 연구 분야는 분열된 양상을 보이며, 연구자들이 이 분야를 통합적으로 이해하기 어려운 상황이 되었습니다. 본 논문은 기존의 저정밀도 학습 방법들을 포괄적으로 검토합니다. 이러한 접근법을 체계적으로 정리하기 위해, 우리는 하드웨어 호환성, 계산 효율성, 그리고 독자들의 참고 용이성에 영향을 미치는 주요 요소인 기반 수치 형식에 따라 이를 세 가지 주요 그룹으로 분류합니다. 이 분류는 (1) 고정 소수점 및 정수 기반 방법, (2) 부동 소수점 기반 방법, (3) 맞춤형 형식 기반 방법으로 이루어져 있습니다. 또한, 순전파 과정에서 저정밀도 학습과 주요 유사점을 공유하는 양자화 인지 학습 접근법에 대해 논의합니다. 마지막으로, 이 분야를 발전시킬 수 있는 몇 가지 유망한 연구 방향을 제시합니다. 본 논문에서 논의된 논문들의 모음은 https://github.com/Hao840/Awesome-Low-Precision-Training에서 확인할 수 있습니다.
비디오에서 인과적 사건 관계를 이해하고 세밀한 시간적 정착을 달성하는 것은 비전-언어 모델에게 여전히 도전적인 과제입니다. 기존 방법들은 시간적 해상도를 줄이기 위해 비디오 토큰을 압축하거나, 비디오를 분할되지 않은 스트림으로 처리하여 세밀한 사건 경계를 흐리게 하고 인과적 의존성 모델링을 제한합니다. 우리는 TEMPURA(Temporal Event Masked Prediction and Understanding for Reasoning in Action)를 제안합니다. TEMPURA는 비디오 시간적 이해를 강화하는 두 단계의 훈련 프레임워크입니다. TEMPURA는 먼저 효과적인 채우기 기법에서 영감을 얻어 누락된 사건을 재구성하고 밀집된 사건 주석으로부터 단계별 인과적 설명을 생성하기 위해 마스킹된 사건 예측 추론을 적용합니다. 그런 다음 TEMPURA는 비디오 분할과 밀집 캡셔닝을 수행하여 비디오를 겹치지 않는 사건으로 분해하고 상세한 시간 정렬 설명을 제공하는 방법을 학습합니다. 우리는 TEMPURA를 VER(우리가 정제한 대규모 데이터셋)로 훈련시켰습니다. VER은 1백만 개의 훈련 인스턴스와 50만 개의 비디오로 구성되어 있으며, 시간적으로 정렬된 사건 설명과 구조화된 추론 단계를 포함합니다. 시간적 정착 및 하이라이트 탐지 벤치마크에서의 실험은 TEMPURA가 강력한 베이스라인 모델을 능가함을 보여주며, 인과적 추론과 세밀한 시간적 분할을 통합하는 것이 비디오 이해를 개선한다는 것을 확인시켜 줍니다.
현재의 다중 주체 맞춤화 접근법은 두 가지 중요한 과제에 직면해 있습니다: 다양한 다중 주체 학습 데이터를 획득하기 어렵다는 점과 서로 다른 주체 간의 속성 얽힘 문제입니다. 이러한 격차를 해소하기 위해, 우리는 단일 주체 학습 데이터만으로도 강력한 다중 주체 맞춤화를 달성할 수 있는 간단하면서도 효과적인 프레임워크인 MUSAR를 제안합니다. 첫째, 데이터 제약을 극복하기 위해 편향 제거된 디프틱 학습을 도입했습니다. 이는 단일 주체 이미지로부터 디프틱 학습 쌍을 구성하여 다중 주체 학습을 촉진함과 동시에, 정적 주의 라우팅과 이중 분기 LoRA를 통해 디프틱 구성으로 인한 분포 편향을 능동적으로 수정합니다. 둘째, 주체 간 얽힘 문제를 해결하기 위해 동적 주의 라우팅 메커니즘을 도입했습니다. 이는 생성된 이미지와 조건부 주체 간의 전단사 매핑을 적응적으로 설정하여, 다중 주체 표현의 분리를 달성할 뿐만 아니라 참조 주체가 증가함에 따라 확장 가능한 일반화 성능을 유지합니다. 포괄적인 실험을 통해 우리의 MUSAR가 다중 주체 데이터셋으로 학습된 기존 방법들보다도 이미지 품질, 주체 일관성, 상호작용 자연스러움 측면에서 우수한 성능을 보임을 입증했습니다. 이는 단일 주체 데이터셋만을 요구함에도 불구하고 이루어진 결과입니다.
어텐션 메커니즘은 대규모 언어 모델(LLMs)의 성공에 있어 핵심적인 역할을 하며, 다양한 분야에서 중요한 발전을 이끌어왔습니다. 그러나 위상 연결에 중점을 두어야 하는 그래프 구조 데이터의 경우, 그래프 신경망(GNNs)과 같은 고정된 연결을 사용하는 메시지 전달 메커니즘에 비해 어텐션 메커니즘이 부족한 성능을 보입니다. 이는 "자연어 환경에서 그래프에 대해 어텐션 메커니즘이 실패하는가?"라는 질문을 제기합니다. 이러한 관찰에 동기를 받아, 우리는 LLMs가 그래프 구조 데이터를 어떻게 처리하는지 탐구하기 위해 어텐션 메커니즘의 관점에서 실증적 연구를 시작했습니다. 이 연구의 목표는 그래프 구조에 대한 LLMs의 어텐션 행동에 대한 깊은 통찰을 얻는 것입니다. 우리는 LLMs가 그래프 구조 데이터에 어텐션을 적용하는 방식에 대한 독특한 현상을 발견하고, 이러한 발견을 분석하여 LLMs가 이러한 데이터를 모델링하는 방법을 개선하고자 했습니다. 우리 연구의 주요 결과는 다음과 같습니다: 1) LLMs는 그래프 데이터를 인식하고 텍스트-노드 상호작용을 포착할 수 있지만, 내재된 아키텍처적 제약으로 인해 그래프 구조 내 노드 간 관계를 모델링하는 데 어려움을 겪습니다. 2) LLMs의 그래프 노드 간 어텐션 분포는 이상적인 구조 패턴과 일치하지 않으며, 이는 그래프 토폴로지의 미묘한 차이에 적응하지 못함을 나타냅니다. 3) 완전 연결 어텐션과 고정 연결 모두 최적이 아니며, 각각 특정 응용 시나리오에서 한계를 보입니다. 대신, 중간 상태 어텐션 윈도우는 LLM 훈련 성능을 향상시키고, 추론 중에 완전 연결 윈도우로 원활하게 전환됩니다. 소스 코드: https://github.com/millioniron/LLM_exploration{LLM4Exploration}
최근 대규모 장면에서의 NeRF(Neural Radiance Fields) 방법론은 확장 가능한 NeRF를 위한 장면 분해의 중요성을 강조해 왔다. 합리적인 확장성을 달성했음에도 불구하고, 학습 가능한 분해, 장면 이질성 모델링, 모델링 효율성과 같은 몇 가지 중요한 문제들이 여전히 탐구되지 않고 있다. 본 논문에서는 이러한 문제들을 통합된 프레임워크 내에서 해결하는 Heterogeneous Mixture of Hash Experts(HMoHE) 네트워크인 Switch-NeRF++를 소개한다. 이는 대규모 장면을 위해 이질적인 분해와 이질적인 NeRF를 효율적으로 학습하는 고도로 확장 가능한 NeRF이다. 우리의 프레임워크에서는 게이팅 네트워크가 장면을 분해하고 3D 포인트를 특화된 NeRF 전문가들에게 할당하는 방법을 학습한다. 이 게이팅 네트워크는 우리가 제안한 Sparsely Gated Mixture of Experts(MoE) NeRF 프레임워크를 통해 전문가들과 함께 공동 최적화된다. 우리는 해시 기반 게이팅 네트워크와 구별되는 이질적인 해시 전문가들을 통합하였다. 해시 기반 게이팅은 대규모 장면의 분해를 효율적으로 학습한다. 구별되는 이질적인 해시 전문가들은 다양한 해상도 범위의 해시 그리드로 구성되어, 서로 다른 장면 부분들의 이질적인 표현을 효과적으로 학습할 수 있게 한다. 이러한 설계 선택은 우리의 프레임워크를 실세계 대규모 장면 모델링을 위한 품질과 효율성을 모두 달성하는 종단 간 고도로 확장 가능한 NeRF 솔루션으로 만든다. 우리는 기존의 대규모 NeRF 데이터셋과 UrbanBIS에서 제공된 매우 대규모 장면(>6.5km^2)을 포함한 새로운 데이터셋에서 정확성과 확장성을 평가한다. 광범위한 실험을 통해 우리의 접근 방식이 다양한 대규모 장면으로 쉽게 확장될 수 있으며, 최신의 장면 렌더링 정확도를 달성할 수 있음을 입증한다. 더 나아가, 우리의 방법은 Switch-NeRF 대비 학습에서 8배, 렌더링에서 16배의 가속화를 보이며 상당한 효율성을 보인다. 코드는 https://github.com/MiZhenxing/Switch-NeRF에서 공개될 예정이다.
대규모 데이터셋으로 학습된 대형 언어 모델(LLM)은 개인 정보나 잠재적으로 유해한 콘텐츠와 같은 민감한 정보를 의도치 않게 습득할 수 있습니다. 이러한 위험은 멀티모달 LLM(MLLM)에서 더욱 커지는데, 이는 이미지와 텍스트와 같은 다양한 모달리티의 정보를 통합하기 때문입니다. 공격자는 멀티모달 프롬프트를 활용하여 이러한 지식을 악용해 민감한 세부 정보를 추출할 수 있습니다. MLLM이 이러한 정보를 얼마나 효과적으로 잊어버릴 수 있는지(타겟팅된 언러닝) 평가하기 위해서는 고품질의 잘 주석이 달린 이미지-텍스트 쌍을 생성하는 것이 필수적입니다. 기존의 언러닝 연구는 텍스트에 초점을 맞추었지만, 멀티모달 언러닝은 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 먼저 멀티모달 언러닝 벤치마크인 UnLOK-VQA(Unlearning Outside Knowledge VQA)와 MLLM에서 특정 멀티모달 지식을 삭제하는 방법을 평가하기 위한 공격-방어 프레임워크를 소개합니다. 우리는 시각적 질의응답 데이터셋을 자동화된 파이프라인을 사용해 일반화 및 특수성을 테스트하기 위한 다양한 근접성 샘플을 생성하고, 고품질을 유지하기 위해 수동 필터링을 거쳤습니다. 그런 다음, 네 가지 화이트박스와 세 가지 블랙박스 공격을 포함한 총 일곱 가지 공격에 대해 여섯 가지 방어 목표를 평가했으며, 여기에는 은닉 상태의 해석 가능성을 활용한 새로운 화이트박스 방법도 포함됩니다. 우리의 결과는 멀티모달 공격이 텍스트 또는 이미지 단독 공격보다 우수하며, 가장 효과적인 방어는 내부 모델 상태에서 답변 정보를 제거하는 것임을 보여줍니다. 또한, 더 큰 모델은 편집 후 더 강력한 견고성을 보여주며, 이는 규모가 안전성을 강화한다는 것을 시사합니다. UnLOK-VQA는 MLLM에서 언러닝을 발전시키기 위한 엄격한 벤치마크를 제공합니다.
이벤트 카메라는 동적 움직임을 포착하여 다양한 컴퓨터 비전 작업에서 큰 잠재력을 지닌 독특한 모달리티를 제공합니다. 그러나 RGB-이벤트 융합은 세 가지 본질적인 불일치 문제에 직면합니다: (i) 시간적, (ii) 공간적, 그리고 (iii) 모달리티 불일치입니다. 기존의 복셀 그리드 표현은 연속적인 이벤트 창 간의 시간적 상관관계를 무시하며, 비동기적이고 희소한 이벤트를 단순히 누적하는 방식은 동기적이고 밀집된 RGB 모달리티의 특성과 호환되지 않습니다. 이러한 문제를 해결하기 위해, 우리는 밀집된 광학 흐름과 이벤트 시간적 특징을 활용하여 희소한 이벤트 복셀을 밀집되고 시간적으로 일관된 형태로 변환하는 새로운 이벤트 표현인 Motion-enhanced Event Tensor (MET)를 제안합니다. 또한, 주파수 인식 양방향 흐름 집계 모듈(Frequency-aware Bidirectional Flow Aggregation Module, BFAM)과 시간적 융합 모듈(Temporal Fusion Module, TFM)을 도입했습니다. BFAM은 주파수 영역과 MET를 활용하여 모달리티 불일치를 완화하고, 양방향 흐름 집계 및 시간적 융합 메커니즘은 시공간적 불일치를 해결합니다. 두 대규모 데이터셋에서의 실험 결과는 우리의 프레임워크가 최신 RGB-이벤트 의미 분할 접근법을 크게 능가함을 보여줍니다. 우리의 코드는 https://github.com/zyaocoder/BRENet에서 확인할 수 있습니다.