번역이 포함된 일일 선별된 AI 연구 논문
고급 대형 언어 모델(LLMs)의 부상과 함께 인공 텍스트 탐지(ATD)의 중요성이 점점 더 커지고 있습니다. 수많은 노력에도 불구하고, 다양한 유형의 미지의 텍스트에 걸쳐 일관되게 우수한 성능을 보이거나 새로운 LLMs에 효과적으로 일반화할 수 있는 단일 알고리즘은 아직 존재하지 않습니다. 이러한 목표를 달성하는 데 있어 해석 가능성은 중요한 역할을 합니다. 본 연구에서는 Sparse Autoencoder(SAE)를 사용하여 Gemma-2-2b 잔차 스트림에서 특징을 추출함으로써 ATD의 해석 가능성을 향상시킵니다. 우리는 해석 가능하면서도 효율적인 특징을 식별하고, 도메인 및 모델 특정 통계, 스티어링 접근법, 수동 또는 LLM 기반 해석을 통해 그 의미와 관련성을 분석합니다. 우리의 방법은 다양한 모델에서 생성된 텍스트가 인간이 작성한 내용과 어떻게 다른지에 대한 유용한 통찰을 제공합니다. 우리는 현대의 LLMs가 개인화된 프롬프트로 인간과 유사한 출력을 생성할 수 있음에도 불구하고, 특히 정보 밀도가 높은 영역에서 독특한 글쓰기 스타일을 가지고 있음을 보여줍니다.
대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 놀라운 성과를 거두었지만, 추론 과정에서 발생하는 높은 계산 비용은 여전히 주요 병목 현상으로 남아 있습니다. 본 논문은 추론 오버헤드를 줄이기 위해 작업과 관련된 파라미터를 선택적으로 유지하는 학습이 필요 없는 가지치기 기법인 Sparse Expert Activation Pruning(SEAP)을 소개합니다. SEAP는 LLM의 은닉 상태와 활성화 패턴의 클러스터링 특성에서 영감을 받아, 작업 특화적인 전문가 활성화 패턴을 식별하고 작업 성능을 유지하면서 모델을 가지치기하여 계산 효율성을 향상시킵니다. 실험 결과는 SEAP가 경쟁력 있는 정확도를 유지하면서도 계산 오버헤드를 크게 줄인다는 것을 보여줍니다. 특히, 50% 가지치기에서 SEAP는 WandA와 FLAP을 20% 이상 능가하며, 20% 가지치기에서는 밀집 모델 대비 단 2.2%의 성능 하락만을 보였습니다. 이러한 결과는 SEAP의 확장성과 효과성을 강조하며, 대규모 LLM 최적화를 위한 유망한 접근법임을 입증합니다.
우리는 대규모 규칙 기반 강화 학습(RL)을 다중 모달 추론으로 성공적으로 확장한 다중 모달 추론 모델인 MM-Eureka를 소개합니다. 규칙 기반 RL은 텍스트 영역에서 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어 놀라운 성과를 보여왔지만, 다중 모달 환경에 적용하는 것은 여전히 어려운 과제로 남아 있었습니다. 우리의 연구는 DeepSeek-R1과 같은 텍스트 기반 RL 시스템의 주요 특징을 다중 모달 공간에서 재현하며, 이에는 정확도 보상과 응답 길이의 꾸준한 증가, 그리고 반성 행동의 출현 등이 포함됩니다. 우리는 지시 튜닝된 모델과 사전 학습된 모델 모두가 지도 미세 조정 없이 규칙 기반 RL을 통해 강력한 다중 모달 추론 능력을 개발할 수 있음을 보여주며, 이는 대안적 접근 방식에 비해 우수한 데이터 효율성을 보입니다. 우리는 이 분야의 추가 연구를 촉진하기 위해 전체 파이프라인을 오픈소스로 공개합니다. 모든 코드, 모델, 데이터 등을 https://github.com/ModalMinds/MM-EUREKA에서 공개합니다.
Diffusion Transformer는 고품질 이미지와 비디오 생성에서 강력한 능력과 확장성을 입증했습니다. 생성과 편집 작업의 통합을 더욱 추구함으로써 이미지 콘텐츠 제작 분야에서 상당한 진전을 이루었습니다. 그러나 시간적 및 공간적 동역학에 걸친 일관성에 대한 본질적인 요구로 인해 비디오 합성을 위한 통합 접근 방식을 달성하는 것은 여전히 어려운 과제로 남아 있습니다. 우리는 VACE를 소개하며, 이를 통해 사용자가 비디오 생성과 편집을 위한 올인원 프레임워크 내에서 다양한 비디오 작업을 수행할 수 있도록 합니다. 이러한 작업에는 참조 비디오 생성, 비디오 편집, 그리고 마스크 비디오 편집이 포함됩니다. 특히, 우리는 편집, 참조, 마스킹과 같은 비디오 작업 입력을 Video Condition Unit(VCU)이라는 통합 인터페이스로 구성하여 다양한 작업의 요구 사항을 효과적으로 통합합니다. 더 나아가, Context Adapter 구조를 활용하여 시간적 및 공간적 차원의 형식화된 표현을 통해 다양한 작업 개념을 모델에 주입함으로써 임의의 비디오 합성 작업을 유연하게 처리할 수 있도록 합니다. 광범위한 실험을 통해 VACE의 통합 모델이 다양한 하위 작업에서 작업별 모델과 동등한 성능을 달성함을 입증했습니다. 동시에, 다양한 작업 조합을 통해 다양한 응용 프로그램을 가능하게 합니다. 프로젝트 페이지: https://ali-vilab.github.io/VACE-Page/.
기존의 장편 비디오 생성 프레임워크는 자동화된 기획 기능이 부족하여 스토리라인, 장면, 촬영 기법, 캐릭터 상호작용 등을 수동으로 입력해야 하기 때문에 높은 비용과 비효율성이 발생합니다. 이러한 문제를 해결하기 위해, 우리는 다중 에이전트 Chain of Thought (CoT) 기획을 통한 자동화된 영화 생성 시스템인 MovieAgent를 제안합니다. MovieAgent는 두 가지 주요 장점을 제공합니다: 1) 우리는 자동화된 영화/장편 비디오 생성 패러다임을 처음으로 탐구하고 정의합니다. 스크립트와 캐릭터 뱅크가 주어지면, MovieAgent는 일관된 내러티브를 가진 다중 장면, 다중 샷의 장편 비디오를 생성하며, 캐릭터 일관성, 동기화된 자막, 안정적인 오디오를 영화 전반에 걸쳐 보장합니다. 2) MovieAgent는 계층적 CoT 기반 추론 프로세스를 도입하여 장면 구조, 카메라 설정, 촬영 기법을 자동으로 구성함으로써 인간의 노력을 크게 줄입니다. 감독, 시나리오 작가, 스토리보드 아티스트, 로케이션 매니저의 역할을 시뮬레이션하는 다중 LLM 에이전트를 활용함으로써, MovieAgent는 제작 파이프라인을 간소화합니다. 실험 결과, MovieAgent는 스크립트 충실도, 캐릭터 일관성, 내러티브 일관성에서 새로운 최첨단 결과를 달성함을 보여줍니다. 우리의 계층적 프레임워크는 완전히 자동화된 영화 생성에 대한 새로운 통찰을 제공하며 한 걸음 더 나아갑니다. 코드와 프로젝트 웹사이트는 https://github.com/showlab/MovieAgent와 https://weijiawu.github.io/MovieAgent에서 확인할 수 있습니다.
대규모 사전 학습된 비전 타워와 언어 모델을 기반으로 구축된 멀티모달 대형 언어 모델(MLLMs)은 멀티모달 이해에서 뛰어난 능력을 보여주고 있습니다. 그러나 기존의 대부분의 MLLMs는 단일 턴 비전 질의응답 작업에 대해 학습되어 있어, 실제 인간 대화를 정확히 반영하지 못합니다. 본 논문에서는 다중 턴 멀티모달 대화 데이터셋인 MMDiag를 소개합니다. 이 데이터셋은 신중하게 설계된 규칙과 GPT의 도움을 통해 협력적으로 생성되었으며, 질문 간, 질문과 이미지 간, 그리고 서로 다른 이미지 영역 간의 강한 상관관계를 특징으로 하여 실제 시나리오와 더욱 근접하게 정렬됩니다. MMDiag는 다중 턴 멀티모달 대화 학습을 위한 강력한 벤치마크 역할을 하며, MLLMs의 근거 추론 및 추론 능력에 더 많은 도전을 제공합니다. 더 나아가, 인간의 시각 처리에서 영감을 받아 멀티모달 근거 추론 및 추론 능력을 갖춘 MLLM인 DiagNote를 제안합니다. DiagNote는 다중 턴 대화 전반에 걸쳐 Chain-of-Thought와 주석을 각각 수행하는 두 모듈(Deliberate와 Gaze)로 구성되어 상호 작용합니다. 우리는 DiagNote가 기존 MLLMs에 비해 근거 추론 및 비전과 언어 정보를 함께 처리하고 추론하는 데 있어서의 장점을 실증적으로 입증합니다.
연합 학습(Federated Learning, FL)은 중앙 서버가 로컬 클라이언트의 데이터에 직접 접근하지 않으면서도 분산 방식으로 모델을 학습할 수 있도록 널리 사용되는 프레임워크입니다. 그러나 이 접근법은 여전히 데이터 프라이버시를 완전히 보호하지 못할 수 있는데, 이는 로컬 클라이언트의 모델이 중앙 서버에 노출되는 집계 과정에서 발생합니다. 이러한 문제는 특히 비전-언어 모델(Vision-Language Models, VLMs)을 FL로 학습할 때 더욱 심각해지는데, VLMs는 학습 데이터 인스턴스를 쉽게 기억할 수 있어 멤버십 추론 공격(Membership Inference Attacks, MIAs)에 취약해질 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 FedRand 프레임워크를 제안합니다. 이 프레임워크는 클라이언트의 전체 매개변수를 공개하지 않도록 설계되었습니다. 이 프레임워크에서 각 클라이언트는 서버로부터 Low-Rank Adaptation(LoRA)의 하위 매개변수를 무작위로 선택하고, 나머지 LoRA 가중치를 비공개 매개변수로 유지합니다. 클라이언트의 비공개 데이터셋에서 두 매개변수를 모두 학습한 후, 비공개가 아닌 클라이언트 매개변수만 서버로 전송되어 집계됩니다. 이 접근법은 클라이언트 측 VLM 매개변수가 노출될 위험을 완화함으로써 데이터 프라이버시를 강화합니다. 우리는 실험을 통해 FedRand가 관련 베이스라인에 비해 MIAs에 대한 견고성을 개선하면서도 여러 벤치마크 데이터셋에서 전체 LoRA 매개변수를 전송하는 방법과 비슷한 정확도를 달성함을 검증했습니다.
대규모 언어 모델(LLM)에서의 지식 증류가 성공적이었음에도 불구하고, 대부분의 기존 연구는 교사 모델과 학생 모델이 생성한 데이터에 동일한 손실 함수를 적용했습니다. 이러한 전략은 손실 함수와 데이터 유형 간의 시너지를 간과하여 학생 모델의 성능 향상을 최적화하지 못했습니다. 이를 해결하기 위해, 우리는 이러한 시너지를 활용하여 교사 응답의 가능성을 높이고 동시에 학생 응답의 가능성을 낮추는 대조적 접근법인 DistiLLM-2를 제안합니다. 우리의 광범위한 실험은 DistiLLM-2가 명령어 수행 및 코드 생성과 같은 다양한 작업에서 고성능 학생 모델을 구축할 뿐만 아니라, 선호도 정렬 및 시각-언어 확장과 같은 다양한 응용을 지원한다는 것을 보여줍니다. 이러한 결과는 다양한 데이터 유형에 걸쳐 교사 모델과 학생 모델을 효과적으로 정렬함으로써 LLM 지식 증류의 효율성을 향상시키는 대조적 접근법의 잠재력을 강조합니다.
DeepSeek-R1-Zero는 순수하게 강화 학습(Reinforcement Learning, RL)을 통해 대형 언어 모델(LLM)에서 추론 능력이 발현되는 것을 성공적으로 입증했습니다. 이 획기적인 성과에 영감을 받아, 우리는 RL을 활용하여 다중모달 언어 모델(MLLM)의 추론 능력을 향상시키는 방법을 탐구합니다. 그러나 RL을 통한 직접적인 학습은 고품질의 다중모달 추론 데이터가 부족하기 때문에, MLLM에서 질문 및 성찰과 같은 복잡한 추론 능력을 활성화하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 다중모달 추론 능력을 개선하기 위한 추론 MLLM인 Vision-R1을 제안합니다. 구체적으로, 우리는 먼저 기존의 MLLM과 DeepSeek-R1을 활용하여 인간 주석 없이 고품질의 다중모달 CoT(Chain-of-Thought) 데이터셋을 구축합니다. 이를 위해 모달리티 브리징과 데이터 필터링을 통해 200K 규모의 다중모달 CoT 데이터셋인 Vision-R1-cold 데이터셋을 생성합니다. 이 데이터셋은 Vision-R1의 콜드 스타트 초기화 데이터로 사용됩니다. 콜드 스타트 이후 과도한 사고로 인한 최적화 문제를 완화하기 위해, 우리는 점진적 사고 억제 훈련(Progressive Thinking Suppression Training, PTST) 전략을 제안하고, 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)와 하드 포맷팅 결과 보상 함수를 사용하여 10K 규모의 다중모달 수학 데이터셋에서 모델이 올바르고 복잡한 추론 과정을 학습할 수 있도록 점진적으로 개선합니다. 포괄적인 실험 결과, 우리의 모델은 다양한 다중모달 수학 추론 벤치마크에서 평균 약 6%의 성능 향상을 달성했습니다. Vision-R1-7B는 널리 사용되는 MathVista 벤치마크에서 73.5%의 정확도를 기록했으며, 이는 선두 추론 모델인 OpenAI O1보다 단 0.4% 낮은 수치입니다. 데이터셋과 코드는 https://github.com/Osilly/Vision-R1에서 공개될 예정입니다.
Unet 기반 확산 모델(ControlNet 및 IP-Adapter 등)의 최근 발전은 효과적인 공간 및 주체 제어 메커니즘을 도입했습니다. 그러나 DiT(Diffusion Transformer) 아키텍처는 여전히 효율적이고 유연한 제어에 어려움을 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 고효율과 유연성을 갖춘 조건 기반 확산 트랜스포머를 통합하는 새로운 프레임워크인 EasyControl를 제안합니다. 우리의 프레임워크는 세 가지 주요 혁신을 기반으로 구축되었습니다. 첫째, 경량화된 조건 주입 LoRA 모듈을 도입했습니다. 이 모듈은 조건 신호를 독립적으로 처리하며, 플러그 앤 플레이 솔루션으로 작동합니다. 이는 기본 모델 가중치를 수정하지 않으므로 맞춤형 모델과의 호환성을 보장하고 다양한 조건의 유연한 주입을 가능하게 합니다. 특히, 이 모듈은 단일 조건 데이터로만 훈련되었을 때도 조화롭고 강력한 제로샷 다중 조건 일반화를 지원합니다. 둘째, 위치 인식 훈련 패러다임을 제안했습니다. 이 접근법은 입력 조건을 고정 해상도로 표준화하여 임의의 종횡비와 유연한 해상도의 이미지 생성을 가능하게 합니다. 동시에 계산 효율성을 최적화하여 프레임워크를 실제 응용에 더 실용적으로 만듭니다. 셋째, 조건 생성 작업에 적합한 KV 캐시 기술과 결합된 인과적 주의 메커니즘을 개발했습니다. 이 혁신은 이미지 합성의 지연 시간을 크게 줄여 프레임워크의 전반적인 효율성을 향상시킵니다. 광범위한 실험을 통해 EasyControl가 다양한 응용 시나리오에서 탁월한 성능을 달성함을 입증했습니다. 이러한 혁신들은 우리의 프레임워크를 고효율적이고 유연하며 다양한 작업에 적합하도록 만듭니다.
대규모 언어 모델(LLM)에 외부 지식을 통합하면 다양한 애플리케이션에서의 유용성이 향상되지만, 기존 방법들은 각각의 장단점이 존재합니다. 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 유사성 검색을 통해 증거를 가져오지만, 중요한 정보가 상위 순위 결과에 포함되지 않을 수 있습니다. 긴 문맥 모델은 여러 문서를 처리할 수 있지만, 계산 비용이 많이 들고 문맥 창 크기에 제한이 있습니다. 학생들이 오픈북 시험을 위해 학습 자료를 요약하는 방식에서 영감을 받아, 우리는 작업 인식 키-값(Key-Value, KV) 캐시 압축을 제안합니다. 이 방법은 제로샷 또는 퓨샷 설정에서 외부 지식을 압축하여, LLM이 모든 관련 정보의 간결한 표현을 효율적으로 추론할 수 있게 합니다. 실험 결과, 우리의 접근 방식은 RAG와 작업에 무관한 압축 방법 모두를 능가하는 것으로 나타났습니다. LongBench v2에서, 30배의 압축률로 RAG 대비 최대 7%의 정확도 향상을 보였으며, 추론 지연 시간도 0.43초에서 0.16초로 줄였습니다. 합성 데이터셋을 통해, RAG는 희소한 증거만으로 충분한 경우에 잘 작동하는 반면, 작업 인식 압축은 광범위한 지식 작업에서 더 우수함을 확인했습니다.
OpenAI o1과 DeepSeek R1은 강화 학습(RL)과 추론이 중요한 역할을 하며, 수학 및 과학과 같은 복잡한 분야에서 인간 전문가 수준의 성능을 달성하거나 이를 뛰어넘습니다. 자율 주행 분야에서는 최근의 end-to-end 모델들이 계획 성능을 크게 향상시켰지만, 여전히 상식과 추론 능력의 한계로 인해 긴 꼬리 문제(long-tailed problem)에 어려움을 겪고 있습니다. 일부 연구에서는 시각-언어 모델(VLM)을 자율 주행에 통합하고 있지만, 이들은 일반적으로 운전 데이터에 대한 간단한 지도 미세 조정(SFT)을 통해 사전 훈련된 모델에 의존하며, 계획에 특화된 훈련 전략이나 최적화를 추가로 탐구하지 않습니다. 본 논문에서는 자율 주행을 위한 VLM의 RL 및 추론 프레임워크인 AlphaDrive를 제안합니다. AlphaDrive는 계획에 특화된 네 가지 GRPO 기반 RL 보상을 도입하고, SFT와 RL을 결합한 두 단계의 계획 추론 훈련 전략을 사용합니다. 그 결과, AlphaDrive는 SFT만 사용하거나 추론을 사용하지 않은 경우에 비해 계획 성능과 훈련 효율성을 크게 향상시킵니다. 또한, RL 훈련 후 AlphaDrive가 다중 모드 계획 능력을 일부 나타내는 것을 발견하게 되어 매우 기쁘게 생각합니다. 이는 운전 안전성과 효율성을 향상시키는 데 매우 중요합니다. 우리가 아는 한, AlphaDrive는 GRPO 기반 RL과 계획 추론을 자율 주행에 통합한 첫 번째 사례입니다. 향후 연구를 위해 코드를 공개할 예정입니다.
리포지토리 수준의 코드베이스에 새로운 기능을 구현하는 것은 코드 생성 모델의 중요한 응용 분야입니다. 그러나 현재의 벤치마크는 이러한 능력을 평가하기 위한 전용 프레임워크가 부족합니다. 이러한 격차를 메우기 위해, 우리는 대규모 언어 모델(LLM)이 코드 리포지토리 내에서 점진적 개발을 수행하는 능력을 평가하기 위해 설계된 벤치마크인 FEA-Bench를 소개합니다. 우리는 83개의 GitHub 리포지토리에서 풀 리퀘스트를 수집하고, 규칙 기반 및 의도 기반 필터링을 통해 새로운 기능 개발에 초점을 맞춘 작업 인스턴스를 구성합니다. 코드 변경이 포함된 각 작업 인스턴스는 솔루션을 검증할 수 있도록 관련 단위 테스트 파일과 짝을 이룹니다. 기능 구현을 위해 LLM은 새로운 구성 요소에 대한 코드 완성 능력과 코드 리포지토리 내 다른 관련 부분에 대한 코드 편집 능력을 동시에 보유해야 하며, 이는 LLM의 자동화된 소프트웨어 엔지니어링 능력을 보다 포괄적으로 평가하는 방법을 제공합니다. 실험 결과, LLM은 FEA-Bench에서 상당히 낮은 성능을 보였으며, 이는 리포지토리 수준의 점진적 코드 개발에서 상당한 도전 과제가 있음을 강조합니다.
최근 대규모 언어 모델(LLM)의 발전으로 텍스트 생성 능력이 크게 향상되었으나, 생성적 글쓰기에서의 성능 평가는 여전히 도전적인 과제로 남아 있습니다. 기존 벤치마크는 주로 일반적인 텍스트 생성이나 제한된 글쓰기 작업에 초점을 맞추고 있어, 다양한 분야에서 고품질의 글쓰기 요구사항을 충분히 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 6개의 핵심 글쓰기 영역과 100개의 하위 영역을 포괄하는 WritingBench라는 포괄적인 벤치마크를 제안합니다. 이 벤치마크는 창의적, 설득적, 정보 제공적, 기술적 글쓰기를 모두 포함합니다. 또한, 우리는 LLM이 동적으로 인스턴스별 평가 기준을 생성할 수 있도록 하는 쿼리 의존적 평가 프레임워크를 제안합니다. 이 프레임워크는 기준 인식 채점을 위한 미세 조정된 비평 모델로 보완되어 스타일, 형식, 길이 측면에서의 평가를 가능하게 합니다. 이 프레임워크의 타당성은 데이터 큐레이션 능력을 통해 더욱 입증되었으며, 이를 통해 7B 파라미터 모델이 최첨단(SOTA) 성능에 근접할 수 있음을 보여줍니다. 우리는 벤치마크와 평가 도구, 모듈식 프레임워크 구성 요소를 오픈소스로 공개하여 LLM의 글쓰기 발전을 촉진하고자 합니다.
기존의 에이전트 워크플로우는 도구 및 환경과의 상호작용을 관리하기 위해 외부 프롬프트에 의존함으로써, 추론 모델의 자율성을 제한합니다. 우리는 체인 오브 액션(CoA) 생성을 내재화한 대형 에이전트 모델(LAMs)을 제안하며, 이를 통해 모델이 외부 도구를 언제 어떻게 사용할지 자율적으로 결정할 수 있도록 합니다. 우리가 제안한 AutoCoA 프레임워크는 지도 미세 조정(SFT)과 강화 학습(RL)을 결합하여, 모델이 추론과 행동 사이를 원활하게 전환하면서도 환경 상호작용을 효율적으로 관리할 수 있게 합니다. 주요 구성 요소로는 단계별 액션 트리거링, 궤적 수준의 CoA 최적화, 그리고 실제 환경 상호작용 비용을 줄이기 위한 내부 세계 모델이 포함됩니다. 개방형 도메인 질의응답(QA) 작업에 대한 평가 결과, AutoCoA로 훈련된 에이전트 모델이 ReAct 기반 워크플로우를 크게 능가하며, 특히 장기적 추론과 다단계 행동이 필요한 작업에서 뛰어난 성능을 보였습니다. 코드와 데이터셋은 https://github.com/ADaM-BJTU/AutoCoA에서 확인할 수 있습니다.
조사 논문(survey paper)은 특히 연구 출판물의 급속한 성장을 고려할 때 과학 연구에서 중요한 역할을 합니다. 최근 연구자들은 효율성을 높이기 위해 LLM(대형 언어 모델)을 사용하여 조사 논문 생성을 자동화하기 시작했습니다. 그러나 LLM이 생성한 조사 논문과 인간이 작성한 조사 논문 사이의 품격 차이는 여전히 크며, 특히 개요 품질과 인용 정확성 측면에서 두드러집니다. 이러한 격차를 해소하기 위해 우리는 SurveyForge를 소개합니다. SurveyForge는 먼저 인간이 작성한 개요의 논리적 구조를 분석하고 검색된 도메인 관련 논문을 참조하여 개요를 생성합니다. 이후, 우리의 학술 탐색 에이전트가 메모리에서 검색한 고품질 논문을 활용하여 SurveyForge는 생성된 논문의 내용을 자동으로 생성하고 개선할 수 있습니다. 또한, 포괄적인 평가를 위해 우리는 SurveyBench를 구축했습니다. SurveyBench는 승률 비교를 위해 100개의 인간이 작성한 조사 논문을 포함하며, AI가 생성한 조사 논문을 참고문헌, 개요, 내용 품질이라는 세 가지 차원에서 평가합니다. 실험 결과, SurveyForge는 AutoSurvey와 같은 이전 작업들을 능가할 수 있음을 보여줍니다.
대형 언어 모델(LLMs)은 기존의 의학 질의응답 벤치마크에서 인상적인 성능을 보여왔습니다. 이러한 높은 성능은 고급 방법론을 의미 있게 평가하고 차별화하기 점점 더 어렵게 만들고 있습니다. 우리는 현재 모델들이 표준 테스트에서는 강력한 성능을 보이지만 여전히 어려움을 겪는 다단계 임상 추론, 진단 수립, 치료 계획이 필요한 도전적인 의학 질문에 초점을 맞춘 MedAgentsBench 벤치마크를 제시합니다. 7개의 기존 의학 데이터셋을 기반으로 한 우리의 벤치마크는 기존 평가의 세 가지 주요 한계를 해결합니다: (1) 기본 모델도 높은 성능을 달성할 수 있는 단순한 질문의 과다, (2) 연구 간 일관되지 않은 샘플링 및 평가 프로토콜, (3) 성능, 비용, 추론 시간 간의 상호작용에 대한 체계적인 분석의 부재. 다양한 기본 모델과 추론 방법을 사용한 실험을 통해, 최신 사고 모델인 DeepSeek R1과 OpenAI o3가 복잡한 의학 추론 작업에서 탁월한 성능을 보임을 입증했습니다. 또한, 고급 검색 기반 에이전트 방법은 전통적인 접근 방식에 비해 유망한 성능 대비 비용 효율성을 제공합니다. 우리의 분석은 복잡한 질문에서 모델 계열 간의 상당한 성능 격차를 보여주며, 다양한 계산 제약 조건에 대한 최적의 모델 선택을 식별합니다. 우리의 벤치마크와 평가 프레임워크는 https://github.com/gersteinlab/medagents-benchmark에서 공개적으로 이용 가능합니다.
우리는 아키텍처 변경 없이도 자동회귀적 LLM에서 전역적으로 일관된 텍스트-이미지 생성을 가능하게 하는 새로운 학습 프레임워크인 Autoregressive Representation Alignment(ARRA)을 제안한다. 복잡한 아키텍처 재설계를 요구하는 기존 연구와 달리, ARRA는 전역 시각 정렬 손실과 하이브리드 토큰 <HYBNEXT>를 통해 외부 시각 기반 모델의 시각적 표현과 LLM의 은닉 상태를 정렬한다. 이 토큰은 로컬 다음 토큰 예측과 전역 의미론적 증류라는 이중 제약을 강제함으로써, LLM이 원래의 자동회귀 패러다임을 유지하면서도 공간적 및 맥락적 일관성을 암묵적으로 학습할 수 있게 한다. 광범위한 실험을 통해 ARRA의 플러그 앤 플레이 유연성이 검증되었다. 텍스트 생성 전용 LLM이나 무작위 초기화로부터 학습할 때, ARRA는 Chameleon 및 LlamaGen과 같은 고급 자동회귀 LLM에서 MIMIC-CXR, DeepEyeNet, ImageNet 데이터셋에 대해 각각 25.5%, 8.8%, 7.5%의 FID(Fréchet Inception Distance) 감소를 달성했으며, 이는 프레임워크 수정 없이 이루어졌다. 도메인 적응의 경우, ARRA는 일반 목적 LLM을 BioMedCLIP와 같은 특화된 모델과 정렬하여, 의료 영상(MIMIC-CXR)에서 직접 미세 조정 대비 18.6%의 FID 감소를 달성했다. ARRA는 아키텍처 혁신뿐만 아니라 학습 목표 재설계가 크로스 모달 전역 일관성 문제를 해결할 수 있음을 보여줌으로써, 자동회귀 모델 발전을 위한 보완적 패러다임을 제시한다. 코드와 모델은 자동회귀적 이미지 생성을 발전시키기 위해 공개될 예정이다.
범용 멀티모달 임베딩 모델은 인터리브된 이미지-텍스트 검색, 멀티모달 RAG, 멀티모달 클러스터링과 같은 작업에서 중요한 역할을 합니다. 그러나 우리의 실험 결과에 따르면, 표준 InfoNCE 손실로 학습된 기존의 LMM 기반 임베딩 모델은 긍정적 쌍과 부정적 쌍 간의 유사성 분포가 높은 수준으로 겹치는 문제를 보여, 어려운 부정적 쌍을 효과적으로 구분하는 데 어려움이 있습니다. 이 문제를 해결하기 위해, 우리는 부정적 쌍의 구별 난이도에 기반하여 임베딩 모델의 표현 학습을 동적으로 개선하는 간단하지만 효과적인 프레임워크를 제안합니다. 이 프레임워크 내에서 우리는 LLaVE라는 일련의 모델을 학습시키고, 4개의 메타 작업과 36개의 데이터셋을 포함하는 MMEB 벤치마크에서 평가합니다. 실험 결과, LLaVE는 최첨단(SOTA) 성능을 달성하면서도 강력한 확장성과 효율성을 보여주는 더 강력한 기준선을 수립합니다. 특히, LLaVE-2B는 이전 SOTA 7B 모델을 능가하며, LLaVE-7B는 6.2포인트의 추가 성능 향상을 달성합니다. LLaVE는 이미지-텍스트 데이터로 학습되었지만, 제로샷 방식으로 텍스트-비디오 검색 작업에 일반화할 수 있고 강력한 성능을 보여주어, 다른 임베딩 작업으로의 전이 가능성이 뛰어남을 입증합니다.
관계적 비디오 맞춤화는 두 대상 간의 사용자 지정 관계를 묘사하는 개인화된 비디오를 생성하는 것을 의미하며, 이는 현실 세계의 시각적 콘텐츠를 이해하는 데 중요한 과제입니다. 기존 방법들은 대상의 외형과 움직임을 개인화할 수 있지만, 정밀한 관계 모델링과 다양한 대상 범주 간의 높은 일반화가 필수적인 복잡한 관계적 비디오 맞춤화에는 여전히 어려움을 겪고 있습니다. 주요 도전 과제는 관계에 내재된 복잡한 공간 배열, 레이아웃 변형, 그리고 미묘한 시간적 동역학에서 비롯됩니다. 결과적으로, 현재의 모델들은 의미 있는 상호작용을 포착하기보다는 관련 없는 시각적 세부 사항을 과도하게 강조하는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 DreamRelation이라는 새로운 접근 방식을 제안합니다. 이 방법은 소수의 예시 비디오를 활용하여 관계를 개인화하며, 두 가지 핵심 구성 요소인 관계 분리 학습(Relational Decoupling Learning)과 관계 동역학 강화(Relational Dynamics Enhancement)를 활용합니다. 먼저, 관계 분리 학습에서는 관계 LoRA 트리플렛과 하이브리드 마스크 학습 전략을 사용하여 대상의 외형과 관계를 분리함으로써 다양한 관계에 걸쳐 더 나은 일반화를 보장합니다. 더 나아가, MM-DiT의 어텐션 메커니즘 내에서 쿼리, 키, 그리고 값 특징의 구별된 역할을 분석하여 관계 LoRA 트리플렛의 최적 설계를 결정함으로써, DreamRelation은 설명 가능한 구성 요소를 갖춘 첫 번째 관계적 비디오 생성 프레임워크가 되었습니다. 둘째, 관계 동역학 강화에서는 공간-시간 관계적 대조 손실(space-time relational contrastive loss)을 도입하여, 세부적인 대상 외형에 대한 의존도를 최소화하면서 관계 동역학을 우선시합니다. 광범위한 실험을 통해 DreamRelation이 관계적 비디오 맞춤화에서 최신 방법들을 능가함을 입증했습니다. 코드와 모델은 공개될 예정입니다.
마스킹된 이미지 생성 모델과 마스킹된 확산 모델은 서로 다른 동기와 목표로 설계되었지만, 우리는 이들이 단일 프레임워크 내에서 통합될 수 있음을 관찰했습니다. 이러한 통찰을 바탕으로, 우리는 훈련과 샘플링의 설계 공간을 신중하게 탐구하며 성능과 효율성에 기여하는 핵심 요소들을 식별했습니다. 이 탐구 과정에서 관찰된 개선점들을 바탕으로, 우리는 eMIGM이라 불리는 모델을 개발했습니다. 실험적으로, eMIGM은 Fréchet Inception Distance(FID)로 측정한 ImageNet 생성에서 강력한 성능을 보여주었습니다. 특히, ImageNet 256x256에서 유사한 함수 평가 횟수(NFEs)와 모델 파라미터 수를 가진 조건에서 eMIGM은 기념비적인 VAR 모델을 능가했습니다. 더욱이, NFE와 모델 파라미터가 증가함에 따라 eMIGM은 최신 연속 확산 모델들과 비슷한 성능을 달성하면서도 NFE의 40% 미만만을 필요로 했습니다. 또한, ImageNet 512x512에서는 약 60%의 NFE만으로도 eMIGM은 최신 연속 확산 모델들을 능가하는 성능을 보였습니다.
기존의 추론 기반 세분화 방법은 범주형 레이블과 간단한 설명을 사용한 지도 미세 조정에 의존하며, 이는 도메인 외 일반화를 제한하고 명시적인 추론 과정이 부족하다는 한계를 지니고 있습니다. 이러한 한계를 해결하기 위해, 우리는 인지 강화를 통해 놀라운 일반화 능력을 보여주고 명시적인 사고 연쇄 추론을 도출하는 새로운 프레임워크인 Seg-Zero를 제안합니다. Seg-Zero는 추론 모델과 세분화 모델로 구성된 분리형 아키텍처를 도입합니다. 추론 모델은 사용자의 의도를 해석하고 명시적인 추론 체인을 생성하며 위치 프롬프트를 생성하는데, 이는 이후 세분화 모델이 정밀한 픽셀 수준의 마스크를 생성하는 데 사용됩니다. 우리는 형식과 정확도 보상을 통합하여 최적화 방향을 효과적으로 안내하는 정교한 보상 메커니즘을 설계했습니다. GRPO를 사용한 강화 학습만으로 훈련되고 명시적인 추론 데이터 없이도, Seg-Zero는 강력한 제로샷 일반화 능력을 달성하고 테스트 시점에서의 추론 능력을 보여줍니다. 실험 결과, Seg-Zero-7B는 ReasonSeg 벤치마크에서 57.5의 제로샷 성능을 달성하며, 이전 LISA-7B보다 18% 우수한 성능을 보였습니다. 이는 Seg-Zero가 도메인 간 일반화 능력을 갖추면서도 명시적인 추론 과정을 제시할 수 있음을 보여줍니다. 코드는 https://github.com/dvlab-research/Seg-Zero에서 확인할 수 있습니다.
최근 2D-to-3D 인식 분야의 발전으로 2D 이미지에서 3D 장면을 이해하는 능력이 크게 향상되었습니다. 그러나 기존 방법들은 장면 간 일반화의 한계, 최적화되지 않은 인식 정확도, 느린 재구성 속도 등의 중요한 문제에 직면해 있습니다. 이러한 한계를 해결하기 위해, 우리는 정확성과 효율성을 모두 향상시키는 새로운 프레임워크인 Perception-Efficient 3D Reconstruction (PE3R)을 제안합니다. PE3R은 피드포워드 아키텍처를 사용하여 빠른 3D 의미 필드 재구성을 가능하게 합니다. 이 프레임워크는 다양한 장면과 객체에 걸쳐 강력한 제로샷 일반화를 보여주며, 재구성 속도를 크게 개선합니다. 2D-to-3D 오픈-보커뷸러리 세그멘테이션과 3D 재구성에 대한 광범위한 실험을 통해 PE3R의 효과성과 다용성을 검증했습니다. 이 프레임워크는 3D 의미 필드 재구성에서 최소 9배의 속도 향상을 달성했을 뿐만 아니라, 인식 정확도와 재구성 정밀도에서도 상당한 개선을 이루며 해당 분야의 새로운 벤치마크를 설정했습니다. 코드는 https://github.com/hujiecpp/PE3R에서 공개되어 있습니다.
객체 탐지와 세그멘테이션은 컴퓨터 비전 애플리케이션에서 널리 사용되지만, YOLO 시리즈와 같은 기존 모델들은 효율적이고 정확함에도 불구하고 미리 정의된 카테고리에 제한되어 있어 개방형 시나리오에서의 적응성이 떨어진다. 최근의 개방형 방법들은 텍스트 프롬프트, 시각적 단서 또는 프롬프트 없는 패러다임을 활용하여 이를 극복하려고 하지만, 높은 계산 요구량이나 배포 복잡성으로 인해 성능과 효율성 사이에서 타협을 보는 경우가 많다. 본 연구에서는 YOLOE를 소개하며, 이는 다양한 개방형 프롬프트 메커니즘을 단일 고효율 모델 내에 통합하여 실시간으로 모든 것을 볼 수 있는 능력을 달성한다. 텍스트 프롬프트의 경우, 재파라미터화 가능한 지역-텍스트 정렬(RepRTA) 전략을 제안한다. 이는 재파라미터화 가능한 경량 보조 네트워크를 통해 사전 학습된 텍스트 임베딩을 개선하고, 추론 및 전송 오버헤드 없이 시각-텍스트 정렬을 강화한다. 시각적 프롬프트의 경우, 의미론적 활성화 시각 프롬프트 인코더(SAVPE)를 제시한다. 이는 분리된 의미론 및 활성화 분기를 사용하여 최소한의 복잡성으로 개선된 시각 임베딩과 정확도를 제공한다. 프롬프트 없는 시나리오의 경우, Lazy Region-Prompt Contrast(LRPC) 전략을 도입한다. 이는 내장된 대규모 어휘와 특수화된 임베딩을 활용하여 모든 객체를 식별하며, 비용이 많이 드는 언어 모델 의존성을 피한다. 광범위한 실험을 통해 YOLOE의 탁월한 제로샷 성능과 전이 가능성을 높은 추론 효율성과 낮은 학습 비용으로 입증한다. 특히, LVIS에서 학습 비용이 3배 적고 추론 속도가 1.4배 빠른 YOLOE-v8-S는 YOLO-Worldv2-S를 3.5 AP로 능가한다. COCO로 전이할 때, YOLOE-v8-L은 폐쇄형 YOLOv8-L 대비 0.6 AP^b와 0.4 AP^m의 향상을 달성하며, 학습 시간이 거의 4배 적게 소요된다. 코드와 모델은 https://github.com/THU-MIG/yoloe에서 확인할 수 있다.
비전-언어 모델(VLMs)은 시각 중심 작업에서 시각 및 텍스트 정보를 통합하는 데 탁월한 성능을 보이지만, 모달리티 간 불일치를 처리하는 방식은 아직 충분히 연구되지 않았습니다. 본 연구는 시각 중심 환경에서 시각 데이터와 다양한 텍스트 입력이 주어졌을 때 VLMs의 모달리티 선호도를 조사합니다. 네 가지 시각 중심 작업에 텍스트 변형을 도입하고 열 가지 비전-언어 모델(VLMs)을 평가한 결과, "텍스트에 대한 맹목적 신뢰" 현상을 발견했습니다: VLMs은 모달리티 간 불일치가 발생할 때 시각 데이터보다 텍스트 데이터를 지나치게 신뢰하여, 손상된 텍스트 하에서 성능이 크게 저하되고 안전 문제가 발생했습니다. 우리는 이 텍스트 편향에 영향을 미치는 요인들을 분석했는데, 여기에는 명령 프롬프트, 언어 모델 크기, 텍스트 관련성, 토큰 순서, 그리고 시각적 및 텍스트적 확실성 간의 상호작용이 포함됩니다. 언어 모델 크기를 확장하는 것과 같은 일부 요인은 텍스트 편향을 약간 완화시키지만, 토큰 순서와 같은 다른 요인들은 언어 모델에서 상속된 위치 편향으로 인해 이를 악화시킬 수 있습니다. 이 문제를 해결하기 위해 텍스트 증강을 통한 지도 미세 조정을 탐구하고, 이를 통해 텍스트 편향을 줄이는 데 효과적임을 입증했습니다. 또한, 이론적 분석을 통해 텍스트에 대한 맹목적 신뢰 현상이 훈련 중 순수 텍스트 데이터와 다중 모달 데이터 간의 불균형에서 비롯될 수 있음을 제시합니다. 우리의 연구 결과는 VLMs의 강건성과 신뢰성을 향상시키기 위해 다중 모달 데이터 불일치를 처리할 때 균형 잡힌 훈련과 모달리티 상호작용에 대한 신중한 고려가 필요함을 강조합니다.
대규모 언어 모델(LLM) 에이전트의 혼합(MoA) 아키텍처는 추론 시점에 여러 LLM의 협업을 활용하여 AlpacaEval 2.0과 같은 주요 벤치마크에서 최첨단 성능을 달성합니다. 이러한 성공에도 불구하고, MoA의 안전성과 신뢰성에 대한 평가는 아직 이루어지지 않았습니다. 우리는 의도적으로 오해의 소지가 있는 응답을 제공하는 기만적인 LLM 에이전트에 대한 MoA의 견고성을 처음으로 포괄적으로 연구합니다. 우리는 기만적 정보의 전파, 모델 크기, 정보 가용성과 같은 요소를 검토하고 중요한 취약점을 발견했습니다. AlpacaEval 2.0에서 인기 있는 LLaMA 3.1-70B 모델은 3계층 MoA(6개의 LLM 에이전트)와 결합했을 때 길이 제어 승률(LC WR) 49.2%를 달성했습니다. 그러나 우리는 MoA에 단 하나의 신중하게 지시된 기만적 에이전트를 도입하는 것만으로도 성능을 37.9%로 떨어뜨려 모든 MoA의 이점을 무효화할 수 있음을 보여줍니다. 다중 선택 이해 과제인 QuALITY에서도 영향이 심각하여 정확도가 무려 48.5% 급락했습니다. 역사적인 베네치아 도제 투표 과정에서 영감을 받아, 우리는 영향력과 기만을 최소화하도록 설계된 다양한 비지도 방어 메커니즘을 제안하며, 이를 통해 대부분의 손실된 성능을 회복합니다.
우리는 차별적 주의 메커니즘을 CLIP 아키텍처로 확장한 새로운 비전-언어 모델인 DiffCLIP를 제안한다. 차별적 주의는 원래 대규모 언어 모델을 위해 개발되어 관련 컨텍스트를 증폭시키는 동시에 잡음 정보를 제거하는 데 사용되었다. 본 연구에서는 이 메커니즘을 CLIP의 이중 인코더(이미지와 텍스트) 프레임워크에 통합한다. 최소한의 추가 파라미터만으로 DiffCLIP는 이미지-텍스트 이해 작업에서 우수한 성능을 달성한다. 제로샷 분류, 검색 및 견고성 벤치마크 전반에 걸쳐 DiffCLIP는 기준 CLIP 모델을 지속적으로 능가한다. 특히, 이러한 성능 향상은 계산 오버헤드를 거의 발생시키지 않으면서 이루어지며, 차별적 주의가 효율성을 희생하지 않고도 다중 모달 표현을 크게 향상시킬 수 있음을 보여준다. 코드는 https://github.com/hammoudhasan/DiffCLIP에서 확인할 수 있다.
우리는 새로운 제로샷 오디오-비주얼 음성 인식(AVSR) 프레임워크인 Zero-AVSR를 탐구하며, 이는 대상 언어에서의 오디오-비주얼 음성 데이터 없이도 해당 언어의 음성 인식을 가능하게 합니다. 구체적으로, 우리는 로마자 텍스트를 예측함으로써 언어에 구애받지 않는 음성 표현을 학습하는 오디오-비주얼 음성 로마자 변환기(AV-Romanizer)를 소개합니다. 그런 다음, 대형 언어 모델(LLM)의 강력한 다국어 모델링 능력을 활용하여 예측된 로마자 텍스트를 언어별 문자로 변환하는 Cascaded Zero-AVSR를 제안합니다. 이를 한 단계 더 나아가, AV-Romanizer에 의해 인코딩된 오디오-비주얼 음성 표현을 LLM에 직접 통합하는 통합 Zero-AVSR 접근 방식을 탐구합니다. 이는 우리가 제안한 다중 작업 학습 방식을 통해 어댑터와 LLM을 미세 조정함으로써 달성됩니다. 음성 및 언어적 다양성의 광범위한 스펙트럼을 포착하기 위해, 우리는 또한 82개 언어에 걸쳐 2,916시간의 오디오-비주얼 음성 데이터와 언어별 문자 및 로마자 텍스트로 된 전사를 포함한 다국어 오디오-비주얼 로마자 코퍼스(MARC)를 소개합니다. 광범위한 분석과 실험을 통해 제안된 Zero-AVSR 프레임워크가 AV-Romanizer의 훈련 중에 접한 언어를 넘어 언어 지원을 확장할 수 있는 잠재력이 있음을 확인했습니다.
시계열 모델은 대규모 언어 모델(LLM)이 달성한 것과 유사한 수준으로 대규모 및 복잡한 데이터셋을 처리하기 위해 확장하는 데 상당한 어려움에 직면해 있습니다. 시계열 데이터의 고유한 특성과 모델 확장의 계산적 요구 사항은 혁신적인 접근 방식을 필요로 합니다. 연구자들은 이러한 문제를 해결하기 위해 Transformer, LSTM, GRU 등 다양한 아키텍처를 탐구해 왔지만, 우리는 메타러닝을 상태 업데이트 메커니즘에 통합한 RWKV-7을 사용한 새로운 솔루션을 제안합니다. RWKV-7의 시간 혼합(time mix) 및 채널 혼합(channel mix) 컴포넌트를 Transformer 기반 시계열 모델인 Timer에 통합함으로써, 약 1.13배에서 43.3배의 성능 향상과 1/23의 파라미터를 사용하면서도 훈련 시간을 4.5배 단축하는 결과를 달성했습니다. 우리의 코드와 모델 가중치는 추가 연구 및 개발을 위해 https://github.com/Alic-Li/BlackGoose_Rimer에서 공개되어 있습니다.
상태 공간 모델(State Space Models, SSMs)은 트랜스포머(Transformers)의 2차 계산 비용을 완화하는 효율적인 대안으로 부상했습니다. 그러나 SSM에 대한 매개변수 효율 미세 조정(Parameter-Efficient Fine-Tuning, PEFT) 방법의 적용은 아직까지 거의 탐구되지 않았습니다. 특히, 트랜스포머에서 널리 사용되는 프롬프트 기반 방법(Prompt Tuning 및 Prefix-Tuning 등)은 SSM에서 잘 작동하지 않습니다. 이를 해결하기 위해, 우리는 프롬프트 기반 방법보다 우수한 대안으로 상태 기반 방법을 제안합니다. 이 새로운 방법군은 SSM의 아키텍처적 특성에서 자연스럽게 도출됩니다. 상태 기반 방법은 외부 프롬프트에 의존하는 대신 상태 관련 기능을 직접 조정합니다. 더 나아가, 우리는 새로운 상태 기반 PEFT 방법인 상태 오프셋 튜닝(State-offset Tuning)을 소개합니다. 이 방법은 매 시간 단계에서 현재 단계의 상태에 직접 영향을 미쳐 더 효과적인 적응을 이끌어냅니다. 다양한 데이터셋을 대상으로 한 광범위한 실험을 통해 우리는 이 방법의 효과를 입증합니다. 코드는 https://github.com/furiosa-ai/ssm-state-tuning에서 확인할 수 있습니다.
대규모 언어 모델의 증가하는 인기는 널리 사용되는 것뿐만 아니라 가짜 뉴스를 체계적으로 확산시킬 가능성을 포함한 다양한 위험을 초래했습니다. 이에 따라 DetectGPT와 같은 분류 시스템의 개발이 중요해졌습니다. 이러한 탐지기는 실험 시리즈에서 입증된 바와 같이 회피 기술에 취약합니다. 생성 모델의 온도를 체계적으로 변경하는 것은 얕은 학습 기반 탐지기가 가장 신뢰할 수 없음을 입증했습니다. 강화 학습을 통해 생성 모델을 미세 조정하는 것은 BERT 기반 탐지기를 우회했습니다. 마지막으로, 문장을 재구성하는 것은 DetectGPT와 같은 제로샷 탐지기를 90% 이상 회피하게 했지만, 텍스트는 원본과 매우 유사하게 유지되었습니다. 기존 연구와의 비교는 제시된 방법들의 더 나은 성능을 강조합니다. 사회에 대한 가능한 영향과 추가 연구에 대해 논의합니다.
분류자 없는 가이던스(Classifier-Free Guidance, CFG)는 조건부 확산 모델에서 필수적이지만, 추론 단계마다 신경망 함수 평가(Neural Function Evaluations, NFEs) 횟수를 두 배로 증가시킵니다. 이러한 비효율성을 해결하기 위해, 우리는 단일 순방향 전달로 CFG를 시뮬레이션하는 새로운 접근법인 어댑터 가이던스 증류(Adapter Guidance Distillation, AGD)를 제안합니다. AGD는 경량 어댑터를 활용하여 CFG를 근사화함으로써 샘플링 속도를 두 배로 높이면서도 샘플 품질을 유지하거나 오히려 개선합니다. 기존의 가이던스 증류 방법들이 전체 모델을 튜닝하는 것과 달리, AGD는 기본 모델을 동결 상태로 유지하고 최소한의 추가 매개변수(약 2%)만을 학습하여 증류 단계의 자원 요구량을 크게 줄입니다. 또한, 이 접근법은 원본 모델 가중치를 보존하며, 동일한 기본 모델에서 파생된 다른 체크포인트와 어댑터를 원활하게 결합할 수 있게 합니다. 우리는 또한 기존 가이던스 증류 방법에서 학습과 추론 간의 주요 불일치 문제를 해결하기 위해, 표준 확산 궤적 대신 CFG 가이던스 궤적을 사용하여 학습합니다. 광범위한 실험을 통해, AGD가 NFEs를 절반만 사용하면서도 여러 아키텍처에서 CFG와 비슷하거나 더 우수한 FID(Fréchet Inception Distance)를 달성함을 보여줍니다. 특히, 우리의 방법은 단일 소비자 GPU(24GB VRAM)에서 대규모 모델(약 26억 매개변수)의 증류를 가능하게 하여, 여러 고성능 GPU를 필요로 하는 기존 방법보다 더 접근하기 쉽습니다. 우리는 이 방법의 구현을 공개할 예정입니다.
텍스트-이미지(T2I) 모델은 고품질의 예술적 창작물과 시각적 콘텐츠를 생성할 수 있습니다. 그러나 기존의 연구와 평가 기준은 주로 이미지의 사실성과 피상적인 텍스트-이미지 정렬에 초점을 맞추고 있어, 텍스트에서 이미지 생성 과정에서의 복잡한 의미 이해와 세계 지식 통합에 대한 포괄적인 평가가 부족합니다. 이러한 문제를 해결하기 위해, 우리는 세계 지식 기반 의미 평가를 위해 특별히 설계된 첫 번째 벤치마크인 WISE를 제안합니다. WISE는 단순한 단어-픽셀 매핑을 넘어 문화적 상식, 시공간적 추론, 자연과학 등 25개 하위 도메인에 걸쳐 신중하게 구성된 1,000개의 프롬프트를 통해 모델을 평가합니다. 또한 기존 CLIP 메트릭의 한계를 극복하기 위해, 지식-이미지 정렬을 평가하는 새로운 정량적 메트릭인 WiScore를 도입했습니다. 25개 하위 도메인에 걸친 1,000개의 구조화된 프롬프트를 사용하여 20개 모델(전용 T2I 모델 10개와 통합 멀티모달 모델 10개)을 종합적으로 테스트한 결과, 이들이 이미지 생성 과정에서 세계 지식을 효과적으로 통합하고 적용하는 데 있어 상당한 한계가 있음을 확인하였으며, 차세대 T2I 모델에서 지식 통합과 적용을 강화할 수 있는 중요한 방향성을 제시합니다. 코드와 데이터는 https://github.com/PKU-YuanGroup/WISE에서 확인할 수 있습니다.
도메인 일반화(Domain Generalization)는 새로운 데이터 분포에 대해 일반화할 수 있는 모델을 개발하는 것을 목표로 합니다. 본 연구에서는 모델 아키텍처와 사전 학습 목적 함수가 특징의 풍부성에 미치는 영향을 분석하고, 이를 도메인 일반화에 효과적으로 활용하는 방법을 제안합니다. 구체적으로, 사전 학습된 특징 공간이 주어졌을 때, 우리는 먼저 도메인별 변이를 포착하는 잠재 도메인 구조(이를 '가상 도메인(pseudo-domain)'이라 함)를 비지도 방식으로 발견합니다. 다음으로, 기존 분류기에 이러한 보완적인 가상 도메인 표현을 추가하여 다양한 보이지 않는 테스트 도메인에 더 잘 적응할 수 있도록 합니다. 우리는 다양한 사전 학습 특징 공간이 포착하는 도메인별 분산이 어떻게 다른지 분석합니다. 실험 연구를 통해 확산 모델(diffusion model)에서 추출한 특징이 명시적인 도메인 레이블 없이도 도메인을 효과적으로 분리하고, 세밀한 도메인별 정보를 포착하는 데 탁월함을 확인했습니다. 5개의 데이터셋에서, 우리의 매우 간단한 프레임워크가 표준 기준선인 경험적 위험 최소화(Empirical Risk Minimization, ERM)에 비해 최대 4% 이상의 테스트 정확도 향상을 통해 보이지 않는 도메인에 대한 일반화를 개선함을 보여줍니다. 특히, 우리의 방법은 학습 중에 도메인 레이블에 접근하는 대부분의 알고리즘을 능가합니다.
이미지 데이터로 추가 학습된 사전 학습된 대형 언어 모델(LLM)은 시각-언어 작업에서 우수한 성능을 보입니다. 두 번째 학습 단계에서 이미지를 추가하는 것이 이러한 능력을 효과적으로 해제하지만, 이 두 단계 파이프라인이 시각 토큰을 더 일찍 학습 과정에 통합하는 시각-언어 모델(VLM)에 비해 얼마나 이득이나 손실을 가져오는지는 명확하지 않습니다. 이를 조사하기 위해, 우리는 다양한 데이터셋, 규모, 이미지-텍스트 비율, 그리고 시각 토큰을 도입하기 전에 수행된 사전 학습 양을 아우르는 모델들을 학습시켰습니다. 그런 다음 이러한 모델들을 미세 조정하고, 시각-언어 및 텍스트 전용 작업에 대한 하위 성능을 평가했습니다. 우리는 이미지와 텍스트 데이터의 혼합으로 사전 학습을 수행한 모델이 시각-언어 작업에서 더 나은 성능을 보이면서도 텍스트 전용 평가에서도 강력한 성능을 유지한다는 것을 발견했습니다. 6가지 다양한 작업의 평균에서, 10억 파라미터 모델의 경우 사전 학습의 80% 시점에 시각 토큰을 도입하는 것이 완전히 사전 학습된 모델에 시각 토큰을 도입하는 것보다 평균 2%의 성능 향상을 가져온다는 것을 확인했습니다.
최근 텍스트-이미지 확산 모델의 발전으로 사실적인 이미지 생성이 가능해졌지만, 동시에 NSFW 이미지와 같은 악성 콘텐츠를 생성할 위험도 증가했습니다. 이러한 위험을 완화하기 위해 특정 개념을 모델이 '잊도록' 하는 개념 삭제 방법이 연구되고 있습니다. 그러나 현재 연구는 은유적 표현이나 적대적 프롬프트와 같이 암묵적으로 내포된 악성 개념을 완전히 삭제하면서도 모델의 정상적인 생성 능력을 보존하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 본 연구는 TRCE(Two-stage Reliable Concept Erasure)를 제안하며, 두 단계의 개념 삭제 전략을 통해 신뢰할 수 있는 삭제와 지식 보존 사이의 효과적인 균형을 달성합니다. 먼저, TRCE는 텍스트 프롬프트에 암묵적으로 내포된 악성 의미를 삭제하는 것으로 시작합니다. [EoT] 임베딩과 같은 중요한 매핑 목표를 식별하여, 교차 주의(cross-attention) 레이어를 최적화해 악성 프롬프트를 안전한 개념을 가진 유사한 프롬프트로 매핑합니다. 이 단계는 디노이징(denoising) 과정에서 모델이 악성 의미에 과도하게 영향을 받는 것을 방지합니다. 이후, 확산 모델의 샘플링 궤적의 결정론적 특성을 고려하여, TRCE는 대조 학습(contrastive learning)을 통해 초기 디노이징 예측을 안전한 방향으로 유도하고 불안전한 방향에서 멀어지게 함으로써 악성 콘텐츠 생성을 추가적으로 방지합니다. 마지막으로, TRCE를 여러 악성 개념 삭제 벤치마크에서 종합적으로 평가한 결과, 악성 개념을 효과적으로 삭제하면서도 모델의 원래 생성 능력을 더 잘 보존하는 데 있어 그 유효성을 입증했습니다. 코드는 http://github.com/ddgoodgood/TRCE에서 확인할 수 있습니다. 주의: 본 논문에는 모델이 생성한 콘텐츠가 포함되어 있으며, 이는 불쾌감을 줄 수 있는 자료를 포함할 수 있습니다.
사전 학습된 비전 모델(PVMs)은 현대 로보틱스의 기초를 이루지만, 이들의 최적 구성은 여전히 명확하지 않습니다. 체계적인 평가를 통해 우리는 DINO와 iBOT이 MAE보다 시각운제어 및 인식 작업에서 우수한 성능을 보이지만, 비(단일)객체 중심(NOC) 데이터로 학습할 때 어려움을 겪는다는 것을 발견했습니다. 이러한 한계는 객체 중심 표현을 학습하는 능력이 감소한 것과 강한 상관관계가 있습니다. 이 연구는 비객체 중심 로보틱스 데이터셋에서 객체 중심 표현을 형성하는 능력이 PVMs의 성공 열쇠임을 보여줍니다. 이러한 발견에 영감을 받아, 우리는 객체성을 촉진하기 위해 프로토타입의 수를 줄이는 의미론적 병목을 도입하고, 다중 뷰 불변성을 촉진하기 위해 교차 뷰 일관성 정규화를 추가하여 객체 중심 표현을 유도하는 SlotMIM 방법을 설계했습니다. 우리의 실험은 객체 중심, 장면 중심, 웹 크롤링, 그리고 자기 중심 데이터에 대한 사전 학습을 포함합니다. 모든 설정에서 우리의 접근 방식은 전이 가능한 표현을 학습하며, 이미지 인식, 장면 이해, 그리고 로봇 학습 평가에서 이전 연구 대비 상당한 개선을 달성했습니다. 대규모 데이터셋으로 확장했을 때, 우리의 방법은 또한 우수한 데이터 효율성과 확장성을 보여줍니다. 우리의 코드와 모델은 https://github.com/CVMI-Lab/SlotMIM에서 공개적으로 이용 가능합니다.
전문가 수준의 다중 모달 작업 해결은 일반 지능으로 나아가는 핵심 이정표입니다. 다중 모달 대형 언어 모델(MLLMs)의 능력이 지속적으로 향상됨에 따라, 이러한 고급 다중 모달 지능의 평가는 필요하지만 동시에 도전적인 과제가 되었습니다. 본 연구에서는 전문 지식과 고급 추론을 요구하는 개방형 사용자 질문으로 구성된 ProBench 벤치마크를 소개합니다. ProBench는 전문가들이 일상적인 생산성 요구에 기반하여 독립적으로 제출한 4,000개의 고품질 샘플로 구성되어 있습니다. 이는 과학, 예술, 인문학, 코딩, 수학, 창의적 글쓰기 등 10개 분야와 56개 하위 분야에 걸쳐 있습니다. 실험적으로, 우리는 MLLM-as-a-Judge를 사용하여 최신 모델 24개를 평가하고 비교합니다. 우리의 결과는 최고의 오픈소스 모델이 독점 모델과 경쟁할 수 있음을 보여주지만, ProBench는 시각적 인지, 텍스트 이해, 도메인 지식 및 고급 추론에서 상당한 도전 과제를 제시하여, 향후 다중 모달 AI 연구 노력에 가치 있는 방향성을 제공합니다.
오디오-비주얼 음성 인식(AVSR)은 오디오와 시각적 양상을 모두 활용하여, 특히 잡음이 많은 환경에서 음성 인식의 견고성을 향상시킵니다. 최근 대형 언어 모델(LLMs)의 발전은 AVSR을 포함한 음성 인식 분야에서 그 효과를 입증했습니다. 그러나 음성 표현의 상당한 길이로 인해 LLMs와의 직접적인 통합은 상당한 계산 비용을 초래합니다. 기존 접근 방식은 이를 해결하기 위해 음성 표현을 압축한 후 LLMs에 입력하는 방법을 사용했습니다. 그러나 높은 압축률은 종종 성능 저하를 초래하여 계산 효율성과 인식 정확도 사이의 균형을 필요로 합니다. 이러한 문제를 해결하기 위해, 우리는 Llama-MTSK를 제안합니다. 이는 Matryoshka 표현 학습에서 영감을 받아 특정 계산 제약에 따라 오디오-비주얼 토큰 할당을 유연하게 조정하면서도 높은 성능을 유지할 수 있는 최초의 Matryoshka 기반 다중 모달 LLM입니다. 우리의 접근 방식은 단일 모델 내에서 여러 세분화 수준으로 오디오-비주얼 표현을 인코딩하여, 다양한 압축 수준에 대해 별도의 모델을 훈련할 필요를 없앱니다. 또한, LLM을 효율적으로 미세 조정하기 위해 전역 및 스케일별 LoRA 모듈을 사용한 세 가지 LoRA 기반 Matryoshka 전략을 도입했습니다. 두 개의 가장 큰 AVSR 데이터셋에 대한 광범위한 평가 결과, Llama-MTSK는 고정된 압축 수준에서 독립적으로 훈련된 모델을 능가하거나 동등한 최첨단 결과를 달성함을 보여줍니다.
모바일 인터넷의 급속한 확장은 사용자 생성 콘텐츠(UGC) 이미지의 상당한 증가를 가져왔으며, 이로 인해 UGC 이미지의 철저한 평가가 시급하고 필수적인 과제로 대두되었습니다. 최근 멀티모달 대형 언어 모델(MLLMs)이 이미지 품질 평가(IQA) 및 이미지 미학 평가(IAA) 분야에서 큰 잠재력을 보여주고 있습니다. 그러나 이러한 진전에도 불구하고, UGC 이미지의 품질과 미학을 효과적으로 점수화하는 데는 두 가지 주요 과제가 남아 있습니다: 1) 단일 점수는 계층적인 인간의 인식을 포착하기에 부적합합니다. 2) MLLMs를 사용하여 평균 의견 점수(MOS)와 같은 수치 점수를 출력하는 방법은 여전히 미해결 문제입니다. 이러한 과제를 해결하기 위해, 우리는 14,715개의 UGC 이미지를 포함한 Realistic image Quality and Aesthetic (RealQA)라는 새로운 데이터셋을 소개합니다. 각 이미지는 10개의 세분화된 속성으로 주석 처리되었으며, 이러한 속성은 저수준(예: 이미지 선명도), 중간 수준(예: 주체의 완전성), 고수준(예: 구도)의 세 가지 수준으로 나뉩니다. 또한, MLLMs를 사용하여 수치 점수를 효과적으로 예측하는 방법에 대해 일련의 심층적이고 포괄적인 연구를 수행했습니다. 놀랍게도, 단지 두 개의 추가 유의미한 숫자를 예측함으로써, 다음 토큰 패러다임이 SOTA 성능을 달성할 수 있음을 발견했습니다. 더 나아가, 사고의 연쇄(CoT)와 학습된 세분화된 속성을 결합함으로써, 제안된 방법은 IQA와 IAA를 위한 5개의 공개 데이터셋에서 SOTA 방법을 능가하는 우수한 해석 가능성을 보여주며, 비디오 품질 평가(VQA)에 대한 강력한 제로샷 일반화 능력을 입증했습니다. 코드와 데이터셋은 공개될 예정입니다.
기존의 새로운 객체 6D 포즈 추정 방법들은 일반적으로 CAD 모델이나 밀집된 참조 뷰에 의존하는데, 이 둘 모두 획득하기 어렵습니다. 단일 참조 뷰만을 사용하는 것은 확장성이 더 뛰어나지만, 큰 포즈 차이와 제한된 기하학적 및 공간 정보로 인해 어려움이 있습니다. 이러한 문제를 해결하기 위해, 우리는 단일 참조 기반의 새로운 객체 6D 포즈 추정 방법(SinRef-6D)을 제안합니다. 우리의 핵심 아이디어는 상태 공간 모델(SSM)을 기반으로 카메라 좌표계에서 점 단위 정렬을 반복적으로 수행하는 것입니다. 구체적으로, 반복적인 카메라 공간 점 단위 정렬은 큰 포즈 차이를 효과적으로 처리할 수 있으며, 우리가 제안한 RGB 및 포인트 SSM은 단일 뷰에서 장거리 의존성과 공간 정보를 포착하여 선형 복잡성과 우수한 공간 모델링 능력을 제공합니다. 합성 데이터에 대해 사전 학습된 후, SinRef-6D는 재학습이나 CAD 모델 없이도 단일 참조 뷰만을 사용하여 새로운 객체의 6D 포즈를 추정할 수 있습니다. 6개의 인기 있는 데이터셋과 실제 로봇 장면에 대한 광범위한 실험을 통해, 우리는 더 어려운 단일 참조 설정에서도 CAD 기반 및 밀집 참조 뷰 기반 방법과 동등한 성능을 달성함을 입증했습니다. 코드는 https://github.com/CNJianLiu/SinRef-6D에서 공개될 예정입니다.
최근 연구에 따르면, 대규모로 학습된 단일 모달리티(single-modal) 2D 비전 및 텍스트 인코더는 서로 다른 표현에서 비롯되었음에도 불구하고 놀라울 정도로 유사한 구조적 특성을 공유하는 학습된 특징들로 수렴하는 것으로 나타났습니다. 그러나 3D 인코더가 다른 모달리티와 관련하여 어떤 역할을 하는지는 아직 탐구되지 않았습니다. 더욱이, 대규모 데이터셋을 활용하는 기존의 3D 파운데이션 모델(foundation model)들은 일반적으로 다른 표현의 고정된 인코더와의 명시적 정렬 목표를 통해 학습됩니다. 본 연구에서는 단일 모달리티 3D 인코더에서 얻은 표현과 텍스트 기반 특징 공간 간의 사후 정렬(a posteriori alignment) 가능성을 탐구합니다. 우리는 단일 모달리티 텍스트와 3D 인코더의 단순한 사후 학습 특징 정렬이 제한된 성능을 보인다는 것을 확인했습니다. 이후, 해당 특징 공간의 부분 공간(subspace)을 추출하는 데 초점을 맞추고, 학습된 표현을 잘 선택된 저차원 부분 공간에 투영함으로써 정렬 품질이 크게 향상되어 매칭 및 검색 작업에서 정확도가 개선됨을 발견했습니다. 우리의 분석은 이러한 공유 부분 공간의 본질을 더욱 밝히는데, 이는 대략적으로 의미론적(semantic) 및 기하학적(geometric) 데이터 표현을 분리합니다. 전반적으로, 본 연구는 3D 단일 모달리티와 텍스트 특징 공간의 사후 학습 정렬을 위한 기준을 마련한 첫 번째 작업이며, 3D 데이터가 다른 표현과 비교하여 공유하는 특성과 고유한 특성을 모두 강조하는 데 기여합니다.
일대다 사실 질문(예: 한 나라의 도시 목록)에 답하기 위해, 언어 모델(LM)은 지식을 동시에 회상하고 이전 답변을 반복하지 않아야 합니다. 이 두 하위 작업이 내부적으로 어떻게 구현되고 통합되는지, 우리는 여러 데이터셋과 모델을 통해 '촉진 후 억제' 메커니즘을 확인했습니다: 모델은 먼저 모든 답변을 회상한 다음, 이전에 생성된 답변을 억제합니다. 구체적으로, LM은 주제와 이전 답변 토큰을 모두 사용하여 지식 회상을 수행하며, 주제 정보는 어텐션을 통해 전파되고 MLP는 답변을 촉진합니다. 그런 다음, 어텐션은 이전 답변 토큰에 주목하고 이를 억제하는 반면, MLP는 억제 신호를 증폭합니다. 우리의 메커니즘은 광범위한 실험적 증거로 입증되었습니다: 초기 디코딩과 인과적 추적을 사용하는 것 외에도, 우리는 특정 토큰에서 집계된 어텐션 업데이트를 디코딩하는 Token Lens와 특정 토큰에 대한 어텐션을 제거한 후 MLP 출력의 변화를 분석하는 녹아웃 방법을 도입하여 각 구성 요소가 서로 다른 토큰을 어떻게 사용하는지 분석했습니다. 전반적으로, 우리는 LM의 내부 구성 요소가 복잡한 사실 회상을 지원하기 위해 서로 다른 입력 토큰과 어떻게 상호작용하는지에 대한 새로운 통찰을 제공합니다. 코드는 https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries에서 확인할 수 있습니다.
본 논문에서는 다중 샷 전환(multiple shot transitions)이 포함된 야외 비디오로부터 긴 시퀀스의 3D 인간 동작을 세계 좌표계(world coordinates)로 재구성하기 위한 새로운 프레임워크를 제안합니다. 이러한 긴 시퀀스의 야외 동작은 동작 생성(motion generation) 및 동작 이해(motion understanding)와 같은 응용 분야에 매우 유용하지만, 이러한 비디오에서 발생하는 갑작스러운 샷 전환, 부분적 폐색(partial occlusions), 그리고 동적 배경(dynamic backgrounds)으로 인해 복원이 매우 어려운 문제입니다. 기존 방법들은 주로 단일 샷 비디오에 초점을 맞추고 있으며, 이는 단일 카메라 뷰 내에서 연속성을 유지하거나 다중 샷 정렬(multi-shot alignment)을 카메라 공간에서만 단순화합니다. 본 연구에서는 샷 전환 감지기(shot transition detector)와 강력한 정렬 모듈(alignment module)을 통합하여 샷 간 정확한 자세 및 방향 연속성을 보장함으로써 이러한 문제를 해결합니다. 또한, 사용자 정의 동작 통합기(custom motion integrator)를 활용하여 발 미끄러짐(foot sliding) 문제를 효과적으로 완화하고 인간 자세의 시간적 일관성(temporal consistency)을 보장합니다. 공개된 3D 인간 데이터셋으로부터 생성한 다중 샷 데이터셋에 대한 광범위한 평가를 통해, 본 방법이 세계 좌표계에서 현실적인 인간 동작을 재구성하는 데 있어 견고함을 입증하였습니다.
대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 것은 실제 환경에서의 배포에 있어 매우 중요하지만, RLHF와 같은 기존 방법들은 계산적 복잡성과 안정성 문제에 직면해 있습니다. DPO는 단일 하이퍼파라미터 베타(beta)를 사용하는 오프라인 패러다임을 제시했지만, SimPO와 같은 후속 방법들은 이중 파라미터(베타, 감마)를 도입함으로써 복잡성을 다시 증가시켰습니다. 우리는 {ReLU 기반 선호도 최적화(RePO)}를 제안합니다. 이는 두 가지 혁신을 통해 베타를 제거한 간소화된 알고리즘입니다: (1) SimPO의 참조 없는 마진을 유지하지만 그래디언트 분석을 통해 베타를 제거하고, (2) ReLU 기반의 최대 마진 손실을 채택하여 사소한 쌍을 자연스럽게 필터링합니다. 이론적으로 RePO는 SimPO의 극한 경우(베타가 무한대로 가는 경우)로 특징지어지며, 로지스틱 가중치가 이진 임계값 처리로 축소되어 0-1 손실의 볼록 포락선을 형성합니다. AlpacaEval 2와 Arena-Hard에서의 실험 결과는 RePO가 여러 기본 모델에서 DPO와 SimPO를 능가하며, 단 하나의 하이퍼파라미터만 조정하면 된다는 것을 보여줍니다.
멀티모달 대형 언어 모델(MLLMs)은 대규모 데이터셋에 대한 학습 후 다양한 시각-언어 작업에서 강력한 제로샷 능력을 보여줍니다. 그러나 시맨틱 세그멘테이션 및 키포인트 검출과 같은 밀집 예측 작업은 텍스트 출력만으로 표현될 때 MLLMs에게 상당한 도전 과제로 남아 있습니다. 동시에, 잠재 임베딩을 사용하여 시각적 작업 디코딩을 수행하는 현재의 MLLMs는 일반적으로 다중 작업 학습 및 다중 세분화 시나리오에 대한 적응성이 제한적입니다. 본 연구에서는 다양한 시각적 디코딩 작업을 통합적으로 학습하기 위한 종단 간 프레임워크인 REF-VLM을 제시합니다. 복잡한 시각적 디코딩 시나리오를 해결하기 위해, 우리는 트리플릿 기반 참조 패러다임(TRP)을 도입했습니다. 이는 개념, 디코딩 유형, 그리고 타겟이라는 세 가지 중요한 차원을 트리플릿 구조를 통해 명시적으로 분리합니다. TRP는 구조화된 표현 학습을 강화하기 위해 기호적 구분자를 사용하여 모델 출력의 파싱 가능성과 해석 가능성을 높입니다. 또한, 우리는 25가지 작업 유형에 걸쳐 1억 개 이상의 멀티모달 대화 샘플을 포함하는 대규모 다중 작업 데이터셋인 VTInstruct를 구축했습니다. VT-Instruct는 텍스트 입력 및 출력을 넘어 점, 박스, 스크리블, 마스크와 같은 다양한 시각적 프롬프트를 통합하며, 박스, 키포인트, 깊이, 마스크와 같은 텍스트 및 시각적 단위로 구성된 출력을 생성합니다. 다양한 시각적 프롬프트와 시각적 단위의 조합은 다양한 작업 유형을 생성하여 REF-VLM의 적용 가능성을 크게 확장합니다. 정성적 및 정량적 실험 모두에서 우리의 REF-VLM이 다양한 표준 벤치마크에서 다른 MLLMs를 능가하는 성능을 보여줍니다. 코드, 데이터셋, 데모는 https://github.com/MacavityT/REF-VLM에서 확인할 수 있습니다.
기존에 사전 훈련된 전문가 대형 언어 모델(LLM)을 결합하는 것은 대규모 및 다양한 작업을 확장 가능하게 해결하기 위한 유망한 접근법입니다. 그러나 작업 수준에서 전문가를 선택하는 것은 종종 너무 거친 단위로, 이질적인 작업은 각 인스턴스마다 다른 전문 지식을 요구할 수 있습니다. 사전 훈련된 LLM 전문가들을 적응적으로 인스턴스 수준에서 혼합하기 위해, 우리는 Symbolic-MoE라는 기호 기반, 텍스트 기반, 그리고 그래디언트가 없는 Mixture-of-Experts 프레임워크를 제안합니다. Symbolic-MoE는 수학에서의 대수학이나 생물의학적 추론에서의 분자 생물학과 같은 기술을 강조함으로써 세밀한 선택 방식을 취합니다. 우리는 다양한 추론 작업에 대해 각 전문가 LLM의 강점을 기반으로 가장 관련 있는 전문가 집단을 동적으로 선택하는 기술 기반 채용 전략을 제안합니다. 각 선택된 전문가는 자체 추론을 생성하여 k명의 전문가로부터 k개의 출력을 생성하며, 이는 다양한 추론 출력을 통합할 수 있는 능력을 기반으로 선택된 집계자에 의해 최종 고품질 응답으로 합성됩니다. 우리는 Symbolic-MoE의 인스턴스 수준 전문가 선택이 성능을 크게 향상시키지만, 순진하게 구현할 경우 모델을 지속적으로 로드하고 언로드해야 하는 필요로 인해 높은 계산 오버헤드를 초래할 수 있음을 보여줍니다. 이를 해결하기 위해, 우리는 할당된 전문가를 기반으로 인스턴스를 그룹화하여 각 모델을 한 번만 로드하는 배치 추론 전략을 구현합니다. 이를 통해 1개의 GPU에서 16개의 전문가 모델을 통합할 수 있으며, 이는 4개의 GPU를 사용하는 기존의 다중 에이전트 베이스라인과 비교해 시간 비용이 비슷하거나 더 나은 성능을 보입니다. 다양한 벤치마크(MMLU-Pro, GPQA, AIME, MedMCQA)에 대한 광범위한 평가를 통해, 우리는 Symbolic-MoE가 GPT4o-mini와 같은 강력한 LLM뿐만 아니라 다중 에이전트 접근법을 능가하며, 최고의 다중 에이전트 베이스라인 대비 평균 8.15%의 절대적 개선을 달성함을 입증합니다. 더욱이, Symbolic-MoE는 비용이 많이 드는 다중 라운드 토론의 필요성을 제거하며, 더 적은 계산으로 토론 베이스라인을 능가합니다.
우리는 고대 그리스어와 라틴어 어휘 간의 의미적 관계를 측정하는 다국어 트랜스포머 모델인 PhiloBERTA를 제안한다. 고전 텍스트에서 선별된 용어 쌍을 분석함으로써, 우리는 문맥 임베딩과 각도 유사성 지표를 사용하여 정확한 의미적 정렬을 식별한다. 우리의 결과는 어원적으로 관련된 쌍이 특히 epist\=em\=e (scientia)와 dikaiosyn\=e (iustitia)와 같은 추상적인 철학적 개념에서 상당히 높은 유사성 점수를 보인다는 것을 나타낸다. 통계적 분석은 이러한 관계에서 일관된 패턴을 보여주며(p = 0.012), 어원적으로 관련된 쌍이 대조군 쌍에 비해 현저히 안정적인 의미 보존을 보인다. 이러한 발견은 철학적 개념이 그리스와 라틴 전통 사이에서 어떻게 이동했는지 조사하기 위한 정량적 프레임워크를 확립하며, 고전 문헌학 연구를 위한 새로운 방법을 제시한다.
투명하고 반사적인 물체가 있는 장면에서의 로봇 그리핑은 정확한 깊이 정보에 의존하는 방법들에 큰 도전을 제시합니다. 본 논문에서는 물질에 구애받지 않는 그리핑 탐지를 위해 배경 사전 정보를 활용하는 신경망 표면 재구성 방법인 NeuGrasp를 소개합니다. NeuGrasp는 트랜스포머와 글로벌 사전 볼륨을 통합하여 다중 시점 특징을 공간 인코딩과 함께 집계함으로써, 좁고 희소한 시야 조건에서도 견고한 표면 재구성을 가능하게 합니다. 잔차 특징 강화를 통해 전경 물체에 초점을 맞추고, 점유 사전 볼륨을 사용하여 공간 인식을 정제함으로써, NeuGrasp는 투명하고 반사적인 표면을 가진 물체를 처리하는 데 탁월한 성능을 보입니다. 시뮬레이션과 실제 환경에서의 광범위한 실험을 통해 NeuGrasp가 그리핑 작업에서 최신 방법들을 능가하면서도 비슷한 수준의 재구성 품질을 유지함을 입증했습니다. 더 자세한 내용은 https://neugrasp.github.io/에서 확인할 수 있습니다.
스코어 기반 생성 모델은 다양한 도메인에서 선호되는 모델이지만, 추론 시점의 행동을 원칙적으로 제어하기 위한 도구는 제한적입니다. 예를 들어, 여러 사전 학습된 모델을 조합하는 경우가 그러합니다. 기존의 분류자 없는 지도 방법은 조건부 및 무조건부 스코어를 단순한 휴리스틱으로 혼합하여 조건부 분포에서 근사적으로 샘플링합니다. 그러나 이러한 방법은 중간 분포를 근사하지 않기 때문에 추가적인 '수정자' 단계가 필요합니다. 본 연구에서는 사전 학습된 스코어 기반 모델에서 유도된 어닐링, 기하 평균, 또는 곱 분포 시퀀스에서 샘플링하기 위한 효율적이고 원칙적인 방법을 제시합니다. 우리는 적절한 편미분 방정식(PDEs)의 항을 신중하게 고려하여 유명한 파인만-카츠 공식을 기반으로 한 가중 시뮬레이션 기법인 파인만-카츠 수정자(FKCs)를 도출했습니다. 이러한 PDEs를 시뮬레이션하기 위해, 우리는 샘플링 품질을 향상시키기 위해 추론 시점 스케일링을 활용하는 순차적 몬테카를로(SMC) 리샘플링 알고리즘을 제안합니다. 우리는 추론 시점 온도 어닐링을 통한 분산 샘플링, 사전 학습된 모델을 사용한 다중 목적 분자 생성 개선, 그리고 텍스트-이미지 생성을 위한 분류자 없는 지도 개선을 통해 우리 방법의 유용성을 실증적으로 입증합니다. 우리의 코드는 https://github.com/martaskrt/fkc-diffusion에서 확인할 수 있습니다.