번역이 포함된 일일 선별된 AI 연구 논문
DeepSeek-R1이 규칙 기반 강화 학습(RL)을 통해 추론 능력을 유도한 성공에 영감을 받아, 우리는 다중 모드 대형 언어 모델(MLLMs) 내에서 비디오 추론을 유도하기 위한 R1 패러다임을 체계적으로 탐구하는 첫 시도로 Video-R1을 소개합니다. 그러나 GRPO 알고리즘을 사용한 RL 훈련을 비디오 추론에 직접 적용하는 데는 두 가지 주요 과제가 있습니다: (i) 비디오 추론을 위한 시간적 모델링의 부재, (ii) 고품질 비디오 추론 데이터의 부족. 이러한 문제를 해결하기 위해, 우리는 먼저 모델이 비디오의 시간적 정보를 활용하여 추론하도록 장려하는 T-GRPO 알고리즘을 제안합니다. 또한, 비디오 데이터에만 의존하는 대신 고품질 이미지 추론 데이터를 훈련 과정에 통합합니다. 우리는 SFT 콜드 스타트를 위한 Video-R1-COT-165k와 RL 훈련을 위한 Video-R1-260k라는 두 데이터셋을 구축했으며, 둘 다 이미지와 비디오 데이터로 구성되어 있습니다. 실험 결과는 Video-R1이 VideoMMMU 및 VSI-Bench와 같은 비디오 추론 벤치마크뿐만 아니라 MVBench 및 TempCompass 등 일반 비디오 벤치마크에서도 상당한 개선을 달성했음을 보여줍니다. 특히, Video-R1-7B는 비디오 공간 추론 벤치마크 VSI-Bench에서 35.8%의 정확도를 달성하여 상용 전용 모델 GPT-4o를 능가했습니다. 모든 코드, 모델, 데이터가 공개되었습니다.
대규모 언어 모델의 혁신적 발전에 힘입어 지능형 에이전트의 시대가 도래했습니다. 목표 지향적 행동과 동적 적응 능력을 갖춘 대규모 언어 모델(LLM) 에이전트는 인공 일반 지능(AGI)으로 나아가는 중요한 경로를 제시할 가능성이 있습니다. 본 조사는 방법론 중심의 분류 체계를 통해 LLM 에이전트 시스템을 체계적으로 분석하며, 아키텍처 기반, 협업 메커니즘, 진화 경로 간의 연결고리를 탐구합니다. 우리는 에이전트 설계 원칙과 복잡한 환경에서의 창발적 행동 간의 근본적 관계를 밝혀 분산된 연구 흐름을 통합합니다. 이 연구는 에이전트의 구성 방식, 협업 메커니즘, 시간에 따른 진화 과정을 아키텍처적 관점에서 통합적으로 조명하며, 평가 방법론, 도구 활용, 실질적 과제, 다양한 응용 분야도 다룹니다. 급변하는 이 분야의 최신 동향을 조사함으로써, 우리는 연구자들에게 LLM 에이전트를 이해하기 위한 구조화된 분류 체계를 제공하고, 미래 연구를 위한 유망한 방향성을 제시합니다. 이 컬렉션은 https://github.com/luo-junyu/Awesome-Agent-Papers에서 확인할 수 있습니다.
최근 DeepSeek-R1은 규칙 기반 보상과 강화 학습(RL)을 통해 대규모 언어 모델(LLM)의 추론 능력이 등장하는 것을 보여주었습니다. 이러한 아이디어를 바탕으로, 우리는 규칙 기반 RL이 그래픽 사용자 인터페이스(GUI) 동작 예측 작업을 위한 다중 모달 대규모 언어 모델(MLLM)의 추론 능력을 어떻게 향상시킬 수 있는지 처음으로 탐구합니다. 이를 위해, 우리는 모바일 디바이스에서의 다섯 가지 일반적인 동작 유형을 포함한 136개의 도전적인 작업으로 구성된 작지만 고품질의 데이터셋을 정제했습니다. 또한, 우리는 Group Relative Policy Optimization(GRPO)과 같은 정책 기반 알고리즘을 통해 모델 최적화를 가능하게 하는 통합된 규칙 기반 동작 보상을 도입했습니다. 실험 결과는 우리가 제안한 데이터 효율적인 모델인 UI-R1-3B가 도메인 내(ID) 및 도메인 외(OOD) 작업 모두에서 상당한 개선을 달성함을 보여줍니다. 구체적으로, ID 벤치마크인 AndroidControl에서 동작 유형 정확도는 기본 모델(즉, Qwen2.5-VL-3B) 대비 15% 향상되었고, 그라운딩 정확도는 10.3% 증가했습니다. OOD GUI 그라운딩 벤치마크인 ScreenSpot-Pro에서 우리의 모델은 기본 모델을 6.0% 앞섰으며, 76K 데이터에 대한 지도 미세 조정(SFT)으로 훈련된 더 큰 모델(예: OS-Atlas-7B)과 경쟁력 있는 성능을 달성했습니다. 이러한 결과는 규칙 기반 강화 학습이 GUI 이해와 제어를 발전시킬 수 있는 잠재력을 강조하며, 이 분야의 미래 연구를 위한 길을 열어줍니다.
최근 대규모 추론 모델의 급속한 발전으로 인해 수학적 추론 평가를 위한 기존 벤치마크가 포화 상태에 이르렀으며, 이는 더 도전적이고 엄격한 평가 프레임워크의 필요성을 절실히 드러내고 있습니다. 이러한 격차를 해결하기 위해, 우리는 LLM(대형 언어 모델)의 복잡한 추론 능력을 엄격하게 테스트하기 위해 설계된 새로운 올림피아드 수준의 수학 벤치마크인 OlymMATH를 소개합니다. OlymMATH는 각각 수동으로 검증되고 영어와 중국어 버전으로 제공되는 200개의 세심하게 선별된 문제를 특징으로 합니다. 이 문제들은 두 가지 뚜렷한 난이도 계층으로 체계적으로 구성되어 있습니다: (1) 수학적 추론 평가를 위한 기준을 마련하는 AIME 수준의 문제(쉬움), 그리고 (2) 현재 최첨단 모델의 한계를 뛰어넘도록 설계된 상당히 더 도전적인 문제(어려움). 우리의 벤치마크에서 이 문제들은 네 가지 핵심 수학 분야에 걸쳐 있으며, 각 문제에는 객관적이고 규칙 기반의 평가를 가능하게 하는 검증 가능한 수치 해답이 포함되어 있습니다. 실험 결과는 OlymMATH가 제시하는 상당한 도전을 강조하며, DeepSeek-R1과 OpenAI의 o3-mini를 포함한 최첨단 모델들이 어려운 문제 집합에서 특히 제한된 정확도를 보이는 것을 확인할 수 있습니다. 더욱이, 이 벤치마크는 주류 수학적 추론 벤치마크에서 크게 다루어지지 않은 중요한 차원인 수학적 추론 능력의 포괄적인 이중 언어 평가를 가능하게 합니다. 우리는 OlymMATH 벤치마크를 STILL 프로젝트에서 공개합니다: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
비디오 생성 기술은 비현실적인 결과물을 생성하는 단계에서 시각적으로 설득력 있고 시간적으로 일관된 비디오를 생성하는 단계로 크게 발전했습니다. 이러한 비디오 생성 모델을 평가하기 위해 VBench와 같은 벤치마크가 개발되어 프레임별 미적 요소, 시간적 일관성, 기본 프롬프트 준수 등과 같은 요소를 측정하는 충실도를 평가합니다. 그러나 이러한 측면들은 주로 비디오가 시각적으로 설득력 있는지 여부에 초점을 맞춘 표면적인 충실도를 나타냅니다. 최근 모델들은 이러한 지표에서 점점 더 좋은 성능을 보이고 있지만, 단순히 시각적으로 그럴듯한 것뿐만 아니라 근본적으로 현실적인 비디오를 생성하는 데는 여전히 어려움을 겪고 있습니다. 비디오 생성을 통해 진정한 "세계 모델"을 달성하기 위해서는 생성된 비디오가 물리 법칙, 상식적 추론, 해부학적 정확성, 구성적 완전성을 준수하는 내재적 충실도를 보장하는 것이 다음 단계의 과제입니다. 이러한 수준의 현실감은 AI 보조 영화 제작 및 시뮬레이션된 세계 모델링과 같은 응용 분야에서 필수적입니다. 이 격차를 해소하기 위해 우리는 내재적 충실도를 자동으로 평가하기 위해 설계된 차세대 벤치마크인 VBench-2.0을 소개합니다. VBench-2.0은 인간 충실도, 제어 가능성, 창의성, 물리학, 상식이라는 다섯 가지 주요 차원을 평가하며, 각 차원은 더 세분화된 능력으로 나뉩니다. 각 차원에 맞춤화된 우리의 평가 프레임워크는 최첨단 VLM 및 LLM과 같은 일반적인 모델과 비디오 생성을 위해 제안된 이상 탐지 방법과 같은 전문가를 통합합니다. 우리는 인간의 판단과 일치하도록 광범위한 주석 작업을 수행합니다. 표면적인 충실도를 넘어 내재적 충실도를 추구함으로써 VBench-2.0은 차세대 비디오 생성 모델을 위한 새로운 표준을 제시하는 것을 목표로 합니다.
대규모 추론 모델(LRMs)은 놀라운 추론 능력을 보여주지만 주로 파라미터 기반 지식에 의존하여 사실적 정확도가 제한적입니다. 최근 연구들은 강화 학습(RL) 기반 LRMs에 검색 기능을 추가했지만, 과도한 사고와 추론의 견고성 부족으로 인해 질문 응답(QA) 작업에서의 효과가 감소했습니다. 이를 해결하기 위해, 우리는 과도한 반복 없이 다양한 쿼리를 탐색하는 사실성 강화 추론 모델인 ReaRAG를 제안합니다. 우리의 솔루션은 추론 체인의 길이에 상한을 두는 새로운 데이터 구성 프레임워크를 포함합니다. 구체적으로, 먼저 LRM을 활용하여 신중한 사고를 생성한 후, 미리 정의된 액션 공간(Search 및 Finish)에서 액션을 선택합니다. Search 액션의 경우, RAG 엔진에 대해 쿼리를 실행하고, 그 결과를 관찰값으로 반환하여 이후의 추론 단계를 안내합니다. 이 과정은 Finish 액션이 선택될 때까지 반복됩니다. ReaRAG의 강력한 추론 능력을 통해, 우리의 접근 방식은 다중 홉 QA에서 기존 베이스라인을 능가합니다. 추가 분석은 오류를 인식하고 추론 궤적을 개선하는 강력한 반성 능력을 강조합니다. 우리의 연구는 LRMs의 사실성을 향상시키면서 검색 증강 생성(RAG)을 위한 견고한 추론을 효과적으로 통합합니다.
우리는 LeX-Art를 소개합니다. 이는 프롬프트 표현력과 텍스트 렌더링 정확도 간의 격차를 체계적으로 해소하는 고품질 텍스트-이미지 합성 도구 모음입니다. 우리의 접근 방식은 데이터 중심 패러다임을 따르며, Deepseek-R1을 기반으로 한 고품질 데이터 합성 파이프라인을 구축하여 10K개의 고해상도(1024x1024) 및 미학적으로 정제된 이미지 데이터셋인 LeX-10K를 제작했습니다. 데이터셋 구축을 넘어, 우리는 강력한 프롬프트 강화 모델인 LeX-Enhancer를 개발하고, 두 가지 텍스트-이미지 모델인 LeX-FLUX와 LeX-Lumina를 학습시켜 최첨단 텍스트 렌더링 성능을 달성했습니다. 시각적 텍스트 생성을 체계적으로 평가하기 위해, 우리는 LeX-Bench를 도입했습니다. 이 벤치마크는 충실도, 미학, 정렬을 평가하며, 강력한 텍스트 정확도 평가를 위한 새로운 메트릭인 Pairwise Normalized Edit Distance(PNED)를 보완합니다. 실험 결과, LeX-Lumina는 CreateBench에서 79.81%의 PNED 향상을 달성했으며, LeX-FLUX는 색상(+3.18%), 위치(+4.45%), 폰트 정확도(+3.81%)에서 기준선을 능가하는 성과를 보였습니다. 우리의 코드, 모델, 데이터셋, 데모는 공개적으로 제공됩니다.
실시간 인터랙티브 비디오 채팅 초상화는 특히 텍스트 및 음성 채팅 기술의 눈부신 발전으로 인해 미래 트렌드로 점점 더 주목받고 있습니다. 그러나 기존 방법들은 주로 실시간 헤드 움직임 생성에 초점을 맞추고 있으며, 이러한 헤드 동작과 동기화된 신체 움직임을 생성하는 데 어려움을 겪고 있습니다. 또한, 말하는 스타일과 미세한 표정 변화에 대한 세밀한 제어를 달성하는 것은 여전히 과제로 남아 있습니다. 이러한 한계를 해결하기 위해, 우리는 표현력 있고 유연한 비디오 채팅을 가능하게 하는 스타일화된 실시간 초상화 비디오 생성 프레임워크를 소개합니다. 이 프레임워크는 말하는 헤드에서 상체 상호작용까지 확장됩니다. 우리의 접근 방식은 다음과 같은 두 단계로 구성됩니다. 첫 번째 단계는 오디오 입력을 기반으로 명시적 및 암묵적 모션 표현을 모두 고려하는 효율적인 계층적 모션 확산 모델을 포함하며, 이는 다양한 표정을 스타일리시하게 제어하고 헤드와 신체 움직임 간의 동기화를 생성할 수 있습니다. 두 번째 단계는 손 동작을 포함한 상체 움직임이 특징인 초상화 비디오를 생성하는 것을 목표로 합니다. 우리는 생성기에 명시적인 손 제어 신호를 주입하여 더 세부적인 손 움직임을 생성하고, 초상화 비디오의 전반적인 사실감과 표현력을 향상시키기 위해 얼굴 정제를 추가로 수행합니다. 또한, 우리의 접근 방식은 4090 GPU에서 최대 512 * 768 해상도로 최대 30fps의 상체 초상화 비디오를 효율적이고 연속적으로 생성할 수 있어 실시간 인터랙티브 비디오 채팅을 지원합니다. 실험 결과는 우리의 접근 방식이 풍부한 표현력과 자연스러운 상체 움직임을 가진 초상화 비디오를 생성할 수 있는 능력을 입증합니다.
우리는 이전 작업인 Lumina-Next에 비해 상당한 진전을 이룬 고급 텍스트-이미지 생성 프레임워크인 Lumina-Image 2.0을 소개합니다. Lumina-Image 2.0은 두 가지 핵심 원칙에 기반을 두고 있습니다: (1) 통합성 - 텍스트와 이미지 토큰을 공통 시퀀스로 처리하는 통합 아키텍처(Unified Next-DiT)를 채택하여 자연스러운 크로스 모달 상호작용을 가능하게 하고 원활한 작업 확장을 허용합니다. 또한, 고품질 캡션 생성기가 의미적으로 잘 정렬된 텍스트-이미지 학습 쌍을 제공할 수 있기 때문에, T2I 생성 작업을 위해 특별히 설계된 통합 캡션 시스템인 Unified Captioner(UniCap)를 도입했습니다. UniCap는 포괄적이고 정확한 캡션을 생성하여 수렴 속도를 높이고 프롬프트 준수도를 향상시킵니다. (2) 효율성 - 제안된 모델의 효율성을 개선하기 위해, 이미지 품질을 저하시키지 않으면서 다단계 점진적 학습 전략을 개발하고 추론 가속 기술을 도입했습니다. 학술 벤치마크와 공개 텍스트-이미지 아레나에서의 광범위한 평가 결과, Lumina-Image 2.0은 단 26억 개의 파라미터로도 강력한 성능을 보여주며, 그 확장성과 설계 효율성을 입증했습니다. 우리는 학습 세부 사항, 코드, 모델을 https://github.com/Alpha-VLLM/Lumina-Image-2.0에서 공개했습니다.
최근 딥 씽킹 모델의 발전은 수학 및 코딩 작업에서 놀라운 추론 능력을 보여주었습니다. 그러나 이미지와 행동이 교차하는 궤적을 통해 환경과 지속적으로 상호작용해야 하는 구체화된(embodied) 영역에서의 효과성은 여전히 크게 탐구되지 않고 있습니다. 본 연구에서는 o1 스타일 추론을 상호작용형 구체화 탐색 작업으로 확장한 Embodied Reasoner 모델을 제시합니다. 논리적 추론에 주로 의존하는 수학적 추론과 달리, 구체화된 시나리오는 공간적 이해, 시간적 추론, 그리고 상호작용 이력에 기반한 지속적인 자기 반영을 요구합니다. 이러한 도전 과제를 해결하기 위해, 우리는 64,000개의 상호작용 이미지와 90,000개의 다양한 사고 과정(분석, 공간 추론, 반영, 계획, 검증)을 포함하는 9,300개의 일관된 관찰-사고-행동 궤적을 합성했습니다. 우리는 모방 학습, 거부 샘플링을 통한 자기 탐색, 그리고 반영 튜닝을 통한 자기 수정을 통해 모델의 능력을 점진적으로 향상시키는 3단계 학습 파이프라인을 개발했습니다. 평가 결과, 우리의 모델은 OpenAI o1, o3-mini, Claude-3.7과 같은 고급 시각 추론 모델을 크게 능가하며, 각각 +9%, +24%, +13%의 성능 향상을 보였습니다. 분석 결과, 우리 모델은 반복 탐색과 논리적 불일치가 적으며, 특히 복잡한 장기 작업에서 두드러진 장점을 보였습니다. 실제 환경에서도 우리 모델의 우수성이 확인되었으며, 반복 탐색과 논리적 불일치 사례가 적은 것으로 나타났습니다.
대규모 언어 모델(LLM)은 과학 연구 지원에 있어 잠재력을 보여왔지만, 전용 벤치마크의 부재로 인해 고품질 연구 가설 발견 능력은 아직 검증되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 과학적 발견의 거의 충분한 하위 과제 집합인 영감 검색, 가설 구성, 가설 순위 평가를 포함한 최초의 대규모 벤치마크를 소개합니다. 우리는 12개 학문 분야의 과학 논문에서 연구 질문, 배경 조사, 영감, 가설 등 핵심 구성 요소를 추출하는 자동화된 프레임워크를 개발했으며, 전문가 검증을 통해 그 정확성을 확인했습니다. 데이터 오염을 방지하기 위해 2024년에 발표된 논문에 초점을 맞추어 LLM 사전 학습 데이터와의 중복을 최소화했습니다. 우리의 평가 결과, LLM은 분포 외 작업인 영감 검색에서 우수한 성능을 보이며, 새로운 지식 연관성을 발견할 수 있는 능력을 시사했습니다. 이는 LLM을 "연구 가설 광산"으로 위치지어, 최소한의 인간 개입으로 대규모 혁신적 가설을 생성함으로써 자동화된 과학적 발견을 촉진할 수 있는 가능성을 보여줍니다.
오디오 대형 언어 모델(AudioLLMs)은 대화, 오디오 이해, 자동 음성 인식(ASR)과 같은 오디오 작업에서 성능을 크게 향상시키며 폭넓은 관심을 받고 있습니다. 이러한 발전에도 불구하고, 수익 컨퍼런스 콜과 CEO 연설과 같은 오디오 데이터가 금융 분석 및 투자 결정에 중요한 자원인 금융 시나리오에서 AudioLLMs를 평가하기 위한 벤치마크가 부재한 상황입니다. 본 논문에서는 금융 도메인에서 AudioLLMs의 능력을 평가하기 위해 설계된 최초의 벤치마크인 FinAudio를 소개합니다. 먼저, 금융 도메인의 고유한 특성을 기반으로 세 가지 작업을 정의합니다: 1) 짧은 금융 오디오에 대한 ASR, 2) 긴 금융 오디오에 대한 ASR, 3) 긴 금융 오디오의 요약. 그런 다음, 각각 두 개의 짧은 오디오 데이터셋과 두 개의 긴 오디오 데이터셋을 구성하고, FinAudio 벤치마크를 구성하는 금융 오디오 요약을 위한 새로운 데이터셋을 개발합니다. 이후, FinAudio에서 널리 사용되는 7개의 AudioLLMs를 평가합니다. 우리의 평가는 금융 도메인에서 기존 AudioLLMs의 한계를 드러내고, AudioLLMs를 개선하기 위한 통찰을 제공합니다. 모든 데이터셋과 코드는 공개될 예정입니다.
컴퓨터 그래픽 파이프라인에서 생성된 합성 비디오를 활용하여 비디오 생성 모델의 물리적 정확도를 향상시키는 방법을 연구합니다. 이러한 렌더링된 비디오는 3D 일관성 유지와 같은 실제 세계의 물리 법칙을 준수하며, 비디오 생성 모델을 개선할 수 있는 귀중한 자원으로 활용될 수 있습니다. 이러한 잠재력을 활용하기 위해, 우리는 합성 데이터를 선별하고 통합하는 동시에 물리적 현실감을 모델에 전달하는 방법을 제안하여 원치 않는 아티팩트를 크게 줄입니다. 물리적 일관성을 강조하는 세 가지 대표적인 작업에 대한 실험을 통해, 이 방법이 물리적 정확도를 향상시키는 데 효과적임을 입증합니다. 우리의 모델은 아직 물리학에 대한 깊은 이해가 부족하지만, 합성 비디오가 비디오 합성에서 물리적 정확도를 향상시킨다는 초기 실증적 결과를 제시합니다. 웹사이트: https://kevinz8866.github.io/simulation/
확산 모델은 뛰어난 생성 품질을 달성하지만, 최적이 아닌 단계 이산화로 인해 계산 집약적인 샘플링 문제를 겪습니다. 기존 연구들이 노이즈 제거 방향 최적화에 초점을 맞춘 반면, 우리는 단계 크기 스케줄의 원칙적 설계에 접근합니다. 본 논문은 참조 궤적에서 지식을 추출하여 이론적으로 최적의 스케줄을 도출하는 동적 프로그래밍 프레임워크인 최적 단계 크기 증류(Optimal Stepsize Distillation)를 제안합니다. 단계 크기 최적화를 재귀적 오차 최소화 문제로 재구성함으로써, 우리의 방법은 최적 부분 구조 활용을 통해 전역 이산화 한계를 보장합니다. 특히, 증류된 스케줄은 아키텍처, ODE 솔버, 노이즈 스케줄 전반에 걸쳐 강력한 견고성을 보여줍니다. 실험 결과, 텍스트-이미지 생성 속도가 10배 가속화되면서도 GenEval에서 99.4%의 성능을 유지함을 확인했습니다. 우리의 코드는 https://github.com/bebebe666/OptimalSteps에서 확인할 수 있습니다.
최근 비디오 생성 분야에서는 특히 확산 모델(diffusion models)의 급속한 발전으로 인해 상당한 진전이 이루어졌습니다. 그러나 이러한 모델들이 물리적 인지(physical cognition) 측면에서 보이는 한계점이 점차 널리 주목받고 있습니다. 생성된 콘텐츠가 종종 물리학의 기본 법칙을 위반하며, '시각적 현실성은 있으나 물리적 부조리성'이라는 딜레마에 빠지는 경우가 많습니다. 이에 따라 연구자들은 비디오 생성에서 물리적 정확성(physical fidelity)의 중요성을 점점 더 인식하게 되었고, 동작 표현(motion representations) 및 물리적 지식(physical knowledge)과 같은 경험적 물리적 인지를 생성 시스템에 통합하여 현실 세계의 동적 시나리오를 시뮬레이션하려는 시도를 하고 있습니다. 이 분야에서 체계적인 개요가 부족한 점을 고려하여, 본 조사 논문은 이러한 공백을 메우기 위해 아키텍처 설계와 그 응용에 대한 포괄적인 요약을 제공하고자 합니다. 구체적으로, 우리는 인지과학(cognitive science) 관점에서 비디오 생성에서의 물리적 인지의 진화 과정을 논의하고 정리하며, 세 가지 계층적 분류 체계를 제안합니다: 1) 생성을 위한 기본 스키마 인지(basic schema perception), 2) 생성을 위한 물리적 지식의 수동적 인지(passive cognition of physical knowledge), 3) 세계 시뮬레이션을 위한 능동적 인지(active cognition for world simulation). 이는 최신 방법론, 고전적 패러다임, 벤치마크를 모두 포함합니다. 이후, 우리는 이 분야의 본질적인 주요 과제를 강조하고 향후 연구를 위한 잠재적 경로를 제시함으로써 학계와 산업계의 논의를 더욱 발전시키고자 합니다. 구조화된 리뷰와 학제간 분석을 통해, 본 조사 논문은 해석 가능하고(interpretable), 제어 가능하며(controllable), 물리적으로 일관된(physically consistent) 비디오 생성 패러다임을 개발하기 위한 방향성 있는 지침을 제공하고자 합니다. 이를 통해 생성 모델이 '시각적 모방(visual mimicry)' 단계를 넘어 '인간과 유사한 물리적 이해(human-like physical comprehension)'라는 새로운 단계로 나아가도록 추진하는 데 기여하고자 합니다.
오픈-보캐블러리 시맨틱 세그멘테이션 모델은 시각과 텍스트를 연관시켜 텍스트 쿼리를 사용하여 정의되지 않은 클래스 집합에서 픽셀에 레이블을 지정하며, 새로운 데이터셋에서도 다재다능한 성능을 제공합니다. 그러나 훈련과 테스트 도메인 간의 큰 차이는 이러한 모델의 성능을 저하시켜, 실제 세계 응용에서 효과적으로 사용하기 위해 미세 조정이 필요합니다. 우리는 훈련 없이 테스트 시간에 도메인 적응을 수행하는 새로운 프레임워크인 Semantic Library Adaptation (SemLA)을 소개합니다. SemLA는 CLIP 임베딩으로 인덱싱된 LoRA 기반 어댑터 라이브러리를 활용하여, 임베딩 공간에서 타겟 도메인과의 근접성을 기반으로 가장 관련성이 높은 어댑터를 동적으로 병합합니다. 이 접근 방식은 추가 훈련 없이 각 특정 입력에 맞춤화된 임시 모델을 구성합니다. 우리의 방법은 효율적으로 확장 가능하며, 어댑터 기여도를 추적함으로써 설명 가능성을 향상시키고, 데이터 프라이버시를 본질적으로 보호하여 민감한 응용에 이상적입니다. 10개의 표준 데이터셋을 기반으로 구축된 20개 도메인 벤치마크에서의 포괄적인 실험은 SemLA의 다양한 설정에서의 우수한 적응성과 성능을 입증하며, 오픈-보캐블러리 시맨틱 세그멘테이션을 위한 도메인 적응의 새로운 표준을 제시합니다.
다양한 모달리티를 이해하고 생성할 수 있는 멀티모달 생성 모델은 현재까지 왼쪽에서 오른쪽으로, 혹은 위에서 아래로 순차적으로 토큰을 처리하는 자기회귀(AR) 접근법이 주를 이루고 있습니다. 이러한 모델들은 이미지 캡셔닝, 질문 응답, 이미지 생성 등 다양한 작업을 위해 이미지, 텍스트, 비디오, 오디오를 함께 처리합니다. 본 연구에서는 텍스트 생성 분야에서 최근 성공을 거둔 이산 확산 모델(discrete diffusion model)을 텍스트와 이미지 영역을 통합한 생성 공식으로 탐구합니다. 이산 확산 모델은 AR 모델 대비 여러 가지 장점을 제공하는데, 이는 생성 샘플의 품질과 다양성 간의 향상된 제어, 텍스트와 이미지 영역 모두에서의 결합된 멀티모달 인페인팅(inpainting) 수행 능력, 그리고 가이던스를 통한 생성 과정의 더 큰 제어 가능성을 포함합니다. 이러한 이점을 활용하여, 우리는 다양한 다운스트림 작업을 위해 텍스트와 이미지를 함께 이해하고 생성할 수 있는 최초의 통합 멀티모달 이산 확산 모델(UniDisc)을 제안합니다. UniDisc를 멀티모달 AR 모델과 비교하여 스케일링 분석을 수행하고, UniDisc가 성능과 추론 시간 계산, 향상된 제어 가능성, 편집 가능성, 인페인팅, 그리고 추론 시간과 생성 품질 간의 유연한 트레이드오프 측면에서 우수함을 입증합니다. 코드와 추가 시각화 자료는 https://unidisc.github.io에서 확인할 수 있습니다.
본 논문은 SemEval-2025 Task 4: 대규모 언어 모델에서 민감한 콘텐츠 제거를 위한 ZJUKLAB 팀의 제출물을 소개합니다. 이 작업은 대규모 언어 모델에서 민감한 지식을 선택적으로 삭제하여 과도한 삭제와 미흡한 삭제 문제를 모두 피하는 것을 목표로 합니다. 우리는 모델 병합(특히 TIES-Merging)을 활용하여 두 개의 특화된 모델을 더 균형 잡힌 제거된 모델로 결합하는 제거 시스템을 제안합니다. 우리의 시스템은 경쟁력 있는 결과를 달성하여 26개 팀 중 2위를 차지했으며, Task Aggregate 점수 0.944와 전체 Aggregate 점수 0.487을 기록했습니다. 이 논문에서는 또한 지역 실험을 수행하고 제거 과정의 성능 추이, 손실 동역학, 가중치 관점을 포함한 포괄적인 분석과 여러 보조 실험을 통해 우리 방법의 효과를 이해하고자 합니다. 더 나아가, 우리 방법과 평가 지표의 단점을 분석하며, MIA 점수와 ROUGE 기반 지표만으로는 성공적인 제거를 완전히 평가하기에 부족함을 강조합니다. 마지막으로, 향후 연구에서 더 포괄적인 평가 방법론과 제거 목표에 대한 재고의 필요성을 강조합니다. 코드는 https://github.com/zjunlp/unlearn/tree/main/semeval25에서 확인할 수 있습니다.
최근 2D 및 다중모달 모델의 발전은 대규모 데이터셋을 활용한 광범위한 학습을 통해 놀라운 성과를 거두었습니다. 그러나 이러한 성과를 확장하여 복잡한 3D/4D 장면과의 자유로운 상호작용 및 고차원 의미적 작업을 가능하게 하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 어려움은 대규모로 주석이 달린 3D/4D 또는 다중 뷰 데이터셋의 제한된 가용성에서 비롯되며, 이는 개방형 어휘 및 프롬프트 기반 분할, 언어 기반 편집, 시각적 질의 응답(VQA)과 같은 일반화 가능한 시각 및 언어 작업에 필수적입니다. 본 논문에서는 사용자 생성 콘텐츠에서 널리 사용 가능한 단안 비디오 입력만을 사용하여 2D 시각 기반 모델의 모든 기능을 4D 영역으로 확장하도록 설계된 범용 프레임워크인 Feature4X를 소개합니다. Feature4X의 "X"는 다양한 작업을 가능하게 하는 적응형, 모델 조건부 4D 특징 필드 증류를 통해 그 다양성을 나타냅니다. 우리 프레임워크의 핵심은 여러 모델 기능을 단일 표현으로 통합하는 동적 최적화 전략입니다. 또한, 우리가 아는 한 Feature4X는 비디오 기반 모델(예: SAM2, InternVideo2)의 특징을 가우시안 스플래팅을 사용하여 명시적 4D 특징 필드로 증류 및 리프팅하는 첫 번째 방법입니다. 우리의 실험은 LLM을 활용한 피드백 루프를 통해 새로운 뷰에서의 분할, 기하학적 및 외관 장면 편집, 모든 시간 단계에서의 자유형 VQA를 보여줍니다. 이러한 발전은 몰입형 동적 4D 장면 상호작용이 가능한 확장 가능하고 맥락적, 시공간적으로 인지된 시스템을 위한 기반을 제공함으로써 에이전트 AI 응용의 범위를 넓힙니다.
실패 유발 입력은 소프트웨어 버그를 진단하고 분석하는 데 중요한 역할을 합니다. 버그 보고서에는 일반적으로 이러한 입력이 포함되어 있으며, 개발자들은 이를 추출하여 디버깅을 용이하게 합니다. 버그 보고서는 자연어로 작성되기 때문에, 기존 연구에서는 자동화된 입력 추출을 위해 다양한 자연어 처리(NLP) 기술을 활용해 왔습니다. 대규모 언어 모델(LLM)의 등장과 함께, 생성형 LLM이 버그 보고서에서 실패 유발 입력을 얼마나 효과적으로 추출할 수 있는지에 대한 중요한 연구 질문이 제기되었습니다. 본 논문에서는 LLaMA, Qwen, Qwen-Coder라는 세 가지 오픈소스 생성형 LLM의 성능을 실증적으로 평가하기 위한 LLPut 기법을 제안합니다. 우리는 206개의 버그 보고서 데이터셋을 대상으로 실험적 평가를 수행하여 이러한 모델들의 정확성과 효과성을 평가했습니다. 우리의 연구 결과는 자동화된 버그 진단에서 생성형 LLM의 능력과 한계에 대한 통찰을 제공합니다.
시간적 일관성은 비디오 예측에서 출력물이 일관되고 아티팩트가 없도록 보장하기 위해 매우 중요합니다. 시간적 주의 메커니즘(temporal attention)이나 3D 컨볼루션과 같은 전통적인 방법들은 큰 물체 움직임을 다루는 데 어려움을 겪거나 동적인 장면에서 장기간의 시간적 의존성을 포착하지 못할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 포인트 트랙(point tracks), 즉 프레임 간의 대응점 시퀀스를 사용하여 명시적으로 움직임 정보를 통합하는 새로운 아키텍처 구성 요소인 Tracktention Layer를 제안합니다. 이러한 움직임 단서를 통합함으로써, Tracktention Layer는 시간적 정렬을 강화하고 복잡한 물체 움직임을 효과적으로 처리하며, 시간에 걸쳐 일관된 특징 표현을 유지합니다. 우리의 접근 방식은 계산적으로 효율적이며, Vision Transformer와 같은 기존 모델에 최소한의 수정만으로 원활하게 통합될 수 있습니다. 이를 통해 이미지 전용 모델을 최신 비디오 모델로 업그레이드할 수 있으며, 경우에 따라 비디오 예측을 위해 원래 설계된 모델을 능가하기도 합니다. 우리는 비디오 깊이 예측과 비디오 컬러화 작업에서 이를 입증했는데, Tracktention Layer가 추가된 모델들이 베이스라인 대비 시간적 일관성이 크게 개선된 성능을 보였습니다.
텍스트 기반 이미지 편집은 자연어 지시에 따라 이미지의 특정 영역을 수정하면서도 전체 구조와 배경의 충실도를 유지하는 것을 목표로 합니다. 기존 방법들은 확산 모델에서 생성된 교차 주의 맵에서 도출된 마스크를 사용하여 수정 대상 영역을 식별합니다. 그러나 교차 주의 메커니즘은 의미적 관련성에 초점을 맞추기 때문에 이미지의 무결성을 유지하는 데 어려움을 겪습니다. 결과적으로 이러한 방법들은 공간적 일관성이 부족하여 편집 아티팩트와 왜곡이 발생하는 경우가 많습니다. 본 연구에서는 이러한 한계를 해결하고, LOCATEdit을 소개합니다. LOCATEdit은 그래프 기반 접근 방식을 통해 자체 주의에서 도출된 패치 관계를 활용하여 교차 주의 맵을 개선함으로써 이미지 영역 전반에 걸쳐 부드럽고 일관된 주의를 유지합니다. 이를 통해 지정된 항목에만 변경이 제한되면서도 주변 구조를 보존할 수 있습니다. LOCATEdit은 PIE-Bench에서 기존 베이스라인을 일관되게 크게 능가하며, 다양한 편집 작업에서 최첨단 성능과 효과를 입증합니다. 코드는 https://github.com/LOCATEdit/LOCATEdit/에서 확인할 수 있습니다.