번역이 포함된 일일 선별된 AI 연구 논문
동남아시아(SEA)는 언어적, 문화적으로 매우 다양한 지역임에도 불구하고, 비전-언어(VL) 연구에서 상당히 저조한 대표성을 보이고 있습니다. 이로 인해 동남아시아의 문화적 뉘앙스를 제대로 반영하지 못하는 인공지능(AI) 모델들이 종종 만들어지곤 합니다. 이러한 격차를 메우기 위해, 우리는 동남아시아 언어를 위한 고품질의 문화적 관련성을 갖춘 데이터를 개발하는 오픈소스 프로젝트인 SEA-VL을 소개합니다. SEA 국가의 기여자들을 참여시킴으로써, SEA-VL은 더 나은 문화적 관련성과 다양성을 보장하고, VL 연구에서 소외된 언어들의 포용성을 증진하는 것을 목표로 합니다. 크라우드소싱을 넘어, 우리의 이니셔티브는 크롤링과 이미지 생성을 통해 문화적으로 관련된 이미지를 자동으로 수집하는 방법을 탐구합니다. 첫째, 이미지 크롤링은 약 85%의 문화적 관련성을 달성하면서도 크라우드소싱보다 비용과 시간 면에서 더 효율적임을 발견했습니다. 둘째, 생성적 비전 모델의 상당한 발전에도 불구하고, 합성 이미지는 동남아시아 문화를 정확히 반영하는 데 여전히 신뢰할 수 없는 것으로 나타났습니다. 생성된 이미지들은 종종 이 지역의 미묘한 전통과 문화적 맥락을 반영하지 못합니다. 종합적으로, 우리는 128만 개의 동남아시아 문화적 관련 이미지를 수집했으며, 이는 기존 데이터셋보다 50배 이상 큰 규모입니다. SEA-VL을 통해, 우리는 동남아시아의 대표성 격차를 해소하고, 동남아시아 전역의 다양한 문화를 진정성 있게 반영하는 더 포용적인 AI 시스템의 개발을 촉진하고자 합니다.
대형 멀티모달 모델(LMMs)의 추론 능력 향상은 시각적 인지와 논리적 추론 간의 복잡한 상호작용으로 인해 독특한 도전 과제에 직면해 있으며, 특히 3B 파라미터 규모의 컴팩트 아키텍처에서는 아키텍처적 제약으로 인해 추론 능력과 모달리티 정렬이 제한됩니다. 규칙 기반 강화 학습(RL)은 텍스트 전용 도메인에서 뛰어난 성능을 보이지만, 이를 멀티모달로 확장할 때 두 가지 주요 장벽에 직면합니다: (1) 모호한 답변과 복잡한 추론 예제의 부족으로 인한 데이터 한계, 그리고 (2) 멀티모달 사전 학습으로 인한 기초 추론 능력의 저하. 이러한 문제를 해결하기 위해, 우리는 \method를 제안합니다. 이는 규칙 기반 RL을 멀티모달 추론에 적용하기 위한 두 단계 프레임워크로, 먼저 기초 추론 강화(FRE) 단계에서 텍스트 전용 데이터를 사용해 규칙 기반 RL로 추론 능력을 강화한 후, 멀티모달 일반화 훈련(MGT) 단계에서 이러한 추론 능력을 멀티모달 도메인으로 확장합니다. Qwen2.5-VL-Instruct-3B에서의 실험 결과, \method는 멀티모달 및 텍스트 전용 벤치마크에서 각각 4.83%와 4.5%의 평균 개선을 달성했으며, 복잡한 Football Game 작업에서는 3.63%의 성능 향상을 보였습니다. 이러한 결과는 텍스트 기반 추론 강화가 효과적인 멀티모달 일반화를 가능하게 하며, 고품질 멀티모달 훈련 데이터의 비용을 절감할 수 있는 데이터 효율적인 패러다임을 제공함을 입증합니다.
우리는 LLaMA2 아키텍처를 기반으로 한 오픈 파운데이션 모델인 YuE를 도입하여, 특히 도전적인 가사-노래 변환 문제를 포함한 장편 음악 생성 작업에 접근합니다. 구체적으로, YuE는 수조 개의 토큰을 처리할 수 있으며 최대 5분 길이의 음악을 생성하면서도 가사 정렬, 일관된 음악 구조, 적절한 반주와 함께 매력적인 보컬 멜로디를 유지합니다. 이를 위해 YuE는 (1) 밀집된 혼합 신호를 극복하기 위한 트랙 분리형 다음 토큰 예측, (2) 장문 가사 정렬을 위한 구조적 점진적 조건화, (3) 수렴 및 일반화를 위한 다중 작업, 다중 단계 사전 학습 레시피를 활용합니다. 또한, 음악 생성을 위한 인-컨텍스트 학습 기술을 재설계하여 다양한 스타일 전이(예: 일본 시티 팝을 영어 랩으로 변환하면서 원래 반주를 유지)와 양방향 생성을 가능하게 합니다. 광범위한 평가를 통해 YuE가 음악성과 보컬 민첩성 측면에서 일부 독점 시스템을 능가하거나 동등한 성능을 보임을 입증합니다. 또한, YuE를 미세 조정함으로써 추가적인 제어 기능과 소수 언어에 대한 강화된 지원이 가능합니다. 더 나아가, 생성 작업을 넘어 YuE가 학습한 표현이 음악 이해 작업에서도 우수한 성능을 발휘하며, MARBLE 벤치마크에서 최신 기술을 능가하거나 동등한 결과를 보임을 확인합니다. 키워드: 가사-노래 변환, 노래 생성, 장편, 파운데이션 모델, 음악 생성
테스트 시간 계산 자원을 효과적으로 활용하도록 모델을 훈련시키는 것은 LLM의 추론 성능을 향상시키는 데 중요합니다. 현재의 방법들은 주로 검색 트레이스에 대한 미세 조정이나 0/1 결과 보상을 사용한 강화 학습(RL)을 통해 이를 수행하지만, 이러한 접근 방식이 테스트 시간 계산 자원을 효율적으로 활용하고 있을까요? 또한, 이러한 접근 방식은 예산이 증가함에 따라 계속 확장될 수 있을까요? 본 논문에서는 이러한 질문에 답하고자 합니다. 우리는 테스트 시간 계산 자원 최적화 문제를 메타 강화 학습(RL) 문제로 공식화하여, 테스트 시간 계산 자원을 사용하는 데 있어 원칙적인 관점을 제공합니다. 이 관점은 LLM에서 생성된 긴 출력 스트림을 테스트 시간 동안 실행된 여러 에피소드로 보게 하고, 출력 토큰에 대한 누적 후회(cumulative regret) 개념을 테스트 시간 계산 자원의 효율성을 측정하는 방법으로 사용하도록 이끕니다. 강화 학습 알고리즘이 훈련 중 탐색과 활용 사이의 최적의 균형을 맞추는 것과 유사하게, 누적 후회를 최소화하는 것은 토큰 스트림에서 탐색과 활용 사이의 최적의 균형을 제공할 것입니다. 우리는 최신 모델들이 후회를 최소화하지 않음을 보여주지만, 0/1 결과 보상 RL과 함께 밀집된 보상 보너스를 최대화함으로써 이를 달성할 수 있습니다. 이 보너스는 출력 스트림에서 각 후속 블록이 만드는 '진행(progress)'으로, 최종 성공 가능성의 변화로 정량화됩니다. 이러한 통찰을 바탕으로, 우리는 테스트 시간 계산 자원을 최적화하기 위한 새로운 미세 조정 방법인 Meta Reinforcement Fine-Tuning(MRT)을 개발합니다. MRT는 결과 보상 RL에 비해 수학적 추론에서 2-3배의 상대적 성능 향상과 약 1.5배의 토큰 효율성 향상을 이끌어냅니다.
본 보고서에서는 Google의 가장 강력한 대형 언어 모델인 Gemini의 힘을 활용한 최첨단 임베딩 모델인 Gemini Embedding을 소개합니다. Gemini의 고유한 다국어 및 코드 이해 능력을 활용한 Gemini Embedding은 다양한 언어와 텍스트 양식에 걸쳐 높은 일반화 가능성을 지닌 임베딩을 생성합니다. Gemini Embedding에 의해 생성된 표현은 사전 계산이 가능하며 분류, 유사성, 클러스터링, 순위 지정, 검색 등 다양한 다운스트림 작업에 적용될 수 있습니다. 250개 이상의 언어에 걸쳐 100개 이상의 작업을 포함하는 Massive Multilingual Text Embedding Benchmark(MMTEB)에서 평가된 결과, Gemini Embedding은 기존의 최첨단 모델들을 크게 능가하며 임베딩 품질에서 상당한 개선을 보여주었습니다. MMTEB의 다국어, 영어, 코드 벤치마크 전반에서 최첨단 성능을 달성한 우리의 통합 모델은 다양한 작업에서 강력한 능력을 보여주며 특정 도메인에 특화된 모델들을 능가합니다.
확산 모델의 급속한 발전은 이미지 생성 분야에서 놀라운 진전을 촉진했습니다. 그러나 Flux, SD3.5, Midjourney와 같은 널리 사용되는 모델들은 여전히 모델 편향, 제한된 텍스트 렌더링 능력, 그리고 중국 문화적 뉘앙스에 대한 불충분한 이해와 같은 문제를 겪고 있습니다. 이러한 한계를 해결하기 위해, 우리는 Seedream 2.0을 제안합니다. 이는 중국어와 영어를 모두 지원하는 원어민 수준의 이중 언어 이미지 생성 기반 모델로, 다양한 차원에서 탁월한 성능을 보이며, 중국어와 영어 모두에서 텍스트 프롬프트를 능숙하게 처리하고 이중 언어 이미지 생성과 텍스트 렌더링을 지원합니다. 우리는 지식 통합을 용이하게 하는 강력한 데이터 시스템과 이미지 설명의 정확성과 풍부함을 균형 있게 유지하는 캡션 시스템을 개발했습니다. 특히, Seedream은 자체 개발한 이중 언어 대형 언어 모델을 텍스트 인코더로 통합하여 대규모 데이터로부터 직접 원어민 지식을 학습할 수 있도록 했습니다. 이를 통해 중국어나 영어로 기술된 정확한 문화적 뉘앙스와 미적 표현을 갖춘 고품질 이미지를 생성할 수 있습니다. 또한, Glyph-Aligned ByT5를 적용하여 유연한 문자 수준의 텍스트 렌더링을 가능하게 했으며, Scaled ROPE는 훈련되지 않은 해상도에서도 잘 일반화됩니다. SFT와 RLHF 반복을 포함한 다단계 사후 훈련 최적화는 전반적인 능력을 더욱 향상시켰습니다. 광범위한 실험을 통해, Seedream 2.0이 프롬프트 준수, 미학, 텍스트 렌더링, 구조적 정확성 등 여러 측면에서 최첨단 성능을 달성함을 입증했습니다. 더욱이, Seedream 2.0은 여러 RLHF 반복을 통해 최적화되어 인간의 선호도와 밀접하게 일치하는 출력을 생성하며, 이는 뛰어난 ELO 점수로 나타납니다. 또한, SeedEdit와 같은 명령 기반 이미지 편집 모델로 쉽게 적용할 수 있으며, 명령 준수와 이미지 일관성을 균형 있게 유지하는 강력한 편집 능력을 갖추고 있습니다.
우리는 기존의 초상화 애니메이션 한계를 극복하고 다양한 캐릭터 유형(실사 인간, 전신 인물, 스타일화된 애니메이션 캐릭터)에 걸쳐 높은 충실도의 결과를 제공하는 새로운 디퓨전 트랜스포머(DiT) 프레임워크인 MagicInfinite를 소개합니다. 이 프레임워크는 뒷모습을 포함한 다양한 얼굴 자세를 지원하며, 다중 캐릭터 장면에서 정확한 화자 지정을 위한 입력 마스크를 통해 단일 또는 다중 캐릭터를 애니메이션화합니다. 우리의 접근 방식은 세 가지 혁신을 통해 주요 과제를 해결합니다: (1) 슬라이딩 윈도우 디노이징 전략과 함께 3D 전체-어텐션 메커니즘을 사용하여 다양한 캐릭터 스타일에 걸쳐 시간적 일관성과 시각적 품질을 유지하며 무한 비디오 생성을 가능하게 합니다; (2) 두 단계의 커리큘럼 학습 방식을 통해, 입술 동기화를 위한 오디오, 표현력 있는 동작을 위한 텍스트, 그리고 신원 보존을 위한 참조 이미지를 통합하여 긴 시퀀스에 대한 유연한 다중 모달 제어를 가능하게 합니다; (3) 전역 텍스트 제어와 지역 오디오 안내를 균형 있게 조절하기 위한 적응형 손실 함수와 함께 지역별 마스크를 사용하여 화자별 애니메이션을 지원합니다. 효율성은 혁신적인 통합 단계 및 cfg 증류 기술을 통해 향상되어, 기본 모델 대비 20배의 추론 속도 향상을 달성했습니다: 8개의 H100 GPU에서 10초 길이의 540x540p 비디오를 10초 내에, 또는 720x720p 비디오를 30초 내에 품질 손실 없이 생성할 수 있습니다. 새로운 벤치마크에 대한 평가는 MagicInfinite가 다양한 시나리오에서 오디오-입술 동기화, 신원 보존, 그리고 동작의 자연스러움 측면에서 우수성을 보여줍니다. 이는 https://www.hedra.com/에서 공개적으로 이용 가능하며, 예제는 https://magicinfinite.github.io/에서 확인할 수 있습니다.
동일한 동작을 수행할 때 두 개인이 어떻게 다른지 궁금한 적이 있나요? 본 연구에서는 동일한 동작을 담은 비디오 간의 미묘한 차이를 식별하는 새로운 과제인 Video Action Differencing(VidDiff)를 소개합니다. 이 과제는 코칭 및 기술 학습과 같은 다양한 응용 분야에서 유용합니다. 이 새로운 과제의 개발을 위해, 우리는 먼저 VidDiffBench라는 벤치마크 데이터셋을 구축했습니다. 이 데이터셋은 549개의 비디오 쌍과 4,469개의 세밀한 동작 차이에 대한 인간 주석, 그리고 이러한 차이가 발생하는 위치를 나타내는 2,075개의 시간 스탬프를 포함하고 있습니다. 우리의 실험은 VidDiffBench가 GPT-4o 및 Qwen2-VL과 같은 최첨단 대규모 멀티모달 모델(LMM)에게도 상당한 도전 과제임을 보여줍니다. LMM의 실패 사례를 분석함으로써, 우리는 이 과제의 두 가지 주요 도전 과제를 강조합니다: 두 비디오 간의 관련 하위 동작을 지역화하는 것과 세밀한 프레임 비교를 수행하는 것입니다. 이를 극복하기 위해, 우리는 VidDiff 방법을 제안합니다. 이는 작업을 세 단계로 나누는 에이전트 기반 워크플로우입니다: 동작 차이 제안, 키프레임 지역화, 프레임 차이 비교. 각 단계는 특화된 파운데이션 모델을 활용합니다. 이 새로운 과제에 대한 미래 연구를 촉진하기 위해, 우리는 벤치마크를 https://huggingface.co/datasets/jmhb/VidDiffBench에서, 코드는 http://jmhb0.github.io/viddiff에서 공개합니다.
통합 멀티모달 모델(UMM)은 기초 컴퓨터 비전 연구에서 강력한 패러다임으로 부상하며, 이미지 이해와 생성 모두에서 상당한 잠재력을 입증해 왔습니다. 그러나 얼굴 도메인에서의 기존 연구는 주로 대략적인 얼굴 속성 이해에 초점을 맞추고 있으며, 세밀한 얼굴 속성을 다루는 능력이 제한적이고 생성 능력을 다루지 못하는 한계가 있습니다. 이러한 한계를 극복하기 위해, 우리는 세밀한 얼굴 이해와 생성을 위해 특별히 설계된 첫 번째 UMM인 UniF^2ace를 제안합니다. 일반적으로, 우리는 두 가지 상호 보완적인 디퓨전 기법과 두 단계의 전문가 혼합(MoE) 아키텍처를 활용하여 자체 구축한 특화된 데이터셋에서 UniF^2ace를 학습시킵니다. 구체적으로, 먼저 130K개의 이미지-텍스트 쌍과 백만 개의 질문-답변 쌍을 포함하며 다양한 얼굴 속성을 아우르는 대규모 얼굴 데이터셋인 UniF^2ace-130K를 구축합니다. 둘째, 이산 디퓨전 점수 매칭과 마스크 생성 모델 간의 이론적 연결을 확립하여 두 증거 하한을 동시에 최적화함으로써 모델의 얼굴 세부 사항 합성 능력을 크게 향상시킵니다. 마지막으로, 토큰 수준과 시퀀스 수준의 전문가 혼합을 도입하여 이해와 생성 작업 모두에 대해 효율적인 세밀한 표현 학습을 가능하게 합니다. UniF^2ace-130K에 대한 광범위한 실험을 통해 UniF^2ace가 기존 UMM 및 생성 모델을 능가하며 이해와 생성 작업 모두에서 우수한 성능을 달성함을 입증합니다.
MLLM(Multimodal Large Language Model)은 이미지 이해 능력에서 적절한 성능을 보여주었지만, 여전히 픽셀 수준의 이해에는 어려움을 겪고 있어 실질적인 응용에 제약이 있습니다. 현재의 평가 과제인 VQA(Visual Question Answering)와 시각적 그라운딩(visual grounding)은 미세한 픽셀 이해를 정확히 평가하기에는 너무 거친 수준입니다. 세그멘테이션(segmentation)은 픽셀 수준 이해의 기초이지만, 기존 방법들은 MLLM이 외부 픽셀 디코더를 통해 디코딩되는 암묵적 토큰(implicit tokens)을 생성하도록 요구합니다. 이 접근 방식은 MLLM의 텍스트 출력 공간을 방해하여 언어 능력을 저해할 가능성이 있으며, 유연성과 확장성을 감소시키는 동시에 모델의 내재적 픽셀 수준 이해를 제대로 반영하지 못합니다. 이에 우리는 인간 주석자처럼 인터랙티브 세그멘테이션 도구를 사용하는 새로운 패러다임인 Human-Like Mask Annotation Task(HLMAT)를 제안합니다. HLMAT는 세그멘테이션을 다단계 마르코프 결정 과정(Markov Decision Process)으로 모델링하여, MLLM이 텍스트 기반 클릭 포인트를 반복적으로 생성하도록 함으로써 아키텍처 변경이나 암묵적 토큰 없이도 고품질 마스크를 달성합니다. 이를 통해 인간과 유사한 주석 궤적(human-like annotation trajectories)에 미세 조정된 SegAgent 모델을 개발했으며, 이 모델은 최신 기술(state-of-the-art, SOTA)과 비슷한 성능을 보이면서 마스크 정제(mask refinement) 및 주석 필터링(annotation filtering)과 같은 추가 작업도 지원합니다. HLMAT는 MLLM의 미세한 픽셀 이해를 평가하기 위한 프로토콜을 제공하며, MLLM의 시각적 추론 능력을 탐구할 수 있는 시각 중심의 다단계 의사결정 과제를 도입합니다. 정책 개선 방법인 StaR(Self-Training with Reinforcement)와 PRM(Probabilistic Roadmap) 기반 트리 탐색(tree search)을 적용하여 복잡한 세그멘테이션 작업에서 모델의 견고성을 더욱 강화했으며, 이를 통해 MLLM의 미세한 시각적 인식과 다단계 의사결정 분야의 미래 발전을 위한 기반을 마련했습니다.
최근 텍스트-투-비디오 확산 모델의 발전으로 단일 프롬프트에서 고품질의 짧은 비디오를 생성할 수 있게 되었지만, 실제 세계의 긴 비디오를 단일 패스로 생성하는 것은 데이터의 한계와 높은 계산 비용으로 인해 여전히 어려운 과제로 남아 있습니다. 이를 해결하기 위해 여러 연구에서는 튜닝이 필요 없는 접근 방식을 제안하며, 즉 기존 모델을 확장하여 긴 비디오 생성을 가능하게 하고, 특히 다중 프롬프트를 사용하여 동적이고 제어된 콘텐츠 변경을 허용합니다. 그러나 이러한 방법들은 주로 인접 프레임 간의 원활한 전환을 보장하는 데 초점을 맞추어, 종종 콘텐츠 드리프트와 더 긴 시퀀스에서의 의미적 일관성의 점진적인 손실을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 동기화된 결합 샘플링(SynCoS)이라는 새로운 추론 프레임워크를 제안합니다. 이 프레임워크는 전체 비디오에 걸쳐 디노이징 경로를 동기화하여 인접 및 먼 프레임 간의 장거리 일관성을 보장합니다. 우리의 접근 방식은 두 가지 상호 보완적인 샘플링 전략을 결합합니다: 역방향 샘플링과 최적화 기반 샘플링으로, 각각 원활한 지역 전환과 글로벌 일관성을 강화합니다. 그러나 이러한 샘플링을 직접 번갈아 사용하면 디노이징 궤적이 어긋나 프롬프트 지침을 방해하고 독립적으로 작동함으로써 의도하지 않은 콘텐츠 변경을 초래할 수 있습니다. 이를 해결하기 위해, SynCoS는 고정된 기준 노이즈와 접지된 타임스텝을 통해 이를 동기화하여 정렬된 디노이징 경로를 가진 완전히 결합된 샘플링을 보장합니다. 광범위한 실험을 통해 SynCoS가 다중 이벤트 긴 비디오 생성에서 상당한 개선을 이루어, 더 원활한 전환과 우수한 장거리 일관성을 달성하며, 이전 접근 방식들을 양적 및 질적으로 능가함을 보여줍니다.
테스트 시간 계산(test-time compute)은 OpenAI의 o1과 o3, 그리고 DeepSeek의 R1의 성공 사례에서 볼 수 있듯이, 언어 모델의 복잡한 다단계 추론 능력을 향상시키는 새로운 패러다임으로 부상하고 있습니다. 테스트 시간 계산에서의 명시적 추론과 비교할 때, 암묵적 추론은 더 적은 토큰을 생성함으로써 추론 효율성이 더 높습니다. 그러나 왜 이러한 고급 추론 능력이 암묵적 추론 스타일에서는 나타나지 않는 것일까요? 본 연구에서는 GPT-2를 다단계 수학적 추론 데이터셋에 대해 처음부터 학습시키고, 언어 모델이 다단계 작업에서 암묵적 추론을 어떻게 수행하는지 분석 실험을 진행했습니다. 연구 결과는 다음과 같습니다: 1) 언어 모델은 암묵적 추론을 통해 단계별 추론을 수행할 수 있으며, 도메인 내 및 도메인 외 테스트에서 높은 정확도를 달성할 수 있습니다. 그러나 이러한 능력은 고정된 패턴의 데이터로 학습할 때만 나타납니다. 2) 반면, 고정되지 않은 패턴의 데이터로 학습하여 나타나는 암묵적 추론 능력은 특정 패턴에 과적합되는 경향이 있어 더 나아가 일반화되지 못합니다. 특히, 이러한 한계는 최신 대형 언어 모델에서도 관찰됩니다. 이러한 결과는 언어 모델이 단축 학습(shortcut learning)을 통해 암묵적 추론을 습득하며, 유사한 패턴의 작업에서는 강력한 성능을 발휘하지만 일반화 능력이 부족함을 시사합니다.
최근 텍스트-이미지 생성 분야의 발전은 주로 방대한 데이터셋과 많은 매개변수를 가진 아키텍처에 의존해 왔습니다. 이러한 요구 사항은 상당한 컴퓨팅 자원을 갖추지 못한 연구자와 실무자들에게 접근성을 심각하게 제한합니다. 본 논문에서는 지식 증류(Knowledge Distillation, KD)와 직접 선호 최적화(Direct Preference Optimization, DPO)를 활용한 효율적인 이미지 생성 모델 훈련 패러다임인 \model을 소개합니다. 다중 모달 대형 언어 모델(Multi-Modal Large Language Models, MLLMs)에서 널리 채택된 데이터 KD 기술의 성공에서 영감을 받아, LightGen은 최첨단(SOTA) 텍스트-이미지 모델의 지식을 단 0.7B 매개변수를 가진 간결한 마스크드 자기회귀(Masked Autoregressive, MAR) 아키텍처로 증류합니다. 다양한 캡션에서 생성된 단 2M개의 고품질 이미지로 구성된 간결한 합성 데이터셋을 사용하여, 데이터 다양성이 모델 성능을 결정하는 데 있어 데이터 양보다 훨씬 중요함을 입증합니다. 이 전략은 컴퓨팅 요구 사항을 크게 줄이고, 사전 훈련 시간을 잠재적으로 수천 GPU-일에서 단 88 GPU-일로 단축합니다. 또한, 합성 데이터의 고주파 세부 사항과 공간적 정확도 부족과 같은 고유한 단점을 해결하기 위해, DPO 기술을 통합하여 이미지 충실도와 위치 정확도를 개선합니다. 포괄적인 실험을 통해 LightGen이 SOTA 모델과 비슷한 이미지 생성 품질을 달성하면서도 컴퓨팅 자원을 크게 절약하고, 자원이 제한된 환경에서의 접근성을 확장함을 확인했습니다. 코드는 https://github.com/XianfengWu01/LightGen에서 확인할 수 있습니다.
최근 통합 다중모달 이해 및 시각적 생성(또는 다중모달 생성) 모델의 발전은 이차 계산 복잡성과 대규모 학습 데이터에 대한 의존성으로 인해 제약을 받아왔습니다. 우리는 텍스트와 이미지를 통합된 다음 토큰 예측 패러다임을 통해 생성하는 최초의 선형 아키텍처 기반 다중모달 생성 모델인 OmniMamba를 제안합니다. 이 모델은 Mamba-2의 높은 계산 및 메모리 효율성을 완전히 활용하여 텍스트 생성에서 다중모달 생성으로 그 기능을 확장합니다. 기존 통합 모델의 데이터 비효율성을 해결하기 위해, 우리는 두 가지 주요 혁신을 제안합니다: (1) 모달리티별 생성을 안내하기 위한 분리된 어휘 사전, (2) 파라미터 효율적 적응을 위한 작업별 LoRA. 또한, 두 작업 간 데이터 불균형을 완화하기 위해 분리된 두 단계 학습 전략을 도입했습니다. 이러한 기술을 통해 OmniMamba는 JanusFlow와 경쟁력 있는 성능을 달성하면서 Show-o를 벤치마크에서 능가하며, 단 2M개의 이미지-텍스트 쌍으로 학습되었음에도 불구하고 Show-o보다 1,000배 적은 데이터로 학습되었습니다. 특히, OmniMamba는 뛰어난 추론 효율성으로 두드러지며, Transformer 기반 대비 최대 119.2배의 속도 향상과 63%의 GPU 메모리 감소를 달성했습니다. 코드와 모델은 https://github.com/hustvl/OmniMamba에서 공개되었습니다.
실제 애플리케이션에서 LLM(Large Language Models)과 함께 명령어 수행 검색기(instruction-following retrievers)가 널리 사용되고 있지만, 이들의 검색 능력이 증가함에 따른 안전성 위험에 대한 연구는 거의 이루어지지 않았습니다. 본 연구에서는 검색기가 악의적인 쿼리를 충족시키는 능력을 실증적으로 분석하며, 이를 직접 사용할 때와 검색 강화 생성(retrieval augmented generation) 기반 설정에서 사용할 때 모두를 고려합니다. 구체적으로, NV-Embed와 LLM2Vec을 포함한 6개의 주요 검색기를 조사한 결과, 악의적인 요청이 주어졌을 때 대부분의 검색기(>50%의 쿼리에서)가 관련된 유해한 문서를 선택할 수 있음을 발견했습니다. 예를 들어, LLM2Vec은 악의적인 쿼리의 61.35%에 대해 정확한 문서를 선택했습니다. 또한, 명령어 수행 검색기의 새로운 위험 요소를 발견했는데, 이는 명령어 수행 능력을 악용하여 고도로 관련된 유해 정보를 노출시킬 수 있다는 점입니다. 마지막으로, Llama3과 같은 안전성이 강화된 LLM조차도 컨텍스트 내에서 유해한 검색 결과가 제공되면 악의적인 요청을 충족시킬 수 있음을 보여줍니다. 요약하자면, 본 연구 결과는 검색기 능력 증가와 관련된 악의적 오용 위험을 강조합니다.
코드 로컬라이제이션(Code Localization)—코드베이스 내에서 정확히 어디를 변경해야 하는지 식별하는 작업—은 소프트웨어 유지보수에서 기본적이면서도 어려운 과제입니다. 기존의 접근 방식은 관련 코드 섹션을 식별할 때 복잡한 코드베이스를 효율적으로 탐색하는 데 어려움을 겪습니다. 이 문제는 자연어로 된 문제 설명과 적절한 코드 요소를 연결하는 데 있으며, 종종 계층적 구조와 다중 의존성을 넘나드는 추론이 필요합니다. 우리는 그래프 기반 표현을 통해 코드 로컬라이제이션을 해결하는 LocAgent 프레임워크를 소개합니다. LocAgent는 코드베이스를 방향성 이종 그래프로 파싱하여 파일, 클래스, 함수와 같은 코드 구조와 그들의 의존성(임포트, 호출, 상속)을 포착하는 경량 표현을 생성합니다. 이를 통해 LLM 에이전트가 강력한 다중 홉 추론을 통해 관련 엔티티를 효과적으로 검색하고 위치를 파악할 수 있습니다. 실제 벤치마크에서의 실험 결과는 우리의 접근 방식이 코드 로컬라이제이션의 정확도를 크게 향상시킴을 보여줍니다. 특히, 미세 조정된 Qwen-2.5-Coder-Instruct-32B 모델을 사용한 우리의 방법은 SOTA 독점 모델과 비슷한 결과를 훨씬 낮은 비용(약 86% 절감)으로 달성하며, 파일 수준 로컬라이제이션에서 최대 92.7%의 정확도를 보입니다. 또한 다중 시도(Pass@10)에서 GitHub 이슈 해결 성공률을 12% 향상시켰습니다. 우리의 코드는 https://github.com/gersteinlab/LocAgent에서 확인할 수 있습니다.
인간이 외부 세계와 상호작용하는 것은 근본적으로 개인적인 기억의 교환을 포함하며, 이는 다른 개인, 웹사이트, 애플리케이션, 그리고 미래에는 AI 에이전트와의 상호작용에서도 마찬가지입니다. 이러한 상호작용의 상당 부분은 중복적이며, 사용자들은 다양한 상황에서 동일한 정보를 반복적으로 제공해야 합니다. 기존의 해결책들, 예를 들어 브라우저에 저장된 자격 증명, 자동 채우기 메커니즘, 통합 인증 시스템 등은 일반적으로 사용되는 사용자 데이터를 저장하고 검색하는 중개자 역할을 함으로써 이러한 중복을 줄이려고 노력해 왔습니다. 대형 언어 모델(LLM)의 등장은 AI 네이티브 패러다임을 통해 기억 관리를 재정의할 기회를 제공합니다: SECOND ME. SECOND ME는 지능적이고 지속적인 기억 오프로드 시스템으로, 사용자별 지식을 유지, 조직화, 동적으로 활용합니다. 사용자 상호작용에서 중개자 역할을 함으로써, 컨텍스트 인식 응답을 자율적으로 생성하고, 필요한 정보를 미리 채우며, 외부 시스템과의 원활한 통신을 촉진하여 인지 부하와 상호작용 마찰을 크게 줄입니다. 전통적인 기억 저장 솔루션과 달리, SECOND ME는 LLM 기반의 기억 파라미터화를 활용하여 정적 데이터 보존을 넘어선 구조화된 조직화, 컨텍스트 추론, 적응형 지식 검색을 가능하게 하여 더 체계적이고 지능적인 기억 관리 접근 방식을 촉진합니다. SECOND ME와 같은 AI 기반 개인 에이전트가 디지털 생태계에 점점 더 통합됨에 따라, SECOND ME는 지속적이고 컨텍스트 인식적이며 자기 최적화하는 기억 시스템을 통해 인간-세계 상호작용을 증강하는 중요한 단계를 나타냅니다. 우리는 GitHub에서 완전히 현지화 가능한 배포 시스템을 오픈소스로 공개했습니다: https://github.com/Mindverse/Second-Me.
본 논문에서는 PCA(주성분 분석)와 유사한 구조를 잠재 토큰 공간에 수학적으로 증명 가능한 형태로 내재화한 새로운 시각적 토큰화 프레임워크를 소개한다. 기존의 시각적 토큰화 방법들은 주로 재구성 정확도에 초점을 맞추는 반면, 잠재 공간의 구조적 특성 — 해석 가능성과 다운스트림 작업 모두에 있어 중요한 요소 — 을 간과하는 경향이 있었다. 제안된 방법은 이미지에 대해 1D 인과적(causal) 토큰 시퀀스를 생성하며, 각 연속적인 토큰은 수학적으로 보장된 감소하는 설명 분산을 통해 중첩되지 않는 정보를 제공한다. 이는 주성분 분석과 유사한 구조적 제약을 통해 토큰화기가 가장 중요한 시각적 특징을 먼저 추출하고, 이후의 각 토큰이 점차 감소하지만 보완적인 정보를 추가하도록 보장한다. 또한, 디퓨전 디코더를 활용하여 토큰 내에서 고수준의 의미적 내용과 저수준의 스펙트럼 세부 정보가 원치 않게 얽히는 의미-스펙트럼 결합 효과를 식별하고 해결하였다. 실험 결과, 제안된 접근법은 최첨단 재구성 성능을 달성함과 동시에 인간 시각 시스템과 더 잘 일치하는 해석 가능성을 제공한다. 더 나아가, 제안된 토큰 시퀀스로 학습된 자동회귀 모델은 현재의 최첨단 방법들과 비슷한 성능을 보이면서도 학습 및 추론에 필요한 토큰 수를 줄일 수 있음을 확인하였다.
멀티모달 기초 모델이 자율주행 자동차에 실험적으로 배포되기 시작하면서, 우리가 스스로에게 던지는 합리적인 질문은 이러한 시스템이 특정 운전 상황에서, 특히 훈련 데이터 분포를 벗어난 상황에서 인간과 얼마나 유사하게 반응하는가 하는 것이다. 이를 연구하기 위해 우리는 세계에서 가장 공격적인 운전자, 높은 교통 지수, 그리고 훈련 중에 본 적이 없을 법한 기이한 도로 물체의 높은 비율을 가진 페루의 대시캠 비디오 데이터를 사용한 Robusto-1 데이터셋을 구축했다. 특히, 기초 시각 언어 모델(VLMs)이 운전 상황에서 인간과 얼마나 잘 비교되는지를 인지적 수준에서 예비적으로 테스트하기 위해, 우리는 바운딩 박스, 세그멘테이션 맵, 점유 맵 또는 궤적 추정에서 벗어나 멀티모달 시각 질의 응답(VQA)을 통해 인간과 기계를 비교한다. 이를 위해 시스템 신경과학에서 널리 사용되는 표현 유사성 분석(RSA) 방법을 활용한다. 우리가 묻는 질문의 유형과 이러한 시스템이 제공하는 답변에 따라, VLMs와 인간이 수렴하거나 분기하는 경우를 보여줌으로써 그들의 인지적 정렬을 탐구할 수 있다. 우리는 각 유형의 시스템(인간 대 VLMs)에 묻는 질문의 유형에 따라 정렬 정도가 크게 달라지는 것을 발견했으며, 이는 그들의 정렬 간에 간극이 있음을 강조한다.
본 논문에서는 동적 시청각 자극 중 동시에 기록된 EEG와 fMRI 데이터를 포함한 최초의 대규모 데이터셋인 CineBrain을 소개합니다. EEG의 높은 시간 해상도와 fMRI의 깊은 뇌 공간 커버리지의 상호 보완적 강점을 인식하여, CineBrain은 인기 TV 시리즈인 'The Big Bang Theory'에서 추출한 약 6시간 분량의 내러티브 기반 콘텐츠를 6명의 참가자 각각에 대해 제공합니다. 이 독특한 데이터셋을 기반으로, 우리는 Multi-Modal Fusion Encoder와 확산 기반 Neural Latent Decoder를 통합한 혁신적인 다중 모드 디코딩 프레임워크인 CineSync를 제안합니다. 우리의 접근 방식은 EEG와 fMRI 신호를 효과적으로 융합하여 복잡한 시청각 자극의 재구성 품질을 크게 향상시킵니다. 엄격한 평가를 위해, 우리는 의미론적 및 지각적 차원에서 재구성을 평가하는 포괄적인 평가 프로토콜인 Cine-Benchmark를 도입합니다. 실험 결과는 CineSync가 최첨단 비디오 재구성 성능을 달성하며, 비디오와 오디오 자극을 재구성하기 위해 fMRI와 EEG를 결합한 초기 성공을 강조합니다. 프로젝트 페이지: https://jianxgao.github.io/CineBrain.
대규모 시각-언어 모델(LVLMs)은 놀라운 성과를 보여주었지만, 사실 탐구 질의응답(QA)에서 비사실적인 응답 생성은 여전히 흔히 발생합니다. 현재의 다중모달 사실 탐구 벤치마크는 주로 모델 출력과 정답을 비교하는 데 초점을 맞추어, 모달리티별 모듈의 성능에 대한 통찰을 제한적으로 제공합니다. 이러한 격차를 해소하기 위해, 우리는 VisualSimpleQA라는 두 가지 주요 특징을 가진 다중모달 사실 탐구 벤치마크를 소개합니다. 첫째, 이 벤치마크는 LVLMs의 시각 및 언어 모달리티에 대한 간소화되고 분리된 평가를 가능하게 합니다. 둘째, 잘 정의된 난이도 기준을 통합하여 인간 주석을 안내하고, 도전적인 하위 집합인 VisualSimpleQA-hard의 추출을 용이하게 합니다. 15개의 LVLMs에 대한 실험 결과, GPT-4o와 같은 최첨단 모델조차 VisualSimpleQA에서 다중모달 사실 탐구 QA에서 60% 이상의 정확도를, VisualSimpleQA-hard에서는 30% 이상의 정확도를 달성하는 데 그쳤습니다. 더 나아가, 이러한 모델들에 대한 분리된 평가는 시각 및 언어 모듈 모두에서 상당한 개선의 여지가 있음을 강조합니다. 이 데이터셋은 https://huggingface.co/datasets/WYLing/VisualSimpleQA에서 이용 가능합니다.
벤치마크는 일관된 평가와 재현성을 위해 필수적입니다. 소프트웨어 공학에 인공지능을 통합하는 AI4SE(Artificial Intelligence for Software Engineering)는 코드 생성 및 버그 수정과 같은 작업을 위한 수많은 벤치마크를 탄생시켰습니다. 그러나 이러한 급증은 다음과 같은 문제를 야기합니다: (1) 작업 간에 흩어진 벤치마크 지식, (2) 관련 벤치마크 선택의 어려움, (3) 벤치마크 개발을 위한 통일된 표준의 부재, (4) 기존 벤치마크의 한계. 본 논문에서는 173개의 연구를 검토하고 204개의 AI4SE 벤치마크를 식별했습니다. 우리는 이러한 벤치마크를 분류하고, 그 한계를 분석하며, 실제 적용에서의 격차를 드러냈습니다. 이 검토를 바탕으로, 관련 연구의 문맥을 자동으로 클러스터링하여 관련 벤치마크를 찾을 수 있는 의미 기반 검색 도구인 BenchScout를 개발했습니다. BenchScout의 사용성, 효과성, 직관성을 평가하기 위해 22명의 참가자를 대상으로 사용자 연구를 진행했으며, 각각 5점 만점에 평균 4.5, 4.0, 4.1점을 기록했습니다. 벤치마킹 표준을 발전시키기 위해, 우리는 벤치마크 품질을 향상시키는 통합 방법론인 BenchFrame을 제안합니다. 사례 연구로, BenchFrame을 HumanEval 벤치마크에 적용하여 주요 한계를 해결했습니다. 이를 통해 (1) 오류 수정, (2) 언어 변환 개선, (3) 테스트 커버리지 확장, (4) 난이도 증가를 특징으로 하는 HumanEvalNext를 개발했습니다. 그런 다음, HumanEval, HumanEvalPlus, HumanEvalNext에서 최신 코드 언어 모델 10개를 평가했습니다. HumanEvalNext에서 모델들은 HumanEval 및 HumanEvalPlus에 비해 각각 31.22%, 19.94%의 pass@1 점수 감소를 보였습니다.
대규모 언어 모델의 뉴런들은 종종 다의성을 보이며, 여러 개의 관련 없는 개념을 동시에 인코딩함으로써 해석 가능성을 흐리게 합니다. 사후 해석 방법에 의존하는 대신, 본질적으로 해석 가능하도록 설계된 Mixture-of-Experts(MoE) 언어 모델인 MoE-X를 제안합니다. 우리의 접근 방식은 언어 모델에서 더 넓은 네트워크와 희소 활성화가 해석 가능한 요소를 포착할 가능성이 더 높다는 관찰에 기반합니다. 그러나 이러한 대규모 희소 네트워크를 직접 학습시키는 것은 계산적으로 비현실적입니다. MoE 아키텍처는 주어진 입력에 대해 전문가의 일부만 활성화함으로써 확장 가능한 대안을 제공하며, 이는 해석 가능성 목표와 본질적으로 일치합니다. MoE-X에서는 MoE 레이어를 동등한 희소 대규모 MLP로 재구성함으로써 이러한 연결을 확립합니다. 이 접근 방식은 희소성을 유지하면서 은닉층 크기를 효율적으로 확장할 수 있게 합니다. 해석 가능성을 더욱 강화하기 위해, 각 전문가 내에서 희소 활성화를 강제하고, 활성화 희소성이 가장 높은 전문가를 우선적으로 선택하도록 라우팅 메커니즘을 재설계합니다. 이러한 설계는 가장 중요한 특징만이 전문가에 의해 라우팅되고 처리되도록 보장합니다. MoE-X를 체스 및 자연어 작업에서 평가한 결과, 밀집 모델과 비슷한 성능을 달성하면서도 해석 가능성을 크게 개선함을 보여줍니다. MoE-X는 GPT-2보다 더 나은 perplexity를 달성하며, 희소 오토인코더(SAE) 기반 접근법을 능가하는 해석 가능성을 보입니다.
오디오-비디오(AV) 결합 생성은 생성형 AI에서 여전히 중요한 과제로 남아 있으며, 이는 주로 세 가지 핵심 요구 사항 때문입니다: 생성된 샘플의 품질, 원활한 다중 모달 동기화 및 시간적 일관성(오디오 트랙이 시각 데이터와 일치하고 그 반대도 마찬가지여야 함), 그리고 무제한의 비디오 지속 시간. 본 논문에서는 AV 생성의 모든 주요 과제를 해결하는 새로운 트랜스포머 기반 아키텍처를 제시합니다. 우리는 세 가지 독특한 교차 모달리티 상호작용 모듈을 탐구하며, 그중에서도 경량화된 시간적 융합 모듈이 오디오와 시각 모달리티를 정렬하는 데 가장 효과적이고 계산적으로 효율적인 접근 방식으로 부각되었습니다. 우리의 실험 결과는 이 모델이 다중 모달 AV 생성 작업에서 기존의 최첨단 모델들을 능가함을 보여줍니다. 우리의 코드와 체크포인트는 https://github.com/ErgastiAlex/R-FLAV에서 확인할 수 있습니다.
학습 기반 모션 인비트윈(motion in-betweening) 기술의 최근 발전에도 불구하고, 한 가지 주요한 제한 사항이 간과되어 왔습니다: 캐릭터 특정 데이터셋의 필요성입니다. 본 연구에서는 이러한 한계를 해결하기 위해 비디오 확산 모델(video diffusion model)을 활용하여 외부 데이터 없이도 임의의 캐릭터에 대한 모션 인비트윈 프레임을 생성하는 새로운 방법인 AnyMoLe를 소개합니다. 우리의 접근 방식은 문맥 이해를 강화하기 위해 두 단계의 프레임 생성 프로세스를 사용합니다. 더 나아가, 실제 세계와 렌더링된 캐릭터 애니메이션 간의 도메인 격차를 해소하기 위해 비디오 확산 모델을 미세 조정하는 ICAdapt 기술을 도입했습니다. 또한, 2D 및 3D 인식 기능을 사용하여 임의의 관절 구조를 가진 캐릭터에 대해 원활한 모션 생성을 가능하게 하는 "모션-비디오 모방(motion-video mimicking)" 최적화 기술을 제안합니다. AnyMoLe는 데이터 의존성을 크게 줄이면서도 부드럽고 현실적인 전환을 생성하여 다양한 모션 인비트윈 작업에 적용 가능하게 합니다.
기존 연구들은 언어 모델이 고정관념적 편향을 나타낸다는 것을 입증해 왔습니다. 반사실적 데이터를 사용한 모델 재학습, 표현 투영, 프롬프팅과 같은 기존의 편향 제거 전략들은 종종 편향을 효율적으로 제거하지 못하거나 모델의 편향된 내부 표현을 직접적으로 변경하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 경량 네트워크를 편집자로 활용하여 매개변수 업데이트를 생성함으로써 언어 모델의 고정관념적 편향을 제거하는 효율적인 모델 편집 방법인 BiasEdit을 제안합니다. BiasEdit은 편향 제거 손실을 사용하여 편집자 네트워크가 언어 모델의 일부 매개변수에 대해 지역적 편집을 수행하도록 유도하며, 편집 과정에서 언어 모델링 능력을 보존하기 위해 보존 손실을 활용합니다. StereoSet과 Crows-Pairs에서의 실험은 BiasEdit이 접선적 편향 제거 기준선과 비교하여 편향을 제거하는 데 있어 효과적이고 효율적이며 견고함을 보여주며, 언어 모델의 일반적인 능력에 거의 영향을 미치지 않음을 입증합니다. 또한, 우리는 다양한 모듈에서의 편향을 탐색하기 위해 편향 추적을 수행하고, 언어 모델의 다양한 구성 요소에 대한 편향 편집의 영향을 탐구합니다.
인간은 컴퓨터 비전에서 의심할 여지 없이 가장 중요한 참여자이며, 자연어 설명을 통해 특정 개인을 탐지하는 능력은 우리가 '사람 참조(person referring)'로 정의한 작업으로서 상당한 실용적 가치를 지닙니다. 그러나 기존 모델들은 일반적으로 실세계에서의 사용성을 달성하지 못하고 있으며, 현재 벤치마크들은 일대일 참조에 초점을 맞춤으로써 이 분야의 진전을 저해하고 있습니다. 본 연구에서는 이 작업을 세 가지 중요한 관점에서 재검토합니다: 작업 정의, 데이터셋 설계, 그리고 모델 아키텍처. 먼저, 참조 가능한 개체의 다섯 가지 측면과 이 작업의 세 가지 독특한 특성을 식별합니다. 다음으로, 이러한 도전 과제를 해결하고 실세계 응용을 더 잘 반영하기 위해 HumanRef라는 새로운 데이터셋을 소개합니다. 모델 설계 관점에서는, 다중모드 대형 언어 모델을 객체 탐지 프레임워크와 통합하여 RexSeek이라는 강력한 참조 모델을 구축합니다. 실험 결과, RefCOCO/+/g와 같은 일반적으로 사용되는 벤치마크에서 우수한 성능을 보이는 최첨단 모델들은 다수의 개인을 탐지하지 못해 HumanRef에서 어려움을 겪는 반면, RexSeek은 사람 참조에서 뛰어난 성능을 보일 뿐만 아니라 일반 객체 참조에도 효과적으로 일반화되어 다양한 인식 작업에 광범위하게 적용 가능함을 보여줍니다. 코드는 https://github.com/IDEA-Research/RexSeek에서 확인할 수 있습니다.
확산 모델(Diffusion models)과 플로우 매칭(Flow Matching)은 고품질 샘플을 생성하지만 추론 속도가 느리며, 이를 적은 단계의 모델로 증류(distilling)할 경우 종종 불안정성과 광범위한 튜닝이 필요합니다. 이러한 절충점을 해결하기 위해, 우리는 단일 단계의 훈련 절차로 1단계 또는 소수 단계 샘플링이 가능한 새로운 생성 모델 클래스인 귀납적 모멘트 매칭(Inductive Moment Matching, IMM)을 제안합니다. 증류와 달리, IMM은 사전 훈련된 초기화와 두 네트워크의 최적화를 필요로 하지 않으며, 일관성 모델(Consistency Models)과 달리 분포 수준의 수렴을 보장하고 다양한 하이퍼파라미터와 표준 모델 아키텍처 하에서도 안정적으로 유지됩니다. IMM은 ImageNet-256x256에서 단 8번의 추론 단계로 1.99 FID를 달성하며, CIFAR-10에서 처음부터 훈련된 모델로 2단계 FID 1.98의 최첨단 성능을 보여줍니다.
이전 연구들에 따르면, PLM 기반 검색 모델들은 LLM 생성 콘텐츠에 대한 선호도를 보이며, 이러한 문서들에 더 높은 관련성 점수를 부여하는 경향이 있습니다. 이는 인간이 작성한 문서와 의미적 품질이 비슷한 경우에도 마찬가지입니다. 이러한 현상은 소스 편향(source bias)으로 알려져 있으며, 정보 접근 생태계의 지속 가능한 발전을 위협합니다. 그러나 소스 편향의 근본적인 원인은 아직 탐구되지 않았습니다. 본 논문에서는 정보 검색 과정을 인과 그래프로 설명하고, PLM 기반 검색기가 관련성 추정을 위해 perplexity 특징을 학습함으로써 낮은 perplexity를 가진 문서를 더 높은 순위로 매기는 것이 소스 편향을 유발한다는 것을 발견했습니다. 이론적 분석은 더 나아가 이 현상이 언어 모델링 작업과 검색 작업의 손실 함수 기울기 간의 양의 상관관계에서 비롯됨을 밝혔습니다. 이러한 분석을 바탕으로, 인과 관계에 기반한 추론 시점 편향 제거 방법인 Causal Diagnosis and Correction (CDC)을 제안합니다. CDC는 먼저 perplexity의 편향 효과를 진단한 다음, 전체 추정 관련성 점수에서 편향 효과를 분리합니다. 세 가지 도메인에서의 실험 결과는 CDC의 우수한 편향 제거 효과를 입증하며, 제안된 설명 프레임워크의 타당성을 강조합니다. 소스 코드는 https://github.com/WhyDwelledOnAi/Perplexity-Trap에서 확인할 수 있습니다.
확산 모델(Diffusion Model)은 다양한 분야에서 놀라운 성공을 거두었습니다. 그러나 느린 생성 속도는 여전히 중요한 과제로 남아 있습니다. 기존의 가속화 방법들은 단계를 줄이려는 목표를 가지고 있지만, 샘플 품질이나 제어 가능성을 희생하거나 훈련 복잡성을 증가시키는 경우가 많습니다. 따라서 우리는 이러한 한계를 해결하기 위한 새로운 확산 프레임워크인 RayFlow를 제안합니다. 이전 방법들과 달리, RayFlow는 각 샘플을 인스턴스별 목표 분포로 향하는 고유한 경로를 따라 안내합니다. 이 방법은 샘플링 단계를 최소화하면서도 생성 다양성과 안정성을 유지합니다. 또한, 우리는 중요한 시간 단계에 집중하여 훈련 효율성을 향상시키는 중요도 샘플링 기법인 Time Sampler를 도입했습니다. 광범위한 실험을 통해 RayFlow가 기존 가속화 기술에 비해 향상된 속도, 제어력, 훈련 효율성으로 고품질 이미지를 생성하는 데 있어 우수성을 입증했습니다.
신경망 기계 번역(NMT) 분야는 대규모 언어 모델(LLM)의 등장으로 변화를 겪었습니다. 최근 자연어 처리(NLP) 분야에서는 단일 사전 학습된 트랜스포머 디코더를 사용하여 기계 번역 및 다양한 문제를 모델링하는 데 초점이 맞춰져 왔으며, 이전 NMT 모델에서 표준이었던 인코더-디코더 아키텍처는 상대적으로 덜 주목받아 왔습니다. 본 논문에서는 LLM의 세계와 NMT의 세계를 결합하여 보편적이고 효율적이며 최적화가 쉬운 번역 모델을 탐구합니다. 우리는 LLM을 NMT 인코딩에 적용하고 NMT 디코더는 그대로 유지합니다. 또한 LLM이 NMT 디코더와 더 잘 작동하도록 조정하는 방법을 개발합니다. 더 나아가, 기계 번역 시스템이 다양한 작업에서 얼마나 잘 일반화되는지 평가하기 위해 여러 작업을 포함한 새로운 데이터셋을 구축합니다. WMT 및 우리의 데이터셋에 대한 평가 결과, 우리의 방법을 사용한 결과는 번역 품질 측면에서 다양한 기준선과 동등하거나 이를 능가하는 동시에 추론 속도가 2.4~6.5배 빨라지고 KV 캐시의 메모리 사용량이 75% 감소함을 보여줍니다. 또한 이 방법은 다양한 번역 관련 작업에서 강력한 일반화 능력을 입증합니다.
최근 긴 비디오 이해 분야의 발전은 주로 주의 분포를 기반으로 시각적 토큰 가지치기를 통해 시각적 중복성을 완화하는 방식으로 이루어졌습니다. 그러나 기존 방법들은 디코더 레이어에서 사후적으로 낮은 응답을 보이는 토큰을 가지치기하는 반면, 시각적 토큰과 지시문(쿼리) 간의 입력 수준에서의 의미적 상관관계를 간과하고 있습니다. 본 논문에서는 쿼리 지향 프레임 중요도 평가를 기반으로 시각적 토큰 할당을 위해 기존의 대형 비디오-언어 모델(LVLMs)을 확장하는 사전 학습이 필요 없는 모듈인 QuoTA를 제안합니다. 쿼리 지향 토큰 선택은 시각적 처리를 작업별 요구사항에 맞추어 조정함으로써 토큰 예산 활용을 최적화하고 의미적으로 관련된 콘텐츠를 보존하는 데 중요합니다. 구체적으로, (i) QuoTA는 쿼리 관련성을 기반으로 프레임 중요도 점수를 전략적으로 할당하여 디코더 레이어에서의 교차 모달 상호작용 전에 일회성 시각적 토큰 할당을 가능하게 하고, (ii) Chain-of-Thoughts 추론을 통해 쿼리를 분리하여 더 정확한 LVLM 기반 프레임 중요도 점수 산출을 용이하게 하며, (iii) QuoTA는 기존 LVLMs에 확장 가능한 플러그 앤 플레이 기능을 제공합니다. 광범위한 실험 결과, LLaVA-Video-7B에 QuoTA를 적용하면 동일한 시각적 토큰 예산 내에서 Video-MME 및 MLVU를 포함한 6개 벤치마크에서 평균 3.2%의 성능 향상을 보였습니다. 코드는 https://github.com/MAC-AutoML/QuoTA에서 공개되어 있습니다.
단순해 보이지만, 이미지 내에서 객체를 다른 위치로 이동시키는 작업은 사실상 도전적인 이미지 편집 작업으로, 조명 재조정, 원근법에 따른 포즈 조정, 가려진 영역의 정확한 채우기, 그림자와 반사의 일관된 동기화를 보장하면서도 객체의 정체성을 유지해야 합니다. 본 논문에서는 이러한 도전적인 장면에서 객체 이동을 수행할 수 있는 생성 모델인 ObjectMover를 소개합니다. 우리의 핵심 통찰은 이 작업을 시퀀스-투-시퀀스 문제로 모델링하고 비디오 생성 모델을 미세 조정하여 비디오 프레임 간 일관된 객체 생성 지식을 활용하는 것입니다. 이 접근 방식을 통해 우리의 모델이 복잡한 실제 시나리오에 적응하고, 극단적인 조명 조정 및 객체 효과 이동을 처리할 수 있음을 보여줍니다. 객체 이동을 위한 대규모 데이터가 부재하므로, 우리는 현대 게임 엔진을 사용하여 고품질 데이터 쌍을 합성하는 데이터 생성 파이프라인을 구축했습니다. 또한, 모델의 일반화를 개선하기 위해 실제 비디오 데이터에 대한 학습을 가능하게 하는 다중 작업 학습 전략을 제안합니다. 광범위한 실험을 통해 ObjectMover가 우수한 결과를 달성하고 실제 시나리오에 잘 적응함을 입증합니다.
전문가 혼합(Mixture of Experts, MoE)은 희소 전문가 활성화를 활용하여 대규모 언어 모델의 확장성을 높이는 동시에 성능과 효율성 간의 균형을 최적화하는 효과적인 아키텍처입니다. 그러나 전문가 병렬 처리(Expert Parallelism) 하에서 MoE는 토큰-전문가 할당의 불균형으로 인해 추론 효율성이 저하되는 문제를 겪습니다. 이는 일부 전문가는 과도하게 부하가 걸리는 반면, 다른 전문가는 활용도가 낮아지는 현상으로, 이로 인해 자원 활용도가 저하되고 지연 시간이 증가합니다. 이러한 현상을 우리는 \textit{지체 효과(Straggler Effect)}로 정의합니다. 이를 완화하기 위해 우리는 용량 인지 추론(Capacity-Aware Inference)을 제안하며, 이는 두 가지 핵심 기술로 구성됩니다: (1) \textit{용량 인지 토큰 드롭(Capacity-Aware Token Drop)}은 과부하된 토큰을 폐기하여 MoE의 최대 지연 시간을 조절하고, (2) \textit{용량 인지 토큰 재라우팅(Capacity-Aware Token Reroute)}은 오버플로된 토큰을 활용도가 낮은 전문가로 재할당하여 토큰 분포를 균형 있게 조정합니다. 이러한 기술들은 고부하 및 저부하 전문가의 활용을 최적화함으로써 더 효율적인 MoE 추론 파이프라인을 구현합니다. 광범위한 실험을 통해 우리의 방법이 추론 효율성을 크게 개선함을 입증했으며, 예를 들어 Mixtral-8x7B-Instruct 모델에서 평균 성능 0.2% 향상과 1.94배의 추론 속도 향상을 보였습니다.
밀집 검색 모델은 정보 검색(IR) 애플리케이션, 특히 검색 증강 생성(RAG)과 같은 분야에서 널리 사용됩니다. 이러한 시스템에서 첫 번째 단계로 자주 활용되기 때문에, 이들의 견고성은 실패를 방지하는 데 매우 중요합니다. 본 연구에서는 관계 추출 데이터셋(예: Re-DocRED)을 재활용하여, Dragon+ 및 Contriever와 같은 검색 모델에서 짧은 문서를 선호하는 휴리스틱 편향의 영향을 정량적으로 측정하기 위한 통제 실험을 설계했습니다. 연구 결과에 따르면, 검색 모델들은 종종 문서의 시작 부분을 과도하게 우선시하거나, 짧은 문서, 반복된 엔티티, 문자 그대로의 일치와 같은 피상적인 패턴에 의존하는 것으로 나타났습니다. 또한, 문서가 쿼리의 답을 포함하고 있는지 여부를 간과하며, 깊은 의미적 이해가 부족한 것으로 드러났습니다. 특히, 여러 편향이 결합될 경우 모델의 성능이 심각하게 저하되어, 답을 포함하지 않은 편향된 문서를 선택하는 비율이 3% 미만으로 떨어지는 것으로 확인되었습니다. 더 나아가, 이러한 편향은 RAG와 같은 다운스트림 애플리케이션에 직접적인 영향을 미치며, 검색 모델이 선호하는 문서가 대형 언어 모델(LLM)을 오도하여 아무런 문서를 제공하지 않았을 때보다 34% 더 낮은 성능을 보이는 결과를 초래했습니다.
지능은 제한된 시행착오 횟수 내에서 해결책을 찾아내는 데 있어 생물 종에게 필수적인 특성입니다. 이러한 아이디어를 바탕으로, 우리는 시행착오 과정에서의 실패 횟수를 기반으로 지능을 평가하는 프레임워크로서 '생존 게임(Survival Game)'을 소개합니다. 실패 횟수가 적을수록 더 높은 지능을 나타냅니다. 실패 횟수의 기대값과 분산이 모두 유한할 때, 이는 새로운 도전에 대해 일관되게 해결책을 찾아낼 수 있는 능력을 의미하며, 이를 우리는 '자율 수준(Autonomous Level)'의 지능으로 정의합니다. 생존 게임을 사용하여 우리는 기존 AI 시스템을 포괄적으로 평가했습니다. 그 결과, AI 시스템이 단순한 작업에서는 자율 수준에 도달했지만, 시각, 검색, 추천, 언어와 같은 더 복잡한 작업에서는 여전히 그 수준에 미치지 못하는 것으로 나타났습니다. 현재의 AI 기술을 확장하는 것이 도움이 될 수는 있지만, 이는 천문학적인 비용을 수반할 것입니다. 예측에 따르면, 일반적인 작업에 대해 자율 수준을 달성하려면 10^{26}개의 파라미터가 필요할 것으로 보입니다. 이를 더 쉽게 이해하기 위해, 이렇게 거대한 모델을 로드하는 데 필요한 H100 GPU의 총 가치는 Apple Inc.의 시가총액의 10^{7}배에 달합니다. 무어의 법칙을 고려하더라도, 이러한 규모의 파라미터를 지원하는 데는 70년이 걸릴 것입니다. 이 엄청난 비용은 인간 작업의 복잡성과 현재 AI 기술의 부족함을 강조합니다. 이 현상을 더 깊이 연구하기 위해, 우리는 생존 게임과 그 실험 결과에 대한 이론적 분석을 수행했습니다. 우리의 연구 결과는 인간 작업이 임계성(criticality) 특성을 가지고 있음을 시사합니다. 결과적으로, 자율 수준은 작업의 근본적인 메커니즘에 대한 깊은 이해를 요구합니다. 그러나 현재의 AI 시스템은 이러한 메커니즘을 완전히 이해하지 못하고 표면적인 모방에 의존하고 있어, 자율 수준에 도달하기 어렵습니다. 우리는 생존 게임이 AI의 미래 발전을 이끌 뿐만 아니라 인간 지능에 대한 깊은 통찰을 제공할 수 있다고 믿습니다.
언어 모델에서 발생하는 환각적 출력은 의료 분야에서 특히 건강 관련 결정을 내리는 일반 대중에게 위험을 초래할 수 있습니다. 기존의 사실성 평가 방법, 예를 들어 함의 기반 및 질의응답 기반(QA) 방법은, 이해를 돕기 위해 원본 문서에 없는 외부 내용(예: 정의, 배경, 예시)을 도입하는 설명적 설명 현상으로 인해 일반 언어 요약(PLS) 생성에서 어려움을 겪습니다. 이를 해결하기 위해, 우리는 세분화된 인간 주석 데이터셋인 PlainFact를 기반으로 훈련된 PlainQAFact 프레임워크를 소개합니다. 이 프레임워크는 원본을 단순화한 문장과 설명적으로 설명된 문장의 사실성을 평가합니다. PlainQAFact는 먼저 사실성 유형을 분류한 후, 검색 강화 QA 기반 점수 방법을 사용하여 사실성을 평가합니다. 우리의 접근 방식은 경량이며 계산적으로 효율적입니다. 실험 결과는 기존의 사실성 메트릭이 PLS의 사실성을 효과적으로 평가하지 못하는 반면, 특히 설명적 설명에 대해 PlainQAFact가 최신 성능을 달성함을 보여줍니다. 우리는 외부 지식 소스, 답변 추출 전략, 중첩 측정 및 문서 세분화 수준에 걸쳐 그 효과를 추가로 분석하여 전반적인 사실성 평가를 개선합니다.
오늘날 디지털 시대에 점점 증가하는 카메라 수로 인해 프라이버시에 대한 우려가 커지고 있습니다. 기존의 익명화 방법들은 신원 정보를 숨기는 데는 성공하지만, 이미지의 유용성을 보존하는 데는 어려움을 겪는 경우가 많습니다. 본 연구에서는 신원과 무관한 주요 속성을 보존하면서 얼굴 익명화를 수행하는 학습이 필요 없는 방법을 소개합니다. 우리의 접근 방식은 최적화나 학습이 필요 없는 사전 학습된 텍스트-이미지 확산 모델을 활용합니다. 이 방법은 입력 이미지를 역변환하여 초기 노이즈를 복구하는 것으로 시작합니다. 그런 다음, 수정된 신원 임베딩을 통해 원래 신원과 구별되는 익명화된 얼굴을 보장하는 신원 조건부 확산 과정을 통해 노이즈를 제거합니다. 또한, 우리의 접근 방식은 지역적 익명화를 지원하여 사용자가 어떤 얼굴 영역을 익명화하거나 그대로 유지할지 제어할 수 있게 합니다. 최신 방법들과의 포괄적인 평가 결과, 우리의 접근 방식은 익명화, 속성 보존, 이미지 품질 측면에서 뛰어난 성능을 보여줍니다. 이 방법의 유연성, 견고성, 실용성은 실제 응용 분야에 적합하도록 만들어줍니다. 코드와 데이터는 https://github.com/hanweikung/nullface에서 확인할 수 있습니다.
최근 몇 년간 생성적 사전 학습을 통해 기초 모델(foundation model) 분야에서 상당한 진전이 있었지만, 이 분야의 알고리즘 혁신은 이산 신호를 위한 자기회귀 모델과 연속 신호를 위한 확산 모델 주변에서 크게 정체되어 왔습니다. 이러한 정체는 풍부한 다중 모달 데이터의 잠재력을 완전히 발휘하는 데 걸림돌이 되며, 이는 다시 다중 모달 지능의 발전을 제한합니다. 우리는 시퀀스 길이와 정제 단계에서 추론 시간의 확장 효율성을 우선시하는 '추론 우선 관점(inference-first perspective)'이 새로운 생성적 사전 학습 알고리즘을 고무할 수 있다고 주장합니다. 귀납적 모멘트 매칭(Inductive Moment Matching, IMM)을 구체적인 예로 사용하여, 확산 모델의 추론 과정에서의 한계를 표적 수정을 통해 해결함으로써 안정적이고 단일 단계의 알고리즘이 우수한 샘플 품질과 추론 효율성을 크게 향상시킬 수 있음을 보여줍니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 시각적 관찰과 언어 지시를 기반으로 로봇의 행동을 예측하는 것을 목표로 합니다. 기존의 접근 방식은 사전 학습된 비전-언어 모델(Vision-Language Models, VLMs)을 미세 조정해야 하며, 시각 및 언어 특징이 독립적으로 하위 정책에 입력되면서 사전 학습된 의미적 정렬이 저하되는 문제가 있습니다. 우리는 OTTER라는 새로운 VLA 아키텍처를 제안합니다. OTTER는 명시적이고 텍스트 인식 시각 특징 추출을 통해 이러한 기존 정렬을 활용합니다. OTTER는 모든 시각 특징을 처리하는 대신, 언어 지시와 의미적으로 정렬된 작업 관련 시각 특징만 선택적으로 추출하여 정책 트랜스포머에 전달합니다. 이를 통해 OTTER는 사전 학습된 비전-언어 인코더를 동결 상태로 유지할 수 있습니다. 따라서 OTTER는 대규모 사전 학습을 통해 얻은 풍부한 의미 이해를 보존하고 활용하여 강력한 제로샷 일반화 능력을 가능하게 합니다. 시뮬레이션 및 실제 실험에서 OTTER는 기존 VLA 모델을 크게 능가하며, 새로운 객체와 환경에 대한 강력한 제로샷 일반화를 입증했습니다. 비디오, 코드, 체크포인트 및 데이터셋: https://ottervla.github.io/.