번역이 포함된 일일 선별된 AI 연구 논문
확산 언어 모델(Diffusion Language Models)은 병렬 생성 가능성과 제어 가능성 측면에서 자기회귀 모델(Autoregressive Models)에 비해 독특한 장점을 제공하지만, 가능도 모델링(likelihood modeling)에서는 뒤처지며 고정 길이 생성에 제한되는 단점이 있습니다. 본 연구에서는 이산적 노이즈 제거 확산(discrete denoising diffusion)과 자기회귀 모델 사이를 보간하는 블록 확산 언어 모델(Block Diffusion Language Models) 클래스를 소개합니다. 블록 확산은 유연한 길이 생성을 지원하고 KV 캐싱(KV caching) 및 병렬 토큰 샘플링(parallel token sampling)을 통해 추론 효율성을 개선함으로써 두 접근법의 주요 한계를 극복합니다. 우리는 효과적인 블록 확산 모델을 구축하기 위한 레시피를 제안하며, 여기에는 효율적인 훈련 알고리즘, 그래디언트 분산 추정기, 그리고 분산을 최소화하기 위한 데이터 기반 노이즈 스케줄(data-driven noise schedules)이 포함됩니다. 블록 확산은 언어 모델링 벤치마크에서 확산 모델 중 새로운 최첨단 성능을 달성하며, 임의 길이 시퀀스 생성도 가능하게 합니다. 프로젝트 페이지(https://m-arriola.com/bd3lms/)에서 코드, 모델 가중치, 그리고 블로그 포스트를 제공합니다.
비디오 확산 모델의 개발은 상당한 계산 요구라는 중요한 과제를 드러냅니다. 이 과제를 완화하기 위해, 우리는 확산의 역과정이 본질적으로 엔트로피 감소 특성을 보인다는 점에 주목했습니다. 비디오 모달리티에서 프레임 간 중복성을 고려할 때, 높은 엔트로피 단계에서 전체 프레임 속도를 유지하는 것은 불필요합니다. 이러한 통찰을 바탕으로, 우리는 훈련 및 추론 효율성을 향상시키기 위한 통합 프레임워크인 TPDiff를 제안합니다. 확산 과정을 여러 단계로 나누어, 우리의 프레임워크는 확산 과정을 따라 점진적으로 프레임 속도를 증가시키며, 마지막 단계에서만 전체 프레임 속도로 동작함으로써 계산 효율성을 최적화합니다. 다단계 확산 모델을 훈련하기 위해, 우리는 전용 훈련 프레임워크인 단계별 확산을 도입했습니다. 정렬된 데이터와 노이즈 하에서 분할된 확산의 확률 흐름 상미분 방정식(ODE)을 해결함으로써, 우리의 훈련 전략은 다양한 확산 형태에 적용 가능하며, 훈련 효율성을 더욱 향상시킵니다. 포괄적인 실험 평가를 통해 우리의 방법의 일반성을 검증하였으며, 훈련 비용을 50% 절감하고 추론 효율성을 1.5배 개선한 결과를 보여주었습니다.
조건부 동작 생성은 컴퓨터 비전 분야에서 광범위하게 연구되어 왔지만, 여전히 두 가지 중요한 과제가 남아 있습니다. 첫째, 마스크된 자기회귀 방법이 최근 확산 기반 접근법을 능가했음에도 불구하고, 기존의 마스킹 모델은 주어진 조건에 따라 동적 프레임과 신체 부위를 우선적으로 처리할 수 있는 메커니즘이 부족합니다. 둘째, 다양한 조건 모달리티를 위한 기존 방법들은 종종 여러 모달리티를 효과적으로 통합하지 못해 생성된 동작의 제어력과 일관성이 제한됩니다. 이러한 과제를 해결하기 위해, 우리는 Motion Anything을 제안합니다. 이는 주의 기반 마스크 모델링 접근법을 도입하여 핵심 프레임과 동작에 대한 세밀한 공간적 및 시간적 제어를 가능하게 하는 다중 모달 동작 생성 프레임워크입니다. 우리의 모델은 텍스트와 음악을 포함한 다중 모달 조건을 적응적으로 인코딩하여 제어력을 향상시킵니다. 또한, 우리는 2,153개의 텍스트, 음악, 춤 쌍으로 구성된 새로운 동작 데이터셋인 Text-Music-Dance(TMD)를 소개합니다. 이는 AIST++의 두 배 크기로, 커뮤니티에서 중요한 공백을 메웁니다. 광범위한 실험을 통해 Motion Anything이 여러 벤치마크에서 최첨단 방법을 능가하며, HumanML3D에서 FID 15% 개선을 달성하고 AIST++ 및 TMD에서 일관된 성능 향상을 보임을 입증했습니다. 자세한 내용은 프로젝트 웹사이트 https://steve-zeyu-zhang.github.io/MotionAnything를 참조하십시오.
우리는 단일 입력 비디오에서 동기화된 다중 뷰 비디오를 생성하기 위한 통합 프레임워크인 Reangle-A-Video를 소개합니다. 대규모 4D 데이터셋에서 다중 뷰 비디오 확산 모델을 학습하는 주류 접근 방식과 달리, 우리의 방법은 다중 뷰 비디오 생성 작업을 비디오-투-비디오 변환으로 재구성하며, 공개적으로 이용 가능한 이미지 및 비디오 확산 사전 지식을 활용합니다. 본질적으로 Reangle-A-Video는 두 단계로 작동합니다. (1) 다중 뷰 모션 학습: 이미지-투-비디오 확산 트랜스포머를 자기 지도 방식으로 동기적으로 미세 조정하여 왜곡된 비디오 세트에서 뷰 불변 모션을 추출합니다. (2) 다중 뷰 일관성 있는 이미지-투-이미지 변환: 입력 비디오의 첫 번째 프레임을 DUSt3R를 사용한 추론 시점 교차 뷰 일관성 가이던스 하에 다양한 카메라 시점으로 왜곡 및 인페인팅하여 다중 뷰 일관성 있는 시작 이미지를 생성합니다. 정적 뷰 전송 및 동적 카메라 제어에 대한 광범위한 실험을 통해 Reangle-A-Video가 기존 방법을 능가하며, 다중 뷰 비디오 생성을 위한 새로운 솔루션을 확립함을 보여줍니다. 우리는 코드와 데이터를 공개할 예정입니다. 프로젝트 페이지: https://hyeonho99.github.io/reangle-a-video/
대규모 언어 모델(LLM)에서 효과적인 추론과 텍스트 생성을 위해서는 외부 지식과 최신 정보를 효율적으로 획득하는 것이 필수적입니다. 검색 엔진을 도구로 활용하는 검색 증강 및 도구 사용 훈련 접근법은 복잡한 다중 턴 검색 유연성이 부족하거나 대규모 지도 데이터를 필요로 합니다. 추론 과정에서 고급 LLM에게 검색 엔진을 사용하도록 지시하는 방식은 LLM이 검색 엔진과 최적으로 상호작용하는 방법을 학습하지 못하기 때문에 최적이 아닙니다. 본 논문은 DeepSeek-R1 모델을 확장한 Search-R1을 소개합니다. Search-R1은 강화 학습(RL)만을 통해 LLM이 단계별 추론 과정에서 실시간 검색과 함께 (다중) 검색 쿼리를 자율적으로 생성하도록 학습합니다. Search-R1은 다중 턴 검색 상호작용을 통해 LLM 롤아웃을 최적화하며, 안정적인 RL 훈련을 위해 검색된 토큰 마스킹과 간단한 결과 기반 보상 함수를 활용합니다. 7개의 질의응답 데이터셋에 대한 실험 결과, Search-R1은 SOTA 기준선 대비 Qwen2.5-7B에서 26%, Qwen2.5-3B에서 21%, LLaMA3.2-3B에서 10%의 성능 향상을 보였습니다. 본 논문은 또한 RL 최적화 방법, LLM 선택, 검색 증강 추론에서의 응답 길이 동적 변화에 대한 실증적 통찰을 제공합니다. 코드와 모델 체크포인트는 https://github.com/PeterGriffinJin/Search-R1에서 확인할 수 있습니다.
검증 가능한 결과 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)에서의 사고 연쇄(CoT) 추론을 효과적으로 확장해 왔습니다. 그러나 시각 환경에서 목표 지향적 행동 추론을 위해 시각-언어 모델(VLM) 에이전트를 훈련시키는 데 있어서의 효용성은 아직 명확히 입증되지 않았습니다. 본 연구는 24점과 같은 복잡한 카드 게임 및 ALFWorld의 구체화된 작업을 통해 이 문제를 광범위한 실험으로 조사합니다. 우리는 보상이 단순히 행동 결과에 기반할 때, RL이 VLM에서 CoT 추론을 유도하는 데 실패하고, 대신 사고 붕괴(thought collapse)라는 현상을 초래한다는 것을 발견했습니다. 이는 에이전트의 사고 다양성의 급격한 감소, 상태와 무관하고 불완전한 추론, 그리고 이어지는 무효한 행동으로 특징지어지며, 결과적으로 부정적인 보상을 초래합니다. 사고 붕괴를 방지하기 위해, 우리는 과정 지도의 필요성을 강조하고 각 RL 단계에서 에이전트의 추론을 평가하고 개선하는 자동화된 수정기를 제안합니다. 이 간단하고 확장 가능한 GTR(Guided Thought Reinforcement) 프레임워크는 단계별로 밀집된 인간의 라벨링 없이도 추론과 행동을 동시에 훈련시킵니다. 우리의 실험은 GTR이 다양한 시각 환경에서 LLaVA-7b 모델의 성능과 일반화를 크게 향상시키며, 특히 더 작은 모델 크기로도 최신 기술(SoTA) 모델 대비 3-5배 높은 작업 성공률을 달성함을 보여줍니다.
검색 강화 생성(Retrieval-Augmented Generation, RAG)은 대형 언어 모델(LLM)에 관련 문서를 제공합니다. 이전 연구에서는 많은 문서를 검색하면 성능이 저하될 수 있다고 언급했지만, 컨텍스트 길이를 통제한 상태에서 문서 수가 성능에 미치는 영향을 분리하여 분석하지는 않았습니다. 우리는 다중 홉 질의응답(Multi-hop QA) 작업에서 파생된 맞춤형 데이터셋을 사용해 다양한 언어 모델을 평가했습니다. 컨텍스트 길이와 관련 정보의 위치를 일정하게 유지하면서 문서 수를 변화시켰으며, RAG 설정에서 문서 수를 증가시키는 것이 LLM에게 상당한 어려움을 초래한다는 사실을 발견했습니다. 또한, 우리의 결과는 여러 문서를 처리하는 것이 긴 컨텍스트를 다루는 것과는 별개의 과제임을 시사합니다. 우리는 이 데이터셋과 코드를 공개했습니다: https://github.com/shaharl6000/MoreDocsSameLen.
Score Distillation Sampling(SDS)은 텍스트-3D 생성과 같은 작업에 2D 확산 사전 지식을 활용하기 위한 효과적인 기술로 부상했습니다. 강력한 성능을 지녔음에도 SDS는 사용자 의도와의 세밀한 정렬을 달성하는 데 어려움을 겪습니다. 이를 극복하기 위해 우리는 RewardSDS라는 새로운 접근 방식을 제안합니다. 이 방법은 보상 모델의 정렬 점수를 기반으로 노이즈 샘플에 가중치를 부여하여 가중 SDS 손실을 생성합니다. 이 손실은 정렬된 높은 보상 출력을 생성하는 노이즈 샘플의 그래디언트를 우선시합니다. 우리의 접근 방식은 광범위하게 적용 가능하며 SDS 기반 방법을 확장할 수 있습니다. 특히, 우리는 RewardVSD를 도입하여 Variational Score Distillation(VSD)에 대한 적용 가능성을 입증합니다. 우리는 RewardSDS와 RewardVSD를 텍스트-이미지, 2D 편집, 텍스트-3D 생성 작업에 대해 평가하며, 생성 품질과 원하는 보상 모델과의 정렬을 측정하는 다양한 지표에서 SDS와 VSD 대비 상당한 개선을 보여주어 최첨단 성능을 달성했습니다. 프로젝트 페이지는 https://itaychachy.github.io/reward-sds/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 성능을 달성했지만, 여전히 오류가 발생하기 쉽습니다. 주요 과제는 이들이 스스로 오류를 수정할 수 있도록 하는 것입니다. 기존 연구에서는 외부 도구나 대형 독점 모델에 의존해 왔지만, 본 연구는 소규모 언어 모델(SLM)에서 순전히 자체 생성된 데이터를 사용한 반복적 미세 조정을 통해 자기 수정(self-correction)을 탐구합니다. 우리는 여러 알고리즘 설계 선택을 통합한 Self-Taught Self-Correction(STaSC) 알고리즘을 소개합니다. 질문-응답 작업에 대한 실험 결과는 STaSC가 자기 수정을 효과적으로 학습하며, 이로 인해 성능이 크게 향상됨을 보여줍니다. 또한, 우리의 분석은 자기 수정의 메커니즘과 다양한 설계 선택이 학습 동역학 및 전반적인 성능에 미치는 영향에 대한 통찰을 제공합니다. 향후 연구를 지원하기 위해 사용자 친화적인 코드베이스와 경량 모델을 공개합니다.
최근의 대형 언어 모델(LLM)은 사용자 지시를 따르는 데 있어 놀라운 성과를 보여주고 있지만, 다중 제약 조건을 포함한 지시를 처리하는 것은 여전히 중요한 과제로 남아 있습니다. 본 연구에서는 12,000개의 실제 사용자 지시로 구성된 대규모 데이터셋인 WildIFEval을 소개합니다. 이전 데이터셋과 달리, 우리의 데이터셋은 자연스러운 사용자 프롬프트에서 다양한 어휘 및 주제 범위의 제약 조건을 포괄합니다. 이러한 제약 조건을 8개의 상위 범주로 분류하여 실제 시나리오에서의 분포와 동적 특성을 파악했습니다. WildIFEval을 활용하여 주요 LLM들의 지시 수행 능력을 벤치마킹하는 광범위한 실험을 수행했습니다. 연구 결과, 평가된 모든 모델은 제약 조건의 수가 증가함에 따라 성능 저하를 경험하는 것으로 나타났습니다. 이를 통해 모든 모델이 이러한 작업에서 개선의 여지가 크다는 것을 확인했습니다. 또한, 특정 유형의 제약 조건이 모델 성능에 중요한 역할을 한다는 것을 관찰했습니다. 우리는 복잡하고 현실적인 조건 하에서의 지시 수행 연구를 촉진하기 위해 이 데이터셋을 공개합니다.
인간의 일상 활동은 비디오 스트림에서 일상적인 이벤트(예: 알람 끄기)의 연속으로 간결하게 서술될 수 있으며, 이는 이벤트 어휘를 형성합니다. 이를 바탕으로, 우리는 기존의 생성적 비디오-언어 모델에서 사용되는 하위 단어 어휘를 넘어서서 비디오 서술을 어휘로 정의하는 새로운 비디오 이해 프레임워크인 VLog를 소개합니다. 경량 언어 모델 GPT-2를 기반으로 구축된 VLog는 세 가지 주요 혁신을 특징으로 합니다: (i) 언어 모델의 복잡한 추론 능력과 대조적 검색의 효율적인 유사성 검색을 결합한 생성적 검색 모델. (ii) 대규모 비디오 서술에서 우리의 서술 쌍 인코딩 알고리즘을 사용하여 도출된 계층적 어휘, 이를 통해 특정 이벤트(예: 토마토 자르기)를 더 넓은 시나리오(예: 주방)와 표현적인 접미사(예: 왼손으로)를 식별하여 효율적으로 인덱싱할 수 있습니다. (iii) 추론 중에 접하는 새로운 이벤트를 위해 어휘를 확장하기 위해 생성 모델을 활용한 어휘 업데이트 전략. 우리의 접근 방식을 검증하기 위해, 우리는 간결한 서술과 추론 관계(예: 전과 후)를 요구하는 개발 세트인 VidCap-Eval을 소개합니다. EgoSchema, COIN, HiREST에 대한 실험은 VLog의 효과를 입증하며, 간결하고 문맥적으로 정확하며 효율적인 서술을 생성하는 능력을 강조하여 비디오 이해에 대한 새로운 관점을 제공합니다. 코드는 https://github.com/showlab/VLog에서 공개되었습니다.
대형 언어 모델(LLM)은 코드 생성, 특히 자연어로 기술된 요구사항을 자동으로 구현하는 데 있어 인상적인 능력을 보여주고 있습니다. LLM의 효과는 일반적으로 크기에 비례하여 증가합니다: 학습 가능한 매개변수의 수가 많을수록 코드 구현 능력이 더 우수해집니다. 그러나 LLM 기반 코드 생성기를 배포할 때, 더 큰 LLM은 메모리(결과적으로 탄소) 사용량과 관련된 상당한 문제를 야기합니다. Wei 등이 이전에 제안한 연구에서는 양자화 기술을 활용하여 LLM 기반 코드 생성기의 메모리 사용량을 크게 저하시키지 않으면서 줄이는 방법을 탐구했습니다. 요약하자면, 그들은 최대 160억 개의 매개변수를 가진 LLM을 연구하며, 부동소수점 32비트에서 정수 8비트로 정밀도를 낮추는 양자화를 적용했고, 이가 코드 생성 성능에 미치는 영향이 제한적임을 보였습니다. LLM의 능력과 양자화 기술이 빠르게 진화하고 있는 상황을 고려하여, 본 연구에서는 Wei 등의 연구를 차별화된 방식으로 재현합니다. 우리는 (i) 최신의 더 큰 코드 관련 LLM(최대 340억 개의 매개변수), (ii) 모델 매개변수당 2비트까지 압축을 가능하게 하는 최신 양자화 기술의 발전, 그리고 (iii) 코드 특화 데이터셋을 포함한 다양한 유형의 보정 데이터셋을 고려합니다. 우리의 실증적 평가는 LLM 양자화의 새로운 경계가 4비트 정밀도임을 보여주며, 이는 원본 모델 대비 평균 70%의 메모리 사용량 감소를 달성하면서도 성능 저하를 거의 관찰하지 못했습니다. 또한, 양자화가 더 극단적으로 적용될 때(3비트 및 2비트), 코드 특화 보정 데이터셋은 성능 저하를 제한하는 데 도움을 줍니다.
생성 학습 모델의 이미지 간 변환 능력은 최근 이미지 분포 간 복잡한 (조정된) 매핑 추정에서 상당한 진전을 이루었습니다. 이미지 인페인팅이나 스타일 전환과 같은 외관 기반 작업들은 오랫동안 연구되어 왔지만, 우리는 물리 시뮬레이션 맥락에서 생성 모델의 잠재력을 탐구하고자 합니다. 30만 개의 이미지 쌍 데이터셋과 세 가지 물리 시뮬레이션 작업에 대한 기준 평가를 제공함으로써, 우리는 다음 연구 질문을 탐구하기 위한 벤치마크를 제안합니다: i) 생성 모델이 입력-출력 이미지 쌍으로부터 복잡한 물리적 관계를 학습할 수 있는가? ii) 미분 방정식 기반 시뮬레이션을 대체함으로써 어떤 속도 향상을 달성할 수 있는가? 다양한 최신 모델들의 기준 평가는 높은 속도 향상의 가능성(ii)을 보여주지만, 이러한 결과는 물리적 정확성(i)에 대한 강력한 한계도 드러냅니다. 이는 물리적 정확성을 강제하기 위한 새로운 방법의 필요성을 강조합니다. 데이터, 기준 모델 및 평가 코드는 http://www.physics-gen.org에서 확인할 수 있습니다.
대규모 원격탐사 이미지(RSI)에 대한 효율적인 시각-언어 이해는 의미 있지만 도전적인 과제입니다. 현재의 대형 시각-언어 모델(LVLMs)은 일반적으로 제한된 사전 정의된 그리드를 사용하여 이미지를 처리하므로, 기가픽셀 RSI를 다룰 때 정보 손실이 발생합니다. 반면, 무제한 그리드를 사용하면 계산 비용이 크게 증가합니다. 이미지 세부 정보를 보존하면서 계산 복잡성을 줄이기 위해, 우리는 동적 이미지 피라미드(DIP) 통합을 통한 텍스트 기반 토큰 프루닝 방법을 제안합니다. 우리의 방법은 다음과 같은 두 가지 요소를 도입합니다: (i) 텍스트 인식 지역 위치 지정 능력을 활용하여 중요한 시각 토큰을 식별하는 지역 포커스 모듈(RFM), 그리고 (ii) DIP 기반의 coarse-to-fine 이미지 타일 선택 및 시각 토큰 프루닝 전략으로, 이는 RFM 출력에 의해 안내되며 전체 대형 이미지를 직접 처리하지 않습니다. 또한, 대규모 RSI에 대한 LVLMs의 인식 능력을 평가하기 위한 기존 벤치마크는 질문 다양성의 부족과 제한된 이미지 크기로 인해 한계가 있습니다. 우리는 LRS-VQA라는 새로운 벤치마크를 구축했으며, 이는 8개 카테고리에 걸쳐 7,333개의 질문-답변 쌍을 포함하고 이미지 길이가 최대 27,328 픽셀에 이릅니다. 우리의 방법은 동일한 데이터를 사용하여 네 개의 데이터셋에서 기존의 고해상도 전략을 능가합니다. 또한, 기존의 토큰 축소 방법과 비교했을 때, 우리의 접근법은 고해상도 설정에서 더 높은 효율성을 보여줍니다. 데이터셋과 코드는 https://github.com/VisionXLab/LRS-VQA에서 확인할 수 있습니다.
대형 행동 모델(LAMs)은 지능형 자동화를 혁신적으로 변화시켰지만, 의료 분야에서의 적용은 개인정보 보호 문제, 지연 시간, 인터넷 접속 의존성 등의 도전 과제에 직면해 있습니다. 본 보고서는 이러한 한계를 극복한 온디바이스(On-device) 다중 에이전트 헬스케어 어시스턴트를 소개합니다. 이 시스템은 더 작고 작업 특화된 에이전트를 활용하여 자원을 최적화하고 확장성과 높은 성능을 보장합니다. 우리가 제안한 시스템은 진료 예약, 건강 모니터링, 약물 복용 알림, 일일 건강 보고 등의 기능을 통해 헬스케어 요구를 위한 원스톱 솔루션 역할을 합니다. Qwen Code Instruct 2.5 7B 모델을 기반으로 하는 플래너(Planner)와 콜러(Caller) 에이전트는 작업 계획에서 평균 RougeL 점수 85.5, 호출에서 96.5를 달성하면서도 온디바이스 배포에 적합한 경량화를 실현했습니다. 이 혁신적인 접근 방식은 온디바이스 시스템의 장점과 다중 에이전트 아키텍처를 결합하여 사용자 중심의 헬스케어 솔루션을 위한 길을 열어줍니다.
잠재 확산 모델(Latent Diffusion Models, LDMs)은 생성 과정이 불안정한 것으로 알려져 있으며, 입력 노이즈의 작은 변화나 이동만으로도 상당히 다른 출력 결과를 초래할 수 있습니다. 이는 일관된 결과를 요구하는 응용 분야에서의 적용 가능성을 제한합니다. 본 연구에서는 LDMs를 재설계하여 이동 등변성(shift-equivariance)을 강화함으로써 일관성을 개선합니다. 안티앨리어싱(anti-aliasing) 연산을 도입하면 부분적으로 이동 등변성을 개선할 수 있지만, VAE 학습 및 다중 U-Net 추론 과정에서의 앨리어싱 증폭과, 본질적으로 이동 등변성이 없는 자기 주의(self-attention) 모듈과 같은 LDMs의 고유한 문제로 인해 상당한 앨리어싱과 불일치가 지속됩니다. 이러한 문제를 해결하기 위해, 우리는 주의 모듈을 재설계하여 이동 등변성을 갖도록 하고, 연속 영역에서 특징의 주파수 대역폭을 효과적으로 억제하는 등변성 손실(equivariance loss)을 제안합니다. 그 결과로 얻은 앨리어싱 없는 LDM(Alias-Free LDM, AF-LDM)은 강력한 이동 등변성을 달성하며 불규칙한 왜곡에도 강건합니다. 다양한 실험을 통해 AF-LDM이 비디오 편집 및 이미지-이미지 변환과 같은 다양한 응용 분야에서 기존 LDM보다 훨씬 더 일관된 결과를 생성함을 입증했습니다. 코드는 https://github.com/SingleZombie/AFLDM에서 확인할 수 있습니다.
효율적이고 효과적인 Transformer 기반 대규모 언어 모델(LLM) 구축은 최근 연구의 주요 초점으로, 모델의 언어 능력을 극대화하면서도 학습 및 배포 비용을 최소화하는 것이 요구되고 있다. 기존 연구들은 주로 모델 성능, 파라미터 크기, 데이터 크기 간의 복잡한 관계를 설명하고, LLM 학습을 위한 최적의 컴퓨팅 자원 할당을 탐색하는 데 집중해왔다. 그러나 이러한 연구들은 컨텍스트 길이와 어텐션 헤드 구성(그룹화된 쿼리 어텐션에서의 쿼리 및 키-값 헤드의 수)이 학습 및 추론에 미치는 영향을 간과해왔다. 본 논문에서는 다양한 파라미터 크기, 컨텍스트 길이, 어텐션 헤드 구성을 가진 모델들을 모델 성능, 계산 비용, 메모리 비용 측면에서 체계적으로 비교한다. 또한, 기존의 파라미터 크기와 학습 컴퓨팅 자원에 기반한 스케일링 방법을 확장하여 학습 및 추론 과정에서 비용 최적의 LLM 구축을 위한 가이드라인을 제시한다. 우리의 정량적 스케일링 연구 결과, 충분히 긴 시퀀스를 처리할 때 더 적은 수의 어텐션 헤드를 가진 더 큰 모델이 더 낮은 손실을 달성하면서도 더 낮은 계산 및 메모리 비용을 발생시킬 수 있음을 보여준다. 이러한 발견은 특히 긴 컨텍스트 처리 시나리오에서 실용적인 LLM 개발을 위한 귀중한 통찰을 제공한다. 우리는 코드와 데이터를 공개할 예정이다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(LLM)에 대한 유용한 보완재로 기능하지만, 종종 파이프라인 내에서의 텍스트 청킹(chunking)이라는 중요한 측면을 간과합니다. 본 논문은 먼저 청킹 품질을 직접적으로 계량화할 수 있도록 경계 명확성(Boundary Clarity)과 청크 접착성(Chunk Stickiness)으로 구성된 이중 메트릭 평가 방법을 소개합니다. 이 평가 방법을 활용하여, 우리는 복잡한 문맥적 뉘앙스를 처리하는 데 있어 전통적 및 의미론적 청킹의 본질적 한계를 부각시킴으로써 청킹 과정에 LLM을 통합할 필요성을 입증합니다. LLM 기반 접근법에서 계산 효율성과 청킹 정밀도 사이의 본질적 트레이드오프를 해결하기 위해, 우리는 세 단계 처리 메커니즘으로 구성된 세분화 인식 청커 혼합(Mixture-of-Chunkers, MoC) 프레임워크를 고안합니다. 특히, 우리의 목표는 청커가 구조화된 청킹 정규 표현식 목록을 생성하도록 유도한 후 이를 원본 텍스트에서 청크를 추출하는 데 사용하는 것입니다. 광범위한 실험을 통해 우리가 제안한 메트릭과 MoC 프레임워크가 청킹 작업의 과제를 효과적으로 해결하며, 청킹 커널을 드러내고 RAG 시스템의 성능을 향상시킴을 입증합니다.
사전 학습된 언어 모델(PLM)은 과학 연구에 혁신을 가져왔지만, 단일 세포 분석에의 적용은 여전히 제한적입니다. 텍스트 PLM은 단일 세포 RNA 시퀀싱 데이터를 처리할 수 없으며, 세포 PLM은 자유 텍스트를 다루는 능력이 부족하여 다중 모달 작업에서의 활용이 제한됩니다. 이러한 모달리티를 연결하려는 기존의 노력들은 정보 손실이나 불충분한 단일 모달 사전 학습으로 인해 최적의 성능을 달성하지 못하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 단일 세포와 텍스트 모델링을 통합한 통합 PLM인 Single-Cell MultiModal Generative Pre-trained Transformer(scMMGPT)를 제안합니다. scMMGPT는 최신의 세포 및 텍스트 PLM을 효과적으로 통합하여 교차 모달 지식 공유를 촉진하고 성능을 개선합니다. 텍스트-세포 모달리티 간의 격차를 해소하기 위해 scMMGPT는 전용 교차 모달 프로젝터를 활용하고, 2,700만 개의 세포 데이터셋에 대해 광범위한 사전 학습을 진행합니다. 이는 현재까지 다중 모달 세포-텍스트 PLM을 위한 가장 큰 데이터셋입니다. 이 대규모 사전 학습은 scMMGPT가 공동 세포-텍스트 작업에서 탁월한 성능을 발휘하도록 하며, 세포 설명 생성에서 텍스트 불일치를 84% 상대적으로 개선하고, 세포 유형 주석에서 20.5% 더 높은 정확도를 달성하며, 텍스트 조건부 가상 세포 생성에서 k-NN 정확도를 4% 향상시켜 기준선을 능가합니다.
장기 비디오에서의 Video Question Answering(VQA)은 많은 중복 프레임들로부터 관련 정보를 추출하고 장거리 의존성을 모델링하는 데 있어 주요한 도전 과제를 제시합니다. 자기 주의 메커니즘(self-attention mechanism)은 시퀀스 모델링을 위한 일반적인 해결책을 제공하지만, 장기 비디오에서의 방대한 시공간 토큰들에 적용할 경우 과도한 계산 비용이 발생합니다. 대부분의 기존 방법들은 계산 비용을 줄이기 위해 희소 프레임 샘플링을 통해 입력 길이를 줄이거나, 시공간 풀링(space-time pooling)을 통해 대형 언어 모델(LLM)에 전달되는 출력 시퀀스를 압축하는 등의 전략에 의존합니다. 그러나 이러한 단순한 접근 방식들은 중복 정보를 과도하게 표현하며, 종종 중요한 이벤트나 빠르게 발생하는 시공간 패턴을 놓치게 됩니다. 본 연구에서는 장기 비디오를 처리하기 위한 효율적인 상태 공간 모델(state-space model)인 BIMBA를 소개합니다. 우리의 모델은 선택적 스캔 알고리즘(selective scan algorithm)을 활용하여 고차원 비디오로부터 중요한 정보를 효과적으로 선택하고, 이를 효율적인 LLM 처리를 위한 축소된 토큰 시퀀스로 변환합니다. 광범위한 실험을 통해 BIMBA가 PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench, Video-MME 등 여러 장기 VQA 벤치마크에서 최첨단 정확도를 달성함을 입증했습니다. 코드와 모델은 https://sites.google.com/view/bimba-mllm에서 공개되어 있습니다.
Random Sample Consensus(RANSAC)은 노이즈가 포함된 데이터로부터 강건하게 파라미터 모델을 추정하는 기본적인 접근법입니다. 기존의 학습 기반 RANSAC 방법들은 딥러닝을 활용하여 RANSAC의 이상치에 대한 강건성을 향상시킵니다. 그러나 이러한 접근법들은 동일한 알고리즘으로 생성된 데이터에 대해 학습 및 테스트가 이루어지기 때문에, 추론 과정에서 분포 외 데이터에 대한 일반화 능력이 제한적입니다. 따라서 본 논문에서는 학습 기반 RANSAC의 학습을 위해 노이즈가 있는 조건을 시뮬레이션하기 위해, ground-truth 데이터에 점진적으로 노이즈를 주입하는 새로운 확산 기반 패러다임을 소개합니다. 데이터 다양성을 향상시키기 위해, 우리는 확산 패러다임에 몬테카를로 샘플링을 통합하여 여러 단계에서 다양한 유형의 무작위성을 도입함으로써 다양한 데이터 분포를 근사합니다. 우리는 ScanNet 및 MegaDepth 데이터셋에 대한 포괄적인 실험을 통해 특징 매칭 맥락에서 우리의 접근법을 평가합니다. 실험 결과는 우리의 몬테카를로 확산 메커니즘이 학습 기반 RANSAC의 일반화 능력을 크게 향상시킨다는 것을 보여줍니다. 또한, 우리는 프레임워크의 주요 구성 요소들의 효과를 강조하는 광범위한 절제 연구를 수행합니다.
머신 러닝 포스 필드(MLFFs)는 고비용의 초기 양자 역학 분자 시뮬레이션을 대체할 수 있는 유망한 기술입니다. 다양한 화학 공간의 중요성과 새로운 데이터 생성의 비용을 고려할 때, MLFFs가 훈련 분포를 넘어 어떻게 일반화되는지 이해하는 것이 중요합니다. MLFFs의 분포 변화를 특성화하고 더 잘 이해하기 위해, 우리는 화학 데이터셋에 대한 진단 실험을 수행하여, 광범위한 데이터로 훈련된 대형 기초 모델에게도 상당한 도전을 제기하는 일반적인 변화를 밝혔습니다. 이러한 관찰을 바탕으로, 우리는 현재의 지도 학습 방법이 MLFFs를 충분히 규제하지 못해 과적합이 발생하고 분포 외 시스템에 대한 부적절한 표현을 학습한다는 가설을 세웠습니다. 이에 따라, 우리는 MLFFs의 분포 변화를 완화하기 위한 초기 단계로서 두 가지 새로운 방법을 제안합니다. 우리의 방법은 최소한의 계산 비용을 요구하며 고비용의 초기 참조 레이블을 사용하지 않는 테스트 시점 정제 전략에 초점을 맞춥니다. 첫 번째 전략은 스펙트럼 그래프 이론을 기반으로 테스트 그래프의 에지를 훈련 중에 본 그래프 구조와 일치하도록 수정합니다. 두 번째 전략은 저렴한 물리적 사전 조건과 같은 보조 목적 함수를 사용하여 테스트 시점에 분포 외 시스템에 대한 표현을 개선합니다. 우리의 테스트 시점 정제 전략은 분포 외 시스템에서의 오류를 크게 줄여, MLFFs가 다양한 화학 공간을 모델링할 수 있고 이를 향해 나아갈 수 있지만, 이를 효과적으로 훈련받지 못하고 있음을 시사합니다. 우리의 실험은 차세대 MLFFs의 일반화 능력을 평가하기 위한 명확한 벤치마크를 확립합니다. 우리의 코드는 https://tkreiman.github.io/projects/mlff_distribution_shifts/에서 확인할 수 있습니다.