번역이 포함된 일일 선별된 AI 연구 논문
최근의 엄청난 발전에도 불구하고, 생성적 비디오 모델은 여전히 현실 세계의 움직임, 역학 및 물리를 포착하는 데 어려움을 겪고 있습니다. 이 한계는 기존의 픽셀 재구성 목표에서 비롯되며, 모델을 움직임 일관성의 비용으로 외관 믿음성으로 편향시킨다는 것을 보여줍니다. 이를 해결하기 위해 우리는 VideoJAM을 소개합니다. 이는 모델이 공동 외관-움직임 표현을 학습하도록 장려함으로써 비디오 생성기에 효과적인 움직임 사전을 주입하는 혁신적인 프레임워크입니다. VideoJAM은 두 가지 보완적인 유닛으로 구성됩니다. 훈련 중에 우리는 생성된 픽셀과 해당 움직임을 단일 학습된 표현으로부터 예측하는 목표를 확장합니다. 추론 중에는 Inner-Guidance를 도입하여, 모델의 진화하는 움직임 예측을 동적 가이드 신호로 활용하여 일관된 움직임으로 생성을 이끕니다. 특히, 우리의 프레임워크는 최소한의 수정으로 어떤 비디오 모델에도 적용될 수 있으며, 훈련 데이터의 수정이나 모델의 스케일링이 필요하지 않습니다. VideoJAM은 움직임 일관성에서 최고 수준의 성능을 달성하며, 매우 경쟁력 있는 전용 모델을 능가하면서 생성물의 시각적 품질을 향상시킵니다. 이 연구 결과는 외관과 움직임이 보완적일 수 있으며, 효과적으로 통합될 때 비디오 생성물의 시각적 품질과 일관성을 향상시킬 수 있다는 점을 강조합니다. 프로젝트 웹사이트: https://hila-chefer.github.io/videojam-paper.github.io/
최근 코더 모델의 대부분 진전은 지도 미세 조정(SFT)에 의해 이루어졌으며, 강화 학습(RL)의 잠재력은 주로 코드 도메인에서 신뢰할 수 있는 보상 데이터/모델의 부족으로 인해 크게 탐구되지 않았습니다. 본 논문에서는 자동화된 대규모 테스트 케이스 합성을 활용하여 코드 모델 훈련을 강화하는 방법을 제시합니다. 구체적으로, 우리는 기존 코드 데이터로부터 방대한 (질문, 테스트 케이스) 쌍을 생성하는 파이프라인을 설계합니다. 이러한 테스트 케이스를 사용하여 통과율에 기반한 선호 쌍을 생성하여 Bradley-Terry 손실을 사용하여 보상 모델을 훈련시킵니다. 32개 중 최고를 선택하는 샘플링을 통해 Llama-3.1-8B-Ins에서 평균 10포인트 개선 및 Qwen2.5-Coder-7B-Ins에서 5포인트 개선을 보여줌으로써 7B 모델을 236B DeepSeek-V2.5와 동등하게 만듭니다. 또한, 우리는 두 보상 모델 및 테스트 케이스 통과 보상과 함께 강화 학습을 수행하여 HumanEval, MBPP, BigCodeBench 및 LiveCodeBench (V4)에서 일관된 개선을 이끌어냅니다. 특히, 우리는 Qwen2.5-Coder-base에서 직접 시작하는 R1-스타일 훈련을 따르고, 우리의 강화 학습이 단 80번의 최적화 단계만으로 HumanEval-plus에서 25% 이상, MBPP-plus에서 6% 개선할 수 있음을 보여줍니다. 우리의 결과가 코더 모델에서 강화 학습의 거대한 잠재력을 강조한다고 믿습니다.
확산 다리 모델을 학습하는 것은 쉽지만, 그것을 빠르고 실용적으로 만드는 것은 예술입니다. 확산 다리 모델(DBM)은 이미지 간 번역 응용에 대한 확산 모델의 유망한 확장입니다. 그러나 많은 현대적인 확산 및 흐름 모델과 마찬가지로, DBM은 추론 속도가 느린 문제를 겪습니다. 이를 해결하기 위해 우리는 역 다리 매칭 공식에 기반한 새로운 증류 기술을 제안하고, 이를 실제로 해결하기 위한 다루기 쉬운 목적을 유도합니다. 이전에 개발된 DBM 증류 기술과는 달리, 제안된 방법은 조건부 및 무조건적 유형의 DBM을 증류할 수 있으며, 한 단계 생성기에서 모델을 증류하고 오직 손상된 이미지만을 사용하여 훈련합니다. 우리는 초해상도, JPEG 복원, 스케치-이미지 및 기타 작업을 포함한 다양한 설정에서 조건부 및 무조건적 다리 매칭에 대한 접근 방법을 평가하고, 우리의 증류 기술이 DBM의 추론 속도를 4배에서 100배로 가속화하고 특정 설정에 따라 사용된 교사 모델보다 더 나은 생성 품질을 제공할 수 있음을 보여줍니다.
대형 언어 모델(LLMs)은 다양한 영역에서 놀라운 추론 능력을 보여주었습니다. 최근 연구에 따르면 테스트 시간 계산을 증가시킴으로써 LLM의 추론 능력이 향상된다는 것이 밝혀졌습니다. 이는 일반적으로 외부 LLM 확인자에 의해 안내되는 추론 시에 광범위한 샘플링을 포함하며, 결과적으로 이중 플레이어 시스템을 형성합니다. 외부 안내에도 불구하고, 이 시스템의 효과는 단일 LLM이 복잡한 작업에 대처할 수 있는 잠재력을 보여줍니다. 따라서 우리는 새로운 연구 문제를 제시합니다: 단일 LLM의 추론 능력을 근본적으로 향상시키기 위해 검색 능력을 내재화할 수 있을까요? 본 연구는 자기 반성 및 새로운 전략의 자가 탐구를 포함한 확장된 추론 과정을 위한 사후 훈련 LLM에 초점을 맞춘 직교 방향을 탐구합니다. 이를 달성하기 위해, 우리는 COAT(Chain-of-Action-Thought) 추론을 제안하고 1) COAT 추론 형식을 내재화하기 위한 소규모 형식 조정 단계, 2) 강화 학습을 활용한 대규모 자가 개선 단계로 구성된 이중 단계 훈련 패러다임을 제안합니다. 저희 방법은 오픈 소스 모델과 데이터를 기반으로 훈련된 7B LLM인 Satori를 도출합니다. 광범위한 경험적 평가 결과, Satori가 수학적 추론 벤치마크에서 최고 수준의 성능을 달성하면서 도메인 외 작업에 대한 강력한 일반화 능력을 보여줍니다. 코드, 데이터 및 모델은 완전히 오픈 소스로 제공될 것입니다.
언어 에이전트는 복잡한 상호 작용 작업에 대한 유망한 솔루션이 되어왔습니다. 언어 에이전트의 성공의 핵심 요소 중 하나는 에이전트 워크플로의 경로에 대한 보상 모델입니다. 이 보상 모델은 훈련 또는 추론 중에 가치 있는 지침을 제공합니다. 그러나 중간 상호 작용의 주석이 부족하기 때문에 대부분의 기존 작업은 전체 경로를 통해 정책을 최적화하기 위해 결과 보상 모델을 사용합니다. 이는 부적합한 정책을 유발하고 전반적인 성능을 저해할 수 있습니다. 이를 해결하기 위해 우리는 QLASS(Q-가이드 언어 에이전트 단계별 탐색)를 제안합니다. 이는 오픈 언어 에이전트를 위해 Q-값을 단계적으로 추정하여 주석을 자동으로 생성합니다. 추론 과정에서 추론 트리를 도입하고 프로세스 보상 모델링을 수행함으로써 QLASS는 각 단계에 대한 효과적인 중간 지침을 제공합니다. 단계별 지침을 통해 우리는 Q-가이드 생성 전략을 제안하여 언어 에이전트가 장기적 가치에 더 잘 적응할 수 있도록 하였으며, 이는 복잡한 상호 작용 에이전트 작업에서 모델 추론 중 성능을 크게 향상시켰습니다. 특히, 주석이 거의 절반인 상태에서도 QLASS는 강력한 성능을 유지하며, 제한된 지도를 처리하는 효율성을 입증합니다. 또한 우리는 QLASS가 질적 분석을 통해 더 효과적인 의사 결정을 이끌어낼 수 있다는 것을 경험적으로 입증합니다. 우리는 코드와 데이터를 공개할 예정입니다.
본 논문은 대규모 언어 모델(LLMs)에서 미개척된 과제를 조사합니다: KV 캐시 압축 방법이 LLMs의 기본 능력에 미치는 영향에 대해. 기존 방법들은 긴 문맥 벤치마크에서 인상적인 압축 비율을 달성하지만, 핵심 모델 능력에 미치는 영향은 미연구된 상태입니다. 우리는 세계 지식, 상식적 추론, 산술적 추론, 코드 생성, 안전성, 그리고 긴 문맥 이해와 생성을 포괄하는 다양한 작업을 횡단하는 주요 KV 캐시 압축 방법을 평가하는 포괄적인 경험적 연구를 제시합니다. 우리의 분석 결과, KV 캐시 압축 방법은 작업별 성능 저하를 나타냅니다. 산술적 추론 작업은 특히 공격적인 압축에 민감하며, 서로 다른 방법들은 성능 저하율이 17.4%에서 43.3%까지 나타냅니다. 특히, DeepSeek R1 Distill 모델은 지시에 맞춘 모델들과 비교하여 더 견고한 압축 허용성을 보여주며, 성능 저하가 단 9.67%에서 25.53%에 머무릅니다. 우리의 주의 집중 패턴 및 작업 간 압축 성능 분석을 기반으로, 우리는 ShotKV를 제안합니다. ShotKV는 사전 채우기 및 디코딩 단계를 명확히 처리하면서 샷 수준의 의미론적 일관성을 유지하는 새로운 압축 접근 방식입니다. 경험적 결과는 ShotKV가 공격적인 압축 비율 하에서 긴 문맥 생성 작업에서 9%에서 18% 성능 향상을 달성한다는 것을 보여줍니다.
다양한 소스에서의 출력을 결합하는 것은 성능을 향상시키는 간단하면서도 효과적인 방법입니다. Mixture-of-Agents (MoA)는 여러 다른 대형 언어 모델(Large Language Models, LLMs)의 출력을 집계하는 인기 있는 앙상블 방법 중 하나입니다. 본 논문은 언어 모델의 맥락에서 질문을 제기합니다: 서로 다른 LLMs를 혼합하는 것이 실제로 유익한가요? 우리는 Self-MoA를 제안합니다. 이는 단 하나의 최고 성능을 보이는 LLM에서의 출력을 집계하는 앙상블 방법입니다. 우리의 방대한 실험 결과는 놀랍게도 Self-MoA가 다양한 시나리오에서 서로 다른 LLMs를 혼합하는 표준 MoA보다 우수한 성과를 보인다는 것을 보여줍니다: Self-MoA는 AlpacaEval 2.0 벤치마크에서 MoA에 비해 6.6%의 개선을 달성하며, MMLU, CRUX, MATH를 포함한 다양한 벤치마크에서 평균 3.8%의 개선을 달성합니다. AlpacaEval 2.0의 최상위 모델 중 하나에 Self-MoA를 적용하면 리더보드에서 새로운 최고 성능을 달성할 수 있습니다. Self-MoA의 효과를 이해하기 위해 우리는 다양성과 출력 품질 사이의 교환 관계를 체계적으로 조사합니다. MoA 세팅에서 다양성과 품질 사이의 교환 관계가 상당히 민감하며, 서로 다른 LLMs를 혼합하는 것이 종종 모델의 평균 품질을 낮출 수 있다는 것을 확인합니다. 연구를 보완하기 위해, 서로 다른 LLMs를 혼합하는 것이 도움이 될 수 있는 시나리오를 식별합니다. 본 논문은 Self-MoA의 순차적 버전을 소개하며, 이는 여러 라운드 동안 실시간으로 많은 LLM 출력을 집계할 수 있으며, 한꺼번에 모든 출력을 집계하는 것과 동일한 효과를 발휘합니다.
텍스트-이미지 생성 모델의 현저한 발전에도 불구하고, 이러한 모델은 적대적 공격에 취약하며 안전하지 않거나 윤리적으로 문제가 있는 콘텐츠를 생성할 수 있다. 기존 방법들은 종종 특정 개념을 제거하기 위해 모델을 세밀하게 조정하는 데 의존하는데, 이는 계산 비용이 많이 들거나 확장성이 부족하며 생성 품질을 희생할 수 있다. 본 연구에서는 확산 모델에서 효율적이고 해석 가능한 개념 조작을 가능하게 하는 k-희소 오토인코더(k-SAEs)를 활용하는 새로운 프레임워크를 제안한다. 구체적으로, 우리는 먼저 텍스트 임베딩의 잠재 공간에서 해석 가능한 단의미 개념을 식별하고, 이를 활용하여 생성을 특정 개념(예: 노출)으로부터 멀어지게 하거나 가까워지게 하거나 새로운 개념(예: 사진 스타일)을 도입한다. 광범위한 실험을 통해 우리의 방법이 매우 간단하며, 기본 모델이나 LoRA 어댑터의 재교육이 필요하지 않으며, 생성 품질을 희생시키지 않으며, 적대적 프롬프트 조작에 강건하다는 것을 입증한다. 우리의 방법은 안전하지 않은 개념 제거에서 20.01%의 개선을 보이며, 스타일 조작에서 효과적이며, 현재의 최첨단 기술보다 5배 빠르다.
샘플링 기반 검색은 테스트 시간 계산을 활용하는 간단한 패러다임으로, 여러 후보 응답을 생성하고 최상의 응답을 선택하는 것을 포함합니다. 일반적으로는 각 응답을 정확성을 확인하여 선택합니다. 본 논문에서는 샘플링 기반 검색을 지배하는 확장 트렌드를 연구합니다. 우리의 연구 결과 중 하나는 무작위 샘플링과 직접 자가 확인만 사용하는 최소한의 구현을 확장하는 것만으로도, 예를 들어 Gemini v1.5 Pro 모델의 추론 능력을 인기 있는 벤치마크에서 o1-Preview를 넘어서는 지속적인 성능 향상이 가능하다는 것입니다. 우리는 샘플링 기반 검색의 확장성을 응답 풀을 더 크게 샘플링함으로써 검증 정확도를 향상시키는 암묵적 확장 현상과 관련시킵니다. 또한 테스트 시간 계산을 통해 자가 확인 능력을 향상시키기 위한 두 가지 유용한 원칙을 확인합니다: (1) 응답 간 비교는 오류와 환각의 위치에 대한 유용한 신호를 제공하며, (2) 서로 다른 모델 출력 스타일은 다른 맥락에서 유용합니다. 추론을 위해 사고 체인은 유용하지만 확인하기 어렵습니다. 정확한 확인이 가능하다 하더라도, 프론티어 모델은 상자 밖의 확인 능력이 놀랍도록 약하며, 이러한 결함에 대한 진전을 측정하기 위한 벤치마크를 도입합니다.
본 논문은 팬옵틱 분할 및 이미지 캡션에 중점을 둔 COCONut-PanCap 데이터셋을 소개합니다. COCO 데이터셋을 기반으로 한 고급 COCONut 팬옵틱 마스크를 활용하여, 기존의 이미지-텍스트 데이터셋에서 종종 부족한 자세하고 장면 전체를 아우르는 설명의 한계를 극복하기 위해 이 데이터셋이 개발되었습니다. COCONut-PanCap 데이터셋은 팬옵틱 분할 마스크에 근거한 세밀한 영역 수준의 캡션을 통합하여 일관성을 확보하고 생성된 캡션의 세부 사항을 향상시킵니다. 인간이 편집한 밀도 높은 주석을 통해, COCONut-PanCap은 이미지 이해를 위한 시각-언어 모델(VLMs)의 향상된 학습과 텍스트-이미지 작업을 위한 생성 모델을 지원합니다. 실험 결과는 COCONut-PanCap이 이해 및 생성 작업 전반에 걸쳐 성능을 현저히 향상시키며, 대규모 데이터셋에 보완적인 이점을 제공함을 입증합니다. 이 데이터셋은 공동 팬옵틱 분할과 근거 있는 캡션 작업에 대한 모델을 평가하기 위한 새로운 기준을 제시하며, 다중 모달 학습에서 고품질의 자세한 이미지-텍스트 주석이 필요함에 대응합니다.
컴퓨터 지원 설계(CAD) 모델을 생성하는 데에는 상당한 전문 지식과 노력이 필요합니다. 텍스트-대-CAD는 텍스트 설명을 CAD 매개 변수 시퀀스로 변환하여 이 프로세스를 간소화하는 데 중요합니다. 최근 연구에서는 이 목표를 달성하기 위해 순차적 신호로 알려진 ground-truth 매개 변수 시퀀스를 감독으로 활용해 왔습니다. 그러나 CAD 모델은 본질적으로 다중 모달이며, 매개 변수 시퀀스와 해당 렌더링된 시각적 객체로 구성됩니다. 또한, 매개 변수 시퀀스에서 시각적 객체로의 렌더링 과정은 다대일 관계입니다. 따라서 효과적인 학습을 위해 순차적 및 시각적 신호가 모두 중요합니다. 본 연구에서는 Large Language Models (LLMs)를 백본으로 사용하고 순차 학습(SL) 단계와 시각적 피드백(VF) 단계 사이를 번갈아 가며 하는 CADFusion 프레임워크를 소개합니다. SL 단계에서는 ground-truth 매개 변수 시퀀스를 사용하여 LLM을 학습시켜 논리적으로 일관된 매개 변수 시퀀스를 생성합니다. VF 단계에서는 시각적으로 선호되는 객체로 렌더링되는 매개 변수 시퀀스를 보상하고, 그렇지 않은 경우에는 벌점을 부여하여 LLM이 렌더링된 시각적 객체가 어떻게 인식되고 평가되는지 학습하게 합니다. 이 두 단계는 교대로 학습되어 균형 잡힌 학습을 보장하고 두 신호의 이점을 유지합니다. 실험 결과, CADFusion이 성능을 현저히 향상시킨다는 것을 질적으로나 양적으로 입증하였습니다.
텍스트-이미지 모델의 맞춤화는 사용자가 사용자 정의 개념을 삽입하고 보이지 않는 환경에서 개념을 생성할 수 있게 합니다. 기존 방법은 비용이 많이 드는 테스트 시간 최적화에 의존하거나 단일 이미지 훈련 데이터셋에서 인코더를 훈련시키지만 다중 이미지 감독을 제공하지 않아 이미지 품질이 저하됩니다. 우리는 이러한 한계를 해결하는 간단한 방법을 제안합니다. 먼저 기존 텍스트-이미지 모델과 3D 데이터셋을 활용하여 동일한 객체의 다양한 조명, 배경 및 자세를 가진 여러 이미지로 구성된 고품질의 합성 맞춤 데이터셋(SynCD)을 생성합니다. 그런 다음 입력 이미지에서 미세한 시각적 세부 사항을 더 잘 포함하는 공유된 주의 메커니즘에 기반한 새로운 인코더 아키텍처를 제안합니다. 마지막으로, 제안된 인코더와 추론 알고리즘을 사용하여 합성 데이터셋에서 훈련된 우리의 모델이 표준 맞춤화 벤치마크에서 기존의 조정 없는 방법을 능가함을 보여주는 새로운 추론 기술을 제안합니다.
대규모 언어 모델(LLMs)을 장치에서 세밀 조정하는 것이 점점 더 많은 관심을 끌고 있습니다. 최근 연구들은 저랭크 적응(LoRA) 기술을 연합 세밀 조정과 융합하여 장치 모델 크기와 데이터 부족으로 인한 어려움을 완화하고 있습니다. 그럼에도 불구하고, 계산 자원의 이질성은 여전히 중요한 병목 현상으로 남아 있습니다. 일반적으로 고랭크 모듈이 성능을 향상시키지만, 다양한 장치 성능은 LoRA의 적용 가능한 랭크 범위를 제한합니다. 이 문제를 해결하려는 기존 방법들은 분석적 근거가 부족하거나 추가적인 계산 부담을 가하며, 효율적이고 이론적으로 기반을 둔 해결책에 큰 간극을 남겨 두고 있습니다. 이러한 도전에 대처하기 위해, 우리는 연합 스케치 LoRA (FSLoRA)를 제안합니다. 이는 서버가 유지하는 전역 LoRA 모듈의 하위 행렬을 장치가 선택적으로 업데이트할 수 있도록 스케치 메커니즘을 활용합니다. 장치에서 하위 행렬의 랭크를 결정하는 스케치 비율을 조정함으로써, FSLoRA는 장치별 통신 및 계산 제약 조건에 유연하게 적응합니다. 우리는 FSLoRA의 수렴 속도에 영향을 미치는 스케치 비율을 특징 짓는 엄격한 수렴 분석을 제공합니다. 다양한 데이터셋과 LLM 모델에 대한 포괄적인 실험을 통해, 다양한 기준선과 비교하여 FSLoRA의 우수한 성능을 입증합니다.
대형 언어 모델 (LLMs)은 다양한 영역에서 놀라운 능력을 보여주었습니다. LLMs의 진화하는 능력과 확장되는 배포 시나리오에 수반되는 것은, Llama, Gemma, Mistral과 같은 주목할만한 모델 시리즈에서 흔히 볼 수 있는 고급이면서 복잡한 활성화 설계로 인해 그들의 배포 도전이 증가합니다. 이러한 도전은 자원 제약이 있는 배포 시나리오에서 특히 두드러지며, 추론 효율 병목 현상을 완화하는 것이 필수적입니다. 최근의 다양한 노력 가운데 활성화 근사가 추론 효율을 추구하는 유망한 방안으로 떠오르고 있으며, 때로는 개인 추론과 같은 응용에서 필수적인 것으로 여겨집니다. 유틸리티에 미치는 영향이 미미하면서 상당한 속도 향상을 이루었음에도 불구하고, 활성화 근사의 안전성 영향은 여전히 명확하지 않습니다. 본 연구에서는 활성화 근사의 첫 번째 체계적인 안전성 평가를 통해 LLM 안전성의 중요한 공백을 채우고 있습니다. 우리의 안전성 검토는 세 가지 인기 있는 범주에서 일곱 가지 최신 기술을 포함하며, 열 가지 안전 기준에 부합하는 LLMs에서 일관된 안전성 저하를 드러냅니다.