번역이 포함된 일일 선별된 AI 연구 논문
테스트 시간 스케일링(Test-Time Scaling, TTS)은 추가 계산을 사용하여 추론 단계에서 대형 언어 모델(Large Language Models, LLMs)의 성능을 향상시키는 중요한 방법입니다. 그러나 현재의 연구는 정책 모델, 프로세스 보상 모델(Process Reward Models, PRMs), 그리고 문제의 난이도가 TTS에 어떻게 영향을 미치는지를 체계적으로 분석하지 않습니다. 이러한 분석 부족으로 TTS 방법의 이해와 실용적 사용이 제한됩니다. 본 논문에서는 두 가지 핵심 질문에 초점을 맞춥니다: (1) 다른 정책 모델, PRMs, 그리고 문제 난이도에 걸쳐 테스트 시간 계산을 확장하는 최적의 방법은 무엇인가요? (2) 확장된 계산이 복잡한 작업에서 LLMs의 성능을 얼마나 향상시키며, 이 방법을 통해 보다 작은 언어 모델이 큰 모델을 능가할 수 있을까요? MATH-500 및 어려운 AIME24 작업에 대한 포괄적인 실험을 통해 다음과 같은 관찰 결과를 얻었습니다: (1) 계산 최적화 TTS 전략은 정책 모델, PRM, 그리고 문제 난이도 선택에 매우 의존적입니다. (2) 계산 최적화 TTS 전략을 사용하면 극히 작은 정책 모델이 큰 모델을 능가할 수 있습니다. 예를 들어, 1B LLM은 MATH-500에서 405B LLM을 능가할 수 있습니다. 또한, MATH-500 및 AIME24 모두에서 0.5B LLM이 GPT-4o를 능가하고, 3B LLM이 405B LLM을 능가하며, 7B LLM이 o1 및 DeepSeek-R1을 이기면서 추론 효율성이 높습니다. 이러한 결과는 TTS 전략을 각 작업과 모델의 특성에 맞게 조정하는 중요성을 보여주며, TTS가 LLMs의 추론 능력을 향상시키는 유망한 접근 방법임을 나타냅니다.
다국어 텍스트 정제에 대한 기존 접근 방식은 병렬 다국어 데이터셋의 부족으로 인해 제약을 받고 있습니다. 본 연구에서는 다국어 병렬 정제 데이터 생성을 위한 파이프라인을 소개합니다. 또한 SynthDetoxM을 소개합니다. 이는 독일어, 프랑스어, 스페인어 및 러시아어에 걸쳐 16,000개의 고품질 정제 문장 쌍으로 이루어진 수작업 수집 및 합성 생성 다국어 병렬 텍스트 정제 데이터셋입니다. 이 데이터는 다양한 독성 평가 데이터셋에서 수집되었으며, 그 후에 9가지 최신 오픈 소스 LLMs로 몇 가지 샷 설정에서 다시 작성되었습니다. 우리의 실험 결과, 생성된 합성 데이터셋으로 훈련된 모델이 데이터 제한적인 환경에서도 인간 주석이 달린 MultiParaDetox 데이터셋으로 훈련된 모델보다 우수한 성능을 보여줍니다. SynthDetoxM으로 훈련된 모델은 샷 설정에서 모든 평가된 LLMs보다 우수한 성능을 보입니다. 우리는 다국어 텍스트 정제에 대한 추가 연구를 돕기 위해 데이터셋과 코드를 공개합니다.
추론 능력, 특히 복잡한 수학 문제 해결 능력은 일반적 지능의 중요한 구성 요소입니다. OpenAI의 o-시리즈 모델과 같은 프로프리어터리 기업들의 최근 발전은 추론 작업에서 현저한 진전을 이루었습니다. 그러나 완전한 기술적 세부 사항은 아직 공개되지 않았으며, 확실히 채택된 기술은 강화 학습 (RL)과 오랜 사고 체인만 있다는 것입니다. 본 논문은 수학적 추론 작업을 위해 이진 결과 보상만 쉽게 접근 가능한 환경에서 달성할 수 있는 성능 한계를 추구하기 위한 새로운 강화 학습 프레임워크인 OREAL을 제안합니다. 우리는 이론적으로 BoN 샘플링에서 양의 궤적에 대한 행동 복제가 KL-정규화된 최적 정책을 학습하는 데 충분하다는 것을 증명합니다. 이 공식은 또한 음의 샘플 보상이 양의 샘플과의 그래디언트 일관성을 보장하기 위해 재구성되어야 함을 시사합니다. 강화 학습에서 희소 보상에 의해 야기되는 오랜 기간의 어려움을 완화하기 위해, 특히 추론 작업의 오랜 사고 체인의 부분적 정확성에 의해 악화되는 어려움을 더 이상 적용하기 위해 토큰 수준 보상 모델을 적용하여 추론 궤적에서 중요한 토큰을 샘플링합니다. OREAL을 통해 처음으로 7B 모델이 MATH-500에서 94.0 pass@1 정확도를 RL을 통해 달성할 수 있었으며, 32B 모델과 비등합니다. OREAL-32B는 또한 MATH-500에서 95.0 pass@1 정확도로 디스틸레이션으로 훈련된 이전 32B 모델을 능가했습니다. 우리의 조사는 강화 학습을 위한 초기 정책 모델과 훈련 쿼리의 중요성을 나타냅니다. 코드, 모델 및 데이터는 향후 연구에 도움이 되도록 공개될 예정입니다. (https://github.com/InternLM/OREAL)
본 논문에서는 최근 현대 대형 언어 모델(LLMs)에서 거의 절반에 해당하는 레이어가 예상보다 효과적이지 않다는 최근 관측을 강조, 설명 및 다루는 '깊이의 저주(Curse of Depth)' 개념을 소개합니다. 우리는 먼저 Llama, Mistral, DeepSeek, Qwen과 같은 가장 인기 있는 LLM 패밀리 전반에 걸쳐 이 현상이 널리 존재함을 확인합니다. 이론적 및 경험적 분석을 통해, LLMs의 깊은 레이어의 비효율성의 근본적인 이유는 Pre-Layer Normalization(Pre-LN)의 널리 사용되는 것에서 비롯된다는 것을 확인합니다. Pre-LN은 Transformer LLMs의 훈련을 안정화시키지만, 모델의 깊이에 따라 출력 분산이 기하급수적으로 증가하여 깊은 Transformer 블록의 도함수가 항등 행렬이 되어 훈련에 거의 기여하지 않게 됩니다. 이 훈련 상의 함정을 해결하기 위해, 우리는 LayerNorm Scaling을 제안합니다. 이는 레이어 정규화의 출력 분산을 깊이의 제곱근으로 역으로 조절하는 것입니다. 이 간단한 수정은 더 깊은 Transformer 레이어의 출력 분산 폭발을 완화시키고, 그들의 기여를 향상시킵니다. 130M에서 1B까지의 모델 크기를 포함하는 실험 결과는, LayerNorm Scaling이 Pre-LN에 비해 LLM 사전 훈련 성능을 크게 향상시킨다는 것을 보여줍니다. 게다가, 이 개선은 감독된 세밀 조정에도 원활하게 이어집니다. 이 모든 이득은 LayerNorm Scaling이 깊은 레이어가 훈련 중에 더 효과적으로 기여할 수 있도록 한다는 사실로 설명할 수 있습니다.
자연어로 소통하는 것은 다중 에이전트 환경에서 강력한 도구로 작용합니다. 이는 독립적인 에이전트들이 정보를 공유할 수 있게 하며 부분적으로 관측 가능한 환경에서 사람들과의 제로샷 협조를 가능하게 합니다. 그러나 대부분의 이전 연구는 대량의 인간 데모로 훈련하는 것에 의존하거나 자연스럽고 유용한 의사 소통 전략을 생성하는 능력이 부족한 한계가 있습니다. 본 연구에서는 어떠한 인간 데모 없이 언어 모델을 훈련하여 환경에 대해 자연어로 생산적인 토론을 할 수 있도록 합니다. 우리는 소통 문제를 듣기와 말하기로 분해합니다. 핵심 아이디어는 에이전트의 목표를 활용하여 세계에 대한 유용한 정보를 예측하는 밀도 있는 보상 신호로 소통을 안내하는 것입니다. 구체적으로, 우리는 모델이 토론을 기반으로 환경에 대한 정보를 예측하도록 훈련함으로써 모델의 듣기 기술을 개선하고, 다른 에이전트들에게 영향을 미치는 메시지를 보상함으로써 모델의 말하기 기술을 동시에 향상시킵니다. 복잡한 사회적 환경에서 소통의 역할과 필요성을 조사하기 위해 Among Us를 기반으로 한 신체적 사회적 추론 게임을 연구합니다. 여기서 대답해야 할 주요 질문은 적대적인 장난꾸러기의 정체성입니다. 우리의 기술로 인한 발생적 행동, 예를 들어 용의자 비난과 증거 제시 등을 분석하고, 이로 인해 표준 강화 학습과 비교하여 승률을 두 배로 늘리는 강력한 토론을 가능하게 한다는 것을 발견합니다. 우리의 코드와 모델은 https://socialdeductionllm.github.io/에서 공개됩니다.
모델 가중치의 양자화는 대규모 모델의 통신 및 추론 비용을 줄이는 데 중요합니다. 그러나 모델을 양자화하는 것은 특히 int4 또는 int2와 같은 낮은 정밀도로 양자화하는 경우 모델 품질에 대한 트레이드오프가 필요합니다. 특히 int2는 모델 품질을 심각하게 저하시키는 것으로 알려져 있습니다. 결과적으로 실무자들은 종종 다양한 양자화 수준을 갖는 여러 모델을 유지하거나 품질-지연 트레이드오프를 가장 잘 충족하는 단일 모델을 제공해야 합니다. 반면, int8과 같은 정수 데이터 유형은 작은 비트 폭 정수인 int4 또는 int2가 가장 중요한 비트 내에 중첩된 구조를 가지고 있습니다. 본 논문은 Matryoshka Quantization (MatQuant)이라는 새로운 다중 스케일 양자화 기술을 제안합니다. 이 기술은 여러 양자화된 모델이 필요한 문제에 대응합니다. MatQuant을 통해 훈련하고 유지해야 하는 모델을 하나만 사용할 수 있으며, 이 모델은 다양한 정밀도 수준에서 제공될 수 있습니다. 또한 MatQuant이 제공하는 공동 훈련 및 공동 증류 규제 덕분에 MatQuant에서 추출된 int2 정밀도 모델은 QAT 또는 OmniQuant과 같은 기술을 사용한 표준 int2 양자화보다 최대 10% 더 정확할 수 있습니다. 이는 모델 양자화에서 상당한 진전을 나타내며, 동일한 레시피를 사용할 때 int2 FFN-양자화된 Gemma-2 9B 모델이 int8 FFN-양자화된 Gemma-2 2B 모델보다 정확할 것을 입증하고 있습니다.
본 논문은 대용량 메모리 모델(LM2)을 소개합니다. LM2는 어떤 표준 Transformer의 한계를 극복하기 위해 보조 메모리 모듈이 강화된 디코더 전용 Transformer 아키텍처로, 다단계 추론, 관계적 논증, 그리고 긴 맥락에 분산된 정보를 종합하는 데 목적을 두고 있습니다. 제안된 LM2는 입력 토큰과 상호 작용하며 게이팅 메커니즘을 통해 업데이트되는 문맥적 표현 저장소 역할을 하는 메모리 모듈을 통합하였습니다. Transformer의 일반적인 기능을 유지하면서 보충적인 메모리 경로를 통합함으로써 LM2는 원래의 정보 흐름을 유지합니다. BABILong 벤치마크에서의 실험 결과는 LM2 모델이 작업별로 평균적으로 기억 증강 RMT 모델보다 37.1% 및 기준선 Llama-3.2 모델보다 86.3% 우수한 성능을 보여준다는 것을 입증합니다. LM2는 다단계 추론, 숫자 추론, 그리고 대규모 맥락 질의응답에서 뛰어난 능력을 보여줍니다. MMLU 데이터셋에서는 사전 훈련된 바닐라 모델 대비 5.0% 향상을 달성하여, 일반적인 작업에서의 성능 저하가 없음을 입증합니다. 더불어, 우리의 분석에서는 메모리 해석 가능성, 메모리 모듈의 효과성, 그리고 테스트 시 동작을 탐구합니다. 우리의 결과는 Transformer 아키텍처를 향상시키는 명시적 메모리의 중요성을 강조합니다.
대규모 언어 모델(Large Language Models, LLMs)은 코드 생성 및 문제 해결에서 상당한 발전을 이루었습니다. 현재의 접근 방식은 다양한 방법으로 생성된 초기 프로그램을 개선하기 위해 컴파일러나 다른 도구 기반의 런타임 피드백을 활용하는 외부 도구 기반의 반복적 디버거를 사용합니다. 그러나 이러한 접근 방식의 효과는 초기 코드 생성의 품질에 매우 의존하며, 이는 여전히 열린 과제입니다. 본 논문에서는 프로그램 합성-계획, 코딩, 디버깅 단계를 인간과 유사한 지각 접근을 통해 포괄적으로 다루는 새로운 다중 에이전트 코드 생성 프레임워크인 CodeSim을 소개합니다. 인간이 알고리즘에 대한 이해를 시각적 시뮬레이션을 통해 검증하는 것처럼, CodeSim은 입력/출력의 단계별 시뮬레이션을 통한 계획 검증 및 내부 디버깅의 독특한 기능을 갖추고 있습니다. 7가지 어려운 경쟁적 문제 해결 및 프로그램 합성 벤치마크를 통해 수행된 방대한 실험은 CodeSim의 놀라운 코드 생성 능력을 입증합니다. 우리의 프레임워크는 새로운 최첨단(HumanEval 95.1%, MBPP 90.7%, APPS 22%, CodeContests 29.1%) 결과를 달성했습니다. 더 나아가, 우리의 방법은 외부 디버거와 연계되었을 때 더 큰 향상 가능성을 보여줍니다. 이 분야에서의 추가 연구 및 개발을 촉진하기 위해 우리의 프레임워크를 다음 링크(https://kagnlp.github.io/codesim.github.io/)에서 오픈소스로 제공하였습니다.
통합된 다중 모달 이해 및 생성 모델 구축에 대한 연구 관심이 증가하고 있으며, 그 중에서도 Show-o는 주목할 만한 대표적인 모델로 나타나며, 텍스트에서 이미지로, 그리고 이미지에서 텍스트로의 생성에 대한 큰 약속을 보여줍니다. Show-o의 추론은 이미지 토큰을 점진적으로 제거하고 텍스트 토큰을 자기 회귀적으로 디코딩하는 과정을 포함하므로, 불행히도 양쪽에서 효율성 문제가 발생합니다. 본 논문에서는 이 간극을 메우기 위해 Show-o Turbo를 소개합니다. 먼저, 텍스트 토큰의 병렬 디코딩을 기반으로 Show-o에서 이미지와 텍스트 생성을 위한 통합된 제거 관점을 식별합니다. 그런 다음, 확산 모델의 제거 과정을 단축하는 데에 적합한 일관성 증류(CD) 방법을 다중 모달 제거 궤적에 확장하는 것을 제안합니다. 교육 수렴을 향상시키기 위해 궤적 세분화 전략과 커리큘럼 학습 절차를 도입합니다. 경험적으로, 텍스트에서 이미지 생성 시, Show-o Turbo는 분류기 미사용 가이드(CFG)를 사용하지 않고 4개의 샘플링 단계에서 0.625의 GenEval 점수를 나타내며, 8단계 및 CFG를 사용한 원래의 Show-o보다 우수한 성능을 보여줍니다. 이미지에서 텍스트로의 생성에서는, Show-o Turbo는 성능을 크게 희생하지 않고 1.5배의 가속을 보여줍니다. 코드는 https://github.com/zhijie-group/Show-o-Turbo에서 사용할 수 있습니다.
계층적 LLM 추론을 통해 확장된 사고 템플릿을 통해 효과적으로 추론 검색 공간을 최적화하고 OpenAI o1-preview 및 DeepSeek V3와 같은 강력한 LLM의 수학적 추론 능력을 능가할 수 있음을 제시합니다. 우리는 ReasonFlux-32B 모델을 8개의 GPU로만 학습시키고 세 가지 혁신을 도입합니다: (i) 약 500개의 고수준 사고 템플릿을 포함하는 구조화된 일반적인 사고 템플릿 라이브러리, 유사하거나 관련된 추론 문제에 일반화할 수 있는 템플릿; (ii) 긴 CoT 대신 일련의 사고 템플릿에 계층적 강화 학습을 수행하여 복잡한 문제를 점진적으로 처리하기 위한 최적의 템플릿 경로를 계획하는 기본 LLM을 최적화; (iii) 추론 시간에 사고 템플릿을 적응적으로 확장시키는 새로운 추론 확장 시스템. 연속적인 사고 템플릿을 포함하는 템플릿 경로로, ReasonFlux-32B는 수학 추론 능력을 최첨단 수준으로 크게 발전시킵니다. 특히, MATH 벤치마크에서 91.2%의 정확도를 달성하여 o1-preview보다 6.7%를 능가합니다. 미국 수학 올림피아드(AIME) 벤치마크에서 ReasonFlux-32B는 문제의 평균 56.7%를 해결하여 각각 27%와 45%를 능가하는 o1-preview 및 DeepSeek-V3를 뛰어넘습니다. 코드: https://github.com/Gen-Verse/ReasonFlux
대규모 언어 모델(LLMs)에서 추론 가속화는 실시간 상호작용에 중요한데, 이들은 실제 서비스에 널리 통합되어 있습니다. 추측 디코딩은 완전히 알고리즘적인 해결책으로, 토큰을 초안 작성하고 확인하여 단일 전방향 패스에서 여러 토큰을 생성함으로써 추론 속도를 향상시키는 데 주목받고 있습니다. 그러나 현재의 초안 작성 전략은 일반적으로 상당한 세밀한 조정이 필요하거나 작업 간에 일관된 성능을 보여주지 않습니다. 이러한 도전에 대응하기 위해 우리는 계층적 초안 작성(HD)을 제안합니다. 이는 시간적 국소성을 기반으로 다양한 토큰 소스를 여러 데이터베이스로 구성하는 손실 없는 초안 작성 방법입니다. 초안 작성 단계에서 HD는 가장 높은 지역성부터 가장 낮은 지역성까지 순차적으로 여러 데이터베이스에 액세스하여 초안 토큰을 획득함으로써 다양한 작업에 걸쳐 일관된 가속화를 보장하고 초안 작성 대기 시간을 최소화합니다. 7B 및 13B 매개변수를 가진 LLM을 사용하여 Spec-Bench에서 수행한 실험 결과, HD가 기존 데이터베이스 초안 작성 방법을 능가하며, 모델 크기, 작업 및 온도에 걸쳐 견고한 추론 가속을 달성함을 보여줍니다.
대규모 언어 모델 (LLM) 에이전트는 작업 자동화 및 지능적 의사 결정에서 놀라운 능력을 보여주며, LangChain 및 AutoGen과 같은 에이전트 개발 프레임워크의 널리 퍼지는 채택을 이끌어내고 있습니다. 그러나 이러한 프레임워크는 주로 광범위한 기술 전문 지식을 가진 개발자들을 대상으로 하고 있는데, 전 세계 인구의 단 0.03%만이 필요한 프로그래밍 기술을 보유하고 있다는 사실을 고려하면 이는 상당한 제약으로 작용합니다. 이러한 접근성에 대한 큰 격차는 기본적인 질문을 던집니다: 기술적 배경에 관계없이 누구나 자연어만 사용하여 자신만의 LLM 에이전트를 구축할 수 있게 할 수 있을까요? 이러한 도전에 대처하기 위해, 우리는 MetaChain을 소개합니다 - 자연어만 사용하여 사용자가 LLM 에이전트를 생성하고 배포할 수 있게 하는 완전 자동화 및 고도로 자기 발전적인 프레임워크입니다. 자율 에이전트 운영 시스템으로 작동하는 MetaChain은 네 가지 주요 구성 요소로 구성됩니다: i) 에이전트 시스템 유틸리티, ii) LLM 기반의 실행 가능 엔진, iii) 자체 관리 파일 시스템, 그리고 iv) 자가 플레이 에이전트 사용자 정의 모듈. 이 가벼우면서도 강력한 시스템은 코딩 요구 사항이나 수동 개입 없이 효율적이고 동적인 도구, 에이전트 및 워크플로우의 생성 및 수정을 가능하게 합니다. 코드 없는 에이전트 개발 능력을 넘어서, MetaChain은 일반 인공 지능 어시스턴트를 위한 다목적 다 에이전트 시스템으로 작동합니다. GAIA 벤치마크에서의 포괄적인 평가는 MetaChain의 일반적인 다 에이전트 작업에서의 효과를 입증하며, 기존 최첨단 방법을 능가합니다. 더불어, MetaChain의 검색 증강 생성 (RAG) 관련 능력은 많은 대안적 LLM 기반 솔루션에 비해 일관되게 우수한 성능을 보여주었습니다.
최근의 발전으로 확산 트랜스포머(Diffusion Transformers, DiTs)가 생성 모델링에서 우세한 프레임워크로 자리 잡았다. 이 성공을 바탕으로 Lumina-Next는 Next-DiT로 사실적인 이미지 생성에서 뛰어난 성능을 달성했다. 그러나 비디오 생성에 대한 잠재력은 여전히 충분히 활용되지 않았으며, 비디오 데이터에 내재된 공간적 시간적 복잡성을 모델링하는 데 중요한 어려움이 있다. 이를 해결하기 위해 우리는 Lumina-Video를 소개한다. 이 프레임워크는 Next-DiT의 강점을 활용하면서 비디오 합성을 위한 맞춤형 솔루션을 도입한다. Lumina-Video는 다중 스케일 Next-DiT 아키텍처를 통합하여 여러 패치화를 공동으로 학습하여 효율성과 유연성을 향상시킨다. Lumina-Video는 생성된 비디오의 동적 정도를 직접 제어할 수 있도록 움직임 점수를 명시적 조건으로 포함하여, 점진적 훈련 체계와 점점 더 높은 해상도 및 FPS를 갖는 훈련 체계, 그리고 혼합 자연 및 합성 데이터를 사용하는 다중 소스 훈련 체계와 결합하여 높은 훈련 및 추론 효율성에서 높은 미적 품질과 움직임 부드러움을 달성한다. 또한 생성된 비디오에 동기화된 소리를 만들기 위한 Next-DiT 기반의 비디오-음성 모델인 Lumina-V2A를 제안한다. 코드는 https://www.github.com/Alpha-VLLM/Lumina-Video에서 공개되었다.
기존의 인코더 없는 비전-언어 모델(VLMs)은 빠르게 성능 격차를 좁히고 있으며, 구조적 단순성과 효율적인 배포를 갖춘 통합된 다중 모달 시스템에 대한 유망한 잠재력을 강조하고 있습니다. 우리는 사전 훈련된 비전 인코더, 이산 토크나이저, 그리고 최소한의 시각적 레이어를 사용하여 VLMs 간의 성능 격차를 체계적으로 명확히 하고, 인코더 없는 VLMs의 미흡히 조사된 특성을 심층적으로 파헤칩니다. 우리는 주류의 인코더 기반 모델과 견줄만한 인코더 없는 VLMs를 위한 효율적인 전략을 개발합니다. 철저한 조사 끝에, 우리는 새롭고 개선된 인코더 없는 VLMs 패밀리인 EVEv2.0을 출시합니다. 우리는 보여줍니다: (i) 통합된 모델 내에서 비전과 언어를 적절히 분해하고 계층적으로 연관시킴으로써 모달 간 간섭을 줄입니다. (ii) 잘 설계된 훈련 전략은 인코더 없는 VLMs에 대한 효과적인 최적화를 가능하게 합니다. 광범위한 평가를 통해, 우리의 EVEv2.0은 모달 간 디코더 전용 아키텍처를 개발하기 위한 철저한 연구를 대표하며, 우수한 데이터 효율성과 강력한 비전 추론 능력을 보여줍니다. 코드는 다음 위치에서 공개되어 있습니다: https://github.com/baaivision/EVE.
분류기 없는 가이던스 (CFG)는 확산 모델에서 조건부 생성을 개선하는 핵심 기술로, 더 정확한 제어와 샘플 품질 향상을 가능하게 합니다. 이 기술을 비디오 확산에 확장하는 것은 자연스러운데, 이는 변수 길이의 컨텍스트 프레임으로 조건부 비디오를 생성하는 것을 의미합니다. 그러나, 변수 길이의 히스토리로 가이드하는 데 두 가지 주요 도전점을 발견했습니다: 고정 크기의 조건부만 지원하는 아키텍처와 CFG 스타일의 히스토리 드롭아웃이 성능이 나쁘다는 경험적 관찰입니다. 이를 해결하기 위해 우리는 Diffusion Forcing Transformer (DFoT)을 제안합니다. 이는 유연한 수의 히스토리 프레임에 대한 조건부를 함께 가능하게 하는 비디오 확산 아키텍처와 이론적으로 기반을 둔 훈련 목표입니다. 그런 다음 DFoT에 의해 독특하게 가능해진 일련의 가이드 방법인 히스토리 가이던스를 소개합니다. 가장 간단한 형태인 바닐라 히스토리 가이던스조차도 이미 비디오 생성 품질과 시간적 일관성을 크게 향상시킨다는 것을 보여줍니다. 더 발전된 방법인 시간 및 주파수를 통한 히스토리 가이던스는 더 나아가 움직임 역학을 더 향상시키며, 분포 밖의 히스토리에 대한 구성적 일반화를 가능하게 하고, 극도로 긴 비디오를 안정적으로 생성할 수 있습니다. 웹사이트: https://boyuan.space/history-guidance
대규모 비전-언어 모델(LVLMs)은 텍스트 및 시각적 입력 모두에 효과적으로 추론할 수 있지만, 문법적으로 일관된 내용을 환각하지만 시각적으로 미지원된 콘텐츠를 생성하는 경향이 있습니다. 본 논문에서는 LVLMs가 정보를 처리하는 방식을 밝힘으로써 환각의 내부 역학을 조사하였습니다. 생성 과정 전체에서 토큰 로짓 순위를 조사하여, 정보 처리 방식에서 세 가지 주요 패턴을 밝혀내었습니다: (1) 점진적 시각 정보 손실 - 시각적으로 미지원된 토큰이 생성 과정 중에 점차적으로 선호되지 않게 되는 것, (2) 초기 활성화 - 의미 있는 토큰이 최종 레이어보다 더 일찍 활성화의 절정을 달성하는 것, (3) 숨겨진 진짜 정보 - 시각적으로 미지원된 토큰들은 결정되지는 않지만 추론 시에 상대적으로 높은 순위를 유지합니다. 이러한 통찰력을 기반으로, 우리는 VISTA(토큰 로짓 보강을 통한 시각 정보 조절)를 제안합니다. 이는 훈련 없이 추론 시간 개입 프레임워크로, 환각을 줄이고 진짜 정보를 촉진합니다. VISTA는 시각 정보를 활성화 공간에서 강화하고, 의미 있는 디코딩을 촉진하기 위해 초기 레이어 활성화를 활용하는 두 가지 보완적 접근법을 결합하여 작동합니다. 기존 방법과 비교했을 때, VISTA는 외부 감독이 필요 없으며 다양한 디코딩 전략에 적용할 수 있습니다. 광범위한 실험 결과, VISTA는 평균적으로 평가된 오픈엔드 생성 작업에서 환각을 약 40% 줄이며, 3가지 디코딩 전략에 걸쳐 4가지 아키텍처에서 4개의 벤치마크에서 기존 방법을 일관되게 능가합니다.
이미지 합성에서 맞춤형 생성은 상당한 진전을 이루었지만, 개인화된 비디오 생성은 시간적 불일치와 품질 저하로 인해 여전히 어려움을 겪고 있습니다. 본 논문에서는 참조 이미지로부터 개인화된 비디오 생성을 위한 혁신적인 프레임워크인 CustomVideoX를 소개합니다. CustomVideoX는 비디오 확산 트랜스포머를 활용하여 사전 훈련된 비디오 네트워크를 기반으로 하여 LoRA 매개변수를 훈련함으로써 참조 특징을 추출하여 효율성과 적응성을 모두 보장합니다. 참조 이미지와 비디오 콘텐츠 간의 원활한 상호작용을 촉진하기 위해 우리는 3D 참조 주의를 제안합니다. 이는 공간적 및 시간적 차원을 통해 참조 이미지 특징을 모든 비디오 프레임과 직접적이고 동시에 상호작용할 수 있게 합니다. 추론 중에 생성된 비디오 콘텐츠에 참조 이미지 특징과 텍스트 가이드의 과도한 영향을 완화하기 위해 시간 인식 참조 주의 편향 (TAB) 전략을 구현하여 다양한 시간 단계에서 참조 편향을 동적으로 변조합니다. 더불어, 우리는 Entity Region-Aware Enhancement (ERAE) 모듈을 소개하여 핵심 엔티티 토큰의 고도로 활성화된 영역을 조정하여 참조 특징 주입에 대한 주의 집중을 조정합니다. 개인화된 비디오 생성을 철저히 평가하기 위해 VideoBench라는 새로운 벤치마크를 수립하였으며, 이는 50개 이상의 객체와 100개 이상의 프롬프트로 구성되어 철저한 평가를 제공합니다. 실험 결과는 CustomVideoX가 비디오 일관성과 품질 측면에서 기존 방법들을 크게 능가한다는 것을 보여줍니다.
고품질 비디오를 합성하는 것에 대한 약속에도 불구하고, 3D 전체 주의를 갖는 확산 트랜스포머(DiTs)는 주의 계산의 복잡성과 다수의 샘플링 단계로 인해 비용이 많이 발생합니다. 예를 들어, 인기 있는 Open-Sora-Plan 모델은 29프레임의 단일 비디오를 생성하는 데 9분 이상이 소요됩니다. 본 논문은 비효율성 문제를 두 가지 측면에서 다룹니다: 1) 비디오 데이터 내의 중복을 기반으로 3D 전체 주의를 가지치기합니다; 우리는 비디오 데이터의 3D 주의 맵에서 흔히 볼 수 있는 타일 형식의 반복적인 패턴을 식별하고, 비디오 프레임 수에 대해 선형 복잡도를 가진 새로운 희소 3D 주의 계열을 제안합니다. 2) 기존의 다단계 일관성 증류를 채택하여 샘플링 과정을 단축합니다; 우리는 전체 샘플링 궤적을 여러 세그먼트로 분할하고 각각에서 일관성 증류를 수행하여 몇 단계 생성 능력을 활성화합니다. 또한, 저복잡도 주의와 몇 단계 생성 능력을 결합하기 위해 세 단계의 훈련 파이프라인을 고안했습니다. 특히, 0.1% 사전 훈련 데이터로 Open-Sora-Plan-1.2 모델을 효율적인 모델로 변환하여 VBench에서 성능 희생을 최소화하면서 29프레임 및 93프레임 720p 비디오 생성에 대해 7.4배에서 7.8배 빠릅니다. 또한, 분산 추론에 적합한 접근 방식임을 입증하며, 4개의 GPU에서 시퀀스 병렬성으로 실행할 때 추가 3.91배의 가속도를 달성합니다.
웹 탐색 에이전트를 훈련시키는 주요 방법은 인기 있는 웹사이트와 수동으로 작성된 작업에 대한 인간 데모를 수집하는 것이지만, 인간 데이터가 비효율적인 자원임이 분명해지고 있습니다. 저희는 번거로운 인간 주석 없이 에이전트를 위한 인터넷 규모의 훈련을 용이하게 하는 파이프라인을 개발했습니다. 첫 번째 단계에서 LLM은 15만 개의 다양한 웹사이트를 위한 작업을 생성합니다. 다음 단계에서 LLM 에이전트는 작업을 완료하고 궤적을 생성합니다. 마지막 단계에서 LLM은 궤적을 검토하고 성공 여부를 판단합니다. 언어 모델은 인간 주석자들과 경쟁력을 갖추며, 97%의 정확도로 유해 콘텐츠를 감지하고 필터링하며, 89%의 비유용한 작업을 생성하고, 82.6%의 정확도로 성공적인 궤적을 판단합니다. 파이프라인을 확장하면, Llama 3.1 70B를 기반으로 한 에이전트들은 15만 개 사이트에 대해 16.7%의 작업을 해결합니다. 저희 파이프라인에서 생성된 데이터로 훈련하는 것은 인간 데모로 훈련하는 것과 경쟁력이 있습니다. Mind2Web 및 WebLINX에서 파생된 데이터 한정 환경에서, 저희 파이프라인 및 인간 데이터 혼합으로 훈련된 에이전트들의 단계 정확도를 각각 최대 +89.5% 및 +122.1% 향상시킵니다. 이러한 벤치마크의 모든 인간 데이터로 에이전트를 훈련할 때, 에이전트들은 다양한 실제 사이트로 일반화할 수 없으며, 저희 데이터를 추가함으로써 WebLINX의 경우 +149.0%, Mind2Web의 경우 +156.3%로 일반화를 향상시킵니다. 코드는 다음에서 제공될 예정입니다: data-for-agents.github.io.
인간 선호도 최적화 분야의 최근 발전은 원래 대형 언어 모델 (LLM)을 위해 개발된 것으로, 텍스트-이미지 확산 모델의 개선 가능성을 보여주고 있습니다. 이러한 방법은 선호하는 샘플의 분포를 학습하고, 이를 선호하지 않는 것과 구분하려고 합니다. 그러나 기존의 선호도 데이터셋은 종종 이러한 분포 간에 중첩이 발생하여 충돌 분포로 이어지곤 합니다. 또한, 우리는 입력 프롬프트가 선호하지 않는 이미지에 대한 관련 없는 정보를 포함하고 있어, 노이즈를 정확하게 예측하는 데 제한을 가하는 데노이징 네트워크의 능력을 제한하는 것을 확인했습니다. 이를 "관련 없는 프롬프트 문제"라고 합니다. 이러한 도전에 대응하기 위해, 우리는 관련 없는 프롬프트를 완화하기 위해 두 가지 다른 캡션을 활용하는 새로운 접근 방식인 이중 캡션 선호도 최적화 (DCPO)를 제안합니다. 충돌 분포에 대처하기 위해, 우리는 선호하는 이미지와 선호하지 않는 이미지를 위한 별도의 캡션을 가진 Pick-Double Caption 데이터셋을 소개합니다. 또한, 서로 다른 캡션을 생성하기 위한 세 가지 다른 전략을 제안합니다: 캡션 생성, 변형, 그리고 혼합 방법. 우리의 실험 결과는 DCPO가 이미지 품질과 프롬프트와의 관련성을 크게 향상시키며, Pickscore, HPSv2.1, GenEval, CLIPscore, 그리고 ImageReward를 포함한 여러 메트릭에서 SD 2.1을 백본으로 세밀하게 조정한 상태에서 Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, 그리고 MaPO를 능가한다는 것을 보여줍니다.
텍스트에서 3D 생성은 텍스트 설명으로부터 3D 콘텐츠를 자동으로 생성하여 다양한 분야에서 혁신적인 잠재력을 제공합니다. 그러나 기존 방법은 종종 생성된 콘텐츠를 인간의 선호도와 조화시키는 데 어려움을 겪어 적용 가능성과 유연성을 제한합니다. 이러한 한계를 극복하기 위해 본 논문에서는 DreamDPO를 제안합니다. DreamDPO는 최적화 기반 프레임워크로, 직접적인 선호도 최적화를 통해 인간의 선호도를 3D 생성 프로세스에 통합합니다. DreamDPO는 먼저 pairwise 예제를 구성하고, 그들의 인간의 선호도와의 조화를 보상이나 대규모 다중모달 모델을 사용하여 비교하며, 마지막으로 선호도 중심 손실 함수를 사용하여 3D 표현을 최적화합니다. 선호도를 반영하기 위해 pairwise 비교를 활용함으로써 DreamDPO는 정확한 점별 품질 평가에 의존하는 것을 줄이면서 선호도에 따른 최적화를 통해 세밀한 제어 가능성을 제공합니다. 실험 결과는 DreamDPO가 경쟁력 있는 결과를 달성하며, 기존 방법에 비해 더 높은 품질과 더 많은 제어 가능성을 제공함을 보여줍니다. 코드와 모델은 오픈 소스로 공개될 예정입니다.
컨텍스트 보강 생성(CAG) 기법인 RAG와 ICL은 사용자 쿼리에 대한 응답을 생성하기 위해 여러 컨텍스트를 효율적으로 결합해야 합니다. 이러한 컨텍스트를 직접 시퀀스로 입력하는 것은 각 요청마다 결합된 컨텍스트의 재인코딩으로 인해 상당한 계산 부담을 초래합니다. 이에 대응하기 위해 우리는 각 컨텍스트의 KV 상태를 독립적으로 사전 계산하고 캐싱하는 병렬 인코딩의 유망한 잠재력을 탐구합니다. 이 접근 방식은 추론 중에 캐싱된 상태를 직접 로드하여 여러 컨텍스트를 포함하면서도 컨텍스트 간 위치 재사용을 허용합니다. 그러나 주의 분배의 불일치로 인해 병렬 인코딩을 직접 적용하면 상당한 성능 하락이 발생합니다. 효과적이고 효율적인 CAG를 가능하게 하기 위해 우리는 적응형 병렬 인코딩(APE)을 제안합니다. 이는 병렬 인코딩의 분포를 순차 인코딩과 일치시키기 위해 공유 접두어, 주의 온도 및 스케일링 요소를 가져옵니다. RAG와 ICL 작업에 대한 결과는 APE가 동일한 입력을 사용하여 순차 인코딩 성능을 98%와 93% 유지하면서 각각 3.6%와 7.9% 우수성을 보여준다는 것을 입증합니다. 또한 APE는 많은 샷 CAG에 확장 가능하며, 병렬로 수백 개의 컨텍스트를 효과적으로 인코딩할 수 있습니다. 효율성 평가 결과, APE는 128K 길이의 컨텍스트에 대한 28배의 사전 채우기 시간을 줄이면서 엔드 투 엔드 4.5배의 가속화를 달성할 수 있습니다.
Steel-LLM은 한국 중심의 언어 모델로, 한정된 계산 자원에도 불구하고 고품질의 오픈 소스 모델을 개발하기 위해 처음부터 개발되었습니다. 2024년 3월에 출시된 이 프로젝트는 대규모 데이터셋에서 10억 개 파라미터 모델을 훈련시키는 것을 목표로 하였으며, 커뮤니티 내 다른 이들을 돕기 위해 투명성과 실용적인 통찰을 공유하는 것을 중점으로 두었습니다. 훈련 과정은 주로 중국어 데이터에 초점을 맞추었으며, 일부 영어 데이터도 포함하여 기존의 오픈 소스 LLM의 미흡한 점을 보완하고 모델 구축 여정에 대해 더 자세하고 실용적인 설명을 제공하였습니다. Steel-LLM은 CEVAL 및 CMMLU와 같은 벤치마크에서 우수한 성능을 보여주었으며, 대규모 기관의 초기 모델을 능가하였습니다. 본 논문은 프로젝트의 주요 기여 사항인 데이터 수집, 모델 설계, 훈련 방법론 및 진행 중 마주한 어려움에 대한 포괄적인 요약을 제공하며, 자신의 LLM을 개발하려는 연구자와 실무자들에게 유용한 자료를 제공합니다. 모델 체크포인트와 훈련 스크립트는 https://github.com/zhanshijinwat/Steel-LLM에서 확인할 수 있습니다.
추론적 디코딩(SD)은 대형 언어 모델 추론을 가속화하기 위해 작은 초안 모델을 사용하여 여러 토큰을 예측하고, 그 후 더 큰 대상 모델에 의해 병렬로 확인됩니다. 그러나 초안 모델의 제한된 용량으로 인해 예측 정확도를 향상시키기 위해 트리 기반 샘플링이 종종 필요합니다. 여기서 한 가지 주요 제한 사항을 확인했습니다: 동일한 단계의 후보자들은 동일한 표현에서 파생되어 다양성을 제한하고 전반적인 효과를 감소시킵니다. 이를 해결하기 위해 Mixture of Experts (MoE)를 활용하는 Jakiro를 제안합니다. 독립 전문가들이 다양한 예측을 생성하여 후보자들 사이의 상관 관계를 효과적으로 분리합니다. 더 나아가 초기 토큰에 대한 자기회귀 디코딩과 후속 단계에 대한 병렬 디코딩을 결합하는 하이브리드 추론 전략을 소개하고, 후자를 정확도를 향상시키기 위해 특징에 대한 대조 메커니즘으로 강화합니다. 우리의 방법은 예측 정확도를 크게 향상시키고 더 높은 추론 가속을 달성합니다. 다양한 모델을 대상으로 한 포괄적인 실험은 우리의 접근 방식의 효과성과 견고성을 검증하며, 추론적 디코딩의 새로운 SOTA를 확립합니다. 우리의 코드는 https://github.com/haiduo/Jakiro에서 사용할 수 있습니다.
언어 조건이 있는 로봇 모델은 자연어 지시에 기반한 다양한 작업을 수행할 수 있는 잠재력을 가지고 있습니다. 그러나 그들의 안전성과 효과를 평가하는 것은 여전히 어려운데, 왜냐하면 하나의 작업이 어떻게 표현될 수 있는지 모든 다양한 방법을 테스트하는 것이 어렵기 때문입니다. 현재의 벤치마크는 두 가지 주요 제한 사항이 있습니다: 제한된 인간이 생성한 지시 목록에 의존하며 많은 어려운 경우를 놓치며, 안전성 평가를 포함하지 않고 작업 성능에만 초점을 맞춥니다. 이러한 공백을 해결하기 위해 우리는 다양하고 어려운 지시를 생성하여 이러한 모델을 테스트하는 새로운 평가 방법인 '체현된 레드 팀(Embodied Red Teaming, ERT)'을 소개합니다. ERT는 시각 언어 모델(Vision Language Models, VLMs)과 자동화된 레드 팀 기법을 사용하여 맥락에 맞게 어려운 지시를 생성합니다. 실험 결과는 최신 언어 조건이 있는 로봇 모델이 ERT에서 생성된 지시에 실패하거나 안전하지 않게 행동한다는 것을 보여주며, 현재의 벤치마크가 실제 성능과 안전성을 평가하는 데 있어서의 단점을 강조합니다. 코드 및 비디오는 다음 링크에서 확인할 수 있습니다: https://s-karnik.github.io/embodied-red-team-project-page.
대형 언어 모델의 견고한 안전 기준 개발을 위해서는 유해 콘텐츠의 적절한 거부와 합법적인 과학적 논의의 잠재적 과도한 제한을 측정할 수 있는 공개되고 재현 가능한 데이터셋이 필요합니다. 우리는 주로 통제된 물질 쿼리를 통해 LLM 안전 메커니즘을 평가하기 위한 오픈 소스 데이터셋과 테스트 프레임워크를 제시합니다. 우리의 결과는 다음과 같습니다: Claude-3.5-sonnet은 73%의 거부와 27%의 허용으로 가장 보수적인 접근을 보여주었으며, Mistral은 쿼리의 100%에 답변하려고 시도했습니다. GPT-3.5-turbo는 10%의 거부와 90%의 허용을 보여주며, Grok-2는 20%의 거부와 80%의 허용을 등록했습니다. 테스트 프롬프트 변화 전략은 단일 프롬프트에서 85%에서 다섯 가지 변화로 감소하는 응답 일관성을 보여주었습니다. 이 공개적으로 이용 가능한 벤치마크는 필요한 안전 제한과 합법적인 과학적 조사의 잠재적 과도한 검열 사이의 중요한 균형을 체계적으로 평가할 수 있도록 하며, AI 안전 구현의 진전을 측정하기 위한 기초를 제공합니다. 사고 연쇄 분석은 안전 메커니즘의 잠재적 취약성을 드러내며, 바람직하고 타당한 과학적 논의를 지나치게 제한하지 않고 견고한 보호장치를 구현하는 복잡성을 강조합니다.