번역이 포함된 일일 선별된 AI 연구 논문
자기회귀 모델(ARMs)은 대규모 언어 모델(LLMs)의 초석으로 널리 인식되어 왔습니다. 우리는 이 개념에 도전하여, 사전 학습과 지도 미세 조정(SFT) 패러다임 하에서 처음부터 학습된 확산 모델인 LLaDA를 소개합니다. LLaDA는 순방향 데이터 마스킹 프로세스와 역방향 프로세스를 통해 분포를 모델링하며, 마스킹된 토큰을 예측하기 위해 기본 Transformer를 매개변수로 사용합니다. 가능성 경계를 최적화함으로써, LLaDA는 확률적 추론을 위한 원칙적인 생성적 접근 방식을 제공합니다. 다양한 벤치마크에서 LLaDA는 강력한 확장성을 보여주며, 우리가 자체 구축한 ARM 기준선을 능가합니다. 특히, LLaDA 8B는 LLaMA3 8B와 같은 강력한 LLM들과 맥락 내 학습에서 경쟁력을 보이며, SFT 이후에는 다중 턴 대화와 같은 사례 연구에서 인상적인 지시 수행 능력을 보여줍니다. 더욱이, LLaDA는 역전 저주 문제를 해결하며, 역전 시 완성 작업에서 GPT-4o를 능가합니다. 우리의 연구 결과는 확산 모델이 ARMs에 대한 실용적이고 유망한 대안임을 입증하며, 위에서 논의된 주요 LLM 능력이 본질적으로 ARMs에만 연결되어 있다는 가정에 도전합니다.
대규모 추론 모델(LRMs)은 AI 문제 해결 능력에서의 중요한 발전을 나타내지만, 상호작용 환경에서의 효과는 제한될 수 있습니다. 본 논문은 LRMs에서의 과도한 사고에 대해 소개하고 분석합니다. 이는 모델이 환경 상호작용보다는 내부 추론 체인을 선호하는 현상입니다. SWE Bench Verified를 사용하여 소프트웨어 공학 작업에 대한 실험을 통해 우리는 세 가지 반복적인 패턴을 관찰합니다: 분석 마비, 독단적 행동 및 조기 탈락. 우리는 이러한 행동을 연구하기 위한 프레임워크를 제안하며, 이는 인간 전문가 평가와 관련이 있으며 4018개의 궤적을 분석합니다. 우리는 과도한 사고 점수가 높을수록 성능이 감소하며, 추론 모델이 비추론 모델에 비해 과도한 사고에 강한 경향을 보인다는 것을 관찰합니다. 우리의 분석 결과, 대리 환경에서 과도한 사고를 완화하는 간단한 노력(예: 과도한 사고 점수가 낮은 솔루션 선택)는 모델 성능을 거의 30% 향상시킬 뿐만 아니라 계산 비용을 43% 줄일 수 있음을 시사합니다. 이러한 결과는 과도한 사고를 완화하는 것이 강력한 실용적 영향을 가지고 있음을 시사합니다. 우리는 내부 기능 호출 능력과 선택적 강화 학습을 활용하여 과도한 사고 경향을 완화할 수 있다고 제안합니다. 또한 우리의 평가 프레임워크와 데이터셋을 오픈 소스로 제공하여 이 방향의 연구를 촉진하고자 합니다. (https://github.com/AlexCuadron/Overthinking)
우리는 300억 개의 파라미터를 갖추고 최대 204프레임 길이의 비디오를 생성할 수 있는 최첨단 텍스트-투-비디오 사전 학습 모델인 Step-Video-T2V를 소개합니다. 비디오 생성 작업을 위해 설계된 심층 압축 변분 오토인코더(Video-VAE)는 16x16 공간 및 8x 시간적 압축 비율을 달성하면서도 탁월한 비디오 재구성 품질을 유지합니다. 사용자 프롬프트는 영어와 중국어를 모두 처리하기 위해 두 개의 이중 언어 텍스트 인코더를 사용하여 인코딩됩니다. 3D 전체 주의 메커니즘을 갖춘 DiT는 Flow Matching을 사용하여 학습되며, 입력 노이즈를 잠재 프레임으로 디노이즈하는 데 사용됩니다. 비디오 기반 DPO 접근법(Video-DPO)은 아티팩트를 줄이고 생성된 비디오의 시각적 품질을 개선하기 위해 적용됩니다. 또한, 우리의 훈련 전략을 상세히 설명하고 주요 관찰과 통찰을 공유합니다. Step-Video-T2V의 성능은 새로운 비디오 생성 벤치마크인 Step-Video-T2V-Eval에서 평가되며, 오픈소스 및 상용 엔진과 비교했을 때 최첨단 텍스트-투-비디오 품질을 입증합니다. 추가적으로, 현재의 확산 기반 모델 패러다임의 한계를 논의하고 비디오 파운데이션 모델의 미래 방향을 제시합니다. 우리는 Step-Video-T2V와 Step-Video-T2V-Eval을 https://github.com/stepfun-ai/Step-Video-T2V에서 공개합니다. 온라인 버전은 https://yuewen.cn/videos에서도 접근할 수 있습니다. 우리의 목표는 비디오 파운데이션 모델의 혁신을 가속화하고 비디오 콘텐츠 제작자들에게 힘을 실어주는 것입니다.
확산 모델(DMs)은 다양한 도메인에서 생성 작업을 위한 주요 선택지로 자리 잡았습니다. 그러나 이러한 모델들은 다수의 순차적 순방향 패스에 의존하기 때문에 실시간 성능이 크게 제한됩니다. 기존의 가속화 방법들은 주로 샘플링 단계 수를 줄이거나 중간 결과를 재사용하는 데 초점을 맞추었으며, 컨볼루션 U-Net 구조의 제약으로 인해 이미지 내 공간적 영역 간의 변이를 활용하지 못했습니다. 우리는 Diffusion Transformers(DiTs)의 가변 토큰 수 처리 유연성을 활용하여, DiT 모델의 초점에 따라 이미지 내 영역에 서로 다른 샘플링 비율을 동적으로 할당하는 새로운 훈련 불필요 샘플링 전략인 RAS를 제안합니다. 우리의 핵심 관찰은 각 샘플링 단계에서 모델이 의미론적으로 중요한 영역에 집중하며, 이러한 초점 영역이 연속된 단계 간에 강한 연속성을 보인다는 것입니다. 이 통찰을 바탕으로 RAS는 현재 초점이 맞춰진 영역만 업데이트하고, 다른 영역은 이전 단계의 캐시된 노이즈를 사용하여 업데이트합니다. 모델의 초점은 우리가 관찰한 시간적 일관성을 활용하여 이전 단계의 출력을 기반으로 결정됩니다. 우리는 RAS를 Stable Diffusion 3과 Lumina-Next-T2I에서 평가하여 각각 최대 2.36배와 2.51배의 속도 향상을 달성했으며, 생성 품질의 저하를 최소화했습니다. 또한, 사용자 연구 결과 RAS는 인간 평가에서 비슷한 품질을 제공하면서 1.6배의 속도 향상을 달성한 것으로 나타났습니다. 우리의 접근 방식은 더 효율적인 Diffusion Transformers를 위한 중요한 진전을 이루며, 실시간 애플리케이션에서의 잠재력을 강화합니다.
대규모 멀티모달 모델(LMMs)은 이미지 해석에 있어 주요한 결함을 보이며, 일부 측면에서는 어린 아이나 동물들보다 공간 인지 능력이 떨어지는 것으로 나타났습니다. 그럼에도 불구하고, 이러한 모델들은 많은 인기 있는 시각적 벤치마크에서 높은 점수를 기록하고 있으며, 모델 발전의 급속한 진전으로 인해 향상 가능성이 빠르게 줄어들고 있습니다. 이를 해결하기 위해, 더 오랫동안 관련성을 유지하는 어려운 벤치마크가 시급히 필요합니다. 우리는 이 아이디어를 극한까지 끌어올려, 현존하는 최첨단 LMMs에게 전혀 해결할 수 없는 경량 시각적 추론 벤치마크인 ZeroBench를 소개합니다. 우리의 벤치마크는 수작업으로 선별된 100개의 질문과 334개의 덜 어려운 하위 질문으로 구성되어 있습니다. 우리는 20개의 LMMs를 ZeroBench에서 평가했으며, 모든 모델이 0.0%의 점수를 기록했고, 오류를 엄격히 분석했습니다. 시각적 이해의 진전을 촉진하기 위해, 우리는 ZeroBench를 공개적으로 공개합니다.
멀티모달 대형 언어 모델(MLLM) 분야에서 주목할 만한 발전이 있었음에도 불구하고, 대부분의 최첨단 모델들은 인간의 선호도와 철저하게 정렬되지 못한 상태입니다. 이러한 격차는 현재의 정렬 연구가 특정 영역(예: 환각 현상 감소)에서 주로 진전을 이루었기 때문에 존재하며, 모델을 인간의 선호도와 정렬시키는 것이 MLLM의 능력을 체계적으로 향상시킬 수 있는지에 대한 보다 광범위한 질문은 여전히 크게 탐구되지 않고 있습니다. 이를 위해, 우리는 120,000개의 세분화된 인간 주석이 달린 선호도 비교 쌍을 포함한 MM-RLHF 데이터셋을 소개합니다. 이 데이터셋은 기존 자원에 비해 크기, 다양성, 주석 세분화 및 품질 면에서 상당한 발전을 이루었습니다. 이 데이터셋을 활용하여, 우리는 보상 모델의 품질과 정렬 알고리즘의 효율성을 모두 개선하기 위한 몇 가지 주요 혁신을 제안합니다. 특히, 우리는 모델 출력에 대한 비평을 생성한 후 점수를 부여하는 Critique-Based Reward Model을 도입하여, 전통적인 스칼라 보상 메커니즘에 비해 향상된 해석 가능성과 더 유익한 피드백을 제공합니다. 또한, 우리는 각 샘플의 손실 가중치를 보상 신호에 따라 조정하는 Dynamic Reward Scaling 방법을 제안하여, 고품질 비교 쌍의 사용을 최적화합니다. 우리의 접근 방식은 10개의 서로 다른 차원과 27개의 벤치마크에서 엄격하게 평가되었으며, 그 결과 모델 성능에서 상당하고 일관된 개선이 있음을 보여줍니다. 구체적으로, MM-RLHF와 우리의 정렬 알고리즘을 사용하여 LLaVA-ov-7B를 미세 조정한 결과, 대화 능력이 19.5% 증가하고 안전성이 60% 향상되었습니다. 우리는 선호도 데이터셋, 보상 모델, 훈련 및 평가 코드, 그리고 보상 모델링 및 안전성 벤치마크를 오픈소스로 공개했습니다. 더 자세한 내용은 프로젝트 페이지(https://mm-rlhf.github.io)를 방문해 주세요.
디퓨전 모델은 고품질이고 다양성 있는 시각적 콘텐츠 합성을 가능하게 합니다. 그러나 이들은 희귀하거나 보지 못한 개념을 생성하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 이미지 생성 모델과 함께 검색 증강 생성(Retrieval-Augmented Generation, RAG)의 활용을 탐구합니다. 우리는 ImageRAG라는 방법을 제안하는데, 이는 주어진 텍스트 프롬프트를 기반으로 관련 이미지를 동적으로 검색하고, 이를 생성 과정을 안내하는 컨텍스트로 사용합니다. 검색된 이미지를 사용하여 생성을 개선하려는 기존 접근법들은 검색 기반 생성을 위해 특별히 모델을 훈련시켰습니다. 반면, ImageRAG는 기존의 이미지 조건화 모델의 능력을 활용하며, RAG 전용 훈련이 필요하지 않습니다. 우리의 접근 방식은 매우 적응적이며 다양한 모델 유형에 적용할 수 있어, 다양한 기본 모델을 사용하여 희귀하고 세밀한 개념을 생성하는 데 있어 상당한 개선을 보여줍니다. 프로젝트 페이지는 다음에서 확인할 수 있습니다: https://rotem-shalev.github.io/ImageRAG
OpenAI의 o1, o3 및 DeepSeek R1과 같은 추론 대형 언어 모델(LLM)은 수학 및 코딩 분야에서 상당한 진전을 이루었지만, 국제 수학 올림피아드(IMO) 조합론 문제, 추론 및 추상화 코퍼스(ARC) 퍼즐, 그리고 인류의 마지막 시험(HLE) 질문과 같은 고급 과제에는 여전히 어려움을 겪고 있습니다. 우리는 테스트 시점에서 여러 모델과 방법을 결합한 다양한 추론 접근 방식을 사용합니다. 수학 및 코드 문제의 정답을 검증하고, 다른 문제에 대해 거부 샘플링을 수행하는 것이 간단하면서도 효과적임을 발견했습니다. IMO 문제의 정답은 Lean을 통해, ARC 퍼즐의 정답은 코드를 통해 자동으로 검증하며, HLE 질문에는 best-of-N 방식이 효과적으로 답변을 제공합니다. 우리의 접근 방식은 IMO 조합론 문제의 정확도를 33.3%에서 77.8%로, HLE 질문의 정확도를 8%에서 37%로 높였으며, 948명의 인간이 해결하지 못한 ARC 퍼즐의 80%와 o3 고성능 컴퓨팅이 해결하지 못한 ARC 퍼즐의 26.5%를 해결했습니다. 테스트 시점 시뮬레이션, 강화 학습, 그리고 추론 피드백을 통한 메타러닝은 에이전트 그래프 표현을 조정하고 프롬프트, 코드, 데이터셋을 다양화함으로써 일반화를 개선합니다. 우리의 접근 방식은 신뢰할 수 있고 견고하며 확장 가능하며, 재현 가능한 연구의 정신에 따라 출판 시 공개할 예정입니다.
대형 언어 모델(LLMs)은 다양한 자연어 처리(NLP) 작업에서 상당한 성공을 거두었습니다. 그러나 이들의 막대한 계산 비용은 특히 실시간 애플리케이션에서의 광범위한 사용을 제한합니다. 구조적 가지치기(Structured Pruning)는 모델을 압축하고 하드웨어 환경에 관계없이 종단 간 속도 개선을 직접 제공함으로써 효과적인 해결책을 제시합니다. 한편, 모델의 각 구성 요소는 가지치기에 대해 서로 다른 민감도를 보이므로, 비균일 모델 압축이 필요합니다. 그러나 가지치기 방법은 단순히 유능한 하위 구조를 식별하는 것뿐만 아니라 압축 후 학습도 고려해야 합니다. 이를 위해 우리는 학습을 고려한 구조적 가지치기 방법인 \sysname을 제안합니다. \sysname은 진화적 탐색 과정을 기반으로 하여, 각 세대에서 돌연변이를 통해 여러 자손 모델을 생성하고 가장 적합한 모델을 선택합니다. 학습 후 효과를 평가하기 위해, 우리는 자손 모델 집단 내에 가볍고 다단계 학습 과정을 통합하여, 각 선택 단계에서 토큰 수를 점진적으로 증가시키고 성능이 낮은 모델을 제거합니다. 우리는 Llama-2-7B, Llama-3.1-8B 및 Qwen-2.5-14B-Instruct에 대한 광범위한 실험을 통해 이 방법을 검증하고, 구조적 가지치기 분야에서 최첨단 성능을 달성했습니다. 예를 들어, \sysname은 ShearedLlama를 능가하면서도 압축 후 학습 중에 5배 적은 학습 데이터를 요구합니다.
대형 언어 모델(LLMs)은 일반적으로 숫자를 여러 토큰으로 표현하며, 이로 인해 모델은 이러한 토큰을 집계하여 수치를 해석해야 합니다. 이러한 분할은 학습과 추론을 덜 효율적으로 만들고, 숫자 관련 작업에서 모델의 성능에 부정적인 영향을 미칩니다. 사전 학습된 LLM이 내부적으로 숫자 토큰에 대한 푸리에(Fourier) 유사 특성을 학습한다는 관찰에서 영감을 받아, 우리는 푸리에 수치 임베딩(Fourier Number Embedding, FoNE)이라는 새로운 방법을 제안합니다. FoNE는 숫자를 푸리에 특성과 함께 임베딩 공간에 직접 매핑하며, 각 숫자를 단일 토큰으로 인코딩하고 각 자릿수당 단 두 개의 임베딩 차원만 사용하여 수치를 효과적으로 포착합니다. 이 간결한 표현은 학습과 추론 속도를 가속화합니다. 기존의 서브워드 및 자릿수 단위 임베딩과 비교했을 때, FoNE는 계산 오버헤드를 줄일 뿐만 아니라 덧셈, 뺄셈, 곱셈 등 다양한 수치 작업에서 더 높은 정확도를 달성합니다. 6자리 10진수 덧셈에서 FoNE는 99% 정확도를 달성하기 위해 서브워드 및 자릿수 단위 임베딩보다 64배 적은 데이터를 필요로 하며, 각 숫자당 사용하는 토큰 수는 각각 3배 및 6배 적습니다. 더 나아가, FoNE는 덧셈, 뺄셈, 곱셈에 대해 100,000개 이상의 테스트 예시에서 100% 정확도를 달성한 유일한 방법입니다. 코드와 시각화 자료는 https://fouriernumber.github.io/에서 확인할 수 있습니다.
새로운 디퓨전 모델은 고품질의 텍스트가 통합된 사실적인 이미지를 합성할 수 있습니다. 놀랍게도, 우리는 어텐션 활성화 패칭을 통해 디퓨전 모델의 매개변수 중 1% 미만, 즉 모두 어텐션 레이어에 포함된 부분만이 이미지 내 텍스트 콘텐츠 생성에 영향을 미친다는 것을 입증했습니다. 이 관찰을 바탕으로, 우리는 디퓨전 모델의 크로스 및 조인트 어텐션 레이어를 대상으로 텍스트 생성 효율성과 성능을 개선했습니다. 텍스트 콘텐츠 생성에 책임이 있는 레이어를 지역화함으로써 이점을 얻는 여러 애플리케이션을 소개합니다. 먼저, 지역화된 레이어만을 LoRA 기반 미세 조정함으로써 대형 디퓨전 모델의 일반적인 텍스트 생성 능력을 더욱 향상시키면서도 디퓨전 모델 생성물의 품질과 다양성을 유지할 수 있음을 보여줍니다. 그런 다음, 생성된 이미지의 텍스트 콘텐츠를 편집하는 데 지역화된 레이어를 어떻게 사용할 수 있는지 시연합니다. 마지막으로, 이 아이디어를 확장하여 비용 없이 유해한 텍스트 생성을 방지하는 실용적인 사용 사례를 제시합니다. 기존 연구와 달리, 우리의 지역화 접근 방식은 U-Net(예: LDM 및 SDXL) 및 트랜스포머 기반(예: DeepFloyd IF 및 Stable Diffusion 3)을 포함한 다양한 디퓨전 모델 아키텍처에 광범위하게 적용 가능하며, CLIP부터 T5와 같은 대형 언어 모델에 이르기까지 다양한 텍스트 인코더를 활용합니다. 프로젝트 페이지는 https://t2i-text-loc.github.io/에서 확인할 수 있습니다.
이 포지션 페이퍼는 AI를 이해하기 위해 기존의 인간 언어 어휘에 의존해서는 안 된다고 주장한다. 대신, 우리는 기계에게 가르치고자 하는 정확한 인간 개념이나 우리가 배워야 하는 기계 개념을 나타내는 새로운 단어, 즉 신조어를 개발하기 위해 노력해야 한다. 우리는 인간과 기계가 서로 다른 개념을 가지고 있다는 전제에서 출발한다. 이는 해석 가능성을 의사소통 문제로 재구성할 수 있음을 의미한다: 인간은 기계 개념을 참조하고 제어할 수 있어야 하며, 인간 개념을 기계에게 전달할 수 있어야 한다. 신조어 개발을 통해 인간과 기계가 공유하는 언어를 창출함으로써 이러한 의사소통 문제를 해결할 수 있다고 우리는 믿는다. 성공적인 신조어는 유용한 수준의 추상화를 달성한다: 너무 상세하지 않아 다양한 맥락에서 재사용 가능하면서도, 너무 높은 수준이 아니어서 정확한 정보를 전달한다. 개념 증명으로, 우리는 "길이 신조어"가 LLM 응답 길이를 제어할 수 있게 하고, "다양성 신조어"가 더 다양한 응답을 샘플링할 수 있게 하는 방법을 보여준다. 종합적으로, 우리는 기존 어휘로는 AI를 이해할 수 없으며, 신조어를 통해 어휘를 확장함으로써 기계를 더 잘 제어하고 이해할 수 있는 기회가 창출된다고 주장한다.
사전 학습된 기초 모델(FMs)은 단변량 시계열 예측 과제에서 탁월한 성능을 보여왔습니다. 그러나 특징 간의 복잡한 의존성 관리와 예측의 불확실성 정량화를 포함한 여러 실질적인 과제들이 여전히 존재합니다. 본 연구는 이러한 중요한 한계를 해결하기 위해 어댑터를 도입함으로써, 사전 학습된 단변량 시계열 FMs를 다변량 과제에 효과적으로 활용할 수 있도록 하는 특징 공간 변환을 제안합니다. 어댑터는 다변량 입력을 적절한 잠재 공간으로 투영하고, 각 차원에 대해 FM을 독립적으로 적용하는 방식으로 작동합니다. 표현 학습 및 부분적 확률적 베이지안 신경망에 관한 문헌에서 영감을 받아, 우리는 다양한 어댑터와 최적화/추론 전략을 제시합니다. 합성 및 실제 데이터셋에서 수행된 실험은 어댑터의 효능을 확인하며, 기준 방법 대비 예측 정확도와 불확실성 정량화에서 상당한 개선을 보여줍니다. 우리의 프레임워크인 AdaPTS는 다변량 맥락에서 시계열 FMs를 활용하기 위한 모듈식, 확장 가능하며 효과적인 솔루션으로서 어댑터를 자리매김함으로써, 실제 애플리케이션에서의 보다 폭넓은 채택을 촉진합니다. 코드는 https://github.com/abenechehab/AdaPTS에서 공개합니다.
저자원 언어(Low-resource languages, LRLs)는 데이터의 한계로 인해 자연어 처리(Natural Language Processing, NLP)에서 상당한 어려움에 직면하고 있습니다. 현재 최첨단 대형 언어 모델(Large Language Models, LLMs)도 LRLs를 다루는 데 여전히 어려움을 겪고 있지만, mBERT와 XLM-R과 같은 소규모 다국어 모델(multilingual models, mLMs)은 낮은 학습 데이터 크기에 더 적합한 용량으로 인해 더 큰 가능성을 보여줍니다. 본 연구는 mLMs를 LRLs에 적응시키기 위한 매개변수 효율적인 어댑터 기반 방법을 체계적으로 조사하며, 세 가지 아키텍처인 순차적 병목(Sequential Bottleneck), 역변환 병목(Invertible Bottleneck), 그리고 저랭크 적응(Low-Rank Adaptation)을 평가합니다. GlotCC의 비정형 텍스트와 ConceptNet의 구조화된 지식을 사용하여, 소규모 적응 데이터셋(예: 최대 1GB의 자유 텍스트 또는 몇 MB의 지식 그래프 데이터)이 내재적(마스크 언어 모델링) 및 외재적 작업(주제 분류, 감정 분석, 개체명 인식)에서 성능 향상을 가져온다는 것을 보여줍니다. 순차적 병목 어댑터는 언어 모델링에서 뛰어난 성능을 보이는 반면, 역변환 병목 어댑터는 더 나은 임베딩 정렬과 더 많은 매개변수 수로 인해 다운스트림 작업에서 다른 방법들보다 약간 더 우수한 성능을 보입니다. 어댑터 기반 방법은 전체 미세 조정(full fine-tuning)과 동등하거나 더 나은 성능을 보이면서 훨씬 적은 매개변수를 사용하며, LLaMA-3, GPT-4, DeepSeek-R1 기반의 증류 모델과 같은 대규모 LLMs보다 소규모 mLMs가 LRLs에 더 효과적임을 입증합니다. 적응은 성능을 개선하지만, 특히 광범위한 사전 학습 데이터를 가진 언어의 경우 사전 학습 데이터 크기가 여전히 지배적인 요소로 남아 있습니다.
특정 데이터셋에서 대규모 언어 모델(LLMs)을 세밀 조정하는 것은 목표 작업의 성능을 향상시키기 위한 일반적인 실천법입니다. 그러나 이러한 성능 향상은 종종 오버피팅으로 이어지며, 모델이 작업이나 훈련 데이터의 특성 중 어느 하나에 지나치게 특화되어 일반화 능력을 상실하는 결과를 초래합니다. 본 논문에서는 표준 지도 학습 세밀 조정(SFT)보다 더 나은 성능을 달성하면서 일반화를 향상시키는 세렉티브 셀프 투 지도 세밀 조정(S3FT) 방법을 소개합니다. S3FT는 쿼리에 대해 여러 유효한 응답이 존재한다는 점을 활용합니다. 모델의 올바른 응답을 활용함으로써 S3FT는 세밀 조정 단계에서 모델의 특화를 줄입니다. S3FT는 먼저 적절한 심사관을 배치하여 훈련 세트에서 올바른 모델 응답을 식별합니다. 그런 다음, 남은 샘플에 대해 올바른 모델 응답과 골드 응답(또는 그의 패러프레이즈)을 사용하여 모델을 세밀 조정합니다. S3FT의 효과는 수학적 추론, Python 프로그래밍 및 독해 작업에 대한 실험을 통해 입증됩니다. 결과는 MMLU 및 TruthfulQA와 같은 여러 벤치마크에서 표준 SFT가 평균 성능 하락률 최대 4.4를 유발할 수 있음을 보여줍니다. 이에 반해, S3FT는 이 하락을 절반으로 줄여 2.5로, SFT보다 더 나은 일반화 능력을 나타내면서 세밀 조정 작업에서 현저히 우수한 성능을 발휘합니다.
본 논문에서는 3D 시각적 그라운딩을 위한 효율적인 다단계 합성곱 아키텍처를 제안한다. 기존 방법들은 2단계 또는 포인트 기반 아키텍처로 인해 실시간 추론 요구사항을 충족하기 어려웠다. 3D 객체 탐지에서 다단계 완전 희소 합성곱 아키텍처의 성공에 영감을 받아, 우리는 이 기술 경로를 따라 새로운 3D 시각적 그라운딩 프레임워크를 구축하고자 한다. 그러나 3D 시각적 그라운딩 작업에서는 3D 장면 표현이 텍스트 특징과 깊이 상호작용해야 하며, 희소 합성곱 기반 아키텍처는 대량의 복셀 특징으로 인해 이러한 상호작용에 비효율적이다. 이를 위해, 우리는 점진적인 영역 가지치기와 타겟 완성을 통해 3D 장면 표현과 텍스트 특징을 효율적으로 융합하기 위한 텍스트 기반 가지치기(TGP)와 완성 기반 추가(CBA)를 제안한다. 구체적으로, TGP는 3D 장면 표현을 반복적으로 희소화하여 복셀 특징과 텍스트 특징이 교차 주의를 통해 효율적으로 상호작용하도록 한다. 또한, CBA는 과도하게 가지치기된 영역을 복셀 완성으로 적응적으로 수정하여 섬세한 기하학적 정보에 미치는 영향을 완화하며, 이는 무시할 만한 계산 오버헤드로 수행된다. 이전의 단일 단계 방법들과 비교했을 때, 우리의 방법은 최고의 추론 속도를 달성하며 이전 가장 빠른 방법보다 100% 더 높은 FPS를 보인다. 또한, 우리의 방법은 2단계 방법들과 비교해도 최첨단 정확도를 달성하며, ScanRefer에서 [email protected] 기준 +1.13, NR3D와 SR3D에서는 각각 +2.6과 +3.2의 성능 향상을 보인다. 코드는 https://github.com/GWxuan/TSP3D에서 확인할 수 있다.
구현된 지능(embodied intelligence)의 핵심 목표는 동적 환경에서 장기적 과제를 수행하면서도 견고한 의사결정과 적응성을 유지할 수 있는 에이전트를 만드는 것입니다. 이를 달성하기 위해 우리는 시공간적 메모리(Spatio-Temporal Memory)를 통합하여 과제 계획 및 실행을 강화하도록 설계된 새로운 프레임워크인 시공간 메모리 에이전트(STMA)를 제안합니다. STMA는 세 가지 핵심 구성 요소로 이루어져 있습니다: (1) 실시간으로 역사적 및 환경적 변화를 포착하는 시공간 메모리 모듈, (2) 적응적 공간 추론을 용이하게 하는 동적 지식 그래프, (3) 과제 전략을 반복적으로 개선하는 플래너-크리틱 메커니즘. 우리는 STMA를 TextWorld 환경에서 32개의 과제에 대해 평가하며, 다양한 복잡도 수준에서의 다단계 계획 및 탐색을 포함합니다. 실험 결과, STMA는 최신 모델 대비 성공률에서 31.25%의 향상과 평균 점수에서 24.7%의 증가를 달성함을 보여줍니다. 이러한 결과는 시공간적 메모리가 구현된 에이전트의 메모리 능력을 발전시키는 데 효과적임을 강조합니다.
마스크드 이미지 모델링(Masked Image Modeling, MIM)은 자기 지도 표현 학습(self-supervised representation learning)에 유망한 접근 방식을 제공하지만, 기존 MIM 모델들은 여전히 최첨단 기술에 뒤쳐져 있습니다. 본 논문에서는 목표 표현(target representations), 손실 함수(loss functions), 그리고 아키텍처를 체계적으로 분석하여, 잠재 클러스터링(latent clusterings) 예측에 의존하는 새로운 순수 MIM 프레임워크인 CAPI를 소개합니다. 우리의 접근 방식은 학습이 안정적이고 확장성이 우수한 클러스터링 기반 손실 함수를 활용합니다. 우리의 ViT-L 백본인 CAPI는 간단한 선형 탐사(linear probes)를 통해 ImageNet에서 83.8%의 정확도와 ADE20K에서 32.1%의 mIoU를 달성하여, 이전 MIM 방법들을 크게 능가하고 현재 최첨단 기술인 DINOv2의 성능에 근접했습니다. 우리는 모든 코드와 모델을 공개합니다.
확산 모델의 응용 분야에서 제어 가능한 생성은 실질적인 중요성을 지니지만 동시에 도전적인 과제이기도 합니다. 현재의 제어 가능한 생성 방법들은 주로 확산 모델의 점수 함수를 수정하는 데 초점을 맞추고 있는 반면, 평균 회귀(MR) 확산은 확률적 미분 방정식(SDE)의 구조를 직접 수정하여 이미지 조건의 통합을 더 간단하고 자연스럽게 만듭니다. 그러나 현재의 훈련이 필요 없는 고속 샘플러들은 MR 확산에 직접 적용할 수 없습니다. 따라서 MR 확산은 고품질 샘플을 얻기 위해 수백 번의 함수 평가(NFEs)가 필요합니다. 본 논문에서는 MR 확산의 샘플링 NFEs를 줄이기 위해 MRS(MR 샘플러)라는 새로운 알고리즘을 제안합니다. 우리는 MR 확산과 관련된 역시간 SDE와 확률 흐름 상미분 방정식(PF-ODE)을 해결하고, 반해석적 해를 도출합니다. 이 해는 분석적 함수와 신경망으로 매개변수화된 적분으로 구성됩니다. 이 해를 기반으로 더 적은 단계로 고품질 샘플을 생성할 수 있습니다. 우리의 접근 방식은 훈련이 필요하지 않으며, 잡음 예측, 데이터 예측, 속도 예측을 포함한 모든 주류 매개변수화를 지원합니다. 광범위한 실험을 통해 MR 샘플러가 10가지 다른 이미지 복원 작업에서 10배에서 20배의 속도 향상을 유지하면서도 높은 샘플링 품질을 유지함을 입증했습니다. 우리의 알고리즘은 MR 확산의 샘플링 절차를 가속화하여 제어 가능한 생성에서 더 실용적으로 만듭니다.
CLaMP 3은 음악 정보 검색에서의 크로스 모달 및 크로스 링구얼 일반화 문제를 해결하기 위해 개발된 통합 프레임워크입니다. 대조 학습을 활용하여 악보, 연주 신호, 오디오 녹음 등 주요 음악 모달리티를 다국어 텍스트와 공유 표현 공간에서 정렬함으로써, 텍스트를 매개로 하여 정렬되지 않은 모달리티 간의 검색을 가능하게 합니다. 이 프레임워크는 보이지 않는 언어에도 적응 가능한 다국어 텍스트 인코더를 특징으로 하며, 강력한 크로스 링구얼 일반화 능력을 보여줍니다. 검색 강화 생성을 활용하여, 우리는 231만 개의 음악-텍스트 쌍으로 구성된 웹 스케일 데이터셋인 M4-RAG를 구축했습니다. 이 데이터셋은 다양한 전 세계 음악 전통을 대표하는 상세한 메타데이터로 풍부하게 구성되어 있습니다. 향후 연구를 촉진하기 위해, 우리는 악보, 오디오, 그리고 풍부하게 다양한 텍스트 설명으로 구성된 1,000개의 트리플렛을 포함한 벤치마크인 WikiMT-X를 공개합니다. 실험 결과, CLaMP 3은 여러 음악 정보 검색 작업에서 최첨단 성능을 달성하며, 이전의 강력한 베이스라인을 크게 능가하고 다중 모달 및 다국어 음악 컨텍스트에서 탁월한 일반화 능력을 입증했습니다.
현재의 자율주행 차량은 주변 환경을 이해하고 미래 궤적을 계획하기 위해 주로 개별 센서에 의존하고 있으며, 이는 센서가 오작동하거나 가려질 경우 신뢰성이 떨어질 수 있습니다. 이 문제를 해결하기 위해 차량 간 통신(V2V)을 통한 협력적 인지 방법이 제안되었지만, 이는 주로 탐지 및 추적에 초점을 맞추는 경향이 있었습니다. 이러한 접근 방식이 전체 협력적 계획 성능에 어떻게 기여하는지는 아직 충분히 탐구되지 않았습니다. 최근 대형 언어 모델(LLM)을 사용하여 자율주행 시스템을 구축하는 데 있어서의 진전에 영감을 받아, 우리는 LLM을 협력적 자율주행에 통합하는 새로운 문제 설정을 제안하며, 이를 위해 차량 간 질의응답(V2V-QA) 데이터셋과 벤치마크를 제안합니다. 또한, 우리는 LLM을 사용하여 여러 연결된 자율주행 차량(CAV)의 인지 정보를 융합하고 운전 관련 질문에 답변하는 차량 간 대형 언어 모델(V2V-LLM)을 제안합니다: 근거 파악, 주목할 만한 객체 식별, 계획 수립 등이 포함됩니다. 실험 결과는 우리가 제안한 V2V-LLM이 협력적 자율주행에서 다양한 작업을 수행하기 위한 유망한 통합 모델 아키텍처가 될 수 있으며, 다른 융합 접근 방식을 사용하는 기존의 베이스라인 방법들을 능가함을 보여줍니다. 우리의 작업은 또한 미래 자율주행 시스템의 안전성을 향상시킬 수 있는 새로운 연구 방향을 제시합니다. 우리 프로젝트 웹사이트: https://eddyhkchiu.github.io/v2vllm.github.io/ .
대형 언어 모델(LLM)에 대한 거부 훈련은 유해한 출력을 방지하지만, 이러한 방어는 자동화된 공격과 인간이 고안한 탈옥(jailbreak) 공격 모두에 취약합니다. 우리는 인간이 거부 훈련된 LLM을 탈옥시켜 스스로 또는 다른 LLM을 탈옥시키도록 만드는 새로운 LLM-as-red-teamer 접근 방식을 제시합니다. 우리는 탈옥된 LLM을 J_2 공격자라고 부르며, 이들은 다양한 레드 팀 전략을 사용해 대상 모델을 체계적으로 평가하고 이전 실패로부터의 인컨텍스트 학습(in-context learning)을 통해 성능을 개선할 수 있습니다. 우리의 실험 결과, Sonnet 3.5와 Gemini 1.5 pro가 다른 LLM보다 우수한 J_2로 작동하여 GPT-4o에 대해 각각 93.0%와 91.0%의 공격 성공률(ASR)을 달성했으며(Harmbench에서 다른 유능한 LLM에서도 유사한 결과를 보임), 이는 인간 레드 팀에서 영감을 받은 전략적 레드 팀의 확장 가능한 접근 방식을 소개할 뿐만 아니라, 보호 장치의 간과된 실패 모드로서의 "탈옥을 통한 탈옥(jailbreaking-to-jailbreak)"을 강조합니다. 구체적으로, LLM은 스스로의 보호 장치를 우회하기 위해 탈옥된 버전의 자신을 활용하여 추가적인 탈옥을 지원할 수 있습니다. J_2의 직접적인 오용을 방지하면서 AI 안전 연구를 발전시키기 위해, 우리는 구체적인 프롬프트 세부 사항은 비공개로 유지한 채 방법론을 공개합니다.
단백질은 효소 촉매, 신호 전달, 구조적 적응 등 생물학적 기능이 그 움직임과 본질적으로 연결된 동적 분자 기계입니다. 그러나 특정 동적 특성을 가진 단백질을 설계하는 것은 서열, 구조, 분자 운동 간의 복잡하고 퇴화된 관계로 인해 여전히 도전적인 과제로 남아 있습니다. 본 연구에서는 정규 모드 진동에 기반한 종단간 데노보 단백질 설계를 가능하게 하는 생성형 AI 프레임워크인 VibeGen을 소개합니다. VibeGen은 지정된 진동 모드를 기반으로 서열 후보를 생성하는 단백질 설계자와 이들의 동적 정확성을 평가하는 단백질 예측자로 구성된 에이전트 이중 모델 아키텍처를 채택합니다. 이 접근법은 설계 과정에서 다양성, 정확성, 그리고 독창성을 시너지적으로 결합합니다. 전체 원자 수준의 분자 시뮬레이션을 통한 직접 검증을 통해, 설계된 단백질들이 다양한 안정적이고 기능적으로 관련된 구조를 채택하면서도 백본 전체에 걸쳐 규정된 정규 모드 진폭을 정확히 재현함을 입증했습니다. 특히, 생성된 서열들은 데노보로, 자연계 단백질과 유의미한 유사성을 보이지 않아, 진화적 제약을 넘어 접근 가능한 단백질 공간을 확장합니다. 우리의 연구는 단백질 동역학을 생성형 단백질 설계에 통합하고, 서열과 진동 행동 간의 직접적이고 양방향적인 연결을 확립함으로써, 맞춤형 동적 및 기능적 특성을 가진 생체분자 공학을 위한 새로운 경로를 열었습니다. 이 프레임워크는 유연한 효소, 동적 스캐폴드, 생체재료의 합리적 설계에 광범위한 함의를 가지며, 동역학 정보를 기반으로 한 AI 주도 단백질 공학으로의 길을 열어줍니다.