번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델 (LLM)이 모델 기반 에이전트에 대한 강력한 세계 모델로 직접 작용할 수 있을까요? LLM의 사전 지식과 특정 환경의 동적 사이에는 차이가 있지만, 우리의 연구는 LLM을 배포된 환경과 조정함으로써 이러한 차이를 극복할 수 있음을 밝혀냅니다. 이러한 "세계 조정"은 LLM에 대한 규칙 학습을 통해 효율적으로 달성할 수 있습니다. LLM의 풍부한 사전 지식을 감안할 때, 몇 가지 추가 규칙만으로도 LLM의 예측을 특정 환경의 동적과 일치시킬 수 있습니다. 이를 위해 우리는 LLM을 통해 규칙을 그레이디언트 없이 학습하는 신경기호주의 접근법을 제안합니다. 에이전트가 탐험한 궤적과 세계 모델 예측을 비교함으로써 규칙을 유도, 업데이트 및 가지치기합니다. 결과적으로 얻어지는 세계 모델은 LLM과 학습된 규칙으로 이루어집니다. 우리의 신체화된 LLM 에이전트 "WALL-E"는 모델 예측 제어(MPC)에 기반을 두고 구축되었습니다. 정확한 세계 모델을 기반으로 전방 조치를 최적화함으로써, MPC는 탐사 및 학습 효율을 크게 향상시킵니다. 기존 LLM 에이전트와 비교했을 때, WALL-E의 추론은 LLM 입력에 포함된 상세한 버퍼 궤적 대신 몇 가지 주요 규칙만 필요로 합니다. Minecraft와 ALFWorld의 오픈 월드 도전 과제에서, WALL-E는 기존 방법보다 더 높은 성공률을 달성하면서 재계획 시간 및 추론에 사용된 토큰 수를 줄일 수 있습니다. Minecraft에서 WALL-E는 성공률에서 15-30%의 기준을 초과하며, 8-20회의 재계획 라운드를 줄이고 토큰의 60-80%만을 사용합니다. ALFWorld에서는 6번의 반복만에 성공률이 95%로 급증합니다.
코드는 정밀성과 정확성으로 인해 대형 언어 모델의 수학적 추론 능력을 향상시키는 데 효과적임이 입증되었습니다. 이전의 수학 사전학습을 포함하는 작업들은 주로 공학, 기계 학습, 신호 처리 또는 모듈 테스트와 같은 분야를 위해 설계된 수학 관련 패키지를 활용하는 코드를 포함하고 있었으며, 직접적으로 수학적 추론에 초점을 맞추지는 않았습니다. 본 논문에서는 수학적 코드를 생성하는 새로운 방법을 소개하며, 해당 코드에 대응하는 추론 단계를 수행하여 사전학습을 계속하는 방법을 제시합니다. 저희의 접근 방식은 수학 관련 웹 데이터, 수학 패키지를 사용한 코드, 수학 교과서 및 합성 데이터를 통합하여 고품질의 수학 사전학습 데이터 세트를 구축하는 것으로 시작합니다. 그 다음, 이전에 수집한 데이터 세트에서 LaTeX 표현식, 표현식에 필요한 조건 및 표현식의 결과를 추출하여 추론 단계를 구성합니다. 이 추출된 정보를 기반으로 수학적 추론 과정을 정확하게 포착하기 위해 해당 코드를 생성합니다. 생성된 코드를 각 추론 단계에 추가하면 자연어 추론 단계와 해당 코드로 구성된 데이터가 생성됩니다. 이 데이터를 원래 데이터 세트와 결합하면 192억 토큰의 고성능 수학 사전학습 말뭉치인 MathCode-Pile이 생성됩니다. 이 말뭉치를 사용하여 여러 인기 있는 기본 모델을 교육하면 그들의 수학 능력이 크게 향상되어 MathCoder2 모델 패밀리가 생성됩니다. 저희의 모든 데이터 처리 및 교육 코드는 오픈 소스로 제공되어 전체 데이터 수집 및 교육 파이프라인의 완전한 투명성과 쉬운 재현성을 보장합니다. 해당 코드는 https://github.com/mathllm/MathCoder2 에서 공개되었습니다.
MLLM 에이전트는 다중 모달 작업 관련 궤적 데이터를 검색함으로써 복잡한 신체 작업에 대한 잠재력을 보여줍니다. 그러나 현재의 검색 방법은 주로 궤적에서의 텍스트 또는 시각적 단서의 표면 수준 유사성에 초점을 맞추고 있으며, 해당 작업에 대한 효과를 무시합니다. 이 문제를 해결하기 위해 preference learning을 기반으로 한 MLLM 검색기를 세밀하게 조정하여 MLLM을 ReTriever로 사용하는 새로운 방법, MART를 제안합니다. 이를 통해 검색기는 궤적의 효과를 완전히 고려하고 보이지 않는 작업에 대해 우선 순위를 매길 수 있습니다. 또한 궤적 요약을 소개하는데, 이는 MLLM의 요약 능력을 활용하여 핵심 정보를 보존하면서 더 적은 토큰으로 궤적을 표현함으로써 에이전트가 궤적의 중요 지점을 더 잘 이해할 수 있도록 합니다. 다양한 환경에서의 실험 결과는 우리의 방법이 기존 방법에 비해 보이지 않는 장면에서의 작업 성공률을 크게 향상시킨다는 것을 보여줍니다. 이 연구는 일반적인 목적의 MLLM을 검색기로 세밀하게 조정하여 궤적 효과를 평가하는 것을 통해 신체 에이전트에서의 다중 모달 검색을 위한 새로운 패러다임을 제시합니다. 모든 벤치마크 작업 세트 및 액션 및 관측 공간에 대한 시뮬레이터 코드 수정은 공개될 예정입니다.
양자화는 대규모 언어 모델 (LLM)을 배포하기 위해 기억 효율성과 추론 속도를 향상시키는 데 필수적입니다. 활성화 양자화에 대한 기존 방법은 주로 채널별 이상치에 대응하며 종종 토큰별 이상치를 무시하여 토큰별 동적 양자화에 대한 비용이 증가하게 됩니다. 이를 해결하기 위해 우리는 PrefixQuant라는 새로운 기술을 소개합니다. 이 기술은 이상치 토큰을 재훈련 없이 오프라인에서 분리하는 기술입니다. 구체적으로, PrefixQuant는 높은 빈도의 이상치 토큰을 식별하고 KV 캐시에 접두어를 붙여 추론 중에 이상치 토큰의 생성을 방지하고 양자화를 간소화합니다. 우리의 지식으로는, PrefixQuant는 비싼 토큰별 동적 양자화를 능가하는 효율적인 텐서별 정적 양자화를 가능하게 하는 최초의 기술입니다. 예를 들어, W4A4KV4 (4비트 가중치, 4비트 활성화 및 4비트 KV 캐시) Llama-3-8B에서 PrefixQuant를 사용한 텐서별 정적 양자화는 5가지 상식 추론 작업에서 7.43의 WikiText2 난해도와 71.08%의 평균 정확도를 달성하여 QuaRot과 같은 이전의 토큰별 동적 양자화 방법을 능가합니다. 또한, PrefixQuant를 사용하여 W4A4 양자화된 모델의 추론 속도는 FP16 모델보다 1.60배에서 2.81배 빠르며 QuaRot 모델보다 1.2배에서 1.3배 빠릅니다. 우리의 코드는 https://github.com/ChenMnZ/PrefixQuant에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 다양한 작업을 처리하는 뛰어난 능력으로 추론 및 계획 작업을 다루는 데 중요한 발전을 이끌어냈습니다. 여기에는 복잡한 문제를 실행 가능한 워크플로로 분해하는 것이 이 과정에서 중요한 단계입니다. 기존의 워크플로 평가 프레임워크는 종합적인 성능에만 초점을 맞추거나 제한된 시나리오 범위, 단순한 워크플로 구조, 그리고 완화된 평가 기준과 같은 한계를 가지고 있습니다. 이에 우리는 WorFBench를 소개합니다. 이는 다양한 시나리오와 복잡한 그래프 워크플로 구조를 갖춘 통합 워크플로 생성 벤치마크입니다. 게다가, 우리는 WorFEval을 제시합니다. 이는 부분 순차 및 부분 그래프 일치 알고리즘을 활용하여 LLM 에이전트의 워크플로 생성 능력을 정확하게 측정하는 체계적인 평가 프로토콜입니다. 다양한 유형의 LLM에 대한 포괄적인 평가를 통해, LLM 에이전트의 순차 계획 능력과 그래프 계획 능력 사이에 명백한 차이를 발견했습니다. 심지어 GPT-4도 약 15%의 차이를 보여주었습니다. 또한, 두 개의 오픈 소스 모델을 훈련시키고 보유한 작업에서 일반화 능력을 평가했습니다. 더욱이, 생성된 워크플로가 하류 작업을 향상시킬 수 있음을 관찰했습니다. 이를 통해 추론 중에 더 적은 시간으로 우수한 성능을 달성할 수 있습니다. 코드와 데이터셋은 https://github.com/zjunlp/WorFBench에서 제공될 예정입니다.
우리는 자동화된 복잡하고 다단계 작업을 자동화하여 인간-컴퓨터 상호작용을 변화시키기 위한 그래픽 사용자 인터페이스(GUI)를 통해 컴퓨터와 자율적으로 상호작용할 수 있게 하는 오픈 에이전트 프레임워크인 에이전트 S를 제시합니다. 에이전트 S는 컴퓨터 작업을 자동화하는 데 있어서 세 가지 주요 도전 과제를 해결하기 위해 설계되었습니다: 도메인 특정 지식 습득, 긴 작업 범위에 걸친 계획 수립, 그리고 동적이고 균일하지 않은 인터페이스 다루기. 이를 위해 에이전트 S는 외부 지식 검색 및 내부 경험 검색에서 학습하는 경험 증진 계층적 계획을 도입하여 효율적인 작업 계획과 하위 작업 실행을 용이하게 합니다. 더불어, 다중 모달 대형 언어 모델(MLLMs)을 기반으로 한 GUI 에이전트의 추론 및 제어 능력을 더 잘 유도하기 위해 에이전트-컴퓨터 인터페이스(ACI)를 사용합니다. OSWorld 벤치마크에서의 평가 결과, 에이전트 S는 성공률에서 기준 모델을 9.37% 능가하며(83.6% 상대적 향상), 새로운 최첨단 성과를 달성합니다. 포괄적인 분석은 개별 구성 요소의 효과성을 강조하고 향후 개선을 위한 통찰을 제공합니다. 더불어, 에이전트 S는 최근 출시된 WindowsAgentArena 벤치마크에서 다양한 운영 체제에 대한 넓은 일반화 능력을 보여줍니다. 코드는 https://github.com/simular-ai/Agent-S에서 확인할 수 있습니다.
확산 모델은 시각 생성을 위한 주요 방법론이 되었습니다. 이 모델들은 입력에 점진적으로 노이즈를 추가하는 마르코프 과정을 정리함으로써 훈련됩니다. 우리는 마르코프 특성이 모델이 생성 궤적을 완전히 활용하는 능력을 제한하며, 훈련 및 추론 중에 비효율성을 초래한다고 주장합니다. 본 논문에서는 AR(자기회귀) 및 확산을 마르코프가 아닌 프레임워크 내에서 통합하는 트랜스포머 기반 모델인 DART를 제안합니다. DART는 표준 언어 모델과 동일한 구조를 가진 AR 모델을 사용하여 이미지 패치를 공간적 및 스펙트럴적으로 반복적으로 정리합니다. DART는 이미지 양자화에 의존하지 않으며, 더 효과적인 이미지 모델링을 가능하게 하면서도 유연성을 유지합니다. 게다가 DART는 텍스트와 이미지 데이터 모두를 통합된 모델에서 원활하게 훈련시킬 수 있습니다. 우리의 접근 방식은 클래스 조건부 및 텍스트-이미지 생성 작업에서 경쟁력 있는 성능을 보여주며, 전통적인 확산 모델에 대한 확장 가능하고 효율적인 대안을 제공합니다. 이 통합된 프레임워크를 통해 DART는 확장 가능하고 고품질의 이미지 합성을 위한 새로운 기준을 제시합니다.
이산 확산 모델은 이미지 생성 및 가려진 언어 모델링과 같은 작업에서 성공을 거두었지만 제어된 콘텐츠 편집에서 제한을 겪고 있습니다. 우리는 DICE (이산 확산 모델을 위한 정밀 역전 방법)를 소개합니다. 이는 다항식 확산 및 가려진 생성 모델을 포함한 이산 확산 모델에 대한 정확한 역전을 가능하게 하는 첫 번째 접근 방식입니다. DICE는 역 확산 과정 중에 노이즈 시퀀스와 마스킹 패턴을 기록함으로써 사전 정의된 마스크나 주의 조작 없이 이산 데이터의 정확한 재구성과 유연한 편집을 가능하게 합니다. 우리는 VQ-확산, Paella, RoBERTa와 같은 모델에서 DICE의 효과를 입증하며 이미지 및 텍스트 도메인에서 그 효과를 평가합니다. 우리의 결과는 DICE가 높은 데이터 충실성을 유지하면서 편집 기능을 향상시키며, 이산 공간에서 세밀한 콘텐츠 조작에 대한 새로운 기회를 제공한다는 것을 보여줍니다. 프로젝트 웹페이지는 https://hexiaoxiao-cs.github.io/DICE/에서 확인할 수 있습니다.
확산 모델은 시각적 생성을 크게 향상시켰지만, 생성 가능한 ODE를 해결하는 데 필요한 계산이 많아 속도가 느린 것이 제약 요인이다. 널리 인정받는 해결책인 Rectified Flow는 ODE 경로를 펴서 생성 속도를 향상시킨다. 이의 주요 구성 요소는 다음과 같다: 1) 흐름 일치의 확산 형태 사용, 2) boldsymbol v-예측 적용, 그리고 3) 교정(재흐름). 본 논문에서는 교정의 성공이 주로 사전 훈련된 확산 모델을 사용하여 잡음과 샘플의 일치하는 쌍을 얻은 후 이러한 일치하는 잡음-샘플 쌍으로 재훈련하는 데 있음을 주장한다. 이를 바탕으로 1)과 2) 구성 요소는 불필요하다고 주장한다. 게다가, 교정의 핵심 훈련 목표는 직선이 아니라 특정한 경우인 흐름 일치 모델에 해당하는 것이 아니라, DDPM 및 Sub-VP와 같은 모델의 경우 곡선인 일차 근사 ODE 경로를 달성하는 것이 더 중요하다는 점을 강조한다. 이 통찰을 기반으로 Rectified Diffusion을 제안하며, 이는 교정의 설계 공간과 응용 범위를 흐름 일치 모델로 제한되는 것이 아닌 확산 모델의 보다 넓은 범주로 확장한다. 우리는 Stable Diffusion v1-5 및 Stable Diffusion XL에서 우리의 방법을 검증한다. 우리의 방법은 Rectified Flow 기반 이전 작업(예: InstaFlow)의 훈련 절차를 크게 간소화할 뿐만 아니라 더 낮은 훈련 비용으로 우수한 성능을 달성한다. 우리의 코드는 https://github.com/G-U-N/Rectified-Diffusion에서 사용할 수 있다.
현재의 선두 영상 확산 모델들은 고품질 비디오를 생성하는 놀라운 결과를 보여주었습니다. 그러나 훈련 중의 계산 제약으로 인해 보통 10초 또는 240프레임 정도의 짧은 비디오 클립만 생성할 수 있습니다. 본 연구에서는 기존 모델이 구조를 변경하지 않고도 자연스럽게 자기 회귀적인 비디오 확산 모델로 확장될 수 있다는 것을 보여줍니다. 우리의 주요 아이디어는 단일 잡음 수준이 아닌 점진적으로 증가하는 잡음 수준으로 잠재 프레임을 할당하는 것입니다. 이는 잠재들 간의 세밀한 조건과 주의 창 사이의 큰 중첩을 가능하게 하며, 이러한 점진적 비디오 노이즈 제거를 통해 우리의 모델이 품질 저하나 급격한 장면 변화 없이 비디오 프레임을 자기 회귀적으로 생성할 수 있게 합니다. 우리는 1분(24 FPS에서 1440프레임)의 긴 비디오 생성에 대한 최첨단 결과를 제시합니다. 이 논문의 비디오는 https://desaixie.github.io/pa-vdm/에서 확인할 수 있습니다.
본 연구에서는 대규모 언어 모델(Large Language Models, LLMs)이 시각-언어 모델(Vision-Language Models, VLMs)을 위한 암묵적 최적화자로 작용하도록 하는 혁신적인 방법(GLOV)을 제안합니다. 우리의 GLOV는 LLM에 하류 작업 설명을 메타 프롬프트로 제공하여 해당 VLM 프롬프트(예: CLIP를 사용한 제로샷 분류)를 적절히 쿼리합니다. 이러한 프롬프트는 순수도 측정을 통해 순위가 매겨지며, 이는 적합성 함수를 통해 얻어집니다. 각각의 최적화 단계에서 순위가 매겨진 프롬프트는 LLM에 적합한 텍스트 프롬프트 유형의 지식을 제공하기 위해 콘텍스트 예시(정확도와 함께)로 제공됩니다. 더 나아가, 우리는 또한 각 최적화 단계에서 LLM 생성 과정을 명시적으로 조절하며, 이를 위해 LLM에 의해 이전 최적화 단계에서 찾은 양성 및 음성 솔루션의 임베딩의 차이 벡터를 다음 세대 단계를 위한 네트워크의 중간 계층에 특별히 추가합니다. 이 차이 벡터는 LLM 생성을 하류 VLM이 선호하는 언어 유형으로 이끌어, 하류 시각 작업의 성능을 향상시킵니다. 우리는 이러한 모델들에 대해 최대 15.0% 및 57.5% (평균 3.8% 및 21.6%)의 인식 성능을 향상시킬 수 있는 해결책을 발견할 수 있음을 보여주기 위해 두 가지 VLM 패밀리인 듀얼-인코더(예: CLIP) 및 인코더-디코더(예: LLaVa) 모델을 사용하여 16가지 다양한 데이터셋에서 우리의 GLOV를 철저하게 평가합니다.
최근에는 대형 언어 및 시각 모델(LLVMs)이 지각 및 인지 능력을 필요로 하는 다양한 작업에 걸쳐 높은 일반화 성능을 보여줘 주어 주목을 받고 있으며 개발 노력이 집중되고 있습니다. 그들의 성공 behind에는 간단한 아키텍처로 구성된 시각 인코더, 프로젝터 및 대형 언어 모델(LLM)이 있습니다. 고급 추론 작업에서의 성과에도 불구하고, 그들의 기본적인 지각 관련 작업(e.g., MMVP)에서의 성능은 놀랍게도 낮습니다. 이러한 불일치는 LLVMs가 이미지를 어떻게 실제로 인식하고 시각 인코더의 장점을 활용하는지에 대한 의문을 제기합니다. 이를 해결하기 위해 우리는 순열 불변성, 강건성, 수학 추론, 정렬 보존 및 중요성과 같은 여러 측면에 대해 이 질문을 체계적으로 조사하고 가장 일반적인 LLVMs 패밀리(i.e., LLaVA)를 10개의 평가 벤치마크를 통해 평가함으로써 현재의 LLVMs의 여러 흥미로운 특성을 밝혀내었습니다. (1) 이미지를 내부적으로 전역적으로 처리하며 시각 패치 순서가 무작위로 순열되어도; (2) 때로는 상세한 숫자 정보를 완전히 인식하지 않고도 수학 문제를 해결할 수 있습니다; (3) 교차 모달 정렬은 복잡한 추론 작업에 과적합되어 시각 인코더의 원래 지각 능력 중 일부를 상실하게 합니다; (4) 하위 레이어(<25%)의 표현 공간은 성능을 결정하고 시각적 이해를 향상시키는 데 중요한 역할을 합니다. 마지막으로 위 관찰을 바탕으로, 더 나은 LLVMs를 구축하고 더 도전적인 평가 벤치마크를 구축하기 위한 잠재적인 미래 방향을 제안합니다.
대형 언어 모델(Large Language Models, LLMs)은 맥락 내 학습(In-Context Learning, ICL) 능력에서 놀라운 성과를 보여주었습니다. 본 연구에서는 ICL과 관련된 놀라운 현상을 탐구합니다: LLMs는 "작업 중첩(task superposition)"이라는 능력을 통해 단일 추론 호출 동안 여러 가지 계산적으로 구분된 ICL 작업을 동시에 수행할 수 있습니다. 우리는 이 현상에 대한 경험적 증거를 다양한 LLM 계열 및 규모에서 제시하고, 이 현상이 모델을 맥락 내에서 한 번에 하나의 작업을 학습하도록 훈련해도 나타난다는 것을 보여줍니다. 우리는 transformers의 표현 능력 내에 이 능력이 잘 들어맞는다는 이론적 설명을 제공합니다. 또한 LLMs가 작업 중첩 중에 작업 벡터를 내부적으로 어떻게 구성하는지 탐구합니다. 게다가, 우리는 더 큰 모델이 병렬로 더 많은 ICL 작업을 해결하고 출력 분포를 더 잘 보정할 수 있다는 것을 보여줍니다. 우리의 연구 결과는 LLMs의 잠재 능력에 대한 통찰을 제공하며, "LLMs를 시뮬레이터의 중첩"으로 본 관점을 더욱 강화하며, 동시 작업 실행을 가능케 하는 메커니즘에 대한 의문을 제기합니다.
본 논문에서는 사전 훈련된 시각과 언어 모델(VLMs)의 합성 이해력을 향상시키는 새로운 방법을 제안합니다. 전통적인 파인 튜닝 접근법은 종종 합성 추론을 향상시키지만 다중 모달 작업의 성능을 희생하는 경향이 있습니다. 이는 주로 이미지와 텍스트의 전역 표현을 대조하는 전역 하드 네거티브(HN) 손실을 사용하기 때문입니다. 이러한 전역 HN 손실은 원본과 매우 유사한 HN 텍스트를 밀어내어 모델의 다중 모달 표현을 손상시킵니다. 이 한계를 극복하기 위해 우리는 로컬 하드 네거티브 손실과 선택적 보정 규제를 통합한 Fine-grained Selective Calibrated CLIP (FSC-CLIP)를 제안합니다. 이러한 혁신은 모델의 표현 무결성을 보존하면서 미세한 부정적 지도를 제공합니다. 합성 및 다중 모달 작업에 대한 다양한 벤치마크를 통한 철저한 평가 결과, FSC-CLIP는 최첨단 모델과 동등한 수준의 합성을 달성할 뿐만 아니라 강력한 다중 모달 능력을 유지하는 것으로 나타났습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/ytaek-oh/fsc-clip.
최근에 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)은 LLM의 추론 능력을 향상시키는 강력한 기술로 부상했습니다. SFT 또는 DPO와 같은 기술은 LLM이 MCTS로부터 고품질 행동을 추출하여 추론 성능을 향상시키도록 했습니다. 그러나 기존의 증류(distillation) 방법은 MCTS에 의해 생성된 풍부한 궤적 정보를 충분히 활용하지 못하여 LLM 추론 능력의 향상 가능성을 제한하고 있습니다. 본 논문에서는 AlphaLLM-CPL이라는 새로운 쌍대(pairwise) 훈련 프레임워크를 제안합니다. 이 프레임워크는 LLM이 MCTS 행동 증류를 통해 자체 개선할 수 있도록 합니다. AlphaLLM-CPL은 MCTS 궤적을 효율적으로 활용하기 위해 두 가지 주요 혁신을 통해 작동합니다. 첫째, AlphaLLM-CPL은 탐색 트리에서 동일한 부모를 공유하는 자식 노드로부터 단계별 궤적 쌍을 구성하여 더 효과적인 MCTS 행동 증류를 위한 단계 수준 정보를 제공합니다. 둘째, AlphaLLM-CPL은 커리큘럼 선호 학습을 도입하여 각 오프라인 훈련 에포크에서 궤적 쌍의 훈련 순서를 동적으로 조정하여 중요한 학습 단계를 우선시하고 과적합을 완화합니다. 수학적 추론 작업에 대한 실험 결과는 AlphaLLM-CPL이 이전의 MCTS 행동 증류 방법을 크게 능가하여 LLM의 추론 능력을 상당히 향상시키는 것을 보여줍니다.
대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템(MAS)은 협력 문제 해결에서 놀라운 잠재력을 보여주지만, 여전히 중요한 도전에 직면하고 있습니다: 낮은 통신 효율성, 낮은 확장성, 그리고 효과적인 매개변수 업데이트 최적화 방법의 부재. 저희는 Optima라는 혁신적인 프레임워크를 제시하여 LLM 기반 MAS에서 통신 효율성과 작업 효과성을 크게 향상시킴으로써 이러한 문제를 해결합니다. Optima는 LLM 훈련을 통해 LLM 기반 MAS에서 통신 효율성과 작업 효과성을 크게 향상시키는 반복적인 생성, 순위 매기기, 선택, 그리고 훈련 패러다임을 채택합니다. Optima는 작업 성능, 토큰 효율성, 그리고 통신 가독성을 균형있게 고려하는 보상 함수를 사용합니다. 저희는 지도된 미세 조정, 직접적인 선호도 최적화, 그리고 그들의 혼합 방식을 포함한 다양한 강화 학습 알고리즘을 탐구하며, 그들의 효과성-효율성 트레이드오프에 대한 통찰을 제공합니다. 우리는 DPO 데이터 생성을 위해 몬테카를로 트리 탐색에서 영감을 받은 기법을 통합하며, 대화 턴을 트리 노드로 취급하여 다양한 상호 작용 경로를 탐색합니다. 정보 비대칭 질문 응답 및 복잡한 추론을 포함한 일반적인 다중 에이전트 작업에서 평가한 결과, Optima는 단일 에이전트 기준선 및 Llama 3 8B를 기반으로 한 일반적인 MAS보다 일관되고 상당한 개선을 보여주며, 정보 교환이 많이 필요한 작업에서 10% 미만의 토큰으로 최대 2.8배의 성능 향상을 달성합니다. 더욱이, Optima의 효율성 향상은 추론-계산을 보다 효과적으로 활용하는 새로운 가능성을 열어주어 추론 시간 스케일링 법칙을 개선시킵니다. LLM 기반 MAS에서의 근본적인 도전에 대처함으로써, Optima는 확장 가능하고 효율적이며 효과적인 MAS로 나아가는 잠재력을 보여줍니다. (https://chenweize1998.github.io/optima-project-page)
본 논문은 현대적인 합성곱 신경망(ConvNets) 설계에서 대형 컨볼루션 커널의 패러다임을 제안합니다. 여러 개의 작은 커널을 쌓는 대신 몇 개의 대형 커널을 사용하는 것이 우수한 설계 전략일 수 있다는 것을 입증합니다. 저희 연구는 대형 커널 ConvNets의 효율성과 성능을 최적화하는 일련의 아키텍처 설계 지침을 소개합니다. 대형 커널 ConvNets를 위해 특별히 개발된 체계적인 아키텍처 설계 원칙을 제시하는 UniRepLKNet 아키텍처를 제안하며, 이는 깊은 레이어 쌓임 없이도 광범위한 공간 정보를 캡처하는 이들의 독특한 능력을 강조합니다. 이로 인해 ImageNet 정확도 88.0%, ADE20K mIoU 55.6%, COCO box AP 56.4%를 달성하는 모델이 탄생하였으며, 시계열 예측, 오디오, 포인트 클라우드, 비디오 인식과 같은 다양한 모달리티에서 높은 확장성과 성능을 보여줍니다. 이러한 결과는 대형 커널 ConvNets의 범용 모델링 능력을 나타내며, 비전 트랜스포머에 비해 빠른 추론 속도를 보여줍니다. 저희의 연구 결과는 대형 커널 ConvNets가 더 큰 유효 수용 영역과 더 높은 형태 편향을 갖고 있으며, 작은 커널 CNN의 질감 편향에서 벗어나고 있음을 보여줍니다. 모든 코드와 모델은 https://github.com/AILab-CVC/UniRepLKNet에서 공개되어 있으며, 커뮤니티 내에서의 추가 연구 및 개발을 촉진하고 있습니다.
자동 LLM 벤치마크인 AlpacaEval 2.0, Arena-Hard-Auto, 그리고 MT-Bench과 같은 벤치마크들은 인간 평가에 비해 비용 효율성과 확장성이 뛰어나기 때문에 언어 모델을 평가하는 데 인기를 끌고 있습니다. 이러한 벤치마크에서 높은 승률을 달성하는 것은 새로 출시된 언어 모델의 홍보 효과를 크게 향상시킬 수 있습니다. 이 홍보 혜택은 길들이기를 위해 모델 출력 길이나 스타일을 조작하는 등의 기술을 촉발할 수 있지만, 길이를 제어하고 스타일을 분리하여 게임성을 줄이기 위한 여러 메커니즘이 개발되었음에도 불구하고, 항상 일정한 응답을 출력하는 "무효 모델"조차도 자동 벤치마크를 속여 최상위 승률을 달성할 수 있음을 보여줍니다: AlpacaEval 2.0에서 86.5%의 LC 승률; Arena-Hard-Auto에서 83.0 점; MT-Bench에서 9.55 점을 달성했습니다. 게다가, 조작된 부정행위 출력물은 전이 가능하며, 이는 이러한 벤치마크의 지침(예: AlpacaEval 2.0의 805개 샘플)이 개인적이고 액세스할 수 없다고 가정하기 때문입니다. 우리의 실험은 주로 컨셉 증명이지만, 악의적인 측이 LLM을 사용하여 감지하기 어려운 부정행위 응답을 생성하고 높은 승률과 홍보 효과를 부당하게 얻을 수 있습니다. 우리의 연구 결과는 신뢰할 수 있는 자동 벤치마크를 위한 부정행위 방지 메커니즘의 개발을 요구합니다. 코드는 https://github.com/sail-sg/Cheating-LLM-Benchmarks에서 확인할 수 있습니다.
우리는 알고리즘으로 생성된 데이터셋을 사용하여 훈련 예제의 반복 횟수에 따른 트랜스포머의 성능을 연구합니다. 최대공약수, 모듈러 곱셈, 행렬 고유값 세 가지 수학 문제에 대해, 일정한 훈련 단계 수에 대해, 반복적인 예제 집합으로 훈련된 모델이 일회용 예제 집합으로 훈련된 모델보다 우수한 성능을 보여줍니다. 또한 작은 무작위 부분집합을 반복적으로 사용하는 두 집합 훈련은 학습 속도와 성능 향상을 제공함을 입증합니다. 이는 반복의 이점이 데이터 다양성의 이점을 능가할 수 있다는 것을 강조합니다. 이러한 데이터셋과 문제는 딥러닝에서의 일반화와 기억의 상호작용을 아직 충분히 이해되지 않은 제어된 환경을 제공합니다.
대규모 언어 모델(LLM)에서 원하는 행동을 유도하기 위해 상호작용 중심 작업을 위한 지시 조정 단계에서는 일반적으로 다음 토큰 예측(NTP) 손실을 사용하여 LLM을 지시-응답 쌍으로 훈련시킵니다. 지시 조정 성능을 향상시키기 위한 이전 연구들은 주로 고품질 지도 미세 조정(SFT) 데이터셋의 필요성을 강조하며, 이는 일반적으로 독점적 LLM을 사용한 비용이 많이 드는 데이터 필터링이나 인력 집약적인 데이터 생성을 포함합니다. 그러나 이러한 접근 방식은 데이터셋의 본질적인 특성을 완전히 활용하지 못하여 높은 계산 및 인력 비용을 초래하여 확장성과 성능 향상을 제한합니다. 본 논문에서는 잘 정돈된 데이터셋이 필요하지 않은 상태에서 NTP 패러다임을 넘어선 지시 조정 성능을 높이는 새로운 레시피인 SFTMix를 제안합니다. LLM이 의미 표현 공간에서 불균형한 신뢰도를 보인다는 점을 고려하여, 서로 다른 신뢰 수준을 가진 예제가 지시 조정 과정에서 서로 다른 역할을 해야 한다고 주장합니다. 이 통찰력을 기반으로 SFTMix는 훈련 동역학을 활용하여 다양한 신뢰 수준을 가진 예제를 식별한 다음, Mixup 기반 정규화를 적용하여 자신감 있는 예제에서의 과적합을 완화하고, 비교적 자신감이 없는 예제에서의 학습을 개선하기 위해 감독 신호를 전파합니다. 이 접근 방식을 통해 SFTMix는 다양한 LLM 패밀리 및 임의 크기의 데이터셋에 대한 확장성을 입증하며, 다양한 지시 따르기 및 의료 도메인 특정 SFT 작업에서 NTP를 크게 능가함으로써 그 다양성을 보여줍니다. 포괄적인 제거 연구는 SFTMix의 설계 선택의 견고성을 추가로 확인하며, 넓은 자연어 처리 응용 프로그램에서 다양한 LLM 및 데이터셋을 통해 성능을 일관되게 향상시키는 다재다능성을 강조합니다.
인간 피드백으로부터 강화 학습 (RLHF)은 대규모 언어 모델 (LLMs)을 인간의 선호에 맞추는 데 중요한 도구로 등장했습니다. 가장 인기 있는 접근 방식 중 하나인 직접 선호 최적화 (DPO)는 RLHF를 보상 함수를 명시적으로 추정하지 않고 정책 최적화 문제로 제시합니다. 이는 일반적으로 보상 함수를 먼저 추정한 다음 근접 정책 최적화 (PPO)를 통해 정책을 최적화하는 두 단계 접근 방식의 안정성과 효율성 문제를 극복합니다. RLHF가 본질적으로 최적화 문제이며 이론적으로나 경험적으로 최적화를 가속화할 수 있는 모멘텀 기법이 잘 알려져 있기 때문에 자연스럽게 질문이 제기됩니다: RLHF를 모멘텀으로 가속할 수 있을까? 본 논문은 이 질문에 긍정적으로 대답합니다. 구체적으로, 우리는 먼저 반복적 선호 최적화 방법을 근사점 방법으로 볼 수 있다는 것을 보여줍니다. 이 관찰을 바탕으로 우리는 많은 기존 선호 최적화 알고리즘을 통합하고 Nesterov의 모멘텀 기법을 활용하여 LLMs의 정렬 속도를 높이는 일반적 가속 선호 최적화 (APO) 프레임워크를 제안합니다. 이론적으로, APO가 DPO 및 Self-Play Preference Optimization (SPPO)을 포함한 표준 반복적 선호 최적화 방법보다 빠른 수렴 속도를 달성할 수 있다는 것을 입증합니다. 경험적으로, 우리는 AlpacaEval 2.0 벤치마크에서 RLHF에 대한 APO의 우월성을 DPO, 반복적 DPO 및 기타 강력한 기준선에 대해 보여줍니다.
동적 장면 재구성은 3D 비전 분야에서 장기적인 과제입니다. 최근에는 3D 가우시안 스플래팅의 등장으로 이 문제에 대한 새로운 통찰이 제공되었습니다. 비록 이후의 노력들이 정적 3D 가우시안을 동적 장면으로 신속하게 확장하지만, 종종 물체 움직임에 대한 명시적인 제약이 부족하여 최적화 어려움과 성능 저하로 이어집니다. 위 문제를 해결하기 위해 우리는 MotionGS라는 새로운 변형 가능한 3D 가우시안 스플래팅 프레임워크를 제안합니다. 이 프레임워크는 3D 가우시안의 변형을 안내하기 위해 명시적인 움직임 사전을 탐색합니다. 구체적으로, 우리는 먼저 광학 흐름을 카메라 흐름과 물체 움직임에 해당하는 움직임 흐름으로 분리하는 광학 흐름 분리 모듈을 소개합니다. 그런 다음 움직임 흐름은 3D 가우시안의 변형을 효과적으로 제약하여 동적 물체의 움직임을 모사합니다. 게다가, 카메라 포즈 정제 모듈을 제안하여 3D 가우시안과 카메라 포즈를 번갈아 최적화하여 부정확한 카메라 포즈의 영향을 완화합니다. 단안 동적 장면에서의 광범위한 실험 결과는 MotionGS가 최첨단 방법을 능가하며 질적 및 양적 결과 모두에서 상당한 우월성을 나타낸다는 것을 입증합니다. 프로젝트 페이지: https://ruijiezhu94.github.io/MotionGS_page
대형 언어 모델 (LLM)은 텍스트 데이터에서 현저한 문맥 학습 능력을 보여주었습니다. 우리는 이러한 능력이 블랙박스 사전 훈련된 인코더로부터 얻은 다양한 도메인의 연속 벡터로 확장될 수 있는지 탐구합니다. 경량 프로젝터를 통해 입력 데이터를 LLM의 임베딩 공간에 정렬함으로써, 우리는 LLM이 이러한 프로젝트된 벡터를 효과적으로 처리하고 학습할 수 있는 것을 관찰했습니다. 이를 '벡터-문맥 학습'이라고 합니다. 특히, 우리는 일반적인 언어 모델링 목표로 프로젝터를 사전 훈련시킴으로써 벡터-문맥 학습을 가능케 하며, 작업 특정한 파인튜닝은 성능을 더욱 향상시킵니다. 다양한 작업 및 모달리티를 포함한 실험에서, 텍스트 재구성, 수치 함수 회귀, 텍스트 분류, 요약, 분자 캡션, 시계열 분류, 그래프 분류, 그리고 fMRI 디코딩 등의 작업에서, 벡터-문맥 학습은 종종 소수 학습 문맥 학습 및 도메인 특정 모델 또는 튜닝을 능가합니다. 우리는 벡터 표현을 전통적인 토큰 기반 패러다임을 넘어서 처리할 수 있는 LLM의 잠재력을 나타내는 분석 및 사례 연구를 더 진행합니다.
대규모 언어 모델 (LLM) 정렬에서 데이터는 중요한 요소입니다. 최근 연구에서는 효율적인 데이터 수집을 위해 LLM을 활용하는 방법을 탐구했습니다. 그러나 LLM이 생성한 데이터는 종종 품질 문제를 겪어 원하는 측면이 누락되거나 표현되지 않고 품질이 낮은 데이터 포인트가 있습니다. 이러한 문제를 해결하기 위해 우리는 Data Advisor를 제안합니다. 이는 원하는 데이터셋의 특성을 고려하는 데이터 생성을 위한 향상된 LLM 기반 방법입니다. 사전에 정의된 원칙 세트에서 시작하여 Data Advisor는 생성된 데이터의 상태를 모니터링하고 현재 데이터셋의 약점을 식별하며 그에 따라 다음 데이터 생성 반복을 조언합니다. Data Advisor는 기존 데이터 생성 방법에 쉽게 통합되어 데이터 품질과 범위를 향상시킬 수 있습니다. Mistral, Llama2 및 Falcon과 같은 세 가지 대표적인 LLM의 안전 정렬 실험에서 Data Advisor의 효과를 입증하며 다양한 세밀한 안전 문제에 대항하여 모델 안전성을 향상시키는 데 모델 유틸리티를 희생하지 않습니다.
우수한 성능에도 불구하고, 신경망 구조 탐색(Neural Architecture Search, NAS)은 대규모 계산 비용으로 비판받고 있습니다. 최근에는 Zero-shot NAS가 등장하여 Zero-cost (ZC) 프록시를 활용하여 계산 요구를 현저히 줄이는 유망한 접근법으로 인정받고 있습니다. 그러나 기존의 ZC 프록시는 전문가 지식에 크게 의존하며 상당한 시행착오 비용이 발생합니다. 특히 자연어 처리(NLP) 작업에서 대부분의 기존 ZC 프록시는 소박한 기준선의 성능을 능가하지 못합니다. 이러한 도전에 대응하기 위해 우리는 다양한 작업을 위해 자동으로 ZC 프록시를 설계하는 최초의 프레임워크인 LPZero를 제안합니다. 이는 인간이 설계한 프록시보다 더 높은 순위 일관성을 달성합니다. 구체적으로, 우리는 ZC 프록시를 상징적 방정식으로 모델링하고, 기존 ZC 프록시를 포함하는 통합된 프록시 탐색 공간을 통합합니다. 이는 미리 정의된 수학 기호 집합으로 구성된 기존 ZC 프록시를 포함합니다. 최적의 ZC 프록시를 탐색하기 위해 LPZero는 유전 프로그래밍을 통합하여 최적의 상징적 구성을 찾습니다. 우리는 프록시의 위험을 완화하기 위해 유도적으로 불희망한 프록시를 제거하는 Rule-based Pruning Strategy (RPS)를 제안합니다. FlexiBERT, GPT-2, LLaMA-7B에서 수행된 광범위한 실험은 LPZero의 우수한 순위 지정 능력과 현재 방법에 비해 하류 작업에서의 성능을 입증합니다.
시간 의존적 매개변수 편미분 방정식(PDEs)을 해결하는 것은 도전적입니다. 모델은 계수, 강제항, 경계 조건과 같은 매개변수의 변화에 적응해야 합니다. 데이터 주도형 신경 해법은 PDE 매개변수 분포에서 샘플링된 데이터로 학습하거나 그래디언트 기반 적응 및 메타-러닝을 활용하여 관측에서 역동학을 암시적으로 인코딩할 수 있습니다. 이는 종종 추론 복잡성의 증가와 함께 발생합니다. 대형 언어 모델(LLMs)의 맥락 학습 능력에서 영감을 받아, 우리는 그래디언트 적응이 추론에서 필요하지 않은 매개변수 PDE를 해결하기 위해 설계된 새로운 생성적 자기 회귀 트랜스포머인 Zebra를 소개합니다. 사전 훈련 및 추론 중에 맥락 정보를 활용함으로써, Zebra는 입력 시퀀스에 의존하여 새로운 작업에 동적으로 적응하며, 맥락 궤적 또는 이전 상태를 통합합니다. 이 접근 방식은 Zebra가 임의 크기의 맥락 입력을 유연하게 처리하고 여러 해결 궤적을 샘플링하여 불확실성 양자화를 지원합니다. 우리는 다양한 어려운 PDE 시나리오를 통해 Zebra를 평가하여, 기존 방법과 비교하여 그 적응성, 견고성 및 우수한 성능을 입증합니다.