번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 확산 모델이 토큰별 독립적인 노이즈 수준을 가진 토큰 집합을 노이즈 제거하도록 학습하는 새로운 훈련 패러다임인 Diffusion Forcing을 소개합니다. 우리는 Diffusion Forcing을 시퀀스 생성 모델링에 적용하여, 과거 토큰을 완전히 확산시키지 않고 하나 또는 여러 미래 토큰을 생성하도록 인과적 다음 토큰 예측 모델을 학습시킵니다. 우리의 접근 방식은 가변 길이 생성과 같은 다음 토큰 예측 모델의 강점과, 바람직한 경로로 샘플링을 유도할 수 있는 능력과 같은 전체 시퀀스 확산 모델의 강점을 결합한 것으로 나타났습니다. 우리의 방법은 (1) 훈련 범위를 초과하는 길이의 비디오와 같은 연속 토큰 시퀀스를 롤아웃할 수 있는 능력(기존 방법들은 이 경우 발산함)과 (2) Diffusion Forcing의 가변 범위 및 인과적 구조로부터 독특하게 이점을 얻는 새로운 샘플링 및 유도 기법을 제공하며, 이는 의사결정 및 계획 작업에서 뚜렷한 성능 향상을 이끌어냅니다. 실험적 성공 외에도, 우리의 방법은 실제 결합 분포에서 추출된 모든 부분 시퀀스 토큰의 가능도에 대한 변분 하한을 최적화함이 증명되었습니다. 프로젝트 웹사이트: https://boyuan.space/diffusion-forcing/
매개변수 효율적 미세 조정(PEFT)은 제한된 자원으로 대규모 언어 모델(LLM)을 맞춤화하는 데 필수적입니다. 밀집 아키텍처(dense-architecture) LLM을 위한 다양한 PEFT 방법들이 제안되었지만, 희소 아키텍처(sparse-architecture) LLM을 위한 PEFT는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 가진 LLM을 위한 PEFT 방법을 탐구하며, 주요 내용은 다음과 같습니다: (1) 맞춤화된 작업에서 활성화된 전문가들의 분산 정도를 조사한 결과, 특정 작업에 대한 라우팅 분포는 매우 집중되는 경향이 있는 반면, 활성화된 전문가의 분포는 작업 간에 크게 달라짐을 발견했습니다. (2) 하위 작업과 가장 관련이 높은 전문가를 조정하고 나머지 전문가와 모듈은 고정하는 전문가 특화 미세 조정(Expert-Specialized Fine-Tuning, ESFT)을 제안합니다. 실험 결과, 우리의 방법은 조정 효율성을 향상시킬 뿐만 아니라 전체 매개변수 미세 조정의 성능을 따라가거나 심지어 능가함을 보여줍니다. (3) MoE 아키텍처가 전문가 특화 미세 조정에 미치는 영향을 추가로 분석합니다. 더 세분화된 전문가를 가진 MoE 모델이 하위 작업과 가장 관련이 높은 전문가 조합을 선택하는 데 더 유리하며, 이로 인해 훈련 효율성과 효과성이 모두 향상됨을 발견했습니다.
최근 많은 연구들이 언어 모델을 계획 문제에 활용하는 방법을 탐구해 왔다. 한 연구 분야는 계획 작업에 대한 자연어 설명을 계획 도메인 정의 언어(PDDL)와 같은 구조화된 계획 언어로 변환하는 데 초점을 맞추고 있다. 이 접근법은 유망하지만, 생성된 PDDL 코드의 품질을 정확하게 측정하는 것은 여전히 상당한 과제로 남아 있다. 첫째, 생성된 PDDL 코드는 일반적으로 계획 검증기를 사용하여 평가되며, 이는 계획자로 문제를 해결할 수 있는지 여부를 확인한다. 이 방법은 언어 모델이 작업의 자연어 설명과 일치하지 않는 유효한 PDDL 코드를 생성할 가능성이 있기 때문에 불충분하다. 둘째, 기존 평가 데이터셋은 종종 계획 작업의 자연어 설명이 실제 PDDL과 매우 유사하여 작업의 난이도를 낮추는 경향이 있다. 이러한 격차를 해소하기 위해, 우리는 계획 작업의 자연어 설명에서 PDDL 코드를 생성하는 언어 모델의 능력을 평가하기 위해 설계된 벤치마크인 \benchmarkName을 소개한다. 우리는 먼저 언어 모델이 생성한 PDDL 코드의 정확성을 엄격하게 평가하기 위해 실제 PDDL과 유연하게 비교하는 PDDL 동등성 알고리즘을 개발한다. 그런 다음, 13가지 다양한 작업에 걸쳐 난이도가 다른 132,037개의 텍스트-PDDL 쌍으로 구성된 데이터셋을 제시한다. 마지막으로, 이 작업의 복잡성을 보여주는 여러 API 접근 및 오픈 웨이트 언어 모델을 평가한다. 예를 들어, GPT-4o가 생성한 PDDL 문제 설명의 87.6%가 구문적으로 파싱 가능하고, 82.2%가 유효하며 해결 가능한 문제이지만, 단 35.1%만이 의미적으로 정확하다는 점은 이 문제에 대한 더 엄격한 벤치마크의 필요성을 강조한다.