번역이 포함된 일일 선별된 AI 연구 논문
개방형 시나리오에서 대규모 언어 모델(LLMs)을 평가하는 것은 기존 벤치마크와 메트릭이 이를 포괄적으로 측정할 수 없기 때문에 어려운 과제입니다. 이 문제를 해결하기 위해, 우리는 LLMs를 효율적이고 효과적으로 평가할 수 있는 확장 가능한 판단자(JudgeLM)로 미세 조정하는 방법을 제안합니다. 먼저, 고성능 판단자를 미세 조정하기 위한 작업 시드, LLMs가 생성한 답변, GPT-4가 생성한 판단을 포함한 포괄적이고 대규모이며 고품질의 데이터셋과 판단자를 평가하기 위한 새로운 벤치마크를 제안합니다. 우리는 7B, 13B, 33B 파라미터 규모로 JudgeLM을 학습시키고, 그 능력과 행동에 대한 체계적인 분석을 수행합니다. 그런 다음, LLM을 판단자로 미세 조정할 때 발생하는 주요 편향을 위치 편향, 지식 편향, 형식 편향으로 분석합니다. 이러한 문제를 해결하기 위해, JudgeLM은 스왑 증강, 참조 지원, 참조 제거 등의 기술을 도입하여 판단자의 성능을 명확히 향상시킵니다. JudgeLM은 기존 PandaLM 벤치마크와 우리가 제안한 새로운 벤치마크 모두에서 최첨단 판단자 성능을 달성합니다. 우리의 JudgeLM은 효율적이며, JudgeLM-7B는 8개의 A100 GPU로 5,000개의 샘플을 판단하는 데 단 3분이 소요됩니다. JudgeLM은 교사 판단자와 높은 일치도를 보이며, 90%를 초과하는 일치도를 달성하여 인간 간의 일치도를 능가합니다. 또한 JudgeLM은 단일 답변, 다중 모달 모델, 다중 답변, 다중 턴 채팅에 대한 판단자로서의 확장된 능력을 보여줍니다.
본 논문에서는 텍스트 조건부 신경 방사 필드(Neural Radiance Fields, NeRFs)를 단일 순방향 전달과 (선택적으로) 일부 미세 조정을 통해 생성하는 방법인 HyperFields를 소개한다. 우리의 접근법의 핵심은 다음과 같다: (i) 텍스트 토큰 임베딩에서 NeRFs 공간으로의 매끄러운 매핑을 학습하는 동적 하이퍼네트워크; (ii) 개별 NeRFs에 인코딩된 장면들을 하나의 동적 하이퍼네트워크로 증류하는 NeRF 증류 학습. 이러한 기술들은 단일 네트워크가 수백 개의 고유한 장면에 적합하도록 한다. 또한, HyperFields가 텍스트와 NeRFs 사이의 보다 일반적인 매핑을 학습함으로써, 분포 내 및 분포 외의 새로운 장면을 제로샷 또는 몇 번의 미세 조정 단계를 통해 예측할 수 있음을 보여준다. 학습된 일반 매핑 덕분에 HyperFields의 미세 조정은 가속화된 수렴을 이점으로 가지며, 기존의 신경 최적화 기반 방법보다 5~10배 빠르게 새로운 장면을 합성할 수 있다. 우리의 제거 실험은 동적 아키텍처와 NeRF 증류가 HyperFields의 표현력에 있어 모두 중요함을 보여준다.
우리는 언어 모델의 자동회귀적 생성을 고보상 결과로 제어하기 위한 새로운 오프-폴리시 강화학습 방법인 제어 디코딩(Controlled Decoding, CD)을 제안합니다. CD는 보상에 대한 가치 함수, 즉 프리픽스 스코어러(prefix scorer)를 통해 오프-폴리시 강화학습 문제를 해결합니다. 이 프리픽스 스코어러는 추론 시에 생성 과정을 더 높은 보상 결과로 유도하는 데 사용됩니다. 우리는 프리픽스 스코어러가 (잠재적으로) 오프-폴리시 데이터에서 학습되어 부분적으로 디코딩된 응답에서 디코딩을 계속할 때의 기대 보상을 예측할 수 있음을 보여줍니다. 또한, CD가 Reddit 대화 코퍼스에서 효과적인 제어 메커니즘으로 작동함을 실증적으로 입증합니다. 더 나아가, CD 설계의 모듈성 덕분에 다중 보상을 제어할 수 있어 추가적인 복잡성 없이 다중 목표 강화학습 문제를 효과적으로 해결할 수 있음을 보여줍니다. 마지막으로, CD는 훈련 시 변경 없이도 추론 시에 새로운 블록 단위 방식으로 적용될 수 있어, 널리 사용되는 best-of-K 전략과 토큰 수준 강화학습 간의 간극을 메우는 가능성을 제시합니다. 이는 CD가 언어 모델 정렬을 위한 유망한 접근법임을 시사합니다.
수백억 개의 파라미터를 가진 대형 언어 모델(LLM)은 새로운 흥미로운 AI 애플리케이션의 물결을 일으켰습니다. 그러나 이러한 모델들은 추론 시점에 계산 비용이 많이 듭니다. 희소성은 이러한 비용을 줄이기 위한 자연스러운 접근 방식이지만, 기존 방법들은 비용이 많이 드는 재훈련을 요구하거나, LLM의 문맥 학습 능력을 포기해야 하거나, 현대 하드웨어에서 실제 시간 속도 향상을 제공하지 못합니다. 우리는 문맥적 희소성, 즉 주어진 입력에 대해 밀집 모델과 거의 동일한 출력을 생성하는 작은 입력 의존적 어텐션 헤드 및 MLP 파라미터 집합이 이러한 문제를 해결할 수 있다고 가정합니다. 우리는 문맥적 희소성이 존재하며, 이를 정확하게 예측할 수 있고, 이를 활용하여 LLM의 품질이나 문맥 학습 능력을 저하시키지 않으면서 실제 시간에서 LLM 추론 속도를 높일 수 있음을 보여줍니다. 이러한 통찰을 바탕으로, 각 레이어에 대한 입력이 주어졌을 때 문맥적 희소성을 실시간으로 예측하는 저비용 알고리즘과 LLM 추론을 가속화하는 비동기적이고 하드웨어를 고려한 구현을 포함한 DejaVu 시스템을 제안합니다. 우리는 DejaVu가 최신 FasterTransformer와 비교하여 OPT-175B의 추론 지연 시간을 2배 이상, 널리 사용되는 Hugging Face 구현과 비교하여 6배 이상 줄일 수 있음을 검증했으며, 모델 품질을 저하시키지 않았습니다. 코드는 https://github.com/FMInference/DejaVu에서 확인할 수 있습니다.