번역이 포함된 일일 선별된 AI 연구 논문
LLM이 생성하는 추론 단계는 종종 불완전할 수 있습니다. 왜냐하면 그들은 사전 훈련 데이터에서 발견되는 일상 대화에서 흔히 볼 수 있는 논리적 도약을 모방하기 때문에 기본적인 근거가 자주 암시적으로 남겨집니다. 이러한 도전에 대처하기 위해 우리는 RATIONALYST를 소개합니다. 이는 미분류 데이터에서 추출된 방대한 근거 주석 컬렉션에 대한 사전 훈련을 기반으로 하는 추론의 과정 지도 모델입니다. 우리는 웹 규모의 미분류 데이터 집합(Pile)과 최소한의 인간 개입을 통해 추론 데이터 집합의 조합에서 79,000개의 근거를 추출했습니다. 이러한 추론을 위한 웹 규모의 사전 훈련은 RATIONALYST가 수학적, 상식적, 과학적 및 논리적 추론을 포함한 다양한 추론 작업에 걸쳐 일관되게 일반화할 수 있도록 합니다. LLaMa-3-8B에서 세밀하게 조정된 후, RATIONALYST는 7가지 대표적인 추론 벤치마크에서 추론의 정확도를 평균 3.9% 향상시켰습니다. 또한 GPT-4와 같은 큰 검증기와 일치하는 훈련 세트에서 세밀하게 조정된 유사한 크기의 모델보다 우수한 성능을 보여주었습니다.
다양한 시각적 기반 모델은 각각 독특한 강점과 약점을 가지고 있으며, 이러한 모두는 레이블 없이 다양한 다교사 지식 증류를 통해 개선될 수 있습니다. 이를 "집합 모델"이라고 합니다. 우리는 이 연구분야를 바탕으로, 특히 교사들의 활성화 통계량이 학생 모델 품질에 미치는 영향을 연구함으로써 손실 함수의 영향을 연구합니다. 우리는 서로 다른 분포를 더 잘 조정하기 위해 표준 통계 정규화 기술을 탐구하고 그 효과를 평가합니다. 더 나아가, 우리는 하다마드 행렬의 사용을 촉진하는 하류 교사 매칭 메트릭에 미치는 영향을 검토합니다. 이 행렬을 사용하여 유용한 특성을 시연하며, 각 차원의 다변량 분포가 동일한 척도를 사용하여 표준화되는 등방성 표준화에 사용할 수 있다는 것을 보여줍니다. 이 기술을 "PHI 표준화" (PHI-S)라고 부르며, 이 기술이 연구된 방법 모음 전체에서 가장 우수한 학생 모델을 생성한다는 것을 경험적으로 증명합니다.
대형 언어 모델은 코드 생성에서 상당한 발전을 이루었지만, 생성된 코드의 통과율은 세심한 오류로 인해 병목 현상을 겪고 있으며, 특히 복잡한 문제의 경우 테스트 통과를 위해 인간의 개입이 종종 필요합니다. 기존의 LLM 기반 디버깅 시스템은 생성된 프로그램을 단일체로 취급하여 낮은 수준의 구문 오류부터 높은 수준의 알고리즘 결함까지 여러 수준의 세밀한 버그를 해결하지 못합니다. 본 논문에서는 다중 단계 디버거(MGDebugger)를 소개합니다. MGDebugger는 다양한 수준의 세밀한 버그를 분리, 식별 및 해결하는 계층적 코드 디버거입니다. MGDebugger는 문제가 있는 코드를 하위 함수의 계층적 트리 구조로 분해하고, 각 수준은 특정한 오류의 세밀도를 나타냅니다. 디버깅 중에는 각 하위 함수를 분석하고 하향식으로 버그를 반복적으로 해결합니다. 각 하위 함수를 효과적으로 테스트하기 위해, LLM 시뮬레이션된 Python 실행기를 제안하며, 이 실행기는 코드 실행을 추적하고 중요한 변수 상태를 정확하게 식별하여 오류를 찾아냅니다. 광범위한 실험 결과 MGDebugger가 기존의 디버깅 시스템을 능가하며, HumanEval에서 시드 생성에 비해 정확성이 18.9% 향상되었으며, HumanEvalFix에서 97.6%의 수리 성공률을 달성함을 보여줍니다. 또한 MGDebugger는 다양한 범주와 난이도 수준의 버그를 효과적으로 수정하여 그 견고성과 효과를 입증합니다.
신경 방사형 필드(NeRF)는 신규 뷰 합성에 널리 사용되며 3D 물체 감지(3DOD)에 적응되어 3DOD를 위한 뷰-합성 표현을 통해 유망한 접근 방식을 제공합니다. 그러나 NeRF는 내재적 한계에 직면합니다: (i) 암시적 성격으로 인한 3DOD를 위한 제한된 표현 능력 및 (ii) 느린 렌더링 속도. 최근에는 3D 가우시안 스플래팅(3DGS)이 이러한 한계를 해결하는 명시적 3D 표현으로 등장했습니다. 이러한 장점에 영감을 받아 본 논문은 3DGS를 3DOD에 처음으로 도입하며, (i) 가우시안 덩어리의 모호한 공간 분포: 3DGS는 주로 2D 픽셀 수준의 지도를 의존하므로 가우시안 덩어리의 3D 공간 분포가 불명확하고 물체와 배경 간 구분이 약해져 3DOD를 방해하는 도전에 직면했습니다; (ii) 과도한 배경 덩어리: 2D 이미지에는 종종 많은 배경 픽셀이 포함되어 있어 많은 잡음이 있는 가우시안 덩어리로 밀집되어 배경을 나타내며 감지에 부정적인 영향을 미칩니다. 도전 (i)을 해결하기 위해 3DGS 재구성이 2D 이미지에서 유도되었다는 사실을 활용하여 2D 경계 안내를 통합하여 가우시안 덩어리의 공간 분포를 크게 향상시키는 우아하고 효율적인 솔루션을 제안하여 물체와 배경 간 더 명확한 구분을 가능케 합니다. 도전 (ii)에 대응하기 위해 2D 상자를 사용하여 상자-중심 샘플링 전략을 제안하여 3D 공간에서 물체 확률 분포를 생성하고, 3D에서 효과적인 확률적 샘플링을 가능케 함으로써 물체 덩어리를 보다 많이 유지하고 잡음이 많은 배경 덩어리를 줄입니다. 우리의 설계로부터 혜택을 받아, 우리의 3DGS-DET은 최신 NeRF 기반 방법인 NeRF-Det을 크게 능가하여 ScanNet 데이터셋에서 mAP@0.25에서 +6.6 및 mAP@0.5에서 +8.1의 개선을 달성하고, ARKITScenes 데이터셋에서 mAP@0.25에서 +31.5의 인상적인 성과를 거두었습니다.
우리는 LLM의 초등 수학 문제 해결 능력의 심도를 연구합니다. 이를 위해, 우리는 기존의 수학 워드 문제 쌍에 대한 성능을 평가합니다. 두 번째 문제의 답이 첫 번째 문제를 올바르게 해결하는 데에 의존하는 방식으로. 우리의 연구 결과는 대부분의 LLM에서 중요한 추론 간극을 보여줍니다. 즉, 구성적인 문제를 해결하고 각 질문을 독립적으로 해결하는 것 사이의 성능 차이가 있습니다. 이 간극은 더 작고 비용 효율적이며 수학에 특화된 모델에서 더욱 두드러집니다. 게다가, 지시 조정 레시피와 코드 생성은 LLM 크기에 따라 다양한 효과를 보이며, GSM에서의 파인튜닝은 과제 과적합으로 이어질 수 있습니다. 우리의 분석은 대규모 추론 간극이 테스트 세트 유출 때문이 아니라 추가적인 맥락으로 인한 주의 산만과 부족한 두 번째 단계 추론 때문임을 나타냅니다. 전반적으로, LLM은 표준 벤치마크에서의 성능에도 불구하고 추론 능력에 시스템적인 차이를 보입니다.
텍스트가 중심적인 시각 요소로 작용하여 전반적인 이해를 이끌어내는 텍스트 풍부 이미지는 발표 슬라이드, 스캔된 문서, 그리고 웹페이지 스냅샷과 같은 실제 응용 프로그램에서 흔히 볼 수 있습니다. 여러 텍스트 풍부 이미지를 포함하는 작업은 특히 도전적인데, 개별 이미지의 내용을 이해하는 것뿐만 아니라 여러 시각적 입력에 걸쳐 상호 관계와 논리적 흐름을 추론해야하기 때문입니다. 이러한 시나리오의 중요성에도 불구하고, 현재의 다중 모달 대형 언어 모델(MLLMs)은 두 가지 주요 도전에 직면하여 이러한 작업을 처리하는 데 어려움을 겪고 있습니다: (1) 텍스트 풍부 다중 이미지 시나리오를 위한 고품질 지시 조정 데이터의 부족, 그리고 (2) 이미지 해상도와 시각적 특징 시퀀스 길이의 균형을 맞추는 것이 어렵다는 점입니다. 이러한 도전에 대처하기 위해, 우리는 \OurMethod을 제안합니다. 이는 여러 텍스트 풍부 이미지를 포함하는 시각-언어 작업을 처리하기 위해 특별히 설계된 MLLM입니다. 먼저, 텍스트 풍부하고 다중 이미지 시나리오에 맞춘 약 100만 개의 고품질 다중 모달 지시 조정 데이터를 선별했습니다. 둘째, 입력 이미지의 원본 종횡비와 해상도를 기반으로 시각적 시퀀스 길이의 할당을 동적으로 최적화하는 적응형 고해상도 다중 이미지 인코딩 모듈을 개발했습니다. 다양한 벤치마크를 통한 실험 결과는 우리 모델이 텍스트 풍부한 다중 이미지 평가에서 우수한 성능을 보이며 일반 도메인 평가에서도 경쟁력 있는 성과를 거두었음을 보여줍니다.
보상 모델은 모델이 지시에 따르도록 정렬하는 데 중요하며 일반적으로 두 가지 인기있는 패러다임 중 하나를 따라 교육됩니다: 브래들리-테리 스타일 또는 회귀 스타일. 그러나 충분히 일치하는 데이터로 교육할 때 어느 접근 방식이 다른 것보다 우수한지에 대한 증거가 부족합니다. 이는 이러한 접근 방식이 서로 다른 (그러나 호환되지 않는) 형식으로 수집된 데이터를 필요로 하기 때문에 기존의 공개 데이터셋에서 충분히 일치하는 데이터를 사용할 수 없기 때문입니다. 이 문제에 대처하기 위해 우리는 HelpSteer2 데이터셋에 기존의 평가 (회귀 스타일 교육용)을 보완하는 브래들리-테리 교육용으로 설계된 선호 주석을 공개합니다. 데이터 해석을 개선하기 위해 선호 주석은 인간이 작성한 정당화와 함께 제공됩니다. 이 데이터를 사용하여 우리는 데이터를 충분히 일치시킨 상태에서 브래들리-테리 및 회귀 모델의 첫 번째 직접 비교를 실시합니다. 이러한 비교에서 얻은 통찰을 기반으로 브래들리-테리와 회귀 보상 모델링을 결합하는 새로운 접근 방식을 제안합니다. 이 접근 방식으로 조정된 Llama-3.1-70B-Instruct 모델은 2024년 10월 1일 기준으로 RewardBench에서 140개 이상의 보상 모델 중 최고 점수인 94.1을 기록합니다. 또한 RLHF에서 모델이 지시를 따르도록 정렬하는 이 보상 모델의 효과를 증명합니다. 우리는 이 데이터셋을 오픈 소스로 공개하며(CC-BY-4.0 라이선스), https://huggingface.co/datasets/nvidia/HelpSteer2 에서 훈련된 보상 모델을 공개적으로 공개합니다. https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward 에서 확인할 수 있습니다.
우리는 LoRA를 연방 학습에서 A와 B 행렬의 비대칭 분석을 통해 조사합니다. 이를 통해 A 행렬이 일반적인 지식을 학습하는 데 책임이 있고, B 행렬은 클라이언트별 지식을 포착하는 데 초점을 맞춘다는 것을 발견했습니다. 이 발견을 기반으로, 가중치 업데이트를 모델링하기 위해 두 저랭크 훈련 가능한 A와 B 행렬을 사용하는 Federated Share-A Low-Rank Adaptation (FedSA-LoRA)을 소개합니다. 그러나 A 행렬만이 집계를 위해 서버와 공유됩니다. 또한, rsLoRA 및 VeRA와 같은 다른 LoRA 변형에서 학습된 A와 B 행렬 사이의 관계에 대해 탐구하여 일관된 패턴을 밝혀냅니다. 결과적으로, 우리는 FedSA-LoRA 방법을 이러한 LoRA 변형에 확장하여 FedSA-rsLoRA 및 FedSA-VeRA를 얻습니다. 이렇게 함으로써, LoRA를 연방 학습과 통합하는 일반적인 패러다임을 수립하여, 연방 학습과 결합된 후속 LoRA 변형에 대한 미래 작업에 대한 지침을 제공합니다. 자연어 이해 및 생성 작업에 대한 광범위한 실험 결과는 제안된 방법의 효과를 입증합니다.
텍스트 대 이미지 생성의 실용적 사용은 단순한 단일 모델에서 여러 전문 구성 요소를 결합한 복잡한 워크플로로 진화해 왔습니다. 워크플로 기반 접근 방식은 이미지 품질을 향상시킬 수 있지만, 효과적인 워크플로를 만들기 위해서는 많은 구성 요소, 그들의 복잡한 상호 의존성, 그리고 생성 프롬프트에 대한 의존성 때문에 상당한 전문 지식이 필요합니다. 본 연구에서는 사용자 프롬프트에 맞게 워크플로를 자동으로 맞추는 새로운 작업인 프롬프트 적응형 워크플로 생성을 소개합니다. 이 작업을 해결하기 위해 두 가지 LLM 기반 접근 방법을 제안합니다: 사용자 선호도 데이터로부터 학습하는 튜닝 기반 방법과 기존 플로우를 선택하기 위해 LLM을 사용하는 훈련 불필요한 방법입니다. 두 접근 방식 모두 단일 모델이나 일반적인, 프롬프트에 독립적인 워크플로와 비교했을 때 이미지 품질을 향상시킵니다. 우리의 연구는 프롬프트에 의존하는 플로우 예측이 텍스트 대 이미지 생성 품질을 향상시키는 새로운 방법을 제공하며, 이는 해당 분야의 기존 연구 방향을 보완합니다.
기계 번역(MT) 평가를 위한 신경 메트릭은 전통적인 어휘 메트릭에 비해 인간 판단과 더 높은 상관 관계를 가지기 때문에 점점 주목받고 있습니다. 따라서 연구자들은 품질에 기반한 디코딩 전략을 통해 신경 메트릭을 활용하여 우도 기반 방법보다 더 나은 결과를 달성했습니다. 대형 언어 모델(LLM)의 등장으로 인해, 품질 추정기에 의해 유도된 선호 정렬 기술이 번역 품질을 향상시킬 수 있는 잠재력으로 인해 주목을 받고 있습니다. 본 연구는 대조적 선호 최적화(CPO)에 초점을 맞추고, 선호 기반 정렬이 번역 품질에 미치는 영향을 평가하기 위해 광범위한 실험을 실시했습니다. 우리의 연구 결과는 CPO가 정렬 메트릭에 있어서 고품질 데이터에서 지도 미세 조정(SFT)을 일관되게 능가하지만, 신경적 및 어휘적 메트릭 간의 특히 하류 평가 메트릭 간의 불안정성을 야기할 수 있다는 것을 보여줍니다. 더불어, 후보 번역 생성을 위해 기본 모델에만 의존하는 것이 여러 외부 시스템을 사용하는 것과 비교 가능한 성능을 달성하면서 하류 메트릭 간의 더 나은 일관성을 보장한다는 점을 입증합니다.
기초 모델(FMs)의 등장과 그들의 위험과 영향을 다루는 규제 노력들은 오픈 소스 모델에 대한 상당한 관심을 불러일으켰다. 그러나 기존의 음성 기초 모델(SFMs)은 완전한 오픈 소스 원칙을 준수하지 못하는데, 이는 그렇다고 주장하더라도 해당 SFM이 모델 가중치, 코드, 그리고 훈련 데이터를 공개적으로 오픈 소스 조건하에 제공하지 않기 때문이다. 본 연구에서는 유럽 연합(EU)의 24개 공식 언어에 초점을 맞추어 이러한 공백을 채우기 위한 첫 번째 단계를 밟아간다. 우리는 자동 음성 인식 데이터셋과 오픈 소스 준수 라이선스에 따른 미분류 음성 말뭉치를 조사하여 총 950,000시간의 적합한 훈련 데이터를 수집했다. 게다가, 우리는 441,000시간의 미분류 데이터에 대한 자동 트랜스크립트를 허용적인 CC-BY 라이선스로 공개함으로써 EU 언어에 대한 오픈 소스 SFM의 작성을 용이하게 했다.
대형 언어 모델(LLMs)은 복잡한 쿼리를 이해하고 정교한 작업을 수행하는 뛰어난 능력을 보여주었지만, 그들의 일반화 능력은 종종 기억과 깊게 얽혀 있어 더 정확한 평가가 필요하다. 이러한 도전에 대처하기 위해 우리는 LLMs의 일반화 능력을 양적으로 측정하는 동적 평가 프레임워크인 Scylla를 소개한다. Scylla는 일반화와 기억을 분리하여 모델 성능을 인식 분포(ID) 및 분포 외 데이터(OOD)에서 20가지 작업을 통해 5단계의 복잡성으로 평가한다. 광범위한 실험을 통해 작업 복잡성과 ID 및 OOD 데이터 간의 성능 차이인 일반화 골짜기라고 하는 현상을 발견했다. 특히, 이 현상은 비일관적 행동에 의존하는 정도가 정점에 도달하는 중요한 임계 복잡성이라는 것을 보여주며, LLMs의 일반화 능력의 상한을 나타낸다. 모델 크기가 증가함에 따라 임계 복잡성이 더 높은 작업 복잡성으로 이동함으로써, 더 큰 모델은 기억에 과도하게 의존하기 전에 더 복잡한 추론 작업을 처리할 수 있다는 것을 시사한다. Scylla와 임계 복잡성 개념을 활용하여, LLaMA 및 Qwen 가족과 같은 오픈 소스 모델과 Claude 및 GPT와 같은 폐쇄 소스 모델을 포함한 28개의 LLMs를 벤치마킹하여 더 견고한 평가를 제공하고 LLMs의 일반화 능력을 더 명확하게 이해한다.
인간의 선호를 모델링하는 것은 기초 모델이 인간의 가치와 일치하도록 하는 데 중요합니다. 전통적인 보상 모델링 방법인 Bradley-Terry(BT) 보상 모델은 특히 비전환적 선호를 다루는 데 표현력이 부족합니다. 지도된 쌍 선호 모델(PairPM)은 일반적인 선호를 표현할 수 있지만 구현이 매우 특수하며 비교된 쌍의 일관된 선호 확률을 보장할 수 없습니다. 또한, 여러 응답을 비교할 때 이차 쿼리 복잡성으로 인해 높은 계산 비용을 부과합니다. 본 논문에서는 응답을 잠재 공간에 임베딩하여 복잡한 선호 구조를 효율적으로 포착하는 선호 표현 학습을 소개하며 선호 쿼리 복잡성을 선형으로 달성합니다. 더불어, 우리는 선호 점수 기반 일반 선호 최적화(GPO)를 제안하여 인간 피드백으로부터 보상 기반 강화 학습을 일반화합니다. 실험 결과는 우리의 일반 선호 표현 모델(GPM)이 RewardBench 벤치마크에서 BT 보상 모델을 최대 5.6%까지 앞선 성능을 보이며 BT 보상 모델이 무작위 추측과 같이 동작하는 순환적 선호도 효과적으로 모델링한다는 것을 보여줍니다. 또한, GPO 및 일반 선호 모델로 언어 모델 사후 훈련을 진행한 후 AlpacaEval2.0 및 MT-Bench에서 하류 작업에 대한 평가는 최대 9.3%까지 성능 향상을 보여줍니다. 이러한 결과는 우리의 방법이 기초 모델을 섬세한 인간의 가치와 일치시키는 데 도움이 될 수 있다는 것을 나타냅니다. 코드는 https://github.com/general-preference/general-preference-model에서 사용할 수 있습니다.
대형 언어 모델은 차세대 정보 액세스 엔진으로서 상당한 잠재력을 보여주었습니다. 그러나 그들의 신뢰성은 환각 및 비사실적인 콘텐츠 생성 문제로 인해 방해를 받습니다. 이는 특히 장문 형식의 응답에서 본질적 정확성을 평가하고 보장하는 것이 복잡한 경우에 문제가 됩니다. 본 논문에서는 LLMs의 장문 형식 응답의 사실성을 향상시키기 위해 설계된 혁신적인 정렬 프레임워크인 FactAlign을 제안하여 이 간극을 해소합니다. 우리는 KTO(Kahneman-Tversky Optimization) 정렬 방법을 확장한 세밀한, 문장 수준의 정렬 알고리즘인 fKTO를 소개합니다. 최근의 자동 사실성 평가의 발전을 활용하여, FactAlign은 세밀한 사실성 평가를 활용하여 정렬 프로세스를 안내합니다. 오픈 도메인 프롬프트와 정보 탐색 질문에 대한 실험 결과는 FactAlign이 LLM 응답의 사실적 정확성을 크게 향상시키는 동시에 그들의 유용성을 향상시킨다는 것을 보여줍니다. 추가 분석에서 FactAlign이 LLM에게 더 많은 정보를 제공하도록 훈련시킬 수 있어 사실적 정확성을 잃지 않고 사실적 F1 점수를 향상시킬 수 있다는 것을 확인했습니다. 우리의 소스 코드, 데이터셋 및 훈련된 모델은 https://github.com/MiuLab/FactAlign에서 공개적으로 제공됩니다.
저희는 실시간 미분 가능 방출 전용 체적 렌더링(Exact Volumetric Ellipsoid Rendering, EVER)을 제시합니다. 최근 3D 가우시안 스플래팅(3D Gaussian Splatting, 3DGS)에 의한 래스터화 기반 접근과는 달리, 저희의 원시 기반 표현은 3D 가우시안 빌보드의 알파 합성이 아닌 정확한 체적 렌더링을 가능하게 합니다. 따라서 3DGS와 달리 저희의 공식은 팝핑 아티팩트와 시점에 따라 다른 밀도로 인한 문제를 겪지 않으면서도 NVIDIA RTX4090에서 720p에서 약 30 FPS의 프레임 속도를 달성합니다. 저희의 접근 방식은 광선 추적을 기반으로 하기 때문에 래스터화로는 어려운 초점 흐림과 카메라 왜곡(예: 피시아이 카메라로부터의 왜곡)과 같은 효과를 가능하게 합니다. 저희는 저희의 방법이 3DGS보다 블렌딩 문제가 적고, Zip-NeRF 데이터셋의 어려운 대규모 장면에서 실시간 기술 중 가장 날카로운 결과를 달성하는 등 3DGS 및 시점 일관성 렌더링에 대한 후속 연구보다 정확성이 높음을 보여줍니다.
최근 텍스트 음성 합성(TTS) 기술의 발전으로 자연스럽고 표현력 있는 음성이 생성되었지만, 사용자가 감정을 선택하고 강도를 조절할 수 있는 옵션이 부족합니다. 우리는 EmoKnob을 제안합니다. EmoKnob은 임의의 감정을 나타내는 소수의 샘플로 음성 합성에서 섬세한 감정 제어를 가능하게 하는 프레임워크입니다. 우리의 프레임워크는 최근 음성 클로닝 모델의 토대로 가능해진 표현력 있는 화자 표현 공간을 활용합니다. 우리의 감정 제어 프레임워크의 소수샷 능력을 기반으로, 우리는 텍스트로 설명된 감정에 감정 제어를 적용하는 두 가지 방법을 제안하며, 다양한 미묘한 감정을 제어하는 직관적 인터페이스를 가능하게 합니다. 보다 체계적인 감정 음성 합성 분야를 촉진하기 위해, 감정 제어 프레임워크의 충실도와 인식 가능성을 철저히 평가하기 위한 일련의 평가 지표를 소개합니다. 객관적 및 주관적 평가를 통해, 우리의 감정 제어 프레임워크가 감정을 음성에 효과적으로 내재시키고 상업용 TTS 서비스의 감정 표현력을 능가함을 보여줍니다.
최근 Video Large Language Models (Video-LLMs)의 발전은 일반적인 비디오 이해 분야에서 그들의 큰 잠재력을 입증했습니다. 이러한 모델의 중요성을 확인하기 위해 다양한 시나리오에서 그들의 능력을 진단하기 위한 여러 개의 벤치마크가 제안되었습니다. 그러나 기존의 벤치마크는 주로 비디오 수준의 질문-답변을 통해 모델을 평가하며, 세밀한 이벤트 수준의 평가와 작업 다양성이 부족합니다. 이러한 공백을 채우기 위해 우리는 E.T. Bench (이벤트-수준 및 시간-민감 비디오 이해 벤치마크)를 소개합니다. 이는 오픈엔드 이벤트-수준 비디오 이해를 위한 대규모이자 고품질의 벤치마크로, 3단계 작업 분류 체계 내에서 분류되며, 8개 도메인에서 7K 비디오 (총 251.4시간 길이)에 대한 7.3K 샘플을 포함하여 포괄적인 평가를 제공합니다. 우리는 이 벤치마크에서 8개의 Image-LLMs와 12개의 Video-LLMs를 철저히 평가했으며, 결과는 비디오 수준의 이해에 대한 최첨단 모델들이 세밀한 작업, 예를 들어 비디오 내의 관심 이벤트를 지지 않는 등의 과제를 해결하는 데 어려움을 겪는다는 것을 보여줍니다. 이는 주로 짧은 비디오 콘텍스트 길이, 부적절한 시간 표현, 그리고 다중 이벤트 훈련 데이터의 부족 때문입니다. 이러한 문제에 초점을 맞추어 우리는 세련된 베이스라인 모델인 E.T. Chat과 세밀한 이벤트-수준 이해를 위해 맞춤형으로 제작된 지시 튜닝 데이터셋 E.T. Instruct 164K를 제안합니다. 우리의 간단하면서 효과적인 솔루션은 다양한 시나리오에서 우수한 성능을 보여줍니다.
대형 언어 모델은 창의적 생성에서 뛰어나지만 환각과 편향 문제에 여전히 어려움을 겪고 있습니다. 검색 보강 생성(RAG)은 LLMs의 응답을 정확하고 최신 정보에 근거로 하는 프레임워크를 제공하지만, 여전히 편향 문제를 제기합니다: 어떤 소스가 문맥에 포함되어야 하는지? 그리고 그들의 중요성을 어떻게 가중시켜야 하는지? 본 논문에서는 다국어 RAG의 과제를 연구하고 언어, 문화, 정치적 경계가 교차하는 지역에서 발생하는 지리적 분쟁에 대한 쿼리에 대한 기존 시스템의 견고성을 조사하기 위한 데이터셋을 제시합니다. 우리의 데이터셋은 주어진 쿼리에 관련 정보를 포함하는 위키피디아 페이지에서 수집되었으며, 추가적인 문맥의 포함 및 이 문맥의 언어 및 소스 구성이 LLM의 응답에 미치는 영향을 조사합니다. 결과는 기존 RAG 시스템이 다국어 사용 사례에 대해 여전히 도전을 겪고 있으며 여러 언어로 제공되는 경쟁 정보에 대응할 때 일관성 부족으로 인해 고통받고 있음을 보여줍니다. 이 문제를 설명하기 위해 사례 연구를 제시하고, 미래 연구를 위한 단계를 개요로 제시합니다. 데이터셋과 코드는 https://github.com/manestay/bordIRlines에서 공개적으로 제공됩니다.
시각-언어 모델(VLMs)은 시각적 및 텍스트 정보의 맥락적 이해를 위해 중요합니다. 그러나 악의적으로 조작된 입력에 대한 취약성은 심각한 위험을 야기하여 결과물이 손상되고 VLM 통합 애플리케이션의 신뢰성에 대한 우려가 증가시킵니다. 이러한 악의적 프롬프트를 감지하는 것은 VLM 생성물에 대한 신뢰를 유지하는 데 중요합니다. 안전한 프롬프트 분류기를 개발하는 주요 과제 중 하나는 대량의 레이블이 지정된 양성 및 악성 데이터의 부족입니다. 이 문제를 해결하기 위해 우리는 VLMGuard를 소개합니다. 이는 악의적 프롬프트 감지를 위해 야생에서 발생하는 레이블이 지정되지 않은 사용자 프롬프트를 활용하는 새로운 학습 프레임워크입니다. VLM이 오픈 월드에 배포될 때 자연스럽게 발생하는 이러한 레이블이 지정되지 않은 프롬프트는 양성 및 악성 정보로 구성됩니다. 레이블이 지정되지 않은 데이터를 활용하기 위해 우리는 이 레이블이 지정되지 않은 혼합물 내에서 양성과 악성 샘플을 구별하기 위한 자동 악의성 추정 점수를 제시하여 이진 프롬프트 분류기를 훈련할 수 있도록 합니다. 특히, 우리의 프레임워크는 추가 인간 주석이 필요하지 않으며 강력한 유연성과 현실적인 적용 가능성을 제공합니다. 광범위한 실험 결과 VLMGuard가 우수한 감지 결과를 달성하며 최첨단 방법을 크게 능가함을 보여줍니다. 고지: 본 논문에는 노출되기 곤란한 예시가 포함될 수 있습니다. 독자의 신중이 필요합니다.
확산 트랜스포머(Diffusion Transformers, DiTs)는 생성 작업에서 뛰어난 확장성과 탁월한 성능으로 주목받고 있습니다. 그러나 상당한 추론 비용으로 실용적인 배포를 방해합니다. 특징 캐시 메커니즘은 시간 단계를 통해 중복 계산을 저장하고 검색하는 것을 포함하여 확산 모델에서 단계별 추론 시간을 줄이는 데 유망합니다. DiT에 대한 대부분의 기존 캐싱 방법은 수동으로 설계됩니다. 학습 기반 접근 방식은 전략을 적응적으로 최적화하려고 시도하지만 학습과 추론 간의 불일치로 인해 성능과 가속 비율이 어려워집니다. 자세한 분석을 통해 이러한 불일치가 주로 두 가지 측면에서 비롯된다는 것을 확인했습니다: (1) 이전 시간 단계 무시, 즉 학습이 이전 시간 단계에서의 캐시 사용의 영향을 무시하는 부분, 그리고 (2) 목표 불일치, 즉 학습 대상(각 시간 단계에서 예측된 잡음을 조정)이 추론 목표(고품질 이미지 생성)에서 벗어나는 부분입니다. 이러한 불일치를 완화하기 위해 우리는 HarmoniCa를 제안합니다. 이는 새로운 학습 기반 캐싱 프레임워크인 단계별 소음 제거 훈련(SDT)과 이미지 오류 프록시 안내 목표(IEPO)를 기반으로 학습과 추론을 조화롭게 하는 새로운 방법입니다. 기존의 훈련 패러다임과 비교하여 새롭게 제안된 SDT는 소음 제거 과정의 연속성을 유지하여 모델이 훈련 중에 이전 시간 단계에서의 정보를 활용할 수 있도록 하며, 추론 중에 작동하는 방식과 유사합니다. 또한 우리는 IEPO를 설계했는데, 이는 캐시된 특징 재사용으로 인한 최종 이미지 오류를 근사하는 효율적인 프록시 메커니즘을 통합합니다. 따라서 IEPO는 최종 이미지 품질과 캐시 활용을 균형있게 유지하여, 훈련이 각 시간 단계에서 예측된 출력에 대한 캐시 사용의 영향만을 고려하는 문제를 해결합니다.
긴 입력 맥락을 처리하는 것은 특히 모바일 기기와 같은 자원 제한 환경에서 대규모 언어 모델(LLMs)에 대한 중요한 과제입니다. 저희 연구는 이 한계를 해결하기 위해 InfiniPot을 소개함으로써 고정된 메모리 제약 내에서 사전 훈련된 LLMs가 효율적으로 방대한 시퀀스를 관리할 수 있도록 하는 새로운 KV 캐시 제어 프레임워크를 개발하는 것을 목표로 합니다. InfiniPot은 Continual Context Distillation (CCD)을 활용하여 중요성 지표를 통해 핵심 정보를 압축하고 유지하는 반복적인 과정을 통해 핵심 데이터를 효과적으로 유지함으로써 미래 맥락에 대한 액세스 없이도 중요한 데이터를 유지합니다. 저희의 포괄적인 평가 결과는 InfiniPot이 다양한 NLP 작업에서 긴 맥락에 대해 훈련된 모델을 크게 능가함을 보여주며, 이는 InfiniPot의 효과성과 다재다능성을 입증합니다. 이 연구는 LLMs를 보다 다양한 실제 시나리오에 적용 가능하도록 하는 중요한 발전을 나타냅니다.
자율 로봇이 행동을 취하도록 하는 노력에서 작업 계획은 고수준 작업 설명을 장기적인 행동 순서로 변환하는 것을 요구하는 주요 도전 과제입니다. 최근 언어 모델 에이전트의 발전에도 불구하고, 그들은 계획 오류에 취약하며 앞선 계획 능력이 제한되어 있습니다. 로봇 계획의 이러한 한계를 해결하기 위해 우리는 초안 계획을 균형점에 이를 때까지 반복적으로 개선하는 자기 세정 체계를 주장합니다. 놀랍게도, 이 과정은 분석적 관점에서 최적화될 수 있으며 추가 검증자나 보상 모델을 선별할 필요 없이 자기 세정 계획자를 간단한 지도 학습 방식으로 훈련할 수 있게 합니다. 한편, 효율적인 폐쇄 루프 계획을 위해 유용한 환경 피드백(또는 내부 세계 모델)을 통합하는 중첩 균형점 순서 모델링 절차가 고안되었습니다. 우리의 방법은 VirtualHome-Env 벤치마크에서 평가되었으며 추론 계산에 대한 더 나은 확장성을 갖는 성능을 보여줍니다. 코드는 https://github.com/Singularity0104/equilibrium-planner에서 확인할 수 있습니다.
딥러닝 최적화기는 종종 볼록 및 근사 2차 이론의 혼합을 통해 동기부여를 받습니다. 우리는 Adam, Shampoo 및 Prodigy와 같은 세 가지 방법을 선택하고 각 방법을 볼록성 가정 없이 명확하게 1차 방법으로 이해할 수 있다고 주장합니다. 실제로 지수 가중 이동 평균을 끄면, 각 방법은 특정 노름 하에 가파른 하강과 동등합니다. 이 관찰을 일반화하여, 훈련 알고리즘을 위한 새로운 설계 공간을 제시합니다. 네트워크 내에서 텐서의 역할에 따라 다른 연산자 노름을 할당해야 합니다. 예를 들어, 선형 및 임베딩 레이어는 R^{m x n}의 동일한 가중치 공간을 가질 수 있지만, 이러한 레이어는 서로 다른 역할을 하므로 다른 노름이 할당되어야 합니다. 우리는 신경 구조를 신중하게 메트리화하는 이러한 아이디어가 더 안정적이고 확장 가능하며 실제로 더 빠른 훈련으로 이어질 수 있기를 희망합니다.
음향 분리 및 개선 모델의 체계적인 평가는 일반적으로 다양한 시나리오를 포함하는 방대한 데이터를 필요로 합니다. 그러나 현실 세계 데이터셋은 종종 모델의 훈련 및 평가 요구를 충족시키기에는 데이터가 부족합니다. 합성 데이터셋은 더 많은 양의 데이터를 제공하지만, 그들의 음향 시뮬레이션은 현실성이 부족합니다. 결과적으로, 현실 세계나 합성 데이터셋 모두 실제 필요를 충족시키지 못합니다. 이러한 문제를 해결하기 위해 우리는 SonicSim을 소개합니다. 이는 이동하는 소리 원본을 위한 매우 사용자 정의 가능한 데이터를 생성하기 위해 설계된 합성 툴킷입니다. SonicSim은 Habitat-sim 기반의 실체화된 AI 시뮬레이션 플랫폼을 기반으로 개발되었으며, 장면 수준, 마이크로폰 수준 및 소스 수준을 포함한 다중 수준의 조정을 지원하여 더 다양한 합성 데이터를 생성합니다. SonicSim을 활용하여 우리는 Librispeech, Freesound Dataset 50k (FSD50K) 및 Free Music Archive (FMA)에서 나온 90개의 장면을 사용하여 이동하는 소리 원본 벤치마크 데이터셋인 SonicSet을 구축하였습니다. 또한, 합성 데이터와 현실 데이터 간의 차이를 검증하기 위해 SonicSet 검증 세트에서 반향이 없는 원시 데이터 5시간을 무작위로 선택하여 현실 세계 음향 분리 데이터셋을 녹음하였으며, 해당 데이터셋을 해당하는 합성 데이터셋과 비교하였습니다. 마찬가지로, 우리는 실제 세계 음향 개선 데이터셋 RealMAN을 활용하여 다른 합성 데이터셋과 음향적 차이를 SonicSet 데이터셋을 위해 검증하였습니다. 결과는 SonicSim에 의해 생성된 합성 데이터가 실제 세계 시나리오에 효과적으로 일반화될 수 있음을 나타냅니다. 데모 및 코드는 https://cslikai.cn/SonicSim/에서 공개적으로 이용 가능합니다.