번역이 포함된 일일 선별된 AI 연구 논문
언어 모델은 다양한 소프트웨어 애플리케이션, 특히 자동화된 워크플로우와 관련된 작업에서 효과성을 입증해 왔습니다. 이러한 모델은 AI 에이전트를 생성하는 데 필수적인 함수 호출 능력을 갖추고 있습니다. 대규모 언어 모델이 클라우드 환경에서 높은 성능을 보이지만, 프라이버시와 비용에 대한 우려가 종종 제기됩니다. 현재 온디바이스 모델의 함수 호출은 지연 시간과 정확도 문제에 직면해 있습니다. 본 연구는 20억 개의 파라미터를 가진 온디바이스 모델이 GPT-4를 정확도와 지연 시간 모두에서 능가하고, 컨텍스트 길이를 95% 감소시키는 새로운 방법을 제시합니다. RAG 기반 함수 호출 메커니즘을 사용한 Llama-7B와 비교했을 때, 이 방법은 지연 시간을 35배 향상시킵니다. 이 방법은 다양한 엣지 디바이스에서 실제 환경에 배포하기에 적합한 수준으로 지연 시간을 줄여, 실시간 애플리케이션의 성능 요구 사항에 부합합니다.
우리는 추론에 최적화된 대규모 언어 모델(LLM) 제품군인 Eurus를 소개합니다. Mistral-7B와 CodeLlama-70B를 미세 조정한 Eurus 모델은 수학, 코드 생성, 논리적 추론 문제를 아우르는 다양한 벤치마크에서 오픈소스 모델 중 최고의 성능을 달성했습니다. 특히, Eurus-70B는 5가지 작업을 포괄하는 12개 테스트를 통해 GPT-3.5 Turbo를 추론 능력에서 능가하며, LeetCode에서 33.3%의 pass@1 정확도와 TheoremQA에서 32.6%의 정확도를 기록했습니다. 이는 기존 오픈소스 모델을 13.3% 이상 크게 앞서는 성과입니다. Eurus의 강력한 성능은 주로 복잡한 추론 작업을 위해 특별히 설계된 대규모 고품질 정렬 데이터셋인 UltraInteract 덕분입니다. UltraInteract는 지도 학습 미세 조정과 선호 학습 모두에 사용될 수 있습니다. 각 지시문에 대해, (1) 다양한 전략을 포함한 추론 체인을 통일된 형식으로 제공하고, (2) 환경과 비판을 포함한 다중 턴 상호작용 트레이젝토리를 포함하며, (3) 선호 학습을 촉진하기 위한 쌍별 데이터로 구성된 선호 트리를 포함합니다. UltraInteract를 통해 우리는 추론 작업을 위한 선호 학습에 대한 심층적인 탐구를 수행할 수 있었습니다. 우리의 연구 결과, 일반 대화에서 효과적이었던 일부 선호 학습 알고리즘이 추론 작업에는 덜 적합할 수 있음을 발견했습니다. 이를 바탕으로, 우리는 새로운 보상 모델링 목표를 도출했으며, 이는 UltraInteract와 결합되어 강력한 보상 모델을 이끌어냈습니다.
대형 언어 모델(LLMs)은 32K 토큰을 초과하는 긴 시퀀스를 처리하는 데 있어 상당한 진전을 이루었습니다. 그러나 이들의 성능 평가는 주로 perplexity와 합성 작업과 같은 지표에 국한되어 있어, 더 세밀하고 실제적인 시나리오에서의 능력을 충분히 반영하지 못할 수 있습니다. 본 연구는 극단적인 라벨 분류 영역에서의 장기 문맥 학습에 초점을 맞춘 특화된 벤치마크(LIConBench)를 소개합니다. 우리는 28개에서 174개에 이르는 라벨 범위를 가지며, 2K에서 50K까지 다양한 입력(소수 샷 데모) 길이를 포함하는 6개의 데이터셋을 신중하게 선정했습니다. 우리의 벤치마크는 LLMs가 방대한 라벨 공간을 인식하고 올바른 예측을 하기 위해 전체 입력을 이해할 것을 요구합니다. 우리는 13개의 장기 문맥 LLMs를 이 벤치마크에서 평가했습니다. 그 결과, 20K 토큰 길이 이하에서는 장기 문맥 LLMs가 비교적 잘 수행되며, 긴 문맥 창을 활용함으로써 성능이 향상되는 것을 확인했습니다. 그러나 문맥 창이 20K를 초과하면 GPT-4를 제외한 대부분의 LLMs의 성능이 급격히 하락합니다. 이는 현재 LLMs가 길고 문맥이 풍부한 시퀀스를 처리하고 이해하는 데 있어 상당한 격차가 있음을 시사합니다. 추가 분석 결과, 모델들이 시퀀스의 끝 부분에 제시된 라벨에 대한 예측을 선호하는 경향이 있음이 밝혀졌습니다. 이들은 긴 시퀀스 내 여러 부분에 대해 추론하는 능력이 아직 개선될 필요가 있습니다. 우리의 연구는 장기 문맥 이해와 추론이 기존 LLMs에게 여전히 어려운 과제임을 보여줍니다. 우리는 LIConBench가 향후 장기 문맥 LLMs에 대한 더 현실적인 평가 도구로 활용될 수 있을 것이라 믿습니다.
최근 출시된 Gemma 대규모 언어 모델(LLM) 패밀리와 인기 있는 LLaVA 프레임워크를 사용하여 다중 모달 기반 모델(MMFM) 세트를 학습시켰습니다. 특히 20억 파라미터 규모의 Gemma 모델은 소규모 MMFM을 구축할 수 있는 가능성을 제공합니다. 이 분야의 다른 연구 결과와 일치하게, 세 가지 설계 요소를 제거했을 때의 영향을 테스트했습니다: 커넥터 사전 학습, 더 강력한 이미지 백본 활용, 언어 백본 크기 증가 등이 그것입니다. 이를 통해 개발한 LLaVA-Gemma 모델은 다양한 평가에서 중간 수준의 성능을 보였으나, 현재 동급 규모의 최첨단(SOTA) 모델을 능가하지는 못했습니다. 성능에 대한 심층 분석 결과, 사전 학습을 생략하면 성능이 저하되는 경향이 있었고, 더 큰 비전 모델은 경우에 따라 성능을 향상시켰으며, 언어 모델 크기를 늘리는 것은 일관되지 않은 효과를 보였습니다. LLaVA-Gemma 모델의 학습 레시피, 코드 및 가중치를 공개적으로 배포합니다.
제어 가능성은 사용자가 원하는 콘텐츠를 생성할 수 있도록 해준다는 점에서 비디오 생성에서 중요한 역할을 합니다. 그러나 기존 모델들은 더 깊은 내러티브 뉘앙스를 표현하는 시네마틱 언어로서의 카메라 포즈를 정밀하게 제어하는 데 크게 소홀히 해왔습니다. 이 문제를 해결하기 위해, 우리는 텍스트-투-비디오(T2V) 모델을 위한 정확한 카메라 포즈 제어를 가능하게 하는 CameraCtrl을 소개합니다. 카메라 궤적을 정밀하게 매개변수화한 후, 플러그 앤 플레이 방식의 카메라 모듈을 T2V 모델에 학습시켜 다른 부분은 그대로 유지합니다. 또한, 다양한 데이터셋의 효과에 대한 포괄적인 연구를 수행하여, 다양한 카메라 분포와 유사한 외관을 가진 비디오가 실제로 제어 가능성과 일반화를 향상시킨다는 것을 보여줍니다. 실험 결과는 CameraCtrl이 정밀하고 도메인 적응적인 카메라 제어를 달성하는 데 효과적임을 입증하며, 텍스트와 카메라 포즈 입력으로부터 동적이고 맞춤화된 비디오 스토리텔링을 추구하는 데 한 걸음 더 나아갔음을 보여줍니다. 우리의 프로젝트 웹사이트는 https://hehao13.github.io/projects-CameraCtrl/에서 확인할 수 있습니다.
한국어와 한국 문화에 특화된 동시에 영어, 수학, 코딩 분야에서도 경쟁력 있는 성능을 갖춘 대규모 언어 모델(LLM) 패밀리인 HyperCLOVA X를 소개합니다. HyperCLOVA X는 한국어, 영어, 코드 데이터의 균형 잡힌 조합으로 학습되었으며, 책임 있는 AI에 대한 우리의 약속을 반영한 엄격한 안전 가이드라인을 준수하면서 고품질의 인간 주석 데이터셋으로 지시 튜닝을 거쳤습니다. 이 모델은 한국어와 영어 모두에서 포괄적인 추론, 지식, 상식, 사실성, 코딩, 수학, 채팅, 지시 따르기, 무해성 등 다양한 벤치마크를 통해 평가되었습니다. HyperCLOVA X는 한국어에 대한 깊은 이해와 문화적 뉘앙스를 바탕으로 강력한 추론 능력을 보여줍니다. 또한 모델의 내재적 이중 언어 특성과 이를 다국어로 확장한 분석을 통해 여러 언어 쌍 간의 기계 번역 및 교차 언어 추론 작업을 포함하여 대상 언어가 아닌 언어들에 대한 강력한 일반화 능력과 교차 언어 능력을 강조합니다. 우리는 HyperCLOVA X가 지역이나 국가가 자체 주권 LLM을 개발하는 데 유용한 지침을 제공할 수 있다고 믿습니다.
우리는 샘플링 효율성에 중점을 두고 잠재 확산 모델(LDMs)의 스케일링 특성을 연구한다. 개선된 네트워크 아키텍처와 추론 알고리즘이 확산 모델의 샘플링 효율성을 효과적으로 향상시킬 수 있음이 입증되었지만, 샘플링 효율성의 중요한 결정 요인인 모델 크기의 역할은 철저히 검토되지 않았다. 기존의 텍스트-이미지 확산 모델에 대한 실증적 분석을 통해, 우리는 다양한 샘플링 단계에서 모델 크기가 샘플링 효율성에 미치는 영향을 심층적으로 조사한다. 우리의 연구 결과는 놀라운 경향을 드러낸다: 주어진 추론 예산 내에서 작동할 때, 더 작은 모델들이 더 큰 모델들보다 고품질 결과를 생성하는 데 더 자주 우수한 성능을 보인다. 더 나아가, 우리는 다양한 확산 샘플러를 적용하고, 다양한 다운스트림 작업을 탐구하며, 사후 증류된 모델을 평가하고, 훈련 계산량 대비 성능을 비교함으로써 이러한 발견의 일반화 가능성을 입증한다. 이러한 발견들은 제한된 추론 예산 내에서 생성 능력을 향상시키기 위해 활용될 수 있는 LDM 스케일링 전략 개발을 위한 새로운 경로를 열어준다.
대규모 언어 모델(LLMs)은 인간 언어를 처리하고 명시적으로 훈련받지 않은 작업을 수행할 수 있는 능력으로 인해 폭넓은 관심을 받고 있습니다. 이는 텍스트 형태로 자주 존재하는 소규모이고 다양한 데이터셋의 문제에 직면한 화학 과학 분야와 관련이 있습니다. LLMs는 이러한 문제를 해결하는 데 유망한 가능성을 보여주었으며, 화학적 특성을 예측하고, 반응을 최적화하며, 심지어 실험을 자율적으로 설계하고 수행하는 데 점점 더 활용되고 있습니다. 그러나 우리는 여전히 LLMs의 화학적 추론 능력에 대한 체계적인 이해가 매우 제한적이며, 이는 모델을 개선하고 잠재적인 위험을 완화하기 위해 필요한 부분입니다. 여기서 우리는 최신 LLMs의 화학 지식과 추론 능력을 인간 화학자의 전문성과 엄격하게 비교 평가하기 위해 설계된 자동화된 프레임워크인 "ChemBench"를 소개합니다. 우리는 화학 과학의 다양한 하위 분야에 대해 7,000개 이상의 질문-답변 쌍을 선별하고, 주요 오픈소스 및 클로즈드소스 LLMs를 평가한 결과, 최고의 모델들이 평균적으로 우리 연구에서 최고의 인간 화학자들을 능가하는 것으로 나타났습니다. 그러나 이 모델들은 인간 전문가들에게는 쉬운 일부 화학적 추론 작업에서 어려움을 겪으며, 화학 물질의 안전성 프로필과 관련된 과도하게 확신에 찬 오해의 소지가 있는 예측을 제공합니다. 이러한 발견들은 LLMs가 화학 작업에서 놀라운 숙련도를 보여주지만, 화학 과학에서의 안전성과 유용성을 향상시키기 위한 추가 연구가 중요하다는 이중적인 현실을 강조합니다. 우리의 연구 결과는 또한 화학 교육과정의 적응 필요성을 나타내며, 안전하고 유용한 LLMs를 개선하기 위한 평가 프레임워크의 지속적인 개발의 중요성을 강조합니다.
최첨단 대규모 언어 모델의 사전 학습에는 이제 수조 단위의 텍스트가 필요하며, 이는 대다수 언어에서 사용 가능한 데이터보다 몇 차례 더 많은 양입니다. 여러 언어의 텍스트를 포함하는 것은 더 많은 사전 학습 데이터를 확보하는 명백한 방법이지만, 다국어성은 종종 저주로 여겨지며, 대부분의 모델 학습 노력은 여전히 개별 대형 언어에 거의 전적으로 집중하고 있습니다. 우리는 다국어성이 축복이 될 수 있으며, 다국어 학습을 통해 소규모 언어에 대한 단일 언어 모델의 능력을 크게 향상시킬 수 있어야 한다고 믿습니다. 본 연구에서는 핀란드어, 영어 및 프로그래밍 언어로 1조 토큰을 학습한 340억 개의 파라미터를 가진 Poro 34B 모델을 소개하고, 다국어 학습 접근 방식이 핀란드어에 대한 기존 모델의 능력을 크게 앞서는 것은 물론 번역에서도 뛰어나며, 영어 및 프로그래밍 언어 생성에서도 해당 클래스에서 경쟁력 있는 모델을 생산할 수 있음을 입증합니다. 우리는 모델 파라미터, 스크립트 및 데이터를 오픈 라이선스로 https://huggingface.co/LumiOpen/Poro-34B에서 공개합니다.
우리는 의미적으로 유사한 객체를 담은 2D 이미지들에 대한 3D 인식 정렬이라는 새로운 문제인 3D Congealing을 제안한다. 레이블이 없는 인터넷 이미지 컬렉션이 주어졌을 때, 우리의 목표는 입력 이미지들에서 공유된 의미적 부분을 연결하고 2D 이미지들의 지식을 공유된 3D 표준 공간으로 통합하는 것이다. 우리는 형상 템플릿, 포즈, 또는 어떠한 카메라 파라미터도 가정하지 않고 이 작업을 해결하는 일반적인 프레임워크를 소개한다. 이 프레임워크의 핵심은 기하학적 및 의미적 정보를 포함하는 표준 3D 표현이다. 이 프레임워크는 각 입력 이미지에 대한 포즈와 함께 표준 표현을 최적화하며, 형상 매칭을 위해 2D 픽셀 좌표를 3D 표준 프레임으로 변형하는 이미지별 좌표 맵을 사용한다. 최적화 절차는 사전 훈련된 이미지 생성 모델로부터의 사전 지식과 입력 이미지들로부터의 의미적 정보를 융합한다. 전자는 이 제약이 적은 작업에 대한 강력한 지식 지침을 제공하고, 후자는 사전 훈련된 모델의 훈련 데이터 편향을 완화하기 위한 필수 정보를 제공한다. 우리의 프레임워크는 대응점 매칭, 포즈 추정, 이미지 편집과 같은 다양한 작업에 사용될 수 있으며, 어려운 조명 조건에서의 실제 이미지 데이터셋과 온라인 이미지 컬렉션에서 강력한 결과를 달성한다.
우리는 다양한 네트워크 특성에 맞춰 적응형 비트레이트(ABR) 알고리즘을 자율적으로 설계하기 위해 대규모 언어 모델(LLM)의 생성 능력을 활용한 최초의 시스템인 LLM-ABR을 소개한다. 강화 학습 프레임워크 내에서 작동하는 LLM-ABR은 LLM이 상태 및 신경망 아키텍처와 같은 핵심 구성 요소를 설계할 수 있도록 지원한다. 우리는 LLM-ABR을 광대역, 위성, 4G, 5G를 포함한 다양한 네트워크 환경에서 평가했다. LLM-ABR은 기본 ABR 알고리즘들을 지속적으로 능가하는 성능을 보여준다.