AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Octopus v2: 슈퍼 에이전트를 위한 온디바이스 언어 모델
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

언어 모델은 다양한 소프트웨어 애플리케이션, 특히 자동화된 워크플로우와 관련된 작업에서 효과성을 입증해 왔습니다. 이러한 모델은 AI 에이전트를 생성하는 데 필수적인 함수 호출 능력을 갖추고 있습니다. 대규모 언어 모델이 클라우드 환경에서 높은 성능을 보이지만, 프라이버시와 비용에 대한 우려가 종종 제기됩니다. 현재 온디바이스 모델의 함수 호출은 지연 시간과 정확도 문제에 직면해 있습니다. 본 연구는 20억 개의 파라미터를 가진 온디바이스 모델이 GPT-4를 정확도와 지연 시간 모두에서 능가하고, 컨텍스트 길이를 95% 감소시키는 새로운 방법을 제시합니다. RAG 기반 함수 호출 메커니즘을 사용한 Llama-7B와 비교했을 때, 이 방법은 지연 시간을 35배 향상시킵니다. 이 방법은 다양한 엣지 디바이스에서 실제 환경에 배포하기에 적합한 수준으로 지연 시간을 줄여, 실시간 애플리케이션의 성능 요구 사항에 부합합니다.

선호 트리를 활용한 LLM 추론 일반화 능력 향상
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

우리는 추론에 최적화된 대규모 언어 모델(LLM) 제품군인 Eurus를 소개합니다. Mistral-7B와 CodeLlama-70B를 미세 조정한 Eurus 모델은 수학, 코드 생성, 논리적 추론 문제를 아우르는 다양한 벤치마크에서 오픈소스 모델 중 최고의 성능을 달성했습니다. 특히, Eurus-70B는 5가지 작업을 포괄하는 12개 테스트를 통해 GPT-3.5 Turbo를 추론 능력에서 능가하며, LeetCode에서 33.3%의 pass@1 정확도와 TheoremQA에서 32.6%의 정확도를 기록했습니다. 이는 기존 오픈소스 모델을 13.3% 이상 크게 앞서는 성과입니다. Eurus의 강력한 성능은 주로 복잡한 추론 작업을 위해 특별히 설계된 대규모 고품질 정렬 데이터셋인 UltraInteract 덕분입니다. UltraInteract는 지도 학습 미세 조정과 선호 학습 모두에 사용될 수 있습니다. 각 지시문에 대해, (1) 다양한 전략을 포함한 추론 체인을 통일된 형식으로 제공하고, (2) 환경과 비판을 포함한 다중 턴 상호작용 트레이젝토리를 포함하며, (3) 선호 학습을 촉진하기 위한 쌍별 데이터로 구성된 선호 트리를 포함합니다. UltraInteract를 통해 우리는 추론 작업을 위한 선호 학습에 대한 심층적인 탐구를 수행할 수 있었습니다. 우리의 연구 결과, 일반 대화에서 효과적이었던 일부 선호 학습 알고리즘이 추론 작업에는 덜 적합할 수 있음을 발견했습니다. 이를 바탕으로, 우리는 새로운 보상 모델링 목표를 도출했으며, 이는 UltraInteract와 결합되어 강력한 보상 모델을 이끌어냈습니다.

긴 문맥을 처리하는 LLM은 긴 문맥 내 학습에 어려움을 겪는다
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

대형 언어 모델(LLMs)은 32K 토큰을 초과하는 긴 시퀀스를 처리하는 데 있어 상당한 진전을 이루었습니다. 그러나 이들의 성능 평가는 주로 perplexity와 합성 작업과 같은 지표에 국한되어 있어, 더 세밀하고 실제적인 시나리오에서의 능력을 충분히 반영하지 못할 수 있습니다. 본 연구는 극단적인 라벨 분류 영역에서의 장기 문맥 학습에 초점을 맞춘 특화된 벤치마크(LIConBench)를 소개합니다. 우리는 28개에서 174개에 이르는 라벨 범위를 가지며, 2K에서 50K까지 다양한 입력(소수 샷 데모) 길이를 포함하는 6개의 데이터셋을 신중하게 선정했습니다. 우리의 벤치마크는 LLMs가 방대한 라벨 공간을 인식하고 올바른 예측을 하기 위해 전체 입력을 이해할 것을 요구합니다. 우리는 13개의 장기 문맥 LLMs를 이 벤치마크에서 평가했습니다. 그 결과, 20K 토큰 길이 이하에서는 장기 문맥 LLMs가 비교적 잘 수행되며, 긴 문맥 창을 활용함으로써 성능이 향상되는 것을 확인했습니다. 그러나 문맥 창이 20K를 초과하면 GPT-4를 제외한 대부분의 LLMs의 성능이 급격히 하락합니다. 이는 현재 LLMs가 길고 문맥이 풍부한 시퀀스를 처리하고 이해하는 데 있어 상당한 격차가 있음을 시사합니다. 추가 분석 결과, 모델들이 시퀀스의 끝 부분에 제시된 라벨에 대한 예측을 선호하는 경향이 있음이 밝혀졌습니다. 이들은 긴 시퀀스 내 여러 부분에 대해 추론하는 능력이 아직 개선될 필요가 있습니다. 우리의 연구는 장기 문맥 이해와 추론이 기존 LLMs에게 여전히 어려운 과제임을 보여줍니다. 우리는 LIConBench가 향후 장기 문맥 LLMs에 대한 더 현실적인 평가 도구로 활용될 수 있을 것이라 믿습니다.

LLaVA-Gemma: 컴팩트 언어 모델을 활용한 멀티모달 파운데이션 모델 가속화
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

최근 출시된 Gemma 대규모 언어 모델(LLM) 패밀리와 인기 있는 LLaVA 프레임워크를 사용하여 다중 모달 기반 모델(MMFM) 세트를 학습시켰습니다. 특히 20억 파라미터 규모의 Gemma 모델은 소규모 MMFM을 구축할 수 있는 가능성을 제공합니다. 이 분야의 다른 연구 결과와 일치하게, 세 가지 설계 요소를 제거했을 때의 영향을 테스트했습니다: 커넥터 사전 학습, 더 강력한 이미지 백본 활용, 언어 백본 크기 증가 등이 그것입니다. 이를 통해 개발한 LLaVA-Gemma 모델은 다양한 평가에서 중간 수준의 성능을 보였으나, 현재 동급 규모의 최첨단(SOTA) 모델을 능가하지는 못했습니다. 성능에 대한 심층 분석 결과, 사전 학습을 생략하면 성능이 저하되는 경향이 있었고, 더 큰 비전 모델은 경우에 따라 성능을 향상시켰으며, 언어 모델 크기를 늘리는 것은 일관되지 않은 효과를 보였습니다. LLaVA-Gemma 모델의 학습 레시피, 코드 및 가중치를 공개적으로 배포합니다.

HyperCLOVA X 기술 보고서
HyperCLOVA X Technical Report

Apr 2

ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung

한국어와 한국 문화에 특화된 동시에 영어, 수학, 코딩 분야에서도 경쟁력 있는 성능을 갖춘 대규모 언어 모델(LLM) 패밀리인 HyperCLOVA X를 소개합니다. HyperCLOVA X는 한국어, 영어, 코드 데이터의 균형 잡힌 조합으로 학습되었으며, 책임 있는 AI에 대한 우리의 약속을 반영한 엄격한 안전 가이드라인을 준수하면서 고품질의 인간 주석 데이터셋으로 지시 튜닝을 거쳤습니다. 이 모델은 한국어와 영어 모두에서 포괄적인 추론, 지식, 상식, 사실성, 코딩, 수학, 채팅, 지시 따르기, 무해성 등 다양한 벤치마크를 통해 평가되었습니다. HyperCLOVA X는 한국어에 대한 깊은 이해와 문화적 뉘앙스를 바탕으로 강력한 추론 능력을 보여줍니다. 또한 모델의 내재적 이중 언어 특성과 이를 다국어로 확장한 분석을 통해 여러 언어 쌍 간의 기계 번역 및 교차 언어 추론 작업을 포함하여 대상 언어가 아닌 언어들에 대한 강력한 일반화 능력과 교차 언어 능력을 강조합니다. 우리는 HyperCLOVA X가 지역이나 국가가 자체 주권 LLM을 개발하는 데 유용한 지침을 제공할 수 있다고 믿습니다.

CameraCtrl: 텍스트-비디오 생성을 위한 카메라 제어 기능 활성화
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

제어 가능성은 사용자가 원하는 콘텐츠를 생성할 수 있도록 해준다는 점에서 비디오 생성에서 중요한 역할을 합니다. 그러나 기존 모델들은 더 깊은 내러티브 뉘앙스를 표현하는 시네마틱 언어로서의 카메라 포즈를 정밀하게 제어하는 데 크게 소홀히 해왔습니다. 이 문제를 해결하기 위해, 우리는 텍스트-투-비디오(T2V) 모델을 위한 정확한 카메라 포즈 제어를 가능하게 하는 CameraCtrl을 소개합니다. 카메라 궤적을 정밀하게 매개변수화한 후, 플러그 앤 플레이 방식의 카메라 모듈을 T2V 모델에 학습시켜 다른 부분은 그대로 유지합니다. 또한, 다양한 데이터셋의 효과에 대한 포괄적인 연구를 수행하여, 다양한 카메라 분포와 유사한 외관을 가진 비디오가 실제로 제어 가능성과 일반화를 향상시킨다는 것을 보여줍니다. 실험 결과는 CameraCtrl이 정밀하고 도메인 적응적인 카메라 제어를 달성하는 데 효과적임을 입증하며, 텍스트와 카메라 포즈 입력으로부터 동적이고 맞춤화된 비디오 스토리텔링을 추구하는 데 한 걸음 더 나아갔음을 보여줍니다. 우리의 프로젝트 웹사이트는 https://hehao13.github.io/projects-CameraCtrl/에서 확인할 수 있습니다.

크기가 항상 더 나은 것은 아니다: 잠재 확산 모델의 스케일링 특성
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

우리는 샘플링 효율성에 중점을 두고 잠재 확산 모델(LDMs)의 스케일링 특성을 연구한다. 개선된 네트워크 아키텍처와 추론 알고리즘이 확산 모델의 샘플링 효율성을 효과적으로 향상시킬 수 있음이 입증되었지만, 샘플링 효율성의 중요한 결정 요인인 모델 크기의 역할은 철저히 검토되지 않았다. 기존의 텍스트-이미지 확산 모델에 대한 실증적 분석을 통해, 우리는 다양한 샘플링 단계에서 모델 크기가 샘플링 효율성에 미치는 영향을 심층적으로 조사한다. 우리의 연구 결과는 놀라운 경향을 드러낸다: 주어진 추론 예산 내에서 작동할 때, 더 작은 모델들이 더 큰 모델들보다 고품질 결과를 생성하는 데 더 자주 우수한 성능을 보인다. 더 나아가, 우리는 다양한 확산 샘플러를 적용하고, 다양한 다운스트림 작업을 탐구하며, 사후 증류된 모델을 평가하고, 훈련 계산량 대비 성능을 비교함으로써 이러한 발견의 일반화 가능성을 입증한다. 이러한 발견들은 제한된 추론 예산 내에서 생성 능력을 향상시키기 위해 활용될 수 있는 LDM 스케일링 전략 개발을 위한 새로운 경로를 열어준다.

대형 언어 모델은 초인간적인 화학자인가?
Are large language models superhuman chemists?

Apr 1

ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka

대규모 언어 모델(LLMs)은 인간 언어를 처리하고 명시적으로 훈련받지 않은 작업을 수행할 수 있는 능력으로 인해 폭넓은 관심을 받고 있습니다. 이는 텍스트 형태로 자주 존재하는 소규모이고 다양한 데이터셋의 문제에 직면한 화학 과학 분야와 관련이 있습니다. LLMs는 이러한 문제를 해결하는 데 유망한 가능성을 보여주었으며, 화학적 특성을 예측하고, 반응을 최적화하며, 심지어 실험을 자율적으로 설계하고 수행하는 데 점점 더 활용되고 있습니다. 그러나 우리는 여전히 LLMs의 화학적 추론 능력에 대한 체계적인 이해가 매우 제한적이며, 이는 모델을 개선하고 잠재적인 위험을 완화하기 위해 필요한 부분입니다. 여기서 우리는 최신 LLMs의 화학 지식과 추론 능력을 인간 화학자의 전문성과 엄격하게 비교 평가하기 위해 설계된 자동화된 프레임워크인 "ChemBench"를 소개합니다. 우리는 화학 과학의 다양한 하위 분야에 대해 7,000개 이상의 질문-답변 쌍을 선별하고, 주요 오픈소스 및 클로즈드소스 LLMs를 평가한 결과, 최고의 모델들이 평균적으로 우리 연구에서 최고의 인간 화학자들을 능가하는 것으로 나타났습니다. 그러나 이 모델들은 인간 전문가들에게는 쉬운 일부 화학적 추론 작업에서 어려움을 겪으며, 화학 물질의 안전성 프로필과 관련된 과도하게 확신에 찬 오해의 소지가 있는 예측을 제공합니다. 이러한 발견들은 LLMs가 화학 작업에서 놀라운 숙련도를 보여주지만, 화학 과학에서의 안전성과 유용성을 향상시키기 위한 추가 연구가 중요하다는 이중적인 현실을 강조합니다. 우리의 연구 결과는 또한 화학 교육과정의 적응 필요성을 나타내며, 안전하고 유용한 LLMs를 개선하기 위한 평가 프레임워크의 지속적인 개발의 중요성을 강조합니다.

포로 34B와 다국어성의 축복
Poro 34B and the Blessing of Multilinguality

Apr 2

ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo

최첨단 대규모 언어 모델의 사전 학습에는 이제 수조 단위의 텍스트가 필요하며, 이는 대다수 언어에서 사용 가능한 데이터보다 몇 차례 더 많은 양입니다. 여러 언어의 텍스트를 포함하는 것은 더 많은 사전 학습 데이터를 확보하는 명백한 방법이지만, 다국어성은 종종 저주로 여겨지며, 대부분의 모델 학습 노력은 여전히 개별 대형 언어에 거의 전적으로 집중하고 있습니다. 우리는 다국어성이 축복이 될 수 있으며, 다국어 학습을 통해 소규모 언어에 대한 단일 언어 모델의 능력을 크게 향상시킬 수 있어야 한다고 믿습니다. 본 연구에서는 핀란드어, 영어 및 프로그래밍 언어로 1조 토큰을 학습한 340억 개의 파라미터를 가진 Poro 34B 모델을 소개하고, 다국어 학습 접근 방식이 핀란드어에 대한 기존 모델의 능력을 크게 앞서는 것은 물론 번역에서도 뛰어나며, 영어 및 프로그래밍 언어 생성에서도 해당 클래스에서 경쟁력 있는 모델을 생산할 수 있음을 입증합니다. 우리는 모델 파라미터, 스크립트 및 데이터를 오픈 라이선스로 https://huggingface.co/LumiOpen/Poro-34B에서 공개합니다.

3D Congealing: 야생 환경에서의 3D 인식 이미지 정렬
3D Congealing: 3D-Aware Image Alignment in the Wild

Apr 2

ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani

우리는 의미적으로 유사한 객체를 담은 2D 이미지들에 대한 3D 인식 정렬이라는 새로운 문제인 3D Congealing을 제안한다. 레이블이 없는 인터넷 이미지 컬렉션이 주어졌을 때, 우리의 목표는 입력 이미지들에서 공유된 의미적 부분을 연결하고 2D 이미지들의 지식을 공유된 3D 표준 공간으로 통합하는 것이다. 우리는 형상 템플릿, 포즈, 또는 어떠한 카메라 파라미터도 가정하지 않고 이 작업을 해결하는 일반적인 프레임워크를 소개한다. 이 프레임워크의 핵심은 기하학적 및 의미적 정보를 포함하는 표준 3D 표현이다. 이 프레임워크는 각 입력 이미지에 대한 포즈와 함께 표준 표현을 최적화하며, 형상 매칭을 위해 2D 픽셀 좌표를 3D 표준 프레임으로 변형하는 이미지별 좌표 맵을 사용한다. 최적화 절차는 사전 훈련된 이미지 생성 모델로부터의 사전 지식과 입력 이미지들로부터의 의미적 정보를 융합한다. 전자는 이 제약이 적은 작업에 대한 강력한 지식 지침을 제공하고, 후자는 사전 훈련된 모델의 훈련 데이터 편향을 완화하기 위한 필수 정보를 제공한다. 우리의 프레임워크는 대응점 매칭, 포즈 추정, 이미지 편집과 같은 다양한 작업에 사용될 수 있으며, 어려운 조명 조건에서의 실제 이미지 데이터셋과 온라인 이미지 컬렉션에서 강력한 결과를 달성한다.

LLM-ABR: 대규모 언어 모델을 통한 적응형 비트레이트 알고리즘 설계
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang

우리는 다양한 네트워크 특성에 맞춰 적응형 비트레이트(ABR) 알고리즘을 자율적으로 설계하기 위해 대규모 언어 모델(LLM)의 생성 능력을 활용한 최초의 시스템인 LLM-ABR을 소개한다. 강화 학습 프레임워크 내에서 작동하는 LLM-ABR은 LLM이 상태 및 신경망 아키텍처와 같은 핵심 구성 요소를 설계할 수 있도록 지원한다. 우리는 LLM-ABR을 광대역, 위성, 4G, 5G를 포함한 다양한 네트워크 환경에서 평가했다. LLM-ABR은 기본 ABR 알고리즘들을 지속적으로 능가하는 성능을 보여준다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Octopus v2: 슈퍼 에이전트를 위한 온디바이스 언어 모델
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

선호 트리를 활용한 LLM 추론 일반화 능력 향상
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

긴 문맥을 처리하는 LLM은 긴 문맥 내 학습에 어려움을 겪는다
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

LLaVA-Gemma: 컴팩트 언어 모델을 활용한 멀티모달 파운데이션 모델 가속화
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal