Языковые модели показали свою эффективность в различных программных приложениях, особенно в задачах, связанных с автоматизацией рабочего процесса. Эти модели обладают важной способностью вызывать функции, что необходимо для создания искусственного интеллекта. Несмотря на высокую производительность крупномасштабных языковых моделей в облачных средах, они часто ассоциируются с опасениями по поводу конфиденциальности и затрат. Текущие модели для вызова функций на устройстве сталкиваются с проблемами задержки и точности. Наше исследование представляет новый метод, который позволяет устройственной модели с 2 миллиардами параметров превзойти производительность GPT-4 как по точности, так и по задержке, и сократить длину контекста на 95\%. По сравнению с Llama-7B с механизмом вызова функций на основе RAG, наш метод увеличивает задержку в 35 раз. Этот метод снижает задержку до уровней, считающихся приемлемыми для развертывания на различных устройствах на краю в производственных средах, соответствуя требованиям производительности для прикладных приложений в реальном мире.
ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun
46
2
Мы представляем Eurus, набор больших языковых моделей (LLM), оптимизированных для рассуждений. Получившие доработку из Mistral-7B и CodeLlama-70B, модели Eurus достигают передовых результатов среди моделей с открытым исходным кодом на разнообразном наборе тестов, охватывающих математику, генерацию кода и логические задачи рассуждений. Следует отметить, что Eurus-70B превосходит GPT-3.5 Turbo в рассуждениях через всестороннюю бенчмаркинговую оценку на 12 тестах, охватывающих пять задач, и достигает точности pass@1 на уровне 33,3% на LeetCode и 32,6% на TheoremQA, двух сложных бенчмарках, значительно превосходя существующие модели с открытым исходным кодом более чем на 13,3%. Высокую производительность Eurus можно в первую очередь отнести к UltraInteract, нашему вновь составленному крупномасштабному, высококачественному набору данных для сложных задач рассуждений. UltraInteract можно использовать как для надзорного дообучения, так и для обучения предпочтениям. Для каждой инструкции он включает дерево предпочтений, состоящее из (1) цепочек рассуждений с различными стратегиями планирования в унифицированном формате, (2) траекторий многоходового взаимодействия с окружающей средой и критикой, и (3) попарных данных для облегчения обучения предпочтениям. UltraInteract позволяет нам провести глубокое исследование обучения предпочтениям для задач рассуждений. Наше исследование показывает, что некоторые хорошо установленные алгоритмы обучения предпочтениям могут быть менее подходящими для задач рассуждений по сравнению с их эффективностью в общих разговорах. Вдохновленные этим, мы вывели новую цель моделирования вознаграждения, которая, вместе с UltraInteract, приводит к сильной модели вознаграждения.
Большие языковые модели (LLM) сделали значительные успехи в обработке длинных последовательностей, превышающих 32 тыс. токенов. Однако их оценка производительности в основном ограничивалась метриками, такими как перплексия и синтетические задачи, которые могут не полностью отразить их способности в более тонких, реальных сценариях. В данном исследовании представлен специализированный бенчмарк (LIConBench), сосредоточенный на долгосрочном контекстном обучении в области классификации с экстремальным количеством меток. Мы тщательно выбрали шесть наборов данных с диапазоном меток от 28 до 174 классов, охватывающих различные длины ввода (демонстрация с небольшим количеством примеров) от 2 тыс. до 50 тыс. Наш бенчмарк требует, чтобы LLM понимали весь ввод для распознавания огромных пространств меток для корректного предсказания. Мы оценили 13 LLM с долгим контекстом на наших бенчмарках. Мы обнаружили, что LLM с долгим контекстом демонстрируют относительно хорошую производительность при длине токена до 20 тыс., и производительность выигрывает от использования длинного окна контекста. Однако после того, как окно контекста превышает 20 тыс., большинство LLM, за исключением GPT-4, резко падают. Это указывает на значительную разницу в текущих возможностях LLM для обработки и понимания длинных, контекстно насыщенных последовательностей. Дополнительный анализ показал тенденцию моделей отдавать предпочтение предсказаниям для меток, представленных ближе к концу последовательности. Их способность рассуждать о нескольких частях в длинной последовательности требует улучшения. Наше исследование показывает, что понимание и рассуждение в долгосрочном контексте по-прежнему является сложной задачей для существующих LLM. Мы считаем, что LIConBench может служить более реалистичной оценкой для будущих LLM с долгим контекстом.
ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal
27
2
Мы обучаем набор мультимодальных базовых моделей (MMFM) с использованием популярной платформы LLaVA с недавно выпущенным семейством крупных языковых моделей Gemma (LLMs). Особый интерес представляет модель Gemma с 2 миллиардами параметров, которая предоставляет возможности для создания способных маломасштабных MMFM. В соответствии с результатами других работ в этой области, мы проверяем эффект абляции трех конструктивных особенностей: предварительное обучение коннектора, использование более мощной образовательной основы и увеличение размера языковой основы. Полученные модели, которые мы называем LLaVA-Gemma, демонстрируют умеренную производительность при ряде оценок, но не улучшаются по сравнению с текущими моделями SOTA с сопоставимым размером. Более детальный анализ производительности показывает разнонаправленные эффекты; пропуск предварительного обучения обычно снижает производительность, увеличение размеров моделей зрения иногда улучшает производительность, а увеличение размера языковой модели имеет неоднозначные эффекты. Мы публично распространяем рецепты обучения, код и веса для наших моделей LLaVA-Gemma.
ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung
25
1
Мы представляем HyperCLOVA X, семейство крупных языковых моделей (LLM), разработанных для корейского языка и культуры, обладающих конкурентоспособными возможностями в английском языке, математике и программировании. HyperCLOVA X был обучен на сбалансированной смеси корейских, английских и кодовых данных, после чего прошел настройку инструкций с использованием высококачественных наборов данных с аннотациями от людей, соблюдая строгие правила безопасности, отражающие наше обязательство к ответственному искусственному интеллекту. Модель оценивается по различным бенчмаркам, включая комплексное мышление, знания, здравый смысл, фактичность, программирование, математику, чаты, следование инструкциям и безопасность, как на корейском, так и на английском языках. HyperCLOVA X обладает сильными способностями к рассуждению на корейском языке, подкрепленными глубоким пониманием языка и культурных нюансов. Дальнейший анализ врожденной двуязычной природы и ее расширение до мультиязычности подчеркивают кросс-языковую компетентность модели и ее сильные способности к обобщению на ненаправленные языки, включая машинный перевод между несколькими языковыми парами и кросс-языковые задачи вывода. Мы считаем, что HyperCLOVA X может предоставить полезное руководство для регионов или стран в разработке собственных крупных языковых моделей.
ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang
24
1
Контролируемость играет решающую роль в генерации видео, поскольку она позволяет пользователям создавать желаемый контент. Однако существующие модели в значительной степени пренебрегли точным контролем положения камеры, которое служит кинематографическим языком для выражения более глубоких нюансов повествования. Для устранения этой проблемы мы представляем CameraCtrl, обеспечивающий точный контроль положения камеры для моделей текст-в-видео (T2V). После точной параметризации траектории камеры модуль камеры "подключить и использовать" обучается на модели T2V, оставляя другие компоненты нетронутыми. Кроме того, также проводится всестороннее исследование влияния различных наборов данных, указывающее на то, что видеоролики с разнообразным распределением камеры и схожими внешними данными действительно улучшают контролируемость и обобщение. Экспериментальные результаты демонстрируют эффективность CameraCtrl в достижении точного и доменно-адаптивного управления камерой, что является шагом вперед в стремлении к динамичному и настраиваемому повествованию видео на основе текстовых и положения камеры. Наш веб-сайт проекта: https://hehao13.github.io/projects-CameraCtrl/.
Мы изучаем свойства масштабирования моделей латентной диффузии (LDM) с акцентом на их эффективность выборки. Хотя улучшенная архитектура сети и алгоритмы вывода показали свою способность эффективно увеличивать эффективность выборки моделей диффузии, роль размера модели - критического определителя эффективности выборки - не была тщательно изучена. Через эмпирический анализ установленных моделей диффузии текста в изображение мы проводим глубокое исследование влияния размера модели на эффективность выборки при различных шагах выборки. Наши результаты раскрывают удивительную тенденцию: при работе в рамках заданного бюджета вывода, более маленькие модели часто превосходят своих более крупных эквивалентов в генерации результатов высокого качества. Более того, мы расширяем наше исследование для демонстрации обобщаемости этих результатов путем применения различных сэмплеров диффузии, исследования различных последующих задач, оценки пост-дистиллированных моделей, а также сравнения производительности относительно обучающего вычисления. Эти результаты открывают новые пути для развития стратегий масштабирования LDM, которые могут быть использованы для улучшения генеративных возможностей в рамках ограниченных бюджетов вывода.
ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka
19
1
Большие языковые модели (LLM) вызывают широкий интерес благодаря своей способности обрабатывать человеческий язык и выполнять задачи, на которых они не были явно обучены. Это актуально для химических наук, которые сталкиваются с проблемой небольших и разнообразных наборов данных, часто представленных в текстовой форме. LLM показали перспективы в решении этих проблем и все чаще используются для прогнозирования химических свойств, оптимизации реакций, а также для автономного проектирования и проведения экспериментов. Однако у нас все еще есть очень ограниченное системное понимание химических способностей рассуждения LLM, которое необходимо для улучшения моделей и смягчения потенциальных вредоносных последствий. Здесь мы представляем "ChemBench" - автоматизированную платформу, разработанную для тщательной оценки химических знаний и способностей рассуждения передовых LLM по сравнению с опытом человеческих химиков. Мы отобрали более 7 000 вопросов-ответов для широкого спектра подобластей химических наук, оценили ведущие открытые и закрытые LLM и обнаружили, что лучшие модели в среднем превосходят лучших человеческих химиков в нашем исследовании. Однако модели испытывают трудности с некоторыми химическими задачами рассуждения, которые легки для человеческих экспертов, и предоставляют чрезмерно уверенные, вводящие в заблуждение прогнозы, например, о профилях безопасности химических веществ. Эти результаты подчеркивают двойную реальность того, что, хотя LLM проявляют замечательную профессиональную компетентность в химических задачах, дальнейшие исследования критически важны для улучшения их безопасности и полезности в химических науках. Наши результаты также указывают на необходимость адаптаций в химических учебных планах и подчеркивают важность продолжения разработки критериев оценки для улучшения безопасных и полезных LLM.
ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo
15
1
Предварительное обучение современных крупных языковых моделей теперь требует трлн слов текста, что на порядки больше, чем доступно для подавляющего большинства языков. Включение текста на нескольких языках является очевидным способом получения большего объема данных для предварительного обучения, однако мультиязычность часто рассматривается как проклятие, и большинство усилий по обучению моделей продолжают фокусироваться практически исключительно на отдельных крупных языках. Мы считаем, что мультиязычность может стать благословением и что возможно значительное улучшение возможностей моноязычных моделей для малых языков с помощью мультиязычного обучения. В данном исследовании мы представляем Poro 34B - модель с 34 млрд параметров, обученную на 1 трлн токенов финского, английского и языков программирования, и демонстрируем, что мультиязычный подход к обучению может создать модель, которая не только значительно превосходит возможности существующих моделей для финского языка, но также превосходит в области перевода и конкурентоспособна в своем классе в генерации английского и языков программирования. Мы предоставляем параметры модели, скрипты и данные под открытыми лицензиями на https://huggingface.co/LumiOpen/Poro-34B.
ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani
10
1
Мы предлагаем 3D Congealing, новую задачу 3D-осознанного выравнивания для 2D изображений, захватывающих семантически похожие объекты. Учитывая коллекцию неразмеченных изображений из Интернета, нашей целью является ассоциирование общих семантических частей из входных данных и агрегация знаний из 2D изображений в общее 3D каноническое пространство. Мы представляем общую структуру, которая решает задачу, не предполагая формы шаблонов, поз или каких-либо параметров камеры. В ее основе лежит каноническое 3D представление, которое включает геометрическую и семантическую информацию. Структура оптимизирует каноническое представление вместе с позой для каждого входного изображения и картой координат для каждого изображения, которая искажает 2D пиксельные координаты в 3D каноническую систему для учета соответствия формы. Процедура оптимизации объединяет предварительные знания из предварительно обученной модели генерации изображений и семантическую информацию из входных изображений. Первое обеспечивает сильное руководство знаниями для этой недоопределенной задачи, в то время как второе предоставляет необходимую информацию для смягчения предвзятости обучающих данных от предварительно обученной модели. Наша структура может использоваться для различных задач, таких как соответствие, оценка позы и редактирование изображений, достигая отличных результатов на реальных наборах изображений в условиях сложного освещения и в дикой сети онлайн-коллекций изображений.
ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang
8
1
Мы представляем LLM-ABR, первую систему, которая использует генеративные возможности больших языковых моделей (LLM) для автономного проектирования алгоритмов адаптивного битрейта (ABR), настраиваемых для различных характеристик сети. Работая в рамках обучения с подкреплением, LLM-ABR дает возможность LLM проектировать ключевые компоненты, такие как состояния и архитектуры нейронных сетей. Мы оцениваем LLM-ABR в различных сетевых средах, включая широкополосные, спутниковые, 4G и 5G. LLM-ABR последовательно превосходит стандартные алгоритмы ABR.