Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые модели показали свою эффективность в различных программных приложениях, особенно в задачах, связанных с автоматизацией рабочего процесса. Эти модели обладают важной способностью вызывать функции, что необходимо для создания искусственного интеллекта. Несмотря на высокую производительность крупномасштабных языковых моделей в облачных средах, они часто ассоциируются с опасениями по поводу конфиденциальности и затрат. Текущие модели для вызова функций на устройстве сталкиваются с проблемами задержки и точности. Наше исследование представляет новый метод, который позволяет устройственной модели с 2 миллиардами параметров превзойти производительность GPT-4 как по точности, так и по задержке, и сократить длину контекста на 95\%. По сравнению с Llama-7B с механизмом вызова функций на основе RAG, наш метод увеличивает задержку в 35 раз. Этот метод снижает задержку до уровней, считающихся приемлемыми для развертывания на различных устройствах на краю в производственных средах, соответствуя требованиям производительности для прикладных приложений в реальном мире.
Мы представляем Eurus, набор больших языковых моделей (LLM), оптимизированных для рассуждений. Получившие доработку из Mistral-7B и CodeLlama-70B, модели Eurus достигают передовых результатов среди моделей с открытым исходным кодом на разнообразном наборе тестов, охватывающих математику, генерацию кода и логические задачи рассуждений. Следует отметить, что Eurus-70B превосходит GPT-3.5 Turbo в рассуждениях через всестороннюю бенчмаркинговую оценку на 12 тестах, охватывающих пять задач, и достигает точности pass@1 на уровне 33,3% на LeetCode и 32,6% на TheoremQA, двух сложных бенчмарках, значительно превосходя существующие модели с открытым исходным кодом более чем на 13,3%. Высокую производительность Eurus можно в первую очередь отнести к UltraInteract, нашему вновь составленному крупномасштабному, высококачественному набору данных для сложных задач рассуждений. UltraInteract можно использовать как для надзорного дообучения, так и для обучения предпочтениям. Для каждой инструкции он включает дерево предпочтений, состоящее из (1) цепочек рассуждений с различными стратегиями планирования в унифицированном формате, (2) траекторий многоходового взаимодействия с окружающей средой и критикой, и (3) попарных данных для облегчения обучения предпочтениям. UltraInteract позволяет нам провести глубокое исследование обучения предпочтениям для задач рассуждений. Наше исследование показывает, что некоторые хорошо установленные алгоритмы обучения предпочтениям могут быть менее подходящими для задач рассуждений по сравнению с их эффективностью в общих разговорах. Вдохновленные этим, мы вывели новую цель моделирования вознаграждения, которая, вместе с UltraInteract, приводит к сильной модели вознаграждения.
Большие языковые модели (LLM) сделали значительные успехи в обработке длинных последовательностей, превышающих 32 тыс. токенов. Однако их оценка производительности в основном ограничивалась метриками, такими как перплексия и синтетические задачи, которые могут не полностью отразить их способности в более тонких, реальных сценариях. В данном исследовании представлен специализированный бенчмарк (LIConBench), сосредоточенный на долгосрочном контекстном обучении в области классификации с экстремальным количеством меток. Мы тщательно выбрали шесть наборов данных с диапазоном меток от 28 до 174 классов, охватывающих различные длины ввода (демонстрация с небольшим количеством примеров) от 2 тыс. до 50 тыс. Наш бенчмарк требует, чтобы LLM понимали весь ввод для распознавания огромных пространств меток для корректного предсказания. Мы оценили 13 LLM с долгим контекстом на наших бенчмарках. Мы обнаружили, что LLM с долгим контекстом демонстрируют относительно хорошую производительность при длине токена до 20 тыс., и производительность выигрывает от использования длинного окна контекста. Однако после того, как окно контекста превышает 20 тыс., большинство LLM, за исключением GPT-4, резко падают. Это указывает на значительную разницу в текущих возможностях LLM для обработки и понимания длинных, контекстно насыщенных последовательностей. Дополнительный анализ показал тенденцию моделей отдавать предпочтение предсказаниям для меток, представленных ближе к концу последовательности. Их способность рассуждать о нескольких частях в длинной последовательности требует улучшения. Наше исследование показывает, что понимание и рассуждение в долгосрочном контексте по-прежнему является сложной задачей для существующих LLM. Мы считаем, что LIConBench может служить более реалистичной оценкой для будущих LLM с долгим контекстом.
Мы обучаем набор мультимодальных базовых моделей (MMFM) с использованием популярной платформы LLaVA с недавно выпущенным семейством крупных языковых моделей Gemma (LLMs). Особый интерес представляет модель Gemma с 2 миллиардами параметров, которая предоставляет возможности для создания способных маломасштабных MMFM. В соответствии с результатами других работ в этой области, мы проверяем эффект абляции трех конструктивных особенностей: предварительное обучение коннектора, использование более мощной образовательной основы и увеличение размера языковой основы. Полученные модели, которые мы называем LLaVA-Gemma, демонстрируют умеренную производительность при ряде оценок, но не улучшаются по сравнению с текущими моделями SOTA с сопоставимым размером. Более детальный анализ производительности показывает разнонаправленные эффекты; пропуск предварительного обучения обычно снижает производительность, увеличение размеров моделей зрения иногда улучшает производительность, а увеличение размера языковой модели имеет неоднозначные эффекты. Мы публично распространяем рецепты обучения, код и веса для наших моделей LLaVA-Gemma.
Контролируемость играет решающую роль в генерации видео, поскольку она позволяет пользователям создавать желаемый контент. Однако существующие модели в значительной степени пренебрегли точным контролем положения камеры, которое служит кинематографическим языком для выражения более глубоких нюансов повествования. Для устранения этой проблемы мы представляем CameraCtrl, обеспечивающий точный контроль положения камеры для моделей текст-в-видео (T2V). После точной параметризации траектории камеры модуль камеры "подключить и использовать" обучается на модели T2V, оставляя другие компоненты нетронутыми. Кроме того, также проводится всестороннее исследование влияния различных наборов данных, указывающее на то, что видеоролики с разнообразным распределением камеры и схожими внешними данными действительно улучшают контролируемость и обобщение. Экспериментальные результаты демонстрируют эффективность CameraCtrl в достижении точного и доменно-адаптивного управления камерой, что является шагом вперед в стремлении к динамичному и настраиваемому повествованию видео на основе текстовых и положения камеры. Наш веб-сайт проекта: https://hehao13.github.io/projects-CameraCtrl/.
Мы представляем HyperCLOVA X, семейство крупных языковых моделей (LLM), разработанных для корейского языка и культуры, обладающих конкурентоспособными возможностями в английском языке, математике и программировании. HyperCLOVA X был обучен на сбалансированной смеси корейских, английских и кодовых данных, после чего прошел настройку инструкций с использованием высококачественных наборов данных с аннотациями от людей, соблюдая строгие правила безопасности, отражающие наше обязательство к ответственному искусственному интеллекту. Модель оценивается по различным бенчмаркам, включая комплексное мышление, знания, здравый смысл, фактичность, программирование, математику, чаты, следование инструкциям и безопасность, как на корейском, так и на английском языках. HyperCLOVA X обладает сильными способностями к рассуждению на корейском языке, подкрепленными глубоким пониманием языка и культурных нюансов. Дальнейший анализ врожденной двуязычной природы и ее расширение до мультиязычности подчеркивают кросс-языковую компетентность модели и ее сильные способности к обобщению на ненаправленные языки, включая машинный перевод между несколькими языковыми парами и кросс-языковые задачи вывода. Мы считаем, что HyperCLOVA X может предоставить полезное руководство для регионов или стран в разработке собственных крупных языковых моделей.
Мы изучаем свойства масштабирования моделей латентной диффузии (LDM) с акцентом на их эффективность выборки. Хотя улучшенная архитектура сети и алгоритмы вывода показали свою способность эффективно увеличивать эффективность выборки моделей диффузии, роль размера модели - критического определителя эффективности выборки - не была тщательно изучена. Через эмпирический анализ установленных моделей диффузии текста в изображение мы проводим глубокое исследование влияния размера модели на эффективность выборки при различных шагах выборки. Наши результаты раскрывают удивительную тенденцию: при работе в рамках заданного бюджета вывода, более маленькие модели часто превосходят своих более крупных эквивалентов в генерации результатов высокого качества. Более того, мы расширяем наше исследование для демонстрации обобщаемости этих результатов путем применения различных сэмплеров диффузии, исследования различных последующих задач, оценки пост-дистиллированных моделей, а также сравнения производительности относительно обучающего вычисления. Эти результаты открывают новые пути для развития стратегий масштабирования LDM, которые могут быть использованы для улучшения генеративных возможностей в рамках ограниченных бюджетов вывода.
Большие языковые модели (LLM) вызывают широкий интерес благодаря своей способности обрабатывать человеческий язык и выполнять задачи, на которых они не были явно обучены. Это актуально для химических наук, которые сталкиваются с проблемой небольших и разнообразных наборов данных, часто представленных в текстовой форме. LLM показали перспективы в решении этих проблем и все чаще используются для прогнозирования химических свойств, оптимизации реакций, а также для автономного проектирования и проведения экспериментов. Однако у нас все еще есть очень ограниченное системное понимание химических способностей рассуждения LLM, которое необходимо для улучшения моделей и смягчения потенциальных вредоносных последствий. Здесь мы представляем "ChemBench" - автоматизированную платформу, разработанную для тщательной оценки химических знаний и способностей рассуждения передовых LLM по сравнению с опытом человеческих химиков. Мы отобрали более 7 000 вопросов-ответов для широкого спектра подобластей химических наук, оценили ведущие открытые и закрытые LLM и обнаружили, что лучшие модели в среднем превосходят лучших человеческих химиков в нашем исследовании. Однако модели испытывают трудности с некоторыми химическими задачами рассуждения, которые легки для человеческих экспертов, и предоставляют чрезмерно уверенные, вводящие в заблуждение прогнозы, например, о профилях безопасности химических веществ. Эти результаты подчеркивают двойную реальность того, что, хотя LLM проявляют замечательную профессиональную компетентность в химических задачах, дальнейшие исследования критически важны для улучшения их безопасности и полезности в химических науках. Наши результаты также указывают на необходимость адаптаций в химических учебных планах и подчеркивают важность продолжения разработки критериев оценки для улучшения безопасных и полезных LLM.
Предварительное обучение современных крупных языковых моделей теперь требует трлн слов текста, что на порядки больше, чем доступно для подавляющего большинства языков. Включение текста на нескольких языках является очевидным способом получения большего объема данных для предварительного обучения, однако мультиязычность часто рассматривается как проклятие, и большинство усилий по обучению моделей продолжают фокусироваться практически исключительно на отдельных крупных языках. Мы считаем, что мультиязычность может стать благословением и что возможно значительное улучшение возможностей моноязычных моделей для малых языков с помощью мультиязычного обучения. В данном исследовании мы представляем Poro 34B - модель с 34 млрд параметров, обученную на 1 трлн токенов финского, английского и языков программирования, и демонстрируем, что мультиязычный подход к обучению может создать модель, которая не только значительно превосходит возможности существующих моделей для финского языка, но также превосходит в области перевода и конкурентоспособна в своем классе в генерации английского и языков программирования. Мы предоставляем параметры модели, скрипты и данные под открытыми лицензиями на https://huggingface.co/LumiOpen/Poro-34B.
Мы предлагаем 3D Congealing, новую задачу 3D-осознанного выравнивания для 2D изображений, захватывающих семантически похожие объекты. Учитывая коллекцию неразмеченных изображений из Интернета, нашей целью является ассоциирование общих семантических частей из входных данных и агрегация знаний из 2D изображений в общее 3D каноническое пространство. Мы представляем общую структуру, которая решает задачу, не предполагая формы шаблонов, поз или каких-либо параметров камеры. В ее основе лежит каноническое 3D представление, которое включает геометрическую и семантическую информацию. Структура оптимизирует каноническое представление вместе с позой для каждого входного изображения и картой координат для каждого изображения, которая искажает 2D пиксельные координаты в 3D каноническую систему для учета соответствия формы. Процедура оптимизации объединяет предварительные знания из предварительно обученной модели генерации изображений и семантическую информацию из входных изображений. Первое обеспечивает сильное руководство знаниями для этой недоопределенной задачи, в то время как второе предоставляет необходимую информацию для смягчения предвзятости обучающих данных от предварительно обученной модели. Наша структура может использоваться для различных задач, таких как соответствие, оценка позы и редактирование изображений, достигая отличных результатов на реальных наборах изображений в условиях сложного освещения и в дикой сети онлайн-коллекций изображений.
Мы представляем LLM-ABR, первую систему, которая использует генеративные возможности больших языковых моделей (LLM) для автономного проектирования алгоритмов адаптивного битрейта (ABR), настраиваемых для различных характеристик сети. Работая в рамках обучения с подкреплением, LLM-ABR дает возможность LLM проектировать ключевые компоненты, такие как состояния и архитектуры нейронных сетей. Мы оцениваем LLM-ABR в различных сетевых средах, включая широкополосные, спутниковые, 4G и 5G. LLM-ABR последовательно превосходит стандартные алгоритмы ABR.