Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

На что стоит обращать внимание при создании моделей видео-языкового взаимодействия?
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

103

Растущий интерес к моделям видео-языка (VLM) был вызван улучшениями в больших языковых моделях и видовых трансформерах. Несмотря на обилие литературы по этой теме, мы замечаем, что критические решения относительно проектирования VLM часто не обоснованы. Мы утверждаем, что эти неподтвержденные решения затрудняют прогресс в области, делая сложным определение, какие выборы улучшают производительность модели. Для решения этой проблемы мы проводим обширные эксперименты вокруг предварительно обученных моделей, выбора архитектуры, данных и методов обучения. Наша консолидация результатов включает разработку Idefics2, эффективной базовой VLM с 8 миллиардами параметров. Idefics2 достигает передовой производительности в своей категории размера на различных мультимодальных бенчмарках и часто находится на уровне моделей в четыре раза большего размера. Мы выпускаем модель (базовую, инструктируемую и чатовую) вместе с созданными для ее обучения наборами данных.

Процесс RLHF: от моделирования вознаграждения до онлайн RLHF
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

В данном техническом отчете мы представляем рабочий процесс онлайн итеративного обучения с подкреплением на основе обратной связи человека (RLHF), который, как сообщается, существенно превосходит свой оффлайн аналог в недавней литературе по большим языковым моделям (LLM). Однако существующие проекты RLHF с открытым исходным кодом по-прежнему в основном ограничены оффлайн средой обучения. В данном техническом отчете мы стремимся заполнить этот разрыв и предоставить подробное руководство, легко воспроизводимое для онлайн итеративного RLHF. В частности, поскольку онлайн обратная связь человека обычно недоступна для сообществ с ограниченными ресурсами с открытым исходным кодом, мы начинаем с построения моделей предпочтений с использованием разнообразного набора открытых наборов данных и используем построенную прокси-модель предпочтений для приближения обратной связи человека. Затем мы обсуждаем теоретические аспекты и алгоритмические принципы онлайн итеративного RLHF, за которыми следует подробная практическая реализация. Наша обученная LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, достигает впечатляющих результатов на бенчмарках чатботов LLM, включая AlpacaEval-2, Arena-Hard и MT-Bench, а также на других академических бенчмарках, таких как HumanEval и TruthfulQA. Мы показали, что надзорное дообучение (SFT) и итеративное RLHF могут достичь передовых результатов с полностью открытыми наборами данных. Кроме того, мы сделали наши модели, отобранные наборы данных и подробные пошаговые руководства по коду общедоступными. Дополнительную информацию можно найти на https://github.com/RLHFlow/RLHF-Reward-Modeling и https://github.com/RLHFlow/Online-RLHF.

SUTRA: Масштабируемая многоязычная архитектура языковой модели
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

В данной статье мы представляем SUTRA, мультиязычную архитектуру большой языковой модели, способную понимать, рассуждать и генерировать текст на более чем 50 языках. Уникальная концепция SUTRA разделяет базовое понимание концепций от языковой обработки, что обеспечивает масштабируемое и эффективное мультиязычное выравнивание и обучение. Используя структуру Смеси Экспертов как для обработки языка, так и концепций, SUTRA демонстрирует как вычислительную эффективность, так и отзывчивость. Через обширные оценки показано, что SUTRA превосходит существующие модели, такие как GPT-3.5, Llama2 на 20-30% на ведущих бенчмарках для мультиязычных задач по массовому мультизадачному пониманию языка. Модели SUTRA также являются онлайн-языковыми моделями, способными использовать знания из интернета для предоставления ответов без галлюцинаций, фактических и актуальных, сохраняя при этом свои мультиязычные возможности. Кроме того, мы исследуем более широкие последствия его архитектуры для будущего мультиязычного искусственного интеллекта, выделяя его потенциал для демократизации доступа к технологиям искусственного интеллекта во всем мире и для улучшения равенства и полезности искусственного интеллекта в регионах с преимущественно неанглоязычными языками. Наши результаты показывают, что SUTRA не только заполняет ключевые пробелы в возможностях мультиязычных моделей, но также устанавливает новый стандарт операционной эффективности и масштабируемости в приложениях искусственного интеллекта.

SambaNova SN40L: Масштабирование стены памяти искусственного интеллекта с помощью потоков данных и композиции экспертов
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

ByRaghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun

Монолитные большие языковые модели (LLM), такие как GPT-4, проложили путь для современных генеративных приложений искусственного интеллекта. Однако обучение, обслуживание и поддержка монолитных LLM в масштабе остаются чрезмерно дорогими и сложными. Неравномерное увеличение соотношения вычислений к памяти современных ускорителей искусственного интеллекта создало "стену памяти", требуя новых методов развертывания ИИ. Композиция экспертов (CoE) представляет собой альтернативный модульный подход, снижающий стоимость и сложность обучения и обслуживания. Однако этот подход сталкивается с двумя ключевыми проблемами при использовании обычного оборудования: (1) без объединенных операций у менее крупных моделей ниже операционная интенсивность, что затрудняет достижение высокой утилизации; и (2) размещение большого количества моделей может быть либо чрезмерно дорогим, либо медленным при динамическом переключении между ними. В данной статье мы описываем, как комбинирование CoE, потоковой модели данных и трехуровневой системы памяти преодолевает "стену памяти" искусственного интеллекта. Мы описываем Samba-CoE, систему CoE с 150 экспертами и общим числом параметров в триллиона. Мы развертываем Samba-CoE на устройстве SambaNova SN40L Reconfigurable Dataflow Unit (RDU) - коммерческой архитектуре ускорителя потоков данных, спроектированной для предприятий для применения в выводе и обучении. Этот чип вводит новую трехуровневую систему памяти с распределенной SRAM на кристалле, HBM на пакете и DDR DRAM вне пакета. Выделенная сеть между RDU позволяет масштабироваться вверх и вширь по нескольким сокетам. Мы демонстрируем ускорение от 2 до 13 раз на различных тестах на восемь сокетах RDU по сравнению с базовой моделью без объединенных операций. Мы показываем, что для развертывания вывода CoE узел RDU с восемью сокетами сокращает машинное пространство до 19 раз, ускоряет время переключения модели на 15-31 раз и достигает общего ускорения в 3,7 раза по сравнению с DGX H100 и в 6,6 раза по сравнению с DGX A100.

MS MARCO Web Search: крупномасштабный информационно насыщенный веб-набор данных с миллионами реальных меток кликов.
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

ByQi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang

Недавние прорывы в области крупных моделей подчеркнули критическое значение масштаба данных, меток и моделей. В данной статье мы представляем MS MARCO Web Search - первый крупномасштабный информационно насыщенный веб-набор данных, содержащий миллионы реальных меток запрос-документ, по которым пользователи кликали. Этот набор данных тесно имитирует распределение реальных веб-документов и запросов, предоставляет обширную информацию для различных видов последующих задач и стимулирует исследования в различных областях, таких как общие модели нейроиндексации конечного до конца, общие модели встраивания и информационные системы следующего поколения с крупными языковыми моделями. MS MARCO Web Search предлагает бенчмарк поиска с тремя задачами вызова веб-поиска, требующими инноваций как в области машинного обучения, так и в области исследования систем информационного поиска. Как первый набор данных, отвечающий требованиям крупных, реальных и информационно насыщенных данных, MS MARCO Web Search прокладывает путь для будущих достижений в области исследований в области искусственного интеллекта и систем. Набор данных MS MARCO Web Search доступен по ссылке: https://github.com/microsoft/MS-MARCO-Web-Search.

Plot2Code: Комплексный бенчмарк для оценки мультимодальных крупномасштабных языковых моделей в генерации кода из научных графиков.
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

Замечательный прогресс Многомодельных Больших Языковых Моделей (MLLMs) привлек значительное внимание благодаря их выдающейся производительности в визуальных контекстах. Однако их способности преобразовывать визуальные фигуры в исполнимый код не были тщательно оценены. Для решения этой проблемы мы представляем Plot2Code, комплексный бенчмарк визуального кодирования, разработанный для справедливой и глубокой оценки MLLMs. Мы тщательно собрали 132 вручную отобранных высококачественных графиков matplotlib из шести типов графиков из общедоступных галерей matplotlib. Для каждого графика мы внимательно предлагаем его исходный код и описательную инструкцию, подготовленную GPT-4. Такой подход позволяет Plot2Code обширно оценить возможности MLLMs в написании кода для различных входных модалностей. Кроме того, мы предлагаем три автоматические метрики оценки, включая процент прохождения кода, соотношение совпадения текста и общую оценку GPT-4V, для детальной оценки выходного кода и отображаемых изображений. Вместо простого определения успеха или неудачи, мы используем GPT-4V для общей оценки между сгенерированными и эталонными изображениями, что показало согласованность с оценкой человека. Результаты оценки, включающие анализ 14 MLLMs, таких как собственный GPT-4V, Gemini-Pro и открытый Mini-Gemini, подчеркивают значительные вызовы, представленные Plot2Code. С помощью Plot2Code мы показываем, что большинство существующих MLLMs испытывают трудности с визуальным кодированием для графиков с плотным текстом, сильно полагаясь на текстовые инструкции. Мы надеемся, что результаты оценки визуального кодирования от Plot2Code направят будущее развитие MLLMs. Все данные, связанные с Plot2Code, доступны по ссылке https://huggingface.co/datasets/TencentARC/Plot2Code.

Piccolo2: Общее встраивание текста с обучением мультизадачным гибридным потерями.
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

В данном отчете мы представляем Piccolo2, модель встраивания, превосходящую другие модели в комплексной оценке по 6 задачам на бенчмарке CMTEB, устанавливая новый уровень state-of-the-art. Piccolo2 в основном использует эффективный подход к обучению с использованием гибридной функции потерь для мультизадачности, эффективно используя текстовые данные и метки из разнообразных задач. Кроме того, Piccolo2 увеличивает размерность встраивания и использует MRL-обучение для поддержки более гибких векторных размерностей. Последнюю информацию о моделях Piccolo можно получить по ссылке: https://huggingface.co/sensenova/

LogoMotion: Визуально обоснованная генерация кода для анимации, осведомленной о контенте
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

Анимированные логотипы - это убедительный и всеобщий способ, которым индивиды и бренды представляют себя в онлайне. Ручное создание этих логотипов может потребовать значительного художественного мастерства и усилий. Для помощи начинающим дизайнерам в анимации логотипов существующие инструменты предлагают шаблоны и предустановленные анимации. Однако эти решения могут быть ограничены в своем выразительном диапазоне. Большие языковые модели имеют потенциал помочь начинающим дизайнерам создавать анимированные логотипы, генерируя код анимации, настроенный под их контент. В данной статье мы представляем LogoMotion, систему на основе LLM, которая принимает на вход слоистый документ и генерирует анимированные логотипы через визуально обоснованный синтез программ. Мы представляем техники создания HTML-представления холста, определения основных и вторичных элементов, синтеза кода анимации и визуальной отладки ошибок анимации. При сравнении с индустриальным стандартным инструментом мы обнаружили, что LogoMotion создает анимации, которые более осведомлены о контенте и качественно не уступают. Мы заключаем статью обсуждением последствий анимации, созданной с помощью LLM, для дизайна движения.

Большие языковые модели как генераторы областей планирования.
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi

Разработка доменных моделей - одно из немногих мест, где требуется ручной труд человека в планировании искусственного интеллекта. Поэтому для упрощения планирования желательно автоматизировать процесс создания доменных моделей. В этом контексте мы исследуем, можно ли использовать большие языковые модели (LLM) для генерации доменных моделей планирования из простых текстовых описаний. Конкретно мы представляем фреймворк для автоматизированной оценки доменов, сгенерированных LLM, путем сравнения наборов планов для экземпляров домена. Наконец, мы проводим эмпирический анализ 7 больших языковых моделей, включая модели для кодирования и чатов, в 9 различных доменов планирования и на трех классах описаний доменов естественным языком. Наши результаты показывают, что LLM, особенно те с большим количеством параметров, демонстрируют умеренный уровень квалификации в создании правильных доменов планирования из описаний на естественном языке. Наш код доступен по ссылке https://github.com/IBM/NL2PDDL.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

На что стоит обращать внимание при создании моделей видео-языкового взаимодействия?
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

103

Процесс RLHF: от моделирования вознаграждения до онлайн RLHF
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

SUTRA: Масштабируемая многоязычная архитектура языковой модели
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

SambaNova SN40L: Масштабирование стены памяти искусственного интеллекта с помощью потоков данных и композиции экспертов
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

MS MARCO Web Search: крупномасштабный информационно насыщенный веб-набор данных с миллионами реальных меток кликов.
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

Plot2Code: Комплексный бенчмарк для оценки мультимодальных крупномасштабных языковых моделей в генерации кода из научных графиков.
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

Piccolo2: Общее встраивание текста с обучением мультизадачным гибридным потерями.
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

LogoMotion: Визуально обоснованная генерация кода для анимации, осведомленной о контенте
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

Большие языковые модели как генераторы областей планирования.
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi