Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы предлагаем новую методологию синтеза данных, основанную на персонализированном подходе, которая использует различные перспективы внутри большой языковой модели (LLM) для создания разнообразных синтетических данных. Для полного использования этой методологии в масштабе мы представляем Persona Hub - коллекцию из 1 миллиарда разнообразных персон, автоматически собранных из веб-данных. Эти 1 миллиард персон (~13% от общего населения мира), действуя как распределенные носители мирового знания, могут обращаться к практически каждой перспективе, заключенной в LLM, тем самым облегчая создание разнообразных синтетических данных в масштабе для различных сценариев. Демонстрируя примеры использования Persona Hub в синтезе высококачественных математических и логических задач, инструкций (т.е. пользовательских запросов), текстов, богатых знаниями, персонажей игр и инструментов (функций) в масштабе, мы показываем, что синтез данных, основанный на персонализированном подходе, является универсальным, масштабируемым, гибким и простым в использовании, что потенциально может привести к изменению парадигмы в создании синтетических данных и их применении на практике, что может оказать глубокое влияние на исследования и разработку LLM.
Быстрое развитие мультимодальных крупных языковых моделей (MLLM), таких как GPT-4V, привело к значительным достижениям. Однако эти модели по-прежнему сталкиваются с вызовами в медицинских мультимодальных возможностях из-за ограничений в количестве и качестве медицинских данных визуального и текстового характера, обусловленных проблемами конфиденциальности данных и высокими затратами на аннотацию. В то время как новаторские подходы используют крупномасштабные, деидентифицированные медицинские пары изображений и текста из PubMed для преодоления этих ограничений, они все еще не могут полностью устранить встроенный шум данных. Для решения этой проблемы мы улучшили медицинские пары изображений и текста из PubMed и использовали MLLM (GPT-4V) в "разобранном" режиме для удаления шума и переформатирования данных, что привело к созданию набора данных PubMedVision с 1,3 миллионом медицинских образцов VQA. Наша валидация показывает, что: (1) PubMedVision может значительно улучшить медицинские мультимодальные возможности текущих MLLM, демонстрируя значительное улучшение в показателях, включая трек MMMU Health & Medicine; (2) ручные проверки медицинских экспертов и эмпирические результаты подтверждают превосходное качество данных нашего набора данных по сравнению с другими методами построения данных. Используя PubMedVision, мы обучаем медицинскую MLLM HuatuoGPT-Vision с 34B параметрами, которая показывает превосходную производительность в медицинских мультимодальных сценариях среди MLLM с открытым исходным кодом.
В области больших языковых моделей (LLM) техника Дистилляции Знаний (KD) является критической для передачи возможностей от моделей-учителей к моделям-ученикам. Однако существующие методы KD сталкиваются с ограничениями и вызовами при дистилляции LLM, включая эффективность и недостаточные возможности измерения традиционного дивергенции KL. Показано, что LLM могут выступать в качестве неявной функции вознаграждения, которую мы определяем как дополнение к дивергенции KL. В данной работе мы предлагаем Прямую Дистилляцию Предпочтений Знаний (DPKD) для LLM. DPKD использует дивергенцию распределения для представления потерь предпочтений и неявной функции вознаграждения. Мы переформулируем KD LLM на два этапа: сначала оптимизируем цель, состоящую из неявного вознаграждения и обратной дивергенции KL, а затем улучшаем вероятность предпочтения выходных данных учителя перед выходными данными ученика. Мы провели эксперименты и анализ на различных наборах данных с параметрами LLM от 120M до 13B и продемонстрировали широкие возможности и эффективность нашего подхода DPKD. Тем временем мы доказываем ценность и эффективность введенного неявного вознаграждения и предпочтения выходных данных в KD через эксперименты и теоретический анализ. Метод DPKD превосходит базовый метод как по точности ответа на выходе, так и по проценту точного совпадения. Код и данные доступны по ссылке https://aka.ms/dpkd.
Большие языковые модели (LLM), оснащенные обширными знаниями о мире и сильными навыками рассуждения, могут решать разнообразные задачи в различных областях, часто формулируя их в виде пар инструкция-ответ в стиле разговора. В данной статье мы предлагаем LLaRA: Большой языковый и робототехнический ассистент, фреймворк, который формулирует политику действий робота как разговоры и обеспечивает улучшенные ответы при обучении с вспомогательными данными, дополняющими обучение политики. LLM с визуальными входами, то есть моделирование языка и зрения (VLM), имеют возможность обрабатывать информацию о состоянии в виде визуально-текстовых подсказок и генерировать оптимальные решения политики в текстовом формате. Для обучения таких политик действий VLM мы сначала представляем автоматизированный конвейер для генерации разнообразных высококачественных данных по инструкциям для робототехники из существующих данных клонирования поведения. VLM, донастроенная с использованием полученной коллекции наборов данных на основе формулировки в стиле разговора, адаптированной для задач робототехники, может генерировать осмысленные решения политики действий робота. Наши эксперименты в нескольких симулированных и реальных средах демонстрируют передовую производительность предложенного фреймворка LLaRA. Код, наборы данных и предварительно обученные модели доступны по адресу https://github.com/LostXine/LLaRA.
Недавно 3D-гауссово сглаживание (3D-GS) достигло больших успехов в реконструировании и визуализации сцен реального мира. Для передачи высокого качества визуализации в задачи генерации, ряд исследовательских работ пытаются генерировать 3D-гауссовские объекты из текста. Однако сгенерированные объекты не достигли того же качества, что и в задачах реконструкции. Мы замечаем, что гауссианы склонны к неуправляемому росту, так как процесс генерации может вызывать неопределенность. С целью значительного улучшения качества генерации мы предлагаем новую структуру, названную GaussianDreamerPro. Основная идея заключается в привязке гауссиан к разумной геометрии, которая развивается на протяжении всего процесса генерации. На различных этапах нашей структуры как геометрия, так и внешний вид могут постепенно обогащаться. Конечный выходной объект создается с 3D-гауссианами, привязанными к сетке, что показывает значительно улучшенные детали и качество по сравнению с предыдущими методами. Следует отметить, что сгенерированный объект также может быть легко интегрирован в последующие конвейеры обработки, например, анимацию, композицию, симуляцию и т. д., что значительно расширяет его потенциал в различных областях применения. Демонстрации доступны по адресу https://taoranyi.com/gaussiandreamerpro/.
Модель Segment Anything (SAM) привлекла широкое внимание благодаря своим выдающимся интерактивным возможностям сегментации с визуальными подсказками, однако она не была достаточно исследована с точки зрения текстовых подсказок. В данной статье мы эмпирически исследуем, для чего хороши текстовые кодировщики подсказок (например, CLIP или LLM) для адаптации SAM к сегментации выражений обращения и представляем модель EVF-SAM на основе раннего объединения зрение-язык. EVF-SAM - это простой, но эффективный метод сегментации обращений, который использует мультимодальные подсказки (изображение и текст) и включает предварительно обученную модель зрение-язык для генерации обращающих подсказок и модель SAM для сегментации. Удивительно, что мы наблюдаем: (1) мультимодальные подсказки и (2) модели зрение-язык с ранним объединением (например, BEIT-3) полезны для подсказки SAM для точной сегментации обращений. Наши эксперименты показывают, что предложенная EVF-SAM на основе BEIT-3 может достичь передового качества на RefCOCO/+/g для сегментации выражений обращения и продемонстрировать превосходство подсказки SAM с ранним объединением зрение-язык. Кроме того, предложенная EVF-SAM с 1,32 млрд параметров достигает значительно более высокого качества, сокращая почти 82% параметров по сравнению с предыдущими методами SAM на основе крупных мультимодальных моделей.
Недавние достижения в области больших языковых моделей преобразовали разработку МО/ИИ, что требует переоценки принципов автоматизированного машинного обучения для систем с извлечением и генерацией (RAG). Для решения проблем оптимизации гиперпараметров и онлайн адаптации в RAG мы предлагаем фреймворк AutoRAG-HP, который формулирует настройку гиперпараметров как проблему онлайн многоруких бандитов (MAB) и вводит новый двухуровневый иерархический метод исследования (Hier-MAB) для эффективного исследования больших пространств поиска. Мы проводим обширные эксперименты по настройке гиперпараметров, таких как количество извлеченных документов top-k, коэффициент сжатия запроса и методы встраивания, используя наборы данных ALCE-ASQA и Natural Questions. Наша оценка совместной оптимизации всех трех гиперпараметров показывает, что методы онлайн обучения на основе MAB могут достигать Recall@5 прибл. 0.8 для сценариев с выраженными градиентами в пространстве поиска, используя всего 20% вызовов API LLM, необходимых для подхода Grid Search. Кроме того, предложенный подход Hier-MAB превосходит другие базовые в более сложных сценариях оптимизации. Код будет доступен по ссылке https://aka.ms/autorag.
Масштабирование методов глубокого обучения с подкреплением (RL) представляет собой значительное вызов. Вслед за разработками в области генеративного моделирования, модельно-ориентированное обучение с подкреплением позиционирует себя как сильный конкурент. Недавние достижения в моделировании последовательностей привели к эффективным моделям мира на основе трансформеров, хотя за счет тяжелых вычислений из-за длинных последовательностей токенов, необходимых для точного моделирования окружающей среды. В данной работе мы предлагаем Delta-IRIS, нового агента с архитектурой модели мира, состоящей из дискретного автоэнкодера, который кодирует стохастические дельты между временными шагами, и авторегрессионного трансформера, который предсказывает будущие дельты, суммируя текущее состояние мира с непрерывными токенами. В бенчмарке Crafter, Delta-IRIS устанавливает новый state of the art при нескольких бюджетах кадров, при этом обучается на порядок быстрее предыдущих подходов, основанных на внимании. Мы публикуем наш код и модели по адресу https://github.com/vmicheli/delta-iris.
Мы представляем Arboretum - крупнейший общедоступный набор данных, разработанный для продвижения искусственного интеллекта в области биоразнообразия. Этот набор данных, отобранный из сообщества научной платформы iNaturalist и проверенный предметными экспертами для обеспечения точности, включает 134,6 миллиона изображений, превосходящих существующие наборы данных по масштабу на порядок. Набор данных охватывает парные данные изображений и языка для разнообразного набора видов: птиц (Aves), пауков/клещей/клещей (Arachnida), насекомых (Insecta), растений (Plantae), грибов/грибов (Fungi), улиток (Mollusca) и змей/ящериц (Reptilia), что делает его ценным ресурсом для мультимодельных моделей искусственного интеллекта для оценки биоразнообразия и исследований в области сельского хозяйства. Каждое изображение аннотировано научными названиями, таксономическими данными и общими названиями, что повышает надежность обучения моделей искусственного интеллекта. Мы демонстрируем ценность Arboretum, выпустив набор моделей CLIP, обученных с использованием подмножества из 40 миллионов подписанных изображений. Мы представляем несколько новых показателей для строгой оценки, сообщаем о точности обучения без обучающих примеров и оценках на различных этапах жизни, редких видах, вводящих в заблуждение видах и различных уровнях таксономической иерархии. Мы ожидаем, что Arboretum стимулирует развитие моделей искусственного интеллекта, способных обеспечить разнообразие цифровых инструментов, начиная от стратегий борьбы с вредителями, мониторинга урожаев и всемирной оценки биоразнообразия и охраны окружающей среды. Эти достижения критически важны для обеспечения продовольственной безопасности, сохранения экосистем и смягчения последствий изменения климата. Arboretum общедоступен, легко доступен и готов к немедленному использованию. Пожалуйста, посетите https://baskargroup.github.io/Arboretum/{веб-сайт проекта} для ссылок на наши данные, модели и код.
Обучение с подкреплением с обратной связью от человека (RLHF) достигло большого успеха в выравнивании больших языковых моделей (LLM) с человеческими предпочтениями. Преобладающие подходы RLHF основаны на вознаграждениях и следуют предположению модели Брэдли-Терри (BT), которое может не полностью учитывать сложность человеческих предпочтений. В данной статье мы исследуем RLHF в рамках общей предпочтительной модели и подходим к ней с игровой точки зрения. Конкретно, мы формулируем проблему как игру двух игроков и предлагаем новый алгоритм, итеративную оптимизацию политики Нэша (INPO). Основная идея заключается в том, чтобы позволить политике играть против самой себя через обучение без сожалений, тем самым приближаясь к политике Нэша. В отличие от предыдущих методов, INPO обходит необходимость оценки ожидаемой доли победы для отдельных ответов, что typично влечет за собой высокие вычислительные или аннотационные издержки. Вместо этого мы вводим новую целевую функцию потерь, которая непосредственно минимизируется на наборе предпочтений. Мы предоставляем теоретический анализ нашего подхода и демонстрируем его эффективность через эксперименты на различных репрезентативных бенчмарках. С моделью SFT на основе LLaMA-3-8B, INPO достигает доли победы с контролем длины в 41.5% на AlpacaEval 2.0 и 38.3% на Arena-Hard, показывая существенное улучшение по сравнению с современным итеративным алгоритмом [Донг и др., 2024] на основе модели BT. Кроме того, наше исследование абляции подчеркивает преимущества включения регуляризации KL для контроля длины ответа.
В данной статье представлен новый метрический подход, основанный на сущностях, названный Радиологическая Оценка Текста (RaTEScore), для оценки качества медицинских отчетов, созданных моделями искусственного интеллекта. RaTEScore акцентирует внимание на важных медицинских сущностях, таких как диагностические результаты и анатомические детали, и устойчив к сложным медицинским синонимам, а также чувствителен к выражениям отрицания. Технически мы разработали обширный набор данных для именованных сущностей в медицине, RaTE-NER, и обучили модель NER специально для этой цели. Эта модель позволяет декомпозировать сложные радиологические отчеты на составные медицинские сущности. Сама метрика вычисляется путем сравнения сходства встраивания сущностей, полученных из языковой модели, на основе их типов и значимости для клинической практики. Наши оценки показывают, что RaTEScore ближе соответствует предпочтениям людей, чем существующие метрики, что подтверждается как на установленных общедоступных бенчмарках, так и на нашем новом предложенном бенчмарке RaTE-Eval.