Ежедневно отобранные исследовательские статьи по ИИ с переводами
В прошлом году мультимодальные архитектуры привнесли революцию в подходы и решения на основе искусственного интеллекта, расширяя возможности крупных языковых моделей (LLM). Мы предлагаем модель OmniFusion на основе предварительно обученной LLM и адаптеров для визуальной модальности. Мы оценили и сравнили несколько принципов архитектурного проектирования для лучшей связи текстовых и визуальных данных: адаптеры MLP и трансформер, различные кодировщики на основе CLIP ViT (SigLIP, InternVIT и т. д.) и их подход к объединению, метод кодирования изображения (все изображение или кодирование плитками) и две LLM на 7 миллиардов параметров (проприетарная и открытая Mistral). Эксперименты на 8 визуально-языковых бенчмарках показывают лучший результат для наилучшей настройки OmniFusion по сравнению с решениями вроде LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Мы также предлагаем различные ситуации, в которых OmniFusion предоставляет подробные ответы в различных областях: домашнее хозяйство, осмотр достопримечательностей, культура, медицина, распознавание рукописных и отсканированных уравнений и т. д. Модель OmniFusion на основе Mistral является решением с открытым исходным кодом, весами, скриптами обучения и вывода, доступными по адресу https://github.com/AIRI-Institute/OmniFusion.
Большие модели языка только с декодером (LLM) являются современными моделями для большинства сегодняшних задач и бенчмарков в области обработки естественного языка. Тем не менее, сообщество медленно принимает эти модели для задач встраивания текста, которые требуют богатых контекстуализированных представлений. В данной работе мы представляем LLM2Vec, простой ненадзорный подход, который может преобразовать любую модель LLM только с декодером в мощный текстовый кодировщик. LLM2Vec состоит из трех простых шагов: 1) включение двунаправленного внимания, 2) маскированное предсказание следующего токена и 3) ненадзорное контрастное обучение. Мы демонстрируем эффективность LLM2Vec, применяя его к 3 популярным LLM с количеством параметров от 1,3 млрд до 7 млрд, и оцениваем преобразованные модели на задачах на уровне слов и последовательностей на английском языке. Мы превосходим модели только с кодировщиком с большим отрывом на задачах на уровне слов и достигаем нового ненадзорного современного уровня производительности на Бенчмарке по Массивным Встраиваниям Текста (MTEB). Более того, комбинируя LLM2Vec с надзорным контрастным обучением, мы достигаем современного уровня производительности на MTEB среди моделей, которые обучаются только на общедоступных данных. Наши сильные эмпирические результаты и обширный анализ демонстрируют, что LLM могут быть эффективно преобразованы в универсальные текстовые кодировщики эффективным способом с небольшим количеством параметров без необходимости дорогостоящей адаптации или создания синтетических данных, сгенерированных GPT-4.
Мы представляем модели Eagle (RWKV-5) и Finch (RWKV-6), которые улучшают архитектуру RWKV (RWKV-4). Наши усовершенствования архитектурного дизайна включают многоголовые матричные состояния и динамический механизм рекуррентности, которые повышают выразительность, сохраняя при этом характеристики эффективности вывода RNN. Мы представляем новый многоязычный корпус с 1,12 триллионами токенов и быстрый токенизатор на основе жадного сопоставления для улучшенной мультиязычности. Мы обучили четыре модели Eagle, с числом параметров от 0,46 до 7,5 миллиарда, и две модели Finch с 1,6 и 3,1 миллиарда параметров, и обнаружили, что они достигают конкурентоспособной производительности на широком спектре тестов. Мы выпустили все наши модели на HuggingFace под лицензией Apache 2.0. Модели доступны по ссылке: https://huggingface.co/RWKV Код обучения доступен по ссылке: https://github.com/RWKV/RWKV-LM Код вывода доступен по ссылке: https://github.com/RWKV/ChatRWKV Код параллельного по времени обучения доступен по ссылке: https://github.com/RWKV/RWKV-infctx-trainer
Область больших моделей видео-языка (LVLM) продемонстрировала значительные достижения, однако ее развитие затруднено из-за проблем в понимании мелкозернистого визуального контента из-за ограниченного разрешения. Недавние усилия направлены на улучшение возможностей понимания высокого разрешения у LVLM, однако они остаются ограниченными примерно 1500 x 1500 пикселей и ограничены относительно узким диапазоном разрешения. В данной статье представлен InternLM-XComposer2-4KHD, революционное исследование по повышению возможностей разрешения LVLM до 4K HD (3840 x 1600) и выше. Одновременно, учитывая, что сверхвысокое разрешение может быть необязательным во всех сценариях, он поддерживает широкий диапазон разнообразных разрешений от 336 пикселей до стандарта 4K, значительно расширяя область его применимости. Конкретно, данное исследование продвигает парадигму разделения патчей, представляя новое расширение: динамическое разрешение с автоматической конфигурацией патчей. Оно сохраняет соотношения сторон обучающего изображения, автоматически изменяя количество патчей и конфигурируя компоновки на основе предварительно обученного Визионного Трансформера (ViT) (336 x 336), что приводит к динамическому разрешению обучения от 336 пикселей до стандарта 4K. Наши исследования показывают, что увеличение разрешения обучения до 4K HD приводит к последовательному улучшению производительности без достижения потолка потенциальных улучшений. Модель InternLM-XComposer2-4KHD демонстрирует великолепные возможности, которые соответствуют или даже превосходят GPT-4V и Gemini Pro в 10 из 16 бенчмарков. Серии моделей InternLM-XComposer2-4KHD с 7 миллиардами параметров доступны публично на https://github.com/InternLM/InternLM-XComposer.
Возрастающий интерес к разработке Больших Языковых Моделей (LLM) с до триллиона параметров вызвал опасения относительно ресурсоэффективности и практических затрат, особенно учитывая огромные издержки на эксперименты. Эта ситуация подчеркивает важность исследования потенциала Малых Языковых Моделей (SLM) в качестве ресурсоэффективной альтернативы. В этом контексте мы представляем MiniCPM, специально 1.2B и 2.4B варианты параметров без эмбеддинга, которые не только выдающиеся в своих категориях, но также демонстрируют возможности на уровне 7B-13B LLM. Сосредотачиваясь на SLM, наш подход обладает масштабируемостью как в модельных, так и в данных измерениях для будущих исследований LLM. Что касается масштабирования модели, мы используем обширные эксперименты с модельным аэродинамическим тоннелем для стабильного и оптимального масштабирования. Для масштабирования данных мы представляем планировщик скорости обучения Warmup-Stable-Decay (WSD LRS), способствующий непрерывному обучению и адаптации к области. Мы представляем подробный анализ интригующей динамики обучения, происходящей в WSD LRS. С помощью WSD LRS мы теперь можем эффективно изучать законы масштабирования данных-модели без обширных экспериментов по повторному обучению как в модельных, так и в данных осях, из чего мы выводим гораздо более высокое оптимальное соотношение данных-модели, чем Chinchilla Optimal. Кроме того, мы представляем семейство MiniCPM, включая MiniCPM-DPO, MiniCPM-MoE и MiniCPM-128K, чье отличное выполнение дополнительно укрепляет основу MiniCPM в различных приложениях SLM. Модели MiniCPM доступны публично на https://github.com/OpenBMB/MiniCPM.
Настройка инструкций стала ключевым моментом в выравнивании больших языковых моделей (LLM) с конкретными задачами, тем самым смягчая разрыв между целью прогнозирования следующего токена и фактическими целями пользователей. Для сокращения трудозатрат и временных затрат на сбор или аннотацию данных людьми исследователи начинают исследовать использование LLM для генерации синтетических данных, выровненных по инструкциям. Недавние работы сосредотачиваются на генерации разнообразных инструкций и применении LLM для увеличения сложности инструкций, часто пренебрегая последующими случаями использования. Остается неясным, как настроить качественные данные для вызова лучших навыков следования инструкциям в различных целевых распределениях инструкций и LLM. Для этой цели мы представляем CodecLM, общую структуру для адаптивной генерации высококачественных синтетических данных для выравнивания LLM с различными последующими распределениями инструкций и LLM. Основываясь на принципах кодирования-декодирования, мы используем LLM в качестве кодеков для направления процесса генерации данных. Сначала мы кодируем исходные инструкции в метаданные, которые являются краткими ключевыми словами, генерируемыми на лету для захвата целевого распределения инструкций, а затем декодируем метаданные для создания настроенных инструкций. Мы также вводим самооценочные рубрики и контрастное фильтрование во время декодирования для настройки эффективных образцов данных. Обширные эксперименты на четырех бенчмарках следования инструкциям в открытой области подтверждают эффективность CodecLM по сравнению с текущими передовыми технологиями.
В данной статье мы исследуем применение больших языковых моделей (LLM) для предварительного обучения музыке. В то время как широко распространенное использование MIDI в моделировании музыки хорошо известно, наши результаты показывают, что LLM более совместимы с нотацией ABC, которая ближе соответствует их конструкции и преимуществам, тем самым улучшая производительность модели в музыкальной композиции. Для решения проблем, связанных с несогласованными тактами из разных треков во время генерации, мы предлагаем разработку Синхронизированной Мульти-Трековой Нотации ABC (SMT-ABC Notation), которая направлена на сохранение согласованности между несколькими музыкальными треками. Наши достижения включают серию моделей, способных обрабатывать до 8192 токенов, охватывающих 90% символьных данных музыки в нашем наборе данных для обучения. Кроме того, мы исследуем влияние Закона Масштабирования Символьной Музыки (SMS Law) на производительность модели. Результаты указывают на многообещающее направление для будущих исследований в области генерации музыки, предлагая обширные ресурсы для исследований, проводимых сообществом, через наши вклады в открытые исходные коды.
Эволюция 3D генеративного моделирования заметно ускорена за счет принятия 2D моделей диффузии. Несмотря на этот прогресс, трудоемкий процесс оптимизации сам по себе представляет собой критическое препятствие для эффективности. В данной статье мы представляем Hash3D, универсальное ускорение для генерации 3D без обучения модели. Центральной идеей Hash3D является понимание того, что избыточность признаковых карт распространена в изображениях, созданных из позиций камеры и временных шагов диффузии в непосредственной близости. Путем эффективного хеширования и повторного использования этих признаковых карт между соседними временными шагами и углами обзора, Hash3D значительно уменьшает избыточные вычисления, ускоряя вывод диффузионной модели в задачах генерации 3D. Мы достигаем этого с помощью адаптивного сеточного хеширования. Удивительно, что этот механизм обмена признаками не только ускоряет генерацию, но также улучшает плавность и согласованность обзора синтезированных 3D объектов. Наши эксперименты, охватывающие 5 моделей текст-в-3D и 3 модели изображение-в-3D, демонстрируют универсальность Hash3D в ускорении оптимизации, повышая эффективность на 1.3 до 4 раз. Кроме того, интеграция Hash3D с 3D гауссовым сплэттингом значительно ускоряет создание 3D моделей, сокращая обработку текста-в-3D до примерно 10 минут и преобразование изображения-в-3D до приблизительно 30 секунд. Страница проекта находится по адресу https://adamdad.github.io/hash3D/.
Несмотря на широкое распространение LLMs, остается существенный разрыв в их возможностях и доступности на различных языках. Один из подходов к решению этих проблем заключается в том, чтобы взять существующую предварительно обученную LLM и продолжить обучение на новых языках. Хотя ранее были проведены эксперименты по адаптации языка, многие вопросы о лучших практиках и методологии остались нерешенными. В данной статье мы представляем всестороннее исследование адаптации LLMs под новые языки. Наше исследование охватывает ключевые компоненты этого процесса, включая расширение словаря, оптимизацию прямого предпочтения и проблему нехватки данных для выравнивания с человеком на языках с ограниченными ресурсами. Мы масштабируем эти эксперименты на 9 языках и 2 уровнях параметров (7B и 70B). Мы сравниваем наши модели с Llama 2, Aya-101, XGLM, BLOOM и существующими языковыми экспертами, превосходя все предыдущие базовые уровни. Кроме того, весь код оценки и контрольные точки сделаны общедоступными для облегчения будущих исследований.
Генерация 3D из текста достигла выдающихся успехов благодаря моделям диффузии текста в изображение крупного масштаба. Тем не менее, не существует парадигмы для масштабирования методологии до уровня городского масштаба. Городские сцены, характеризующиеся многочисленными элементами, сложными отношениями расположения и огромным масштабом, представляют собой серьезное препятствие для интерпретации неоднозначных текстовых описаний для эффективной оптимизации модели. В данной работе мы преодолеваем ограничения, вводя композиционное представление 3D-макета в парадигму текста в 3D, служащее дополнительным априорным условием. Оно включает набор семантических примитивов с простыми геометрическими структурами и явными отношениями расположения, дополняя текстовые описания и обеспечивая управляемую генерацию. На этом фоне мы предлагаем две модификации - (1) Мы вводим Дистилляцию Оценочной Переменной Поддержки для решения недостатков оптимизации модели. Она условиями процесса выборки дистилляции оценки с геометрическими и семантическими ограничениями 3D-макетов. (2) Для работы с неограниченной природой городских сцен мы представляем 3D-сцену с использованием структуры Масштабируемой Хэш-сетки, постепенно адаптирующейся к растущему масштабу городских сцен. Обширные эксперименты подтверждают способность нашей структуры масштабировать генерацию 3D из текста до городских сцен крупного масштаба, охватывающих расстояние более 1000 метров впервые. Мы также представляем различные демонстрации редактирования сцен, демонстрируя возможности управляемой генерации городских сцен. Веб-сайт: https://urbanarchitect.github.io.
В данной статье мы рассматриваем ограничения Адаптивного Управления Плотностью (ADC) в трехмерном Гауссовом Сплэттинге (3DGS), методе представления сцены, обеспечивающем высококачественные, фотореалистичные результаты для синтеза нового вида. ADC был введен для автоматического управления трехмерными точечными примитивами, контроля плотности и обрезки, однако с определенными ограничениями в логике плотности. Нашим основным вкладом является более обоснованная, основанная на ошибке пикселя, формулировка управления плотностью в 3DGS, использующая вспомогательную функцию ошибки на пиксель в качестве критерия для плотности. Мы также представляем механизм для контроля общего числа примитивов, создаваемых на сцену, и исправляем смещение в текущей стратегии обработки непрозрачности ADC во время операций клонирования. Наш подход приводит к последовательному улучшению качества на различных бенчмарк-сценах, не жертвуя при этом эффективностью метода.
Благодаря быстрому развитию двумерных моделей диффузии в последнее время значительно продвинулось создание трехмерного контента. Одно из перспективных решений заключается в настройке заранее обученных двумерных моделей диффузии для использования их возможностей в создании многозрительных изображений, которые затем преобразуются в точные трехмерные модели с помощью методов, таких как быстрые нелинейные рекурсивные фильтры (fast-NeRFs) или крупные модели реконструкции. Однако, поскольку присутствует несогласованность и ограниченное разрешение генерируемых изображений, результаты генерации с использованием таких методов все еще лишены сложных текстур и геометрических форм. Для решения этой проблемы мы предлагаем Magic-Boost, многозрительную диффузионную модель, которая значительно улучшает грубые результаты генерации через краткий период оптимизации SDS (примерно 15 минут). По сравнению с предыдущими текстовыми или одним изображением основанными моделями диффузии, Magic-Boost обладает надежной способностью генерировать изображения с высокой согласованностью из псевдосинтезированных многозрительных изображений. Он обеспечивает точное руководство SDS, которое хорошо соответствует идентичности входных изображений, обогащая локальные детали как в геометрии, так и в текстуре начальных результатов генерации. Обширные эксперименты показывают, что Magic-Boost значительно улучшает грубые входные данные и генерирует трехмерные ресурсы высокого качества с богатыми геометрическими и текстурными деталями. (Страница проекта: https://magic-research.github.io/magic-boost/)
Объекты, которые манипулируются рукой (т.е. манипулянды), особенно сложно восстановить из естественных RGB изображений или видео. Не только рука частично закрывает объект, но и сам объект часто виден только на небольшом количестве пикселей изображения. В то же время в этой ситуации появляются две сильные опоры: (1) оцененные трехмерные руки помогают разъяснить местоположение и масштаб объекта, и (2) набор манипулянд относительно небольшой по сравнению со всеми возможными объектами. Исходя из этих идей, мы представляем масштабируемую парадигму для восстановления объектов, удерживаемых в руке, которая основана на последних достижениях в области крупных моделей языка/видения и наборов данных трехмерных объектов. Наша модель, MCC-Hand-Object (MCC-HO), совместно восстанавливает геометрию руки и объекта на основе одиночного RGB изображения и выведенных трехмерных рук в качестве входных данных. Затем мы используем GPT-4(V) для извлечения трехмерной модели объекта, соответствующей объекту на изображении, и жестко выравниваем модель с геометрией, выведенной сетью; мы называем это выравнивание "Retrieval-Augmented Reconstruction" (RAR). Эксперименты показывают, что MCC-HO достигает передовых результатов на лабораторных и интернет-наборах данных, и мы показываем, как RAR можно использовать для автоматического получения трехмерных меток для естественных изображений взаимодействия руки с объектом.
Хотя многие показали, как можно применять большие языковые модели (Large Language Models, LLMs) к различным задачам, критические вопросы загрязнения данных и запоминания часто упускаются из виду. В данной работе мы обращаем внимание на эту проблему для табличных данных. Конкретно, мы представляем различные техники для оценки того, видела ли языковая модель набор данных в виде таблицы во время обучения. Это исследование показывает, что LLMs запомнили многие популярные наборы данных в виде таблицы дословно. Затем мы сравниваем производительность обучения с небольшим числом примеров LLMs на наборах данных, которые были видны во время обучения, с производительностью на наборах данных, выпущенных после обучения. Мы обнаружили, что LLMs показывают лучшую производительность на наборах данных, виденных во время обучения, что указывает на то, что запоминание приводит к переобучению. В то же время LLMs показывают незначительную производительность на новых наборах данных и удивительно устойчивы к преобразованиям данных. Затем мы исследуем способности LLMs к статистическому обучению в контексте. Без донастройки мы обнаруживаем, что они ограничены. Это свидетельствует о том, что значительная часть производительности с небольшим числом примеров на новых наборах данных обусловлена мировыми знаниями LLM. В целом, наши результаты подчеркивают важность проверки, видела ли LLM оцениваемый набор данных во время предварительного обучения. Мы предоставляем разработанные нами тесты на экспозицию в виде пакета на Python под названием tabmemcheck по адресу https://github.com/interpretml/LLM-Tabular-Memorization-Checker.