Ежедневно отобранные исследовательские статьи по ИИ с переводами
Дорогостоящие слои самовнимания в современных трансформерах требуют памяти и вычислений, квадратично зависящих от длины последовательности. Существующие методы аппроксимации обычно демонстрируют низкую производительность и не обеспечивают значительного ускорения на практике. В данной работе мы представляем SwitchHead — новый метод, который снижает требования к вычислениям и памяти, обеспечивает ускорение в реальном времени, при этом сохраняя качество языкового моделирования на уровне базовых трансформеров с тем же бюджетом параметров. SwitchHead использует слои "Смеси экспертов" (MoE) для проекций значений и выходных данных и требует в 4–8 раз меньше матриц внимания по сравнению со стандартными трансформерами. Наш новый подход к вниманию также может быть объединен с MoE-слоями MLP, что приводит к созданию эффективной полностью MoE-модели трансформера "SwitchAll". Наш код доступен публично.
Хотя генерация видео на основе диффузионных моделей демонстрирует быстрый прогресс, результаты вывода существующих моделей всё ещё страдают от недостаточной временной согласованности и неестественной динамики. В данной статье мы глубоко исследуем инициализацию шума в видео диффузионных моделях и обнаруживаем скрытый разрыв между обучением и выводом, который объясняет неудовлетворительное качество генерации. Наши ключевые выводы заключаются в следующем: 1) пространственно-временное частотное распределение начального латентного состояния при выводе существенно отличается от такового при обучении, и 2) процесс удаления шума значительно зависит от низкочастотных компонент начального шума. Вдохновлённые этими наблюдениями, мы предлагаем простую, но эффективную стратегию сэмплинга для вывода — FreeInit, которая значительно улучшает временную согласованность видео, генерируемых диффузионными моделями. Путём итеративного уточнения низкочастотных пространственно-временных компонент начального латентного состояния во время вывода, FreeInit способна компенсировать разрыв в инициализации между обучением и выводом, тем самым эффективно улучшая внешний вид объектов и временную согласованность результатов генерации. Многочисленные эксперименты показывают, что FreeInit стабильно улучшает результаты генерации различных моделей текстового преобразования в видео без необходимости дополнительного обучения.
Модели визуального языка (VLM) быстро развиваются благодаря недавним успехам крупных языковых моделей. Увеличиваются усилия по настройке визуальных инструкций для расширения возможностей LLM с использованием визуальных входных данных, однако отсутствует глубокое изучение процесса предварительного обучения визуального языка, где модель учится выполнять совместное моделирование для обеих модальностей. В данной работе мы исследуем варианты проектирования предварительного обучения VLM, поэтапно преобразуя LLM в VLM с помощью контролируемых сравнений. Мы представляем три основных вывода: (1) заморозка LLM во время предварительного обучения может обеспечить достойную производительность в условиях zero-shot, но ограничивает способность к обучению в контексте, что требует разморозки LLM; (2) чередующиеся данные предварительного обучения полезны, тогда как только пары изображение-текст не являются оптимальными; (3) повторное смешивание текстовых инструкций с данными изображение-текст во время тонкой настройки инструкций не только устраняет ухудшение производительности в текстовых задачах, но и повышает точность задач VLM. С улучшенным рецептом предварительного обучения мы создаем семейство моделей VILA (Visual Language), которое стабильно превосходит современные модели, например, LLaVA-1.5, на основных бенчмарках без дополнительных усложнений. Мультимодальное предварительное обучение также помогает раскрыть привлекательные свойства VILA, включая рассуждения с использованием нескольких изображений, улучшенное обучение в контексте и более глубокие знания о мире.
Диффузионные модели достигли выдающегося качества генерации изображений, превзойдя предыдущие генеративные модели. Однако заметным ограничением диффузионных моделей по сравнению с GAN является их сложность в плавной интерполяции между двумя образцами изображений из-за их высоко неструктурированного латентного пространства. Такая плавная интерполяция представляет интерес, поскольку естественным образом служит решением задачи морфинга изображений с множеством применений. В данной работе мы представляем DiffMorpher — первый подход, позволяющий осуществлять плавную и естественную интерполяцию изображений с использованием диффузионных моделей. Наша ключевая идея заключается в том, чтобы захватить семантику двух изображений, адаптировав для них две модели LoRA соответственно, и интерполировать как параметры LoRA, так и латентные шумы, чтобы обеспечить плавный семантический переход, где соответствие возникает автоматически без необходимости аннотации. Кроме того, мы предлагаем технику интерполяции и инъекции внимания, а также новый график сэмплинга для дальнейшего повышения плавности между последовательными изображениями. Многочисленные эксперименты демонстрируют, что DiffMorpher достигает значительно лучших эффектов морфинга изображений, чем предыдущие методы, для различных категорий объектов, устраняя критический функциональный разрыв, который отличал диффузионные модели от GAN.
Современные подходы, такие как ControlNet, предоставляют пользователям детализированный пространственный контроль над моделями диффузии для генерации изображений из текста (T2I). Однако для каждого типа пространственных условий, архитектуры модели и контрольной точки необходимо обучать вспомогательные модули, что противоречит разнообразным намерениям и предпочтениям, которые дизайнер хотел бы передать ИИ-моделям в процессе создания контента. В данной работе мы представляем FreeControl — подход для управляемой генерации T2I, не требующий обучения и поддерживающий одновременно несколько условий, архитектур и контрольных точек. FreeControl разрабатывает структурное руководство для обеспечения выравнивания структуры с изображением-ориентиром и визуальное руководство для обеспечения согласованности внешнего вида между изображениями, сгенерированными с использованием одного и того же начального значения. Многочисленные качественные и количественные эксперименты демонстрируют превосходную производительность FreeControl на различных предобученных T2I-моделях. В частности, FreeControl обеспечивает удобный контроль без необходимости обучения для множества различных архитектур и контрольных точек, позволяет работать со сложными входными условиями, на которых большинство существующих методов без обучения терпят неудачу, и достигает конкурентоспособного качества синтеза по сравнению с подходами, требующими обучения.
Оценка больших языковых моделей (LLM) имеет решающее значение для анализа их производительности и снижения потенциальных рисков безопасности. В данной статье мы представляем PromptBench — унифицированную библиотеку для оценки LLM. Она включает несколько ключевых компонентов, которые легко использовать и расширять исследователям: создание промптов, инженерию промптов, загрузку наборов данных и моделей, атаки с использованием вредоносных промптов, динамические протоколы оценки и инструменты анализа. PromptBench разработан как открытая, универсальная и гибкая кодовая база для исследовательских целей, которая может способствовать оригинальным исследованиям в создании новых бенчмарков, развертывании прикладных решений и разработке новых протоколов оценки. Код доступен по адресу: https://github.com/microsoft/promptbench и будет постоянно поддерживаться.
Мы рассматриваем применение предобученных базовых моделей в робототехнике. Традиционные модели глубокого обучения в робототехнике обучаются на небольших наборах данных, адаптированных для конкретных задач, что ограничивает их применимость в разнообразных сценариях. В отличие от них, базовые модели, предобученные на данных интернет-масштаба, демонстрируют превосходные способности к обобщению и в некоторых случаях проявляют эмерджентную способность находить решения для задач, отсутствующих в обучающих данных, в режиме "zero-shot". Базовые модели могут обладать потенциалом для улучшения различных компонентов стека автономии роботов, от восприятия до принятия решений и управления. Например, крупные языковые модели способны генерировать код или предоставлять здравый смысл, а модели, объединяющие зрение и язык, позволяют выполнять открытое визуальное распознавание. Однако остаются значительные открытые исследовательские проблемы, особенно в связи с недостатком данных, релевантных для робототехники, гарантиями безопасности и количественной оценкой неопределенности, а также выполнением в реальном времени. В данном обзоре мы изучаем недавние работы, в которых использовались или создавались базовые модели для решения задач робототехники. Мы исследуем, как базовые модели способствуют улучшению возможностей роботов в областях восприятия, принятия решений и управления. Мы обсуждаем вызовы, препятствующие внедрению базовых моделей в автономию роботов, и предлагаем возможности и потенциальные пути для будущих достижений. Проект на GitHub, соответствующий этой статье (Предварительный выпуск. Мы стремимся к дальнейшему улучшению и обновлению этой работы для обеспечения её качества и актуальности), доступен по ссылке: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models.
Из-за значительного масштаба больших языковых моделей (LLM) прямое применение традиционных методов сжатия оказывается непрактичным. Вычислительные требования, связанные даже с минимальными обновлениями градиентов, создают трудности, особенно на потребительском оборудовании. В данной статье представлен инновационный подход к параметрическому и практическому сжатию LLM, основанный на моделировании пониженного порядка, которое включает низкоранговое разложение в пространстве признаков и перепараметризацию в пространстве весов. Примечательно, что эта техника сжатия работает послойно, устраняя необходимость в GPU и позволяя сжимать модели масштаба миллиардов параметров в условиях строгих ограничений по памяти и времени. Наш метод представляет собой значительный прогресс в сжатии моделей за счет использования матричного разложения, демонстрируя превосходную эффективность по сравнению с современным методом структурированного прореживания.
Последние исследования достигли значительных успехов в применении методов согласования для повышения полезности и безопасности крупных языковых моделей (LLM) в соответствии с человеческими намерениями. В данной статье мы обосновываем важность согласования для честности, обеспечивая, чтобы LLM активно отказывались отвечать на вопросы, когда у них недостаточно знаний, при этом не становясь излишне консервативными. Однако ключевым аспектом согласования для честности является определение границ знаний LLM, что далеко не просто. Эта задача требует комплексных решений в области разработки метрик, создания эталонных тестов и методологий обучения. В данной статье мы решаем эти задачи, сначала устанавливая точное определение проблемы и определяя «честность», вдохновляясь «Аналектами Конфуция». Это служит основой для разработки метрик, которые эффективно измеряют честность LLM, количественно оценивая её прогресс после согласования. Кроме того, мы представляем гибкую структуру обучения, которая далее реализуется с помощью нескольких эффективных методов тонкой настройки, подчеркивающих честность без ущерба для производительности в других задачах. Наши обширные эксперименты показывают, что эти согласованные модели демонстрируют заметное увеличение честности, что подтверждается предложенными нами метриками. Мы открываем доступ к множеству ресурсов для содействия будущим исследованиям на https://github.com/GAIR-NLP/alignment-for-honesty, включая модели, согласованные для честности, наборы данных для обучения и оценки согласования для честности, глоссарий концепций, а также весь соответствующий исходный код.
Мы представляем FIND — универсальный интерфейс для согласования эмбеддингов базовых моделей. Как показано на иллюстрации, легковесный трансформерный интерфейс, не требующий настройки весов базовых моделей, достаточен для унифицированного понимания на уровне изображений (сегментация) и наборов данных (поиск). Предлагаемый интерфейс обладает следующими преимуществами: (1) Универсальность. Он применим к различным задачам, таким как поиск, сегментация и другие, в рамках одной архитектуры и весов. (2) Прототипируемость. Различные задачи могут быть реализованы через прототипирование масок внимания и типов эмбеддингов. (3) Расширяемость. Предложенный интерфейс адаптируется к новым задачам и моделям. (4) Переплетаемость. Благодаря многозадачному и многомодальному обучению, предложенный интерфейс создает переплетенное общее пространство эмбеддингов. В свете этого переплетенного пространства мы представляем FIND-Bench, который добавляет новые аннотации для обучения и оценки в набор данных COCO для переплетенной сегментации и поиска. Наш подход демонстрирует передовые результаты на FIND-Bench и конкурентоспособные результаты в стандартных задачах поиска и сегментации. Код для обучения, оценки и демонстрации, а также набор данных доступны по адресу https://github.com/UX-Decoder/FIND.
Хотя нейронный рендеринг привел к впечатляющим достижениям в реконструкции сцен и синтезе новых ракурсов, он сильно зависит от точно предварительно вычисленных поз камер. Чтобы ослабить это ограничение, было предпринято несколько попыток обучить Neural Radiance Fields (NeRF) без предварительно обработанных поз камер. Однако неявные представления NeRF создают дополнительные сложности для одновременной оптимизации 3D-структуры и поз камер. С другой стороны, недавно предложенный метод 3D Gaussian Splatting предоставляет новые возможности благодаря своим явным представлениям в виде облака точек. В данной работе используются как явное геометрическое представление, так и непрерывность входного видеопотока для синтеза новых ракурсов без какой-либо предварительной обработки с использованием SfM. Мы обрабатываем входные кадры последовательно и постепенно расширяем набор 3D-гауссов, обрабатывая по одному входному кадру за раз, без необходимости предварительного вычисления поз камер. Наш метод значительно превосходит предыдущие подходы в синтезе ракурсов и оценке поз камер при значительных изменениях движения. Страница проекта доступна по адресу: https://oasisyang.github.io/colmap-free-3dgs.
Модели согласованности (Consistency Models, CMs) продемонстрировали потенциал в эффективном создании визуального контента высокого качества. Однако способы добавления новых условных управлений к предобученным CMs остаются неисследованными. В данном техническом отчете мы рассматриваем альтернативные стратегии для добавления условного управления, подобного ControlNet, к CMs и представляем три значимых результата. 1) ControlNet, обученный для диффузионных моделей (DMs), может быть напрямую применен к CMs для управления высокоуровневой семантикой, но испытывает трудности с управлением низкоуровневыми деталями и реализмом. 2) CMs представляют собой самостоятельный класс генеративных моделей, на основе которых ControlNet может быть обучен с нуля с использованием метода Consistency Training, предложенного Song et al. 3) Легковесный адаптер может быть совместно оптимизирован для работы с несколькими условиями с помощью Consistency Training, что позволяет быстро переносить ControlNet, основанный на DMs, на CMs. Мы исследуем эти три решения для различных типов условных управлений, включая границы, глубину, позу человека, изображения низкого разрешения и маскированные изображения с использованием латентных моделей согласованности для текста в изображение.
Мы представляем Contrastive Activation Addition (CAA) — инновационный метод управления языковыми моделями путем модификации активаций в процессе их прямого прохода. CAA вычисляет «векторы управления», усредняя разницу в активациях остаточного потока между парами положительных и отрицательных примеров определенного поведения, таких как фактические и галлюцинированные ответы. Во время вывода эти векторы добавляются на всех позициях токенов после пользовательского запроса с положительным или отрицательным коэффициентом, что позволяет точно контролировать степень целевого поведения. Мы оцениваем эффективность CAA на модели Llama 2 Chat, используя как наборы данных с поведенческими вопросами с множественным выбором, так и задачи открытой генерации. Мы демонстрируем, что CAA значительно изменяет поведение модели, превосходит традиционные методы, такие как дообучение и few-shot prompting, и минимально снижает возможности модели. Более того, применяя различные методы интерпретации пространства активаций, мы получаем более глубокое понимание механизмов CAA. CAA не только точно управляет выходами модели, но и проливает свет на то, как высокоуровневые концепции представлены в крупных языковых моделях (LLM).
В мультимодальных больших языковых моделях (MLLMs) визуальный проектор играет ключевую роль, связывая предобученные визуальные кодировщики с языковыми моделями, что позволяет достичь глубокого понимания визуальной информации, одновременно используя мощные возможности языковых моделей. Несмотря на важность визуального проектора, он остается относительно малоизученным. В данном исследовании мы сначала выделяем два ключевых свойства проектора: (i) гибкость в управлении количеством визуальных токенов, что критически важно для общей эффективности MLLMs, и (ii) сохранение локального контекста из визуальных признаков, что необходимо для пространственного понимания. На основе этих выводов мы предлагаем новую конструкцию проектора, которая является одновременно гибкой и усиленной с точки зрения локальности, эффективно удовлетворяя двум желаемым свойствам. Кроме того, мы представляем комплексные стратегии для эффективного использования множественных и многоаспектных наборов инструктивных данных. В ходе обширных экспериментов мы исследуем влияние отдельных конструктивных решений. Наконец, наша предложенная MLLM, Honeybee, значительно превосходит предыдущие передовые методы на различных бенчмарках, включая MME, MMBench, SEED-Bench и LLaVA-Bench, достигая существенно более высокой эффективности. Код и модели доступны по адресу https://github.com/kakaobrain/honeybee.
В последнее время наблюдается значительный прогресс в области генерации видео из текста, где современные модели способны создавать высококачественные и реалистичные видеоролики. Однако эти модели не предоставляют пользователям возможности интерактивного управления и генерации видео, что могло бы открыть новые области применения. В качестве первого шага к этой цели мы решаем задачу наделения моделей генерации видео на основе диффузии интерактивным пространственно-временным контролем над их выходными данными. Вдохновляясь последними достижениями в области сегментации, мы предлагаем новый модуль пространственно-временного маскированного внимания — Peekaboo. Этот модуль представляет собой дополнение к готовым моделям генерации видео, не требующее дополнительного обучения и не увеличивающее вычислительные затраты на этапе вывода, что позволяет осуществлять пространственно-временной контроль. Мы также предлагаем эталонный набор для оценки задачи интерактивной генерации видео. Благодаря обширной качественной и количественной оценке мы демонстрируем, что Peekaboo обеспечивает управляемую генерацию видео и даже позволяет достичь улучшения в mIoU до 3.8 раз по сравнению с базовыми моделями.
В машинном обучении обобщение в условиях сдвигов распределения — когда условия развертывания отличаются от сценариев обучения — имеет критическое значение, особенно в таких областях, как климатическое моделирование, биомедицина и автономное вождение. Появление базовых моделей, отличающихся масштабным предварительным обучением и универсальностью в решении задач, вызвало повышенный интерес к их адаптивности к сдвигам распределения. GPT-4V(ision) представляет собой наиболее продвинутую общедоступную мультимодальную базовую модель с широким спектром применений в различных областях, включая обнаружение аномалий, понимание видео, генерацию изображений и медицинскую диагностику. Однако её устойчивость к изменениям в распределении данных остается малоизученной. Восполняя этот пробел, данное исследование тщательно оценивает адаптивность и способность к обобщению GPT-4V в динамических средах, сравнивая её с известными моделями, такими как CLIP и LLaVA. Мы углубляемся в изучение нулевого обобщения GPT-4V на 13 разнообразных наборах данных, охватывающих естественные, медицинские и молекулярные области. Кроме того, мы исследуем её адаптивность к контролируемым возмущениям данных и изучаем эффективность обучения в контексте как инструмента для улучшения её адаптации. Наши результаты определяют границы возможностей GPT-4V в условиях сдвигов распределения, выявляя её сильные и слабые стороны в различных сценариях. Важно отметить, что это исследование способствует пониманию того, как базовые модели ИИ обобщают сдвиги распределения, предоставляя ключевые инсайты об их адаптивности и устойчивости. Код доступен по адресу: https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
Диффузионные трансформеры недавно продемонстрировали выдающуюся эффективность в генерации высококачественных 3D-облаков точек. Однако обучение воксельных диффузионных моделей для высокоразрешающих 3D-вокселей остается чрезмерно дорогостоящим из-за кубической сложности операторов внимания, обусловленной дополнительным измерением вокселей. Вдохновленные внутренней избыточностью 3D по сравнению с 2D, мы предлагаем FastDiT-3D — новый маскированный диффузионный трансформер, оптимизированный для эффективной генерации 3D-облаков точек, что значительно снижает затраты на обучение. В частности, мы черпаем идеи из маскированных автоэнкодеров для динамического выполнения процесса удаления шума на маскированных вокселизованных облаках точек. Мы также предлагаем новую стратегию маскирования, учитывающую воксели, для адаптивного агрегирования информации о фоне и переднем плане из вокселизованных облаков точек. Наш метод достигает наилучших результатов с экстремальным коэффициентом маскирования, близким к 99%. Более того, для улучшения генерации 3D-объектов нескольких категорий мы внедряем подход Mixture-of-Expert (MoE) в 3D-диффузионную модель. Каждая категория может изучать отдельный путь диффузии с разными экспертами, что снижает конфликт градиентов. Экспериментальные результаты на наборе данных ShapeNet демонстрируют, что наш метод достигает наилучших показателей по точности и разнообразию генерации 3D-облаков точек. FastDiT-3D улучшает метрики 1-Nearest Neighbor Accuracy и Coverage при генерации воксельных облаков точек с разрешением 128, используя всего 6,5% от исходных затрат на обучение.
Ключевым фактором успеха систем поддержки принятия решений является точное моделирование предпочтений пользователей. Исследования в области психологии показали, что пользователи часто формируют свои предпочтения в процессе их выявления, что подчеркивает важность взаимодействия между системой и пользователем при разработке персонализированных систем. В данной статье представлен новый подход, сочетающий крупные языковые модели (LLM) с ограниченным программированием для обеспечения интерактивной поддержки принятия решений. Мы исследуем этот гибридный подход на примере планирования встреч — трудоемкой повседневной задачи, с которой сталкиваются множество информационных работников. Мы провели три исследования для оценки нового подхода, включая дневниковое исследование (n=64) для характеристики контекстуальных предпочтений при планировании, количественную оценку производительности системы и пользовательское исследование (n=10) с использованием прототипа системы. Наша работа подчеркивает потенциал гибридного подхода, объединяющего LLM и методы оптимизации, для итеративного выявления предпочтений, а также рассматривает аспекты проектирования систем, поддерживающих процессы совместного принятия решений человеком и системой.