Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели созданы на основе архитектуры на основе трансформера для обработки текстовых входов. Например, LLaMA выделяется среди многих реализаций с открытым исходным кодом. Можно ли использовать тот же трансформер для обработки двумерных изображений? В этой статье мы отвечаем на этот вопрос, раскрывая визионный трансформер в стиле LLaMA в простой и пирамидальной формах, названный VisionLLaMA, который разработан специально для этой цели. VisionLLaMA - это унифицированная и общая модельная платформа для решения большинства задач в области зрения. Мы подробно оцениваем ее эффективность, используя типичные парадигмы предварительного обучения на значительной части последующих задач восприятия изображений, особенно генерации изображений. Во многих случаях VisionLLaMA продемонстрировал значительные улучшения по сравнению с предыдущими передовыми визионными трансформерами. Мы считаем, что VisionLLaMA может служить сильной новой базовой моделью для генерации и понимания изображений. Наш код будет опубликован на https://github.com/Meituan-AutoML/VisionLLaMA.
Архитектура совместного вложения предсказаний (JEPA) стала многообещающим самообучающимся подходом, который учится, используя модель мира. В то время как ранее ограничивалась предсказанием отсутствующих частей ввода, мы исследуем, как обобщить задачу предсказания JEPA на более широкий набор искажений. Мы представляем модели мира изображений, подход, который выходит за рамки моделирования маскированных изображений и учится предсказывать эффект глобальных фотометрических преобразований в скрытом пространстве. Мы изучаем рецепт обучения производительных моделей миров изображений и показываем, что он зависит от трех ключевых аспектов: условий, сложности предсказания и емкости. Кроме того, мы показываем, что предсказательная модель мира, изученная с помощью моделей миров изображений, может быть адаптирована путем дообучения для решения различных задач; дообученная модель мира IWM соответствует или превосходит производительность предыдущих самообучающихся методов. Наконец, мы показываем, что обучение с использованием моделей миров изображений позволяет контролировать уровень абстракции изученных представлений, обучая инвариантные представления, такие как контрастные методы, или эквариантные представления, такие как моделирование маскированных изображений.
Данный документ рассматривает проблему сценариев обучения-короткий тест-длинный (TSTL) в больших языковых моделях (LLM), оборудованных вращающимися позиционными вложениями (RoPE), где модели, предварительно обученные на более коротких последовательностях, сталкиваются с трудностями при обработке позиций токенов вне распределения в более длинных последовательностях. Мы представляем Resonance RoPE, новый подход, разработанный для сужения разрыва обобщения в сценариях TSTL путем улучшения интерполяции функций RoPE для позиций вне распределения, что значительно улучшает производительность модели без дополнительных вычислительных затрат в режиме онлайн. Кроме того, мы представляем PosGen, новый синтетический бенчмарк, специально разработанный для анализа поведения с тонкой настройкой в сценариях TSTL, с целью выделить постоянно возрастающую сложность генерации токенов в длинных контекстах от сложностей распознавания новых позиций токенов. Наши эксперименты на синтетических задачах показывают, что после применения Resonance RoPE трансформеры лучше и более надежно распознают позиции вне распределения. Наши обширные эксперименты с LLM также показывают превосходную производительность после применения Resonance RoPE к текущему методу масштабирования RoPE, YaRN, как на задачах языкового моделирования вверх по потоку, так и на различных прикладных задачах с длинным текстом.
Персонализация текста в изображение, направленная на синтез изображений, управляемых текстом для заданных объектов, недавно революционизировала создание контента. Существующие работы следуют парадигме псевдослов, т.е. представляют заданные объекты как псевдослова, а затем комбинируют их с данным текстом. Однако внутренняя запутанная область влияния псевдослов на данный текст приводит к парадоксу двойной оптимальности, т.е. сходство заданных объектов и управляемость данного текста не могут быть оптимальными одновременно. Мы представляем RealCustom, который впервые разделяет сходство и управляемость, точно ограничивая влияние объекта только на соответствующие части, достигая этого путем постепенного сужения реального слова текста от его общего значения к конкретному объекту и использования кросс-внимания для выделения релевантности. Конкретно, RealCustom вводит новую декоррелированную структуру "обучение-вывод": (1) во время обучения RealCustom изучает общее соответствие между визуальными условиями и оригинальными текстовыми условиями с помощью нового адаптивного модуля оценки для адаптивного модулирования количества влияния; (2) во время вывода предлагается новая стратегия адаптивного маскирования для итеративного обновления области влияния и количества влияния заданных объектов для постепенного сужения генерации реального слова текста. Комплексные эксперименты демонстрируют превосходную возможность мгновенной персонализации RealCustom в открытом домене, впервые достигая как беспрецедентного сходства заданных объектов, так и управляемости данного текста. Страница проекта находится по адресу https://corleone-huang.github.io/realcustom/.
Патчинг активации - это метод прямого вычисления причинно-следственных атрибуций поведения компонентам модели. Однако его полное применение требует сканирования с затратами, линейно масштабирующимися по числу компонентов модели, что может быть чрезмерно дорого для передовых крупных языковых моделей (LLM). Мы исследуем Патчинг Атрибуций (AtP) - быструю градиентную аппроксимацию Патчинга Активации и выявляем два класса режимов отказа AtP, которые приводят к значительным ложным отрицательным результатам. Мы предлагаем вариант AtP под названием AtP*, внесший два изменения для устранения этих режимов отказа, сохраняя при этом масштабируемость. Мы представляем первое систематическое исследование AtP и альтернативных методов для более быстрого патчинга активации и показываем, что AtP значительно превосходит все другие исследуемые методы, а AtP* обеспечивает дополнительное значительное улучшение. Наконец, мы предлагаем метод ограничения вероятности оставшихся ложных отрицательных оценок AtP*.