Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые модели на основе трансформеров равномерно распределяют операции с плавающей запятой (FLOPs) по входным последовательностям. В данной работе мы демонстрируем, что трансформеры могут вместо этого научиться динамически распределять FLOPs (или вычисления) на конкретные позиции в последовательности, оптимизируя распределение вдоль последовательности для различных слоев модели. Наш метод обеспечивает общий бюджет вычислений путем ограничения количества токенов (k), которые могут участвовать в самовнимании и вычислениях MLP на данном слое. Токены для обработки определяются сетью с использованием механизма маршрутизации top-k. Поскольку k определяется заранее, этот простой метод использует статический вычислительный граф с известными размерами тензоров, в отличие от других методов условных вычислений. Тем не менее, поскольку идентификаторы k токенов изменчивы, этот метод может неравномерно расходовать FLOPs по временным и глубинным измерениям модели. Таким образом, расход вычислений полностью предсказуем в общей сумме, но динамичен и контекстно-чувствителен на уровне токенов. Модели, обученные таким образом, не только учатся динамически распределять вычисления, но делают это эффективно. Эти модели соответствуют базовой производительности для эквивалентных FLOPS и времени обучения на стенде, но требуют долю FLOPs на каждый прямой проход и могут быть на 50\% быстрее на шаге во время пост-тренировочной выборки.
Мы представляем моделирование визуальной авторегрессии (VAR), новое поколение парадигмы, которое переопределяет авторегрессивное обучение на изображениях как грубое-к-тонкому предсказанию следующего масштаба или следующего разрешения, отклоняясь от стандартного предсказания следующего токена по растровому скану. Этот простой и интуитивный метод позволяет авторегрессивным (AR) трансформерам быстро изучать визуальные распределения и хорошо обобщать: VAR впервые позволяет моделям AR превзойти трансформеры диффузии в генерации изображений. На стандартном наборе данных ImageNet 256x256, VAR значительно улучшает базовую модель AR, улучшая расстояние Фреше-Инцепшн (FID) с 18,65 до 1,80, оценку инцепшн (IS) с 80,4 до 356,4, приблизительно в 20 раз увеличивая скорость вывода. Эмпирически также подтверждено, что VAR превосходит трансформер диффузии (DiT) в нескольких аспектах, включая качество изображения, скорость вывода, эффективность данных и масштабируемость. Увеличение масштаба моделей VAR демонстрирует четкие законы масштабирования степенного закона, аналогичные наблюдаемым в LLM, с линейными коэффициентами корреляции около -0,998 в качестве убедительного доказательства. VAR также демонстрирует способность к обобщению без обучения на примерах в задачах последующего использования, включая заполнение изображения, восстановление изображения и редактирование. Эти результаты указывают на то, что VAR начально эмулирует два важных свойства LLM: законы масштабирования и обобщение задач без обучения на примерах. Мы выпустили все модели и коды для поощрения исследования моделей AR/VAR для визуальной генерации и объединенного обучения.
Алгоритмическое мышление относится к способности понимать сложные паттерны задачи и декомпозировать их на последовательность логических шагов к решению. Такая природа алгоритмического мышления представляет собой вызов для больших языковых моделей (LLM), несмотря на то, что они продемонстрировали многообещающую производительность в других задачах рассуждения. В этом контексте некоторые недавние исследования используют языки программирования (например, Python) для выражения необходимой логики решения данного экземпляра/вопроса (например, Программа-Мысли), вдохновляясь их строгими и точными синтаксисами. Однако написание исполняемого кода, выражающего правильную логику на лету в рамках одного вызова вывода, является нетривиальной задачей. Кроме того, сгенерированный специально для экземпляра код не может быть использован повторно для других, даже если они относятся к той же задаче и могут требовать идентичной логики для решения. В данной статье представлена концепция "Думай и Выполняй", новая платформа, которая декомпозирует процесс рассуждения языковых моделей на два этапа. (1) На этапе Думай мы находим логику на уровне задачи, которая обща для всех экземпляров решения данной задачи, и затем выражаем эту логику псевдокодом; (2) На этапе Выполняй мы дополнительно настраиваем сгенерированный псевдокод для каждого экземпляра и моделируем выполнение кода. Проведя обширные эксперименты по семи задачам алгоритмического рассуждения, мы демонстрируем эффективность "Думай и Выполняй". Наш подход лучше улучшает рассуждение LMs по сравнению с несколькими сильными базовыми вариантами, выполняющими рассуждение для каждого экземпляра (например, CoT и PoT), что указывает на полезность обнаружения логики на уровне задачи. Также мы показываем, что по сравнению с естественным языком, псевдокод может лучше направлять рассуждение LMs, даже если они обучены следовать инструкциям на естественном языке.
Большие языковые модели (LLM) продемонстрировали отличное владение человеческим языком, однако все еще испытывают трудности в реальных приложениях, требующих решения математических задач. Несмотря на разработку множества стратегий и наборов данных для улучшения математических навыков LLM, остается вызовом одновременное поддержание и улучшение как языковых, так и математических способностей в развернутых системах LLM. В данной работе мы настраиваем конвейер самокритики, который решает проблему на этапе обучения обратной связи выравнивания LLM. Сначала мы обучаем общую модель Math-Critique из самой LLM для предоставления сигналов обратной связи. Затем последовательно применяем отклоняющую донастройку и прямую оптимизацию предпочтений над собственными генерациями LLM для сбора данных. Основываясь на ChatGLM3-32B, мы проводим серию экспериментов как на академических, так и на нашем новом сложном наборе данных MathUserEval. Результаты показывают, что наш конвейер значительно улучшает математическое решение проблем LLM, сохраняя и улучшая его языковые способности, превосходя LLM, которые могут быть вдвое больше. Связанные техники были развернуты для ChatGLM\url{https://chatglm.cn}, онлайн-серверной LLM. Связанный набор данных для оценки и скрипты доступны по ссылке https://github.com/THUDM/ChatGLM-Math.
Модели на основе диффузии без настройки продемонстрировали значительный потенциал в области персонализации и настройки изображений. Однако, несмотря на значительный прогресс, текущие модели продолжают бороться с несколькими сложными проблемами в создании стильно-согласованной генерации изображений. Во-первых, концепция стиля по своей природе недоопределена, охватывая множество элементов, таких как цвет, материал, атмосфера, дизайн и структура, среди прочих. Во-вторых, методы на основе инверсии подвержены деградации стиля, часто приводя к потере мелких деталей. Наконец, подходы на основе адаптеров часто требуют тщательной настройки весов для каждого опорного изображения, чтобы достичь баланса между интенсивностью стиля и управляемостью текста. В данной статье мы начинаем с рассмотрения нескольких убедительных, но часто пренебрегаемых наблюдений. Затем мы переходим к представлению InstantStyle, фреймворка, разработанного для решения этих проблем путем реализации двух ключевых стратегий: 1) Простой механизм, который разделяет стиль и контент от опорных изображений в пространстве признаков, основанный на предположении, что признаки в одном и том же пространстве могут быть либо добавлены, либо вычтены друг из друга. 2) Внедрение признаков опорного изображения исключительно в блоки, специфичные для стиля, тем самым предотвращая утечки стиля и избегая необходимости громоздкой настройки весов, которая часто характеризует более параметрически насыщенные конструкции. Наша работа демонстрирует превосходные результаты визуальной стилизации, достигая оптимального баланса между интенсивностью стиля и управляемостью текстовых элементов. Наш код будет доступен по адресу https://github.com/InstantStyle/InstantStyle.
Масштабирование размера модели и данных оказалось довольно успешным для развития LLMs. Однако законы масштабирования для моделей текст-к изображению (T2I) на основе диффузии пока не до конца изучены. Также неясно, как эффективно масштабировать модель для улучшения производительности при сниженных затратах. Различные настройки обучения и высокие затраты на обучение делают честное сравнение моделей чрезвычайно сложным. В данной работе мы эмпирически изучаем свойства масштабирования моделей T2I на основе диффузии, проводя обширные и строгие исследования по масштабированию как основных компонентов удаления шума, так и обучающего набора, включая обучение масштабированных вариантов UNet и трансформеров с числом параметров от 0.4B до 4B на наборах данных до 600 млн изображений. При масштабировании модели мы обнаружили, что расположение и количество кросс-внимания различают производительность существующих конструкций UNet. Увеличение блоков трансформера более параметроэффективно для улучшения согласования текст-изображение, чем увеличение числа каналов. Затем мы выявили эффективный вариант UNet, который на 45% меньше и на 28% быстрее, чем UNet SDXL. На стороне масштабирования данных мы показываем, что качество и разнообразие обучающего набора имеют большее значение, чем просто размер набора данных. Увеличение плотности и разнообразия подписей улучшает производительность согласования текст-изображение и эффективность обучения. Наконец, мы предоставляем функции масштабирования для прогнозирования производительности согласования текст-изображение как функции от масштаба размера модели, вычислений и размера набора данных.
Данное исследование исследует роль кросс-внимания во время вывода в текстово-условных моделях диффузии. Мы обнаружили, что выходы кросс-внимания сходятся к фиксированной точке после нескольких шагов вывода. Следовательно, момент сходимости естественным образом делит весь процесс вывода на две стадии: начальную стадию планирования семантики, во время которой модель полагается на кросс-внимание для планирования текстоориентированной визуальной семантики, и последующую стадию улучшения достоверности, во время которой модель пытается генерировать изображения из заранее запланированной семантики. Удивительно, что игнорирование текстовых условий на стадии улучшения достоверности не только снижает сложность вычислений, но и сохраняет производительность модели. Это приводит к простому и не требующему обучения методу, названному TGATE для эффективной генерации, который кэширует выход кросс-внимания после его сходимости и сохраняет его неизменным во время оставшихся шагов вывода. Наше эмпирическое исследование на проверочном наборе данных MS-COCO подтверждает его эффективность. Исходный код TGATE доступен по адресу https://github.com/HaozheLiu-ST/T-GATE.
Этот документ позволяет осуществлять редактирование NeRF с высокой степенью достоверности и передачи по частотной декомпозиции. Недавние конвейеры редактирования NeRF преобразуют результаты стилизации 2D в сцены 3D, однако страдают от размытых результатов и не удается захватить детальные структуры, вызванные несоответствием между 2D редактированиями. Наш ключевой анализ заключается в том, что низкочастотные компоненты изображений более мультивидово согласованы после редактирования по сравнению с их высокочастотными частями. Более того, стиль внешнего вида в основном проявляется на низкочастотных компонентах, а детали контента особенно находятся в высокочастотных частях. Это мотивирует нас выполнять редактирование на низкочастотных компонентах, что приводит к созданию сцен с высокой степенью достоверности. Кроме того, редактирование выполняется в пространстве низкочастотных признаков, обеспечивая стабильный контроль интенсивности и новую передачу сцен. Обширные эксперименты, проведенные на фотореалистичных наборах данных, демонстрируют превосходную производительность редактирования NeRF с высокой степенью достоверности и передачи. Страница проекта находится по адресу https://aigc3d.github.io/freditor.