ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Смесь глубин: Динамическое выделение вычислительных ресурсов в языковых моделях на основе трансформеров
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

Apr 2
ByDavid Raposo, Sam Ritter, Blake Richards, Timothy Lillicrap, Peter Conway Humphreys, Adam Santoro
107
7

Языковые модели на основе трансформеров равномерно распределяют операции с плавающей запятой (FLOPs) по входным последовательностям. В данной работе мы демонстрируем, что трансформеры могут вместо этого научиться динамически распределять FLOPs (или вычисления) на конкретные позиции в последовательности, оптимизируя распределение вдоль последовательности для различных слоев модели. Наш метод обеспечивает общий бюджет вычислений путем ограничения количества токенов (k), которые могут участвовать в самовнимании и вычислениях MLP на данном слое. Токены для обработки определяются сетью с использованием механизма маршрутизации top-k. Поскольку k определяется заранее, этот простой метод использует статический вычислительный граф с известными размерами тензоров, в отличие от других методов условных вычислений. Тем не менее, поскольку идентификаторы k токенов изменчивы, этот метод может неравномерно расходовать FLOPs по временным и глубинным измерениям модели. Таким образом, расход вычислений полностью предсказуем в общей сумме, но динамичен и контекстно-чувствителен на уровне токенов. Модели, обученные таким образом, не только учатся динамически распределять вычисления, но делают это эффективно. Эти модели соответствуют базовой производительности для эквивалентных FLOPS и времени обучения на стенде, но требуют долю FLOPs на каждый прямой проход и могут быть на 50\% быстрее на шаге во время пост-тренировочной выборки.

2

Визуальное авторегрессионное моделирование: масштабируемая генерация изображений с помощью предсказания следующего масштаба.
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Apr 3
ByKeyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
74
3

Мы представляем моделирование визуальной авторегрессии (VAR), новое поколение парадигмы, которое переопределяет авторегрессивное обучение на изображениях как грубое-к-тонкому предсказанию следующего масштаба или следующего разрешения, отклоняясь от стандартного предсказания следующего токена по растровому скану. Этот простой и интуитивный метод позволяет авторегрессивным (AR) трансформерам быстро изучать визуальные распределения и хорошо обобщать: VAR впервые позволяет моделям AR превзойти трансформеры диффузии в генерации изображений. На стандартном наборе данных ImageNet 256x256, VAR значительно улучшает базовую модель AR, улучшая расстояние Фреше-Инцепшн (FID) с 18,65 до 1,80, оценку инцепшн (IS) с 80,4 до 356,4, приблизительно в 20 раз увеличивая скорость вывода. Эмпирически также подтверждено, что VAR превосходит трансформер диффузии (DiT) в нескольких аспектах, включая качество изображения, скорость вывода, эффективность данных и масштабируемость. Увеличение масштаба моделей VAR демонстрирует четкие законы масштабирования степенного закона, аналогичные наблюдаемым в LLM, с линейными коэффициентами корреляции около -0,998 в качестве убедительного доказательства. VAR также демонстрирует способность к обобщению без обучения на примерах в задачах последующего использования, включая заполнение изображения, восстановление изображения и редактирование. Эти результаты указывают на то, что VAR начально эмулирует два важных свойства LLM: законы масштабирования и обобщение задач без обучения на примерах. Мы выпустили все модели и коды для поощрения исследования моделей AR/VAR для визуальной генерации и объединенного обучения.

3

Языковые модели как компиляторы: моделирование выполнения псевдокода улучшает алгоритмическое мышление в языковых моделях.
Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models

Apr 3
ByHyungjoo Chae, Yeonghyeon Kim, Seungone Kim, Kai Tzu-iunn Ong, Beong-woo Kwak, Moohyeon Kim, Seonghwan Kim, Taeyoon Kwon, Jiwan Chung, Youngjae Yu, Jinyoung Yeo
50
9

Алгоритмическое мышление относится к способности понимать сложные паттерны задачи и декомпозировать их на последовательность логических шагов к решению. Такая природа алгоритмического мышления представляет собой вызов для больших языковых моделей (LLM), несмотря на то, что они продемонстрировали многообещающую производительность в других задачах рассуждения. В этом контексте некоторые недавние исследования используют языки программирования (например, Python) для выражения необходимой логики решения данного экземпляра/вопроса (например, Программа-Мысли), вдохновляясь их строгими и точными синтаксисами. Однако написание исполняемого кода, выражающего правильную логику на лету в рамках одного вызова вывода, является нетривиальной задачей. Кроме того, сгенерированный специально для экземпляра код не может быть использован повторно для других, даже если они относятся к той же задаче и могут требовать идентичной логики для решения. В данной статье представлена концепция "Думай и Выполняй", новая платформа, которая декомпозирует процесс рассуждения языковых моделей на два этапа. (1) На этапе Думай мы находим логику на уровне задачи, которая обща для всех экземпляров решения данной задачи, и затем выражаем эту логику псевдокодом; (2) На этапе Выполняй мы дополнительно настраиваем сгенерированный псевдокод для каждого экземпляра и моделируем выполнение кода. Проведя обширные эксперименты по семи задачам алгоритмического рассуждения, мы демонстрируем эффективность "Думай и Выполняй". Наш подход лучше улучшает рассуждение LMs по сравнению с несколькими сильными базовыми вариантами, выполняющими рассуждение для каждого экземпляра (например, CoT и PoT), что указывает на полезность обнаружения логики на уровне задачи. Также мы показываем, что по сравнению с естественным языком, псевдокод может лучше направлять рассуждение LMs, даже если они обучены следовать инструкциям на естественном языке.

4

ChatGLM-Math: Улучшение решения математических задач в больших языковых моделях с помощью конвейера самокритики
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

Apr 3
ByYifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong
22
2

Большие языковые модели (LLM) продемонстрировали отличное владение человеческим языком, однако все еще испытывают трудности в реальных приложениях, требующих решения математических задач. Несмотря на разработку множества стратегий и наборов данных для улучшения математических навыков LLM, остается вызовом одновременное поддержание и улучшение как языковых, так и математических способностей в развернутых системах LLM. В данной работе мы настраиваем конвейер самокритики, который решает проблему на этапе обучения обратной связи выравнивания LLM. Сначала мы обучаем общую модель Math-Critique из самой LLM для предоставления сигналов обратной связи. Затем последовательно применяем отклоняющую донастройку и прямую оптимизацию предпочтений над собственными генерациями LLM для сбора данных. Основываясь на ChatGLM3-32B, мы проводим серию экспериментов как на академических, так и на нашем новом сложном наборе данных MathUserEval. Результаты показывают, что наш конвейер значительно улучшает математическое решение проблем LLM, сохраняя и улучшая его языковые способности, превосходя LLM, которые могут быть вдвое больше. Связанные техники были развернуты для ChatGLM\url{https://chatglm.cn}, онлайн-серверной LLM. Связанный набор данных для оценки и скрипты доступны по ссылке https://github.com/THUDM/ChatGLM-Math.

5

InstantStyle: бесплатный обед в сторону сохранения стиля в текст-в-изображение генерации
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation

Apr 3
ByHaofan Wang, Qixun Wang, Xu Bai, Zekui Qin, Anthony Chen
22
5

Модели на основе диффузии без настройки продемонстрировали значительный потенциал в области персонализации и настройки изображений. Однако, несмотря на значительный прогресс, текущие модели продолжают бороться с несколькими сложными проблемами в создании стильно-согласованной генерации изображений. Во-первых, концепция стиля по своей природе недоопределена, охватывая множество элементов, таких как цвет, материал, атмосфера, дизайн и структура, среди прочих. Во-вторых, методы на основе инверсии подвержены деградации стиля, часто приводя к потере мелких деталей. Наконец, подходы на основе адаптеров часто требуют тщательной настройки весов для каждого опорного изображения, чтобы достичь баланса между интенсивностью стиля и управляемостью текста. В данной статье мы начинаем с рассмотрения нескольких убедительных, но часто пренебрегаемых наблюдений. Затем мы переходим к представлению InstantStyle, фреймворка, разработанного для решения этих проблем путем реализации двух ключевых стратегий: 1) Простой механизм, который разделяет стиль и контент от опорных изображений в пространстве признаков, основанный на предположении, что признаки в одном и том же пространстве могут быть либо добавлены, либо вычтены друг из друга. 2) Внедрение признаков опорного изображения исключительно в блоки, специфичные для стиля, тем самым предотвращая утечки стиля и избегая необходимости громоздкой настройки весов, которая часто характеризует более параметрически насыщенные конструкции. Наша работа демонстрирует превосходные результаты визуальной стилизации, достигая оптимального баланса между интенсивностью стиля и управляемостью текстовых элементов. Наш код будет доступен по адресу https://github.com/InstantStyle/InstantStyle.

6

О масштабируемости генерации изображений на основе диффузии текста.
On the Scalability of Diffusion-based Text-to-Image Generation

Apr 3
ByHao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto
19
0

Масштабирование размера модели и данных оказалось довольно успешным для развития LLMs. Однако законы масштабирования для моделей текст-к изображению (T2I) на основе диффузии пока не до конца изучены. Также неясно, как эффективно масштабировать модель для улучшения производительности при сниженных затратах. Различные настройки обучения и высокие затраты на обучение делают честное сравнение моделей чрезвычайно сложным. В данной работе мы эмпирически изучаем свойства масштабирования моделей T2I на основе диффузии, проводя обширные и строгие исследования по масштабированию как основных компонентов удаления шума, так и обучающего набора, включая обучение масштабированных вариантов UNet и трансформеров с числом параметров от 0.4B до 4B на наборах данных до 600 млн изображений. При масштабировании модели мы обнаружили, что расположение и количество кросс-внимания различают производительность существующих конструкций UNet. Увеличение блоков трансформера более параметроэффективно для улучшения согласования текст-изображение, чем увеличение числа каналов. Затем мы выявили эффективный вариант UNet, который на 45% меньше и на 28% быстрее, чем UNet SDXL. На стороне масштабирования данных мы показываем, что качество и разнообразие обучающего набора имеют большее значение, чем просто размер набора данных. Увеличение плотности и разнообразия подписей улучшает производительность согласования текст-изображение и эффективность обучения. Наконец, мы предоставляем функции масштабирования для прогнозирования производительности согласования текст-изображение как функции от масштаба размера модели, вычислений и размера набора данных.

7

Перекрестное внимание делает выводы сложными в моделях диффузии текста в изображение.
Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

Apr 3
ByWentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber
13
1

Данное исследование исследует роль кросс-внимания во время вывода в текстово-условных моделях диффузии. Мы обнаружили, что выходы кросс-внимания сходятся к фиксированной точке после нескольких шагов вывода. Следовательно, момент сходимости естественным образом делит весь процесс вывода на две стадии: начальную стадию планирования семантики, во время которой модель полагается на кросс-внимание для планирования текстоориентированной визуальной семантики, и последующую стадию улучшения достоверности, во время которой модель пытается генерировать изображения из заранее запланированной семантики. Удивительно, что игнорирование текстовых условий на стадии улучшения достоверности не только снижает сложность вычислений, но и сохраняет производительность модели. Это приводит к простому и не требующему обучения методу, названному TGATE для эффективной генерации, который кэширует выход кросс-внимания после его сходимости и сохраняет его неизменным во время оставшихся шагов вывода. Наше эмпирическое исследование на проверочном наборе данных MS-COCO подтверждает его эффективность. Исходный код TGATE доступен по адресу https://github.com/HaozheLiu-ST/T-GATE.

8

Freditor: Высококачественное и переносимое редактирование NeRF с помощью разложения по частотам
Freditor: High-Fidelity and Transferable NeRF Editing by Frequency Decomposition

Apr 3
ByYisheng He, Weihao Yuan, Siyu Zhu, Zilong Dong, Liefeng Bo, Qixing Huang
11
0

Этот документ позволяет осуществлять редактирование NeRF с высокой степенью достоверности и передачи по частотной декомпозиции. Недавние конвейеры редактирования NeRF преобразуют результаты стилизации 2D в сцены 3D, однако страдают от размытых результатов и не удается захватить детальные структуры, вызванные несоответствием между 2D редактированиями. Наш ключевой анализ заключается в том, что низкочастотные компоненты изображений более мультивидово согласованы после редактирования по сравнению с их высокочастотными частями. Более того, стиль внешнего вида в основном проявляется на низкочастотных компонентах, а детали контента особенно находятся в высокочастотных частях. Это мотивирует нас выполнять редактирование на низкочастотных компонентах, что приводит к созданию сцен с высокой степенью достоверности. Кроме того, редактирование выполняется в пространстве низкочастотных признаков, обеспечивая стабильный контроль интенсивности и новую передачу сцен. Обширные эксперименты, проведенные на фотореалистичных наборах данных, демонстрируют превосходную производительность редактирования NeRF с высокой степенью достоверности и передачи. Страница проекта находится по адресу https://aigc3d.github.io/freditor.

Apr 3
Apr 4
Apr 5