Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

WALL-E: Выравнивание мира посредством обучения правил улучшает модель мира на основе LLM агентов
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Oct 9

BySiyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang

Могут ли большие языковые модели (LLM) непосредственно служить мощными моделями мира для агентов, основанных на моделях? Хотя разрывы между предварительными знаниями LLM и динамикой указанной среды существуют, наше исследование показывает, что эти разрывы могут быть преодолены путем выравнивания LLM с развернутой средой, и такое "выравнивание мира" может быть эффективно достигнуто путем обучения правилам на LLM. Учитывая богатые предварительные знания LLM, лишь несколько дополнительных правил достаточны для выравнивания прогнозов LLM с динамикой указанной среды. В этом контексте мы предлагаем нейросимволический подход к обучению этих правил без градиента через LLM, путем индукции, обновления и обрезки правил на основе сравнений траекторий, исследуемых агентом, и прогнозов модели мира. Получившаяся модель мира состоит из LLM и выученных правил. Наш воплощенный агент LLM "WALL-E" построен на модельно-предиктивном управлении (MPC). Оптимизируя действия с просмотром вперед на основе точной модели мира, MPC значительно улучшает эффективность исследования и обучения. По сравнению с существующими агентами LLM, рассуждения WALL-E требуют лишь нескольких основных правил, а не многословных буферизированных траекторий, включенных во вход LLM. На вызовах в открытом мире в Minecraft и ALFWorld WALL-E достигает более высоких показателей успеха, чем существующие методы, с более низкими затратами на время перепланирования и количество использованных токенов для рассуждений. В Minecraft WALL-E превосходит базовые значения на 15-30% в показателях успеха, при этом требуя на 8-20 меньше раундов перепланирования и всего лишь 60-80% токенов. В ALFWorld его показатель успеха взлетает до нового рекордного значения 95% уже после 6 итераций.

MathCoder2: Улучшенное математическое рассуждение благодаря продолженному предварительному обучению на модельно-переведенном математическом коде
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

Oct 10

ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li

Было показано, что код эффективен в улучшении математического мышления крупных языковых моделей благодаря своей точности и точности. Предыдущие работы, связанные с продолжением математического предварительного обучения, часто включают код, который использует математические пакеты, в основном предназначенные для областей, таких как инженерия, машинное обучение, обработка сигналов или модульное тестирование, а не напрямую сосредоточены на математическом мышлении. В данной статье мы представляем новый метод генерации математического кода в сопровождении соответствующих шагов рассуждений для продолжения предварительного обучения. Наш подход начинается с создания качественного математического набора данных для продолжения предварительного обучения путем интеграции математических веб-данных, кода, использующего математические пакеты, математических учебников и синтетических данных. Затем мы создаем шаги рассуждений, извлекая выражения LaTeX, условия, необходимые для выражений, и результаты выражений из ранее собранного набора данных. На основе извлеченной информации мы генерируем соответствующий код для точного захвата математического процесса рассуждений. Добавление сгенерированного кода к каждому шагу рассуждений приводит к данным, состоящим из пар шагов естественного языка и соответствующего кода. Объединение этих данных с исходным набором данных приводит к высокопроизводительному математическому корпусу для предварительного обучения объемом 19,2 млрд токенов, который мы назвали MathCode-Pile. Обучение нескольких популярных базовых моделей с использованием этого корпуса значительно улучшает их математические способности, что приводит к созданию семейства моделей MathCoder2. Весь наш код обработки данных и обучения открыт и доступен, обеспечивая полную прозрачность и легкую воспроизводимость всего процесса сбора данных и обучения. Код доступен по ссылке https://github.com/mathllm/MathCoder2.

MLLM в качестве ретриевера: интерактивное обучение мультимодальному поиску для инкорпорированных агентов
MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

Oct 4

ByJunpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu

Агенты MLLM демонстрируют потенциал для выполнения сложных воплощенных задач путем извлечения мультимодальных траекторий, содержащих информацию, необходимую для задачи. Однако текущие методы извлечения в основном сосредотачиваются на поверхностных сходствах текстовых или визуальных подсказок в траекториях, игнорируя их эффективность для конкретной задачи. Для решения этой проблемы мы предлагаем новый метод, MLLM как ReTriever (MART), который повышает производительность воплощенных агентов, используя данные взаимодействия для настройки MLLM-извлекателя на основе обучения предпочтений, таким образом, чтобы извлекатель полностью учитывал эффективность траекторий и приоритизировал их для невидимых задач. Мы также представляем Траекторную Абстракцию, механизм, который использует возможности суммирования MLLM для представления траекторий с меньшим количеством токенов, сохраняя ключевую информацию, что позволяет агентам лучше понимать вехи в траектории. Экспериментальные результаты в различных средах демонстрируют, что наш метод значительно улучшает успешность задач в невидимых сценах по сравнению с базовыми методами. Эта работа представляет новую парадигму для мультимодального извлечения в воплощенных агентах, путем настройки общего MLLM в качестве извлекателя для оценки эффективности траекторий. Все наборы бенчмарков и модификации кода симулятора для действий и пространств наблюдения будут опубликованы.

PrefixQuant: Статическая квантизация превосходит динамическую за счет предварительно заданных выбросов в LLMs
PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs

Oct 7

ByMengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo

Квантование является неотъемлемым элементом развертывания больших языковых моделей (LLM), улучшая эффективность памяти и скорость вывода. Существующие методы квантования активации в основном решают проблемы каналов-выбросов, часто игнорируя выбросы по токенам, что приводит к зависимости от дорогостоящего динамического квантования на уровне токенов. Для решения этой проблемы мы представляем PrefixQuant, новую технику, которая изолирует выбросы токенов офлайн без повторного обучения. Конкретно, PrefixQuant идентифицирует выбросы токенов с высокой частотой и добавляет их в кэш KV, предотвращая генерацию выбросных токенов во время вывода и упрощая квантование. На наш взгляд, PrefixQuant первым обеспечивает эффективное статическое квантование на уровне тензоров для превосходства над дорогостоящим динамическим квантованием на уровне токенов. Например, в модели Llama-3-8B с параметрами W4A4KV4 (4 бита на вес, 4 бита на активацию и 4 бита в кэше KV), PrefixQuant с статическим квантованием на уровне тензоров достигает перплексии 7,43 на наборе данных WikiText2 и средней точности 71,08% на 5 задачах рассуждения на здравый смысл, превосходя предыдущие методы динамического квантования на уровне токенов, такие как QuaRot, с улучшением перплексии на 0,98 и повышением точности на +5,98 пункта. Кроме того, скорость вывода квантованных моделей W4A4 с использованием PrefixQuant в 1,60–2,81 раза выше, чем у моделей FP16, и превосходит модели QuaRot в 1,2–1,3 раза. Наш код доступен по адресу https://github.com/ChenMnZ/PrefixQuant.

Оценка процесса генерации агентичных рабочих процессов
Benchmarking Agentic Workflow Generation

Oct 10

ByShuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

Большие языковые модели (LLM) благодаря своей исключительной способности решать широкий спектр задач стимулировали значительные прорывы в решении задач рассуждения и планирования, где декомпозиция сложных проблем на исполнимые рабочие процессы является ключевым этапом этого процесса. Существующие фреймворки оценки рабочих процессов либо сосредотачиваются исключительно на общей производительности, либо страдают от ограничений, таких как ограниченное охват сценариев, упрощенные структуры рабочих процессов и недостаточно строгие стандарты оценки. В этой связи мы представляем WorFBench – единый бенчмарк для генерации рабочих процессов с многофакторными сценариями и сложными структурами графов рабочих процессов. Кроме того, мы представляем WorFEval – системный протокол оценки, использующий алгоритмы сопоставления подпоследовательностей и подграфов для точного количественного измерения способностей LLM-агента к генерации рабочих процессов. Проведя всесторонние оценки различных типов LLM, мы выявляем различия между способностями планирования последовательности и планирования графа у агентов LLM, даже у GPT-4 обнаруживается разрыв около 15%. Мы также обучаем две модели с открытым исходным кодом и оцениваем их способность к обобщению на удерживаемых задачах. Более того, мы замечаем, что сгенерированные рабочие процессы могут улучшить последующие задачи, позволяя им достигать более высокой производительности за меньшее время во время вывода. Код и набор данных будут доступны на https://github.com/zjunlp/WorFBench.

Агент S: Открытая агентная структура, использующая компьютеры подобно человеку.
Agent S: An Open Agentic Framework that Uses Computers Like a Human

Oct 10

BySaaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang

Мы представляем Agent S, открытую агентическую платформу, обеспечивающую автономное взаимодействие с компьютерами через графический пользовательский интерфейс (GUI) с целью трансформации человеко-компьютерного взаимодействия путем автоматизации сложных многоэтапных задач. Agent S нацелен на решение трех основных проблем в автоматизации компьютерных задач: получение предметно-специфических знаний, планирование на протяжении длительных горизонтов задач и работу с динамическими, неоднородными интерфейсами. В этом контексте Agent S представляет опытом усиленное иерархическое планирование, которое извлекает уроки из внешнего поиска знаний и внутреннего извлечения опыта на различных уровнях, облегчая эффективное планирование задач и выполнение подзадач. Кроме того, он использует Интерфейс Агент-Компьютер (ACI) для более эффективного вызова рассуждений и управляющих способностей агентов GUI на основе Мультимодальных Больших Языковых Моделей (MLLMs). Оценка на тестовом наборе данных OSWorld показывает, что Agent S превосходит базовый уровень на 9,37% по показателю успешности (улучшение на 83,6% относительно) и достигает нового современного уровня. Комплексный анализ выделяет эффективность отдельных компонентов и предоставляет идеи для будущих улучшений. Кроме того, Agent S демонстрирует широкую применимость к различным операционным системам на новом тестовом наборе данных WindowsAgentArena. Код доступен по ссылке https://github.com/simular-ai/Agent-S.

DART: Денойзинг авторегрессивный трансформер для масштабируемой генерации текста в изображение
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

Oct 10

ByJiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai

Модели диффузии стали доминирующим подходом для визуальной генерации. Они обучаются путем удаления шума из марковского процесса, который постепенно добавляет шум к входным данным. Мы считаем, что марковское свойство ограничивает способность моделей полностью использовать траекторию генерации, что приводит к неэффективностям во время обучения и вывода. В данной статье мы предлагаем DART, модель на основе трансформера, которая объединяет авторегрессию (AR) и диффузию в немарковской структуре. DART итеративно удаляет шум из областей изображения пространственно и спектрально с использованием модели AR с такой же архитектурой, как у стандартных языковых моделей. DART не зависит от квантования изображения, обеспечивая более эффективное моделирование изображений при сохранении гибкости. Более того, DART легко обучается как текстовыми, так и изображенческими данными в рамках единой модели. Наш подход продемонстрировал конкурентоспособную производительность на задачах генерации изображений с учетом класса и текста в изображение, предлагая масштабируемую, эффективную альтернативу традиционным моделям диффузии. Через эту объединенную структуру DART устанавливает новый стандарт для масштабируемого, высококачественного синтеза изображений.

DICE: Дискретная Инверсия, Обеспечивающая Управляемое Редактирование для Мультиномиальных Диффузионных и Маскированных Генеративных Моделей
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

Oct 10

ByXiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas

Дискретные модели диффузии достигли успеха в задачах, таких как генерация изображений и маскированное моделирование языка, но сталкиваются с ограничениями в контролируемом редактировании контента. Мы представляем DICE (Дискретная Инверсия для Контролируемого Редактирования), первый подход, позволяющий точную инверсию для дискретных моделей диффузии, включая мультиномиальные модели диффузии и маскированные генеративные модели. Записывая последовательности шума и шаблоны маскировки во время обратного процесса диффузии, DICE обеспечивает точную реконструкцию и гибкое редактирование дискретных данных без необходимости предопределенных масок или манипуляций внимания. Мы демонстрируем эффективность DICE как в области изображений, так и текста, оценивая его на моделях, таких как VQ-Diffusion, Paella и RoBERTa. Наши результаты показывают, что DICE сохраняет высокую достоверность данных, улучшая возможности редактирования и предлагая новые возможности для манипулирования содержанием в дискретных пространствах. Для веб-страницы проекта см. https://hexiaoxiao-cs.github.io/DICE/.

Исправленное диффузное: Прямота не является вашей необходимостью в исправленном потоке
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

Oct 9

ByFu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li

Модели диффузии значительно улучшили визуальную генерацию, но затруднены медленной скоростью генерации из-за вычислительно интенсивного характера решения генеративных ОДУ. Выпрямленный поток, широко признанное решение, улучшает скорость генерации путем выпрямления пути ОДУ. Его ключевые компоненты включают: 1) использование диффузионной формы соответствия потоков, 2) применение жирного символа v-предсказания и 3) выполнение выпрямления (также известного как рефлоу). В данной работе мы утверждаем, что успех выпрямления в первую очередь заключается в использовании предварительно обученной модели диффузии для получения согласованных пар шума и образцов, за которым следует повторное обучение с этими согласованными парами шума-образца. Исходя из этого, компоненты 1) и 2) излишни. Более того, мы подчеркиваем, что прямолинейность не является существенной целью обучения для выпрямления; скорее, это конкретный случай моделей соответствия потоков. Более критической целью обучения является достижение приближенного к первому порядку пути ОДУ, который по своей сути изогнут для моделей, таких как DDPM и Sub-VP. Основываясь на этом, мы предлагаем Модифицированную Диффузию, которая обобщает пространство проектирования и область применения выпрямления, чтобы охватить более широкую категорию моделей диффузии, вместо ограничения только моделями соответствия потоков. Мы проверяем наш метод на Stable Diffusion v1-5 и Stable Diffusion XL. Наш метод не только значительно упрощает процедуру обучения предыдущих работ на основе выпрямленного потока (например, InstaFlow), но и достигает превосходной производительности даже при более низкой стоимости обучения. Наш код доступен по адресу https://github.com/G-U-N/Rectified-Diffusion.

Захватывающие свойства крупных моделей языка и зрения
Intriguing Properties of Large Language and Vision Models

Oct 7

ByYoung-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Yechan Hwang, Ho-Jin Choi

Недавно большие модели языка и зрения (LLVM) получили значительное внимание и усилия по развитию из-за их замечательной обобщающей способности на широком спектре задач, требующих восприятия и когнитивных способностей. Ключевым фактором их успеха является простая архитектура, состоящая из визионного кодера, проектора и большой модели языка (LLM). Несмотря на их достижения в продвинутых задачах рассуждения, их производительность в фундаментальных задачах, связанных с восприятием (например, MMVP), остается удивительно низкой. Это расхождение вызывает вопрос о том, как LLVM действительно воспринимают изображения и используют преимущества визионного кодера. Для решения этого вопроса мы систематически исследуем его в различных аспектах: инвариантность перестановки, устойчивость, математическое рассуждение, сохранение и важность выравнивания, оценивая наиболее распространенные семейства LLVM (т.е. LLaVA) через 10 оценочных бенчмарков. Наши обширные эксперименты раскрывают несколько увлекательных свойств текущих LLVM: (1) они внутренне обрабатывают изображение глобальным образом, даже когда порядок последовательностей визуальных патчей случайно переставлен; (2) иногда они способны решать математические задачи без полного восприятия детальной числовой информации; (3) кросс-модальное выравнивание переобучено на сложные задачи рассуждения, что приводит к потере некоторых изначальных восприятий их визионного кодера; (4) пространство представления в нижних слоях (<25%) играет решающую роль в определении производительности и улучшении визуального понимания. Наконец, на основе вышеперечисленных наблюдений мы предлагаем потенциальные направления для построения лучших LLVM и создания более сложных оценочных бенчмарков.

GLOV: Направляемые большие языковые модели как неявные оптимизаторы для видения.
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

Oct 8

ByM. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass

В данной работе мы предлагаем новый метод (GLOV), позволяющий крупным языковым моделям (LLM) действовать как неявные оптимизаторы для моделей видео-языка (VLM) с целью улучшения последующих задач обработки изображений. Наш GLOV мета-подсказывает LLM описанием последующей задачи, запрашивая у него подходящие подсказки для VLM (например, для классификации с нулевым примером с помощью CLIP). Эти подсказки ранжируются в соответствии с мерой чистоты, полученной через функцию приспособленности. На каждом соответствующем шаге оптимизации ранжированные подсказки подаются как примеры в контексте (с их точностью), чтобы оснастить LLM знаниями о типе текстовых подсказок, предпочитаемых последующим VLM. Более того, мы также явно направляем процесс генерации LLM на каждом шаге оптимизации, добавляя специфический вектор разницы смещения вложений из положительных и отрицательных решений, найденных LLM на предыдущих шагах оптимизации, в промежуточный слой сети для следующего шага генерации. Этот вектор смещения направляет генерацию LLM в сторону типа языка, предпочитаемого последующим VLM, что приводит к улучшению производительности на задачах обработки изображений. Мы подробно оцениваем наш GLOV на 16 разнообразных наборах данных, используя два семейства VLM, а именно двухкодерные (например, CLIP) и кодер-декодерные (например, LLaVa) модели - показывая, что обнаруженные решения могут улучшить производительность распознавания до 15,0% и 57,5% (в среднем на 3,8% и 21,6%) для этих моделей.

Прогрессивные авторегрессионные модели диффузии видео
Progressive Autoregressive Video Diffusion Models

Oct 10

ByDesai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou

Современные модели диффузии видео находятся на передовой и продемонстрировали выдающиеся результаты в создании видео высокого качества. Однако они могут генерировать только короткие видеоролики, обычно длительностью около 10 секунд или 240 кадров, из-за ограничений вычислительных ресурсов во время обучения. В данной работе мы показываем, что существующие модели могут быть естественным образом расширены до авторегрессионных моделей диффузии видео без изменения архитектуры. Наша ключевая идея заключается в том, чтобы назначать скрытые кадры с постепенно увеличивающимися уровнями шума, а не одним уровнем шума, что позволяет получить детализированные условия между скрытыми кадрами и большие перекрытия между окнами внимания. Такое пошаговое видеоочищение позволяет нашим моделям авторегрессивно генерировать видеокадры без ухудшения качества или резких изменений сцен. Мы представляем передовые результаты в генерации длинных видео длительностью 1 минута (1440 кадров при 24 кадрах в секунду). Видео из этой статьи доступны по ссылке https://desaixie.github.io/pa-vdm/.

К самосовершенствованию LLM с помощью MCTS: использование пошаговых знаний с обучением предпочтений учебного плана
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning

Oct 9

ByXiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu

Метод поиска дерева Монте-Карло (Monte Carlo Tree Search, MCTS) недавно стал мощным инструментом для улучшения способностей рассуждения LLMs. Техники, такие как SFT или DPO, позволили LLMs извлекать высококачественные поведенческие шаблоны из MCTS, улучшая их способности к рассуждению. Однако существующие методы дистилляции недостаточно используют богатую информацию о траекториях, созданную MCTS, что ограничивает потенциал улучшения рассуждения LLM. В данной статье мы предлагаем AlphaLLM-CPL, новую платформу для попарного обучения, которая позволяет LLMs самостоятельно улучшаться путем дистилляции поведения MCTS. AlphaLLM-CPL эффективно использует траектории MCTS благодаря двум ключевым инновациям: (1) AlphaLLM-CPL создает пары шаговых траекторий из дочерних узлов, имеющих одного и того же родителя в дереве поиска, предоставляя информацию на уровне шага для более эффективной дистилляции поведения MCTS. (2) AlphaLLM-CPL вводит обучение с предпочтительным курсом, динамически корректируя последовательность обучения пар траекторий на каждой эпохе оффлайн-обучения, чтобы приоритизировать критические шаги обучения и смягчить переобучение. Экспериментальные результаты на задачах математического рассуждения показывают, что AlphaLLM-CPL значительно превосходит предыдущие методы дистилляции поведения MCTS, существенно улучшая способности к рассуждению LLMs.

Всё везде сразу: LLM-модели могут изучать несколько задач в контексте одновременно.
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

Oct 8

ByZheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos

Большие языковые модели (Large Language Models, LLM) продемонстрировали выдающиеся возможности обучения в контексте (In-Context Learning, ICL). В данном исследовании мы исследуем удивительное явление, связанное с ICL: LLM могут выполнять несколько вычислительно различных задач ICL одновременно в рамках одного вызова вывода, способность, которую мы называем "накладыванием задач". Мы предоставляем эмпирические доказательства этого явления в различных семействах и масштабах LLM и показываем, что это явление возникает даже в том случае, если модель обучена выполнять задачу в контексте поочередно. Мы предлагаем теоретические объяснения того, что эта способность хорошо вписывается в выразительные возможности трансформеров. Мы также исследуем, как LLM внутренне компонуют векторы задач во время наложения. Более того, мы показываем, что более крупные модели могут решать больше задач ICL параллельно и лучше калибровать распределение своих выходных данных. Наши результаты предлагают понимание скрытых возможностей LLM, дополнительно подтверждают перспективу "LLM как наложение симуляторов" и вызывают вопросы о механизмах, обеспечивающих одновременное выполнение задач.

Сохранение мультимодальных возможностей предварительно обученных VLM для улучшения композициональности видовой и лингвистической информации.
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

Oct 7

ByYoungtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim

В данной статье мы предлагаем новый метод для улучшения композиционного понимания в предварительно обученных моделях зрения и языка (VLMs) без ущерба производительности в многомодальных задачах с нулевым обучением. Традиционные подходы к донастройке часто улучшают композиционное мышление за счет ухудшения многомодальных возможностей, в основном из-за использования глобальной жесткой отрицательной (HN) потери, которая контрастирует глобальные представления изображений и текстов. Эта глобальная HN потеря толкает HN тексты, которые сильно похожи на оригинальные, повреждая многомодальные представления модели. Чтобы преодолеть это ограничение, мы предлагаем Fine-grained Selective Calibrated CLIP (FSC-CLIP), который интегрирует локальную жесткую отрицательную потерю и селективную откалиброванную регуляризацию. Эти инновации предоставляют детализированное отрицательное руководство, сохраняя при этом представительную целостность модели. Наши обширные оценки по различным показателям как для композиционных, так и для многомодальных задач показывают, что FSC-CLIP не только достигает композиционности на уровне передовых моделей, но также сохраняет сильные многомодальные возможности. Код доступен по ссылке: https://github.com/ytaek-oh/fsc-clip.

SFTMix: Повышение настройки инструкции языковой модели с помощью рецепта Mixup.
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

Oct 7

ByYuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao

Для индукции желаемых поведенческих характеристик в больших языковых моделях (LLM) для задач, требующих взаимодействия, этап настройки инструкций обычно обучает LLM на парах инструкция-ответ с использованием потерь предсказания следующего токена (NTP). Предыдущие исследования, направленные на улучшение производительности настройки инструкций, часто подчеркивают необходимость более качественных наборов данных для надзорного тонкой настройки (SFT), которые обычно включают дорогостоящую фильтрацию данных с использованием собственных LLM или трудоемкую генерацию данных аннотаторами. Однако эти подходы не полностью используют внутренние свойства наборов данных, что приводит к высоким вычислительным и трудовым затратам, тем самым ограничивая масштабируемость и улучшение производительности. В данной статье мы предлагаем SFTMix, новый метод, который повышает производительность настройки инструкций за пределами традиционной парадигмы NTP, без необходимости в хорошо подготовленных наборах данных. Наблюдая, что LLM проявляют неравномерную уверенность в пространстве семантического представления, мы считаем, что примеры с разными уровнями уверенности должны играть разные роли в процессе настройки инструкций. Основываясь на этом понимании, SFTMix использует динамику обучения для идентификации примеров с разными уровнями уверенности, затем применяет регуляризацию на основе Mixup для смягчения переобучения на уверенных примерах, одновременно распространяя сигналы надзора для улучшения обучения на относительно неуверенных. Этот подход позволяет SFTMix значительно превзойти NTP в широком диапазоне задач следования инструкциям и специфических для области здравоохранения задач SFT, демонстрируя его адаптивность к различным семействам LLM и масштабируемость к наборам данных любого размера. Комплексные исследования абляции дополнительно подтверждают устойчивость выборов дизайна SFTMix, подчеркивая его универсальность в последовательном улучшении производительности на различных LLM и наборах данных в более широких приложениях обработки естественного языка.

Масштабирование ваших ядер: проектирование крупных ядер в сверточных нейронных сетях к универсальным представлениям
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Oct 10

ByYiyuan Zhang, Xiaohan Ding, Xiangyu Yue

Эта статья предлагает парадигму использования больших сверточных ядер при проектировании современных сверточных нейронных сетей (CNN). Мы устанавливаем, что использование нескольких крупных ядер, вместо стека нескольких меньших, может быть более эффективной стратегией дизайна. Наша работа представляет набор рекомендаций по проектированию архитектуры для больших сверточных CNN, которые оптимизируют их эффективность и производительность. Мы предлагаем архитектуру UniRepLKNet, которая предлагает систематические принципы проектирования архитектуры, специально разработанные для больших сверточных CNN, акцентируя их уникальную способность захватывать обширную пространственную информацию без глубокого стекинга слоев. Это приводит к модели, которая не только превосходит своих предшественников с точностью ImageNet 88,0%, ADE20K mIoU 55,6% и COCO box AP 56,4%, но также демонстрирует впечатляющую масштабируемость и производительность на различных модальностях, таких как прогнозирование временных рядов, аудио, облака точек и распознавание видео. Эти результаты указывают на универсальные возможности моделирования больших сверточных CNN с более быстрой скоростью вывода по сравнению с видовыми трансформерами. Наши результаты показывают, что большие сверточные CNN обладают более крупными эффективными рецептивными полями и более высоким смещением формы, отходя от типичного текстурного смещения меньших сверточных CNN. Весь код и модели доступны публично по адресу https://github.com/AILab-CVC/UniRepLKNet для поощрения дальнейших исследований и разработок в сообществе.

Оптима: Оптимизация эффективности и эффективности для мультиагентной системы на основе LLM.
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System

Oct 10

ByWeize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun

Модели большого языка (LLM) на основе мультиагентных систем (MAS) демонстрируют выдающийся потенциал в коллективном решении проблем, однако они все еще сталкиваются с критическими вызовами: низкой эффективностью коммуникации, плохой масштабируемостью и отсутствием эффективных методов оптимизации обновления параметров. Мы представляем Optima, новую концепцию, которая решает эти проблемы, значительно улучшая как эффективность коммуникации, так и эффективность задач в LLM-основанных MAS через обучение LLM. Optima использует итеративную парадигму генерации, ранжирования, выбора и обучения с функцией вознаграждения, балансирующей производительность задачи, эффективность токенов и читаемость коммуникации. Мы исследуем различные алгоритмы обучения с подкреплением, включая Обучение с Учителем, Прямую Оптимизацию Предпочтений и их гибридные подходы, предоставляя понимание их компромиссов между эффективностью и эффективностью. Мы интегрируем техники, вдохновленные Монте-Карло поиска по дереву, для генерации данных DPO, рассматривая ходы разговора как узлы дерева для исследования разнообразных путей взаимодействия. Оценивая на общих мультиагентных задачах, включая асимметричные по информации вопросы и сложное рассуждение, Optima показывает последовательные и существенные улучшения по сравнению с базовыми одноагентными подходами и ванильными MAS на основе Llama 3 8B, достигая до 2,8-кратного увеличения производительности с менее чем 10\% токенов на задачах, требующих интенсивного обмена информацией. Более того, повышение эффективности Optima открывает новые возможности для более эффективного использования вывода-вычисления, что приводит к улучшению законов масштабирования времени вывода. Решая фундаментальные вызовы в LLM-основанных MAS, Optima демонстрирует потенциал к масштабируемым, эффективным и эффективным MAS (https://chenweize1998.github.io/optima-project-page).

Мошенничество на автоматических бенчмарках LLM: Нулевые модели достигают высоких показателей побед.
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Oct 9

ByXiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin

Автоматические бенчмарки LLM, такие как AlpacaEval 2.0, Arena-Hard-Auto и MT-Bench, стали популярными для оценки языковых моделей из-за их экономической эффективности и масштабируемости по сравнению с оценкой человеком. Достижение высоких показателей побед на этих бенчмарках может значительно усилить рекламный эффект вновь выпущенных языковых моделей. Этот рекламный бонус может стимулировать уловки, такие как манипуляция длиной или стилем вывода модели для увеличения показателей побед, даже если были разработаны механизмы для контроля длины и разделения стиля для уменьшения возможности манипуляций. Тем не менее, мы показываем, что даже "нулевая модель", которая всегда выводит постоянный ответ (независимо от входных инструкций), может обмануть автоматические бенчмарки и достичь победных результатов лучшего ранга: показатель побед 86.5% LC на AlpacaEval 2.0; оценка 83.0 на Arena-Hard-Auto; и оценка 9.55 на MT-Bench. Более того, созданные обманные выводы могут быть переданы, поскольку мы предполагаем, что инструкции этих бенчмарков (например, 805 образцов AlpacaEval 2.0) являются конфиденциальными и не могут быть получены. Хотя наши эксперименты в первую очередь являются концептуальным доказательством, злоумышленник может использовать LLM для генерации более незаметных обманных ответов, неэтично получая высокие показатели побед и рекламный эффект. Наши результаты требуют разработки механизмов противодействия обману для надежных автоматических бенчмарков. Код доступен по ссылке https://github.com/sail-sg/Cheating-LLM-Benchmarks.

Возникающие свойства с повторяющимися примерами
Emergent properties with repeated examples

Oct 9

ByFrançois Charton, Julia Kempe

Мы изучаем производительность трансформеров в зависимости от количества повторений обучающих примеров с алгоритмически сгенерированными наборами данных. На трех математических задачах: нахождение наибольшего общего делителя, модульное умножение и собственные значения матрицы, мы показываем, что при фиксированном числе шагов обучения модели, обученные на более маленьких наборах повторяющихся примеров, превосходят модели, обученные на более крупных наборах одноразовых примеров. Мы также демонстрируем, что обучение на двух наборах - повторное использование небольшого случайного подмножества примеров, вместе с обычной выборкой на остальном обучающем наборе - обеспечивает более быстрое обучение и лучшую производительность. Это подчеркивает, что выгоды от повторения могут превзойти выгоды от разнообразия данных. Эти наборы данных и задачи обеспечивают контролируемую среду для прояснения до сих пор плохо понятного взаимодействия между обобщением и запоминанием в глубоком обучении.

Ускоренная оптимизация предпочтений для выравнивания больших языковых моделей.
Accelerated Preference Optimization for Large Language Model Alignment

Oct 8

ByJiafan He, Huizhuo Yuan, Quanquan Gu

Обучение с подкреплением на основе обратной связи от человека (RLHF) стало ключевым инструментом для согласования больших языковых моделей (LLM) с предпочтениями человека. Прямая оптимизация предпочтений (DPO), один из наиболее популярных подходов, формулирует RLHF как проблему оптимизации политики без явной оценки функции вознаграждения. Он преодолевает проблемы стабильности и эффективности двухэтапных подходов, которые обычно включают в себя сначала оценку функции вознаграждения, а затем оптимизацию политики с помощью метода оптимизации ближайшей политики (PPO). Поскольку RLHF по сути является проблемой оптимизации, и хорошо известно, что техники импульса могут ускорить оптимизацию как теоретически, так и эмпирически, возникает естественный вопрос: можно ли ускорить RLHF с помощью импульса? Настоящая статья утвердительно отвечает на этот вопрос. В частности, мы сначала показываем, что итеративный метод оптимизации предпочтений можно рассматривать как метод ближайшей точки. Основываясь на этом наблюдении, мы предлагаем общую структуру Ускоренной Оптимизации Предпочтений (APO), которая объединяет множество существующих алгоритмов оптимизации предпочтений и использует технику импульса Нестерова для ускорения согласования LLM. Теоретически мы демонстрируем, что APO может достичь более быстрого темпа сходимости, чем стандартные итеративные методы оптимизации предпочтений, включая DPO и Оптимизацию Предпочтений Самостоятельной Игры (SPPO). Эмпирически мы демонстрируем превосходство APO над DPO, итеративным DPO и другими сильными базовыми вариантами для RLHF на тесте AlpacaEval 2.0.

Советник по данным: Динамическая курирование данных для обеспечения безопасности крупных языковых моделей.
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models

Oct 7

ByFei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan

Данные являются ключевым элементом в выравнивании больших языковых моделей (LLM). Недавние исследования исследовали использование LLM для эффективного сбора данных. Однако данные, созданные LLM, часто страдают от проблем качества, таких как недостаточно представленные или отсутствующие аспекты и низкокачественные точки данных. Для решения этих проблем мы предлагаем Data Advisor, улучшенный метод на основе LLM для генерации данных, который учитывает характеристики желаемого набора данных. Начиная с набора заранее определенных принципов, Data Advisor отслеживает состояние созданных данных, выявляет слабые места в текущем наборе данных и дает рекомендации для следующей итерации генерации данных. Data Advisor может легко интегрироваться в существующие методы генерации данных для улучшения качества и охвата данных. Эксперименты по безопасному выравниванию трех представительных LLM (Mistral, Llama2 и Falcon) демонстрируют эффективность Data Advisor в улучшении безопасности модели против различных тонких проблем безопасности без ущерба для полезности модели.

MotionGS: Исследование явного управления движением для деформируемого трехмерного гауссовского сплетения.
MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting

Oct 10

ByRuijie Zhu, Yanzhe Liang, Hanzhi Chang, Jiacheng Deng, Jiahao Lu, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang

Динамическая реконструкция сцен является долгосрочным вызовом в области трехмерного зрения. Недавно появление трехмерного гауссовского сплэтинга привнесло новые идеи в решение этой проблемы. Хотя последующие усилия быстро расширяют статический трехмерный гауссовский сплэтинг на динамические сцены, они часто лишены явных ограничений на движение объектов, что приводит к сложностям оптимизации и снижению производительности. Для решения вышеуказанных проблем мы предлагаем новую деформируемую трехмерную гауссовскую сплэтинговую структуру под названием MotionGS, которая исследует явные движущиеся априорные данные для направления деформации трехмерных гауссов. Конкретно, мы сначала вводим модуль декомпозиции оптического потока, который разделяет оптический поток на поток камеры и поток движения, соответствующий движению камеры и объекта соответственно. Затем поток движения может эффективно ограничивать деформацию трехмерных гауссов, тем самым имитируя движение динамических объектов. Кроме того, предложен модуль уточнения положения камеры для чередующейся оптимизации трехмерных гауссов и положений камеры, смягчая влияние неточных положений камеры. Обширные эксперименты в монокулярных динамических сценах подтверждают, что MotionGS превосходит методы последнего поколения и проявляет значительное превосходство как в качественных, так и в количественных результатах. Страница проекта: https://ruijiezhu94.github.io/MotionGS_page

Векторное обучение в контексте: обучение с непрерывными векторными представлениями
Vector-ICL: In-context Learning with Continuous Vector Representations

Oct 8

ByYufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao

Большие языковые модели (LLM) продемонстрировали выдающиеся возможности контекстного обучения (ICL) на текстовых данных. Мы исследуем, могут ли эти возможности быть расширены на непрерывные векторы из различных областей, полученные из предварительно обученных кодировщиков "черного ящика". Выравнивая входные данные с пространством вложений LLM с помощью легких проекторов, мы наблюдаем, что LLM могут эффективно обрабатывать и учиться на этих отображенных векторах, которые мы называем Векторным ICL. В частности, мы обнаружили, что предварительное обучение проекторов с общими целями языкового моделирования позволяет Векторному ICL, в то время как дальнейшая настройка под конкретную задачу дополнительно улучшает производительность. В наших экспериментах по различным задачам и модальностям, включая восстановление текста, регрессию числовых функций, классификацию текста, суммаризацию, подписывание молекул, классификацию временных рядов, классификацию графов и декодирование fMRI, Векторный ICL часто превосходит как ICL с небольшим числом обучающих примеров, так и модели или настройки, специфичные для области. Мы также проводим анализы и кейс-стади, указывающие на потенциал LLM в обработке векторных представлений за пределами традиционных токен-основанных парадигм.

Zebra: контекстное и генеративное предварительное обучение для решения параметрических уравнений в частных производных
Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs

Oct 4

ByLouis Serrano, Armand Kassaï Koupaï, Thomas X Wang, Pierre Erbacher, Patrick Gallinari

Решение временно-зависимых параметрических уравнений в частных производных (УЧП) представляет собой сложную задачу, поскольку модели должны адаптироваться к изменениям параметров, таким как коэффициенты, воздействующие члены и граничные условия. Нейросетевые решатели, основанные на данных, лиелятся на обучение на данных, отобранных из распределения параметров УЧП в надежде, что модель обобщит на новые случаи, или полагаются на градиентную адаптацию и метаобучение для неявного кодирования динамики из наблюдений. Это часто сопровождается увеличением сложности вывода. Вдохновленные возможностями обучения в контексте больших языковых моделей (БЯМ), мы представляем Zebra, новый генеративный авторегрессионный трансформер, разработанный для решения параметрических УЧП без необходимости градиентной адаптации при выводе. Используя информацию в контексте как на этапе предварительного обучения, так и при выводе, Zebra динамически адаптируется к новым задачам, условиям на входных последовательностях, которые включают траектории контекста или предшествующие состояния. Этот подход позволяет Zebra гибко обрабатывать входы произвольного размера и поддерживать оценку неопределенности путем выборки нескольких траекторий решения. Мы оцениваем Zebra в различных сложных сценариях УЧП, демонстрируя его адаптивность, надежность и превосходную производительность по сравнению с существующими подходами.

LPZero: Поиск прокси-модели языка нулевой стоимости с нуля
LPZero: Language Model Zero-cost Proxy Search from Zero

Oct 7

ByPeijie Dong, Lujun Li, Xiang Liu, Zhenheng Tang, Xuebo Liu, Qiang Wang, Xiaowen Chu

Несмотря на выдающуюся производительность, поиск нейронной архитектуры (Neural Architecture Search, NAS) критикуется за огромные вычислительные затраты. Недавно появился метод Zero-shot NAS как многообещающий подход, использующий нулевую стоимость (Zero-cost, ZC) прокси, что значительно снижает вычислительные требования. Тем не менее существующие ZC прокси сильно зависят от экспертных знаний и влекут значительные затраты на проб и ошибок. В частности, в задачах обработки естественного языка (Natural Language Processing, NLP) большинство существующих ZC прокси не превосходят производительность наивного базового уровня. Для решения этих проблем мы представляем новую структуру, LPZero, которая является первой, автоматически создающей ZC прокси для различных задач, достигая более высокой согласованности ранжирования, чем прокси, разработанные людьми. В частности, мы моделируем ZC прокси как символьное уравнение и включаем объединенное пространство поиска прокси, которое охватывает существующие ZC прокси, состоящие из заранее определенного набора математических символов. Для эвристического поиска лучшего ZC прокси LPZero включает генетическое программирование для нахождения оптимальной символьной композиции. Мы предлагаем стратегию обрезки на основе правил (Rule-based Pruning Strategy, RPS), которая предварительно устраняет неперспективные прокси, тем самым смягчая риск деградации прокси. Обширные эксперименты на FlexiBERT, GPT-2 и LLaMA-7B демонстрируют превосходную способность ранжирования и производительность LPZero по сравнению с текущими подходами в задачах последующей обработки.