HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

20 papers found

Технический отчет по Baichuan-Omni
Baichuan-Omni Technical Report

Oct 11

ByYadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen

Выдающиеся мультимодальные возможности и интерактивный опыт GPT-4o подчеркивают его критическую роль в практических приложениях, однако ему не хватает высокопроизводительного аналога с открытым исходным кодом. В данной статье мы представляем Baichuan-Omni, первую открытую 7B Мультимодальную Большую Языковую Модель (MLLM), способную одновременно обрабатывать и анализировать модальности изображений, видео, аудио и текста, обеспечивая продвинутый мультимодальный интерактивный опыт и высокую производительность. Мы предлагаем эффективную схему мультимодального обучения, начиная с 7B модели и проходя через два этапа мультимодальной согласованности и многозадачную донастройку по аудио, изображениям, видео и тексту. Такой подход дает языковой модели возможность эффективно обрабатывать визуальные и аудио данные. Продемонстрировав высокую производительность на различных омни-модальных и мультимодальных бенчмарках, мы стремимся, чтобы наш вклад послужил конкурентоспособным базовым уровнем для сообщества с открытым исходным кодом в продвижении понимания мультимодальности и взаимодействия в реальном времени.

Мейссоник: Возрождение Маскированных Генеративных Трансформеров для Эффективного Синтеза Текста в Изображение Высокого Разрешения
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10

ByJinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

Модели диффузии, такие как Устойчивая Диффузия, сделали значительные успехи в области визуальной генерации, однако их парадигма остается фундаментально отличной от авторегрессионных языковых моделей, что затрудняет разработку объединенных моделей языка и зрения. Недавние усилия, такие как LlamaGen, предприняли попытку авторегрессионной генерации изображений с использованием дискретных токенов VQVAE, однако большое количество токенов делает этот подход неэффективным и медленным. В данной работе мы представляем Meissonic, который поднимает моделирование изображений с маскировкой без авторегрессии (MIM) текст-в-изображение на уровень, сопоставимый с передовыми моделями диффузии, такими как SDXL. Путем внедрения обширного набора архитектурных инноваций, продвинутых стратегий позиционного кодирования и оптимизированных условий выборки, Meissonic существенно улучшает производительность и эффективность MIM. Кроме того, мы используем высококачественные обучающие данные, интегрируем микро-условия, основанные на оценках предпочтений человека, и применяем слои сжатия признаков для дальнейшего улучшения достоверности и разрешения изображений. Наша модель не только соответствует, но часто превосходит производительность существующих моделей, таких как SDXL, в генерации высококачественных изображений высокого разрешения. Обширные эксперименты подтверждают возможности Meissonic, демонстрируя его потенциал как нового стандарта в синтезе текста в изображение. Мы выпускаем контрольную точку модели, способную создавать изображения разрешением 1024 на 1024 пикселя.

StructRAG: Усиление знаниевого рассуждения LLMs с помощью гибридной структуризации информации во время вывода
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11

ByZhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

Расширенная генерация с использованием поиска (RAG) является ключевым средством эффективного улучшения больших языковых моделей (LLM) во многих задачах, основанных на знаниях. Однако существующие методы RAG испытывают затруднения с задачами, требующими интенсивного использования знаний, поскольку полезная информация для этих задач плохо структурирована. Эта характеристика затрудняет точную идентификацию ключевой информации существующими методами RAG и выполнение глобального рассуждения с таким шумным расширением. В данной статье, вдохновленные когнитивными теориями, согласно которым люди преобразуют сырую информацию в различные структурированные знания при решении задач, требующих интенсивного использования знаний, мы предлагаем новую концепцию, StructRAG, которая способна определить оптимальный тип структуры для конкретной задачи, перестроить исходные документы в этот структурированный формат и делать выводы на основе полученной структуры. Обширные эксперименты по различным задачам, требующим интенсивного использования знаний, показывают, что StructRAG достигает передовых результатов, особенно выделяясь в сложных сценариях, демонстрируя свой потенциал как эффективное решение для улучшения LLM в сложных прикладных задачах реального мира.

От общего к специализированному: адаптация моделей языка зрения через настройку задачи-специфичных визуальных инструкций.
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9

ByYang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

Большие модели языкового видения (VLM) объединяют в себе большие языковые модели с визионными кодировщиками, демонстрируя потенциал в различных задачах. Однако они часто показывают недостаточную производительность в задачах из-за разрывов в домене между предварительным обучением и настройкой под конкретную задачу. Мы представляем VITask, новую структуру, которая улучшает адаптивность к задаче у VLM путем интеграции моделей, специфичных для задачи (TSM). VITask использует три ключевые стратегии: примерное подсказывание (EP), выравнивание распределения ответов (RDA) и контрастная настройка ответов (CRT) для улучшения задачной производительности VLM путем корректировки их распределений ответов. EP позволяет признакам TSM направлять VLM, в то время как RDA позволяет VLM адаптироваться без TSM во время вывода, обучаясь на моделях, подсказанных примерами. CRT дополнительно оптимизирует ранжирование правильных пар изображение-ответ, тем самым снижая риск генерации нежелательных ответов. Эксперименты на 12 наборах данных по медицинской диагностике по 9 модальностям изображений показывают, что VITask превосходит как обычные VLM, настроенные по инструкции, так и TSM, демонстрируя его способность эффективно интегрировать дополняющие признаки обеих моделей. Кроме того, VITask предлагает практические преимущества, такие как гибкая интеграция TSM и устойчивость к неполным инструкциям, делая его универсальным и эффективным решением для настройки VLM под конкретную задачу. Наш код доступен по адресу https://github.com/baiyang4/VITask.

МногоАгентный Совместный Выбор Данных для Эффективного Предварительного Обучения LLM
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10

ByTianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

Эффективный выбор данных критичен для ускорения предварительного обучения больших языковых моделей (БЯМ). Хотя были предложены различные методы для улучшения эффективности данных, ограниченное исследование затрагивало врожденные конфликты между этими подходами для достижения оптимального выбора данных для предварительного обучения БЯМ. Для решения этой проблемы мы предлагаем новый механизм коллаборативного выбора данных с множеством агентов. В этой структуре каждый метод выбора данных выступает в качестве независимого агента, и консоль агента разработана для динамической интеграции информации от всех агентов на протяжении процесса обучения БЯМ. Мы проводим обширные эмпирические исследования для оценки нашей многоагентной структуры. Экспериментальные результаты показывают, что наш подход значительно улучшает эффективность данных, ускоряет сходимость в обучении БЯМ и достигает среднего прироста производительности на 10,5% по сравнению с передовыми методами на нескольких языковых модельных бенчмарках.

Механистическая перестановочность: сопоставление характеристик между слоями
Mechanistic Permutability: Match Features Across Layers

Oct 10

ByNikita Balagansky, Ian Maksimov, Daniil Gavrilov

Понимание того, как признаки эволюционируют через слои в глубоких нейронных сетях, является фундаментальным вызовом в механистической интерпретации, особенно из-за полисемантики и наложения признаков. В то время как Разреженные автокодировщики (SAE) использовались для извлечения интерпретируемых признаков из отдельных слоев, выравнивание этих признаков через слои оставалось открытой проблемой. В данной статье мы представляем SAE Match, новый метод без использования данных для выравнивания признаков SAE через различные слои нейронной сети. Наш подход включает сопоставление признаков путем минимизации среднеквадратичной ошибки между сложенными параметрами SAE, техника, которая включает пороги активации в веса энкодера и декодера для учета различий в масштабах признаков. Через обширные эксперименты на языковой модели Gemma 2 мы демонстрируем, что наш метод эффективно улавливает эволюцию признаков через слои, улучшая качество сопоставления признаков. Мы также показываем, что признаки сохраняются на протяжении нескольких слоев и что наш подход может приближать скрытые состояния через слои. Наша работа продвигает понимание динамики признаков в нейронных сетях и предоставляет новый инструмент для исследований механистической интерпретируемости.

ЭволюцияДиректор: Подход к передовой генерации текста в изображение с помощью крупных моделей видео-языка
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

Недавние достижения в моделях генерации продемонстрировали выдающиеся возможности в создании фантастического контента. Однако большинство из них обучаются на собственных высококачественных данных, и некоторые модели удерживают свои параметры, предоставляя только доступные программные интерфейсы приложений (API), ограничивая тем самым их преимущества для последующих задач. Для изучения возможности обучения модели генерации текста в изображение, сравнимой с передовыми моделями, используя общедоступные ресурсы, мы представляем EvolveDirector. Этот фреймворк взаимодействует с передовыми моделями через их общедоступные API для получения пар данных текст-изображение для обучения базовой модели. Наши эксперименты с обширными данными показывают, что модель, обученная на сгенерированных данных передовой модели, способна приблизиться к ее возможностям в генерации. Однако для этого требуется обширный объем выборки в 10 миллионов и более. Это влечет значительные расходы по времени, вычислительным ресурсам и особенно затратам, связанным с вызовом платных API. Для решения этой проблемы мы используем предварительно обученные крупные модели видение-язык (VLM), чтобы направлять эволюцию базовой модели. VLM непрерывно оценивает базовую модель во время обучения и динамически обновляет и уточняет набор данных обучения с помощью операций дискриминации, расширения, удаления и мутации. Экспериментальные результаты показывают, что такая парадигма значительно сокращает необходимый объем данных. Более того, при приближении к нескольким передовым моделям EvolveDirector может выбирать лучшие образцы, сгенерированные ими, для изучения мощных и сбалансированных способностей. Финальная обученная модель Edgen продемонстрировала превосходство над этими передовыми моделями. Код и веса модели доступны по ссылке https://github.com/showlab/EvolveDirector.

СуперКоррект: Наставничество и коррекция языковых моделей с использованием ошибочных выводов.
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

Большие языковые модели (LLM), такие как GPT-4, PaLM и LLaMA, показали значительные улучшения в различных задачах рассуждения. Однако более маленькие модели, такие как Llama-3-8B и DeepSeekMath-Base, все еще испытывают трудности с сложным математическим рассуждением, поскольку они не могут эффективно идентифицировать и исправлять ошибки рассуждения. Недавние методы на основе рефлексии стремятся решить эти проблемы, позволяя саморефлексии и самокоррекции, однако они все еще сталкиваются с проблемами в независимом обнаружении ошибок в своих шагах рассуждения. Для преодоления этих ограничений мы предлагаем SuperCorrect, новую двухэтапную структуру, которая использует большую учительскую модель для надзора и коррекции как процессов рассуждения, так и рефлексии более маленькой студенческой модели. На первом этапе мы извлекаем иерархические высокоуровневые и детальные шаблоны мыслей из учительской модели, чтобы направлять студенческую модель на выявление более детализированных мыслей рассуждения. На втором этапе мы вводим кросс-модельную коллаборативную оптимизацию прямых предпочтений (DPO), чтобы улучшить способности к самокоррекции студенческой модели, следуя за следами коррекции учителя во время обучения. Этот подход к кросс-модельной DPO обучает студенческую модель эффективно находить и исправлять ошибочные мысли с помощью ошибочных идей, полученных от учителя, преодолевая узкие места своих мыслей и приобретая новые навыки и знания для решения сложных проблем. Обширные эксперименты последовательно демонстрируют наше превосходство над предыдущими методами. Заметно, что наша модель SuperCorrect-7B значительно превосходит мощную модель DeepSeekMath-7B на 7,8%/5,3% и Qwen2.5-Math-7B на 15,1%/6,3% на бенчмарках MATH/GSM8K, достигая нового результата SOTA среди всех моделей 7B. Код: https://github.com/YangLing0818/SuperCorrect-llm

PositionID: LLMs могут контролировать длины, копировать и вставлять с явным позиционным осознанием.
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9

ByZekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

Большие языковые модели (LLM) демонстрируют впечатляющие возможности в различных областях, включая ролевые игры, творческое письмо, математическое рассуждение и кодирование. Несмотря на эти достижения, LLM по-прежнему сталкиваются с проблемами контроля длины, часто не соблюдая конкретные ограничения на длину из-за своих операций на уровне токенов и недостаточного обучения на данных с жесткими ограничениями на длину. Мы выявляем эту проблему как обусловленную отсутствием позиционного осознания и предлагаем новые подходы - Позиционный Подсказывающий Идентификатор (PositionID Prompting) и Позиционная Идентификация Тонкой Настройки (PositionID Fine-Tuning) - для ее решения. Эти методы улучшают способность модели непрерывно контролировать и управлять длиной текста во время генерации. Кроме того, мы представляем Позиционный Подсказывающий Идентификатор Копирования и Вставки (PositionID CP Prompting), чтобы позволить LLM точно выполнять операции копирования и вставки. Более того, мы разрабатываем два показателя для оценки контроля длины и способностей копирования и вставки. Наши эксперименты показывают, что наши методы значительно улучшают соблюдение моделью ограничений на длину и точность копирования и вставки без ущерба для качества ответа.

Семантическая дистилляция оценки для сэмплирования композиционного текста в 3D-генерацию.
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11

ByLing Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

Генерация высококачественных 3D-объектов по текстовым описаниям остается ключевой задачей в исследованиях по компьютерной графике и компьютерному зрению. Из-за недостатка 3D-данных современные подходы используют предварительно обученные 2D диффузионные априори, оптимизированные с помощью метода выборочного дистилляционного сэмплирования (SDS). Несмотря на прогресс, создание сложных 3D-сцен с несколькими объектами или сложными взаимодействиями остается сложной задачей. Для решения этой проблемы недавние методы включают направляющие рамки или макеты. Однако эти методы композиционного моделирования, основанные на макетах, часто испытывают трудности в обеспечении детального контроля, поскольку они обычно грубы и не выразительны. Для преодоления этих препятствий мы представляем новый подход SDS, названный Семантическое Дистилляционное Сэмплирование Оценок (SemanticSDS), разработанный для эффективного улучшения выразительности и точности композиционной генерации 3D по тексту. Наш подход интегрирует новые семантические вложения, которые обеспечивают согласованность между различными видами рендеринга и четкое различие между различными объектами и их частями. Эти вложения преобразуются в семантическую карту, которая направляет процесс SDS для конкретной области, обеспечивая точную оптимизацию и композиционную генерацию. Используя явное семантическое руководство, наш метод разблокирует композиционные возможности существующих предварительно обученных диффузионных моделей, тем самым достигая превосходного качества в генерации 3D-контента, особенно для сложных объектов и сцен. Экспериментальные результаты демонстрируют, что наша структура SemanticSDS эффективна для генерации современного сложного 3D-контента. Код: https://github.com/YangLing0818/SemanticSDS-3D

Прогнозирование KV для улучшения времени до первого токена.
KV Prediction for Improved Time to First Token

Oct 10

ByMaxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

Вывод с моделями языка на основе трансформеров начинается с этапа обработки подсказки. На этом этапе модель генерирует первый токен вывода и сохраняет кэш KV, необходимый для будущих шагов генерации. Этот этап обработки подсказки может быть вычислительно затратным, занимая 10 секунд или более для моделей с миллиардом параметров на периферийных устройствах при увеличении длины подсказки или размеров пакетов. Это снижает пользовательский опыт за счет введения значительной задержки в выходные данные модели. Для сокращения времени, затраченного на создание первого вывода (известного как "время до первого токена", или TTFT) предварительно обученной модели, мы предлагаем новый метод, называемый Прогнозирование KV. В нашем методе используется небольшая вспомогательная модель для обработки подсказки и создания приближения кэша KV, используемого базовой моделью. Этот приближенный кэш KV затем используется с базовой моделью для авторегрессивной генерации без необходимости повторного запроса к вспомогательной модели. Мы демонстрируем, что наш метод обеспечивает оптимальный компромисс между эффективностью и точностью по сравнению с базовыми показателями. На наборе данных TriviaQA мы показываем относительное улучшение точности в диапазоне от 15% до 50% при различных бюджетах TTFT FLOPs. Мы также демонстрируем улучшение точности до 30% при заведомо заданных бюджетах TTFT FLOPs для завершения кода на Python в HumanEval. Кроме того, мы проводим бенчмаркинг моделей на процессоре Apple M2 Pro и демонстрируем, что наше улучшение в FLOPs приводит к ускорению TTFT на аппаратном обеспечении. Мы выкладываем наш код по адресу https://github.com/apple/corenet/tree/main/projects/kv-prediction.

Думайте, генерируя: дискретная диффузия с плановым шумоподавлением
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8

BySulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

Дискретная диффузия достигла передовых результатов, превосходя или приближаясь к авторегрессионным моделям на стандартных бенчмарках. В данной работе мы представляем Дискретную Диффузию с Плановым Денойзингом (DDPD), новую концепцию, которая разделяет процесс генерации на две модели: планировщик и денойзер. На этапе вывода планировщик выбирает позиции для следующего денойзинга, определяя наиболее поврежденные позиции, требующие денойзинга, включая как изначально поврежденные, так и те, которые требуют дополнительной доработки. Этот подход планирования и денойзинга обеспечивает более эффективную реконструкцию во время генерации путем итеративного определения и денойзинга повреждений в оптимальном порядке. DDPD превосходит традиционные методы диффузии маски только с денойзером, достигая превосходных результатов на бенчмарках языкового моделирования, таких как text8, OpenWebText и генерация на основе токенов на ImageNet 256 на 256. Заметно, что в языковом моделировании DDPD значительно уменьшает разрыв в производительности между методами на основе диффузии и авторегрессионными методами в терминах генеративной перплексии. Код доступен по ссылке https://github.com/liusulin/DDPD.

ZeroComp: Нулевая композиция объектов без предварительного обучения на основе внутренних характеристик изображения через диффузию
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10

ByZitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Мы представляем ZeroComp - эффективный подход к нулевой композиции 3D объектов, который не требует парных изображений сцен с композицией во время обучения. Наш метод использует ControlNet для условной генерации из внутренних изображений и объединяет его с моделью Stable Diffusion для использования сценических априорных знаний, действуя вместе как эффективный рендеринговый движок. Во время обучения ZeroComp использует внутренние изображения на основе геометрии, альбедо и маскированного затенения, все это без необходимости парных изображений сцен с и без композитных объектов. После обучения он бесшовно интегрирует виртуальные 3D объекты в сцены, корректируя затенение для создания реалистичных композиций. Мы разработали качественный набор данных для оценки и показали, что ZeroComp превосходит методы, использующие явные оценки освещения и генеративные техники, в количественных и оценочных бенчмарках человеческого восприятия. Кроме того, ZeroComp расширяется на реальную и наружную композицию изображений, даже если обучен только на синтетических внутренних данных, демонстрируя свою эффективность в композиции изображений.

I-Max: Максимизация потенциала разрешения предварительно обученных прямых потоковых трансформеров с проецированным потоком
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10

ByRuoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

Преобразователи прямого потока (RFT) обеспечивают превосходную эффективность обучения и вывода, что делает их, вероятно, наиболее перспективным направлением для масштабирования моделей диффузии. Однако прогресс в разрешении генерации был относительно медленным из-за качества данных и затрат на обучение. Экстраполяция разрешения без настройки представляет собой альтернативу, однако текущие методы часто снижают стабильность генерации, ограничивая практическое применение. В данной статье мы рассматриваем существующие методы экстраполяции разрешения и представляем фреймворк I-Max для максимизации потенциала разрешения RFT для текста-к-изображению. I-Max включает: (i) новую стратегию Проекционного Потока для стабильной экстраполяции и (ii) передовой инструментарий вывода для обобщения знаний модели на более высокие разрешения. Эксперименты с Lumina-Next-2K и Flux.1-dev демонстрируют способность I-Max улучшать стабильность в экстраполяции разрешения и показывают, что он способен приносить появление деталей изображения и коррекцию артефактов, подтверждая практическую ценность экстраполяции разрешения без настройки.

DA-Code: Бенчмарк генерации кода агентом для крупных языковых моделей
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9

ByYiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

Мы представляем DA-Code, бенчмарк по генерации кода, специально разработанный для оценки LLM на задачах по агентно-ориентированной науке о данных. Этот бенчмарк включает три основных элемента: Во-первых, задачи в DA-Code по своей природе сложны, что отличает их от традиционных задач генерации кода и требует продвинутых навыков кодирования в области основ и планирования. Во-вторых, примеры в DA-Code основаны на реальных и разнообразных данных, охватывающих широкий спектр сложных задач обработки данных и аналитики. В-третьих, для решения задач модели должны использовать сложные языки программирования в области науки о данных, чтобы выполнять сложную обработку данных и выводить ответы. Мы создали бенчмарк в контролируемой и исполнимой среде, соответствующей сценариям анализа данных в реальном мире и масштабируемой. Аннотаторы тщательно разрабатывают набор оценочных средств для обеспечения точности и надежности оценки. Мы разработали базовую модель DA-Agent. Эксперименты показывают, что хотя базовая модель работает лучше, чем другие существующие фреймворки, использование текущих лучших LLM обеспечивает лишь 30.5% точности, что оставляет много места для улучшения. Мы предоставляем наш бенчмарк по адресу https://da-code-bench.github.io.

GenARM: Генерация с управлением вознаграждения с авторегрессивной моделью вознаграждения для выравнивания во время тестирования
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10

ByYuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

Большие языковые модели (LLM) обладают впечатляющими возможностями, но требуют тщательного согласования с предпочтениями человека. Традиционные методы обучения настраивают LLM с использованием наборов данных предпочтений людей, но при этом возникают значительные затраты на обучение и требуется повторное обучение для учета разнообразных пользовательских предпочтений. Методы выравнивания на этапе тестирования решают эту проблему, используя модели вознаграждения (RMs) для направления замороженных LLM без повторного обучения. Однако существующие подходы на этапе тестирования опираются на модели вознаграждения на уровне траектории, которые предназначены для оценки полных ответов, что делает их непригодными для авторегрессивной генерации текста, требующей вычисления вознаграждений за следующий токен из частичных ответов. Для решения этой проблемы мы представляем GenARM, подход к выравниванию на этапе тестирования, который использует Авторегрессивную Модель Вознаграждения - новую параметризацию вознаграждения, разработанную для прогнозирования вознаграждений за следующий токен для эффективной авторегрессивной генерации. Теоретически мы демонстрируем, что эта параметризация может доказуемо направлять замороженные LLM к любому распределению, достижимому с использованием традиционных RMs в рамках обучения с подкреплением с регуляризацией KL. Экспериментальные результаты показывают, что GenARM значительно превосходит предыдущие базовые линии выравнивания на этапе тестирования и соответствует результатам методов обучения на этапе обучения. Кроме того, GenARM обеспечивает эффективное руководство от слабого к сильному, выравнивая более крупные LLM с более маленькими RMs без высоких затрат на обучение более крупных моделей. Более того, GenARM поддерживает многокритериальное выравнивание, позволяя в реальном времени находить компромиссы между измерениями предпочтений и учитывая разнообразные пользовательские предпочтения без повторного обучения.

ПростаяСтрат: Диверсификация Генерации Языковой Модели с Помощью Стратификации
SimpleStrat: Diversifying Language Model Generation with Stratification

Oct 11

ByJustin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

Генерация разнообразных ответов с помощью больших языковых моделей (LLM) критически важна для приложений, таких как планирование/поиск и генерация синтетических данных, где разнообразие обеспечивает различные ответы в разных поколениях. Предыдущие подходы полагались на увеличение температуры для повышения разнообразия. Однако, вопреки распространенному мнению, мы показываем, что этот подход не только приводит к уменьшению качества отдельных поколений при увеличении температуры, но и зависит от того, насколько вероятности следующего токена модели схожи с истинным распределением ответов. Мы предлагаем альтернативный подход, который использует саму языковую модель для разбиения пространства на страты. При выводе выбирается случайный страт и из него извлекается образец. Для измерения разнообразия мы представляем набор данных CoverageQA, содержащий недостаточно определенные вопросы с несколькими одинаково вероятными ответами, и оцениваем разнообразие, измеряя дивергенцию Кульбака-Лейблера между распределением вывода и равномерным распределением по допустимым правильным ответам. Поскольку вычисление вероятности для каждого ответа/решения для собственных моделей невозможно, мы измеряем полноту по правильным решениям. Наша оценка показывает, что использование SimpleStrat обеспечивает более высокую полноту на 0.05 по сравнению с GPT-4o и в среднем на 0.36 уменьшает дивергенцию Кульбака-Лейблера по сравнению с Llama 3.

MiRAGeNews: Обнаружение мультимодальных реалистичных новостей, созданных искусственным интеллектом
MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Oct 11

ByRunsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

Распространение воспалительных или вводящих в заблуждение «фейковых» новостей стало все более распространенным в последние годы. Одновременно использование инструментов искусственного интеллекта для создания фотореалистичных изображений любых сцен стало проще простого. Комбинирование этих двух аспектов — фейковых новостей, созданных с помощью искусственного интеллекта — особенно мощно и опасно. Для борьбы с распространением фейковых новостей, созданных с помощью искусственного интеллекта, мы предлагаем набор данных MiRAGeNews, содержащий 12 500 высококачественных реальных и сгенерированных с помощью искусственного интеллекта пар изображение-подпись от передовых генераторов. Мы обнаружили, что наш набор данных представляет существенное испытание для людей (60% F-1) и мультимодальных LLMs последнего поколения (< 24% F-1). Используя наш набор данных, мы обучили мультимодальный детектор (MiRAGe), который улучшает показатель F-1 на 5,1% по сравнению с передовыми базовыми уровнями на парах изображение-подпись от генераторов изображений и новостных изданий вне области их применения. Мы предоставляем наш код и данные для помощи в будущих исследованиях по обнаружению контента, созданного с помощью искусственного интеллекта.

Наставник-KD: Улучшение маленьких языковых моделей как многоэтапных рассуждателей
Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Oct 11

ByHojae Lee, Junho Kim, SangKeun Lee

Большие языковые модели (LLM) продемонстрировали выдающиеся результаты в различных сложных задачах, используя метод Chain-of-Thought (CoT) для подсказок. Недавние исследования предложили подход к Дистилляции Знаний (KD), называемый дистилляцией рассуждений, который передает такую способность к рассуждениям от LLM через донастройку языковых моделей на основе многошаговых обоснований, созданных учителями LLM. Однако они недостаточно учли две проблемы, касающиеся недостаточных наборов дистилляции от модели-учителя LLM, в терминах 1) качества данных и 2) предоставления мягких меток. В данной статье мы предлагаем Mentor-KD, который эффективно дистиллирует способность к многошаговым рассуждениям у LLM в более маленькие LMs, решая упомянутые проблемы. Конкретно, мы используем наставника, промежуточную модель, настроенную на задачу определенного размера, для дополнительного обогащения аннотаций CoT и предоставления мягких меток для модели-ученика во время дистилляции рассуждений. Мы проводим обширные эксперименты и подтверждаем эффективность Mentor-KD в различных моделях и сложных задачах рассуждения.

Синтез изображений сонара с улучшенным разнообразием и реализмом через двойные модели диффузии и подсказки GPT
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11

ByPurushothaman Natarajan, Kamal Basha, Athira Nambiar

Синтез изображений с помощью сонара имеет важное значение для развития приложений в области подводного исследования, морской биологии и обороны. Традиционные методы часто полагаются на обширную и дорогостоящую сборку данных с использованием гидролокационных датчиков, подвергая качество и разнообразие данных риску. Для преодоления этих ограничений в данном исследовании предлагается новая структура синтеза изображений с помощью сонара, Synth-SONAR, использующая модели диффузии и подсказки GPT. Основные новшества Synth-SONAR тройные: Во-первых, путем интеграции техник внедрения стиля на основе генеративного искусственного интеллекта с использованием публично доступных реальных/симулированных данных, что позволяет создать один из крупнейших корпусов данных по сонару для исследований в области сонара. Во-вторых, иерархия двойной текстовой кондиционированной модели диффузии сонара синтезирует грубые и мелкозернистые изображения сонара с улучшенным качеством и разнообразием. В-третьих, методы генерации сонара на основе текста высокого уровня (грубые) и низкого уровня (детализированные) используют передовую семантическую информацию, доступную визуальным языковым моделям (VLM) и подсказки GPT. В процессе вывода метод генерирует разнообразные и реалистичные изображения сонара из текстовых подсказок, сокращая разрыв между текстовыми описаниями и генерацией изображений сонара. Это является первым, насколько нам известно, применением подсказок GPT в области изображений сонара. Synth-SONAR достигает передовых результатов в создании высококачественных синтетических наборов данных по сонару, значительно улучшая их разнообразие и реализм.