ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

UCFE: Пользовательский финансовый экспертный бенчмарк для крупных языковых моделей
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Oct 17
ByYuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
61
2

Данная статья представляет UCFE: бенчмарк финансовой экспертизы, ориентированный на пользователя, инновационную структуру, разработанную для оценки способности крупных языковых моделей (LLM) решать сложные финансовые задачи реального мира. Бенчмарк UCFE применяет гибридный подход, который объединяет экспертные оценки людей с динамическими, задачно-специфичными взаимодействиями для имитации сложностей изменяющихся финансовых сценариев. Во-первых, мы провели пользовательское исследование с участием 804 участников, собрав их обратную связь по финансовым задачам. Во-вторых, на основе этой обратной связи мы создали наш набор данных, охватывающий широкий спектр намерений и взаимодействий пользователей. Этот набор данных служит основой для оценки 12 услуг LLM с использованием методологии LLM-как-судья. Наши результаты показывают значительное соответствие между оценками бенчмарка и предпочтениями людей, с коэффициентом корреляции Пирсона 0,78, подтверждая эффективность набора данных UCFE и нашего подхода к оценке. Бенчмарк UCFE не только раскрывает потенциал LLM в финансовом секторе, но также предоставляет надежную структуру для оценки их производительности и удовлетворенности пользователей. Набор данных и код оценки бенчмарка доступны.

2

Веб-агенты с мировыми моделями: изучение и использование динамики окружения в навигации по вебу
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Oct 17
ByHyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo
44
2

Большие языковые модели (LLM) недавно привлекли много внимания в создании автономных агентов. Однако производительность текущих веб-агентов на основе LLM в задачах с долгим горизонтом планирования далека от оптимальной, часто приводя к ошибкам, таким как повторная покупка невозвратного авиабилета. В отличие от этого, люди могут избегать такой необратимой ошибки, поскольку мы осознаем потенциальные последствия (например, потерю денег) наших действий, также известных как "модель мира". Под влиянием этого наше исследование начинается с предварительного анализа, подтверждающего отсутствие моделей мира в текущих LLM (например, GPT-4o, Claude-3.5-Sonnet и т. д.). Затем мы представляем веб-агента с расширенной моделью мира (WMA), который моделирует результаты своих действий для принятия лучших решений. Для преодоления вызовов в обучении LLM в качестве моделей мира, предсказывающих следующие наблюдения, таких как повторяющиеся элементы между наблюдениями и длинные входы HTML, мы предлагаем абстракцию наблюдения, сосредоточенную на переходах, где целями предсказания являются описания на естественном языке, исключительно выделяющие важные различия состояний между временными шагами. Эксперименты на WebArena и Mind2Web показывают, что наши модели мира улучшают выбор политики агентов без дополнительного обучения и демонстрируют эффективность наших агентов по стоимости и времени по сравнению с недавними агентами на основе поиска по дереву.

3

NaturalBench: Оценка моделей видео-языкового взаимодействия на естественных адверсарных образцах
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Oct 18
ByBaiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
39
4

Модели видео-языкового взаимодействия (VLM) значительно продвинулись в последние годы в бенчмарках визуально-вопросно-ответных (VQA), оценивающих сложные визуально-лингвистические рассуждения. Однако насколько эффективны эти модели на самом деле? В данной работе мы показываем, что VLM по-прежнему испытывают трудности с естественными изображениями и вопросами, на которые люди могут легко ответить, что мы называем естественными адверсными образцами. Мы также обнаружили, что довольно легко генерировать эти образцы VQA из естественных корпусов изображений и текста с использованием моделей, таких как CLIP и ChatGPT. Мы предлагаем полуавтоматический подход к созданию нового бенчмарка, NaturalBench, для надежной оценки VLM с 10 000 проверенными людьми образцами VQA. Критически важно, что мы принимаем визио-центричный дизайн, сопоставляя каждый вопрос с двумя изображениями, дающими разные ответы, что предотвращает слепые решения без использования изображений. Это делает NaturalBench более сложным, чем предыдущие бенчмарки, которые могут быть решены с помощью здравого смысла. Мы оцениваем 53 передовых модели VLM на NaturalBench, показывая, что модели, такие как LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL и даже GPT-4o, отстают на 50-70% от человеческой производительности (более 90%). Мы анализируем, почему NaturalBench сложен с двух точек зрения: (1) Композициональность: Решение NaturalBench требует разнообразных визуально-языковых навыков, включая понимание связей атрибутов, отношений между объектами и продвинутого рассуждения, такого как логика и подсчет. Для этого, в отличие от предыдущих работ, использующих один тег на образец, мы помечаем каждый образец NaturalBench от 1 до 8 навыков для более детальной оценки. (2) Предвзятости: NaturalBench выявляет серьезные предвзятости в VLM, поскольку модели часто выбирают один и тот же ответ независимо от изображения. Наконец, мы применяем наш метод курирования бенчмарков к разнообразным источникам данных, включая длинные подписи (более 100 слов) и неанглийские языки, такие как китайский и хинди, подчеркивая его потенциал для динамической оценки VLM.

4

MagicTailor: Управляемая компонентами персонализация в текст-к-изображению моделях диффузии
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

Oct 17
ByDonghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
37
7

Недавние достижения в моделях диффузии текста в изображение (T2I) позволили создавать изображения высокого качества по текстовым подсказкам, однако они все еще испытывают трудности в генерации изображений с точным контролем над конкретными визуальными концепциями. Существующие подходы могут воспроизводить данный концепт, обучаясь на референтных изображениях, однако им не хватает гибкости для тонкой настройки отдельных компонентов внутри концепции. В данной статье мы представляем персонализацию с контролем компонентов, новую задачу, расширяющую границы моделей T2I, позволяющую пользователям перенастраивать конкретные компоненты при персонализации визуальных концепций. Эта задача особенно сложна из-за двух основных препятствий: семантического загрязнения, когда нежелательные визуальные элементы портят персонализированный концепт, и семантического дисбаланса, который вызывает неравномерное обучение концепции и компонента. Для преодоления этих препятствий мы разрабатываем MagicTailor, инновационную структуру, использующую динамическое маскированное деградирование (DM-Deg) для динамического искажения нежелательной визуальной семантики и двухпоточное балансирование (DS-Bal) для установления сбалансированной парадигмы обучения для желаемой визуальной семантики. Обширные сравнения, абляции и анализы демонстрируют, что MagicTailor не только преуспевает в этой сложной задаче, но также обладает значительным потенциалом для практических применений, открывая путь к более тонкому и креативному созданию изображений.

5

SeerAttention: Обучение внутреннему разреженному вниманию в ваших LLMs
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

Oct 17
ByYizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang
29
2

Внимание является основой современных больших языковых моделей (LLM). Однако его квадратичная сложность ограничивает эффективность и масштабируемость LLM, особенно для тех, у которых длинное окно контекста. Многообещающим подходом к преодолению этого ограничения является использование разреженности внимания. Однако существующие решения на основе разреженности в основном полагаются на заранее определенные шаблоны или эвристику для приближения разреженности. Эта практика недостаточно учитывает динамическую природу разреженности внимания в задачах на языке. В данной статье утверждается, что разреженность внимания должна быть изучена, а не заранее определена. Для этого мы разрабатываем механизм внимания SeerAttention, который дополняет обычное внимание обучаемым затвором, который адаптивно выбирает значимые блоки на карте внимания и считает остальные блоки разреженными. Такая разреженность на уровне блоков эффективно балансирует точность и ускорение. Для обеспечения эффективного обучения сети управления, мы разрабатываем настраиваемую реализацию FlashAttention, которая извлекает истину на уровне блоков карты внимания с минимальными накладными расходами. SeerAttention применим не только на этапе пост-обучения, но также превосходит в долгосрочной настройке на контекст. Наши результаты показывают, что на этапе пост-обучения SeerAttention значительно превосходит современные статические или эвристические методы разреженности внимания, а также более гибок и адаптивен к различным длинам контекста и коэффициентам разреженности. Примененный к долгосрочной настройке с YaRN, SeerAttention может достичь замечательного коэффициента разреженности в 90% при длине контекста 32k с минимальной потерей перплексии, обеспечивая ускорение в 5,67 раз по сравнению с FlashAttention-2.

6

FiTv2: Масштабируемый и улучшенный гибкий видовой трансформер для моделирования диффузии
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

Oct 17
ByZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai
24
3

Природа бесконечно свободна от разрешения. В контексте этой реальности существующие модели диффузии, такие как Диффузионные Трансформеры, часто сталкиваются с проблемами при обработке разрешений изображений за пределами своей зоны обучения. Для преодоления этого ограничения мы концептуализируем изображения как последовательности токенов с динамическими размерами, вместо традиционных методов, которые воспринимают изображения как сетки фиксированного разрешения. Эта перспектива обеспечивает гибкую стратегию обучения, которая плавно адаптируется к различным соотношениям сторон как во время обучения, так и во время вывода, тем самым способствуя обобщению разрешения и устранению предвзятостей, внесенных обрезкой изображения. На основе этого мы представляем Гибкий Визионный Трансформер (FiT), архитектуру трансформера, специально разработанную для генерации изображений с неограниченными разрешениями и соотношениями сторон. Мы далее улучшаем FiT до FiTv2 с несколькими инновационными дизайнами, включая нормализацию векторов Запрос-Ключ, модуль AdaLN-LoRA, планировщик исправленного потока и выборку Логит-Нормал. Усиленная тщательно настроенной структурой сети, FiTv2 демонстрирует ускорение сходимости в 2 раза по сравнению с FiT. При использовании передовых техник экстраполяции без обучения FiTv2 проявляет замечательную адаптивность как в экстраполяции разрешения, так и в генерации разнообразных разрешений. Кроме того, наше исследование масштабируемости модели FiTv2 показывает, что более крупные модели обладают лучшей вычислительной эффективностью. Кроме того, мы представляем эффективную стратегию послеобучения для адаптации предварительно обученной модели для генерации высокого разрешения. Обширные эксперименты демонстрируют исключительную производительность FiTv2 на широком диапазоне разрешений. Мы опубликовали все коды и модели на https://github.com/whlzy/FiT для поощрения исследования моделей диффузионных трансформеров для генерации изображений произвольного разрешения.

7

DPLM-2: Мультимодельная модель языка диффузии белков
DPLM-2: A Multimodal Diffusion Protein Language Model

Oct 17
ByXinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu
22
3

Белки - это важные макромолекулы, определяемые своими последовательностями аминокислот, которые определяют их трехмерные структуры и, следовательно, их функции во всех живых организмах. Поэтому генеративное моделирование белков требует мультимодального подхода для одновременного моделирования, понимания и генерации как последовательностей, так и структур. Однако существующие методы обычно используют отдельные модели для каждой модальности, что ограничивает их способность улавливать сложные взаимосвязи между последовательностью и структурой. Это приводит к неоптимальной производительности в задачах, требующих совместного понимания и генерации обеих модальностей. В данной статье мы представляем DPLM-2, мультимодельную базовую модель белков, расширяющую модель дискретной диффузии языка белков (DPLM) для адаптации как последовательностей, так и структур. Для обеспечения обучения структур с помощью языковой модели трехмерные координаты преобразуются в дискретные токены с использованием токенизатора на основе квантования без поиска в таблице. Обучаясь на экспериментальных и высококачественных синтетических структурах, DPLM-2 изучает совместное распределение последовательности и структуры, а также их маргиналы и условные распределения. Мы также реализуем эффективную стратегию разогрева для использования связи между масштабными эволюционными данными и структурными индуктивными предпочтениями от предварительно обученных последовательностных языковых моделей белков. Эмпирическая оценка показывает, что DPLM-2 может одновременно генерировать высококомпатибельные последовательности аминокислот и соответствующие им трехмерные структуры, исключая необходимость в двухэтапном подходе к генерации. Более того, DPLM-2 демонстрирует конкурентоспособную производительность в различных задачах условной генерации, включая складывание, обратное складывание и создание каркаса с мультимодальными входами мотивов, а также обеспечивает структурно-осознанные представления для предсказательных задач.

8

Mini-Omni2: На пути к открытому исходному коду GPT-4o с возможностями зрения, речи и дуплекса
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Oct 15
ByZhifei Xie, Changqiao Wu
22
2

GPT-4o, всеобъемлющая модель, представляет собой веху в развитии крупных мультимодальных языковых моделей. Она способна понимать визуальные, звуковые и текстовые модальности, напрямую генерировать аудио и поддерживать гибкое дуплексное взаимодействие. Модели из сообщества с открытым исходным кодом часто достигают некоторых функциональностей GPT-4o, таких как визуальное понимание и голосовой чат. Тем не менее, обучение объединенной модели, которая включает все модальности, представляет собой сложную задачу из-за сложностей мультимодальных данных, сложных архитектур моделей и процессов обучения. В данной статье мы представляем Mini-Omni2, визуально-звукового помощника, способного предоставлять голосовые ответы в реальном времени на визуальные и звуковые запросы. Интегрируя предварительно обученные визуальные и звуковые кодировщики, Mini-Omni2 сохраняет производительность в отдельных модальностях. Мы предлагаем трехэтапный процесс обучения для выравнивания модальностей, позволяющий языковой модели обрабатывать мультимодальные входы и выходы после обучения на ограниченном наборе данных. Для взаимодействия мы представляем механизм прерывания на основе команд, обеспечивающий более гибкое взаимодействие с пользователями. На наш взгляд, Mini-Omni2 является одним из наиболее близких воспроизведений GPT-4o, обладающими схожими функциональными возможностями, и мы надеемся, что он может предложить ценные идеи для последующих исследований.

9

HART: Эффективная визуальная генерация с гибридным авторегрессивным трансформером
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Oct 14
ByHaotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han
18
2

Мы представляем гибридный авторегрессионный трансформер (Hybrid Autoregressive Transformer, HART), авторегрессионную (AR) модель генерации изображений способную напрямую создавать изображения размером 1024x1024, не уступающие моделям диффузии по качеству генерации изображений. Существующие AR модели сталкиваются с ограничениями из-за низкого качества восстановления изображений их дискретными токенизаторами, а также из-за высоких затрат на обучение при создании изображений размером 1024px. Для решения этих проблем мы представляем гибридный токенизатор, который декомпозирует непрерывные латенты из автокодировщика на две компоненты: дискретные токены, представляющие общую картину, и непрерывные токены, представляющие остаточные компоненты, которые нельзя представить дискретными токенами. Дискретная компонента моделируется масштабируемой дискретной AR моделью с разрешением, в то время как непрерывная компонента обучается легким модулем диффузии остатков с всего 37 миллионами параметров. По сравнению с дискретным VAR токенизатором, наш гибридный подход улучшает FID восстановления с 2.11 до 0.30 на MJHQ-30K, что приводит к улучшению FID генерации на 31% с 7.85 до 5.38. HART также превосходит современные модели диффузии как по FID, так и по показателю CLIP, обладая при этом более высокой производительностью в 4.5-7.7 раз и более низкими MACs в 6.9-13.4 раза. Наш код доступен по ссылке https://github.com/mit-han-lab/hart.

10

Диффузионная учебная программа: обучение генеративной программе от синтетического к реальному через диффузию, управляемую изображением.
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

Oct 17
ByYijun Liang, Shweta Bhardwaj, Tianyi Zhou
17
3

Низкокачественные или ограниченные данные представляют существенные вызовы для обучения глубоких нейронных сетей на практике. В то время как классическое дополнение данных не способно предоставить совершенно новые данные, модели диффузии открывают новые возможности для создания саморазвивающегося искусственного интеллекта путем генерации высококачественных и разнообразных синтетических данных с помощью текстовых подсказок. Однако только текстовое руководство не способно контролировать близость синтетических изображений к оригинальным изображениям, что приводит к появлению данных вне распределения, негативно влияющих на производительность модели. Для преодоления этого ограничения мы исследуем руководство по изображениям для достижения спектра интерполяций между синтетическими и реальными изображениями. С более сильным руководством по изображениям сгенерированные изображения похожи на обучающие данные, но сложны для обучения. В то время как с более слабым руководством по изображениям синтетические изображения будут легче для модели, но приведут к большему разрыву в распределении с оригинальными данными. Сгенерированный полный спектр данных позволяет нам создать новую "Учебную программу диффузии (DisCL)". DisCL корректирует уровень руководства по изображениям для синтеза изображений на каждом этапе обучения: он выявляет и сосредотачивается на сложных примерах для модели и оценивает наиболее эффективный уровень руководства синтетическими изображениями для улучшения обучения на сложных данных. Мы применяем DisCL к двум сложным задачам: классификации с длинным хвостом (LT) и обучению на низкокачественных данных. Он сосредотачивается на изображениях с более низким уровнем руководства высокого качества для изучения прототипических особенностей как разминку перед обучением на изображениях с более высоким уровнем руководства, которые могут быть слабы по разнообразию или качеству. Обширные эксперименты демонстрируют прирост в 2,7% и 2,1% в макро-точности OOD и ID при применении DisCL к набору данных iWildCam. На ImageNet-LT DisCL повышает точность классификации хвостовой части базовой модели с 4,4% до 23,64% и приводит к улучшению точности по всем классам на 4,02%.

11

DAWN: Динамический аватар кадра с недоавторегрессионной диффузионной структурой для генерации видео с разговаривающей головой
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Oct 17
ByHanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan
12
2

Генерация разговорных голов направлена на создание ярких и реалистичных видеороликов разговорных голов из одного портрета и аудиофайла речи. Хотя значительные успехи были достигнуты в генерации разговорных голов на основе диффузии, почти все методы полагаются на авторегрессионные стратегии, которые страдают от ограниченного использования контекста за пределами текущего шага генерации, накопления ошибок и медленной скорости генерации. Для решения этих проблем мы представляем DAWN (Динамический аватар с ненавторегрессионной диффузией), фреймворк, который позволяет генерировать динамические видеоролики произвольной длины сразу. В частности, он состоит из двух основных компонентов: (1) генерация голистической динамики лица под воздействием аудио в пространстве латентного движения и (2) генерация позы головы и моргания под воздействием аудио. Обширные эксперименты показывают, что наш метод генерирует аутентичные и яркие видеоролики с точными движениями губ и естественными движениями позы/моргания. Кроме того, обладая высокой скоростью генерации, DAWN обладает сильными возможностями экстраполяции, обеспечивая стабильное производство высококачественных длинных видеороликов. Эти результаты подчеркивают значительные перспективы и потенциальное воздействие DAWN в области генерации видеороликов разговорных голов. Кроме того, мы надеемся, что DAWN стимулирует дальнейшее исследование ненавторегрессионных подходов в моделях диффузии. Наш код будет доступен публично по адресу https://github.com/Hanbo-Cheng/DAWN-pytorch.

12

Достаточно ли хороши детекторы ИИ? Обзор качества наборов данных с машинно-сгенерированным текстом.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Oct 18
ByGerman Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich
12
5

Быстрое развитие авторегрессионных моделей больших языковых моделей (LLM) значительно улучшило качество генерируемых текстов, что требует надежных машинных детекторов текста. Появилось огромное количество детекторов и коллекций с фрагментами искусственного интеллекта, и некоторые методы детекции показали качество распознавания до 99,9% согласно целевым метрикам в таких коллекциях. Однако качество таких детекторов имеет тенденцию к резкому снижению в реальных условиях, возникает вопрос: насколько детекторы действительно надежны, или их высокие показатели базируются на низком качестве наборов данных для оценки? В данной статье мы подчеркиваем необходимость надежных и качественных методов оценки сгенерированных данных для обеспечения защиты от предвзятости и низкой обобщающей способности будущих моделей. Мы представляем систематический обзор наборов данных из соревнований, посвященных обнаружению контента, сгенерированного искусственным интеллектом, и предлагаем методы оценки качества наборов данных, содержащих фрагменты искусственного интеллекта. Кроме того, мы обсуждаем возможность использования высококачественных сгенерированных данных для достижения двух целей: улучшения обучения моделей детекции и улучшения самих обучающих наборов данных. Наш вклад направлен на облегчение понимания взаимодействия между человеком и машинным текстом, что в конечном итоге поддерживает целостность информации во все более автоматизированном мире.

13

BiGR: Использование бинарных скрытых кодов для генерации изображений и улучшения возможностей визуального представления.
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Oct 18
ByShaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong
8
2

Мы представляем BiGR, новую модель условной генерации изображений с использованием компактных бинарных латентных кодов для обучения генерации, с акцентом на улучшение как возможностей генерации, так и представления. BiGR является первой условной генеративной моделью, объединяющей генерацию и дискриминацию в одной и той же структуре. BiGR включает бинарный токенизатор, механизм маскирования модели и бинарный транскодер для предсказания бинарного кода. Кроме того, мы представляем новый метод выборки с упорядочением энтропии для обеспечения эффективной генерации изображений. Обширные эксперименты подтверждают превосходное качество генерации BiGR, измеряемое по FID-50k, и возможности представления, подтвержденные точностью линейного зонда. Более того, BiGR демонстрирует обобщение без обучения на различные задачи в области зрения, позволяя применения, такие как заполнение изображений, создание изображений, редактирование, интерполяция и обогащение, без необходимости структурных модификаций. Наши результаты свидетельствуют о том, что BiGR эффективно объединяет генеративные и дискриминационные задачи, прокладывая путь для дальнейших достижений в этой области.

14

SHAKTI: Небольшая языковая модель с 2,5 миллиарда параметров, оптимизированная для Edge AI и низкоресурсных сред.
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

Oct 15
BySyed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti
8
4

Мы представляем Shakti, языковую модель с 2,5 миллиарда параметров, специально оптимизированную для ресурсоемких сред, таких как периферийные устройства, включая смартфоны, носимую электронику и системы Интернета вещей. Shakti сочетает в себе высокую производительность в обработке естественного языка с оптимизированной эффективностью и точностью, что делает ее идеальным выбором для приложений искусственного интеллекта в реальном времени, где ограничены вычислительные ресурсы и память. Поддерживая региональные языки и задачи, специфичные для отрасли, Shakti превосходит в таких областях, как здравоохранение, финансы и обслуживание клиентов. Результаты бенчмарков показывают, что Shakti конкурентоспособна по сравнению с более крупными моделями, сохраняя при этом низкую задержку и эффективность на устройстве, что делает ее ведущим решением для периферийного искусственного интеллекта.

15

Вглядываясь внутрь: Языковые модели могут учиться о самих себе через интроспекцию.
Looking Inward: Language Models Can Learn About Themselves by Introspection

Oct 17
ByFelix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans
8
11

Люди приобретают знания, наблюдая внешний мир, но также через интроспекцию. Интроспекция дает человеку привилегированный доступ к его текущему состоянию ума (например, мысли и чувства), которое недоступно внешним наблюдателям. Могут ли LLMы проводить интроспекцию? Мы определяем интроспекцию как приобретение знаний, которые не содержатся в или не происходят от обучающих данных, а вместо этого происходят из внутренних состояний. Такая способность может улучшить интерпретируемость модели. Вместо тщательного анализа внутренних механизмов модели мы могли бы просто спросить модель о ее убеждениях, моделях мира и целях. Более спекулятивно, интроспективная модель может самооценивать, обладает ли она определенными внутренними состояниями, такими как субъективные чувства или желания, и это могло бы информировать нас о моральном статусе этих состояний. Такие самоотчеты не были бы полностью диктованы обучающими данными модели. Мы изучаем интроспекцию, донастраивая LLMы для предсказания свойств своего собственного поведения в гипотетических сценариях. Например, "Учитывая ввод P, будет ли ваш вывод выгоден для краткосрочной или долгосрочной опции?" Если модель M1 способна на интроспекцию, она должна превзойти другую модель M2 в предсказании поведения M1, даже если M2 обучена на правильном поведении M1. Идея заключается в том, что M1 имеет привилегированный доступ к своим собственным тенденциям поведения, что позволяет ей предсказывать себя лучше, чем M2 (даже если M2 в целом сильнее). В экспериментах с моделями GPT-4, GPT-4o и Llama-3 (каждая донастроена для предсказания самой себя) мы обнаруживаем, что модель M1 превосходит M2 в предсказании самой себя, предоставляя доказательства интроспекции. Заметно, что M1 продолжает точно предсказывать свое поведение даже после того, как мы намеренно изменяем его правильное поведение. Однако, хотя мы успешно вызываем интроспекцию на простых задачах, мы не достигаем успеха на более сложных задачах или тех, которые требуют обобщения вне распределения.

16

Контекст ключевой (NMF): Моделирование динамики тематической информации в китайских диаспорных медиа.
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media

Oct 16
ByRoss Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø
5
3

Мешает ли Китайская Народная Республика (КНР) европейским выборам через диаспорные СМИ этнических китайцев? Этот вопрос лежит в основе текущего исследовательского проекта, изучающего, как китайские нарративы о европейских выборах представлены в диаспорных китайских СМИ, и, таким образом, цели манипулирования китайскими новостными медиа. Для эффективного и масштабного изучения диаспорных медиа необходимо использовать техники, происходящие из количественного анализа текста, такие как моделирование тематик. В данной статье мы представляем конвейер для изучения динамики информации в китайских медиа. Во-первых, мы представляем KeyNMF, новый подход к статическому и динамическому моделированию тем с использованием моделей контекстуальных вложений на основе трансформеров. Мы предоставляем оценки эталонов, чтобы продемонстрировать, что наш подход конкурентоспособен на ряде китайских наборов данных и метрик. Во-вторых, мы интегрируем KeyNMF с существующими методами описания динамики информации в сложных системах. Мы применяем этот конвейер к данным пяти новостных сайтов, сосредотачиваясь на периоде, предшествующем европейским парламентским выборам 2024 года. Наши методы и результаты демонстрируют эффективность KeyNMF для изучения динамики информации в китайских медиа и заложивают основу для дальнейшей работы, направленной на решение более широких исследовательских вопросов.

17

Как методы обучения влияют на использование моделей компьютерного зрения?
How Do Training Methods Influence the Utilization of Vision Models?

Oct 18
ByPaul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper
5
2

Не все обучаемые параметры (например, веса) одинаково влияют на функцию принятия решений нейронной сети. Фактически, параметры целых слоев иногда могут быть сброшены до случайных значений с незначительным или отсутствующим влиянием на решения модели. Мы пересматриваем ранее проведенные исследования, которые изучали, как архитектура и сложность задачи влияют на это явление, и спрашиваем: насколько это явление также зависит от того, как мы обучаем модель? Мы провели экспериментальные оценки на разнообразном наборе моделей классификации ImageNet-1k, чтобы исследовать это, сохраняя архитектуру и обучающие данные постоянными, но изменяя обучающий конвейер. Наши результаты показывают, что метод обучения сильно влияет на то, какие слои становятся критическими для функции принятия решений для данной задачи. Например, улучшенные режимы обучения и обучение без учителя увеличивают важность ранних слоев, в то время как глубокие слои значительно недоиспользуются. В отличие от этого, методы, такие как адверсариальное обучение, демонстрируют противоположную тенденцию. Наши предварительные результаты расширяют предыдущие выводы, предлагая более тонкое понимание внутренних механизмов нейронных сетей. Код: https://github.com/paulgavrikov/layer_criticality

18

Одна из распространенных ошибок выравнивания языковых моделей на основе отступов: запутанность градиентов.
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Oct 17
ByHui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi
4
2

Обучение с подкреплением на основе обратной связи от человека (RLHF) стало преобладающим подходом к выравниванию языковых моделей (LM). В центре RLHF лежит потеря на основе отступа для оптимизации предпочтений, определяя идеальное поведение LM только по разнице между предпочтительными и непредпочтительными ответами. В данной статье мы выявляем распространенное затруднение методов на основе отступа - недостаточную спецификацию идеального поведения LM на предпочтительных и непредпочтительных ответах индивидуально, что приводит к двум непреднамеренным последствиям при увеличении отступа: (1) Вероятность непредпочтительных (например, небезопасных) ответов может увеличиться, что приводит к потенциальным сбоям в выравнивании безопасности. (2) Вероятность предпочтительных ответов может уменьшиться, даже если эти ответы идеальны. Мы разъясняем причины этих проблематичных поведений: потери на основе отступа связывают изменение вероятности предпочтительного ответа с градиентом непредпочтительного, и наоборот, часто препятствуя увеличению вероятности предпочтительного ответа при уменьшении вероятности непредпочтительного, что приводит к синхронному увеличению или уменьшению обеих вероятностей. Мы называем это явление, присущее целям на основе отступа, градиентным запутыванием. Формально мы вывели условия для общих целей выравнивания на основе отступа, при которых градиентное запутывание становится проблемой: скалярное произведение градиентов логарифмических вероятностей предпочтительных и непредпочтительных ответов значительно больше индивидуальных норм градиентов. Мы теоретически исследуем, почему такие скалярные произведения могут быть большими при выравнивании языковых моделей, и эмпирически подтверждаем наши результаты. Эмпирические выводы нашей концепции простираются до объяснения важных различий в динамике обучения различных алгоритмов оптимизации предпочтений и предложения потенциальных конструкций алгоритмов для смягчения проблемы недостаточной спецификации методов на основе отступа и тем самым улучшения выравнивания языковых моделей.

19

Montessori-Instruct: Генерация влиятельных обучающих данных, адаптированных для обучения студентов.
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Oct 18
ByXiaochuan Li, Zichun Yu, Chenyan Xiong
3
2

Синтетические данные широко используются для обучения больших языковых моделей, однако их генеративная природа неизбежно вносит шум, неинформативные и вводящие в заблуждение сигналы обучения. В данной статье мы предлагаем Montessori-Instruct, новую структуру синтеза данных, которая настраивает способность синтеза данных учительской языковой модели на процесс обучения студенческой языковой модели. Конкретно, мы используем локальное влияние данных синтетического обучающего набора на студентов для характеристики предпочтений обучения студентов. Затем мы обучаем учительскую модель с прямой оптимизацией предпочтений (DPO) для генерации синтетических данных, настроенных на предпочтения обучения студентов. Эксперименты с Llama3-8B-Instruct (учитель) и Llama3-8B (студент) на Alpaca Eval и MT-Bench показывают, что Montessori-Instruct значительно превосходит стандартные методы синтеза на 18,35\% и 46,24\% соответственно. Наш метод также превосходит данные, синтезированные более мощной учительской моделью, GPT-4o. Дополнительный анализ подтверждает преимущества обучения учителя в генерации более влиятельных обучающих данных для улучшения обучения студентов, преимущества локального влияния данных в точном измерении предпочтений студентов и устойчивость Montessori-Instruct для различных моделей студентов. Наш код и данные доступны на https://github.com/cxcscmu/Montessori-Instruct.

20

Обучение моделей находить баланс между сопротивлением и принятием убеждения.
Teaching Models to Balance Resisting and Accepting Persuasion

Oct 18
ByElias Stengel-Eskin, Peter Hase, Mohit Bansal
3
2

Большие языковые модели (LLM) подвержены убеждению, что может создавать риски, когда модели сталкиваются с адверсарным собеседником. Мы делаем первый шаг к защите моделей от убеждения, а также аргументируем, что защита от адверсарного (т.е. негативного) убеждения - лишь половина уравнения: модели также должны быть способны принимать благоприятное (т.е. позитивное) убеждение для улучшения своих ответов. Мы показываем, что оптимизация моделей только для одной стороны приводит к плохим результатам на другой. Для балансировки позитивного и негативного убеждения мы представляем Обучение сбалансированному убеждению (или PBT), которое использует многоагентные рекурсивные диалоговые деревья для создания данных и обучения моделей с помощью оптимизации предпочтений для принятия убеждения при необходимости. PBT последовательно улучшает устойчивость к дезинформации и устойчивость к вызовам, а также приводит к лучшей общей производительности на голистических данных, содержащих как позитивное, так и негативное убеждение. Критически важно, что мы показываем, что модели PBT являются лучшими партнерами в многоагентных дебатах. Мы обнаружили, что без PBT пары более сильных и более слабых моделей имеют нестабильную производительность, при этом порядок, в котором модели представляют свои ответы, определяет, получит ли команда производительность более сильной или более слабой модели. PBT приводит к лучшим и более стабильным результатам, а также к уменьшению зависимости от порядка, при этом более сильная модель последовательно поднимает более слабую.

Oct 18
Oct 21
Oct 22