ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

FrugalNeRF: Быстрая сходимость для синтеза изображений нового вида с небольшим количеством обучающих примеров без изученных априорных данных
FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors

Oct 21
ByChin-Yang Lin, Chung-Ho Wu, Chang-Han Yeh, Shih-Han Yen, Cheng Sun, Yu-Lun Liu
84
2

Нейронные поля радиантов (NeRF) сталкиваются с значительными проблемами в сценариях с небольшим количеством обучающих примеров, в основном из-за переобучения и длительного времени обучения для реалистичного визуализирования. Существующие методы, такие как FreeNeRF и SparseNeRF, используют регуляризацию частот или предварительно обученные априорные знания, но испытывают трудности с комплексным планированием и предвзятостью. Мы представляем FrugalNeRF, новую схему NeRF для сценариев с небольшим количеством обучающих примеров, которая использует весовое разделение вокселей на нескольких масштабах для эффективного представления деталей сцены. Нашим ключевым вкладом является схема геометрической адаптации между масштабами, которая выбирает псевдоистинную глубину на основе ошибок репроекции на разных масштабах. Это направляет обучение без использования внешних априорных знаний, обеспечивая полное использование обучающих данных. Также возможно интегрировать предварительно обученные априорные знания, улучшая качество без замедления сходимости. Эксперименты на наборах данных LLFF, DTU и RealEstate-10K показывают, что FrugalNeRF превосходит другие методы NeRF для сценариев с небольшим количеством обучающих примеров, существенно сокращая время обучения, что делает его практичным решением для эффективной и точной реконструкции трехмерных сцен.

2

SAM2Long: Улучшение SAM 2 для длинного сегментирования видео с использованием памятного дерева без обучения.
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

Oct 21
ByShuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
69
2

Модель Segment Anything Model 2 (SAM 2) стала мощной основной моделью для сегментации объектов как в изображениях, так и в видео, открывая путь для различных прикладных видео-приложений. Ключевым элементом дизайна SAM 2 для видео-сегментации является его модуль памяти, который инициирует объектно-ориентированные воспоминания из предыдущих кадров для прогнозирования текущего кадра. Однако его дизайн памяти с жадным выбором страдает от проблемы "накопления ошибок", где ошибочная или пропущенная маска будет каскадно влиять на сегментацию последующих кадров, что ограничивает производительность SAM 2 в сложных видео на длительный срок. В этом контексте мы представляем SAM2Long, улучшенную стратегию видео-сегментации объектов без обучения, которая учитывает неопределенность сегментации в каждом кадре и выбирает оптимальные результаты на уровне видео из нескольких путей сегментации способом ограниченного поиска в дереве. На практике мы поддерживаем фиксированное количество путей сегментации на протяжении всего видео. Для каждого кадра предлагается несколько масок на основе существующих путей, создавая различные варианты кандидатов. Затем мы выбираем то же фиксированное количество ветвей с более высокими накопленными баллами в качестве новых путей для следующего кадра. После обработки последнего кадра путь с наивысшим накопленным баллом выбирается в качестве окончательного результата сегментации. Благодаря своему эвристическому дизайну поиска, SAM2Long устойчив к заслонам и повторному появлению объектов, и может эффективно сегментировать и отслеживать объекты в сложных видео на длительный срок. Следует отметить, что SAM2Long достигает среднего улучшения в 3,0 пункта по всем 24 сравнениям "один на один", с приростом до 5,3 пункта в J&F на долгосрочных бенчмарках сегментации объектов в видео, таких как SA-V и LVOS. Код доступен по ссылке https://github.com/Mark12Ding/SAM2Long.

3

CompassJudger-1: Модель-судья всё-в-одном помогает оценке и эволюции модели.
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution

Oct 21
ByMaosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
60
2

Эффективная и точная оценка является ключевой для непрерывного улучшения больших языковых моделей (БЯМ). Среди различных методов оценки субъективная оценка привлекла значительное внимание благодаря своему превосходному соответствию реальным сценариям использования и предпочтениям людей. Однако оценки на основе людей затратны и лишены воспроизводимости, что делает точные автоматизированные оценщики (судьи) жизненно важными в этом процессе. В данном отчете мы представляем CompassJudger-1, первый открытый универсальный судейский БЯМ. CompassJudger-1 - это универсальный БЯМ, который проявляет замечательную гибкость. Он способен: 1. Выполнять единичную оценку и сравнение двух моделей в качестве модели вознаграждения; 2. Проводить оценки в соответствии с заданными форматами; 3. Генерировать критики; 4. Выполнять разнообразные задачи, как общий БЯМ. Для оценки возможностей оценки различных моделей судей в единой среде мы также создали JudgerBench, новый бенчмарк, который охватывает различные субъективные задачи оценки и охватывает широкий спектр тематик. CompassJudger-1 предлагает всестороннее решение для различных задач оценки, сохраняя гибкость для адаптации к различным требованиям. Как CompassJudger, так и JudgerBench выпущены и доступны научному сообществу по адресу https://github.com/open-compass/CompassJudger. Мы считаем, что путем открытия исходного кода этих инструментов мы можем способствовать сотрудничеству и ускорить прогресс в методологиях оценки БЯМ.

4

AutoTrain: Обучение без кода для моделей последнего поколения
AutoTrain: No-code training for state-of-the-art models

Oct 21
ByAbhishek Thakur
59
2

С развитием открытых моделей обучение (или донастройка) моделей на пользовательских наборах данных стало важной частью разработки решений, адаптированных к конкретным промышленным или открытым приложениям. Однако не существует единого инструмента, который упростил бы процесс обучения на различных типах модальностей или задач. Мы представляем AutoTrain (также известный как AutoTrain Advanced) - открытый инструмент/библиотеку без кода, которую можно использовать для обучения (или донастройки) моделей для различных типов задач, таких как: донастройка большой языковой модели (LLM), классификация/регрессия текста, классификация токенов, задача последовательность-последовательность, донастройка предложений-трансформеров, донастройка визуальной языковой модели (VLM), классификация/регрессия изображений, а также классификация и регрессия на табличных данных. AutoTrain Advanced - это открытая библиотека, предоставляющая bew practices для обучения моделей на пользовательских наборах данных. Библиотека доступна по адресу https://github.com/huggingface/autotrain-advanced. AutoTrain можно использовать в полностью локальном режиме или на облачных машинах и работает с десятками тысяч моделей, размещенных на платформе Hugging Face Hub, и их вариациями.

5

PUMA: Усиление объединенной MLLM с многозернистой визуальной генерацией
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

Oct 17
ByRongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
56
3

Недавние достижения в мультимодальных базовых моделях привели к значительному прогрессу в понимании визуальной и языковой информации. Первоначальные попытки также исследовали потенциал мультимодальных крупных языковых моделей (MLLM) для генерации визуального контента. Однако существующие работы недостаточно уделяли внимание различным требованиям к детализации различных задач по генерации изображений в рамках единой парадигмы MLLM - от разнообразия, необходимого для генерации текста в изображение, до точной управляемости, необходимой для манипулирования изображениями. В данной работе мы предлагаем PUMA, усовершенствование единой MLLM с мультигранулярной визуальной генерацией. PUMA объединяет мультигранулярные визуальные особенности как входы, так и выходы MLLM, элегантно решая различные требования к детализации различных задач по генерации изображений в рамках единой структуры MLLM. После мультимодального предварительного обучения и настройки инструкций для конкретных задач, PUMA демонстрирует профессионализм в широком спектре мультимодальных задач. Эта работа представляет собой значительный шаг к по-настоящему единой MLLM, способной адаптироваться к требованиям детализации различных визуальных задач. Код и модель будут опубликованы на https://github.com/rongyaofang/PUMA.

6

Технический отчет по выравниванию Baichuan
Baichuan Alignment Technical Report

Oct 19
ByMingan Lin, Fan Yang, Yanjun Shen, Haoze Sun, Tianpeng Li, Tao Zhang, Chenzheng Zhu, Tao Zhang, Miao Zheng, Xu Li, Yijie Zhou, Mingyang Chen, Yanzhao Qin, Youquan Li, Hao Liang, Fei Li, Yadong Li, Mang Wang, Guosheng Dong, Kun Fang, Jianhua Xu, Bin Cui, Wentao Zhang, Zenan Zhou, Weipeng Chen
51
2

Мы представляем Baichuan Alignment, детальный анализ методов выравнивания, используемых в серии моделей Baichuan. Это представляет собой первый в отрасли исчерпывающий обзор методологий выравнивания, предлагающий ценные идеи для продвижения исследований в области искусственного интеллекта. Мы исследуем ключевые компоненты, улучшающие производительность модели во время процесса выравнивания, включая методы оптимизации, стратегии данных, улучшения возможностей и процессы оценки. Процесс охватывает три ключевых этапа: систему дополнения запроса (PAS), надзорную донастройку (SFT) и выравнивание предпочтений. Проблемы, с которыми столкнулись, примененные решения и внесенные улучшения тщательно документированы. Путем сравнения с хорошо установленными эталонами мы выделяем технологические достижения, обеспеченные Baichuan Alignment. Baichuan-Instruct является внутренней моделью, в то время как Qwen2-Nova-72B и Llama3-PBM-Nova-70B являются версиями с инструкциями базовых моделей Qwen2-72B и Llama-3-70B, оптимизированными через Baichuan Alignment. Baichuan-Instruct демонстрирует значительные улучшения в основных возможностях, с повышением уровня удовлетворенности пользователя от 17% до 28% и показывает исключительные результаты на специализированных эталонах. В оценках открытых эталонов Qwen2-Nova-72B и Llama3-PBM-Nova-70B последовательно превосходят свои соответствующие официальные версии с инструкциями почти на всех наборах данных. Настоящий отчет направлен на разъяснение ключевых технологий, лежащих в основе процесса выравнивания, способствуя более глубокому пониманию в сообществе. Модель Llama3-PBM-Nova-70B доступна по ссылке https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.

7

SemiEvol: Полу-надзорная настройка Fei-tuning для адаптации LLM
SemiEvol: Semi-supervised Fine-tuning for LLM Adaptation

Oct 17
ByJunyu Luo, Xiao Luo, Xiusi Chen, Zhiping Xiao, Wei Ju, Ming Zhang
47
2

Надзорное донастройка (SFT) является ключевым в адаптации крупных языковых моделей (LLM) к конкретной области или задаче. Однако в практических приложениях доступно лишь ограниченное количество размеченных данных, что представляет серьезное испытание для SFT в достижении удовлетворительных результатов. Поэтому очень важно наличие эффективной структуры, которая может полностью использовать размеченные и неразмеченные данные для донастройки LLM. В этом контексте мы представляем полу-надзорную структуру донастройки под названием SemiEvol для адаптации LLM в режиме распространения и выбора. Для распространения знаний SemiEvol применяет двухуровневый подход, распространяя знания от размеченных данных к неразмеченным данным через методы весов и контекста. Для выбора знаний SemiEvol включает механизм коллаборативного обучения, выбирая образцы псевдо-ответов более высокого качества. Мы провели эксперименты, используя GPT-4o-mini и Llama-3.1 на семи общих или областно-специфических наборах данных, продемонстрировав значительное улучшение производительности модели на целевых данных. Кроме того, мы сравнили SemiEvol с SFT и методами самоэволюции, подчеркивая его практичность в гибридных сценариях данных.

8

Пангея: Полностью открытая мультиязычная мультимодальная LLM для 39 языков
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Oct 21
ByXiang Yue, Yueqi Song, Akari Asai, Seungone Kim, Jean de Dieu Nyandwi, Simran Khanuja, Anjali Kantharuban, Lintang Sutawika, Sathyanarayanan Ramamoorthy, Graham Neubig
44
3

Несмотря на недавние достижения в области мультимодальных крупных языковых моделей (MLLMs), их разработка в основном сосредоточена на англоязычных и западно-центричных наборах данных и задачах, что приводит к недостаточному представлению большинства языков мира и разнообразных культурных контекстов. В данной статье представляется Pangea, многоязычная мультимодальная LLM, обученная на PangeaIns, разнообразном наборе данных из 6 млн инструкций на 39 языках. PangeaIns включает в себя: 1) высококачественные английские инструкции, 2) тщательно машинно переведенные инструкции и 3) культурно значимые мультимодальные задачи для обеспечения кросс-культурного охвата. Для тщательной оценки возможностей моделей мы представляем PangeaBench, комплексный набор оценочных данных, охватывающий 14 наборов данных на 47 языках. Результаты показывают, что Pangea значительно превосходит существующие модели с открытым исходным кодом в мультиязычных средах и разнообразных культурных контекстах. Анализ отказов также показывает важность долей данных на английском языке, популярности языка и количества образцов мультимодального обучения для общей производительности. Мы полностью открываем наши данные, код и обученные контрольные точки, чтобы способствовать развитию инклюзивных и надежных многоязычных LLM, способствуя равенству и доступности по всему более широкому лингвистическому и культурному спектру.

9

RM-Bench: Оценка моделей вознаграждения языковых моделей с утонченностью и стилем
RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style

Oct 21
ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li
25
2

Модели вознаграждения имеют решающее значение в техниках, таких как Обучение с подкреплением на основе обратной связи от человека (RLHF) и Законы масштабирования вывода, где они направляют выравнивание языковых моделей и выбор оптимальных ответов. Несмотря на их важность, существующие бенчмарки для моделей вознаграждения часто оценивают модели, запрашивая у них различать между ответами, сгенерированными моделями разной мощности. Однако такой подход не позволяет оценить модели вознаграждения на тонкие, но критически важные изменения содержания и вариации стиля, что приводит к низкой корреляции с производительностью модели политики. В этой связи мы представляем RM-Bench, новый бенчмарк, разработанный для оценки моделей вознаграждения на основе их чувствительности к тонким различиям в содержании и устойчивости к стилевым предвзятостям. Обширные эксперименты показывают, что RM-Bench сильно коррелирует с производительностью модели политики, что делает его надежным инструментом для выбора моделей вознаграждения для эффективного выравнивания языковых моделей. Мы оценили почти 40 моделей вознаграждения на RM-Bench. Наши результаты показывают, что даже самые передовые модели достигают лишь средней производительности 46,6%, что ниже уровня случайной точности (50%) при воздействии стилевых предвзятостей. Эти результаты подчеркивают значительный потенциал для улучшения существующих моделей вознаграждения. Связанный код и данные доступны по ссылке https://github.com/THU-KEG/RM-Bench.

10

Мета-чанкинг: обучение эффективному сегментированию текста с помощью логического восприятия
Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception

Oct 16
ByJihao Zhao, Zhiyuan Ji, Pengnian Qi, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li
23
4

Подход с извлечением информации и генерацией (Retrieval-Augmented Generation, RAG), хотя и является жизнеспособным дополнением к большим языковым моделям (Large Language Models, LLM), часто упускает важный аспект сегментации текста внутри своего конвейера, что влияет на качество задач, требующих обширных знаний. В данной статье представлен концепт Мета-Сегментации, который представляет собой уровень между предложениями и абзацами, состоящий из коллекции предложений внутри абзаца, имеющих глубокие лингвистические логические связи. Для реализации Мета-Сегментации мы разработали две стратегии на основе LLM: Сегментация с использованием выборки отступов (Margin Sampling Chunking) и Сегментация с использованием перплексии (Perplexity Chunking). Первая стратегия использует LLM для выполнения бинарной классификации на основе необходимости сегментации последовательных предложений, принимая решения на основе разницы вероятностей, полученной из выборки отступов. Вторая стратегия точно определяет границы сегментов текста путем анализа характеристик распределения перплексии. Кроме того, учитывая врожденную сложность различных текстов, мы предлагаем стратегию, которая объединяет Мета-Сегментацию с динамическим объединением для достижения баланса между детализированной и крупнозернистой сегментацией текста. Проведенные эксперименты на одиннадцати наборах данных показывают, что Мета-Сегментация может более эффективно улучшить производительность одношагового и многошагового вопросно-ответного моделирования на основе RAG. Например, на наборе данных 2WikiMultihopQA она превосходит сегментацию по сходству на 1,32, потребляя всего 45,8% времени. Наш код доступен по адресу https://github.com/IAAR-Shanghai/Meta-Chunking.

11

Предварительное обучение дистилляции для больших языковых моделей: исследование пространства проектирования
Pre-training Distillation for Large Language Models: A Design Space Exploration

Oct 21
ByHao Peng, Xin Lv, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li
16
2

Дистилляция знаний (KD) направлена на передачу знаний от крупной модели-учителя к более компактной модели-ученику. Предыдущие исследования, применяющие дистилляцию знаний в области крупных языковых моделей (LLM), обычно сосредотачивались на этапе пост-тренировки, где модель-ученик напрямую учится от инструкций и соответствующих ответов, сгенерированных моделью-учителем. В данной статье мы расширяем применение KD на этап пре-тренировки LLM, назвав его дистилляцией пре-тренировки (PD). Сначала мы проводим предварительный эксперимент, используя GLM-4-9B в качестве модели-учителя для дистилляции модели-ученика с 1.9 млрд параметров, подтверждая эффективность PD. Учитывая ключевые факторы влияния дистилляции, мы систематически исследуем пространство проектирования дистилляции пре-тренировки в четырех аспектах: обработка логитов, выбор функции потерь, закон масштабирования и использование логитов оффлайн или онлайн. Мы проводим обширные эксперименты для исследования пространства проектирования дистилляции пре-тренировки и находим более эффективные конфигурации и интересные выводы, такие как то, что более крупные LLM-ы обычно больше выигрывают от дистилляции пре-тренировки, в то время как более крупная LLM-а учителя не гарантирует лучших результатов. Мы надеемся, что наше исследование пространства проектирования будет информативным для будущих практик в области дистилляции пре-тренировки.

12

Алхимия: Увеличение Возможностей Теоремного Доказательства через Символическую Мутацию
Alchemy: Amplifying Theorem-Proving Capability through Symbolic Mutation

Oct 21
ByShaonan Wu, Shuai Lu, Yeyun Gong, Nan Duan, Ping Wei
13
3

Формальные доказательства сложно написать даже опытным экспертам. Недавние успехи в области Нейронного Доказательства Теорем (NTP) показывают потенциал в ускорении этого процесса. Однако формальные корпуса, доступные в Интернете, ограничены по сравнению с общим текстом, что представляет собой значительную проблему нехватки данных для NTP. Для решения этой проблемы в данной работе предлагается Alchemy, общая структура для синтеза данных, которая создает формальные теоремы путем символической мутации. Конкретно, для каждой кандидатской теоремы в Mathlib мы определяем все вызываемые теоремы, которые могут быть использованы для переписывания или применения к ней. Впоследствии мы мутируем кандидатскую теорему, заменяя соответствующий терм в утверждении на его эквивалентную форму или предшествующее. В результате наш метод увеличивает количество теорем в Mathlib на порядок, с 110 тыс. до 6 млн. Кроме того, мы проводим непрерывное предварительное обучение и надзорное дообучение на этом расширенном корпусе для больших языковых моделей. Экспериментальные результаты демонстрируют эффективность нашего подхода, достигая улучшения производительности на 5% по абсолютному показателю на бенчмарке Leandojo. Кроме того, наши синтетические данные достигают улучшения производительности на 2.5% по абсолютному показателю на бенчмарке miniF2F вне распределения. Для предоставления дополнительных идей мы проводим всесторонний анализ состава синтетических данных и парадигмы обучения, предлагая ценное руководство для разработки надежного доказателя теорем.

13

Ичиго: Многофункциональный реальном времени голосовой ассистент с ранним объединением.
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

Oct 20
ByAlan Dao, Dinh Bach Vu, Huy Hoang Ha
12
5

Большие языковые модели (LLM) революционизировали обработку естественного языка, однако их применение к задачам на основе речи остается сложным из-за сложностей интеграции аудио и текстовых модальностей. В данной статье представлена Ichigo - смешанная модель, которая безупречно обрабатывает чередующиеся последовательности речи и текста. Используя токенизированный подход раннего слияния, Ichigo квантует речь в дискретные токены и применяет единообразную архитектуру на основе трансформера как для речевой, так и для текстовой модальностей. Этот метод позволяет совместное рассуждение и генерацию между модальностями без необходимости в отдельных адаптерах. Мы представляем всестороннюю методологию обучения, включая предварительное обучение на многоязычных наборах данных по распознаванию речи и донастройку на отобранном инструкционном наборе данных. Ichigo демонстрирует передовую производительность на бенчмарках вопросно-ответных систем на основе речи, превосходя существующие открытые речевые языковые модели и достигая сравнимых результатов с каскадными системами. Особенно стоит отметить, что Ichigo обладает задержкой всего 111 мс до генерации первого токена, значительно меньшей, чем у текущих моделей. Наш подход не только продвигает область мультимодального искусственного интеллекта, но также предоставляет рамочное решение для более маленьких исследовательских групп, чтобы эффективно вносить свой вклад в открытые речевые языковые модели.

14

Обучение с подкреплением на основе модели без обучающих примеров с использованием больших языковых моделей
Zero-shot Model-based Reinforcement Learning using Large Language Models

Oct 15
ByAbdelhakim Benechehab, Youssef Attia El Hili, Ambroise Odonnat, Oussama Zekri, Albert Thomas, Giuseppe Paolo, Maurizio Filippone, Ievgen Redko, Balázs Kégl
9
4

Возникающие возможности нулевого обучения у больших языковых моделей (LLM) привели к их применению в областях, выходящих далеко за рамки задач обработки естественного языка. В обучении с подкреплением, хотя LLM широко используются в текстовых средах, их интеграция с непрерывными пространствами состояний остается малоизученной. В данной статье мы исследуем, как предварительно обученные LLM могут быть задействованы для прогнозирования в контексте динамики непрерывных марковских процессов принятия решений. Мы выделяем работу с многомерными данными и интеграцию управляющего сигнала как ключевые проблемы, ограничивающие потенциал применения LLM в этой конфигурации, и предлагаем метод Disentangled In-Context Learning (DICL) для их решения. Мы представляем приложения концепции в двух настройках обучения с подкреплением: оценка политики на основе модели и обучение с подкреплением с увеличением данных вне политики, подкрепленные теоретическим анализом предложенных методов. Наши эксперименты также демонстрируют, что наш подход производит хорошо калиброванные оценки неопределенности. Мы выкладываем код на https://github.com/abenechehab/dicl.

15

Выбор влиятельных образцов для выравнивания длинного контекста с помощью руководства гомологичных моделей и измерения контекстуального осознания.
Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement

Oct 21
ByShuzheng Si, Haozhe Zhao, Gang Chen, Yunshui Li, Kangyang Luo, Chuancheng Lv, Kaikai An, Fanchao Qi, Baobao Chang, Maosong Sun
7
3

Расширение крупных языковых моделей для эффективной обработки инструкций с чрезвычайно длинными контекстами еще полностью не исследовано. Основное препятствие заключается в создании высококачественного набора данных для следования длинным инструкциям, разработанного для выравнивания длинных контекстов. Существующие исследования пытались увеличить объем доступных данных путем синтеза длинных образцов следования инструкциям. Однако без разработки четкой стратегии обеспечения качества данных безраздельное увеличение объема данных может привести к появлению низкокачественных образцов и ограничить конечную производительность. Для преодоления этого разрыва мы стремимся решить уникальное испытание выравнивания длинных контекстов, то есть моделирование дальних зависимостей для обработки инструкций и длинных входных контекстов. Мы предлагаем GATEAU, новую структуру, разработанную для выявления влиятельных и высококачественных образцов, обогащенных дальними зависимостями, путем использования созданного Руководства Гомологичных Моделей (HMG) и Измерения Контекстуального Сознания (CAM). Конкретно, HMG пытается измерить сложность генерации соответствующих ответов из-за дальних зависимостей, используя оценки непонятности ответа от двух гомологичных моделей с различными окнами контекста. Также роль CAM заключается в измерении сложности понимания длинных входных контекстов из-за дальних зависимостей путем оценки того, сосредоточено ли внимание модели на важных сегментах. Основываясь на обоих предложенных методах, мы выбираем наиболее сложные образцы в качестве влиятельных данных для эффективного формирования дальних зависимостей, тем самым достигая лучшей производительности LLMs. Обширные эксперименты показывают, что GATEAU эффективно выявляет образцы, обогащенные дальними зависимостями, и модель, обученная на этих выбранных образцах, обладает лучшими возможностями следования инструкциям и понимания длинных контекстов.

16

Сколько Ван Гогов нужно, чтобы получился Ван Гог? Поиск порога имитации
How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold

Oct 19
BySahil Verma, Royi Rassin, Arnav Das, Gantavya Bhatt, Preethi Seshadri, Chirag Shah, Jeff Bilmes, Hannaneh Hajishirzi, Yanai Elazar
6
3

Модели текст-к-изображению обучаются с использованием больших наборов данных, собранных путем сканирования пар изображений и текста из интернета. Эти наборы данных часто включают в себя частные, защищенные авторским правом и лицензионные материалы. Обучение моделей на таких наборах данных позволяет им создавать изображения с таким контентом, который может нарушать авторские права и индивидуальную конфиденциальность. Это явление называется имитацией - генерация изображений с контентом, который имеет узнаваемое сходство с обучающими изображениями. В данной работе мы изучаем связь между частотой концепции в обучающем наборе данных и способностью модели ее имитировать. Мы стремимся определить момент, когда модель была обучена на достаточном количестве экземпляров для имитации концепции - порог имитации. Мы ставим этот вопрос как новую проблему: Поиск Порога Имитации (FIT) и предлагаем эффективный подход, который оценивает порог имитации без огромных затрат на обучение нескольких моделей с нуля. Мы проводим эксперименты в двух областях - человеческие лица и художественные стили - для которых мы создаем четыре набора данных, и оцениваем три модели текст-к-изображению, которые были обучены на двух предварительных наборах данных. Наши результаты показывают, что порог имитации этих моделей находится в диапазоне от 200 до 600 изображений, в зависимости от области и модели. Порог имитации может служить эмпирическим основанием для утверждений о нарушении авторских прав и выступать в качестве руководящего принципа для разработчиков моделей текст-к-изображению, которые стремятся соблюдать авторские и конфиденциальные законы. Мы выкладываем код и данные на https://github.com/vsahil/MIMETIC-2.git, а веб-сайт проекта размещен по адресу https://how-many-van-goghs-does-it-take.github.io.

17

Агент-к-Симулятору: Обучение моделей интерактивного поведения по непринужденным продолжительным видеозаписям
Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos

Oct 21
ByGengshan Yang, Andrea Bajcsy, Shunsuke Saito, Angjoo Kanazawa
5
2

Мы представляем Agent-to-Sim (ATS), фреймворк для изучения моделей интерактивного поведения 3D агентов по непринужденным видеозаписям продолжительного характера. В отличие от предыдущих работ, основанных на маркерном отслеживании и многокамерной съемке, ATS изучает естественное поведение животных и человеческих агентов неинвазивно через видеонаблюдения, записанные в течение длительного времени (например, месяц) в одной среде. Моделирование 3D поведения агента требует постоянного 3D отслеживания (например, знание, какая точка соответствует какой) на протяжении длительного временного интервала. Для получения таких данных мы разработали метод грубой и тонкой регистрации, который отслеживает агента и камеру со временем через каноническое 3D пространство, что приводит к полному и постоянному пространственно-временному 4D представлению. Затем мы обучаем генеративную модель поведения агента, используя сопоставленные данные восприятия и движения агента, запрошенные из 4D реконструкции. ATS обеспечивает перенос из реального мира в симулятор поведения по видеозаписям агента. Мы продемонстрировали результаты на домашних животных (например, кошка, собака, кролик) и человеке, используя монокулярные RGBD видеозаписи, сделанные смартфоном.

18

CBT-Bench: Оценка больших языковых моделей в помощи когнитивной поведенческой терапии
CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy

Oct 17
ByMian Zhang, Xianjun Yang, Xinlu Zhang, Travis Labrum, Jamie C. Chiu, Shaun M. Eack, Fei Fang, William Yang Wang, Zhiyu Zoey Chen
4
2

Существует значительный разрыв между потребностями пациентов и доступной поддержкой в области психического здоровья сегодня. В данной статье мы стремимся тщательно исследовать потенциал использования Больших Языковых Моделей (Large Language Models, LLMs) для помощи профессиональной психотерапии. Для этого мы предлагаем новый бенчмарк, CBT-BENCH, для систематической оценки помощи когнитивно-поведенческой терапии (Cognitive Behavioral Therapy, CBT). Мы включаем три уровня задач в CBT-BENCH: I: Закрепление базовых знаний CBT с задачей множественного выбора; II: Понимание когнитивной модели с задачами классификации когнитивных искажений, классификации первичных ядерных убеждений и классификации убеждений более тонкого уровня; III: Генерация терапевтических ответов с задачей генерации ответов на высказывания пациента на сессиях CBT. Эти задачи охватывают ключевые аспекты CBT, которые могут быть улучшены с помощью поддержки искусственного интеллекта, а также определяют иерархию требований к возможностям, начиная от повторения базовых знаний до участия в реальных терапевтических разговорах. Мы оценили представительные LLMs нашего бенчмарка. Экспериментальные результаты показывают, что хотя LLMs хорошо справляются с воспроизведением знаний CBT, они не справляются с сложными сценариями реального мира, требующими глубокого анализа когнитивных структур пациентов и генерации эффективных ответов, что указывает на потенциал для будущей работы.

19

Настройка маршрутизатора: простой и эффективный подход для обеспечения динамической глубины в трансформерах.
Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers

Oct 17
ByShwai He, Tao Ge, Guoheng Sun, Bowei Tian, Xiaoyang Wang, Ang Li, Dong Yu
3
2

Традиционные модели трансформеров часто выделяют фиксированное количество вычислительных ресурсов для каждого входного токена, что приводит к неэффективным и излишним вычислениям. Для решения этой проблемы был представлен метод Смешанных Глубин (MoD), который динамически корректирует вычислительную глубину, пропуская менее важные слои. Несмотря на свои перспективы, текущие подходы MoD остаются мало исследованными и сталкиваются с двумя основными проблемами: (1) высокие затраты на обучение из-за необходимости обучать весь модельный комплекс вместе с маршрутизаторами, которые определяют, какие слои пропускать, и (2) риск снижения производительности при обходе важных слоев. В ответ на первую проблему мы предлагаем метод Тонирования Маршрутизатора, который донастраивает только маршрутизатор на небольшом наборе данных, резко снижая вычислительные издержки, связанные с полным обучением модели. Для решения второй проблемы мы предлагаем метод MindSkip, который использует Внимание с Динамическими Глубинами. Этот метод сохраняет производительность модели, значительно повышая вычислительную и памятьную эффективность. Обширные эксперименты показывают, что наш подход обеспечивает конкурентоспособные результаты, существенно улучшая эффективность вычислений, например, ускорение на 21\% и лишь незначительное снижение производительности на 0.2\%. Код доступен по ссылке https://github.com/CASE-Lab-UMD/Router-Tuning.

20

Обучение в контексте и бритва Оккама
In-context learning and Occam's razor

Oct 17
ByEric Elmoznino, Tom Marty, Tejas Kasetty, Leo Gagnon, Sarthak Mittal, Mahan Fathi, Dhanya Sridhar, Guillaume Lajoie
2
2

Целью машинного обучения является обобщение. В то время как Теорема о том, что обедов бесплатных нет, утверждает, что мы не можем получить теоретические гарантии для обобщения без дополнительных предположений, на практике мы наблюдаем, что простые модели, которые объясняют обучающие данные, лучше обобщаются: принцип, называемый бритвой Оккама. Несмотря на необходимость простых моделей, большинство текущих подходов в машинном обучении только минимизируют ошибку обучения, и, в лучшем случае, косвенно способствуют простоте через регуляризацию или конструкцию архитектуры. Здесь мы устанавливаем связь между бритвой Оккама и обучением в контексте: внезапно возникающая способность определенных моделей последовательностей, таких как Трансформеры, учиться во время вывода на основе предыдущих наблюдений в последовательности. В частности, мы показываем, что потеря предсказания следующего токена, используемая для обучения моделей в контексте, непосредственно эквивалентна технике сжатия данных, называемой предиктивным кодированием, и что минимизация этой потери означает совместное минимизирование как ошибки обучения, так и сложности модели, которая была неявно выучена из контекста. Наша теория и эмпирические эксперименты, которые мы используем для ее поддержки, не только предоставляют нормативное объяснение обучения в контексте, но также проясняют недостатки текущих методов обучения в контексте, предлагая способы их улучшения. Мы предоставляем наш код по адресу https://github.com/3rdCore/PrequentialCode.

21

DM-Codec: Извлечение мультимодальных представлений для токенизации речи
DM-Codec: Distilling Multimodal Representations for Speech Tokenization

Oct 19
ByMd Mubtasim Ahasan, Md Fahim, Tasnim Mohiuddin, A K M Mahbubur Rahman, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Md Mofijul Islam, Amin Ahsan Ali
2
2

Недавние достижения в области речевых моделей привели к значительным улучшениям в токенизации и синтезе речи. Однако эффективное отображение сложных, многомерных атрибутов речи в дискретные токены остается сложной задачей. Этот процесс требует акустической, семантической и контекстуальной информации для точного представления речи. Существующие представления речи обычно делятся на две категории: акустические токены из аудиокодеков и семантические токены из моделей обучения без учителя для речи. Хотя недавние усилия объединили акустические и семантические токены для улучшения производительности, они не учитывают важную роль контекстуального представления в комплексном моделировании речи. Наши эмпирические исследования показывают, что отсутствие контекстуальных представлений приводит к повышению уровня ошибок слов (WER) и потере информации о словах (WIL) при транскрипции речи. Для решения этих ограничений мы предлагаем два новых подхода к дистилляции: (1) метод дистилляции под руководством языковой модели (LM), который включает контекстуальную информацию, и (2) комбинированный метод дистилляции под руководством LM и модели обучения без учителя для речи (SM), который эффективно дистиллирует мультимодальные представления (акустические, семантические и контекстуальные) в комплексный токенизатор речи, названный DM-Codec. Архитектура DM-Codec использует упрощенную структуру кодировщика-декодировщика с остаточным векторным квантизатором (RVQ) и включает LM и SM в процесс обучения. Эксперименты показывают, что DM-Codec значительно превосходит существующие модели токенизации речи, снижая WER до 13,46%, WIL до 9,82%, улучшая качество речи на 5,84% и понимаемость на 1,85% на наборе данных LibriSpeech. Код, образцы и контрольные точки модели доступны по адресу https://github.com/mubtasimahasan/DM-Codec.

22

Детоксикация галлюцинаций: отказ чувствительных нейронов (SeND) для обучения больших языковых моделей
Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training

Oct 20
ByShahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
1
2

Поскольку большие языковые модели (LLM) все чаще применяются в различных отраслях, возрастает беспокойство относительно их надежности, особенно из-за галлюцинаций - результатов, которые фактически неверны или не имеют отношения к вводу пользователя. Наше исследование исследует взаимосвязь между процессом обучения и возникновением галлюцинаций, чтобы заполнить ключевой пробел в существующих исследованиях, которые в основном сосредотачиваются на стратегиях пост-фактум обнаружения и смягчения. Используя модели из набора Pythia (70M-12B параметров) и несколько метрик обнаружения галлюцинаций, мы анализируем тенденции галлюцинаций на протяжении обучения и исследуем внутреннюю динамику LLM. Мы представляем SEnsitive Neuron Dropout (SeND), новый протокол обучения, разработанный для смягчения галлюцинаций путем уменьшения дисперсии во время обучения. SeND достигает этого путем детерминированного отсева нейронов с значительной изменчивостью на наборе данных, называемых Чувствительными Нейронами. Кроме того, мы разрабатываем метрику обнаружения галлюцинаций без учителя, Эффективный EigenScore (EES), который приближает традиционный EigenScore в 2 раза быстрее. Эта эффективная метрика интегрируется в наш протокол, позволяя SeND быть как вычислительно масштабируемым, так и эффективным в снижении галлюцинаций. Наша эмпирическая оценка демонстрирует, что наш подход повышает надежность LLM на этапе тестирования на до 40% по сравнению с обычным обучением, обеспечивая при этом эффективный метод улучшения фактической точности при адаптации LLM к областям, таким как Википедия и медицинские наборы данных.

23

Межъязыковая автооценка для оценки мультиязычных LLM-моделей
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs

Oct 17
BySumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra
1
2

Оценка машинно-сгенерированного текста остается значительным вызовом в области обработки естественного языка, особенно для неанглийских языков. Нынешние методологии, включая автоматизированные метрики, оценки человеком и оценки на основе LLM, в основном сосредоточены на английском языке, что показывает значительный разрыв в мультиязычных оценочных фреймворках. Мы представляем Cross Lingual Auto Evaluation (CIA) Suite, расширяемый фреймворк, который включает оценщиков LLM (Hercule) и новый тестовый набор (Recon), специально разработанный для мультиязычной оценки. Наш тестовый набор включает 500 человеко-аннотированных инструкций, охватывающих различные задачи, а также оценки человеческого суждения на шести языках. Это позволит проводить бенчмаркинг общеязыковых LLM и облегчит метаоценку оценщиков LLM. Предложенная модель, Hercule, является кросс-языковой моделью оценки, которая решает проблему недостатка эталонных ответов на целевом языке, обучаясь присваивать баллы ответам на основе легко доступных эталонных ответов на английском языке. Наши эксперименты показывают, что Hercule более точно соответствует человеческим суждениям по сравнению с собственными моделями, демонстрируя эффективность такой кросс-языковой оценки в условиях ограниченных ресурсов. Кроме того, она также эффективна при оценке на невидимых языках. Это исследование является первым всесторонним изучением кросс-языковой оценки с использованием LLM, представляя масштабируемый и эффективный подход для мультиязычной оценки. Весь код, наборы данных и модели будут общедоступны для дальнейших исследований в этой важной области.

Oct 21
Oct 22
Oct 23