ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

SciLitLLM: Как адаптировать LLM для понимания научной литературы
SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

Aug 28
BySihang Li, Jin Huang, Jiaxi Zhuang, Yaorui Shi, Xiaochen Cai, Mingjun Xu, Xiang Wang, Linfeng Zhang, Guolin Ke, Hengxing Cai
37
1

Понимание научной литературы имеет решающее значение для извлечения целевой информации и получения умозаключений, что значительно способствует научным открытиям. Несмотря на замечательный успех больших языковых моделей (LLM), они сталкиваются с проблемами в понимании научной литературы, в основном из-за (1) отсутствия научных знаний и (2) незнакомости с специализированными научными задачами. Для разработки LLM, специализированных в понимании научной литературы, мы предлагаем гибридную стратегию, которая интегрирует непрерывное предварительное обучение (CPT) и надзорное точное дообучение (SFT), чтобы одновременно внедрить научные знания и улучшить способности следовать инструкциям для задач, специфичных для области. В этом процессе мы выделяем две ключевые проблемы: (1) создание качественных корпусов CPT и (2) генерация разнообразных инструкций SFT. Мы решаем эти проблемы через тщательный конвейер, включающий извлечение текста из PDF, исправление ошибок в разборе содержания, фильтрацию качества и создание синтетических инструкций. Применяя эту стратегию, мы представляем набор LLM: SciLitLLM, специализированных в понимании научной литературы. Эти модели демонстрируют многообещающую производительность на бенчмарках по пониманию научной литературы. Наш вклад троекратный: (1) Мы представляем эффективную структуру, которая интегрирует CPT и SFT для адаптации LLM к пониманию научной литературы, которая также легко может быть адаптирована к другим областям. (2) Мы предлагаем метод синтеза на основе LLM для генерации разнообразных и качественных научных инструкций, что приводит к новому набору инструкций - SciLitIns - для надзорного точного дообучения в мало представленных научных областях. (3) SciLitLLM достигает многообещающих улучшений производительности на бенчмарках по пониманию научной литературы.

2

CoRe: Обучение векторных представлений текста с регуляризацией контекста для персонализации текста в изображениях
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization

Aug 28
ByFeize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao
24
7

Недавние достижения в персонализации текста к изображениям позволили создавать синтез изображений высокого качества и управляемый пользователем для предоставленных концепций. Однако существующие методы все еще испытывают трудности с балансировкой сохранения идентичности и выравнивания текста. Наш подход основан на том, что генерация изображений, выровненных по запросу, требует точного семантического понимания запроса, что включает в себя точную обработку взаимодействий между новым концептом и его окружающими контекстными токенами в текстовом кодировщике CLIP. Для решения этой проблемы мы стремимся правильно внедрить новый концепт во входное пространство вложений текстового кодировщика, что позволит бесшовно интегрировать его с существующими токенами. Мы представляем метод регуляризации контекста (CoRe), который улучшает обучение вложения текста нового концепта путем регуляризации его контекстных токенов в запросе. Это основано на понимании того, что правильные выходные векторы текстового кодировщика для контекстных токенов могут быть достигнуты только в том случае, если вложение текста нового концепта было правильно изучено. CoRe может быть применен к произвольным запросам без необходимости генерации соответствующих изображений, что улучшает обобщение изученного вложения текста. Кроме того, CoRe может служить как техникой оптимизации на этапе тестирования для дальнейшего улучшения генерации для конкретных запросов. Обширные эксперименты показывают, что наш метод превосходит несколько базовых методов как в сохранении идентичности, так и в выравнивании текста. Код будет доступен публично.

3

UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

Aug 30
ByBaichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li
23
3

Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs' abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations. UrBench datasets and benchmark results will be publicly available at https://opendatalab.github.io/UrBench/.

4

CrossViewDiff: Модель кросс-видовой диффузии для синтеза изображений с космического спутника на уличный вид.
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis

Aug 27
ByWeijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
15
2

Синтез изображения с видом с спутника на улицу направлен на создание реалистичного изображения улицы из соответствующего изображения с спутника. Хотя стабильные модели диффузии проявили выдающуюся производительность в различных приложениях генерации изображений, их зависимость от входных данных с похожим видом для управления созданной структурой или текстурой ограничивает их применение к сложной задаче синтеза между видами. В данной работе мы предлагаем CrossViewDiff, модель диффузии между видами для синтеза изображения с видом с спутника на улицу. Для решения вызванных большим расхождением между видами вызовов, мы разрабатываем модули оценки структуры сцены с спутника и отображения текстуры между видами для создания структурного и текстурного управления для синтеза изображения с видом на улицу. Мы также разрабатываем процесс денойзинга с управлением между видами, который интегрирует вышеуказанные управления через улучшенный модуль внимания между видами. Для более всесторонней оценки результатов синтеза мы дополнительно разрабатываем метод оценки на основе GPT в качестве дополнения к стандартным метрикам оценки. Мы также исследуем влияние различных источников данных (например, текст, карты, высоты зданий и мультивременные спутниковые изображения) на эту задачу. Результаты на трех общедоступных наборах данных между видами показывают, что CrossViewDiff превосходит текущие передовые методы как по стандартным, так и по метрикам оценки на основе GPT, генерируя высококачественные панорамы улиц с более реалистичными структурами и текстурами в сельских, пригородных и городских сценах. Код и модели этой работы будут опубликованы на https://opendatalab.github.io/CrossViewDiff/.

5

ИнкубаЛМ: Небольшая языковая модель для языков Африки с недостаточными ресурсами
InkubaLM: A small language model for low-resource African languages

Aug 30
ByAtnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
14
2

Языковые модели с высокими ресурсами часто не соответствуют африканскому контексту, где существует критическая необходимость в моделях, которые эффективны, доступны и местно актуальны, даже при значительных ограничениях вычислительных мощностей и данных. В данной статье представлена InkubaLM - небольшая языковая модель с 0,4 миллиарда параметров, которая достигает производительности, сравнимой с моделями с значительно большим количеством параметров и более обширными данными обучения на задачах, таких как машинный перевод, вопросно-ответные системы, AfriMMLU и задача AfriXnli. Заметно, что InkubaLM превосходит многие более крупные модели в анализе тональности и демонстрирует замечательную последовательность на нескольких языках. Эта работа представляет собой значительное продвижение в вызове традиционной парадигмы, согласно которой эффективные языковые модели должны полагаться на значительные ресурсы. Наша модель и наборы данных доступны публично по адресу \url{https://huggingface.co/lelapa} для поощрения исследований и разработок в области языков с ограниченными ресурсами.

6

VQ4DiT: Эффективная посттренировочная векторная квантизация для трансформеров диффузии
VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers

Aug 30
ByJuncan Deng, Shuaiting Li, Zeyu Wang, Hong Gu, Kedong Xu, Kejie Huang
11
2

Модели трансформеров диффузии (DiTs) перевели архитектуру сети с традиционных UNet на трансформеры, продемонстрировав исключительные возможности в генерации изображений. Хотя DiTs широко применялись в задачах генерации видео высокой четкости, их большой размер параметров затрудняет вывод на периферийных устройствах. Векторное квантование (VQ) может разложить весовую модель на кодовую книгу и назначения, позволяя крайне квантовать веса и значительно сокращать использование памяти. В данной статье мы предлагаем VQ4DiT, быстрый метод векторного квантования после обучения для DiTs. Мы обнаружили, что традиционные методы VQ калибруют только кодовую книгу, не калибруя назначения. Это приводит к неправильному назначению подвекторов весов одному и тому же назначению, обеспечивая несогласованные градиенты для кодовой книги и приводя к неоптимальному результату. Для решения этой проблемы VQ4DiT вычисляет набор кандидатов для каждого подвектора веса на основе евклидового расстояния и восстанавливает подвектор на основе взвешенного среднего. Затем, используя метод калибровки нулевых данных и блоковую калибровку, оптимальное назначение из набора эффективно выбирается при калибровке кодовой книги. VQ4DiT квантует модель DiT XL/2 на одном графическом процессоре NVIDIA A100 за 20 минут до 5 часов в зависимости от различных настроек квантования. Эксперименты показывают, что VQ4DiT устанавливает новый уровень в компромиссе между размером модели и производительностью, квантуя веса с точностью 2 бита, сохраняя приемлемое качество генерации изображений.

7

Вызов по распознаванию дикторов VoxCeleb: ретроспектива
The VoxCeleb Speaker Recognition Challenge: A Retrospective

Aug 27
ByJaesung Huh, Joon Son Chung, Arsha Nagrani, Andrew Brown, Jee-weon Jung, Daniel Garcia-Romero, Andrew Zisserman
11
2

Соревнования по распознаванию дикторов VoxCeleb Speaker Recognition Challenges (VoxSRC) были серией ежегодных челленджей и семинаров, которые проходили с 2019 по 2023 год. Основной задачей соревнований было оценка задач распознавания дикторов и диаризации в различных условиях, включая: закрытые и открытые обучающие данные; а также обучение с учителем, самообучение и полу-самообучение для адаптации к домену. Соревнования также предоставляли общедоступные обучающие и оценочные наборы данных для каждой задачи и условия, с выпуском новых тестовых наборов каждый год. В данной статье мы предоставляем обзор этих соревнований, охватывающий: что было исследовано; методы, разработанные участниками соревнования и их эволюцию; а также текущее состояние области верификации дикторов и диаризации. Мы отслеживаем прогресс в производительности за пять выпусков соревнования на общем наборе данных для оценки и предоставляем детальный анализ того, как специальное внимание каждого года влияло на производительность участников. Данная статья предназначена как для исследователей, желающих получить обзор области распознавания дикторов и диаризации, так и для организаторов соревнований, которые хотят воспользоваться успехами и избежать ошибок соревнований VoxSRC. Мы завершаем обсуждением текущих сильных сторон области и открытых задач. Страница проекта: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html

8

Jina-ColBERT-v2: Общецелевой многоязычный ретриевер с поздним взаимодействием
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

Aug 29
ByRohan Jha, Bo Wang, Michael Günther, Saba Sturua, Mohammad Kalim Akram, Han Xiao
9
1

Модели с плотными многовекторными представлениями, такие как ColBERT, доказали свою высокую эффективность в информационном поиске. Оценка позднего взаимодействия ColBERT приближается к совместному вниманию запроса-документа, наблюдаемому в кросс-энкодерах, сохраняя при этом эффективность вывода, близкую к традиционным моделям плотного поиска, благодаря своей би-энкодерной архитектуре и недавним оптимизациям в индексации и поиске. В данной статье мы представляем несколько улучшений в архитектуре модели ColBERT и процессе обучения, используя успешные техники в более устоявшейся парадигме модели встраивания с одним вектором, особенно подходящие для гетерогенных мультиязычных данных. Наша новая модель, Jina-ColBERT-v2, демонстрирует высокую производительность в широком спектре задач поиска на английском и мультиязычных данных, снижая требования к хранению до 50% по сравнению с предыдущими моделями.

9

CURLoRA: Устойчивая непрерывная донастройка LLM и смягчение забывания катастрофы
CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation

Aug 26
ByMuhammad Fawi
8
3

В данной статье представлен метод CURLoRA, новый подход к настройке крупных языковых моделей (LLM), который использует декомпозицию матрицы CUR в контексте адаптации низкого ранга (LoRA). Наш метод решает две критические проблемы при настройке LLM: смягчение катастрофического забывания в процессе непрерывного обучения и уменьшение количества обучаемых параметров. Мы предлагаем уникальное изменение процесса декомпозиции CUR, используя инвертированные вероятности для выбора столбцов и строк, что действует как неявная регуляризация, и инициализируем матрицу U как нулевую матрицу, затем только настраиваем её. Мы демонстрируем через эксперименты на нескольких наборах данных, что CURLoRA превосходит стандартный LoRA в смягчении катастрофического забывания. Он поддерживает стабильность и производительность модели на различных задачах, существенно уменьшая количество обучаемых параметров. Наши результаты показывают, что CURLoRA достигает очень хорошей и стабильной точности задач, сохраняя неизменными показатели недоумения базовой модели по сравнению с LoRA при непрерывной настройке, особенно в сценариях с ограниченными данными.

10

ClimDetect: Набор данных для оценки и атрибуции изменений климата
ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution

Aug 28
BySungduk Yu, Brian L. White, Anahita Bhiwandiwalla, Musashi Hinck, Matthew Lyle Olson, Tung Nguyen, Vasudev Lal
8
1

Обнаружение и атрибуция увеличения температуры из-за изменения климата критически важны для понимания глобального потепления и направления стратегий адаптации. Сложность различения сигналов изменения климата, вызванных человеком, от естественной изменчивости, представляет собой вызов для традиционных подходов к обнаружению и атрибуции (D&A), которые стремятся выявить конкретные "отпечатки пальцев" в переменных климатического ответа. Глубокое обучение предлагает потенциал для выявления этих сложных паттернов в обширных пространственных наборах данных. Однако отсутствие стандартных протоколов затруднило согласованные сравнения между исследованиями. Мы представляем ClimDetect, стандартизированный набор данных из более чем 816 тыс. ежедневных снимков климата, разработанный для повышения точности модели в выявлении сигналов изменения климата. ClimDetect интегрирует различные входные и целевые переменные, использованные в прошлых исследованиях, обеспечивая сравнимость и последовательность. Мы также исследуем применение видовых трансформеров (ViT) к климатическим данным, новый и современный подход в этом контексте. Наши данные и код с открытым доступом служат эталоном для продвижения климатической науки через улучшение оценок моделей. ClimDetect общедоступен через репозиторий данных Huggingface по ссылке: https://huggingface.co/datasets/ClimDetect/ClimDetect.

11

SurveySum: Набор данных для создания сводных обзоров нескольких научных статей в разделе обзора.
SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section

Aug 29
ByLeandro Carísio Fernandes, Gustavo Bartz Guedes, Thiago Soares Laitz, Thales Sales Almeida, Rodrigo Nogueira, Roberto Lotufo, Jayr Pereira
8
1

Суммирование документов - это задача сокращения текстов до кратких и информативных резюме. В данной статье представлен новый набор данных, разработанный для суммирования нескольких научных статей в раздел обзора. Наши вклады: (1) SurveySum, новый набор данных, решающий проблему инструментов доменно-специфического суммирования; (2) два конкретных конвейера для суммирования научных статей в раздел обзора; и (3) оценка этих конвейеров с использованием нескольких метрик для сравнения их производительности. Наши результаты подчеркивают важность этапов высококачественного поиска и влияние различных конфигураций на качество созданных резюме.

12

VLM4Bio: Набор данных для оценки предобученных моделей видео-языкового восприятия для обнаружения признаков на биологических изображениях
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

Aug 28
ByM. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
8
1

Изображения все более становятся основным способом документирования биоразнообразия на планете, предоставляя новые возможности для ускорения научных открытий в области организменной биологии, особенно с появлением крупных моделей видео-языкового восприятия (VLM). Мы исследуем, могут ли предварительно обученные модели VLM помочь ученым в ответе на ряд биологически значимых вопросов без дополнительной настройки. В данной статье мы оцениваем эффективность 12 передовых моделей VLM в области организменной биологии с использованием нового набора данных, VLM4Bio, состоящего из 469 тыс. пар вопрос-ответ, включающего 30 тыс. изображений из трех групп организмов: рыб, птиц и бабочек, охватывающего пять биологически значимых задач. Мы также исследуем влияние применения техник подсказок и тестов на обнаружение рассуждений на производительность моделей VLM, проливая новый свет на возможности текущих передовых моделей VLM в ответе на биологически значимые вопросы с использованием изображений. Код и наборы данных для выполнения всех анализов, описанных в этой статье, можно найти по адресу https://github.com/sammarfy/VLM4Bio.

13

Автоматическая дифференциальная диагностика с использованием мультиклассовой классификации последовательностей на основе трансформера.
Automatic Differential Diagnosis using Transformer-Based Multi-Label Sequence Classification

Aug 28
ByAbu Adnan Sadi, Mohammad Ashrafuzzaman Khan, Lubaba Binte Saber
7
1

По мере развития области искусственного интеллекта, технологии помощи становятся все более широко используемыми во всех отраслях. Здравоохранение не является исключением, и проводится множество исследований для разработки вспомогательных инструментов для медицинских специалистов. Автоматические диагностические системы являются одним из таких полезных инструментов, которые могут помочь с различными задачами, включая сбор информации о пациенте, анализ результатов тестов и постановку диагноза. Однако идея разработки систем, способных предоставлять дифференциальный диагноз, в большинстве исследований была в значительной степени пренебрежена. В данном исследовании мы предлагаем подход на основе трансформера для предоставления дифференциальных диагнозов на основе возраста пациента, пола, медицинской истории и симптомов. Мы используем набор данных DDXPlus, который предоставляет информацию о дифференциальном диагнозе для пациентов на основе 49 типов заболеваний. Во-первых, мы предлагаем метод обработки табличных данных пациента из набора данных и преобразования их в отчеты о пациенте для их адаптации к нашему исследованию. Кроме того, мы вводим два модуля модификации данных для разнообразия тренировочных данных и, следовательно, улучшения устойчивости моделей. Мы подходим к задаче как к проблеме многоклассовой классификации и проводим обширные эксперименты с использованием четырех моделей трансформера. Все модели продемонстрировали многообещающие результаты, достигнув более 97% F1-оценки на тестовом наборе. Более того, мы разрабатываем дополнительные поведенческие тесты для получения более широкого понимания моделей. В частности, для одного из наших тестов мы подготовили специальный тестовый набор из 100 образцов с помощью врача. Результаты на специальном наборе показали, что наши предложенные модули модификации данных улучшили способности обобщения модели. Мы надеемся, что наши результаты предоставят будущим исследователям ценные идеи и вдохновят их разрабатывать надежные системы для автоматического дифференциального диагноза.

14

Многомерные био-последовательностные трансформеры большого масштаба для моделирования взаимодействий пептида-нуклеотида.
Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions

Aug 29
BySully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann
5
1

Архитектура трансформера революционизировала биоинформатику и способствовала прогрессу в понимании и прогнозировании свойств биомолекул. Почти вся исследовательская работа над крупномасштабными био-последовательностными трансформерами сосредоточена на одной области за раз (одно-омная), обычно нуклеотидах или пептидах. Эти модели имели невероятный успех в последующих задачах в каждой области и достигли особенно значительных прорывов в последовательностях пептидов и структурном моделировании. Однако эти одно-омные модели естественным образом не способны моделировать мульти-омные задачи, одной из наиболее биологически важных из которых являются взаимодействия нуклеотид-пептид. Мы представляем нашу работу по обучению первых мульти-омных фундаментальных моделей нуклеотид-пептидов. Мы показываем, что эти мульти-омные модели (MOMs) могут изучать совместные представления между различными одно-омными распределениями, которые внезапно согласуются с Центральной догмой молекулярной биологии, несмотря на то, что они обучены только на неразмеченных био-последовательностях. Мы далее демонстрируем, что MOMs могут быть донастроены для достижения передовых результатов в задачах взаимодействия пептид-нуклеотид, а именно прогнозирования изменения свободной энергии Гиббса ({\Delta}G) взаимодействия связывания между заданным олигонуклеотидом и пептидом, а также влияния на это взаимодействие связывания в результате мутаций в последовательности олигонуклеотида ({\Delta}{\Delta}G). Замечательно, мы показываем, что мульти-омные био-последовательностные трансформеры внезапно изучают полезную структурную информацию без какого-либо предварительного структурного обучения, что позволяет нам предсказывать, какие остатки пептида наиболее участвуют в взаимодействии связывания пептид-нуклеотид. Наконец, мы предоставляем доказательства того, что мульти-омные био-последовательностные модели не уступают фундаментальным моделям, обученным на одно-омных распределениях, что указывает на более обобщенный или фундаментальный подход к построению этих моделей.

15

GIFT-SW: Тонкая настройка выдающихся весов для LLM с инъекцией гауссовского шума
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

Aug 27
ByMaxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
3
3

Методы Параметрически Эффективной Настройки (PEFT) стали популярными и демократизировали использование Больших Языковых Моделей (LLM). Недавние исследования показали, что небольшой поднабор весов значительно влияет на производительность. Исходя из этого наблюдения, мы представляем новый метод PEFT, называемый Внедрением Гауссовского Шума для Точных Весов (GIFT-SW). Наш метод обновляет только значимые столбцы, в то время как вводит гауссовский шум в незначимые. Для идентификации этих столбцов мы разработали обобщенную метрику чувствительности, которая расширяет и объединяет метрики из предыдущих исследований. Эксперименты с моделями LLaMA показывают, что GIFT-SW превосходит полную настройку и современные методы PEFT при том же вычислительном бюджете. Более того, GIFT-SW предлагает практические преимущества для восстановления производительности моделей, подвергнутых квантованию смешанной точности, сохраняя точные веса в полной точности.

16

Итеративное выравнивание графов
Iterative Graph Alignment

Aug 29
ByFangyuan Yu, Hardeep Singh Arora, Matt Johnson
2
2

Сжимая разнообразные повествования, LLM превосходят запоминание, достигая интеллекта за счет захвата обобщенных причинно-следственных связей. Однако они сталкиваются с локальными "пробелами в представлении" из-за недостаточного разнообразия обучающих данных, что ограничивает их практическую применимость в реальном мире, особенно в задачах, требующих строгого соответствия правилам. Традиционные методы выравнивания, основанные на тяжелых человеческих аннотациях, неэффективны и не масштабируемы. Недавние методы самовыравнивания также не идеальны, поскольку они часто зависят от самоотбора на основе подсказок и запоминания. Для решения этих проблем мы представляем Итеративное Графовое Выравнивание (IGA), алгоритм выравнивания на основе правил без аннотаций. Учительская модель (VLM) использует Итеративное Графовое Подсказывание (IGP) для создания логических графов и эталонных ответов. Студенческая модель (LLM) выявляет локальные пробелы в знаниях, пытаясь выровнять свои ответы с этими эталонами, сотрудничая с вспомогательными моделями для генерации разнообразных ответов. Эти выровненные ответы затем используются для итеративного обучения с учителем (SFT). Наши оценки по пяти сценариям на основе правил демонстрируют эффективность IGP, с улучшением выравнивания на 73,12% в Claude Sonnet 3.5 и достижением улучшения на 86,20% для Llama3-8B-Instruct, превосходя Claude Sonnet 3.5 в выравнивании на основе правил.

Aug 30
Sep 2
Sep 3