ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

1

Технический отчет по OmniFusion
OmniFusion Technical Report

Apr 9
ByElizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, Maxim Kurkin, Irina Abdullaeva, Matvey Skripkin, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov
77
10

В прошлом году мультимодальные архитектуры привнесли революцию в подходы и решения на основе искусственного интеллекта, расширяя возможности крупных языковых моделей (LLM). Мы предлагаем модель OmniFusion на основе предварительно обученной LLM и адаптеров для визуальной модальности. Мы оценили и сравнили несколько принципов архитектурного проектирования для лучшей связи текстовых и визуальных данных: адаптеры MLP и трансформер, различные кодировщики на основе CLIP ViT (SigLIP, InternVIT и т. д.) и их подход к объединению, метод кодирования изображения (все изображение или кодирование плитками) и две LLM на 7 миллиардов параметров (проприетарная и открытая Mistral). Эксперименты на 8 визуально-языковых бенчмарках показывают лучший результат для наилучшей настройки OmniFusion по сравнению с решениями вроде LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Мы также предлагаем различные ситуации, в которых OmniFusion предоставляет подробные ответы в различных областях: домашнее хозяйство, осмотр достопримечательностей, культура, медицина, распознавание рукописных и отсканированных уравнений и т. д. Модель OmniFusion на основе Mistral является решением с открытым исходным кодом, весами, скриптами обучения и вывода, доступными по адресу https://github.com/AIRI-Institute/OmniFusion.

2

LLM2Vec: Большие языковые модели - мощные текстовые кодировщики
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

Apr 9
ByParishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy
66
8

Большие модели языка только с декодером (LLM) являются современными моделями для большинства сегодняшних задач и бенчмарков в области обработки естественного языка. Тем не менее, сообщество медленно принимает эти модели для задач встраивания текста, которые требуют богатых контекстуализированных представлений. В данной работе мы представляем LLM2Vec, простой ненадзорный подход, который может преобразовать любую модель LLM только с декодером в мощный текстовый кодировщик. LLM2Vec состоит из трех простых шагов: 1) включение двунаправленного внимания, 2) маскированное предсказание следующего токена и 3) ненадзорное контрастное обучение. Мы демонстрируем эффективность LLM2Vec, применяя его к 3 популярным LLM с количеством параметров от 1,3 млрд до 7 млрд, и оцениваем преобразованные модели на задачах на уровне слов и последовательностей на английском языке. Мы превосходим модели только с кодировщиком с большим отрывом на задачах на уровне слов и достигаем нового ненадзорного современного уровня производительности на Бенчмарке по Массивным Встраиваниям Текста (MTEB). Более того, комбинируя LLM2Vec с надзорным контрастным обучением, мы достигаем современного уровня производительности на MTEB среди моделей, которые обучаются только на общедоступных данных. Наши сильные эмпирические результаты и обширный анализ демонстрируют, что LLM могут быть эффективно преобразованы в универсальные текстовые кодировщики эффективным способом с небольшим количеством параметров без необходимости дорогостоящей адаптации или создания синтетических данных, сгенерированных GPT-4.

3

Орёл и зяблик: RWKV с матричными состояниями и динамическим повторением
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

Apr 8
ByBo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
39
1

Мы представляем модели Eagle (RWKV-5) и Finch (RWKV-6), которые улучшают архитектуру RWKV (RWKV-4). Наши усовершенствования архитектурного дизайна включают многоголовые матричные состояния и динамический механизм рекуррентности, которые повышают выразительность, сохраняя при этом характеристики эффективности вывода RNN. Мы представляем новый многоязычный корпус с 1,12 триллионами токенов и быстрый токенизатор на основе жадного сопоставления для улучшенной мультиязычности. Мы обучили четыре модели Eagle, с числом параметров от 0,46 до 7,5 миллиарда, и две модели Finch с 1,6 и 3,1 миллиарда параметров, и обнаружили, что они достигают конкурентоспособной производительности на широком спектре тестов. Мы выпустили все наши модели на HuggingFace под лицензией Apache 2.0. Модели доступны по ссылке: https://huggingface.co/RWKV Код обучения доступен по ссылке: https://github.com/RWKV/RWKV-LM Код вывода доступен по ссылке: https://github.com/RWKV/ChatRWKV Код параллельного по времени обучения доступен по ссылке: https://github.com/RWKV/RWKV-infctx-trainer

4

InternLM-XComposer2-4KHD: Первоначальная крупная модель видео-языка Обработка разрешений от 336 пикселей до 4K HD
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

Apr 9
ByXiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
30
1

Область больших моделей видео-языка (LVLM) продемонстрировала значительные достижения, однако ее развитие затруднено из-за проблем в понимании мелкозернистого визуального контента из-за ограниченного разрешения. Недавние усилия направлены на улучшение возможностей понимания высокого разрешения у LVLM, однако они остаются ограниченными примерно 1500 x 1500 пикселей и ограничены относительно узким диапазоном разрешения. В данной статье представлен InternLM-XComposer2-4KHD, революционное исследование по повышению возможностей разрешения LVLM до 4K HD (3840 x 1600) и выше. Одновременно, учитывая, что сверхвысокое разрешение может быть необязательным во всех сценариях, он поддерживает широкий диапазон разнообразных разрешений от 336 пикселей до стандарта 4K, значительно расширяя область его применимости. Конкретно, данное исследование продвигает парадигму разделения патчей, представляя новое расширение: динамическое разрешение с автоматической конфигурацией патчей. Оно сохраняет соотношения сторон обучающего изображения, автоматически изменяя количество патчей и конфигурируя компоновки на основе предварительно обученного Визионного Трансформера (ViT) (336 x 336), что приводит к динамическому разрешению обучения от 336 пикселей до стандарта 4K. Наши исследования показывают, что увеличение разрешения обучения до 4K HD приводит к последовательному улучшению производительности без достижения потолка потенциальных улучшений. Модель InternLM-XComposer2-4KHD демонстрирует великолепные возможности, которые соответствуют или даже превосходят GPT-4V и Gemini Pro в 10 из 16 бенчмарков. Серии моделей InternLM-XComposer2-4KHD с 7 миллиардами параметров доступны публично на https://github.com/InternLM/InternLM-XComposer.

5

MiniCPM: Раскрывая потенциал небольших языковых моделей с масштабируемыми стратегиями обучения
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

Apr 9
ByShengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
24
1

Возрастающий интерес к разработке Больших Языковых Моделей (LLM) с до триллиона параметров вызвал опасения относительно ресурсоэффективности и практических затрат, особенно учитывая огромные издержки на эксперименты. Эта ситуация подчеркивает важность исследования потенциала Малых Языковых Моделей (SLM) в качестве ресурсоэффективной альтернативы. В этом контексте мы представляем MiniCPM, специально 1.2B и 2.4B варианты параметров без эмбеддинга, которые не только выдающиеся в своих категориях, но также демонстрируют возможности на уровне 7B-13B LLM. Сосредотачиваясь на SLM, наш подход обладает масштабируемостью как в модельных, так и в данных измерениях для будущих исследований LLM. Что касается масштабирования модели, мы используем обширные эксперименты с модельным аэродинамическим тоннелем для стабильного и оптимального масштабирования. Для масштабирования данных мы представляем планировщик скорости обучения Warmup-Stable-Decay (WSD LRS), способствующий непрерывному обучению и адаптации к области. Мы представляем подробный анализ интригующей динамики обучения, происходящей в WSD LRS. С помощью WSD LRS мы теперь можем эффективно изучать законы масштабирования данных-модели без обширных экспериментов по повторному обучению как в модельных, так и в данных осях, из чего мы выводим гораздо более высокое оптимальное соотношение данных-модели, чем Chinchilla Optimal. Кроме того, мы представляем семейство MiniCPM, включая MiniCPM-DPO, MiniCPM-MoE и MiniCPM-128K, чье отличное выполнение дополнительно укрепляет основу MiniCPM в различных приложениях SLM. Модели MiniCPM доступны публично на https://github.com/OpenBMB/MiniCPM.

6

CodecLM: Выравнивание языковых моделей с настроенными синтетическими данными
CodecLM: Aligning Language Models with Tailored Synthetic Data

Apr 8
ByZifeng Wang, Chun-Liang Li, Vincent Perot, Long T. Le, Jin Miao, Zizhao Zhang, Chen-Yu Lee, Tomas Pfister
18
0

Настройка инструкций стала ключевым моментом в выравнивании больших языковых моделей (LLM) с конкретными задачами, тем самым смягчая разрыв между целью прогнозирования следующего токена и фактическими целями пользователей. Для сокращения трудозатрат и временных затрат на сбор или аннотацию данных людьми исследователи начинают исследовать использование LLM для генерации синтетических данных, выровненных по инструкциям. Недавние работы сосредотачиваются на генерации разнообразных инструкций и применении LLM для увеличения сложности инструкций, часто пренебрегая последующими случаями использования. Остается неясным, как настроить качественные данные для вызова лучших навыков следования инструкциям в различных целевых распределениях инструкций и LLM. Для этой цели мы представляем CodecLM, общую структуру для адаптивной генерации высококачественных синтетических данных для выравнивания LLM с различными последующими распределениями инструкций и LLM. Основываясь на принципах кодирования-декодирования, мы используем LLM в качестве кодеков для направления процесса генерации данных. Сначала мы кодируем исходные инструкции в метаданные, которые являются краткими ключевыми словами, генерируемыми на лету для захвата целевого распределения инструкций, а затем декодируем метаданные для создания настроенных инструкций. Мы также вводим самооценочные рубрики и контрастное фильтрование во время декодирования для настройки эффективных образцов данных. Обширные эксперименты на четырех бенчмарках следования инструкциям в открытой области подтверждают эффективность CodecLM по сравнению с текущими передовыми технологиями.

7

MuPT: Генеративный символьный музыкальный предобученный трансформер
MuPT: A Generative Symbolic Music Pretrained Transformer

Apr 9
ByXingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang
16
0

В данной статье мы исследуем применение больших языковых моделей (LLM) для предварительного обучения музыке. В то время как широко распространенное использование MIDI в моделировании музыки хорошо известно, наши результаты показывают, что LLM более совместимы с нотацией ABC, которая ближе соответствует их конструкции и преимуществам, тем самым улучшая производительность модели в музыкальной композиции. Для решения проблем, связанных с несогласованными тактами из разных треков во время генерации, мы предлагаем разработку Синхронизированной Мульти-Трековой Нотации ABC (SMT-ABC Notation), которая направлена на сохранение согласованности между несколькими музыкальными треками. Наши достижения включают серию моделей, способных обрабатывать до 8192 токенов, охватывающих 90% символьных данных музыки в нашем наборе данных для обучения. Кроме того, мы исследуем влияние Закона Масштабирования Символьной Музыки (SMS Law) на производительность модели. Результаты указывают на многообещающее направление для будущих исследований в области генерации музыки, предлагая обширные ресурсы для исследований, проводимых сообществом, через наши вклады в открытые исходные коды.

8

Hash3D: Ускорение генерации 3D без обучения
Hash3D: Training-free Acceleration for 3D Generation

Apr 9
ByXingyi Yang, Xinchao Wang
13
0

Эволюция 3D генеративного моделирования заметно ускорена за счет принятия 2D моделей диффузии. Несмотря на этот прогресс, трудоемкий процесс оптимизации сам по себе представляет собой критическое препятствие для эффективности. В данной статье мы представляем Hash3D, универсальное ускорение для генерации 3D без обучения модели. Центральной идеей Hash3D является понимание того, что избыточность признаковых карт распространена в изображениях, созданных из позиций камеры и временных шагов диффузии в непосредственной близости. Путем эффективного хеширования и повторного использования этих признаковых карт между соседними временными шагами и углами обзора, Hash3D значительно уменьшает избыточные вычисления, ускоряя вывод диффузионной модели в задачах генерации 3D. Мы достигаем этого с помощью адаптивного сеточного хеширования. Удивительно, что этот механизм обмена признаками не только ускоряет генерацию, но также улучшает плавность и согласованность обзора синтезированных 3D объектов. Наши эксперименты, охватывающие 5 моделей текст-в-3D и 3 модели изображение-в-3D, демонстрируют универсальность Hash3D в ускорении оптимизации, повышая эффективность на 1.3 до 4 раз. Кроме того, интеграция Hash3D с 3D гауссовым сплэттингом значительно ускоряет создание 3D моделей, сокращая обработку текста-в-3D до примерно 10 минут и преобразование изображения-в-3D до приблизительно 30 секунд. Страница проекта находится по адресу https://adamdad.github.io/hash3D/.

9

SambaLingo: Обучение большим языковым моделям новым языкам
SambaLingo: Teaching Large Language Models New Languages

Apr 8
ByZoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker
13
0

Несмотря на широкое распространение LLMs, остается существенный разрыв в их возможностях и доступности на различных языках. Один из подходов к решению этих проблем заключается в том, чтобы взять существующую предварительно обученную LLM и продолжить обучение на новых языках. Хотя ранее были проведены эксперименты по адаптации языка, многие вопросы о лучших практиках и методологии остались нерешенными. В данной статье мы представляем всестороннее исследование адаптации LLMs под новые языки. Наше исследование охватывает ключевые компоненты этого процесса, включая расширение словаря, оптимизацию прямого предпочтения и проблему нехватки данных для выравнивания с человеком на языках с ограниченными ресурсами. Мы масштабируем эти эксперименты на 9 языках и 2 уровнях параметров (7B и 70B). Мы сравниваем наши модели с Llama 2, Aya-101, XGLM, BLOOM и существующими языковыми экспертами, превосходя все предыдущие базовые уровни. Кроме того, весь код оценки и контрольные точки сделаны общедоступными для облегчения будущих исследований.

10

Городской архитектор: Генерация управляемой трехмерной городской сцены с учетом предварительного макета.
Urban Architect: Steerable 3D Urban Scene Generation with Layout Prior

Apr 10
ByFan Lu, Kwan-Yee Lin, Yan Xu, Hongsheng Li, Guang Chen, Changjun Jiang
10
1

Генерация 3D из текста достигла выдающихся успехов благодаря моделям диффузии текста в изображение крупного масштаба. Тем не менее, не существует парадигмы для масштабирования методологии до уровня городского масштаба. Городские сцены, характеризующиеся многочисленными элементами, сложными отношениями расположения и огромным масштабом, представляют собой серьезное препятствие для интерпретации неоднозначных текстовых описаний для эффективной оптимизации модели. В данной работе мы преодолеваем ограничения, вводя композиционное представление 3D-макета в парадигму текста в 3D, служащее дополнительным априорным условием. Оно включает набор семантических примитивов с простыми геометрическими структурами и явными отношениями расположения, дополняя текстовые описания и обеспечивая управляемую генерацию. На этом фоне мы предлагаем две модификации - (1) Мы вводим Дистилляцию Оценочной Переменной Поддержки для решения недостатков оптимизации модели. Она условиями процесса выборки дистилляции оценки с геометрическими и семантическими ограничениями 3D-макетов. (2) Для работы с неограниченной природой городских сцен мы представляем 3D-сцену с использованием структуры Масштабируемой Хэш-сетки, постепенно адаптирующейся к растущему масштабу городских сцен. Обширные эксперименты подтверждают способность нашей структуры масштабировать генерацию 3D из текста до городских сцен крупного масштаба, охватывающих расстояние более 1000 метров впервые. Мы также представляем различные демонстрации редактирования сцен, демонстрируя возможности управляемой генерации городских сцен. Веб-сайт: https://urbanarchitect.github.io.

11

Пересмотр уплотнения в гауссовом сглаживании.
Revising Densification in Gaussian Splatting

Apr 9
BySamuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder
9
0

В данной статье мы рассматриваем ограничения Адаптивного Управления Плотностью (ADC) в трехмерном Гауссовом Сплэттинге (3DGS), методе представления сцены, обеспечивающем высококачественные, фотореалистичные результаты для синтеза нового вида. ADC был введен для автоматического управления трехмерными точечными примитивами, контроля плотности и обрезки, однако с определенными ограничениями в логике плотности. Нашим основным вкладом является более обоснованная, основанная на ошибке пикселя, формулировка управления плотностью в 3DGS, использующая вспомогательную функцию ошибки на пиксель в качестве критерия для плотности. Мы также представляем механизм для контроля общего числа примитивов, создаваемых на сцену, и исправляем смещение в текущей стратегии обработки непрозрачности ADC во время операций клонирования. Наш подход приводит к последовательному улучшению качества на различных бенчмарк-сценах, не жертвуя при этом эффективностью метода.

12

Магическое усиление: улучшение генерации 3D с помощью диффузии с условием многопроекционного представления
Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion

Apr 9
ByFan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin
7
0

Благодаря быстрому развитию двумерных моделей диффузии в последнее время значительно продвинулось создание трехмерного контента. Одно из перспективных решений заключается в настройке заранее обученных двумерных моделей диффузии для использования их возможностей в создании многозрительных изображений, которые затем преобразуются в точные трехмерные модели с помощью методов, таких как быстрые нелинейные рекурсивные фильтры (fast-NeRFs) или крупные модели реконструкции. Однако, поскольку присутствует несогласованность и ограниченное разрешение генерируемых изображений, результаты генерации с использованием таких методов все еще лишены сложных текстур и геометрических форм. Для решения этой проблемы мы предлагаем Magic-Boost, многозрительную диффузионную модель, которая значительно улучшает грубые результаты генерации через краткий период оптимизации SDS (примерно 15 минут). По сравнению с предыдущими текстовыми или одним изображением основанными моделями диффузии, Magic-Boost обладает надежной способностью генерировать изображения с высокой согласованностью из псевдосинтезированных многозрительных изображений. Он обеспечивает точное руководство SDS, которое хорошо соответствует идентичности входных изображений, обогащая локальные детали как в геометрии, так и в текстуре начальных результатов генерации. Обширные эксперименты показывают, что Magic-Boost значительно улучшает грубые входные данные и генерирует трехмерные ресурсы высокого качества с богатыми геометрическими и текстурными деталями. (Страница проекта: https://magic-research.github.io/magic-boost/)

13

Восстановление трехмерных моделей ручных объектов
Reconstructing Hand-Held Objects in 3D

Apr 9
ByJane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik
6
0

Объекты, которые манипулируются рукой (т.е. манипулянды), особенно сложно восстановить из естественных RGB изображений или видео. Не только рука частично закрывает объект, но и сам объект часто виден только на небольшом количестве пикселей изображения. В то же время в этой ситуации появляются две сильные опоры: (1) оцененные трехмерные руки помогают разъяснить местоположение и масштаб объекта, и (2) набор манипулянд относительно небольшой по сравнению со всеми возможными объектами. Исходя из этих идей, мы представляем масштабируемую парадигму для восстановления объектов, удерживаемых в руке, которая основана на последних достижениях в области крупных моделей языка/видения и наборов данных трехмерных объектов. Наша модель, MCC-Hand-Object (MCC-HO), совместно восстанавливает геометрию руки и объекта на основе одиночного RGB изображения и выведенных трехмерных рук в качестве входных данных. Затем мы используем GPT-4(V) для извлечения трехмерной модели объекта, соответствующей объекту на изображении, и жестко выравниваем модель с геометрией, выведенной сетью; мы называем это выравнивание "Retrieval-Augmented Reconstruction" (RAR). Эксперименты показывают, что MCC-HO достигает передовых результатов на лабораторных и интернет-наборах данных, и мы показываем, как RAR можно использовать для автоматического получения трехмерных меток для естественных изображений взаимодействия руки с объектом.

14

Слонов никогда не забывают: запоминание и обучение табличных данных в Больших языковых моделях
Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

Apr 9
BySebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana
5
0

Хотя многие показали, как можно применять большие языковые модели (Large Language Models, LLMs) к различным задачам, критические вопросы загрязнения данных и запоминания часто упускаются из виду. В данной работе мы обращаем внимание на эту проблему для табличных данных. Конкретно, мы представляем различные техники для оценки того, видела ли языковая модель набор данных в виде таблицы во время обучения. Это исследование показывает, что LLMs запомнили многие популярные наборы данных в виде таблицы дословно. Затем мы сравниваем производительность обучения с небольшим числом примеров LLMs на наборах данных, которые были видны во время обучения, с производительностью на наборах данных, выпущенных после обучения. Мы обнаружили, что LLMs показывают лучшую производительность на наборах данных, виденных во время обучения, что указывает на то, что запоминание приводит к переобучению. В то же время LLMs показывают незначительную производительность на новых наборах данных и удивительно устойчивы к преобразованиям данных. Затем мы исследуем способности LLMs к статистическому обучению в контексте. Без донастройки мы обнаруживаем, что они ограничены. Это свидетельствует о том, что значительная часть производительности с небольшим числом примеров на новых наборах данных обусловлена мировыми знаниями LLM. В целом, наши результаты подчеркивают важность проверки, видела ли LLM оцениваемый набор данных во время предварительного обучения. Мы предоставляем разработанные нами тесты на экспозицию в виде пакета на Python под названием tabmemcheck по адресу https://github.com/interpretml/LLM-Tabular-Memorization-Checker.

Apr 9
Apr 10
Apr 11