HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

12 papers found

К единому подходу к обучению предпочтений для больших языковых моделей: обзор
Towards a Unified View of Preference Learning for Large Language Models: A Survey

Sep 4

ByBofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang

Большие языковые модели (LLM) обладают замечательными мощными возможностями. Одним из ключевых факторов достижения успеха является согласование вывода LLM с человеческими предпочтениями. Для эффективного улучшения производительности LLM часто требуется лишь небольшое количество данных. Несмотря на эффективность, исследования в этой области охватывают несколько доменов, и методы, используемые в них, относительно сложны для понимания. Взаимосвязи между различными методами остаются малоизученными, что ограничивает развитие согласования предпочтений. В свете этого мы разбиваем существующие популярные стратегии согласования на различные компоненты и предоставляем унифицированную структуру для изучения текущих стратегий согласования, тем самым устанавливая связи между ними. В данном обзоре мы декомпозируем все стратегии обучения предпочтениям на четыре компонента: модель, данные, обратная связь и алгоритм. Этот унифицированный взгляд предлагает глубокое понимание существующих алгоритмов согласования, а также открывает возможности для синергии сильных сторон различных стратегий. Кроме того, мы представляем подробные рабочие примеры распространенных существующих алгоритмов для облегчения полного понимания читателями. Наконец, на основе нашего унифицированного подхода мы исследуем вызовы и направления будущих исследований для согласования больших языковых моделей с человеческими предпочтениями.

MMEvol: Усиление мультимодальных крупных языковых моделей с помощью Evol-Instruct
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

Sep 9

ByRun Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li

Развитие мультимодельных больших языковых моделей (MLLM) претерпело значительные усовершенствования. Однако количество и качество мультимодальных инструкционных данных выявились как значительные узкие места в их развитии. Ручное создание мультимодальных инструкционных данных является как трудоемким, так и неэффективным, что создает проблемы в создании инструкций высокой сложности. Более того, дистилляция инструкционных данных из коммерческих моделей "черного ящика" (например, GPT-4o, GPT-4V) часто приводит к упрощенным инструкционным данным, что ограничивает производительность до уровня этих моделей. Проблема курирования разнообразных и сложных инструкционных данных остается значительной. Мы предлагаем MMEvol, новую мультимодальную рамку эволюции инструкционных данных, которая объединяет эволюцию тонкой перцепции, эволюцию когнитивного рассуждения и эволюцию взаимодействия. Этот итерационный подход преодолевает узкие места качества данных для создания сложного и разнообразного набора инструкций изображение-текст, тем самым усиливая возможности MLLM. Начиная с первоначального набора инструкций SEED-163K, мы используем MMEvol для систематического расширения разнообразия типов инструкций, интегрируем шаги рассуждения для улучшения когнитивных возможностей и извлекаем детальную информацию из изображений для улучшения визуального понимания и надежности. Для всесторонней оценки эффективности наших данных мы обучаем LLaVA-NeXT с использованием эволюционированных данных и проводим эксперименты по 13 задачам видео-языкового восприятия. По сравнению с базовым обучением на начальных данных, наш подход достигает среднего увеличения точности на 3,1 пункта и достигает передовой производительности на 9 из этих задач.

OneGen: Эффективная однопроходная единая генерация и извлечение для языковых моделей с ограниченной памятью.
OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

Sep 8

ByJintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang

Несмотря на недавние достижения в области крупных языковых моделей (Large Language Models, LLM), которые значительно улучшили генеративные возможности для различных задач обработки естественного языка (Natural Language Processing, NLP), LLM по-прежнему сталкиваются с ограничениями в прямой обработке задач поиска. Тем не менее, многие практические приложения требуют безупречного объединения как поиска, так и генерации. В данной статье представлена новая и эффективная структура OneGen (One-pass Generation and retrieval framework), разработанная для улучшения производительности LLM на задачах, требующих как генерации, так и поиска. Предложенная структура соединяет традиционно различные подходы к обучению генерации и поиска путем включения поисковых токенов, генерируемых авторегрессивно. Это позволяет одной LLM обрабатывать обе задачи одновременно в рамках единого прямого прохода. Мы проводим эксперименты на двух различных типах составных задач, RAG и Entity Linking, чтобы подтвердить возможность подключения, эффективность и эффективность OneGen в обучении и выводе. Более того, наши результаты показывают, что интеграция генерации и поиска в одном контексте сохраняет генеративные возможности LLM, улучшая при этом производительность поиска. На наш взгляд, OneGen является первой структурой, позволяющей LLM выполнять векторный поиск во время генерации.

MemoRAG: Переход к RAG следующего поколения через обнаружение знаний, вдохновленных памятью
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

Sep 9

ByHongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou

Метод «Поиск с улучшенной генерацией» (RAG) использует инструменты поиска для доступа к внешним базам данных, тем самым повышая качество генерации больших языковых моделей (LLM) за счет оптимизированного контекста. Однако существующие методы поиска имеют врожденные ограничения, поскольку они могут выполнять только сопоставление релевантности между явно указанными запросами и хорошо структурированными знаниями, но не способны обрабатывать задачи, требующие неоднозначной информации или неструктурированных знаний. В результате существующие системы RAG в основном эффективны для простых задач вопросно-ответного характера. В данной работе мы предлагаем MemoRAG, новую парадигму поиска с улучшенной генерацией, усиленную долговременной памятью. MemoRAG использует двойную архитектуру. С одной стороны, он использует легкую, но дальнодействующую LLM для формирования глобальной памяти базы данных. Как только поставлена задача, он генерирует черновые ответы, указывая инструментам поиска на поиск полезной информации в базе данных. С другой стороны, он использует дорогостоящую, но выразительную LLM, которая генерирует окончательный ответ на основе полученной информации. На основе этой общей структуры мы дополнительно оптимизируем производительность MemoRAG путем улучшения его механизма указания и емкости запоминания. В нашем эксперименте MemoRAG достигает превосходных результатов в различных задачах оценки, включая как сложные, в которых традиционный RAG не справляется, так и простые, где обычно применяется RAG.

Статья Copilot: Саморазвивающаяся и эффективная система LLM для персонализированной академической помощи
Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance

Sep 6

ByGuanyu Lin, Tao Feng, Pengrui Han, Ge Liu, Jiaxuan You

По мере увеличения научных исследований исследователи сталкиваются с громадной задачей навигации и чтения огромного объема литературы. Существующие решения, такие как системы вопросов и ответов на документы, не обеспечивают эффективного предоставления персонализированной и актуальной информации. Мы представляем Paper Copilot, самоэволюционирующую и эффективную систему на основе LLM, разработанную для помощи исследователям на основе извлечения мыслей, профиля пользователя и оптимизации высокой производительности. Конкретно, Paper Copilot может предложить персонализированные исследовательские услуги, поддерживая базу данных с обновлением в реальном времени. Количественная оценка показывает, что Paper Copilot экономит 69,92\% времени после эффективного внедрения. В данной статье подробно описаны дизайн и реализация Paper Copilot, выделяя его вклад в персонализированную академическую поддержку и потенциал для оптимизации процесса исследований.

ПОДХОДЫ: Улучшение вашей модели языка с помощью доступных стратегий
POINTS: Improving Your Vision-language Model with Affordable Strategies

Sep 7

ByYuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou

В последние годы модели видео-языка сделали значительные успехи, превосходя в задачах, таких как оптическое распознавание символов и геометрическое решение задач. Однако остаются несколько критических проблем: 1) Проприетарные модели часто не обладают прозрачностью в отношении своих архитектур, в то время как модели с открытым исходным кодом требуют более детального анализа их стратегий обучения. 2) Предварительные данные в открытых работах плохо исследованы, с наборами данных, добавляемыми эмпирически, что делает процесс громоздким. 3) Тонкая настройка часто сосредотачивается на добавлении наборов данных, что приводит к уменьшению выгоды. Для решения этих проблем мы предлагаем следующие вклады: 1) Мы обучили надежную базовую модель, используя последние достижения в моделях видео-языка, внедряя эффективные улучшения и проводя полный анализ и валидацию для каждой техники. 2) Вдохновленные недавними работами над крупными языковыми моделями, мы отфильтровали предварительные данные, используя перплексию, выбирая данные с наименьшей перплексией для обучения. Этот подход позволил нам обучаться на отобранном наборе данных в 1M, достигая конкурентоспособных результатов. 3) Во время настройки визуальных инструкций мы использовали модельный суп на различных наборах данных, когда добавление дополнительных наборов данных приводило к незначительным улучшениям. Эти инновации привели к созданию модели с 9B параметрами, которая демонстрирует конкурентоспособную производительность по сравнению с передовыми моделями. Наши стратегии эффективны и легки, что делает их легко применимыми для сообщества.

Модели полезности роботов: общие принципы для развертывания без предварительного обучения в новых средах.
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Sep 9

ByHaritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah

Модели роботов, особенно те, которые обучены на больших объемах данных, недавно продемонстрировали множество возможностей манипуляции и навигации в реальном мире. Несколько независимых усилий показали, что при наличии достаточного объема обучающих данных в среде политики роботов могут обобщаться на демонстрированные вариации в этой среде. Однако необходимость донастройки моделей роботов для каждой новой среды стоит в явном противоречии с моделями в области языка или зрения, которые могут быть задействованы "из коробки" для проблем открытого мира. В данной работе мы представляем модели полезности роботов (Robot Utility Models, RUMs), фреймворк для обучения и задействования политик роботов "из коробки", которые могут напрямую обобщаться на новые среды без какой-либо донастройки. Для эффективного создания RUMs мы разрабатываем новые инструменты для быстрого сбора данных для задач мобильной манипуляции, интегрируем такие данные в политику с обучением по имитации с многомодальным подходом и задействуем политики на устройстве Hello Robot Stretch, дешевом коммодити-роботе, с внешним верификатором mLLM для повторных попыток. Мы обучаем пять таких моделей полезности для открывания дверей шкафов, выдвижения ящиков, поднятия салфеток, поднятия бумажных пакетов и переориентации упавших объектов. Наша система в среднем достигает 90% успешных попыток в невидимых, новых средах взаимодействия с невидимыми объектами. Более того, модели полезности также могут успешно справляться с различными настройками робота и камеры без дополнительных данных, обучения или донастройки. Среди наших основных уроков важность обучающих данных перед алгоритмом обучения и классом политики, руководство по масштабированию данных, необходимость разнообразных, но качественных демонстраций и рецепт для интроспекции робота и повторных попыток для улучшения производительности в индивидуальных средах. Наш код, данные, модели, дизайны оборудования, а также наши видео экспериментов и задействия доступны в открытом доступе и могут быть найдены на нашем веб-сайте проекта: https://robotutilitymodels.com

Оценка исправления знаний на китайском языке в крупных языковых моделях
Benchmarking Chinese Knowledge Rectification in Large Language Models

Sep 9

ByTianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen

Хотя большие языковые модели (LLM) обладают замечательными генеративными способностями, они не лишены недостатков, особенно в виде галлюцинаций. Эта проблема становится еще более заметной, когда LLM применяются к конкретным языкам и областям. Например, LLM могут генерировать бессмысленную информацию при работе с древнекитайской поэзией, пословицами или идиомами из-за отсутствия специфических знаний. В этой статье представляется методика для исправления китайских знаний в LLM путем редактирования знаний. Конкретно, мы представляем новый китайский набор данных, CKnowEdit, собрав семь типов знаний из различных источников, включая классические тексты, идиомы и контент из Baidu Tieba Ruozhiba, учитывая уникальную полифонию, антитезы и логические конструкции, присущие китайскому языку. Анализируя этот набор данных, мы выявляем проблемы, с которыми сталкиваются текущие LLM в освоении китайского языка. Более того, наше оценивание передовых техник редактирования знаний на этом наборе данных раскрывает значительные возможности для улучшения исправления китайских знаний. Код и набор данных доступны по ссылке https://github.com/zjunlp/EasyEdit.

Инициатива по открытым языковым данным: продвижение машинного перевода с недостаточными ресурсами для каракалпакского языка.
Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

Sep 6

ByMukhammadsaid Mamasaidov, Abror Shopulatov

Это исследование представляет несколько вкладов для каракалпакского языка: набор данных FLORES+ devtest, переведенный на каракалпакский, параллельные корпуса для узбекского-каракалпакского, русско-каракалпакского и англо-каракалпакского языков по 100 000 пар в каждом и открытые донастройки нейронных моделей для перевода между этими языками. Наши эксперименты сравнивают различные варианты моделей и подходы к обучению, демонстрируя улучшения по сравнению с существующими базовыми уровнями. Эта работа, проведенная в рамках инициативы по открытым языковым данным (OLDI), нацелена на развитие возможностей машинного перевода для каракалпакского языка и вклад в расширение лингвистического разнообразия в технологиях обработки естественного языка.

Оценка согласованности объектов с множественным видом у людей и моделей изображений
Evaluating Multiview Object Consistency in Humans and Image Models

Sep 9

ByTyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros

Мы представляем бенчмарк для прямой оценки соответствия между человеческими наблюдателями и моделями зрения в задаче вывода трехмерной формы. Мы используем экспериментальный дизайн из когнитивных наук, который требует нулевых визуальных выводов о форме объекта: участники определяют, содержат ли наборы изображений одинаковые/разные объекты, несмотря на значительное изменение точки зрения. Мы используем разнообразный набор изображений, включающий обычные объекты (например, стулья), а также абстрактные формы (т.е. процедурно генерируемые 'бессмысленные' объекты). После создания более 2000 уникальных наборов изображений мы проводим эти задачи с участием человеческих участников, собирая 35 тыс. пробных испытаний поведенческих данных от более чем 500 участников. Это включает явные выборы поведения, а также промежуточные показатели, такие как время реакции и данные взгляда. Затем мы оцениваем производительность общих моделей зрения (например, DINOv2, MAE, CLIP). Мы обнаруживаем, что люди опережают все модели с большим отрывом. Используя многоуровневый подход к оценке, мы выявляем основные сходства и различия между моделями и людьми: хотя производительность человека и модели коррелируют, люди тратят больше времени/ресурсов на сложные испытания. Все изображения, данные и код можно получить на нашей странице проекта.

UniDet3D: Многодатасетное обнаружение 3D объектов в помещениях
UniDet3D: Multi-dataset Indoor 3D Object Detection

Sep 6

ByMaksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin

Растущий спрос потребителей на интеллектуальные решения в робототехнике и дополненной реальности привлек значительное внимание к обнаружению 3D объектов из облаков точек. Тем не менее, существующие внутренние наборы данных, рассматриваемые индивидуально, слишком малы и недостаточно разнообразны для обучения мощной и общей модели обнаружения 3D объектов. Тем временем, более общие подходы, использующие базовые модели, все еще уступают по качеству тем, основанным на обучении с учителем для конкретной задачи. В данной работе мы предлагаем простую, но эффективную модель обнаружения 3D объектов, которая обучается на смеси внутренних наборов данных и способна работать в различных внутренних средах. Путем объединения различных пространств меток, предлагаемая модель позволяет обучить сильное представление на основе нескольких наборов данных через схему совместного обучения с учителем. Предложенная архитектура сети основана на обычном кодировщике трансформера, что облегчает запуск, настройку и расширение конвейера прогнозирования для практического использования. Обширные эксперименты показывают, что предложенная модель дает значительный прирост по сравнению с существующими методами обнаружения 3D объектов на 6 внутренних бенчмарках: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) и ScanNet++ (+2.7 mAP50). Код доступен по ссылке https://github.com/filapro/unidet3d.

Инсайты из оценки передовых языковых моделей на генерации кода веб-приложений
Insights from Benchmarking Frontier Language Models on Web App Code Generation

Sep 8

ByYi Cui

Эта статья представляет собой результаты оценки 16 передовых больших моделей языка (LLM) на тестовом наборе данных WebApp1K, разработанном для оценки способности LLM генерировать код веб-приложений. Результаты показывают, что хотя все модели обладают схожим базовым знанием, их производительность различается в зависимости от частоты допущенных ошибок. Анализируя строки кода (LOC) и распределение ошибок, мы приходим к выводу, что написание правильного кода является более сложной задачей, чем генерация неправильного кода. Более того, инженерия подсказок ограниченно эффективна в снижении ошибок за пределами конкретных случаев. Эти результаты указывают на то, что дальнейшее развитие LLM для написания кода должно уделять внимание надежности модели и минимизации ошибок.

Модели полезности роботов: общие принципы для развертывания без предварительного обучения в новых средах.
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Sep 9

ByHaritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah