Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) обладают замечательными мощными возможностями. Одним из ключевых факторов достижения успеха является согласование вывода LLM с человеческими предпочтениями. Для эффективного улучшения производительности LLM часто требуется лишь небольшое количество данных. Несмотря на эффективность, исследования в этой области охватывают несколько доменов, и методы, используемые в них, относительно сложны для понимания. Взаимосвязи между различными методами остаются малоизученными, что ограничивает развитие согласования предпочтений. В свете этого мы разбиваем существующие популярные стратегии согласования на различные компоненты и предоставляем унифицированную структуру для изучения текущих стратегий согласования, тем самым устанавливая связи между ними. В данном обзоре мы декомпозируем все стратегии обучения предпочтениям на четыре компонента: модель, данные, обратная связь и алгоритм. Этот унифицированный взгляд предлагает глубокое понимание существующих алгоритмов согласования, а также открывает возможности для синергии сильных сторон различных стратегий. Кроме того, мы представляем подробные рабочие примеры распространенных существующих алгоритмов для облегчения полного понимания читателями. Наконец, на основе нашего унифицированного подхода мы исследуем вызовы и направления будущих исследований для согласования больших языковых моделей с человеческими предпочтениями.
Развитие мультимодельных больших языковых моделей (MLLM) претерпело значительные усовершенствования. Однако количество и качество мультимодальных инструкционных данных выявились как значительные узкие места в их развитии. Ручное создание мультимодальных инструкционных данных является как трудоемким, так и неэффективным, что создает проблемы в создании инструкций высокой сложности. Более того, дистилляция инструкционных данных из коммерческих моделей "черного ящика" (например, GPT-4o, GPT-4V) часто приводит к упрощенным инструкционным данным, что ограничивает производительность до уровня этих моделей. Проблема курирования разнообразных и сложных инструкционных данных остается значительной. Мы предлагаем MMEvol, новую мультимодальную рамку эволюции инструкционных данных, которая объединяет эволюцию тонкой перцепции, эволюцию когнитивного рассуждения и эволюцию взаимодействия. Этот итерационный подход преодолевает узкие места качества данных для создания сложного и разнообразного набора инструкций изображение-текст, тем самым усиливая возможности MLLM. Начиная с первоначального набора инструкций SEED-163K, мы используем MMEvol для систематического расширения разнообразия типов инструкций, интегрируем шаги рассуждения для улучшения когнитивных возможностей и извлекаем детальную информацию из изображений для улучшения визуального понимания и надежности. Для всесторонней оценки эффективности наших данных мы обучаем LLaVA-NeXT с использованием эволюционированных данных и проводим эксперименты по 13 задачам видео-языкового восприятия. По сравнению с базовым обучением на начальных данных, наш подход достигает среднего увеличения точности на 3,1 пункта и достигает передовой производительности на 9 из этих задач.
Несмотря на недавние достижения в области крупных языковых моделей (Large Language Models, LLM), которые значительно улучшили генеративные возможности для различных задач обработки естественного языка (Natural Language Processing, NLP), LLM по-прежнему сталкиваются с ограничениями в прямой обработке задач поиска. Тем не менее, многие практические приложения требуют безупречного объединения как поиска, так и генерации. В данной статье представлена новая и эффективная структура OneGen (One-pass Generation and retrieval framework), разработанная для улучшения производительности LLM на задачах, требующих как генерации, так и поиска. Предложенная структура соединяет традиционно различные подходы к обучению генерации и поиска путем включения поисковых токенов, генерируемых авторегрессивно. Это позволяет одной LLM обрабатывать обе задачи одновременно в рамках единого прямого прохода. Мы проводим эксперименты на двух различных типах составных задач, RAG и Entity Linking, чтобы подтвердить возможность подключения, эффективность и эффективность OneGen в обучении и выводе. Более того, наши результаты показывают, что интеграция генерации и поиска в одном контексте сохраняет генеративные возможности LLM, улучшая при этом производительность поиска. На наш взгляд, OneGen является первой структурой, позволяющей LLM выполнять векторный поиск во время генерации.
Метод «Поиск с улучшенной генерацией» (RAG) использует инструменты поиска для доступа к внешним базам данных, тем самым повышая качество генерации больших языковых моделей (LLM) за счет оптимизированного контекста. Однако существующие методы поиска имеют врожденные ограничения, поскольку они могут выполнять только сопоставление релевантности между явно указанными запросами и хорошо структурированными знаниями, но не способны обрабатывать задачи, требующие неоднозначной информации или неструктурированных знаний. В результате существующие системы RAG в основном эффективны для простых задач вопросно-ответного характера. В данной работе мы предлагаем MemoRAG, новую парадигму поиска с улучшенной генерацией, усиленную долговременной памятью. MemoRAG использует двойную архитектуру. С одной стороны, он использует легкую, но дальнодействующую LLM для формирования глобальной памяти базы данных. Как только поставлена задача, он генерирует черновые ответы, указывая инструментам поиска на поиск полезной информации в базе данных. С другой стороны, он использует дорогостоящую, но выразительную LLM, которая генерирует окончательный ответ на основе полученной информации. На основе этой общей структуры мы дополнительно оптимизируем производительность MemoRAG путем улучшения его механизма указания и емкости запоминания. В нашем эксперименте MemoRAG достигает превосходных результатов в различных задачах оценки, включая как сложные, в которых традиционный RAG не справляется, так и простые, где обычно применяется RAG.
По мере увеличения научных исследований исследователи сталкиваются с громадной задачей навигации и чтения огромного объема литературы. Существующие решения, такие как системы вопросов и ответов на документы, не обеспечивают эффективного предоставления персонализированной и актуальной информации. Мы представляем Paper Copilot, самоэволюционирующую и эффективную систему на основе LLM, разработанную для помощи исследователям на основе извлечения мыслей, профиля пользователя и оптимизации высокой производительности. Конкретно, Paper Copilot может предложить персонализированные исследовательские услуги, поддерживая базу данных с обновлением в реальном времени. Количественная оценка показывает, что Paper Copilot экономит 69,92\% времени после эффективного внедрения. В данной статье подробно описаны дизайн и реализация Paper Copilot, выделяя его вклад в персонализированную академическую поддержку и потенциал для оптимизации процесса исследований.
В последние годы модели видео-языка сделали значительные успехи, превосходя в задачах, таких как оптическое распознавание символов и геометрическое решение задач. Однако остаются несколько критических проблем: 1) Проприетарные модели часто не обладают прозрачностью в отношении своих архитектур, в то время как модели с открытым исходным кодом требуют более детального анализа их стратегий обучения. 2) Предварительные данные в открытых работах плохо исследованы, с наборами данных, добавляемыми эмпирически, что делает процесс громоздким. 3) Тонкая настройка часто сосредотачивается на добавлении наборов данных, что приводит к уменьшению выгоды. Для решения этих проблем мы предлагаем следующие вклады: 1) Мы обучили надежную базовую модель, используя последние достижения в моделях видео-языка, внедряя эффективные улучшения и проводя полный анализ и валидацию для каждой техники. 2) Вдохновленные недавними работами над крупными языковыми моделями, мы отфильтровали предварительные данные, используя перплексию, выбирая данные с наименьшей перплексией для обучения. Этот подход позволил нам обучаться на отобранном наборе данных в 1M, достигая конкурентоспособных результатов. 3) Во время настройки визуальных инструкций мы использовали модельный суп на различных наборах данных, когда добавление дополнительных наборов данных приводило к незначительным улучшениям. Эти инновации привели к созданию модели с 9B параметрами, которая демонстрирует конкурентоспособную производительность по сравнению с передовыми моделями. Наши стратегии эффективны и легки, что делает их легко применимыми для сообщества.
Модели роботов, особенно те, которые обучены на больших объемах данных, недавно продемонстрировали множество возможностей манипуляции и навигации в реальном мире. Несколько независимых усилий показали, что при наличии достаточного объема обучающих данных в среде политики роботов могут обобщаться на демонстрированные вариации в этой среде. Однако необходимость донастройки моделей роботов для каждой новой среды стоит в явном противоречии с моделями в области языка или зрения, которые могут быть задействованы "из коробки" для проблем открытого мира. В данной работе мы представляем модели полезности роботов (Robot Utility Models, RUMs), фреймворк для обучения и задействования политик роботов "из коробки", которые могут напрямую обобщаться на новые среды без какой-либо донастройки. Для эффективного создания RUMs мы разрабатываем новые инструменты для быстрого сбора данных для задач мобильной манипуляции, интегрируем такие данные в политику с обучением по имитации с многомодальным подходом и задействуем политики на устройстве Hello Robot Stretch, дешевом коммодити-роботе, с внешним верификатором mLLM для повторных попыток. Мы обучаем пять таких моделей полезности для открывания дверей шкафов, выдвижения ящиков, поднятия салфеток, поднятия бумажных пакетов и переориентации упавших объектов. Наша система в среднем достигает 90% успешных попыток в невидимых, новых средах взаимодействия с невидимыми объектами. Более того, модели полезности также могут успешно справляться с различными настройками робота и камеры без дополнительных данных, обучения или донастройки. Среди наших основных уроков важность обучающих данных перед алгоритмом обучения и классом политики, руководство по масштабированию данных, необходимость разнообразных, но качественных демонстраций и рецепт для интроспекции робота и повторных попыток для улучшения производительности в индивидуальных средах. Наш код, данные, модели, дизайны оборудования, а также наши видео экспериментов и задействия доступны в открытом доступе и могут быть найдены на нашем веб-сайте проекта: https://robotutilitymodels.com
Хотя большие языковые модели (LLM) обладают замечательными генеративными способностями, они не лишены недостатков, особенно в виде галлюцинаций. Эта проблема становится еще более заметной, когда LLM применяются к конкретным языкам и областям. Например, LLM могут генерировать бессмысленную информацию при работе с древнекитайской поэзией, пословицами или идиомами из-за отсутствия специфических знаний. В этой статье представляется методика для исправления китайских знаний в LLM путем редактирования знаний. Конкретно, мы представляем новый китайский набор данных, CKnowEdit, собрав семь типов знаний из различных источников, включая классические тексты, идиомы и контент из Baidu Tieba Ruozhiba, учитывая уникальную полифонию, антитезы и логические конструкции, присущие китайскому языку. Анализируя этот набор данных, мы выявляем проблемы, с которыми сталкиваются текущие LLM в освоении китайского языка. Более того, наше оценивание передовых техник редактирования знаний на этом наборе данных раскрывает значительные возможности для улучшения исправления китайских знаний. Код и набор данных доступны по ссылке https://github.com/zjunlp/EasyEdit.
Это исследование представляет несколько вкладов для каракалпакского языка: набор данных FLORES+ devtest, переведенный на каракалпакский, параллельные корпуса для узбекского-каракалпакского, русско-каракалпакского и англо-каракалпакского языков по 100 000 пар в каждом и открытые донастройки нейронных моделей для перевода между этими языками. Наши эксперименты сравнивают различные варианты моделей и подходы к обучению, демонстрируя улучшения по сравнению с существующими базовыми уровнями. Эта работа, проведенная в рамках инициативы по открытым языковым данным (OLDI), нацелена на развитие возможностей машинного перевода для каракалпакского языка и вклад в расширение лингвистического разнообразия в технологиях обработки естественного языка.
Мы представляем бенчмарк для прямой оценки соответствия между человеческими наблюдателями и моделями зрения в задаче вывода трехмерной формы. Мы используем экспериментальный дизайн из когнитивных наук, который требует нулевых визуальных выводов о форме объекта: участники определяют, содержат ли наборы изображений одинаковые/разные объекты, несмотря на значительное изменение точки зрения. Мы используем разнообразный набор изображений, включающий обычные объекты (например, стулья), а также абстрактные формы (т.е. процедурно генерируемые 'бессмысленные' объекты). После создания более 2000 уникальных наборов изображений мы проводим эти задачи с участием человеческих участников, собирая 35 тыс. пробных испытаний поведенческих данных от более чем 500 участников. Это включает явные выборы поведения, а также промежуточные показатели, такие как время реакции и данные взгляда. Затем мы оцениваем производительность общих моделей зрения (например, DINOv2, MAE, CLIP). Мы обнаруживаем, что люди опережают все модели с большим отрывом. Используя многоуровневый подход к оценке, мы выявляем основные сходства и различия между моделями и людьми: хотя производительность человека и модели коррелируют, люди тратят больше времени/ресурсов на сложные испытания. Все изображения, данные и код можно получить на нашей странице проекта.
Растущий спрос потребителей на интеллектуальные решения в робототехнике и дополненной реальности привлек значительное внимание к обнаружению 3D объектов из облаков точек. Тем не менее, существующие внутренние наборы данных, рассматриваемые индивидуально, слишком малы и недостаточно разнообразны для обучения мощной и общей модели обнаружения 3D объектов. Тем временем, более общие подходы, использующие базовые модели, все еще уступают по качеству тем, основанным на обучении с учителем для конкретной задачи. В данной работе мы предлагаем простую, но эффективную модель обнаружения 3D объектов, которая обучается на смеси внутренних наборов данных и способна работать в различных внутренних средах. Путем объединения различных пространств меток, предлагаемая модель позволяет обучить сильное представление на основе нескольких наборов данных через схему совместного обучения с учителем. Предложенная архитектура сети основана на обычном кодировщике трансформера, что облегчает запуск, настройку и расширение конвейера прогнозирования для практического использования. Обширные эксперименты показывают, что предложенная модель дает значительный прирост по сравнению с существующими методами обнаружения 3D объектов на 6 внутренних бенчмарках: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) и ScanNet++ (+2.7 mAP50). Код доступен по ссылке https://github.com/filapro/unidet3d.
Эта статья представляет собой результаты оценки 16 передовых больших моделей языка (LLM) на тестовом наборе данных WebApp1K, разработанном для оценки способности LLM генерировать код веб-приложений. Результаты показывают, что хотя все модели обладают схожим базовым знанием, их производительность различается в зависимости от частоты допущенных ошибок. Анализируя строки кода (LOC) и распределение ошибок, мы приходим к выводу, что написание правильного кода является более сложной задачей, чем генерация неправильного кода. Более того, инженерия подсказок ограниченно эффективна в снижении ошибок за пределами конкретных случаев. Эти результаты указывают на то, что дальнейшее развитие LLM для написания кода должно уделять внимание надежности модели и минимизации ошибок.