Ежедневно отобранные исследовательские статьи по ИИ с переводами
Машинное забывание (MU) критически важно для повышения конфиденциальности и безопасности в моделях глубокого обучения, особенно в больших мультимодальных языковых моделях (MLLMs), путем удаления конкретной частной или опасной информации. В то время как MU достиг значительного прогресса в текстовых и визуальных модальностях, мультимодальное забывание (MMU) остается значительно недоисследованным, частично из-за отсутствия подходящего открытого бенчмарка. Для решения этой проблемы мы представляем CLEAR, новый бенчмарк, разработанный для оценки методов MMU. CLEAR содержит 200 вымышленных личностей и 3,700 изображений, связанных с соответствующими вопросно-ответными парами, обеспечивая тщательную оценку по различным модальностям. Мы оцениваем 10 методов MU, адаптируя их для MMU, и выделяем новые вызовы, специфические для мультимодального забывания. Мы также демонстрируем, что простая регуляризация ell_1 на весах LoRA значительно смягчает катастрофическое забывание, сохраняя производительность модели на сохраненных данных. Набор данных доступен по ссылке https://huggingface.co/datasets/therem/CLEAR
Задачи по науке о данных, связанные с табличными данными, представляют сложные вызовы, требующие изощренных подходов к решению проблем. Мы предлагаем AutoKaggle, мощную и ориентированную на пользователя платформу, которая помогает специалистам по данным завершить ежедневные процессы обработки данных через совместную мультиагентную систему. AutoKaggle реализует итеративный процесс разработки, который объединяет выполнение кода, отладку и комплексное модульное тестирование для обеспечения правильности кода и логической последовательности. Платформа предлагает высоко настраиваемые рабочие процессы, позволяя пользователям вмешиваться на каждой фазе, таким образом интегрируя автоматизированный интеллект с человеческими знаниями. Наш универсальный инструментарий по науке о данных, включающий проверенные функции для очистки данных, создания признаков и моделирования, является основой этого решения, повышая производительность путем оптимизации общих задач. Мы выбрали 8 соревнований Kaggle для моделирования процессов обработки данных в реальных сценариях применения. Результаты оценки показывают, что AutoKaggle достигает коэффициента подтверждения валидации 0.85 и общий показатель 0.82 в типичных процессах науки о данных, полностью доказывая его эффективность и практичность в решении сложных задач по науке о данных.
Задача рассуждения о социальных отношениях заключается в определении категорий отношений, таких как друзья, супруги и коллеги, по изображениям. В настоящее время существующие методы принимают парадигму обучения специализированной сети от начала до конца с использованием размеченных изображений, однако они ограничены в обобщаемости и интерпретируемости. Для решения этих проблем мы в первую очередь представляем простую, но тщательно разработанную структуру под названием {\name}, которая объединяет способность восприятия моделей основы зрения (Vision Foundation Models, VFMs) и способность рассуждения крупных языковых моделей (Large Language Models, LLMs) в модульной структуре, обеспечивая прочную базовую линию для распознавания социальных отношений. Конкретно, мы научаем VFMs переводить содержимое изображения в текстовую социальную историю, а затем используем LLMs для рассуждений на основе текста. {\name} вводит систематические принципы проектирования для адаптации VFMs и LLMs отдельно и для преодоления их разрывов. Без дополнительного обучения модели она достигает конкурентоспособных результатов с нулевой точки на двух базах данных, предлагая интерпретируемые ответы, так как LLMs могут генерировать языковые объяснения для принятых решений. Процесс ручного проектирования подсказок для LLMs на этапе рассуждений утомителен, и требуется метод автоматизированной оптимизации подсказок. Поскольку мы по сути преобразуем задачу визуальной классификации в задачу генерации LLMs, автоматическая оптимизация подсказок сталкивается с уникальной проблемой оптимизации длинных подсказок. Для решения этой проблемы мы далее предлагаем жадную оптимизацию сегментов подсказок (Greedy Segment Prompt Optimization, GSPO), которая выполняет жадный поиск, используя информацию о градиенте на уровне сегмента. Экспериментальные результаты показывают, что GSPO значительно улучшает производительность, и наш метод также обобщается на различные стили изображений. Код доступен по адресу https://github.com/Mengzibin/SocialGPT.
Математическое мышление является ключевой способностью для больших языковых моделей (LLM), однако создание подробных и точных следов рассуждений остается значительной проблемой. В данной статье представлен новый подход к созданию высококачественных следов рассуждений для настройки LLM с использованием потоков онлайн-обучения. Наш метод использует инкрементный поток производства вывода, где компоненты LLM совместно разрабатывают решения через итеративное взаимодействие. Мы обучаем поток с использованием онлайн-оптимизации прямого предпочтения (DPO) с прокрутками, генерируя пары DPO для каждого обучающего примера и обновляя модели в реальном времени. Мы непосредственно сравниваем качество следов рассуждений, созданных нашим методом, с теми, которые производятся через прямое вывод модели, демонстрируя эффективность нашего подхода в улучшении производительности LLM в задачах математического рассуждения.
Быстрое развитие крупных языковых и мультимодальных моделей вызвало значительный интерес к использованию собственных моделей, таких как GPT-4o, для разработки автономных агентов, способных обрабатывать реальные сценарии, такие как навигация в Интернете. Хотя недавние усилия в области открытого исходного кода пытались оснастить агентов способностью исследовать окружающую среду и непрерывно совершенствоваться со временем, они создают агентов только для текста в синтетических средах, где сигналы вознаграждения четко определены. Такие агенты испытывают трудности с обобщением на реалистичные сценарии, требующие мультимодальных способностей восприятия и лишенные точных сигналов истинности. В данной статье мы представляем фреймворк с открытым исходным кодом, разработанный для облегчения разработки мультимодального веб-агента, способного автономно проводить исследования в реальном мире и совершенствовать себя. Сначала мы обучаем базовую модель с помощью обучения по имитации для приобретения базовых способностей. Затем мы позволяем агенту исследовать открытый веб и собирать обратную связь по своим траекториям. После этого он дополнительно улучшает свою стратегию, учась на основе хорошо себя показывающих траекторий, оцененных другой универсальной моделью. Этот цикл исследования-обратной связи-оптимизации может продолжаться несколько итераций. Экспериментальные результаты показывают, что наш веб-агент успешно улучшает себя после каждой итерации, демонстрируя высокую производительность на нескольких тестовых наборах.
Большие языковые модели (LLM) продемонстрировали выдающуюся способность к генерации кода с более чем 90% успешных решений на Python в задачах кодирования HumanEval и MBPP. Такая высокая точность порождает вопрос: могут ли LLM заменить человеческих программистов? Существующие ручные, простые или однострочные бенчмарки генерации кода не могут ответить на этот вопрос из-за разрыва с реальной разработкой программного обеспечения. Для ответа на этот вопрос мы предлагаем REPOCOD, бенчмарк генерации кода с 980 задачами, собранными из 11 популярных проектов реального мира, более 58% из которых требуют информации на уровне файла или репозитория. Кроме того, REPOCOD имеет самую длинную среднюю длину канонического решения (331,6 токенов) и самую высокую среднюю цикломатическую сложность (9,00) по сравнению с существующими бенчмарками. В наших оценках на десяти LLM ни одна из моделей не смогла достичь более 30% успешных решений на REPOCOD, что подчеркивает необходимость создания более мощных LLM, способных помочь разработчикам в реальной разработке программного обеспечения.
Обучение с подкреплением (RL) обладает большим потенциалом для обеспечения автономного приобретения сложных навыков робототехнического манипулирования, однако реализация этого потенциала в реальных условиях представляет собой сложную задачу. Мы представляем систему обучения с подкреплением на основе зрительного восприятия с участием человека, которая демонстрирует впечатляющую производительность на разнообразном наборе задач ловкого манипулирования, включая динамическое манипулирование, точную сборку и координацию двух рук. Наш подход интегрирует демонстрации и коррекции со стороны человека, эффективные алгоритмы обучения с подкреплением и другие выборы на уровне системы для обучения стратегий, обеспечивающих практически идеальные показатели успешности и быстрые циклы обучения всего за 1–2,5 часа. Мы показываем, что наш метод значительно превосходит базовые методы обучения по подражанию и предыдущие подходы обучения с подкреплением, обеспечивая в среднем улучшение показателя успешности в 2 раза и выполнение в 1,8 раза быстрее. Через обширные эксперименты и анализ мы предоставляем понимание эффективности нашего подхода, демонстрируя, как он обучает надежные, адаптивные стратегии как для реактивного, так и для предсказательного управления. Наши результаты показывают, что обучение с подкреплением действительно способно обучать широкий спектр сложных стратегий зрительного манипулирования непосредственно в реальном мире в пределах приемлемых времен обучения. Мы надеемся, что данная работа вдохновит новое поколение изученных техник робототехнического манипулирования, принося пользу как промышленным приложениям, так и научным достижениям. Видео и код доступны на нашем веб-сайте проекта https://hil-serl.github.io/.
Методика "цепочки мыслей" (CoT) стала широко используемой стратегией для работы с крупными языковыми и мультимодальными моделями. Хотя CoT показала улучшение производительности во многих задачах, определение условий, в которых она эффективна, остается предметом постоянного изучения. В частности, до сих пор остается открытым вопрос о том, в каких условиях CoT систематически снижает производительность модели. В данной статье мы стремимся выявить характеристики задач, в которых CoT снижает производительность, черпая вдохновение из когнитивной психологии, рассматривая случаи, когда (i) вербальное мышление или обдумывание вредит производительности у людей, и (ii) ограничения, регулирующие человеческую производительность, обобщаются на языковые модели. Три таких случая - это неявное статистическое обучение, визуальное распознавание и классификация с образцами, содержащими исключения. В рамках обширных экспериментов во всех трех условиях мы обнаружили, что разнообразная коллекция передовых моделей показывает значительное снижение производительности (например, до 36,3% абсолютной точности для OpenAI o1-preview по сравнению с GPT-4o), когда используется рассуждение во время вывода по сравнению с моделями нулевого шага. Мы также выявили три задачи, удовлетворяющие условию (i), но не (ii), и обнаружили, что в то время как вербальное мышление снижает производительность у людей в этих задачах, CoT сохраняет или увеличивает производительность модели. В целом, наши результаты показывают, что хотя нет точного параллелизма между когнитивными процессами моделей и человеческими, рассмотрение случаев, когда мышление имеет негативные последствия для производительности человека, может помочь нам выявить условия, в которых оно негативно сказывается на моделях. Связывая литературу по человеческому обдумыванию с оценками CoT, мы предлагаем новый инструмент, который можно использовать для понимания влияния выбора подсказок и рассуждения во время вывода.
Мы исследуем внутренние представления моделей вид-язык (VLM) и способы кодирования представлений задач. Мы рассматриваем задачи, определенные через примеры или инструкции, используя текстовые или изображенческие входные данные. Удивительно, что мы обнаружили, что концептуально схожие задачи отображаются в схожие векторные представления задач, независимо от их спецификации. Наши результаты указывают на то, что для вывода ответов токены в моделях VLM проходят три различные фазы: ввод, задача и ответ, процесс, который согласуется в различных модальностях и спецификациях. Выявленные нами векторы задач в моделях VLM достаточно общие, чтобы быть полученными в одной модальности (например, тексте) и переданными в другую (например, изображения). Кроме того, мы обнаружили, что объединение векторов задач на основе образцов и инструкций дает лучшие представления задач. Все вместе эти исследования проливают свет на основные механизмы VLM, особенно их способность представлять задачи общим образом в различных модальностях и спецификациях задач. Страница проекта: https://task-vectors-are-cross-modal.github.io.
С широким развертыванием моделей большого размера с длинным контекстом (LLM) возросла потребность в эффективной поддержке высокопроизводительного вывода. Однако по мере расширения кеша ключ-значение (KV) с увеличением длины последовательности увеличивается объем памяти и необходимость обращения к нему для каждой генерации токена, что приводит к низкой производительности при обслуживании моделей LLM с длинным контекстом. Хотя были предложены различные методы динамического разреженного внимания для ускорения вывода при сохранении качества генерации, они либо не удается достаточно снизить потребление памяти GPU, либо вносят значительную задержку декодирования путем выгрузки кеша KV на ЦП. Мы представляем ShadowKV, систему вывода моделей LLM с длинным контекстом высокой производительности, которая хранит кеш ключей низкого ранга и выгружает кеш значений для снижения объема памяти при больших размерах пакетов и длинных последовательностях. Для минимизации задержки декодирования ShadowKV использует точную стратегию выбора KV, которая восстанавливает минимальные разреженные пары KV на лету. Оценивая ShadowKV на широком спектре бенчмарков, включая RULER, LongBench и Needle In A Haystack, а также модели, такие как Llama-3.1-8B, Llama-3-8B-1M, GLM-4-9B-1M, Yi-9B-200K, Phi-3-Mini-128K и Qwen2-7B-128K, мы демонстрируем, что она может поддерживать до 6 раз большие размеры пакетов и увеличивать производительность до 3.04 раз на GPU A100 без ущерба точности, превосходя даже производительность, достижимую с бесконечным размером пакета при предположении о бесконечной памяти GPU. Код доступен по адресу https://github.com/bytedance/ShadowKV.
Предварительное обучение визуальных представлений значительно улучшило эффективность обучения роботов. Из-за отсутствия крупномасштабных наборов данных для роботов в предметной области, предыдущие работы используют видеоматериалы с участием людей для предварительного обучения визуальных представлений для роботов. Несмотря на их многообещающие результаты, представления, полученные из видео с участием людей, неизбежно подвержены сдвигам распределения и лишены важной динамической информации для завершения задач. Сначала мы оцениваем различные предварительно обученные представления с точки зрения их корреляции с последующими задачами робототехнического манипулирования (т.е. манипуляционной направленности). Интересно, что мы обнаруживаем, что "манипуляционная направленность" является сильным индикатором успешности при применении к последующим задачам. Исходя из этих результатов, мы предлагаем Манипуляционно-направленное Представление (MCR) - фундаментальную систему обучения представлений, которая учитывает как визуальные особенности, так и динамическую информацию, такую как действия и проприоцептивные данные манипуляционных задач для улучшения манипуляционной направленности. Конкретно, мы предварительно обучаем визуальный кодер на робототехническом наборе данных DROID и используем данные, связанные с движением, такие как проприоцептивные состояния и действия робота. Мы вводим новую контрастную потерю, которая выравнивает визуальные наблюдения с динамикой проприоцептивного состояния и действий робота, в сочетании с потерей актера, подобной клонированию поведения (BC), для предсказания действий во время предварительного обучения, а также потерю временной контрастности. Эмпирические результаты на 4 областях симуляции с 20 задачами подтверждают, что MCR превосходит самый сильный базовый метод на 14,8%. Более того, MCR повышает производительность обучения с использованием данных с UR5e манипулятором на 3 реальных задачах на 76,9%. Веб-сайт проекта: https://robots-pretrain-robots.github.io/.
Построение эффективных систем плотного извлечения остаётся сложной задачей, когда недоступен контроль за релевантностью. Недавние исследования пытались преодолеть этот вызов, используя большую языковую модель (Large Language Model, LLM) для генерации гипотетических документов, которые могут быть использованы для нахождения ближайшего реального документа. Однако этот подход полностью зависит от того, что у LLM есть областные знания, соответствующие запросу, что может быть непрактично. Кроме того, генерация гипотетических документов может быть неэффективной, поскольку требуется, чтобы LLM генерировала большое количество токенов для каждого запроса. Для решения этих проблем мы представляем Векторные Вложения Реальных Документов с Обратной Связью по Релевантности (Real Document Embeddings from Relevance Feedback, ReDE-RF). Вдохновленный обратной связью по релевантности, ReDE-RF предлагает переосмыслить генерацию гипотетических документов как задачу оценки релевантности, используя LLM для выбора документов, которые следует использовать для поиска ближайших соседей. Благодаря этому переосмыслению, LLM больше не требуется областных знаний, а лишь способность оценить, что является релевантным. Кроме того, оценка релевантности требует от LLM вывода всего одного токена, что улучшает задержку поиска. Наши эксперименты показывают, что ReDE-RF последовательно превосходит современные методы плотного извлечения без обучения на широком спектре наборов данных с ограниченными ресурсами, а также значительно улучшает задержку на каждый запрос.
Алгоритмы оптимизации парных предпочтений в офлайн-режиме стали популярным подходом для настройки на данных предпочтений, превосходя традиционную надзорную настройку в различных задачах. Однако традиционные реализации часто включают избыточные вычисления, особенно для задач с длинными общими подсказками. Мы представляем технику совместного использования префиксов для настройки предпочтений, новаторский метод, который обрабатывает выбранные и отклоненные ответы как одну последовательность с общим префиксом. Для предотвращения перекрестного загрязнения ответов мы используем пользовательскую блочно-разреженную маску внимания. Наш метод достигает увеличения производительности обучения на популярных наборах данных DPO в 1,1-1,5 раза, без влияния на сходимость. При совмещении с упаковкой последовательностей мы наблюдаем последовательные ускорения в 1,3-1,6 раза, что положительно сказывается даже на наборах данных с более короткими последовательностями. Хотя мы сосредотачиваемся на прямой оптимизации предпочтений (DPO), наш подход применим и к другим методам настройки парных предпочтений. Улучшая вычислительную эффективность, наша работа способствует сделать настройку на основе предпочтений более доступной для широкого круга приложений и размеров моделей. Мы предоставляем наш код в открытом доступе по адресу https://github.com/frankxwang/dpo-prefix-sharing.
Мы исследуем, могут ли примеры в контексте, широко используемые в моделях языка только для декодера (LLM), улучшить производительность модели встраивания в задачах поиска. В отличие от LLM, наивное добавление примеров в контексте (пар запрос-документ) перед целевым запросом во время вывода не работает "из коробки". Мы предлагаем простой подход для обеспечения возможности использования ретриверами примеров в контексте. Наш подход, RARe, донастраивает предварительно обученную модель с примерами в контексте, запрос которых семантически схож с целевым запросом. Это может быть применено для адаптации различных базовых архитектур (т.е. моделей языка только для декодера, моделей ретривера) и последовательно достигает увеличения производительности до +2.72% nDCG на различных наборах данных по открытому домену поиска (BeIR, RAR-b). В частности, мы обнаружили, что RARe проявляет более сильную обобщаемость вне домена по сравнению с моделями, использующими запросы без примеров в контексте, аналогично тому, что наблюдается для обучения в контексте в LLM. Мы также предоставляем анализ выбора дизайна увеличения примеров в контексте и заложим основу для будущих работ в этой области.
Большие языковые модели (LLM) подвержены запоминанию обучающих данных, вызывая беспокойство из-за потенциального извлечения чувствительной информации. Существующие методы измерения уровня запоминания LLM, в основном обнаружимого извлечения (Carlini и др., 2022), полагаются на жадную выборку одиночной последовательности, потенциально недооценивая истинный объем запоминания. В данной статье представлено вероятностное усовершенствование обнаружимого извлечения, которое количественно оценивает вероятность извлечения целевой последовательности в наборе сгенерированных образцов, учитывая различные схемы выборки и несколько попыток. Данный подход решает ограничения отчетности уровня запоминания через обнаружимое извлечение, учитывая вероятностную природу LLM и паттерны взаимодействия с пользователем. Наши эксперименты демонстрируют, что данная вероятностная мера может выявлять случаи более высоких уровней запоминания по сравнению с уровнями, найденными через обнаружимое извлечение. Мы также исследуем влияние различных схем выборки на извлекаемость, предоставляя более всестороннюю и реалистичную оценку запоминания LLM и связанных с ним рисков. Наши вклады включают в себя новое вероятностное определение запоминания, эмпирические доказательства его эффективности и тщательную оценку на различных моделях, размерах, схемах выборки и повторениях обучающих данных.