Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Meta MLGym и MLGym-Bench — новую среду и набор тестов для оценки и разработки агентов на основе больших языковых моделей (LLM) в задачах исследований в области искусственного интеллекта (ИИ). Это первая среда Gym, ориентированная на задачи машинного обучения (ML), которая позволяет исследовать алгоритмы обучения с подкреплением (RL) для тренировки таких агентов. MLGym-Bench включает 13 разнообразных и открытых задач из различных областей, таких как компьютерное зрение, обработка естественного языка, обучение с подкреплением и теория игр. Решение этих задач требует навыков реальных исследований в области ИИ, включая генерацию новых идей и гипотез, создание и обработку данных, реализацию методов ML, обучение моделей, проведение экспериментов, анализ результатов и итеративное улучшение результатов для конкретной задачи. Мы оцениваем несколько передовых больших языковых моделей, таких как Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview и Gemini-1.5 Pro, на наших тестах. Наша среда MLGym упрощает добавление новых задач, интеграцию и оценку моделей или агентов, генерацию синтетических данных в больших масштабах, а также разработку новых алгоритмов обучения для тренировки агентов в задачах исследований ИИ. Мы обнаружили, что современные передовые модели могут улучшать заданные базовые показатели, обычно за счет поиска лучших гиперпараметров, но не генерируют новые гипотезы, алгоритмы, архитектуры или значительные улучшения. Мы открываем исходный код нашей среды и набора тестов, чтобы способствовать дальнейшим исследованиям в области повышения исследовательских возможностей агентов на основе LLM.
Мы представляем SigLIP 2 — семейство новых мультиязычных кодировщиков для задач "визуальный язык", которые развивают успех оригинального SigLIP. В этой второй итерации мы расширяем исходную цель обучения на основе изображений и текста, объединяя несколько ранее разработанных независимо методов в единый подход. Это включает предобучение на основе генерации подписей, самообучаемые функции потерь (самодистилляция, маскированное предсказание) и онлайн-курацию данных. Благодаря этим изменениям модели SigLIP 2 превосходят свои аналоги SigLIP на всех масштабах моделей по ключевым возможностям, включая классификацию с нулевым обучением, поиск по изображениям и тексту, а также производительность при извлечении визуальных представлений для моделей "визуальный язык" (VLMs). Кроме того, новый подход к обучению приводит к значительному улучшению в задачах локализации и плотного предсказания. Мы также обучаем варианты моделей, поддерживающие несколько разрешений и сохраняющие исходное соотношение сторон входных данных. Наконец, обучение проводится на более разнообразной смеси данных с использованием методов устранения смещений, что значительно улучшает мультиязычное понимание и повышает справедливость. Чтобы пользователи могли выбирать между стоимостью вывода и производительностью, мы выпускаем контрольные точки моделей четырех размеров: ViT-B (86M), L (303M), So400m (400M) и g (1B).
Крупные языковые модели (LLM) продемонстрировали впечатляющую компетентность в основных академических дисциплинах, таких как математика, физика и информатика. Однако человеческие знания охватывают более 200 специализированных областей, что значительно превосходит рамки существующих бенчмарков. Способности LLM во многих из этих специализированных областей, особенно в легкой промышленности, сельском хозяйстве и сервисных дисциплинах, остаются недостаточно оцененными. Для устранения этого пробела мы представляем SuperGPQA — всеобъемлющий бенчмарк, который оценивает знания и способности к рассуждению на уровне выпускника в 285 дисциплинах. Наш бенчмарк использует новый механизм совместной фильтрации "Человек-LLM", чтобы исключить тривиальные или неоднозначные вопросы путем итеративного уточнения на основе как ответов LLM, так и экспертной обратной связи. Результаты наших экспериментов показывают значительный потенциал для улучшения производительности современных передовых LLM в различных областях знаний (например, модель, ориентированная на рассуждения DeepSeek-R1, достигла наивысшей точности 61,82% на SuperGPQA), подчеркивая существенный разрыв между текущими возможностями моделей и искусственным общим интеллектом. Кроме того, мы представляем всесторонние выводы из нашего опыта управления крупномасштабным процессом аннотирования, в котором участвовали более 80 экспертов-аннотаторов и интерактивная система совместной работы "Человек-LLM", предлагая ценные методологические рекомендации для будущих исследовательских инициатив сопоставимого масштаба.
Производительность крупных языковых моделей (LLM) на многих задачах существенно ограничивается знаниями, усвоенными в ходе предварительного обучения и хранящимися в параметрах модели. Низкоранговая адаптация (LoRA) — это популярный и эффективный метод обучения для обновления или адаптации LLM под конкретные домены. В данном исследовании мы изучаем, как новые факты могут быть интегрированы в LLM с использованием LoRA без ущерба для ранее усвоенных знаний. Мы провели тонкую настройку модели Llama-3.1-8B-instruct с использованием LoRA, варьируя объем новых знаний. Наши эксперименты показали, что наилучшие результаты достигаются, когда обучающие данные содержат смесь известных и новых фактов. Однако этот подход все же потенциально вреден, поскольку производительность модели на внешних тестах по ответам на вопросы снижается после такой тонкой настройки. Когда обучающие данные смещены в сторону определенных сущностей, модель склонна регрессировать к нескольким перепредставленным ответам. Кроме того, мы обнаружили, что модель становится более уверенной и отказывается давать ответ лишь в редких случаях. Эти результаты подчеркивают потенциальные риски обновления LLM на основе LoRA и важность состава обучающих данных и параметров настройки для баланса между интеграцией новых знаний и общими возможностями модели.
Увеличение вычислительных ресурсов на этапе тестирования для крупных языковых моделей (LLM) демонстрирует перспективность в различных областях, однако остается недостаточно изученным в контексте генерации кода, несмотря на обширные исследования в области математики. В данной статье мы представляем S* — первый гибридный фреймворк масштабирования на этапе тестирования, который существенно улучшает охват и точность выбора генерируемого кода. S* расширяет существующую парадигму параллельного масштабирования за счет последовательного масштабирования, чтобы выйти за пределы текущих показателей производительности. Кроме того, он использует новый механизм выбора, который адаптивно генерирует различительные входные данные для попарного сравнения, сочетая их с информацией, основанной на выполнении, для надежного определения правильных решений. Мы провели оценку на 12 крупных языковых моделях и моделях для рассуждений и показали: (1) S* стабильно улучшает производительность для моделей различных семейств и размеров, позволяя модели объемом 3B превзойти GPT-4o-mini; (2) S* позволяет моделям без функций рассуждений превосходить модели с такими функциями — GPT-4o-mini с S* превосходит o1-preview на 3,7% на тесте LiveCodeBench; (3) S* дополнительно повышает производительность современных моделей для рассуждений — DeepSeek-R1-Distill-Qwen-32B с S* достигает 85,7% на LiveCodeBench, приближаясь к o1 (high) с показателем 88,5%. Код будет доступен по адресу https://github.com/NovaSky-AI/SkyThought.
Вдохновленные успехом DeepSeek-R1, мы исследуем потенциал обучения с подкреплением (RL), основанного на правилах, в крупных моделях логического рассуждения. Для анализа динамики рассуждений мы используем синтетические логические головоломки в качестве обучающих данных благодаря их контролируемой сложности и простой проверке ответов. Мы вносим несколько ключевых технических вкладов, которые способствуют эффективному и стабильному обучению RL: системный запрос, акцентирующий внимание на процессе мышления и ответа, строгая функция вознаграждения за формат, которая штрафует выводы за использование упрощенных подходов, и простая методика обучения, обеспечивающая стабильную сходимость. Наша модель на 7 миллиардов параметров развивает продвинутые навыки рассуждения, такие как рефлексия, проверка и обобщение, которые отсутствуют в логическом корпусе. Примечательно, что после обучения всего на 5 тысячах логических задач она демонстрирует способность к обобщению на сложных математических тестах AIME и AMC.
Реализация масштабируемых отказоустойчивых квантовых вычислений, как ожидается, будет зависеть от квантовых кодов с коррекцией ошибок. В поиске более эффективной квантовой отказоустойчивости критическим параметром кода является вес измерений, которые извлекают информацию об ошибках для их исправления: поскольку более высокие веса измерений требуют больших затрат на реализацию и вносят больше ошибок, важно оптимизировать вес измерений при проектировании кодов. Это лежит в основе растущего интереса к квантовым кодам с низкой плотностью проверок на четность (qLDPC), изучение которых в основном сосредоточено на асимптотических свойствах (в пределе больших кодов). В данной работе мы представляем универсальный и вычислительно эффективный подход к снижению веса стабилизаторных кодов, основанный на обучении с подкреплением (RL), который создает новые коды с низким весом, значительно превосходящие современные достижения в практически значимых параметрических режимах, выходя далеко за пределы ранее доступных малых расстояний. Например, наш подход демонстрирует экономию в накладных расходах на физические кубиты по сравнению с существующими результатами на 1–2 порядка величины для кодов веса 6 и делает эти расходы приемлемыми для экспериментов в ближайшем будущем. Мы также исследуем взаимосвязь между параметрами кодов с использованием нашего RL-фреймворка, предлагая новые инсайты в потенциальную эффективность и мощность практически применимых стратегий кодирования. В целом, наши результаты показывают, как RL может эффективно продвигать решение важной, но сложной задачи открытия квантовых кодов, тем самым способствуя более быстрому пути к практической реализации отказоустойчивых квантовых технологий.
Недавние исследования продемонстрировали эффективность масштабирования языковых моделей (LLM) во время тестирования. Однако существующие подходы для стимулирования глубоких мыслительных способностей LLM, как правило, требуют больших объемов данных или значительных усилий по обучению. В то же время остается неясным, как улучшить мыслительные способности менее мощных базовых моделей. В данной работе мы представляем S^2R — эффективную структуру, которая улучшает рассуждения LLM, обучая модели самопроверке и самокоррекции в процессе вывода. В частности, мы сначала инициализируем LLM с поведением итеративной самопроверки и самокоррекции с помощью контролируемого тонкого обучения на тщательно отобранных данных. Затем навыки самопроверки и самокоррекции дополнительно укрепляются с помощью обучения с подкреплением как на уровне результатов, так и на уровне процесса, с минимальными требованиями к ресурсам, что позволяет модели адаптивно улучшать процесс рассуждений во время вывода. Наши результаты показывают, что с использованием всего 3,1 тыс. образцов для инициализации поведения самопроверки и самокоррекции модель Qwen2.5-math-7B достигает улучшения точности с 51,0\% до 81,6\%, превосходя модели, обученные на эквивалентном объеме данных, полученных с помощью длинной цепочки рассуждений (long-CoT). Многочисленные эксперименты и анализ, проведенные на трех базовых моделях как на внутридоменных, так и на внедоменных тестах, подтверждают эффективность S^2R. Наш код и данные доступны по адресу https://github.com/NineAbyss/S2R.
Хотя способность языковых моделей извлекать факты широко исследовалась, то, как они обрабатывают изменяющиеся во времени факты, остается недостаточно изученным. Мы обнаружили Временные Головы — специфические механизмы внимания, которые в основном отвечают за обработку временных знаний, проведя анализ схем. Мы подтверждаем, что эти механизмы присутствуют в нескольких моделях, хотя их конкретное расположение может варьироваться, а их реакции различаются в зависимости от типа знаний и соответствующих им лет. Отключение этих механизмов ухудшает способность модели вспоминать временно-специфические знания, сохраняя при этом её общие возможности без ущерба для работы с временно-инвариантными данными и задачами ответов на вопросы. Более того, эти механизмы активируются не только при числовых условиях ("В 2004 году"), но и при текстовых аналогах ("В год ..."), что указывает на то, что они кодируют временное измерение, выходящее за рамки простого числового представления. Кроме того, мы расширяем потенциал наших выводов, демонстрируя, как временные знания можно редактировать, изменяя значения этих механизмов.
Существующие крупные модели обработки зрения и языка (LVLMs) способны обрабатывать входные данные с длиной контекста до 128 тысяч визуальных и текстовых токенов, однако они испытывают трудности с генерацией связных текстов, превышающих 1000 слов. Мы обнаружили, что основное ограничение заключается в отсутствии примеров длинных выходных данных в процессе контролируемой тонкой настройки (SFT). Для решения этой проблемы мы представляем LongWriter-V-22k — набор данных для SFT, содержащий 22 158 примеров, каждый из которых включает несколько входных изображений, инструкцию и соответствующие выходные данные длиной от 0 до 10 000 слов. Кроме того, для достижения длинных выходных данных, сохраняющих высокую точность по отношению к входным изображениям, мы применяем оптимизацию прямых предпочтений (DPO) к модели, прошедшей SFT. Учитывая высокую стоимость сбора человеческой обратной связи для длинных выходных данных (например, 3000 слов), мы предлагаем IterDPO, который разбивает длинные выходные данные на сегменты и использует итеративные исправления для формирования пар предпочтений с исходными выходами. Дополнительно мы разработали MMLongBench-Write — бенчмарк, включающий шесть задач для оценки способностей моделей обработки зрения и языка (VLMs) к длинной генерации. Наша модель с 7 миллиардами параметров, обученная на LongWriter-V-22k и IterDPO, демонстрирует впечатляющие результаты на этом бенчмарке, превосходя более крупные проприетарные модели, такие как GPT-4o. Код и данные доступны по ссылке: https://github.com/THU-KEG/LongWriter-V.
В области GUI-агентов на основе MLLM, по сравнению со смартфонами, сценарий использования ПК характеризуется не только более сложной интерактивной средой, но и более запутанными внутри- и межприложенными рабочими процессами. Для решения этих проблем мы предлагаем иерархическую структуру агента под названием PC-Agent. В частности, с точки зрения восприятия, мы разработали модуль активного восприятия (Active Perception Module, APM), чтобы преодолеть недостаточные способности современных MLLM в восприятии содержимого скриншотов. С точки зрения принятия решений, для более эффективной обработки сложных пользовательских инструкций и взаимозависимых подзадач, мы предлагаем иерархическую архитектуру многозадачного взаимодействия, которая разбивает процессы принятия решений на уровни Инструкция-Подзадача-Действие. В рамках этой архитектуры созданы три агента (Менеджер, Прогресс и Решение) для декомпозиции инструкций, отслеживания прогресса и пошагового принятия решений соответственно. Кроме того, используется агент Рефлексии для обеспечения своевременной обратной связи и корректировки ошибок снизу вверх. Мы также представляем новый бенчмарк PC-Eval с 25 реальными сложными инструкциями. Эмпирические результаты на PC-Eval показывают, что наш PC-Agent достигает абсолютного улучшения успешности выполнения задач на 32% по сравнению с предыдущими передовыми методами. Код будет общедоступным.
Быстрый темп эволюции крупных языковых моделей (LLM) требует новых подходов для строгой и всесторонней оценки. Традиционная аннотация человеком становится все менее практичной из-за сложностей и затрат, связанных с созданием высококачественных и сложных задач. В данной работе мы представляем CHASE — унифицированную платформу для синтетической генерации сложных задач с использованием LLM без участия человека. Для конкретной задачи наш подход строит сложную проблему снизу вверх, начиная с более простых компонентов. Кроме того, наша платформа разбивает процесс генерации на независимо проверяемые подзадачи, что обеспечивает высокий уровень качества и корректности. Мы реализовали CHASE для создания оценочных тестов в трех различных областях: (1) ответы на вопросы на основе документов, (2) завершение кода на уровне репозитория и (3) математические рассуждения. Результаты современных LLM на этих синтетических тестах находятся в диапазоне 40–60% точности, что демонстрирует эффективность нашей платформы в генерации сложных задач. Мы публикуем наши тесты и код в открытом доступе.
Персонализация генеративных моделей "текст-изображение" достигла значительных успехов, однако расширение этой персонализации на модели "текст-видео" представляет собой уникальные задачи. В отличие от статических концепций, персонализация моделей "текст-видео" позволяет захватывать динамические концепции, то есть сущности, определяемые не только своим внешним видом, но и своим движением. В данной статье мы представляем Set-and-Sequence — новый фреймворк для персонализации генеративных видео-моделей на основе Diffusion Transformers (DiTs) с учетом динамических концепций. Наш подход внедряет пространственно-временное пространство весов в архитектуру, которая не разделяет явно пространственные и временные признаки. Это достигается в два ключевых этапа. Сначала мы донастраиваем слои Low-Rank Adaptation (LoRA) с использованием неупорядоченного набора кадров из видео, чтобы получить базис LoRA, представляющий внешний вид, свободный от временных искажений. На втором этапе, с замороженными LoRA, мы дополняем их коэффициенты Motion Residuals и донастраиваем их на полной последовательности видео, захватывая динамику движения. Наш фреймворк Set-and-Sequence создает пространственно-временное пространство весов, которое эффективно встраивает динамические концепции в выходную область видео-модели, обеспечивая беспрецедентную редактируемость и композиционность, а также устанавливая новый стандарт для персонализации динамических концепций.
Анализ изображений с насыщенным текстом, таких как диаграммы и документы, является важной задачей для моделей, объединяющих зрение и язык (VLMs). Однако VLMs часто испытывают трудности в этих областях из-за недостатка разнообразных данных, сочетающих визуальную и текстовую информацию. Для решения этой проблемы мы представляем CoSyn — фреймворк, который использует возможности генерации кода текстовых больших языковых моделей (LLMs) для автоматического создания синтетических мультимодальных данных с насыщенным текстом. Получив входной текст, описывающий целевую область (например, "этикетки с пищевой ценностью"), CoSyn побуждает LLM сгенерировать код (Python, HTML, LaTeX и т.д.) для создания синтетических изображений. Используя этот код как текстовое представление синтетических изображений, CoSyn может генерировать высококачественные данные для настройки инструкций, снова полагаясь на текстовую LLM. С помощью CoSyn мы создали набор данных, включающий 400 тыс. изображений и 2,7 млн строк данных для настройки инструкций, связывающих зрение и язык. Комплексные эксперименты на семи бенчмарках показывают, что модели, обученные на наших синтетических данных, достигают наилучших результатов среди конкурентоспособных открытых моделей, включая Llama 3.2, и превосходят проприетарные модели, такие как GPT-4V и Gemini 1.5 Flash. Кроме того, CoSyn способен генерировать синтетические данные для локализации информации, что позволяет VLMs привязывать информацию к конкретным областям входных изображений, демонстрируя потенциал для разработки мультимодальных агентов, способных действовать в реальных условиях.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в обработке языка, однако они часто испытывают трудности с задачами, требующими подлинного визуально-пространственного мышления. В данной статье мы представляем новую двухэтапную структуру обучения, предназначенную для оснащения стандартных LLM способностями к визуальному мышлению для навигации в лабиринтах. Сначала мы используем контролируемую тонкую настройку (SFT) на тщательно отобранном наборе данных токенизированных представлений лабиринтов, чтобы научить модель предсказывать пошаговые команды движения. Затем мы применяем оптимизацию групповой относительной политики (GRPO) — метод, используемый в DeepSeekR1, — с тщательно разработанной функцией вознаграждения для улучшения последовательного принятия решений моделью и стимулирования возникновения цепочек рассуждений. Экспериментальные результаты на синтетически созданных лабиринтах показывают, что базовая модель не справляется с навигацией, в то время как модель, обученная с помощью SFT, достигает точности 86%, а дальнейшая тонкая настройка с использованием GRPO повышает точность до 93%. Качественный анализ показывает, что GRPO способствует более устойчивому и самокорректирующемуся мышлению, подчеркивая потенциал нашего подхода для преодоления разрыва между языковыми моделями и визуально-пространственными задачами. Эти результаты открывают перспективные возможности для применения в робототехнике, автономной навигации и других областях, требующих интегрированного визуального и последовательного мышления.
Крупные языковые модели (LLM) продемонстрировали значительный потенциал в обработке длинных последовательностей, однако эффективное обслуживание таких моделей с длинным контекстом остается сложной задачей из-за квадратичной вычислительной сложности механизма внимания на этапе предварительного заполнения и большого объема памяти, занимаемого кэшем ключей и значений (KV) на этапе декодирования. Для решения этих проблем мы представляем LServe — эффективную систему, которая ускоряет обслуживание LLM с длинными последовательностями за счет гибридного разреженного внимания. Этот метод объединяет различные аппаратно-ориентированные структурированные шаблоны разреженности для внимания на этапах предварительного заполнения и декодирования в единую структуру, где вычисления для менее важных токенов пропускаются блоками. LServe демонстрирует совместимость статической и динамической разреженности в механизме внимания LLM с длинным контекстом. Такая конструкция позволяет достичь мультипликативного ускорения за счет комбинации этих оптимизаций. В частности, мы преобразуем половину голов внимания в почти бесплатные потоковые головы на этапах предварительного заполнения и декодирования. Кроме того, мы обнаружили, что для сохранения возможностей работы с длинным контекстом требуется лишь постоянное количество страниц KV, независимо от длины контекста. Затем мы разрабатываем иерархическую политику выбора страниц KV, которая динамически обрезает страницы на основе запросо-центрированного сходства. В среднем LServe ускоряет предварительное заполнение LLM до 2.9 раз и декодирование в 1.3–2.1 раза по сравнению с vLLM, сохраняя точность работы с длинным контекстом. Код доступен по адресу: https://github.com/mit-han-lab/omniserve.
Способность непрерывно приобретать, организовывать и использовать знания является ключевой особенностью человеческого интеллекта, которую системы искусственного интеллекта (ИИ) должны приблизить, чтобы раскрыть свой полный потенциал. Учитывая сложности в непрерывном обучении больших языковых моделей (LLM), генерация, усиленная поиском (RAG), стала основным способом внедрения новой информации. Однако зависимость от векторного поиска ограничивает её способность имитировать динамическую и взаимосвязанную природу человеческой долговременной памяти. Современные подходы RAG дополняют векторные вложения различными структурами, такими как графы знаний, чтобы устранить некоторые из этих пробелов, а именно осмысление и ассоциативность. Однако их производительность на более простых задачах фактологической памяти значительно уступает стандартному RAG. Мы устраняем это непреднамеренное ухудшение и предлагаем HippoRAG 2 — фреймворк, который превосходит стандартный RAG по всем параметрам: в задачах фактологической памяти, осмысления и ассоциативной памяти. HippoRAG 2 основывается на алгоритме Personalized PageRank, использованном в HippoRAG, и улучшает его за счёт более глубокой интеграции текстовых фрагментов и более эффективного онлайн-использования LLM. Это сочетание приближает данную систему RAG к эффективности человеческой долговременной памяти, демонстрируя улучшение на 7% в задачах ассоциативной памяти по сравнению с современной моделью векторных вложений, а также превосходные способности в области фактологических знаний и осмысления. Эта работа прокладывает путь для непараметрического непрерывного обучения LLM. Наш код и данные будут опубликованы на https://github.com/OSU-NLP-Group/HippoRAG.
Диффузионный Трансформер играет ключевую роль в развитии генерации текста в изображения и текста в видео, в первую очередь благодаря своей внутренней масштабируемости. Однако существующие методы контролируемого диффузионного трансформера требуют значительных параметров и вычислительных ресурсов, а также страдают от неэффективного распределения ресурсов из-за неучета различной значимости управляющей информации на разных слоях трансформера. Для решения этой проблемы мы предлагаем фреймворк Relevance-Guided Efficient Controllable Generation (RelaCtrl), который обеспечивает эффективную и оптимизированную по ресурсам интеграцию управляющих сигналов в Диффузионный Трансформер. Сначала мы оцениваем значимость каждого слоя Диффузионного Трансформера для управляющей информации, вычисляя "Оценку значимости ControlNet" — то есть влияние пропуска каждого управляющего слоя на качество генерации и эффективность управления во время вывода. На основе силы значимости мы затем адаптируем расположение, масштаб параметров и моделирующую способность управляющих слоев, чтобы сократить ненужные параметры и избыточные вычисления. Кроме того, для дальнейшего повышения эффективности мы заменяем self-attention и FFN в обычно используемом копирующем блоке на тщательно разработанный Two-Dimensional Shuffle Mixer (TDSM), что позволяет эффективно реализовать как микшер токенов, так и микшер каналов. Качественные и количественные результаты экспериментов показывают, что наш подход достигает превосходной производительности, используя всего 15% параметров и вычислительной сложности по сравнению с PixArt-delta. Дополнительные примеры доступны по адресу https://relactrl.github.io/RelaCtrl/.
Геолокация изображений — это задача предсказания точного местоположения изображения, требующая сложного анализа визуального, географического и культурного контекстов. Хотя современные модели обработки изображений и текста (Vision Language Models, VLMs) демонстрируют наивысшую точность в этой задаче, существует недостаток высококачественных наборов данных и моделей для аналитического рассуждения. Мы создаем NaviClues — высококачественный набор данных, основанный на GeoGuessr, популярной географической игре, чтобы предоставить примеры экспертного анализа на основе текста. Используя этот набор данных, мы представляем Navig — комплексную структуру для геолокации изображений, которая интегрирует глобальную и детализированную информацию об изображении. Благодаря анализу с использованием текста, Navig снижает среднюю ошибку расстояния на 14% по сравнению с предыдущими передовыми моделями, при этом требуя менее 1000 обучающих примеров. Наш набор данных и код доступны по адресу https://github.com/SparrowZheyuan18/Navig/.
Разработчики языковых моделей всё чаще полагаются на синтетические данные, однако генерация высококачественных данных для сложных задач рассуждений в длинном контексте остаётся сложной задачей. Мы представляем CLIPPER — подход, основанный на сжатии, для генерации синтетических данных, адаптированных для проверки нарративных утверждений — задачи, требующей рассуждений на основе книги для проверки заданного утверждения. Вместо того чтобы генерировать утверждения напрямую из исходного текста книги, что приводит к утверждениям, перегруженным артефактами, CLIPPER сначала сжимает книгу в виде конспектов глав и кратких содержаний, а затем использует эти промежуточные представления для генерации сложных утверждений и соответствующих цепочек рассуждений. По сравнению с наивными подходами, CLIPPER создаёт утверждения, которые являются более достоверными, обоснованными и сложными. С помощью CLIPPER мы создали набор данных из 19 тысяч синтетических утверждений о книгах, сопоставленных с их исходными текстами и цепочками рассуждений, и использовали его для тонкой настройки трёх моделей с открытыми весами. Наша лучшая модель демонстрирует прорывные результаты в проверке нарративных утверждений (с 28% до 76% точности на нашем тестовом наборе) и устанавливает новый рекорд для моделей с менее чем 10 миллиардами параметров на лидерборде NoCha. Дополнительный анализ показывает, что наши модели генерируют более детализированные и обоснованные цепочки рассуждений, одновременно улучшая производительность на других задачах понимания нарративов (например, NarrativeQA).
Крупные мультимодальные модели (LMM) продемонстрировали впечатляющие способности в решении широкого спектра визуальных задач. Однако они часто испытывают трудности с детализированным визуальным анализом, неспособны идентифицировать специфические для предметной области цели и предоставлять обоснованные объяснения своих предсказаний. Для решения этой проблемы мы предлагаем новый фреймворк визуального отбора с отклонением, направленный на улучшение когнитивных способностей и объяснимости LMM с использованием самостоятельно синтезированных данных. В частности, визуальная донастройка требует наличия изображений, запросов и целевых ответов. Наш подход начинается с синтеза интерпретируемых ответов, включающих визуальные признаки, которые могут быть проверены человеком. Эти признаки основаны на экспертно определенных концепциях, тщательно отобранных в соответствии с их соответствием содержанию изображения. После каждого этапа донастройки мы применяем механизм фильтрации без использования модели вознаграждения для выбора интерпретируемых ответов наивысшего качества для следующего этапа настройки. Этот итеративный процесс синтеза данных и донастройки постепенно улучшает способность модели генерировать точные и обоснованные объяснения. Экспериментальные результаты подтверждают эффективность нашего метода в повышении как точности, так и объяснимости специализированных задач визуальной классификации.
Модели вознаграждения играют ключевую роль в обучении моделей, работающих с визуальными и языковыми данными (VLMs), оценивая качество выходных данных для их согласования с человеческими предпочтениями. Несмотря на их важность, в исследовательском сообществе отсутствуют всеобъемлющие открытые бенчмарки для оценки мультимодальных моделей вознаграждения в VLMs. Чтобы устранить этот пробел, мы представляем Multimodal RewardBench — экспертно аннотированный бенчмарк, охватывающий шесть областей: общая корректность, предпочтения, знания, логическое рассуждение, безопасность и визуальное ответы на вопросы. Наш набор данных включает 5 211 аннотированных триплетов (запрос, выбранный ответ, отклонённый ответ), собранных из различных VLMs. При оценке ряда моделей-судей VLMs мы обнаружили, что даже лучшие модели, такие как Gemini 1.5 Pro и Claude 3.5 Sonnet, достигают лишь 72% общей точности. Примечательно, что большинство моделей испытывают трудности в областях логического рассуждения и безопасности. Эти результаты свидетельствуют о том, что Multimodal RewardBench предлагает сложный тестовый стенд для продвижения разработки моделей вознаграждения в различных областях. Мы публикуем бенчмарк по адресу https://github.com/facebookresearch/multimodal_rewardbench.
Подготовка высококачественных наборов данных, необходимых для различных моделей искусственного интеллекта и машинного обучения, основанных на данных, стала ключевой задачей в аналитике, ориентированной на данные. Традиционные методы поиска данных обычно интегрируют наборы данных в соответствии с единой предопределенной метрикой качества, что может привести к смещению в последующих задачах. В данной статье представлен MODis — фреймворк, который обнаруживает наборы данных, оптимизируя несколько пользовательских метрик производительности модели. Имея набор источников данных и модель, MODis выбирает и интегрирует источники данных в набор данных, называемый "skyline", на котором модель должна демонстрировать желаемую производительность по всем метрикам. Мы формулируем MODis как конечный преобразователь с несколькими целями и выводим три реализуемых алгоритма для генерации наборов данных skyline. Наш первый алгоритм использует стратегию "сокращение от универсального", начиная с универсальной схемы и последовательно удаляя неперспективные данные. Второй алгоритм дополнительно снижает затраты с помощью двунаправленной стратегии, чередующей расширение и сокращение данных. Мы также представляем алгоритм диверсификации для уменьшения смещения в наборах данных skyline. Экспериментально подтверждаем эффективность и результативность наших алгоритмов поиска данных skyline и демонстрируем их применение в оптимизации процессов анализа данных.
Быстрое развитие крупных языковых моделей (LLM) открыло новые возможности в системах рекомендаций, позволяя осуществлять рекомендации без предварительного обучения (zero-shot). Несмотря на их потенциал, большинство существующих работ полагаются исключительно на историю покупок пользователей, оставляя значительный простор для улучшений за счет включения текстовых данных, создаваемых пользователями, таких как отзывы и описания продуктов. Для устранения этого пробела мы предлагаем PURE — новую рекомендационную систему на основе LLM, которая создает и поддерживает развивающиеся профили пользователей, систематически извлекая и обобщая ключевую информацию из их отзывов. PURE состоит из трех основных компонентов: извлекателя отзывов для выявления предпочтений пользователей и ключевых характеристик продуктов, обновлятеля профилей для уточнения и актуализации профилей пользователей и рекомендательной системы для генерации персонализированных рекомендаций с использованием актуального профиля. Для оценки PURE мы вводим задачу непрерывной последовательной рекомендации, которая отражает реальные сценарии, добавляя отзывы с течением времени и обновляя прогнозы постепенно. Наши экспериментальные результаты на наборах данных Amazon демонстрируют, что PURE превосходит существующие методы на основе LLM, эффективно используя долгосрочную информацию о пользователях, одновременно справляясь с ограничениями на количество токенов.
Генерация новых молекул с характеристиками, выходящими за пределы распределения данных, представляет собой серьезную задачу в области молекулярного дизайна. Хотя методы обучения с учителем позволяют создавать высококачественные молекулы, схожие с теми, что присутствуют в наборе данных, они плохо справляются с обобщением на свойства, выходящие за пределы распределения. Методы обучения с подкреплением могут исследовать новые химические пространства, но часто сталкиваются с проблемой "взлома вознаграждения" и генерируют молекулы, которые невозможно синтезировать. В данной работе мы решаем эту проблему, интегрируя современный метод обучения с учителем, STGG+, в активный обучающий цикл. Наш подход итеративно генерирует, оценивает и дорабатывает STGG+, чтобы непрерывно расширять его знания. Мы обозначаем этот подход как STGG+AL. Мы применяем STGG+AL к проектированию органических π-функциональных материалов, в частности, к двум сложным задачам: 1) генерации молекул с высокой поглощающей способностью, характеризующихся высокой силой осциллятора, и 2) проектированию поглощающих молекул с разумной силой осциллятора в ближнем инфракрасном (NIR) диапазоне. Сгенерированные молекулы проверяются и анализируются in silico с использованием теории функционала плотности, зависящей от времени. Наши результаты демонстрируют, что наш метод высокоэффективен в генерации новых молекул с высокой силой осциллятора, в отличие от существующих методов, таких как обучение с подкреплением (RL). Мы открываем исходный код нашего активного обучения вместе с набором данных Conjugated-xTB, содержащим 2,9 миллиона π-сопряженных молекул, и функцией для аппроксимации силы осциллятора и длины волны поглощения (на основе sTDA-xTB).
Недавние исследования показали, что крупные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), склонны игнорировать содержание изображений и чрезмерно полагаться на априорные знания языковых моделей, что приводит к ошибкам в задачах, требующих визуального обоснования, и к галлюцинациям. Мы предполагаем, что эта проблема возникает из-за того, что существующие VLMs не обучаются явно генерировать тексты, точно основанные на деталях изображений. Для усиления визуальной обратной связи в процессе обучения VLMs мы предлагаем S-VCO (Symmetrical Visual Contrastive Optimization, Симметричная визуальная контрастная оптимизация) — новый метод тонкой настройки, который направляет модель на захват важных визуальных деталей и их согласование с соответствующими текстовыми токенами. Для дальнейшего облегчения этого детального согласования мы представляем MVC — парный набор данных изображений и текстов, созданный путем автоматической фильтрации и дополнения визуальных контрфактических данных, чтобы бросить вызов модели сложными контрастными случаями, включающими Минимальные Визуальные Контрасты. Эксперименты показывают, что наш метод последовательно улучшает производительность VLMs на различных тестах, охватывающих различные способности и области, достигая снижения галлюцинаций до 22% и значительного прогресса в визуально-центрированных и общих задачах. Примечательно, что эти улучшения становятся все более выраженными в тестах с более высокой визуальной зависимостью. Вкратце, S-VCO предлагает значительное улучшение производительности VLMs в задачах, зависящих от визуальной информации, сохраняя или даже улучшая общие способности модели. Мы открываем исходный код по адресу https://s-vco.github.io/.
Геолокация, задача определения местоположения изображения, требует сложного анализа и имеет важное значение для навигации, мониторинга и сохранения культурного наследия. Однако современные методы часто дают грубые, неточные и неинтерпретируемые результаты локализации. Основная проблема заключается в качестве и масштабе существующих наборов данных для геолокации. Эти наборы данных обычно имеют небольшой масштаб и создаются автоматически, что приводит к зашумленным данным и неоднородной сложности задач, где изображения либо слишком легко раскрывают ответы, либо не содержат достаточных подсказок для надежного вывода. Для решения этих проблем мы представляем комплексную структуру геолокации с тремя ключевыми компонентами: GeoComp — крупномасштабный набор данных; GeoCoT — новый метод рассуждений; и GeoEval — метрика оценки, которые вместе разработаны для преодоления ключевых вызовов и продвижения исследований в области геолокации. В основе этой структуры лежит GeoComp (Geolocation Competition Dataset), крупномасштабный набор данных, собранный с платформы игры на геолокацию, в которой участвовали 740 тысяч пользователей в течение двух лет. Он включает 25 миллионов записей метаданных и 3 миллиона геотегов, охватывающих большую часть земного шара, причем каждое местоположение аннотировано тысячами или десятками тысяч раз пользователями. Набор данных предлагает различные уровни сложности для детального анализа и выявляет ключевые пробелы в современных моделях. На основе этого набора данных мы предлагаем Geographical Chain-of-Thought (GeoCoT), новую многошаговую структуру рассуждений, предназначенную для улучшения аналитических способностей крупных визуальных моделей (Large Vision Models, LVMs) в задачах геолокации. GeoCoT повышает производительность, интегрируя контекстуальные и пространственные подсказки через многошаговый процесс, имитирующий человеческое рассуждение при геолокации. Наконец, с использованием метрики GeoEval мы демонстрируем, что GeoCoT значительно повышает точность геолокации до 25%, одновременно улучшая интерпретируемость.
Крупные языковые модели (LLMs) способны генерировать связные резюме на основе очень длинных контекстов в ответ на пользовательский запрос. Извлечение и корректное цитирование фрагментов доказательств может повысить прозрачность и надежность таких резюме. В то же время LLMs страдают от позиционных предубеждений в отношении того, какую информацию они понимают и на что обращают внимание, что может повлиять на цитирование доказательств. В то время как предыдущие работы были сосредоточены на цитировании доказательств с предопределенными уровнями детализации (например, предложение, абзац, документ и т.д.), мы предлагаем задачу резюмирования с фокусом на длинный контекст и неструктурированное цитирование доказательств. Мы показываем, что существующие системы испытывают трудности с генерацией и корректным цитированием неструктурированных доказательств из своего контекста, и что доказательства часто "теряются в середине". Чтобы помочь в решении этой проблемы, мы создаем набор данных Summaries with Unstructured Evidence Text (SUnsET), синтетический набор данных, сгенерированный с использованием нового доменно-независимого конвейера, который может быть использован в качестве обучающего материала для адаптации LLMs к этой задаче. Мы демонстрируем на 5 LLMs разного размера и 4 наборах данных с различными типами и длинами документов, что LLMs, адаптированные с использованием данных SUnsET, генерируют более релевантные и фактически согласованные доказательства, чем их базовые модели, извлекают доказательства из более разнообразных мест в контексте и способны генерировать более релевантные и согласованные резюме.
В эпоху дезинформации галлюцинации — склонность крупных языковых моделей (LLM) генерировать недостоверные или несоответствующие фактам ответы — представляют собой основной риск для их глобальной полезности. Несмотря на то, что LLM становятся всё более многоязычными, подавляющее большинство исследований по обнаружению и количественной оценке галлюцинаций в LLM (а) сосредоточено на английском языке и (б) фокусируется на машинном переводе (MT) и суммаризации — задачах, которые встречаются «в реальной жизни» реже, чем открытый поиск информации. В отличие от этого, мы стремимся количественно оценить масштабы галлюцинаций LLM на разных языках в контексте ответов на сложные вопросы, требующие глубоких знаний. Для этого мы обучаем многоязычную модель для обнаружения галлюцинаций и проводим масштабное исследование, охватывающее 30 языков и 6 семейств открытых LLM. Мы начинаем с набора данных для обнаружения галлюцинаций на английском языке и используем машинный перевод для создания (зашумлённых) обучающих данных на других языках. Мы также вручную аннотируем эталонные данные для пяти языков с высоким уровнем ресурсов; затем мы показываем, что для этих языков оценки уровня галлюцинаций схожи между серебряными (сгенерированными LLM) и эталонными тестовыми наборами, что подтверждает возможность использования серебряных данных для оценки уровня галлюцинаций на других языках. Для окончательной оценки уровня галлюцинаций мы создаём набор данных для ответов на сложные вопросы, требующие знаний, на 30 языках, используя запросы, сгенерированные LLM, и статьи из Википедии в качестве эталонов. Мы обнаруживаем, что, хотя LLM генерируют более длинные ответы с большим количеством галлюцинированных токенов для языков с высоким уровнем ресурсов, нет корреляции между нормированными по длине уровнями галлюцинаций и цифровым представлением языков. Кроме того, мы выясняем, что меньшие по размеру LLM демонстрируют более высокие уровни галлюцинаций по сравнению с более крупными моделями.