Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели с возможностями зрения (VLM), например, GPT-4o и Gemini 1.5 Pro, силой питают бесчисленные приложения изображений и текста, набирая высокие баллы на многих бенчмарках понимания зрения. Тем не менее, мы обнаруживаем, что VLM терпят неудачу в 7 визуальных задачах, абсурдно легких для людей, таких как идентификация (a) пересекаются ли два круга; (b) пересекаются ли две линии; (c) какая буква выделена в слове; и (d) подсчет количества кругов в логотипе похожем на олимпийский. Шокирующе низкая производительность четырех передовых VLM говорит о том, что их зрение, в лучшем случае, похоже на зрение человека с близорукостью, видящего мелкие детали как размытые, а в худшем случае, на интеллектуального человека, который слеп и делает обоснованные предположения. Код доступен по ссылке: https://vlmsareblind.github.io/
Синтетические данные становятся все более важными для ускорения разработки языковых моделей, как крупных, так и небольших. Несмотря на несколько успешных примеров использования, исследователи также высказали опасения относительно коллапса модели и недостатков имитации других моделей. Это расхождение можно объяснить тем, что синтетические данные различаются по качеству и разнообразию. Эффективное использование синтетических данных обычно требует значительных усилий со стороны человека по курированию данных. Мы сосредотачиваемся на использовании синтетических данных для пост-тренировки, конкретно создании данных мощными моделями для обучения нового навыка или поведения другой модели, и называем эту ситуацию Генеративным Обучением. Мы представляем AgentInstruct, расширяемую агентную платформу для автоматического создания больших объемов разнообразных и высококачественных синтетических данных. AgentInstruct может создавать как подсказки, так и ответы, используя только исходные данные, такие как текстовые документы и файлы с кодом, в качестве исходных данных. Мы демонстрируем полезность AgentInstruct, создав пост-тренировочный набор данных из 25 миллионов пар для обучения языковых моделей различным навыкам, таким как редактирование текста, творческое письмо, использование инструментов, программирование, понимание прочитанного и т. д. Этот набор данных может быть использован для настройки инструкций любой базовой модели. Мы проводим пост-тренировку Mistral-7b с использованием этих данных. При сравнении полученной модели Orca-3 с Mistral-7b-Instruct (которая использует ту же базовую модель), мы наблюдаем значительные улучшения по многим критериям. Например, улучшение на 40% в AGIEval, на 19% в MMLU, на 54% в GSM8K, на 38% в BBH и на 45% в AlpacaEval. Кроме того, он последовательно превосходит другие модели, такие как LLAMA-8B-instruct и GPT-3.5-turbo.
Быстрое развитие крупных языковых моделей (LLM) проложило путь к разработке высококвалифицированных автономных агентов. Однако существующие мультиагентные фреймворки часто сталкиваются с проблемами интеграции разнообразных способных агентов третьих сторон из-за зависимости от агентов, определенных в их собственных экосистемах. Они также сталкиваются с трудностями в симуляции распределенных сред, поскольку большинство фреймворков ограничены одноустройственными настройками. Более того, эти фреймворки часто полагаются на зашитые в коде каналы связи, что ограничивает их приспособляемость к динамическим требованиям задач. Вдохновленные концепцией Интернета, мы предлагаем Интернет агентов (IoA), новый фреймворк, который решает эти ограничения, предоставляя гибкую и масштабируемую платформу для мультиагентного сотрудничества на основе LLM. IoA вводит протокол интеграции агентов, архитектуру, аналогичную мгновенным сообщениям, и динамические механизмы для формирования команд агентов и управления потоком беседы. Проведя обширные эксперименты на общих задачах помощника, задачах воплощенного искусственного интеллекта и бенчмарках по поиску с улучшенной генерацией, мы демонстрируем, что IoA последовательно превосходит современные базовые уровни, показывая его способность облегчать эффективное сотрудничество между гетерогенными агентами. IoA представляет собой шаг к объединению разнообразных агентов в среде, аналогичной Интернету, где агенты могут беспрепятственно сотрудничать для достижения более высокого интеллекта и возможностей. Наш код доступен по ссылке https://github.com/OpenBMB/IoA.
Производительность крупных моделей языка и зрения (LVLM) зависит от размера и качества обучающих наборов данных. Существующие наборы данных для настройки видеоинструкций имеют ограниченную разнообразие, так как они созданы путем подачи больших языковых моделей видеоподписей для генерации вопросно-ответных пар и, следовательно, в основном описательны. Тем временем существует множество размеченных видеонаборов данных с разнообразными метками и надзором, однако мы обнаружили, что их интеграция в LVLM является нетривиальной. В данной работе мы представляем Video Self-Training с увеличенным рассуждением (Video-STaR), первый подход к самообучению на видео. Video-STaR позволяет использовать любой размеченный видеонабор данных для настройки видеоинструкций. В Video-STaR LVLM переключается между генерацией инструкций и донастройкой, что, как мы показываем, (I) улучшает общее понимание видео и (II) адаптирует LVLM для новых последующих задач с существующим надзором. Во время генерации LVLM подталкивается предложить ответ. Затем ответы фильтруются только те, которые содержат исходные видеометки, и затем LVLM переобучается на сгенерированном наборе данных. Обучаясь только на сгенерированных ответах, содержащих правильные видеометки, Video-STaR использует эти существующие видеометки в качестве слабого надзора для настройки видеоинструкций. Наши результаты демонстрируют, что улучшенные с помощью Video-STaR LVLM проявляют улучшенную производительность в (I) общем видео QA, где производительность TempCompass улучшилась на 10%, и (II) на последующих задачах, где Video-STaR улучшил точность Kinetics700-QA на 20% и оценку качества действий на FineDiving на 15%.
Мы представляем RodinHD, способный генерировать трехмерные аватары высокой точности из изображения портрета. Существующие методы не могут передать сложные детали, такие как прически, с чем мы справляемся в данной статье. Сначала мы выявляем недооцененную проблему катастрофического забывания, возникающую при последовательном подгоне трипланов к множеству аватар, вызванную схемой общего использования декодера MLP. Для преодоления этой проблемы мы предлагаем новую стратегию планирования данных и регуляризацию консолидации весов, которая улучшает способность декодера создавать более четкие детали. Кроме того, мы оптимизируем направляющий эффект изображения портрета, вычисляя более детализированное иерархическое представление, захватывающее богатые текстурные подсказки 2D, и внедряем их в 3D модель диффузии на нескольких уровнях с помощью кросс-внимания. Обученная на 46 тыс. аватарах с оптимизированным графиком шума для трипланов, полученная модель способна генерировать трехмерные аватары с значительно лучшими деталями, чем предыдущие методы, и может обобщаться на портретный вход в естественной среде.
Обучение больших языковых моделей (LLM) на языках с ограниченными ресурсами, таких как иврит, представляет уникальные вызовы. В данной статье мы представляем DictaLM2.0 и DictaLM2.0-Instruct, две LLM, производные от модели Mistral, обученные на значительном корпусе примерно 200 миллиардов токенов как на иврите, так и на английском языке. Адаптация предварительно обученной модели к новому языку включает специализированные техники, значительно отличающиеся от обучения модели с нуля или дополнительного обучения существующих моделей на языках с хорошими ресурсами, таких как английский. Мы излагаем эти новаторские методики обучения, которые облегчают эффективное обучение и адаптацию к лингвистическим особенностям иврита. Кроме того, мы донастраиваем DictaLM2.0-Instruct на обширном наборе данных для инструкций, чтобы улучшить его производительность на задачах с конкретными инструкциями. Для строгой оценки наших моделей мы представляем новый набор тестов для оценки ивритских LLM, охватывающий разнообразный набор задач, включая вопросно-ответные системы, анализ тональности, задачу Винограда, перевод и реферирование. Наша работа не только рассматривает тонкости обучения LLM на языках с ограниченными ресурсами, но также предлагает фреймворк, который можно использовать для адаптации других LLM на различные неанглийские языки, внося свой вклад в область многоязычной обработки естественного языка.
Высокая интенсивность движения и длительные последовательные видеоролики Соры значительно повлияли на область генерации видео, привлекая беспрецедентное внимание. Однако существующие общедоступные наборы данных недостаточны для создания видеороликов в стиле Соры, поскольку они в основном содержат короткие видео с низкой интенсивностью движения и краткими подписями. Для решения этих проблем мы предлагаем MiraData - высококачественный набор данных видео, который превосходит предыдущие по длительности видео, детализации подписей, силе движения и визуальному качеству. Мы составляем MiraData из разнообразных, вручную отобранных источников и тщательно обрабатываем данные, чтобы получить семантически согласованные фрагменты. Мы используем GPT-4V для аннотирования структурированных подписей, предоставляя подробные описания с четырех различных перспектив, а также краткую плотную подпись. Для более точной оценки временной согласованности и интенсивности движения в генерации видео мы представляем MiraBench, который улучшает существующие бенчмарки путем добавления метрик 3D согласованности и силы движения на основе трекинга. MiraBench включает 150 оценочных запросов и 17 метрик, охватывающих временную согласованность, силу движения, 3D согласованность, визуальное качество, соответствие текста и видео, а также сходство распределения. Чтобы продемонстрировать полезность и эффективность MiraData, мы проводим эксперименты с использованием нашей модели генерации видео на основе DiT - MiraDiT. Экспериментальные результаты на MiraBench демонстрируют превосходство MiraData, особенно в силе движения.
Мы представляем BM25S, эффективную реализацию BM25 на Python, которая зависит только от библиотек Numpy и Scipy. BM25S достигает ускорения до 500 раз по сравнению с самым популярным фреймворком на Python за счет предварительного вычисления оценок BM25 во время индексации и сохранения их в разреженные матрицы. Он также достигает значительного ускорения по сравнению с высокооптимизированными реализациями на Java, которые используются в популярных коммерческих продуктах. Наконец, BM25S воспроизводит точную реализацию пяти вариантов BM25 на основе работы Камфуиса и др. (2020), расширяя предварительное вычисление оценок на не разреженные варианты с использованием нового метода сдвига оценок. Код можно найти по ссылке https://github.com/xhluca/bm25s
При запросе на краткое изложение статей или ответа на вопросы по заданному тексту большие языковые модели (LLM) могут выдумывать детали и отвечать необоснованными ответами, которые не соответствуют контексту ввода. В данной статье описывается простой подход к обнаружению таких контекстуальных галлюцинаций. Мы предполагаем, что контекстуальные галлюцинации связаны с тем, насколько LLM обращает внимание на информацию в предоставленном контексте по сравнению с собственными генерациями. Исходя из этого предположения, мы предлагаем простую модель обнаружения галлюцинаций, входные признаки которой представлены отношением весов внимания к контексту по сравнению с новыми сгенерированными токенами (для каждой головы внимания). Мы обнаружили, что линейный классификатор на основе этих признаков соотношения внимания так же эффективен, как более сложный детектор, использующий все скрытые состояния LLM или модель утверждения на основе текста. Детектор на основе соотношения взгляда назад - Lookback Lens - показал способность к передаче между задачами и даже моделями, позволяя применить детектор, обученный на модели 7B, к более крупной модели 13B без повторного обучения. Мы также применили этот детектор для смягчения контекстуальных галлюцинаций и обнаружили, что простой подход декодирования с помощью классификатора способен уменьшить количество галлюцинаций, например, на 9,6% в задаче суммирования XSum.
Доказательство математических теорем с использованием компьютерно-проверяемых формальных языков, таких как Lean, значительно влияет на математическое мышление. Один из подходов к формальному доказательству теорем заключается в создании полных доказательств с использованием больших языковых моделей (LLM) на основе естественного языка (NL). Подобные методы показали многообещающие результаты в генерации кода. Однако большинство современных LLM проявляют неоптимальную производительность из-за недостатка выровненных данных для доказательства теорем на естественном языке (NL) и формальном языке (FL). Этот дефицит приводит к отсутствию методологий для обучения LLM и техник для полного использования их возможностей в составлении формальных доказательств. Для решения этих проблем, в данной статье предлагается **TheoremLlama**, комплексная система для обучения общего LLM стать экспертом Lean4. Эта система включает методы генерации набора данных, выровненных по NL и FL, подходы к обучению формального доказателя теорем на основе LLM и техники написания доказательств Lean4 с помощью LLM. С использованием метода генерации набора данных мы предоставляем *Open Bootstrapped Theorems* (OBT), набор данных, выровненный по NL и FL, а также проинициализированный. Ключевым новшеством в этой системе является метод инициализации NL-FL, где доказательства на естественном языке интегрируются в код Lean4 для обучения наборов данных, используя способности LLM к рассуждению на естественном языке для формального рассуждения. Система **TheoremLlama** достигает накопленной точности 36,48% и 33,61% соответственно на наборах данных MiniF2F-Valid и Test, превосходя базовый уровень GPT-4 в 22,95% и 25,41%. Мы также опубликовали наши контрольные точки модели и созданный набор данных с открытым исходным кодом и вскоре сделаем весь код общедоступным.
Предварительно обученные модели создают сильные общие представления, которые могут быть адаптированы путем донастройки. Разница в весах, выученная относительно предварительно обученной модели, известная как вектор задачи, характеризует направление и шаг донастройки. Значимость векторов задач такова, что простые арифметические операции над ними могут быть использованы для объединения разнообразных представлений из различных областей. В данной статье основываются на этих свойствах векторов задач и стремятся ответить на (1) вопрос, демонстрируют ли компоненты векторов задач, в частности, блоки параметров, сходные характеристики, и (2) как такие блоки могут быть использованы для улучшения композиции знаний и передачи. В этом контексте мы представляем aTLAS, алгоритм, который линейно комбинирует блоки параметров с различными выученными коэффициентами, что приводит к анизотропному масштабированию на уровне вектора задачи. Мы показываем, что такие линейные комбинации явно используют низкую внутреннюю размерность предварительно обученных моделей, при этом лишь несколько коэффициентов являются обучаемыми параметрами. Кроме того, композиция блоков параметров использует уже выученные представления, тем самым уменьшая зависимость от больших объемов данных. Мы демонстрируем эффективность нашего метода в задачах арифметики, распознавания с малым числом обучающих примеров и адаптации во время тестирования, с надзорными или безнадзорными целями. В частности, мы показываем, что (1) выученное анизотропное масштабирование позволяет векторам задач быть более дезентанглированными, вызывая меньшее взаимное влияние в композиции; (2) композиция векторов задач превосходит с недостаточными или без меток данных и менее подвержена сдвигу области, что приводит к лучшей обобщаемости; (3) смешивание наиболее информативных блоков параметров между различными векторами задач перед обучением может уменьшить объем памяти и улучшить гибкость передачи знаний. Более того, мы показываем потенциал aTLAS как метода PEFT, особенно с меньшим объемом данных, и демонстрируем его масштабируемость.
Люди описывают сложные сцены с использованием композициональности, используя простые текстовые описания, обогащенные ссылками и отношениями. В то время как исследования в области визуально-языкового взаимодействия направлены на разработку моделей с композициональными способностями понимания, это пока не находит отражения в существующих наборах данных, которые, в основном, все еще используют простой текст для описания изображений. В данной работе мы предлагаем новую стратегию аннотирования, основанную на графах (Graph-Based Captioning, GBC), которая описывает изображение с использованием помеченной графовой структуры с узлами различных типов. Узлы в GBC создаются с использованием, на первом этапе, инструментов обнаружения объектов и плотного описания, вложенных рекурсивно для выявления и описания узлов сущностей, которые затем, на втором этапе, связываются друг с другом, выделяя, с использованием новых типов узлов, композиции и отношения между сущностями. Поскольку все узлы GBC содержат простые текстовые описания, GBC сохраняет гибкость, присущую естественному языку, но также может кодировать иерархическую информацию в своих ребрах. Мы демонстрируем, что GBC может быть создан автоматически с использованием готовых мультимодальных LLM и моделей обнаружения с открытым словарем, создав новый набор данных, GBC10M, собрав аннотации GBC для около 10 миллионов изображений набора данных CC12M. Мы используем GBC10M для демонстрации богатства текстовых описаний узлов, выявленных GBC, измеренных с использованием обучения CLIP. Мы показываем, что использование аннотаций узлов GBC, особенно тех, хранящихся в узлах композиции и отношений, приводит к значительному улучшению производительности на последующих моделях по сравнению с другими форматами наборов данных. Для дальнейшего изучения возможностей, предоставляемых GBC, мы также предлагаем новый механизм внимания, который может использовать весь граф GBC, с обнадеживающими экспериментальными результатами, показывающими дополнительные преимущества включения графовой структуры. Наши наборы данных доступны по ссылке https://huggingface.co/graph-based-captions.
Существующие модели преобразования текста в видео полагаются исключительно на кодировщики только текста для их предварительного обучения. Это ограничение обусловлено отсутствием масштабных мультимодальных наборов данных видео-подсказок, что приводит к отсутствию визуальной привязки и ограничивает их универсальность и применение в мультимодальной интеграции. Для решения этой проблемы мы создаем масштабный мультимодальный набор данных видео-подсказок, используя методы извлечения для сопоставления примеров в контексте с данными текстовыми подсказками, а затем применяем двухэтапную стратегию обучения для обеспечения разнообразных задач генерации видео в рамках одной модели. На первом этапе мы предлагаем мультимодальную условную модель генерации видео для предварительного обучения на этих расширенных наборах данных, устанавливая основополагающую модель для генерации видео с визуальной привязкой. Во-вторых, мы донастраиваем модель с первого этапа на трех задачах генерации видео, включая мультимодальные инструкции. Этот процесс дополнительно улучшает способность модели обрабатывать разнообразные входные данные и задачи, обеспечивая беспрепятственную интеграцию мультимодальной информации. После этого двухэтапного процесса обучения VIMI демонстрирует возможности мультимодального понимания, создавая контекстно насыщенные и персонализированные видео, основанные на предоставленных входных данных, как показано на рисунке 1. По сравнению с предыдущими методами генерации видео с визуальной привязкой, VIMI способен синтезировать последовательные и временно согласованные видео с большим движением, сохраняя семантический контроль. Наконец, VIMI также достигает лучших результатов генерации текста в видео на бенчмарке UCF101.
Большие языковые модели (LLM) часто проявляют нежелательные поведенческие черты, такие как галлюцинации и повторы последовательностей. Мы предлагаем рассматривать эти черты как запасные варианты, которые модели проявляют в условиях неопределенности, и исследуем связь между ними. Мы классифицируем запасные варианты - повторы последовательностей, деградированный текст и галлюцинации - и подробно анализируем их в моделях из одной семьи, отличающихся количеством токенов предварительного обучения, количеством параметров или включением обучения по инструкциям. Наши эксперименты показывают четкую и последовательную упорядоченность запасных вариантов по всем этим осям: чем более продвинута LLM (т.е. обучена на большем количестве токенов, имеет больше параметров или настроена на инструкции), тем ее запасное поведение сдвигается от повторов последовательностей к деградированному тексту, а затем к галлюцинациям. Более того, тот же порядок наблюдается в течение одного поколения, даже для лучших моделей; с увеличением неопределенности модели переходят от генерации галлюцинаций к производству деградированного текста, а затем к повторам последовательностей. Наконец, мы демонстрируем, что хотя общие методы декодирования, такие как случайная выборка, могут уменьшить некоторые нежелательные черты, такие как повторы последовательностей, они увеличивают более сложные для обнаружения галлюцинации.
Большие языковые модели (LLM) недавно стали ведущим источником ответов на вопросы пользователей в Интернете. Несмотря на их способность предлагать грамотные ответы, их точность и надежность могут представлять существенные трудности. Это особенно верно для чувствительных областей, таких как биомедицина, где есть повышенная потребность в фактически верных ответах. В данной статье представлена система биомедицинского поиска с улучшенной генерацией (RAG), разработанная для повышения надежности сгенерированных ответов. Система основана на тонкой настройке LLM для вопросно-ответного поиска, где извлеченные соответствующие аннотации из PubMed передаются в контекст LLM в качестве входных данных через подсказку. Ее вывод представляет собой ответ на основе аннотаций PubMed, где каждое утверждение снабжено ссылкой, позволяя пользователям проверить ответ. Наша система поиска достигает абсолютного улучшения на 23% по сравнению с поисковым движком PubMed. На основе ручной оценки на небольшой выборке наш компонент тонкой настройки LLM достигает сравнимых результатов с GPT-4 Turbo в ссылке на соответствующие аннотации. Мы делаем набор данных, использованный для тонкой настройки моделей, и тонко настроенные модели на основе Mistral-7B-instruct-v0.1 и v0.2 общедоступными.
Недавние достижения в области языкового моделирования показали многообещающие результаты при применении к данным временных рядов. В частности, настройка заранее обученных крупных языковых моделей (LLM) для задач классификации временных рядов достигла уровня передовых достижений (SOTA) на стандартных бенчмарках. Однако эти модели на основе LLM имеют существенный недостаток из-за большого размера модели, с миллионами обучаемых параметров. В данной статье мы предлагаем альтернативный подход к использованию успеха языкового моделирования в области временных рядов. Вместо настройки LLM мы используем языковую модель встраивания для встраивания временных рядов, а затем сочетаем встраивания с простым классификационным блоком, состоящим из сверточных нейронных сетей (CNN) и многослойного персептрона (MLP). Мы провели обширные эксперименты на хорошо известных наборах данных для классификации временных рядов. Мы продемонстрировали, что LETS-C не только превосходит текущий SOTA по точности классификации, но также предлагает легкое решение, используя в среднем лишь 14,5% обучаемых параметров по сравнению с моделью SOTA. Наши результаты показывают, что использование языковых кодировщиков для встраивания данных временных рядов, в сочетании с простым, но эффективным классификационным блоком, предлагает многообещающее направление для достижения высокой производительности классификации временных рядов при сохранении легкой архитектуры модели.