Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Cambrian-1, семейство мультимодальных языковых моделей (MLLMs), разработанных с учетом визионерного подхода. Хотя более мощные языковые модели могут улучшить мультимодальные возможности, выбор дизайна для компонентов зрения часто недостаточно исследован и оторван от исследований обучения визуального представления. Этот разрыв затрудняет точное сопоставление сенсорных данных в реальных сценариях. Наше исследование использует LLMs и настройку визуальных инструкций в качестве интерфейса для оценки различных визуальных представлений, предлагая новые идеи по различным моделям и архитектурам - на основе экспериментов с более чем 20 кодировщиками зрения. Мы критически рассматриваем существующие бенчмарки MLLM, решая трудности, связанные с объединением и интерпретацией результатов из различных задач, и представляем новый визионерный бенчмарк, CV-Bench. Для дальнейшего улучшения визуального сопоставления мы предлагаем Пространственный Визионерный Агрегатор (SVA), динамический и пространственно осознающий коннектор, который интегрирует высокоразрешенные визионерные характеристики с LLMs, сокращая количество токенов. Кроме того, мы обсуждаем курирование высококачественных данных настройки визуальных инструкций из общедоступных источников, подчеркивая важность балансировки и распределения данных. В целом, Cambrian-1 не только достигает передовой производительности, но и служит всесторонним, открытым справочником для настроенных по инструкции MLLMs. Мы предоставляем веса модели, код, вспомогательные инструменты, наборы данных и подробные инструкции по настройке и оценке. Мы надеемся, что наш выпуск вдохновит и ускорит прогресс в мультимодальных системах и обучении визуальному представлению.
Персонализированная генерация изображений обладает большим потенциалом для помощи людям в повседневной работе и жизни благодаря ее впечатляющей функции творческого создания персонализированного контента. Однако текущие оценки либо автоматизированы, но не соответствуют людям, либо требуют оценки людьми, что занимает много времени и денег. В данной работе мы представляем DreamBench++, бенчмарк, выровненный по человеку, автоматизированный с помощью передовых мультимодальных моделей GPT. Конкретно, мы систематически разрабатываем подсказки, чтобы GPT был как выровнен по человеку, так и сам по себе, усиленный задачей обратной связи. Кроме того, мы создаем обширный набор данных, включающий разнообразные изображения и подсказки. Проведя сравнительный анализ 7 современных генеративных моделей, мы демонстрируем, что DreamBench++ приводит к значительно более выровненной по человеку оценке, способствуя развитию сообщества через инновационные результаты.
Автоматизированная инженерия программного обеспечения была значительно усилена недавними достижениями в области больших языковых моделей (LLM) для программирования. Хотя текущие бенчмарки показали, что LLM могут выполнять различные задачи по инженерии программного обеспечения, подобно человеческим разработчикам, большинство их оценок ограничены короткими и самодостаточными алгоритмическими задачами. Решение сложных и практических программных задач требует возможности использования разнообразных вызовов функций в качестве инструментов для эффективной реализации функциональностей, таких как анализ данных и веб-разработка. Кроме того, использование нескольких инструментов для решения задачи требует композиционного мышления при точном понимании сложных инструкций. Сочетание этих характеристик может представлять собой большое испытание для LLM. Для оценки способности LLM решать сложные и практические программные задачи мы представляем Bench, бенчмарк, который ставит перед LLM задачу вызова нескольких вызовов функций в качестве инструментов из 139 библиотек и 7 областей для 1,140 тонких программных задач. Для тщательной оценки LLM каждая программная задача включает 5.6 тестовых случаев с средним покрытием ветвей 99%. Кроме того, мы предлагаем вариант Bench, Benchi, ориентированный на естественный язык, который автоматически преобразует исходные документации в краткие инструкции только с основной информацией. Наше обширное исследование 60 LLM показывает, что LLM пока не способны точно следовать сложным инструкциям по использованию вызовов функций, с результатами до 60%, значительно ниже человеческой производительности 97%. Полученные результаты подчеркивают необходимость дальнейших достижений в этой области.
Модели извлечения часто оцениваются на частично аннотированных наборах данных. Каждый запрос сопоставляется с несколькими релевантными текстами, а оставшаяся корпусная коллекция считается несущественной. В результате модели, успешно извлекающие ложные отрицательные результаты, наказываются при оценке. К сожалению, полная аннотация всех текстов для каждого запроса не является ресурсоэффективной. В данной работе мы показываем, что использование частично аннотированных наборов данных при оценке может исказить картину. Мы создали D-MERIT, набор данных для оценки извлечения отрывков из Википедии, стремясь включить все релевантные отрывки для каждого запроса. Запросы описывают группу (например, "журналы о лингвистике"), а релевантные отрывки являются доказательством того, что сущности принадлежат к группе (например, отрывок, указывающий на то, что "Язык" - журнал о лингвистике). Мы показываем, что оценка на наборе данных, содержащем аннотации только для подмножества релевантных отрывков, может привести к вводящему в заблуждение ранжированию систем извлечения и что с увеличением количества релевантных текстов в наборе оценки ранжировки сходятся. Мы предлагаем наш набор данных в качестве ресурса для оценки и наше исследование в качестве рекомендации по балансу между ресурсоэффективностью и надежной оценкой при аннотировании наборов данных для извлечения текста.
Видеоряды предоставляют ценную временную информацию, но существующие крупные мультимодальные модели (LMM) не справляются с пониманием чрезвычайно длинных видео. Многие работы решают эту проблему, уменьшая количество визуальных токенов с помощью визуальных ресэмплеров. В данной статье мы подходим к этой проблеме с точки зрения языковой модели. Просто экстраполируя длину контекста языкового основания, мы позволяем LMM понимать порядки большего количества визуальных токенов без какого-либо видеообучения. Мы называем это явление передачей длинного контекста и внимательно анализируем его свойства. Для эффективного измерения способности LMM обобщать на длинные контексты в модальности зрения мы разрабатываем V-NIAH (Visual Needle-In-A-Haystack), чисто синтетический длинный визуальный бенчмарк, вдохновленный тестом NIAH языковой модели. Наш предложенный Длинный Видеоассистент (LongVA) может обрабатывать 2000 кадров или более 200 тыс. визуальных токенов без дополнительных сложностей. Благодаря расширенной длине контекста LongVA достигает передовых результатов на Video-MME среди моделей масштаба 7 млрд, плотно выбирая больше входных кадров. Наша работа доступна в открытом доступе на https://github.com/EvolvingLMMs-Lab/LongVA.
Модели диффузии недавно достигли выдающихся результатов в генерации видео. Несмотря на обнадеживающие показатели, сгенерированные видеоролики обычно ограничены небольшим количеством кадров, что приводит к длительности клипов всего несколько секунд. Основные проблемы в создании более длинных видео включают значительные требования к памяти и увеличенное время обработки, необходимое для одного GPU. Простым решением было бы распределение нагрузки между несколькими GPU, что, однако, приводит к двум проблемам: (1) обеспечение эффективного взаимодействия всех GPU для обмена информацией о времени и контексте, и (2) модификация существующих моделей диффузии видео, обычно обученных на коротких последовательностях, для создания более длинных видео без дополнительного обучения. Для решения этих проблем в данной статье мы представляем Video-Infinity, распределенный конвейер вывода, который позволяет параллельную обработку на нескольких GPU для генерации длинных видеоформатов. Конкретно, мы предлагаем два согласованных механизма: параллелизм клипов и двойное внимание. Параллелизм клипов оптимизирует сбор и обмен контекстной информацией между GPU, что минимизирует накладные расходы на связь, в то время как двойное внимание модулирует временное самовнимание для эффективного балансирования локальных и глобальных контекстов на устройствах. Вместе эти два механизма объединяют усилия для распределения нагрузки и обеспечивают быструю генерацию длинных видео. При настройке на 8 x Nvidia 6000 Ada GPU (48G) наш метод генерирует видео длиной до 2 300 кадров примерно за 5 минут, обеспечивая генерацию длинных видео со скоростью в 100 раз выше, чем у предыдущих методов.
Недавние достижения в области мультимодальных крупных языковых моделей (MLLM) расширили их возможности до понимания видео. Тем не менее, эти модели часто страдают от "галлюцинаций", когда генерируется несвязанное или бессмысленное содержание, отклоняющееся от фактического контекста видео. В данной работе представлен VideoHallucer, первый всесторонний бенчмарк для обнаружения галлюцинаций в крупных видео-языковых моделях (LVLM). VideoHallucer классифицирует галлюцинации на два основных типа: внутренние и внешние, предлагая дополнительные подкатегории для детального анализа, включая объектно-относительные, временные, семантические детали, внешние фактические и внешние неверные галлюцинации. Мы применяем адверсариальный бинарный метод VideoQA для всесторонней оценки, где стратегически создаются пары базовых и галлюцинированных вопросов. Оценив одиннадцать LVLM на VideoHallucer, мы выявляем, что i) большинство текущих моделей имеют значительные проблемы с галлюцинациями; ii) хотя масштабирование наборов данных и параметров улучшает способность моделей обнаруживать базовые визуальные подсказки и контрфактические утверждения, это приносит ограниченную пользу для обнаружения внешних фактических галлюцинаций; iii) существующие модели более способны обнаруживать факты, чем идентифицировать галлюцинации. Как побочный результат, эти анализы дополнительно направляют развитие нашей структуры self-PEP, достигая в среднем улучшения устойчивости к галлюцинациям на 5,38% для всех архитектур моделей.
Обучение с подкреплением на основе обратной связи от человека (RLHF) выравнивает большие языковые модели (LLM), поощряя их генерации с высокими вознаграждениями с использованием модели вознаграждения, обученной на человеческих предпочтениях. Для предотвращения забывания предварительных знаний RLHF обычно включает регуляризацию KL; это заставляет политику оставаться близкой к своей надзорной тонкой настройке инициализации, хотя это затрудняет оптимизацию вознаграждения. Чтобы решить компромисс между KL и вознаграждением, в данной статье мы представляем новую стратегию выравнивания под названием Weight Averaged Rewarded Policies (WARP). WARP объединяет политики в пространстве весов на трех различных этапах. Во-первых, он использует экспоненциальное скользящее среднее политики в качестве динамической якорной точки в регуляризации KL. Во-вторых, он применяет сферическую интерполяцию для слияния независимо настроенных политик в новую улучшенную. В-третьих, он линейно интерполирует между этой объединенной моделью и инициализацией, чтобы восстановить функции из предварительного обучения. Эта процедура затем применяется итеративно, причем окончательная модель каждой итерации используется в качестве продвинутой инициализации для следующей, постепенно уточняя фронт КЛ-вознаграждения, достигая превосходных вознаграждений при фиксированном KL. Эксперименты с политиками GEMMA подтверждают, что WARP улучшает их качество и выравнивание, превосходя другие LLM с открытым исходным кодом.
Интерес к моделям с линейной сложностью для больших языковых моделей растет, хотя их способность к масштабированию остается неопределенной. В данном исследовании мы представляем законы масштабирования для языковых моделей с линейной сложностью, чтобы установить основу для их масштабируемости. Конкретно, мы изучаем поведение масштабирования трех эффективных линейных архитектур. Среди них TNL, линейная модель внимания с декрементом, не зависящим от данных; HGRN2, линейная RNN с декрементом, зависящим от данных; и cosFormer2, линейная модель внимания без декремента. Мы также включаем LLaMA в качестве базовой архитектуры для мягкого внимания softmax для сравнения. Эти модели обучались шестью вариантами, варьирующимися от 70 миллионов до 7 миллиардов параметров на корпусе из 300 миллиардов токенов и оценивались с общим числом 1,376 промежуточных контрольных точек на различных задачах. Эти задачи включают потери валидации, рассуждения на здравый смысл и информационный поиск и генерацию. Исследование показывает, что существующие языковые модели с линейной сложностью обладают аналогичными возможностями масштабирования, как и традиционные модели на основе трансформеров, продемонстрировав при этом более высокую лингвистическую компетентность и удержание знаний.
Большие языковые модели (LLM) революционизировали обработку естественного языка и расширили свою применимость в различных коммерческих приложениях. Однако развертывание этих моделей ограничено высоким временем вывода в мультиязычных средах. Для преодоления этого вызова в данной статье исследуется метод обучения вспомогательной модели при спекулятивном декодировании, которое используется для составления черновика, а затем его будущие токены проверяются целевой LLM. Мы показываем, что языковые черновые модели, оптимизированные с помощью целевой стратегии предварительного обучения и донастройки, значительно ускоряют время вывода по сравнению с предыдущими методами. Мы проверяем эти модели на различных языках по времени вывода, ускорению вне области и оценке GPT-4o.
Продолжительное предварительное обучение все более становится основным подходом для адаптации крупных языковых моделей (КЯМ) к новым областям. Этот процесс включает в себя обновление предварительно обученной КЯМ корпусом из новой области, что приводит к изменению распределения обучения. Для изучения поведения КЯМ во время этого изменения мы измерили производительность модели на протяжении процесса продолжительного предварительного обучения. Мы обнаружили временное снижение производительности в начале, за которым последовала фаза восстановления, феномен, известный как "разрыв стабильности", ранее отмеченный в моделях зрения, классифицирующих новые классы. Для решения этой проблемы и улучшения производительности КЯМ в рамках фиксированного вычислительного бюджета мы предлагаем три эффективные стратегии: (1) Постоянное предварительное обучение КЯМ на подмножестве правильного размера в течение нескольких эпох, что приводит к более быстрому восстановлению производительности, чем предварительное обучение КЯМ на большом корпусе за одну эпоху; (2) Предварительное обучение КЯМ только на высококачественном подкорпусе, что быстро повышает производительность в области; и (3) Использование смеси данных, аналогичной данным предварительного обучения, для уменьшения разрыва в распределении. Мы проводим различные эксперименты на моделях семейства Llama для подтверждения эффективности наших стратегий как в медицинском продолжительном предварительном обучении, так и в настройке инструкций. Например, наши стратегии улучшают среднюю производительность медицинской задачи модели OpenLlama-3B с 36,2% до 40,7% всего с 40% от изначального бюджета обучения и улучшают среднюю общую производительность задач без вызывания забывания. Более того, мы применяем наши стратегии к модели Llama-3-8B. Полученная модель, Llama-3-Physician, достигает лучшей медицинской производительности среди текущих моделей с открытым исходным кодом и выполняет сравнимо или даже лучше, чем GPT-4, на нескольких медицинских бенчмарках. Мы выпускаем наши модели на сайте https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
Эффективное обработка длинных последовательностей в авторегрессионных трансформерах, особенно в рамках расширенного окна контекста, представляет существенные трудности из-за квадратичной вычислительной сложности и значительных требований к памяти KV, присущих механизмам самовнимания. В данной работе мы представляем SPARSEK Attention, новый разреженный механизм внимания, разработанный для преодоления этих вычислительных и памятных препятствий при сохранении производительности. Наш подход интегрирует сеть оценки и дифференцируемый оператор маскирования top-k, SPARSEK, для выбора постоянного числа пар KV для каждого запроса, тем самым обеспечивая оптимизацию на основе градиентов. В результате SPARSEK Attention предлагает линейную временную сложность и постоянный объем памяти во время генерации. Экспериментальные результаты показывают, что SPARSEK Attention превосходит предыдущие разреженные методы внимания и обеспечивает значительное увеличение скорости как во время обучения, так и вывода, особенно в языковом моделировании и задачах на уровне приложений. Более того, наш метод может быть легко интегрирован в предварительно обученные Большие Языковые Модели (LLM) с минимальной донастройкой, предлагая практическое решение для эффективного управления дальнодействующими зависимостями в различных приложениях.
Мы предлагаем семантические зонды энтропии (SEPs) - дешевый и надежный метод для количественной оценки неопределенности в больших языковых моделях (LLMs). Галлюцинации, которые звучат правдоподобно, но фактически неверны и произвольны, представляют собой основное препятствие для практического применения LLMs. Недавние исследования Фарквара и др. (2024) предлагают семантическую энтропию (SE), которая может обнаруживать галлюцинации, оценивая неопределенность в пространстве семантического значения для набора модельных генераций. Однако увеличение в 5-10 раз стоимости вычислений, связанное с вычислением SE, затрудняет практическое применение. Для решения этой проблемы мы предлагаем SEPs, которые напрямую приближают SE из скрытых состояний одной генерации. SEPs просты в обучении и не требуют выборки нескольких модельных генераций во время тестирования, снижая издержки на количественную оценку семантической неопределенности практически до нуля. Мы показываем, что SEPs сохраняют высокую производительность в обнаружении галлюцинаций и лучше обобщаются на данные вне распределения, чем предыдущие методы зондирования, которые напрямую предсказывают точность модели. Наши результаты по моделям и задачам подтверждают, что скрытые состояния модели улавливают SE, и наши исследования абляции дают дополнительные идеи о позициях токенов и слоях модели, для которых это имеет место.
Поскольку большие языковые модели (LLM) все более проникают в повседневную жизнь, возрастает потребность в интерактивности в реальном времени, которая была бы похожа на человеческие разговоры. Традиционные чат-системы с поочередным обменом сообщениями, управляемые LLM, не позволяют пользователям взаимодействовать устно с системой во время генерации ответов. Для преодоления этих ограничений мы адаптируем существующие LLM к дуплексным моделям, чтобы эти LLM могли слушать пользователей во время генерации вывода и динамически корректировать себя для предоставления пользователям мгновенной обратной связи, например, в ответ на прерывания. Конкретно, мы делим запросы и ответы разговоров на несколько временных срезов, а затем применяем стратегию кодирования-декодирования с временным мультиплексированием (TDM) для псевдо-одновременной обработки этих срезов. Кроме того, чтобы сделать LLM достаточно квалифицированными для обработки разговоров в реальном времени, мы создаем набор данных для донастройки, состоящий из чередующихся временных срезов запросов и ответов, а также охватывающий типичные виды обратной связи в мгновенных взаимодействиях. Наши эксперименты показывают, что хотя запросы и ответы разговоров разбиваются на неполные срезы для обработки, LLM могут сохранить свою исходную производительность на стандартных бенчмарках с несколькими шагами донастройки нашего набора данных. Автоматическая и человеческая оценка показывают, что дуплексные модели делают взаимодействие пользователя с искусственным интеллектом более естественным и похожим на человеческое, и значительно повышают удовлетворенность пользователя по сравнению с обычными LLM. Нашу дуплексную модель и набор данных будут опубликованы.
Детоксикация многоязычных моделей больших языковых объемов (LLM) стала крайне важной из-за их все более широкого мирового использования. В данной работе мы исследуем перекрестную обобщаемость настройки предпочтений в детоксикации LLM методом нулевой настройки межъязыковой. В отличие от предыдущих исследований, которые показывают ограниченную перекрестную обобщаемость для других задач безопасности, мы демонстрируем, что обучение прямой оптимизации предпочтений (DPO) только на английских данных может значительно снизить токсичность в многоязычных открытых генерациях. Например, вероятность того, что mGPT-1.3B сгенерирует токсичные продолжения, снижается с 46,8% до 3,9% на 17 различных языках после обучения. Наши результаты также распространяются на другие многоязычные LLM, такие как BLOOM, Llama3 и Aya-23. Используя механистические инструменты интерпретации, такие как причинное вмешательство и анализ активации, мы выявили двойственное многоязычное свойство слоев MLP в LLM, что объясняет перекрестную обобщаемость DPO. Наконец, мы показываем, что двуязычное извлечение предложений может предсказать переносимость через языковые границы настройки предпочтений DPO.
Хотя большие языковые модели (Large Language Models, LLM) становятся все более мощными, они все еще проявляют значительные, но тонкие слабости, такие как ошибки в выполнении инструкций или задачах по кодированию. Поскольку эти непредвиденные ошибки могут привести к серьезным последствиям при практическом применении, крайне важно систематически исследовать ограничения в LLM. Традиционные подходы к оценке производительности не могут полностью выявить конкретные недостатки модели, в то время как ручные проверки затратны и не масштабируются. В данной статье мы представляем унифицированную структуру, AutoDetect, для автоматического выявления слабостей в LLM на различных задачах. Вдохновленный процессом образовательной оценки, который измеряет результаты обучения студентов, AutoDetect состоит из трех агентов на базе LLM: Экзаменатор, Опрашивающий и Оценщик. Сотрудничество между этими тремя агентами разработано для реализации всестороннего и глубокого выявления слабостей. Наша структура демонстрирует значительный успех в выявлении недостатков, с уровнем успешного выявления превышающим 30% в известных моделях, таких как ChatGPT и Claude. Более того, эти выявленные слабости могут направить на конкретные улучшения модели, доказывая большую эффективность по сравнению с методами нецелевого увеличения данных, такими как Self-Instruct. Наш подход привел к существенным улучшениям в популярных LLM, включая серии Llama и Mistral-7b, увеличивая их производительность на более чем 10% по нескольким показателям. Код и данные общедоступны на https://github.com/thu-coai/AutoDetect.
Несмотря на широкое использование, механизмы, с помощью которых большие языковые модели (LLM) представляют и регулируют неопределенность в прогнозах следующего токена, остаются в значительной степени неизученными. В данном исследовании исследуются два критических компонента, которые, как считается, влияют на эту неопределенность: недавно обнаруженные нейроны энтропии и новый набор компонентов, которые мы называем нейронами частоты токенов. Нейроны энтропии характеризуются необычайно высокой нормой веса и влияют на масштабирование окончательной нормализации слоя (LayerNorm), чтобы эффективно уменьшить логиты. Наша работа показывает, что нейроны энтропии действуют, записываясь на невстраиваемое нулевое пространство, что позволяет им воздействовать на норму остаточного потока с минимальным прямым воздействием на сами логиты. Мы наблюдаем присутствие нейронов энтропии в различных моделях, вплоть до 7 миллиардов параметров. С другой стороны, нейроны частоты токенов, которые мы обнаруживаем и описываем здесь впервые, увеличивают или подавляют логит каждого токена пропорционально его логарифмической частоте, тем самым сдвигая распределение вывода к или от униграммного распределения. Наконец, мы представляем подробное кейс-исследование, в котором нейроны энтропии активно управляют уверенностью в условиях индукции, то есть обнаружения и продолжения повторяющихся подпоследовательностей.
Что делает хорошую модель большого языка (LLM)? То, что она хорошо справляется с соответствующими эталонами - которые, надеемся, измеряют, с некоторой достоверностью, наличие способностей, которые также испытываются в реальном приложении. Но что делает модель хорошо справляющейся? Что дает модели ее способности? Мы берем недавно введенный тип эталонов, который предназначен для проверки способностей в контексте целеполагающего, агентивного взаимодействия через самостоятельную игру в разговорные игры, и анализируем, как развивается производительность в зависимости от характеристик модели, таких как количество параметров или тип обучения. Мы обнаруживаем, что хотя существует явная связь между количеством параметров и производительностью, все еще существует широкий разброс точек производительности в пределах заданного диапазона размеров, что должно быть объяснено параметрами обучения, такими как качество данных для настройки и метод. С более практической точки зрения, мы также обнаруживаем определенную степень непредсказуемости производительности при различных методах доступа, возможно, из-за неоткрытых параметров выборки, и, что очень важно, стабильность производительности по крайней мере при умеренной квантизации весов во время вывода.
Создание трехмерной одежды высокой точности из текста желательно, но вызывает определенные трудности при создании цифрового аватара. Недавние подходы на основе диффузии с использованием метода выборки по дистилляции оценок (Score Distillation Sampling, SDS) открывают новые возможности, но либо сложно связаны с человеческим телом, либо имеют проблемы с повторным использованием. Мы представляем ClotheDreamer, трехмерный метод на основе гауссовских функций для создания готовых к производству трехмерных одеждных элементов из текстовых подсказок. Мы предлагаем новое представление - Разделенное гауссовское наложение одежды (Disentangled Clothe Gaussian Splatting, DCGS) для возможности отдельной оптимизации. DCGS представляет одетого аватара как одну гауссовскую модель, но застывает гауссовские наложения тела. Для улучшения качества и полноты мы включаем двустороннюю выборку по дистилляции оценок для наблюдения за одетым аватаром и отрисовкой RGBD одежды соответственно с условиями позы, а также предлагаем новую стратегию обрезки свободной одежды. Наш подход также может поддерживать пользовательские шаблоны одежды в качестве входных данных. Благодаря нашему дизайну синтетическая трехмерная одежда легко применяется для виртуальной примерки и поддерживает физически точную анимацию. Обширные эксперименты демонстрируют превосходное и конкурентоспособное качество нашего метода. Нашу страницу проекта можно найти по адресу https://ggxxii.github.io/clothedreamer.
Большие языковые модели (LLM), даже когда специально обучены обрабатывать длинные контексты ввода, испытывают трудности с захватом актуальной информации, расположенной посередине их ввода. Это явление известно как проблема потерянного в середине. В данной работе мы вносим три вклада. Во-первых, мы стремимся понять факторы, вызывающие это явление. При этом мы устанавливаем связь между потерянным в середине и внутренним внимательным уклоном LLM: LLM демонстрируют уклон внимания в форме буквы U, где токены в начале и в конце его ввода получают более высокое внимание, независимо от их значимости. Во-вторых, мы смягчаем этот позиционный уклон через механизм калибровки, найденный посередине, который позволяет модели обращать внимание на контексты верно в соответствии с их значимостью, даже если они находятся посередине. В-третьих, мы показываем, что найденный посередине не только достигает лучшей производительности в поиске актуальной информации в длинном контексте, но также в конечном итоге приводит к улучшенной производительности в генерации с использованием аугментированного поиска (RAG) по различным задачам, превосходя существующие методы на до 15 процентных пунктов. Эти результаты открывают перспективы для понимания уклона внимания LLM и его потенциальных последствий.
Масштабируемое обучение роботов в реальном мире ограничено стоимостью и вопросами безопасности реальных роботов. Кроме того, развертывание траекторий роботов в реальном мире может быть длительным и трудоемким процессом. В данной статье мы предлагаем обучить интерактивный симулятор действий реального робота как альтернативу. Мы представляем новый метод, IRASim, который использует мощь генеративных моделей для создания крайне реалистичных видео роботической руки, выполняющей заданную траекторию действий, начиная с начального кадра. Для проверки эффективности нашего метода мы создаем новый бенчмарк, IRASim Benchmark, основанный на трех наборах данных реальных роботов, и проводим обширные эксперименты на данном бенчмарке. Результаты показывают, что IRASim превосходит все базовые методы и предпочтительнее в человеческих оценках. Мы надеемся, что IRASim может служить эффективным и масштабируемым подходом для улучшения обучения роботов в реальном мире. Для поощрения исследований по генеративным симуляторам действий реальных роботов мы предоставляем код с открытым исходным кодом, бенчмарк и контрольные точки на https://gen-irasim.github.io.
Понимание речи как элемент более общего понимания видео с использованием крупных языковых моделей на основе аудио-визуальных данных (av-LLM) является критически важным, но недостаточно изученным аспектом. В данной статье предлагается видео-SALMONN, единая энд-ту-энд av-LLM для обработки видео, способная понимать не только последовательности визуальных кадров, аудио-события и музыку, но и речь. Для получения детализированной временной информации, необходимой для понимания речи, сохраняя при этом эффективность для других элементов видео, в данной статье предлагается новая многоуровневая причинно-следственная структура Q-Former с множественным разрешением (MRC Q-Former) для соединения предварительно обученных аудио-визуальных кодировщиков и основной крупной языковой модели. Более того, предлагаются специализированные методы обучения, включая потерю разнообразия и схему смешанного обучения аудио-визуальных данных без пар, для избежания доминирования кадров или модальности. На представленной оценочной бенчмарк-системе речево-аудио-визуального восприятия видео-SALMONN достигает более чем на 25\% абсолютного улучшения точности в задаче видео-QA и более чем на 30\% абсолютного улучшения точности в задачах аудио-визуального QA с участием человеческой речи. Кроме того, видео-SALMONN демонстрирует выдающиеся способности по пониманию видео и логическому мышлению в задачах, которые не имеют аналогов среди других av-LLM. Наш код обучения и модельные точки доступны по ссылке \url{https://github.com/bytedance/SALMONN/}.
Несмотря на недавние достижения в области больших языковых моделей (Large Language Models, LLM), их производительность на задачах, требующих учета длинных контекстов, остается недостаточной. Обучение в контексте (In-Context Learning, ICL) с несколькими примерами обучения может быть привлекательным решением для улучшения производительности LLM в данной ситуации; Однако наивное добавление примеров ICL с длинным контекстом вносит вызовы, включая значительное увеличение токенов для каждого примера обучения и несоответствие контекста между демонстрациями и целевым запросом. В данной работе мы предлагаем автоматически генерировать несколько примеров обучения для задач вопрос-ответ с длинным контекстом путем повторного использования контекстов. Конкретно, учитывая длинный входной контекст (1-3 тыс. токенов) и запрос, мы генерируем дополнительные пары запрос-ответ из заданного контекста в качестве нескольких примеров обучения, при этом контекст вводится только один раз. Это обеспечивает использование демонстраций тем же контекстом, что и целевой запрос, при этом добавляется лишь небольшое количество токенов к подсказке. Мы дополнительно улучшаем каждую демонстрацию, указывая модели явно идентифицировать соответствующие абзацы перед ответом, что улучшает производительность, обеспечивая детальную атрибуцию источнику ответа. Мы применяем наш метод к нескольким LLM и получаем существенные улучшения (+23\% в среднем по моделям) на различных наборах данных вопрос-ответ с длинным контекстом, особенно когда ответ находится посреди контекста. Удивительно, несмотря на введение только однократных примеров ICL, LLM также успешно обобщаются на многократные вопросы-ответы с длинным контекстом с использованием нашего подхода.
Сэмплирование дистилляции скоринга имеет решающее значение для интеграции моделей диффузии в генерацию сложных визуальных данных. Несмотря на впечатляющие результаты, оно сталкивается с проблемой коллапса режима и недостатком разнообразия. Для преодоления этого вызова мы используем интерпретацию градиентного потока дистилляции скоринга для предложения Репульсивной Дистилляции Скоринга (RSD). В частности, мы предлагаем вариационную структуру на основе отталкивания ансамбля частиц, способствующую разнообразию. С использованием вариационного приближения, которое включает в себя взаимодействие между частицами, отталкивание проявляется как простая регуляризация, позволяющая взаимодействие частиц на основе их относительной парной схожести, измеряемой, например, с помощью радиальных базисных ядер. Мы разрабатываем RSD как для неконтролируемых, так и для контролируемых сценариев сэмплирования. Для контролируемого сэмплирования мы сосредотачиваемся на обратных задачах в пространстве латентных переменных, что приводит к расширенной вариационной формулировке, достигающей хорошего баланса между вычислительной сложностью, качеством и разнообразием. Наши обширные эксперименты по генерации текста в изображения и обратным задачам демонстрируют, что RSD достигает превосходного компромисса между разнообразием и качеством по сравнению с альтернативами последнего поколения.
В данном отчете мы ставим следующий вопрос: Какая модель искусственного интеллекта на сегодняшний день является наиболее интеллектуальной, измеренной по олимпийскому стандарту (OlympicArena - олимпийский, многодисциплинарный, мультимодальный бенчмарк для сверхинтеллектуального искусственного интеллекта)? Мы специально сосредотачиваемся на недавно выпущенных моделях: Claude-3.5-Sonnet, Gemini-1.5-Pro и GPT-4o. Впервые мы предлагаем использовать подход с использованием таблицы медалей Олимпиады для ранжирования моделей искусственного интеллекта на основе их комплексной производительности в различных дисциплинах. Эмпирические результаты показывают: (1) Claude-3.5-Sonnet демонстрирует высокую конкурентоспособность в общей производительности по сравнению с GPT-4o, превосходя GPT-4o в нескольких областях (таких как Физика, Химия и Биология). (2) Gemini-1.5-Pro и GPT-4V ранжируются последовательно сразу за GPT-4o и Claude-3.5-Sonnet, но между ними имеется явный разрыв в производительности. (3) Производительность моделей искусственного интеллекта из сообщества с открытым исходным кодом значительно отстает от этих закрытых моделей. (4) Производительность этих моделей на данном бенчмарке оставляет желать лучшего, указывая на то, что у нас еще долгий путь к достижению сверхинтеллекта. Мы остаемся преданными непрерывному отслеживанию и оценке производительности последних мощных моделей на данном бенчмарке (доступно на https://github.com/GAIR-NLP/OlympicArena).