Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в мультимодельных моделях подчеркивают ценность переписанных подписей для улучшения производительности, однако остаются ключевые проблемы. Например, хотя синтетические подписи часто обеспечивают более высокое качество и соответствие изображения и текста, неясно, могут ли они полностью заменить AltTexts: роль синтетических подписей и их взаимодействие с оригинальными AltTexts, полученными при обходе веб-страниц, в процессе предварительного обучения до сих пор плохо понимаются. Более того, различные модели мультимодальных основ имеют уникальные предпочтения к определенным форматам подписей, однако усилия по идентификации оптимальных подписей для каждой модели остаются ограниченными. В данной работе мы предлагаем новый, управляемый и масштабируемый конвейер подписей, разработанный для генерации разнообразных форматов подписей, адаптированных к различным моделям мультимодальности. Исследуя короткие синтетические подписи (SSC) в качестве кейс-стади и плотные синтетические подписи (DSC+) систематически исследуем их влияние и взаимодействие с AltTexts в различных моделях, таких как CLIP, мультимодальные LLM и модели диффузии. Наши результаты показывают, что гибридный подход, который сохраняет как синтетические подписи, так и AltTexts, может превзойти использование только синтетических подписей, улучшая как соответствие, так и производительность, причем каждая модель демонстрирует предпочтения к определенным форматам подписей. Этот всесторонний анализ предоставляет ценные идеи для оптимизации стратегий подписывания, тем самым продвигая предварительное обучение моделей мультимодальности.
Архитектура трансформера преобладает в различных моделях. В качестве сердца трансформера, внимание имеет вычислительную сложность O(N^2), по сравнению с O(N) для линейных преобразований. При работе с большими длинами последовательностей внимание становится основным компонентом, требующим времени. Хотя квантование доказало свою эффективность в ускорении вывода модели, существующие методы квантования в основном сосредоточены на оптимизации линейного слоя. В ответ на это мы первоначально анализируем возможность квантования внимания подробно. Затем мы предлагаем SageAttention - высокоэффективный и точный метод квантования для внимания. OPS (операции в секунду) нашего подхода превосходит FlashAttention2 и xformers примерно в 2,1 и 2,7 раза соответственно. SageAttention также достигает более высокой точности по сравнению с FlashAttention3. Обширные эксперименты подтверждают, что наш подход практически не приводит к потере метрик от начала до конца через различные модели, включая модели для обработки больших языков, генерации изображений и генерации видео.
Мы представляем базовую модель для оценки монокулярной глубины с нулевым шагом метрики. Наша модель, Depth Pro, синтезирует карты глубины высокого разрешения с непревзойденной четкостью и высокочастотными деталями. Прогнозы являются метрическими, с абсолютным масштабом, не зависят от наличия метаданных, таких как внутренние параметры камеры. Модель быстрая, создает карту глубины разрешением 2,25 мегапикселя за 0,3 секунды на стандартном GPU. Эти характеристики обеспечиваются рядом технических вкладов, включая эффективный мультимасштабный видео-трансформер для плотного прогнозирования, протокол обучения, который объединяет реальные и синтетические наборы данных для достижения высокой метрической точности наряду с точным трассированием границ, специализированные метрики оценки точности границ в оцененных картах глубины и передовая оценка фокусного расстояния по одному изображению. Обширные эксперименты анализируют конкретные дизайнерские решения и демонстрируют, что Depth Pro превосходит предыдущие работы по нескольким измерениям. Мы предоставляем код и веса по ссылке https://github.com/apple/ml-depth-pro
Развитие видео крупных мультимодальных моделей (LMM) затруднено из-за сложности курирования больших объемов высококачественных исходных данных из Интернета. Для решения этой проблемы мы предлагаем альтернативный подход путем создания высококачественного синтетического набора данных специально для выполнения инструкций по видео, а именно LLaVA-Video-178K. Этот набор данных включает ключевые задачи, такие как подробное описание, ответы на открытые вопросы (QA) и вопросы с выбором ответа. Обучаясь на этом наборе данных, в сочетании с существующими данными настройки визуальных инструкций, мы представляем LLaVA-Video, новую видео LMM. Наши эксперименты показывают, что LLaVA-Video достигает высокой производительности на различных видео бенчмарках, подчеркивая эффективность нашего набора данных. Мы планируем выпустить набор данных, его процесс генерации и контрольные точки модели.
Желательно, но вызывает трудности создание видеороликов большой длины, на уровне минут. Авторегрессивные модели большого языка (LLM) достигли большого успеха в создании последовательностей токенов в области обработки естественного языка, однако исследования авторегрессивных LLM в области создания видео ограничены генерацией коротких видеороликов длительностью несколько секунд. В данной работе мы проводим глубокий анализ препятствий, мешающих авторегрессивным генераторам видео на основе LLM создавать длинные видеоролики. Основываясь на наблюдениях и анализе, мы предлагаем Loong, новый генератор видео на основе авторегрессивных LLM, способный создавать видеоролики длительностью в минуту. Конкретно, мы моделируем токены текста и видео как единую последовательность для авторегрессивных LLM и обучаем модель с нуля. Мы предлагаем пошаговое обучение от коротких к длинным видеороликам с использованием схемы переопределения потерь для смягчения проблемы дисбаланса потерь при обучении длинных видеороликов. Мы также исследуем стратегии вывода, включая повторное кодирование токенов видео и стратегии выборки, для уменьшения накопления ошибок во время вывода. Наш предложенный Loong может быть обучен на видеороликах длительностью 10 секунд и расширен для создания длинных видеороликов уровня минут, условно связанных с текстовыми подсказками, как продемонстрировано результатами. Больше примеров доступно по ссылке: https://epiphqny.github.io/Loong-video.
Контрастное предварительное обучение язык-изображение (CLIP) стало популярным методом обучения визуальных кодировщиков для генерации изображений/текста, облегчающего различные приложения. Недавно CLIP был широко принят в качестве визионной основы мультимодельных больших языковых моделей (MLLMs) для связи изображений с языковыми взаимодействиями. Успех CLIP в качестве модели визуально-языкового фундамента зависит от согласования веб-поисковых зашумленных текстовых аннотаций на уровне изображения. Тем не менее, такие критерии могут оказаться недостаточными для последующих задач, требующих детализированных визуальных представлений, особенно когда понимание на уровне области требует больших усилий для MLLMs. В данной работе мы улучшаем возможности локализации CLIP с помощью нескольких нововведений. Мы предлагаем метод предварительного обучения под названием Контрастное локализованное предварительное обучение язык-изображение (CLOC), дополняя CLIP контрастной потерей и модулями для области текста. Мы формулируем новое понятие - встраиваемые подсказки, с помощью которых кодировщик создает встраиваемые изображения, легко преобразуемые в представления области при наличии пространственных подсказок. Для поддержки масштабного предварительного обучения мы разрабатываем визуально насыщенную и пространственно локализованную структуру подписей для эффективной генерации псевдо-меток области текста в масштабе. Увеличивая объем до миллиардов аннотированных изображений, CLOC обеспечивает высококачественные региональные встраивания для задач распознавания и поиска областей изображений, и может быть применен в качестве замены CLIP для улучшения MLLMs, особенно в задачах ссылок и привязок.
Мы представляем LLaVA-Critic, первую открытую крупную мультимодальную модель (LMM), разработанную как общий оценщик для оценки производительности в широком спектре мультимодальных задач. LLaVA-Critic обучается с использованием высококачественного набора данных, следующего за инструкциями критика, который включает разнообразные критерии и сценарии оценки. Наши эксперименты демонстрируют эффективность модели в двух ключевых областях: (1) LMM-как-Судья, где LLaVA-Critic предоставляет надежные оценочные баллы, проявляя себя на уровне или превосходя модели GPT по нескольким оценочным показателям; и (2) Обучение Предпочтениям, где она генерирует сигналы вознаграждения для обучения предпочтениям, улучшая возможности выравнивания модели. Эта работа подчеркивает потенциал открытых крупных мультимодальных моделей в самокритике и оценке, заложив основу для будущих исследований в области масштабируемых механизмов обратной связи для LMM на уровне сверхчеловеческого.
Большие языковые модели (LLM) доказали свою выдающуюся эффективность как в широком спектре задач обработки естественного языка, так и за их пределами. Тем не менее, полный теоретический анализ источников их впечатляющей производительности остается неясным. В данной статье мы подходим к этой сложной задаче, устанавливая эквивалентность между общими авторегрессионными языковыми моделями с словарем размера T и окном контекста размера K и марковскими цепями, определенными на конечном пространстве состояний размера O(T^K). Мы получаем несколько удивительных результатов, связанных с существованием стационарного распределения марковских цепей, отражающих вычислительную мощь LLM, их скоростью сходимости к нему, а также влиянием температуры на последнее. Затем мы доказываем предварительные ограничения и обобщения в контексте и показываем, как установленная эквивалентность позволяет нам обогатить их интерпретацию. Наконец, мы иллюстрируем наши теоретические гарантии экспериментами на нескольких недавних LLM, чтобы подчеркнуть, как они отражают наблюдаемое поведение на практике.
Руководство без классификатора (CFG) критически важно для улучшения как качества генерации, так и выравнивания между входным условием и конечным результатом в моделях диффузии. Хотя для улучшения этих аспектов обычно требуется высокий уровень руководства, это также вызывает пересыщение и нереалистичные артефакты. В данной статье мы пересматриваем правило обновления CFG и вносим изменения для решения этой проблемы. Сначала мы декомпозируем термин обновления в CFG на параллельные и ортогональные компоненты относительно условного прогноза модели и замечаем, что параллельная компонента в основном вызывает пересыщение, в то время как ортогональная компонента улучшает качество изображения. Соответственно, мы предлагаем уменьшить вес параллельной компоненты для достижения высококачественной генерации без пересыщения. Кроме того, мы устанавливаем связь между CFG и градиентным подъемом и представляем новый метод пересчета и импульса для правила обновления CFG на основе этого понимания. Наш подход, названный адаптивное проецированное руководство (APG), сохраняет преимущества улучшения качества CFG, позволяя использовать более высокие уровни руководства без пересыщения. APG легко внедрить и практически не увеличивает вычислительной нагрузки на процесс выборки. Через обширные эксперименты мы демонстрируем, что APG совместим с различными условными моделями диффузии и сэмплерами, что приводит к улучшению показателей FID, recall и насыщенности, сохраняя при этом точность, сравнимую с CFG, делая наш метод более эффективной альтернативой стандартному руководству без классификатора.
Большие языковые модели (LLM) все чаще применяются для выполнения сложных задач рассуждения, требующих выполнения нескольких сложных шагов перед получением вознаграждения. Правильное присвоение заслуг за эти шаги является важным для улучшения производительности модели. Метод оптимизации ближней политики (PPO), передовой алгоритм обучения с подкреплением (RL), используемый для донастройки LLM, применяет сети значений для решения проблемы присвоения заслуг. Однако сети значений сталкиваются с трудностями в точном прогнозировании ожидаемых накопленных вознаграждений в сложных задачах рассуждения, что часто приводит к обновлениям с высокой дисперсией и неоптимальной производительности. В данной работе мы систематически оцениваем эффективность сетей значений и раскрываем их значительные недостатки в задачах LLM с интенсивным рассуждением, показывая, что они едва превосходят случайный базис при сравнении альтернативных шагов. Для решения этой проблемы мы предлагаем VinePPO, простой подход, который использует гибкость языковых сред для вычисления несмещенных оценок на основе метода Монте-Карло, обходя необходимость в больших сетях значений. Наш метод последовательно превосходит PPO и другие базовые варианты RL на наборах данных MATH и GSM8K с меньшим количеством обновлений градиента (до 9 раз), меньшим временем настенных часов (до 3,0 раз). Эти результаты подчеркивают важность точного присвоения заслуг в донастройке RL LLM и демонстрируют потенциал VinePPO как более перспективной альтернативы.
Голосовые помощники, такие как Siri и Google Assistant, обычно моделируют аудио и текст отдельно, что приводит к потере информации речи и увеличению сложности. Недавние усилия по решению этой проблемы с помощью конечных моделей большого языка речи (LLM), обученных с применением надзорного донастройки (SFT), привели к тому, что модели "забывают" возможности текстовых LLM. Наша работа предлагает альтернативную парадигму обучения речевых LLM без данных инструкций, используя ответ текстового LLM на транскрипты в качестве самонадзора. Важно, что этот процесс может быть выполнен без аннотированных ответов. Мы показываем, что наша Дистиллированная Голосовая Ассистентка (DiVA) обобщается на устный вопросно-ответный формат, классификацию и перевод. Более того, мы показываем, что DiVA лучше соответствует предпочтениям пользователей, достигая победного показателя 72\% по сравнению с передовыми моделями, такими как Qwen 2 Audio, несмотря на использование более чем в 100 раз меньшего объема вычислительных ресурсов для обучения.
Плотные вложения документов играют центральную роль в нейронном поиске. Доминирующая парадигма заключается в обучении и создании вложений путем прямого запуска кодировщиков на отдельных документах. В данной работе мы утверждаем, что эти вложения, хотя и эффективны, неявно не учитывают контекст для целевых сценариев поиска, и что контекстуализированное вложение документа должно учитывать как сам документ, так и соседние документы в контексте - аналогично контекстуализированным вложениям слов. Мы предлагаем два взаимодополняющих метода для контекстуализированных вложений документов: во-первых, альтернативный объект обучения с контрастным обучением, который явно включает соседние документы внутри пакета в контекстуальную потерю; во-вторых, новую контекстуальную архитектуру, которая явно кодирует информацию о соседних документах в закодированное представление. Результаты показывают, что оба метода достигают лучшей производительности, чем биэнкодеры в нескольких сценариях, особенно выраженных вне области применения. Мы достигаем лучших результатов на бенчмарке MTEB без жесткого негативного выбора, дистилляции оценок, инструкций, специфичных для набора данных, обмена примерами внутри GPU или чрезмерно больших размеров пакетов. Наш метод может быть применен для улучшения производительности на любом наборе данных контрастного обучения и любом биэнкодере.
В последние годы контрастное предварительное обучение язык-изображение (CLIP) стало основополагающим в мультимодальном интеллекте. Однако недавние исследования выявили значительные потери информации в процессе кодирования CLIP и то, что CLIP склонен улавливать только крупномасштабные особенности входных данных. Этот недостаток существенно ограничивает способность одной модели CLIP обрабатывать изображения, богатые визуальными деталями. В данной работе мы предлагаем простую, но эффективную стратегию, не зависящую от модели, под названием Diversified Multiplet Upcycling (DMU) для CLIP. DMU эффективно донастраивает серию моделей CLIP, захватывающих различные пространства признаков, из плотного предварительно обученного контрольной точки CLIP, разделяя параметры за исключением сети прямого распространения (FFN). Эти модели могут затем быть преобразованы в CLIP-MoE с большей емкостью модели, что приводит к значительно улучшенной производительности с минимальными вычислительными затратами. На наш взгляд, Diversified Multiplet Upcycling является первым подходом, вводящим разреженно активированные MoE в основные модели CLIP. Обширные эксперименты демонстрируют значительную производительность CLIP-MoE в различных задачах нулевого обучения с воспроизведением, нулевой классификации изображений и бенчмарках для мультимодальных больших языковых моделей (MLLM), выступая в качестве визионного кодировщика. Более того, Diversified Multiplet Upcycling позволяет преобразовать любую плотную модель CLIP в CLIP-MoE, которые могут легко заменить CLIP в режиме "включил и заработал", не требуя дополнительной адаптации в последующих фреймворках. Через Diversified Multiplet Upcycling мы стремимся предоставить ценные идеи для будущих исследований по разработке более эффективных и эффективных мультимодальных систем обучения.
Инженеры-программисты в основном пишут код, редактируя существующие программы. В отличие от этого, большие языковые модели (LLM) авторегрессивно синтезируют программы за один проход. Одним из объяснений этого является дефицит открытых данных для редактирования. В то время как качественные данные для инструкций по синтезу кода уже являются редкостью, качественные данные для редактирования еще более редки. Для заполнения этой пробела мы разработали алгоритм генерации синтетических данных под названием LintSeq. Этот алгоритм рефакторирует существующий код в последовательность редактирования кода, используя линтер для процедурной выборки из безошибочных вставок, которые могут быть использованы для последовательного написания программ. Он выводит последовательности редактирования в виде текстовых строк, состоящих из последовательных различий программ. Для тестирования LintSeq мы используем его для рефакторинга набора данных пар инструкция + программа в кортежи инструкция + последовательность редактирования программы. Затем мы донастраиваем ряд меньших LLM, варьирующихся от 2,6 млрд до 14 млрд параметров, как на переработанных, так и на оригинальных версиях этого набора данных, сравнивая нулевую производительность на бенчмарках синтеза кода. Мы показываем, что в ходе повторной выборки модели, донастроенные на последовательности редактирования, производят более разнообразные программы, чем базовые модели. Это приводит к лучшему масштабированию времени вывода для покрытия бенчмарков как функции от выборки, т.е. доли проблем "pass@k", решенных при любой попытке из "k". Например, на HumanEval pass@50, небольшие LLM, донастроенные на синтетические последовательности редактирования, конкурентоспособны с GPT-4 и превосходят модели, донастроенные на базовом наборе данных на +20% (+/-3%) по абсолютному показателю. Наконец, мы также предварительно обучаем наши собственные крошечные языковые модели для понимания кода. Мы показываем, что донастройка крошечных моделей на синтетические редактирования кода приводит к передовому синтезу кода для класса моделей на устройстве. Наша языковая модель последовательности редактирования с 150 млн параметров соответствует или превосходит модели кода с удвоенным количеством параметров, как с повторной выборкой, так и без нее, включая Codex и AlphaCode.
Модели с длинным контекстом (LCM) в последние годы сделали значительные успехи, предлагая пользователям большое удобство при выполнении задач, требующих длительного контекста, таких как суммирование документов. Поскольку сообщество все более уделяет внимание достоверности сгенерированных результатов, недостаточно просто обеспечить точность выводов LCM, так как для людей довольно сложно проверить результаты из крайне длинного контекста. Однако, хотя были предприняты некоторые усилия для оценки того, отвечают ли LCM действительно на основе контекста, эти работы либо ограничены конкретными задачами, либо сильно полагаются на внешние ресурсы оценки, такие как GPT-4. В данной работе мы представляем L-CiteEval, обширный многозадачный бенчмарк для понимания длинного контекста с цитированием, целью которого является оценка как способности понимания, так и достоверности LCM. L-CiteEval охватывает 11 задач из различных областей, охватывая длину контекста от 8K до 48K, и предоставляет полностью автоматизированный набор оценок. Проведя тестирование с 11 передовыми закрытыми и открытыми LCM, мы обнаружили, что хотя эти модели показывают незначительные различия в сгенерированных результатах, открытые модели значительно уступают закрытым по точности и полноте цитирования. Это указывает на то, что текущие открытые LCM склонны отвечать на основе своих внутренних знаний, а не на основе предоставленного контекста, что представляет значительный риск для пользовательского опыта в практических приложениях. Мы также оценили подход RAG и обнаружили, что RAG может значительно улучшить достоверность LCM, хотя с небольшим снижением качества генерации. Более того, мы обнаружили корреляцию между механизмами внимания LCM и процессом генерации цитат.
Извлечение с усилением генерации (RAG) показало себя как способ улучшения фактической точности больших языковых моделей (LLM), однако существующие методы часто страдают от ограниченных способностей рассуждения в эффективном использовании извлеченных доказательств, особенно при использовании открытых LLM. Для устранения этого разрыва мы представляем новую структуру, Open-RAG, разработанную для улучшения способностей рассуждения в RAG с открытыми LLM. Наша структура преобразует произвольный плотный LLM в параметрически эффективную разреженную модель смеси экспертов (MoE), способную обрабатывать сложные задачи рассуждения, включая одно- и многошаговые запросы. Open-RAG уникально обучает модель на навигацию в сложных отвлекающих элементах, которые кажутся релевантными, но вводят в заблуждение. В результате Open-RAG использует скрытое обучение, динамически выбирая соответствующих экспертов и эффективно интегрируя внешние знания для более точных и контекстно релевантных ответов. Кроме того, мы предлагаем гибридный адаптивный метод извлечения для определения необходимости извлечения и балансировки компромисса между повышением производительности и скоростью вывода. Экспериментальные результаты показывают, что Open-RAG на основе Llama2-7B превосходит современные LLM и модели RAG, такие как ChatGPT, Self-RAG и Command R+, в различных задачах, требующих знаний. Мы предоставляем наш код и модели с открытым исходным кодом на https://openragmoe.github.io/
Мы исследуем внутренние представления моделей видео-языкового взаимодействия (VLM), чтобы решить проблему галлюцинаций, которая остается актуальной несмотря на увеличение размера моделей и улучшение обучения. Мы проецируем внутренние изображения VLM на их языковый словарь и наблюдаем более уверенные вероятности вывода для реальных объектов, чем для галлюцинированных объектов. Мы также используем эти вероятности вывода для пространственной локализации реальных объектов. На основе этого подхода мы представляем алгоритм стирания знаний, который устраняет галлюцинации путем линейной ортогонализации изображений относительно признаков галлюцинированных объектов. Мы показываем, что целенаправленные изменения в латентных представлениях модели могут снизить галлюцинации до 25.7% на наборе данных COCO2014, сохраняя при этом производительность. Наши результаты демонстрируют, как более глубокое понимание латентных представлений VLM может улучшить надежность и обеспечить новые возможности, такие как сегментация с нулевым обучением.
Большие языковые модели (LLM), известные своей универсальностью в текстовых данных, все чаще исследуются на предмет их потенциала для улучшения сегментации медицинских изображений, важной задачи для точной диагностической визуализации. В данном исследовании исследуется улучшение Vision Transformers (ViTs) для сегментации медицинских изображений путем интеграции предварительно обученных блоков трансформера LLM. Наш подход, который включает замороженный блок трансформера LLM в кодер модели на основе ViT, приводит к существенному улучшению производительности сегментации на различных модальностях медицинского изображения. Мы предлагаем Гибридный Механизм Внимания, который объединяет глобальное и локальное обучение признаков с Блоком Мульти-Масштабного Слияния для агрегирования признаков на разных масштабах. Улучшенная модель показывает значительный прирост производительности, включая увеличение среднего значения коэффициента Дайса с 0,74 до 0,79 и улучшения в точности, полноте и Индексе Жаккара. Эти результаты демонстрируют эффективность трансформеров на основе LLM в уточнении сегментации медицинских изображений, подчеркивая их потенциал для значительного повышения точности и надежности модели. Исходный код и наша реализация доступны по ссылке: https://bit.ly/3zf2CVs
Автономные агенты продемонстрировали значительный потенциал в автоматизации сложных многошаговых задач принятия решений. Однако даже передовые модели видео-языка (VLM), такие как GPT-4o, все еще не достигают уровня производительности человека, особенно в сложных веб-средах и задачах долгосрочного планирования. Для решения этих ограничений мы представляем Reflective Monte Carlo Tree Search (R-MCTS), новый алгоритм для тестирования, разработанный для улучшения способности искусственного интеллекта, например, на основе GPT-4o, исследовать пространство решений на лету. R-MCTS расширяет традиционный MCTS, во-первых, интегрируя контрастное отражение, позволяя агентам учиться на основе прошлых взаимодействий и динамически улучшать эффективность поиска; и, во-вторых, используя многозначное дебатное обсуждение для обеспечения надежной оценки состояния. Более того, мы улучшаем производительность агента путем настройки GPT-4o через самообучение, используя деревья, сгенерированные R-MCTS, без предоставления меток человеком. На сложном бенчмарке VisualWebArena наш агент на основе GPT-4o с R-MCTS достигает относительного улучшения на 6% до 30% по сравнению с предыдущим передовым уровнем в различных задачах. Кроме того, мы показываем, что знания, полученные во время тестирования, могут быть эффективно переданы обратно в GPT-4o через настройку. Fine-tuned GPT-4o соответствует 97% производительности R-MCTS, сокращая использование вычислительных ресурсов в четыре раза во время тестирования. Более того, качественные результаты показывают, что настроенная модель GPT-4o демонстрирует способность исследовать окружающую среду, оценивать состояние и возвращаться к жизнеспособным в случае, если текущее состояние не может привести к успеху. Кроме того, наша работа демонстрирует свойства масштабирования вычислений как во время обучения - сбор данных с помощью R-MCTS - так и во время тестирования. Эти результаты указывают на перспективное направление исследований для улучшения рассуждений и планирования VLM для агентских приложений через тестирование и самообучение.
Недавние работы в объемной визуализации, например, NeRF и 3D Gaussian Splatting (3DGS), значительно улучшают качество и эффективность визуализации с помощью изученного неявного нейронного радиационного поля или 3D гауссов. Визуализация поверх явного представления, обычный 3DGS и его варианты обеспечивают эффективность реального времени путем оптимизации параметрической модели с однообзорным наблюдением на каждой итерации обучения, что заимствовано у NeRF. Следовательно, определенные виды переобучаются, что приводит к неудовлетворительному внешнему виду при синтезе нового вида и неточным 3D геометриям. Для решения вышеупомянутых проблем мы предлагаем новый метод оптимизации 3DGS, воплощающий четыре ключевых новаторских вклада: 1) Мы преобразуем традиционную парадигму обучения с одним видом в стратегию обучения с несколькими видами. С нашим предложенным мультивидовым регулированием атрибуты 3D гауссов дополнительно оптимизируются без переобучения определенных обучающих видов. Как общее решение, мы улучшаем общую точность в различных сценариях и различных вариантах гауссов. 2) Вдохновленные преимуществом, внесенным дополнительными видами, мы далее предлагаем схему перекрестного внутреннего руководства, приводящую к грубому и тонкому процессу обучения по разным разрешениям. 3) На основе нашего мультивидового регулируемого обучения мы далее предлагаем стратегию перекрестного плотного луча, уплотняя больше гауссовских ядер в областях пересечения лучей из выбранных видов. 4) Исследуя стратегию уплотнения, мы обнаружили, что эффект уплотнения должен быть усилен, когда определенные виды сильно отличаются. В качестве решения мы предлагаем новую стратегию уплотнения с увеличенным мультивидовым усилением, где 3D гауссы стимулируются к уплотнению до достаточного количества соответственно, что приводит к улучшенной точности восстановления.
В последнее время стало заметно увеличение мнения о том, что современные крупные мультимодальные модели (LMM) успешно справляются с большинством ключевых проблем, связанных с пониманием коротких видео. В результате как академическое сообщество, так и промышленность постепенно переключают свое внимание на более сложные задачи, связанные с пониманием длинных видео. Однако ли это действительно так? Наши исследования показывают, что у LMM все еще отсутствуют многие фундаментальные способности к рассуждению, даже когда речь идет о коротких видео. Мы представляем Vinoground, временную контрфактическую оценочную платформу для LMM, включающую 1000 пар коротких и естественных видео и описаний. Мы демонстрируем, что существующие LMM с трудом различают временные различия между различными действиями и преобразованиями объектов. Например, лучшая модель GPT-4o достигает всего ~50% по нашим текстовым и видео показателям, что показывает значительный разрыв по сравнению с человеческим базовым уровнем в ~90%. Все открытые мультимодальные модели и модели на основе CLIP показывают гораздо худшие результаты, в основном демонстрируя случайные показатели. Через это исследование мы проливаем свет на то, что временное рассуждение в коротких видео остается проблемой, которая еще не полностью решена. Набор данных и код оценки доступны на https://vinoground.github.io.
Мы исследуем проявление интеллектуального поведения в искусственных системах, изучая, как сложность систем на основе правил влияет на возможности моделей, обученных предсказывать эти правила. Наше исследование сосредоточено на элементарных клеточных автоматах (ECA), простых, но мощных одномерных системах, которые генерируют поведение от тривиального до высоко сложного. Обучив различные Большие Языковые Модели (LLM) на различных ECA, мы оценили связь между сложностью поведения правил и интеллектом, проявляемым LLM, что отражается в их результативности на последующих задачах. Наши результаты показывают, что правила с более высокой сложностью приводят к моделям, проявляющим больший интеллект, что подтверждается их результативностью на задачах рассуждения и предсказания ходов в шахматах. Как равномерные, так и периодические системы, а также чрезвычайно хаотичные системы, привели к менее успешной результативности, выделяя "золотую середину" сложности, способствующую интеллекту. Мы предполагаем, что интеллект возникает из способности предсказывать сложность и создание интеллекта может потребовать только воздействия сложности.
Мы представляем Synthio, новый подход к дополнению небольших наборов данных для классификации звука синтетическими данными. Наша цель - повысить точность классификации звука при ограниченном количестве размеченных данных. Традиционные методы дополнения данных, которые применяют искусственные преобразования (например, добавление случайного шума или маскирование сегментов), испытывают трудности в создании данных, отражающих истинное разнообразие, присутствующее в аудио реального мира. Для решения этого недостатка мы предлагаем дополнить набор данных синтетическими аудио, сгенерированными из моделей диффузии текста в аудио (T2A). Однако синтез эффективных дополнений представляет собой сложную задачу, поскольку сгенерированные данные должны быть не только акустически согласованы с базовым набором данных малого масштаба, но и обладать достаточным композиционным разнообразием. Для преодоления первого вызова мы выравниваем генерации модели T2A с набором данных малого масштаба с использованием оптимизации предпочтений. Это обеспечивает сохранение акустических характеристик сгенерированных данных в соответствии с набором данных малого масштаба. Для решения второй проблемы мы предлагаем новую технику генерации подписей, которая использует возможности рассуждения крупных языковых моделей для (1) генерации разнообразных и содержательных аудио-подписей и (2) итеративного улучшения их качества. Сгенерированные подписи затем используются для подтолкнуть выровненную модель T2A. Мы подробно оцениваем Synthio на десяти наборах данных и четырех симулированных ограниченных сценариях данных. Результаты показывают, что наш метод последовательно превосходит все базовые показатели на 0.1%-39%, используя модель T2A, обученную только на слабо подписанных AudioSet.
Мы демонстрируем, что небольшие предварительно обученные базовые генеративные языковые модели с миллионами параметров могут выучить скрытые правила процесса из данных, связанных с процессом. Вдохновленные новеллой Стефана Цвейга "Schachnovelle", также известной как "Королевская игра" на английском, мы показываем, что 28M и 125M параметров предварительно обученных базовых маленьких языковых моделей (SLM) могут быть дообучены с использованием от 1,000 до 1,000,000 примеров, чтобы выучить правила шахмат, предлагать законные ходы и точно решать шахматные задачи. Мы также исследуем влияние последовательных эпох дообучения языковой модели на улучшение результатов и демонстрируем снижение галлюцинаций модели путем увеличения количества примеров дообучения по инструкции.
Слияние моделей, такое как слияние моделей, представляет собой практику объединения различных моделей с одной архитектурой без последующего обучения. В данной работе мы представляем методологию слияния моделей, которая решает проблему настройки крупных языковых моделей (LLM) для целевых задач на не-английских языках, где специфические для задачи данные часто недоступны. Мы фокусируемся на математическом рассуждении и, не имея языковых данных по математике, облегчаем межъязыковой перенос, комбинируя языковые и математические возможности. Начиная с одной и той же предварительно обученной модели, мы донастраиваем отдельных "экспертов" на данных по математическим инструкциям на английском языке и на общих данных по инструкциям на целевом языке. Затем мы заменяем верхние и нижние трансформерные слои математического эксперта непосредственно слоями от языкового эксперта, что в конечном итоге улучшает математическую производительность на целевом языке. Полученные объединенные модели превосходят отдельных экспертов и другие методы слияния на математическом бенчмарке MGSM на 10% в четырех основных языках, где данные по математическим инструкциям ограничены. Кроме того, этот обмен слоями прост, недорог и интуитивен, так как он основан на интерпретативном анализе наиболее важных изменений параметров во время донастройки каждого эксперта. Возможность успешного повторного составления LLM для межъязыкового переноса таким образом открывает будущие возможности для объединения экспертизы модели, создания модульных решений и передачи способностей к рассуждению между языками вслед за событием.
Недавние достижения в области трехмерных больших языковых моделей (3DLLM) подчеркнули их потенциал в создании универсальных агентов в трехмерном реальном мире, однако остаются вызовы из-за отсутствия качественных устойчивых данных по следованию инструкциям, что приводит к ограниченной дискриминационной способности и обобщению 3DLLM. В данной статье мы представляем Robin3D, мощную 3DLLM, обученную на масштабных данных по следованию инструкциям, сгенерированных нашим новаторским движком данных, движком Robust Instruction Generation (RIG). RIG генерирует два ключевых типа инструкционных данных: 1) данные по следованию инструкциям с адверсарным подходом, включающие смешанные отрицательные и положительные примеры для улучшения дискриминационного понимания модели. 2) разнообразные данные по следованию инструкциям, содержащие различные стили инструкций для улучшения обобщения модели. В результате мы создаем миллион данных по следованию инструкциям, включающих 344 тыс. адверсарных примеров, 508 тыс. разнообразных примеров и 165 тыс. примеров обучающего набора для эталонного тестирования. Для более эффективной обработки этих сложных инструкций Robin3D сначала внедряет Relation-Augmented Projector для улучшения пространственного понимания, а затем укрепляет способность к обращению и привязке объектов через ID-Feature Bonding. Robin3D последовательно превосходит предыдущие методы по пяти широко используемым бенчмаркам трехмерного мультимодального обучения без необходимости специфической настройки. Значительно, мы достигаем улучшения на 7,8\% в задаче привязки (Multi3DRefer) и на 6,9\% в задаче подписывания (Scan2Cap).
Настройка модели на основе подсказок стала неотъемлемым методом для извлечения информации, закодированной в предварительно обученных языковых моделях, для различных задач, включая классификацию текста. Для задач многоклассовой классификации настройка модели на основе подсказок в условиях ограниченных ресурсов привела к уровню производительности, сравнимому с методами полной настройки. В предыдущих исследованиях использовались созданные шаблоны подсказок и вербализаторы, отображающие пространство терминов меток в пространство классов, чтобы решить проблему классификации как задачу маскированного языкового моделирования. Однако кросс-доменная и тонкая настройка модели на основе подсказок с автоматически обогащенным вербализатором остается неисследованной, в основном из-за сложности и затрат на ручной выбор доменных терминов меток для вербализатора, что требует участия людей с экспертизой в области. Для решения этой проблемы мы представляем SciPrompt, фреймворк, разработанный для автоматического извлечения терминов, связанных с научной тематикой, для задач классификации текста с ограниченными ресурсами. Для этого мы выбираем семантически коррелированные и специфичные для области термины меток в контексте научной литературы для расширения вербализатора. Более того, мы предлагаем новую стратегию вербализации, которая использует оценки корреляции в качестве дополнительных весов для улучшения производительности прогнозирования языковой модели во время настройки модели. Наш метод превосходит современные методы настройки модели на основе подсказок в задачах классификации научного текста в условиях небольшого и нулевого количества обучающих примеров, особенно в классификации тонких и новых научных тем.