Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в области больших языковых моделей (БЯМ) показали сильные общие способности рассуждения, однако их эффективность в финансовом рассуждении остается мало исследованной. В данном исследовании мы всесторонне оцениваем 16 мощных моделей рассуждения и общих БЯМ на трех сложных финансовых задачах, включающих финансовый текст, табличные данные и уравнения, оценивая числовое рассуждение, интерпретацию табличных данных, понимание финансовой терминологии, обработку длинного контекста и решение задач на основе уравнений. Наши результаты показывают, что хотя лучшие наборы данных и предварительное обучение улучшают финансовое рассуждение, общие улучшения, такие как донастройка CoT, не всегда приносят последовательные приросты. Более того, все стратегии рассуждения сталкиваются с трудностями в улучшении производительности на задачах с длинным контекстом и множественными таблицами. Для преодоления этих ограничений мы разрабатываем модель с улучшенным финансовым рассуждением на основе Llama-3.1-8B-Instruct, с помощью донастройки CoT и обучения с подкреплением с использованием областно-специфических путей рассуждения. Даже с простой донастройкой на один финансовый набор данных наша модель достигает последовательного улучшения производительности на 10% по всем задачам, превосходя все модели 8B и даже Llama3-70B-Instruct и Llama3.1-70B-Instruct в среднем. Наши результаты подчеркивают необходимость областно-специфических адаптаций в финансовых задачах, акцентируя внимание на будущих направлениях, таких как рассуждение с множественными таблицами, обработка длинного контекста и понимание финансовой терминологии. Все наши наборы данных, модели и коды доступны публично. Кроме того, мы представляем таблицу лидеров для оценки будущих наборов данных и моделей.
Современные большие языковые модели (LLM) часто сталкиваются с узкими местами в области коммуникаций на текущем оборудовании, а не исключительно с вычислительными ограничениями. Метод многоголового латентного внимания (MLA) решает эту проблему, используя матрицы низкого ранга в слоях ключ-значение (KV), что позволяет кэшировать сжатые латентные состояния KV. Этот подход значительно сокращает размер кэша KV по сравнению с традиционным многоголовым вниманием, что приводит к более быстрой инференции. Более того, MLA использует матрицу повышения проекции для увеличения выразительности, обменивая дополнительные вычисления на сокращение коммуникационной нагрузки. Хотя MLA продемонстрировал эффективность и эффективность в Deepseek V2/V3/R1, многие крупные поставщики моделей до сих пор полагаются на групповое внимание к запросу (GQA) и не объявили о планах принять MLA. В этой статье мы показываем, что GQA всегда может быть представлено с помощью MLA, сохраняя ту же самую нагрузку кэша KV, но обратное не верно. Для поощрения более широкого использования MLA мы представляем **TransMLA**, метод посттренировочного преобразования, который преобразует широко используемые предварительно обученные модели на основе GQA (например, LLaMA, Qwen, Mixtral) в модели на основе MLA. После преобразования модель может пройти дополнительное обучение для увеличения выразительности без увеличения размера кэша KV. Кроме того, мы планируем разработать техники ускорения вывода, специфичные для MLA, чтобы сохранить низкую задержку в преобразованных моделях, обеспечивая более эффективное дистиллирование Deepseek R1.
Предыдущие многоязычные бенчмарки в основном сосредотачивались на простых задачах понимания, но для больших языковых моделей (LLM) мы акцентируем внимание на владении инструкциями, рассуждениях, понимании длинного контекста, генерации кода и т. д. Однако измерение этих продвинутых способностей на разных языках остается недостаточно исследованным. Для решения этого разрыва мы представляем BenchMAX - многосторонний многоязычный бенчмарк, который позволяет проводить справедливые сравнения этих важных способностей на разных языках. Для поддержания высокого качества три отдельных носителя языка независимо размечают каждый образец во всех задачах после того, как данные были машинно переведены с английского на 16 других языков. Кроме того, мы представляем новое испытание перевода, вытекающее из построения набора данных. Обширные эксперименты на BenchMAX показывают различную эффективность основных способностей на разных языках, выявляя разрывы в производительности, которые нельзя преодолеть просто увеличив размер модели. BenchMAX служит в качестве всесторонней многоязычной платформы оценки, предоставляя многообещающую площадку для развития многоязычных языковых моделей. Набор данных и код общедоступны.
Мы представляем закон масштабирования дистилляции, который оценивает производительность дистиллированной модели на основе бюджета вычислений и его распределения между учеником и учителем. Наши результаты снижают риски, связанные с использованием дистилляции в масштабе; распределение вычислений для учителя и ученических моделей теперь может быть выполнено для максимизации производительности ученика. Мы предоставляем оптимальные вычисления рецепты дистилляции, когда 1) учитель существует, или 2) учитель нуждается в обучении. Если необходимо дистиллировать множество учеников или учитель уже существует, дистилляция превосходит надзорное предварительное обучение до уровня вычислений, который растет предсказуемо с размером ученика. Если необходимо дистиллировать одного ученика и учитель также нуждается в обучении, следует провести надзорное обучение. Кроме того, мы предоставляем исследования нашего масштабного изучения дистилляции, которые увеличивают наше понимание дистилляции и информируют экспериментальное проектирование.
Генерация изображений, зависящая от текста, привлекла значительное внимание в последние годы и обрабатывает все более длинные и комплексные текстовые подсказки. В повседневной жизни плотный и запутанный текст встречается в контекстах, таких как реклама, инфографика и указатели, где интеграция текста и визуальных элементов необходима для передачи сложной информации. Однако, несмотря на эти достижения, генерация изображений с длинным текстом остается настоящим вызовом, в значительной степени из-за ограничений существующих наборов данных, которые часто сосредоточены на более коротком и простом тексте. Для решения этого пробела мы представляем TextAtlas5M, новый набор данных, специально разработанный для оценки рендеринга длинного текста в генерации изображений, зависящей от текста. Наш набор данных состоит из 5 миллионов сгенерированных и собранных изображений с длинным текстом различных типов данных, обеспечивая комплексную оценку масштабных генеративных моделей в области генерации изображений с длинным текстом. Мы также подготовили 3000 тестовых наборов данных TextAtlasEval, улучшенных людьми, по 3 областям данных, устанавливая один из самых обширных бенчмарков для генерации изображений, зависящей от текста. Оценки показывают, что бенчмарки TextAtlasEval представляют существенные вызовы даже для самых передовых закрытых моделей (например, GPT4o с DallE-3), в то время как их открытые аналоги показывают еще большую разницу в производительности. Эти доказательства позиционируют TextAtlas5M как ценный набор данных для обучения и оценки моделей генерации изображений, зависящих от текста, будущего поколения.
Недавние достижения в моделях переосвещения изображений, обусловленные масштабными наборами данных и предварительно обученными моделями диффузии, позволили обеспечить согласованное освещение. Однако видео переосвещение все еще отстает, в основном из-за излишних затрат на обучение и недостатка разнообразных, высококачественных наборов данных для видео переосвещения. Простое применение моделей переосвещения изображений на основе кадра приводит к нескольким проблемам: несогласованности источника освещения и несогласованности переосвещенного вида, что приводит к мерцанию на созданных видео. В данной работе мы предлагаем Light-A-Video, подход без обучения для достижения временно плавного видео переосвещения. Адаптированный из моделей переосвещения изображений, Light-A-Video вводит две ключевые техники для улучшения согласованности освещения. Во-первых, мы разрабатываем модуль Consistent Light Attention (CLA), который улучшает взаимодействия между кадрами в рамках слоев самовнимания для стабилизации генерации фона источника освещения. Во-вторых, используя физический принцип независимости транспорта света, мы применяем линейное смешивание между внешним видом исходного видео и переосвещенным видом, используя стратегию Progressive Light Fusion (PLF) для обеспечения плавных временных переходов в освещении. Эксперименты показывают, что Light-A-Video улучшает временную согласованность переосвещенного видео, сохраняя качество изображения и обеспечивая последовательные переходы освещения между кадрами. Страница проекта: https://bujiazi.github.io/light-a-video.github.io/.
В данной работе мы представляем CineMaster, новую структуру для генерации текста в видео с учетом 3D и возможностью управления процессом. Наша цель - предоставить пользователям сопоставимую возможность управления, как у профессиональных режиссеров: точное размещение объектов в сцене, гибкое управление как объектами, так и камерой в 3D пространстве, а также интуитивное управление компоновкой визуализированных кадров. Для достижения этой цели CineMaster работает в двух этапах. На первом этапе мы разрабатываем интерактивный рабочий процесс, который позволяет пользователям интуитивно создавать 3D-ориентированные условные сигналы, путем позиционирования ограничивающих рамок объектов и определения движений камеры в 3D пространстве. На втором этапе эти управляющие сигналы - включающие в себя визуализированные карты глубины, траектории камеры и метки классов объектов - служат руководством для модели диффузии текста в видео, обеспечивая генерацию видеоконтента, соответствующего намерениям пользователя. Более того, чтобы преодолеть недостаток наборов данных "in-the-wild" с аннотациями движения 3D объектов и позиций камеры, мы тщательно создаем автоматизированный конвейер аннотации данных, который извлекает 3D ограничивающие рамки и траектории камеры из видеоданных большого масштаба. Обширные качественные и количественные эксперименты демонстрируют, что CineMaster значительно превосходит существующие методы и реализует выдающуюся генерацию текста в видео с учетом 3D. Страница проекта: https://cinemaster-dev.github.io/.
Прогнозирование следующего токена было стандартной целью обучения, используемой в предварительном обучении больших языковых моделей. Представления изучаются в результате оптимизации на уровне токенов. Мы предлагаем Continuous Concept Mixing (CoCoMix), новую предварительную обучающую структуру, которая объединяет дискретное прогнозирование следующего токена с непрерывными концепциями. Конкретно, CoCoMix предсказывает непрерывные концепции, изученные из предварительно обученного разреженного автокодировщика, и вкладывает их в скрытое состояние модели, чередуя с скрытыми представлениями токенов. Через эксперименты на нескольких бенчмарках, включая языковое моделирование и задачи логического вывода, мы показываем, что CoCoMix более эффективен по образцам и последовательно превосходит стандартное прогнозирование следующего токена, дистилляцию знаний и вставку токенов паузы. Мы обнаружили, что комбинирование как обучения концепций, так и чередования в единой структуре критично для увеличения производительности. Кроме того, CoCoMix улучшает интерпретируемость и управляемость, позволяя непосредственно проверять и изменять предсказанный концепт, предлагая прозрачный способ направлять внутренний процесс рассуждений модели.
Текущие агенты с графическим пользовательским интерфейсом (GUI) достигли выдающихся результатов в привязке к элементам GUI. Однако планирование остаётся чрезвычайно сложным, особенно из-за чувствительности к начальному состоянию окружения. Конкретно, даже незначительные различия в начальном состоянии, такие как незапущенное целевое программное обеспечение или интерфейс, не находящийся в состоянии по умолчанию, часто приводят к ошибкам в планировании. Эта проблема широко распространена в реальных сценариях использования пользователями, однако существующие бенчмарки не оценивают её. В данной статье мы представляем WorldGUI, новый бенчмарк GUI, который разрабатывает задачи GUI с различными начальными состояниями для имитации реального взаимодействия компьютера с пользователем. Бенчмарк охватывает широкий спектр задач по 10 популярным приложениям, включая PowerPoint, VSCode и Adobe Acrobat. Кроме того, для решения проблем динамических задач автоматизации GUI мы предлагаем GUI-Thinker, целостную платформу, использующую механизм критики, который эффективно управляет непредсказуемостью и сложностью взаимодействия с GUI. Экспериментальные результаты показывают, что GUI-Thinker значительно превосходит Claude-3.5 (Использование компьютера) на 14.9% по показателю успешности на задачах WorldGUI. Это улучшение подчёркивает эффективность нашей основанной на критическом мышлении платформы в улучшении автоматизации GUI.
Подходы к моделированию линейной последовательности, такие как линейное внимание, обеспечивают преимущества, такие как обучение за линейное время и вывод с постоянной памятью по длине последовательности. Однако существующие методы параллелизма последовательности (SP) либо не оптимизированы для функции линейного внимания к правому произведению, либо используют стратегию кольцевого обмена информацией, что приводит к снижению параллелизма вычислений и ограничивает их масштабируемость для более длинных последовательностей в распределенных системах. В данной статье мы представляем LASP-2, новый метод SP, который улучшает как коммуникационный, так и вычислительный параллелизм при обучении моделей трансформера с линейным вниманием на очень длинных входных последовательностях. По сравнению с предыдущей работой LASP, LASP-2 переосмысливает минимальные требования к коммуникации для SP на слоях линейного внимания, переорганизует весь рабочий процесс коммуникации и вычислений LASP. Таким образом, требуется всего одно собирающееся общее общение AllGather на промежуточных состояниях памяти, размеры которых не зависят от длины последовательности, что приводит к значительному улучшению как коммуникационного, так и вычислительного параллелизма, а также их перекрытия. Кроме того, мы расширяем LASP-2 до LASP-2H, применяя аналогичную переработку коммуникации к стандартным модулям внимания, предлагая эффективное решение SP для гибридных моделей, объединяющих линейные и стандартные слои внимания. Наша оценка на модели Linear-Llama3, варианте Llama3 с линейным вниманием вместо стандартного внимания, демонстрирует эффективность LASP-2 и LASP-2H. В частности, LASP-2 достигает улучшения скорости обучения на 15,2% по сравнению с LASP и на 36,6% по сравнению с Ring Attention при длине последовательности 2048K на 64 GPU. Код выпущен как часть: https://github.com/OpenSparseLLMs/Linear-MoE.
Способность достижения долгосрочных целей является ключевой проблемой в текущем развитии больших моделей языка (LLM). Для решения этой проблемы предварительно обученные LLM могут быть донастроены с помощью обучения с подкреплением (RL) для исследования решений, оптимизирующих заданную цель. Однако исследование с LLM затруднено, поскольку необходимо найти баланс между обнаружением новых решений и сохранением достаточной близости к предварительно обученной модели, чтобы не ухудшить базовые возможности. Обычно это контролируется с помощью штрафа Кульбака-Лейблера (KL). В данной статье мы исследуем динамику исследования небольшой модели языка на простой арифметической задаче. Мы показываем, как различные степени предварительного обучения влияют на исследование и демонстрируем важность "критических токенов", которые имеют решающее значение для конечного результата. В результате мы предлагаем простое изменение штрафа KL, которое способствует исследованию критических токенов, повышая эффективность этапа донастройки RL.
Недавние методы анимации изображений персонажей на основе моделей диффузии, такие как Animate Anyone, значительно продвинулись в создании последовательных и обобщаемых анимаций персонажей. Однако эти подходы не способны создавать разумные ассоциации между персонажами и их окружением. Для преодоления этого ограничения мы представляем Animate Anyone 2, нацеленный на анимацию персонажей с учетом окружающей среды. Помимо извлечения сигналов движения из исходного видео, мы дополнительно захватываем представления окружения как условные входы. Окружение формулируется как область за исключением персонажей, и наша модель генерирует персонажей для заполнения этих областей, сохраняя согласованность с окружающим контекстом. Мы предлагаем стратегию маски без учета формы, которая более эффективно характеризует отношение между персонажем и окружением. Кроме того, для улучшения достоверности взаимодействий объектов мы используем направляющий объект для извлечения признаков взаимодействующих объектов и применяем пространственное смешивание для внедрения признаков. Мы также представляем стратегию модуляции позы, которая позволяет модели обрабатывать более разнообразные шаблоны движения. Экспериментальные результаты демонстрируют превосходную производительность предложенного метода.
В то время как недавние исследования в области искусственного интеллекта в математике сделали значительные успехи в чистой математике, области прикладной математики, в частности, уравнения в частных производных (УЧП), остаются недостаточно исследованными, несмотря на их значительное применение в реальном мире. Мы представляем PDE-Controller, фреймворк, который позволяет крупным языковым моделям (LLM) управлять системами, управляемыми уравнениями в частных производных (УЧП). Наш подход позволяет LLM преобразовывать неформальные естественноязыковые инструкции в формальные спецификации, а затем выполнять шаги рассуждения и планирования для улучшения полезности управления УЧП. Мы создаем комплексное решение, включающее наборы данных (как случаи, написанные людьми, так и 2 миллиона синтетических образцов), модели математического рассуждения и новые метрики оценки, все это требует значительных усилий. Наш PDE-Controller значительно превосходит последние модели с открытым исходным кодом и модели GPT в рассуждениях, автоформализации и синтезе программ, достигая до 62% улучшения в полезности управления УЧП. Связывая языковое поколение и системы УЧП, мы демонстрируем потенциал LLM в решении сложных научных и инженерных задач. Мы опубликуем все данные, контрольные точки моделей и код на https://pde-controller.github.io/.
Оптимизация Прямых Предпочтений (Direct Preference Optimization, DPO) и ее варианты стали все более популярными для выравнивания языковых моделей с человеческими предпочтениями. Эти методы направлены на обучение моделей лучше различать между выбранными (или предпочтительными) и отклоненными (или непредпочтительными) ответами. Однако предшествующие исследования выявили, что вероятность выбранных ответов часто снижается во время обучения, и это явление известно как смещение вероятности. Для преодоления этого вызова в данной работе мы представляем \method для контролируемого сдвига распределения вероятности выбора. Затем мы показываем, что \method демонстрирует фундаментальный компромисс между улучшением вероятности выбора и жертвованием маржой вознаграждения, что подтверждается как теоретическим анализом, так и экспериментальной проверкой. Более того, мы демонстрируем превосходство \method над DPO на последующих задачах, таких как MT-Bench и специально разработанный эксперимент по выигрышной доле. Мы считаем, что данное исследование показывает, что проблема смещения вероятности DPO может быть эффективно смягчена с помощью простого, теоретически обоснованного решения. Наш код доступен по адресу https://github.com/Meaquadddd/DPO-Shift.
Недавние модели больших языков (LLM) поддерживают длинные контексты от 128K до 1M токенов. Популярным методом оценки этих возможностей является тест "иголка в стоге сена" (NIAH), который включает в себя поиск "иголки" (соответствующей информации) в "стоге сена" (длинном нерелевантном контексте). Расширения этого подхода включают увеличение отвлекающих элементов, цепочки фактов и рассуждения в контексте. Однако в этих бенчмарках модели могут использовать существующие буквальные совпадения между иголкой и стогом, чтобы упростить задачу. Для решения этой проблемы мы представляем NoLiMa, бенчмарк, расширяющий NIAH с тщательно разработанным набором иголок, где вопросы и иголки имеют минимальное лексическое перекрытие, требуя от моделей выводить скрытые ассоциации для нахождения иголки в стоге сена. Мы оцениваем 12 популярных LLM, которые утверждают, что поддерживают контексты длиной не менее 128K токенов. Хотя они хорошо справляются с короткими контекстами (<1K), производительность значительно снижается с увеличением длины контекста. Например, при 32K 10 моделей падают ниже 50% своих сильных базовых значений короткой длины. Даже GPT-4o, одно из лучших исключений, испытывает снижение с почти идеального базового значения 99.3% до 69.7%. Наш анализ показывает, что эти снижения обусловлены увеличенной сложностью, с которой сталкивается механизм внимания в длинных контекстах, когда буквальные совпадения отсутствуют, что затрудняет поиск соответствующей информации.
В области интерпретации изображений синтетической апертурной радиолокации (SAR) с использованием дистанционного зондирования, несмотря на значительный прогресс языковых моделей Vision (VLM) в обработке естественного языка и понимании изображений, их применение остается ограниченным в профессиональных областях из-за недостаточной экспертизы в области. В данной статье впервые предлагается крупномасштабный мультимодальный диалоговый набор данных для изображений SAR под названием SARChat-2M, который содержит около 2 миллионов высококачественных пар изображение-текст, охватывает разнообразные сценарии с подробными аннотациями целей. Этот набор данных поддерживает несколько ключевых задач, таких как задачи визуального понимания и обнаружения объектов, а также имеет уникальные инновационные аспекты: в данном исследовании разрабатывается визуально-языковой набор данных и бенчмарк для области SAR, позволяющий оценить возможности VLM в интерпретации изображений SAR, что предоставляет парадигмальную основу для создания мультимодальных наборов данных в различных вертикальных областях дистанционного зондирования. Через эксперименты с 16 ведущими VLM полностью подтверждена эффективность набора данных, и успешно установлен первый многозадачный диалоговый бенчмарк в области SAR. Проект будет опубликован на https://github.com/JimmyMa99/SARChat с целью содействия глубокому развитию и широкому применению визуально-языковых моделей SAR.
Предсказание следующего токена (Next-Token Prediction, NTP) является фактическим подходом к авторегрессивной (AR) генерации видео, однако он страдает от неоптимальных однонаправленных зависимостей и медленной скорости вывода. В данной работе мы предлагаем полуавторегрессивную (semi-AR) структуру, названную Предсказание следующего блока (Next-Block Prediction, NBP), для генерации видео. Равномерно декомпозируя видеоконтент на блоки одинакового размера (например, строки или кадры), мы переносим единицу генерации отдельных токенов на блоки, позволяя каждому токену в текущем блоке одновременно предсказывать соответствующий токен в следующем блоке. В отличие от традиционного моделирования AR, наша структура использует двунаправленное внимание в каждом блоке, позволяя токенам захватывать более надежные пространственные зависимости. Предсказывая несколько токенов параллельно, модели NBP значительно сокращают количество шагов генерации, что приводит к более быстрому и эффективному выводу. Наша модель достигает показателей FVD на уровне 103.3 на UCF101 и 25.5 на K600, превосходя модель NTP на 4.4 в среднем. Благодаря сокращенному количеству шагов вывода, модель NBP генерирует 8.89 кадров (разрешение 128x128) в секунду, достигая ускорения в 11 раз. Мы также исследовали масштабы модели от 700M до 3B параметров, наблюдая значительные улучшения качества генерации, с показателями FVD снижающимися с 103.3 до 55.3 на UCF101 и с 25.5 до 19.5 на K600, демонстрируя масштабируемость нашего подхода.
Расширенная генерация с использованием поиска (RAG) - это передовая техника, разработанная для решения проблем, связанных с созданием контента искусственным интеллектом (AIGC). Интегрируя поиск контекста в генерацию контента, RAG обеспечивает надежные и актуальные внешние знания, снижает галлюцинации и обеспечивает соответствующий контекст в широком спектре задач. Однако, несмотря на успех и потенциал RAG, недавние исследования показали, что парадигма RAG также вносит новые риски, включая проблемы устойчивости, вопросы конфиденциальности, атаки злоумышленников и проблемы ответственности. Решение этих рисков критично для будущих приложений систем RAG, поскольку они напрямую влияют на их надежность. Хотя были разработаны различные методы для улучшения надежности методов RAG, отсутствует единая перспектива и рамка для исследований в этой области. Таким образом, в данной статье мы стремимся заполнить этот пробел, предоставив всестороннюю дорожную карту для разработки надежных систем RAG. Мы строим наше обсуждение вокруг пяти ключевых перспектив: надежность, конфиденциальность, безопасность, справедливость, объяснимость и ответственность. Для каждой перспективы мы представляем общую структуру и таксономию, предлагая структурированный подход к пониманию текущих проблем, оценке существующих решений и выявлению перспективных направлений будущих исследований. Для поощрения более широкого принятия и инноваций мы также выделяем прикладные области, где надежные системы RAG имеют значительное влияние.
В данной работе мы предлагаем архитектуру LLM-модулей, которая позволяет передавать знания от большой предварительно обученной модели к более маленькой модели с использованием механизма Улучшенного Перекрестного Внимания. В предложенной схеме модель Qwen2-1.5B замораживается, и ее представления передаются через специально разработанные слои внимания модели GPT-Neo-125M, которая обучена на ограниченных вычислительных ресурсах. Экспериментальные результаты на наборе данных Bespoke-Stratos-17k показывают, что после 15 эпох обучения комбинированная модель генерирует ответы с качеством, сравнимым с полученными при дистилляции. Мы обсуждаем преимущества модульного подхода, предоставляем примеры входных запросов и сравнительный анализ, а также намечаем перспективы для дальнейшего расширения метода.
Слияние моделей объединяет крупные языковые модели (LLM), донастроенные для различных задач, в более мощную. Однако конфликты параметров между моделями приводят к снижению производительности при усреднении. В то время как маршрутизация моделей решает эту проблему путем выбора отдельных моделей во время вывода, она накладывает избыточные затраты на хранение и вычисления, и не использует общие знания из различных моделей. В данной работе мы замечаем, что различные слои проявляют различные уровни конфликтов параметров. Основываясь на этом наблюдении, мы усредняем слои с минимальными конфликтами параметров и используем новую маршрутизацию экспертов на уровне задач для слоев с значительными конфликтами. Для дальнейшего снижения затрат на хранение, вдохновленные арифметической разреженностью задач, мы разделяем несколько донастроенных экспертов на плотного эксперта и несколько разреженных экспертов. Учитывая выборки вне распределения, мы выбираем и объединяем соответствующих экспертов на основе неопределенности задачи входных данных. Мы проводим обширные эксперименты как на LLaMA, так и на Qwen с различными масштабами параметров и оцениваем на реальных задачах рассуждения. Результаты показывают, что наш метод последовательно достигает значительного улучшения производительности, требуя меньших системных затрат по сравнению с существующими методами.
Мы предлагаем новую динамическую систему безопасности, которая оптимизирует рассуждения о безопасности модели языка (LM) во время вывода без изменения весов модели. Основываясь на последних достижениях в методах самокритики, наш подход использует механизм мета-критики, который итеративно обновляет безопасные подсказки, называемые спецификациями, для управления процессом критики и корректировки адаптивно. Эта оптимизация на этапе тестирования не только улучшает производительность против запросов на нарушение безопасности, но также в различных общих задачах безопасности, таких как избегание морального вреда или стремление к честным ответам. Наши эмпирические оценки на нескольких моделях языка показывают, что динамически оптимизированные безопасные подсказки значительно повышают показатели безопасности по сравнению с фиксированными системными подсказками и статическими методами самокритики. Код будет опубликован на https://github.com/vicgalle/meta-self-critique.git.
Плотное контрастное обучение представлений (DCRL) значительно улучшило эффективность обучения для задач плотного прогнозирования изображений, показав свой большой потенциал для снижения больших затрат на сбор медицинских изображений и плотную аннотацию. Однако свойства медицинских изображений делают обнаружение ненадежных соответствий, что приводит к открытой проблеме большого количества ложноположительных и ложноотрицательных (FP&N) пар в DCRL. В данной статье мы предлагаем обучение GEoMetric vIsual deNse sImilarity (GEMINI), которое внедряет априорное гомеоморфное свойство в DCRL и обеспечивает надежное обнаружение соответствий для эффективного плотного контраста. Мы предлагаем обучение деформируемого гомеоморфизма (DHL), которое моделирует гомеоморфизм медицинских изображений и учится оценивать деформируемое отображение для предсказания соответствия пикселей с сохранением топологии. Это эффективно сокращает пространство поиска пар и обеспечивает неявное и мягкое обучение отрицательных пар с помощью градиента. Мы также предлагаем геометрическую семантическую схожесть (GSS), которая извлекает семантическую информацию из признаков для измерения степени выравнивания при обучении соответствию. Это способствует эффективности обучения и производительности деформации, обеспечивая надежное создание положительных пар. Мы реализуем два практических варианта на двух типичных задачах обучения представлений в наших экспериментах. Наши многообещающие результаты на семи наборах данных, превосходящие существующие методы, демонстрируют наше великое превосходство. Мы опубликуем наш код по ссылке-партнеру: https://github.com/YutingHe-list/GEMINI.