Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя задача замены лиц недавно привлекла внимание исследовательского сообщества, связанная проблема замены головы остается в значительной степени неисследованной. Помимо передачи цвета кожи, замена головы ставит дополнительные задачи, такие как необходимость сохранения структурной информации всей головы в процессе синтеза и заполнение пробелов между замененной головой и фоном. В данной работе мы решаем эти проблемы с помощью GHOST 2.0, который состоит из двух специализированных модулей. Во-первых, мы представляем улучшенную модель Aligner для воссоздания головы, которая сохраняет информацию о личности на нескольких масштабах и устойчива к экстремальным изменениям позы. Во-вторых, мы используем модуль Blender, который бесшовно интегрирует воссозданную голову в целевой фон, передавая цвет кожи и заполняя несоответствующие области. Оба модуля превосходят базовые подходы в соответствующих задачах, что позволяет достичь передовых результатов в замене головы. Мы также рассматриваем сложные случаи, такие как значительная разница в прическах исходного и целевого изображений. Код доступен по адресу: https://github.com/ai-forever/ghost-2.0.
Мы представляем Kanana, серию двуязычных языковых моделей, демонстрирующих выдающуюся производительность на корейском языке и конкурентоспособные результаты на английском. Вычислительные затраты Kanana значительно ниже, чем у современных моделей аналогичного размера. В отчете подробно описаны методы, использованные на этапе предварительного обучения для создания вычислительно эффективных, но конкурентоспособных моделей, включая фильтрацию данных высокого качества, поэтапное предварительное обучение, масштабирование глубины, а также обрезку и дистилляцию. Кроме того, в отчете изложены методологии, применяемые на этапе пост-обучения моделей Kanana, такие как контролируемая тонкая настройка и оптимизация предпочтений, направленные на повышение их способности к бесшовному взаимодействию с пользователями. Наконец, в отчете рассматриваются возможные подходы к адаптации языковых моделей к конкретным сценариям, включая встраивание, генерацию с усилением за счет извлечения и вызов функций. Серия моделей Kanana охватывает диапазон от 2,1 млрд до 32,5 млрд параметров, при этом модели с 2,1 млрд параметров (базовая, инструктивная и для встраивания) публично выпущены для содействия исследованиям в области корейских языковых моделей.
Научные открытия зависят от способности ученых генерировать новые гипотезы, которые затем проходят строгую экспериментальную проверку. Для усиления этого процесса мы представляем ИИ-ассистента ученого — многоагентную систему, построенную на основе Gemini 2.0. Этот ИИ-ассистент призван помогать в открытии нового, оригинального знания и формулировании демонстративно новых исследовательских гипотез и предложений, основываясь на предыдущих данных и следуя целям и указаниям, предоставленным учеными. Дизайн системы включает подход "генерация, обсуждение и эволюция" к созданию гипотез, вдохновленный научным методом и ускоренный за счет масштабирования вычислительных ресурсов на этапе тестирования. Ключевые вклады включают: (1) многоагентную архитектуру с асинхронной системой выполнения задач для гибкого масштабирования вычислений; (2) процесс эволюции в формате турнира для самосовершенствования генерации гипотез. Автоматизированные оценки показывают устойчивые преимущества увеличения вычислительных ресурсов на этапе тестирования, улучшая качество гипотез. Хотя система универсальна, мы сосредоточили разработку и валидацию на трех биомедицинских направлениях: перепрофилирование лекарств, открытие новых мишеней и объяснение механизмов бактериальной эволюции и антимикробной резистентности. В области перепрофилирования лекарств система предложила кандидаты с многообещающими результатами валидации, включая кандидаты для лечения острого миелоидного лейкоза, демонстрирующие ингибирование опухоли in vitro при клинически применимых концентрациях. В открытии новых мишеней ИИ-ассистент предложил новые эпигенетические мишени для лечения фиброза печени, подтвержденные антифибротической активностью и регенерацией клеток печени в человеческих гепатоидных органоидах. Наконец, ИИ-ассистент воспроизвел неопубликованные экспериментальные результаты, параллельно открыв in silico новый механизм переноса генов в бактериальной эволюции. Эти результаты, подробно описанные в отдельных, синхронно опубликованных отчетах, демонстрируют потенциал усиления биомедицинских и научных открытий и открывают эру ученых, усиленных ИИ.
Понимание теорем, специфичных для конкретной области, часто требует большего, чем просто текстового рассуждения; эффективная коммуникация через структурированные визуальные объяснения имеет решающее значение для более глубокого понимания. Хотя крупные языковые модели (LLM) демонстрируют высокую производительность в текстовом рассуждении о теоремах, их способность генерировать последовательные и педагогически значимые визуальные объяснения остается открытой проблемой. В данной работе мы представляем TheoremExplainAgent, агентный подход для создания длинных видеороликов с объяснением теорем (более 5 минут) с использованием анимаций Manim. Для систематической оценки мультимодальных объяснений теорем мы предлагаем TheoremExplainBench, эталонный набор, охватывающий 240 теорем из различных STEM-дисциплин, а также 5 автоматизированных метрик оценки. Наши результаты показывают, что агентное планирование необходимо для создания детализированных длинных видеороликов, и агент o3-mini достигает успешности в 93,8% и общего балла 0,77. Однако наши количественные и качественные исследования показывают, что большинство созданных видеороликов имеют незначительные проблемы с компоновкой визуальных элементов. Кроме того, мультимодальные объяснения выявляют более глубокие недостатки в рассуждениях, которые текстовые объяснения не способны обнаружить, подчеркивая важность мультимодальных объяснений.
Несмотря на ключевую роль Греции в мировой экономике, крупные языковые модели (LLM) остаются недостаточно изученными в контексте греческих финансов из-за лингвистической сложности греческого языка и нехватки специализированных наборов данных. Предыдущие усилия в области многоязыковой обработки естественного языка (NLP) для финансов выявили значительные различия в производительности, однако до сих пор не было разработано специализированных эталонов для греческих финансов или греко-ориентированных финансовых LLM. Чтобы устранить этот пробел, мы представляем Plutus-ben — первый эталон для оценки греческих финансовых моделей, и Plutus-8B — первую греческую финансовую LLM, дообученную на греческих доменно-специфических данных. Plutus-ben охватывает пять ключевых задач финансового NLP на греческом языке: распознавание числовых и текстовых именованных сущностей, ответы на вопросы, абстрактное суммирование и классификация тем, что способствует систематической и воспроизводимой оценке LLM. Для поддержки этих задач мы представляем три новых высококачественных набора данных по греческим финансам, тщательно аннотированных экспертами — носителями греческого языка, дополненных двумя существующими ресурсами. Наше всестороннее тестирование 22 LLM на Plutus-ben показывает, что греческий финансовый NLP остается сложной задачей из-за лингвистической сложности, доменно-специфической терминологии и пробелов в финансовом мышлении. Эти результаты подчеркивают ограничения кросс-лингвального переноса, необходимость финансовой экспертизы в моделях, обученных на греческих данных, и трудности адаптации финансовых LLM к греческому тексту. Мы публикуем Plutus-ben, Plutus-8B и все связанные наборы данных в открытом доступе, чтобы способствовать воспроизводимым исследованиям и продвижению греческого финансового NLP, способствуя более широкой многоязыковой инклюзивности в финансах.
Многоязычные языковые модели (LMs) должны последовательно воспроизводить фактические знания на разных языках, однако они часто не могут передавать знания между языками, даже если обладают правильной информацией на одном из них. Например, мы обнаружили, что LM может правильно определить, что Рашед Аль Шашаи родом из Саудовской Аравии, когда вопрос задан на арабском языке, но постоянно ошибается, если вопрос задан на английском или суахили. Чтобы систематически исследовать это ограничение, мы представляем бенчмарк из 10 000 фактов, связанных с странами, на 13 языках, и предлагаем три новых метрики: Factual Recall Score (оценка воспроизведения фактов), Knowledge Transferability Score (оценка передаваемости знаний) и Cross-Lingual Factual Knowledge Transferability Score (оценка кросс-языковой передаваемости фактических знаний) — для количественной оценки воспроизведения фактов и передаваемости знаний в LMs на разных языках. Наши результаты выявляют фундаментальные слабости современных передовых LMs, особенно в кросс-языковой генерализации, где модели не могут эффективно передавать знания между разными языками, что приводит к нестабильной производительности, зависящей от используемого языка. Наши выводы подчеркивают необходимость того, чтобы LMs распознавали языковую специфику надежности фактов и использовали наиболее достоверную информацию на разных языках. Мы публикуем наш бенчмарк и оценочную структуру для стимулирования будущих исследований в области многоязычной передачи знаний.
В последнее время модели, подобные o1, привлекли значительное внимание, поскольку они генерируют длинные цепочки рассуждений (Chain-of-Thought, CoT), что позволяет улучшить способности к рассуждению у существующих крупных языковых моделей (Large Language Models, LLMs). В данной статье, чтобы понять качество этих длинных CoT и оценить способность существующих LLM критически анализировать их, мы представляем DeltaBench, включающий сгенерированные длинные CoT от различных моделей, подобных o1 (например, QwQ, DeepSeek-R1), для различных задач рассуждений (например, математика, программирование, общие рассуждения), чтобы измерить способность обнаруживать ошибки в длинных CoT. На основе DeltaBench мы сначала проводим детальный анализ сгенерированных длинных CoT, чтобы выявить эффективность и производительность различных моделей, подобных o1. Затем мы проводим обширные оценки существующих моделей оценки процессов (process reward models, PRMs) и критических моделей для обнаружения ошибок в каждом аннотированном процессе, что позволяет исследовать границы и ограничения существующих PRM и критических моделей. Наконец, мы надеемся, что DeltaBench поможет разработчикам лучше понять способности своих моделей к длинным CoT-рассуждениям.
Мы представляем Rank1 — первую модель ранжирования, обученную с использованием вычислительных ресурсов на этапе тестирования. Rank1 демонстрирует применимость в задачах поиска использования языковой модели с возможностью рассуждений (например, OpenAI o1, Deepseek R1 и др.) для дистилляции с целью быстрого улучшения производительности меньшей модели. Мы собрали и открыли доступ к набору данных, содержащему более 600 000 примеров трасс рассуждений R1, полученных из запросов и текстов MS MARCO. Модели, обученные на этом наборе данных, показывают: (1) передовые результаты на наборах данных для сложных рассуждений и выполнения инструкций; (2) отличную работу на данных, выходящих за пределы распределения, благодаря способности реагировать на пользовательские запросы; и (3) объяснимые цепочки рассуждений, которые могут быть предоставлены пользователям или системам на основе RAG. Кроме того, мы показываем, что квантованные версии этих моделей сохраняют высокую производительность при меньших затратах вычислительных ресурсов и памяти. В целом, Rank1 демонстрирует, что использование вычислительных ресурсов на этапе тестирования позволяет создать принципиально новый тип объяснимой и эффективной модели ранжирования для поиска.
Модели вознаграждения (Reward Models, RMs) играют ключевую роль в обучении и масштабировании больших языковых моделей (Large Language Models, LLMs) на этапе вывода. Однако существующие модели вознаграждения в основном сосредоточены на человеческих предпочтениях, игнорируя проверяемые сигналы корректности, которые показали значительный потенциал в обучении LLM. В данной статье мы предлагаем агентное моделирование вознаграждения — систему вознаграждения, которая объединяет модели вознаграждения с проверяемыми сигналами корректности из различных аспектов для обеспечения надежных вознаграждений. Мы эмпирически реализуем агента вознаграждения, названного RewardAgent, который сочетает вознаграждения на основе человеческих предпочтений с двумя проверяемыми сигналами: фактической точностью и следованием инструкциям, чтобы обеспечить более надежные вознаграждения. Мы проводим всесторонние эксперименты на существующих бенчмарках моделей вознаграждения и методах поиска "best-of-n" на этапе вывода для реальных задач. RewardAgent значительно превосходит стандартные модели вознаграждения, демонстрируя свою эффективность. Мы также создаем пары предпочтений для обучения с использованием RewardAgent и обучаем LLM с использованием цели DPO, достигая превосходной производительности на различных NLP-бенчмарках по сравнению с традиционными моделями вознаграждения. Наш код публично доступен для дальнейших исследований (https://github.com/THU-KEG/Agentic-Reward-Modeling).
Растет энтузиазм по поводу потенциала языковых моделей (Language Models, LMs) для ускорения научных открытий. Опровержение гипотез является ключевым элементом научного прогресса, так как позволяет постепенно уточнять утверждения. Этот процесс требует значительных усилий, рассуждений и изобретательности со стороны исследователей. Однако современные бенчмарки для LMs в основном оценивают их способность генерировать решения, а не оспаривать их. Мы выступаем за разработку бенчмарков, которые оценивают эту обратную способность — создание контрпримеров для слегка некорректных решений. Чтобы продемонстрировать этот подход, мы начинаем с области алгоритмического решения задач, где контрпримеры могут быть автоматически оценены с помощью выполнения кода. В частности, мы представляем REFUTE — динамически обновляемый бенчмарк, который включает недавние задачи и некорректные решения из соревнований по программированию, где эксперты успешно идентифицировали контрпримеры. Наш анализ показывает, что даже лучшие модели рассуждений, такие как OpenAI o3-mini (высокий уровень) с обратной связью от выполнения кода, могут создавать контрпримеры только для <9% некорректных решений в REFUTE, несмотря на то, что рейтинги указывают на их способность решать до 48% этих задач с нуля. Мы надеемся, что наша работа стимулирует прогресс в оценке и улучшении способности LMs опровергать некорректные решения — способности, которая крайне важна как для ускорения исследований, так и для самоулучшения моделей через надежное рефлексивное рассуждение.
Платные подписки, лицензии и правила авторского права часто ограничивают широкое распространение и повторное использование научных знаний. Мы придерживаемся позиции, что извлечение научных знаний из академических текстов является как юридически, так и технически осуществимым. Современные методы, такие как текстовые эмбеддинги, не обеспечивают надежного сохранения фактического содержания, а простое перефразирование может быть юридически несостоятельным. Мы призываем сообщество принять новую идею: преобразование научных документов в "Единицы знаний" с использованием языковых моделей (LLM). Эти единицы используют структурированные данные, фиксирующие сущности, атрибуты и отношения, без стилистического содержания. Мы предоставляем доказательства того, что Единицы знаний: (1) формируют юридически защищаемую основу для обмена знаниями из текстов, защищенных авторским правом, на основе анализа немецкого законодательства об авторском праве и доктрины "добросовестного использования" в США, и (2) сохраняют большую часть (~95%) фактических знаний из оригинального текста, что измеряется производительностью на тестах с множественным выбором (MCQ) по фактам из оригинального текста в четырех исследовательских областях. Освобождение научных знаний от ограничений авторского права обещает трансформационные преимущества для научных исследований и образования, позволяя языковым моделям повторно использовать важные факты из защищенных текстов. Для поддержки этого мы предоставляем открытые инструменты для преобразования исследовательских документов в Единицы знаний. В целом, наша работа утверждает возможность демократизации доступа к научным знаниям при уважении авторских прав.
Обучение моделей "Видение-Язык" (VLMs) для агентов, взаимодействующих с графическими пользовательскими интерфейсами (GUI), с использованием обучения с подкреплением (RL) сталкивается с серьезными проблемами: RL, основанный на взаимодействии со средой, требует дорогостоящих взаимодействий, в то время как методы, не зависящие от среды, испытывают трудности с распределительным сдвигом и обобщением наград. Мы предлагаем RL-фреймворк, не зависящий от среды, который разделяет оценку ценности и оптимизацию политики, используя предобученную Модель Ценности Среды (VEM). VEM предсказывает значения состояний и действий напрямую на основе оффлайн-данных, извлекая априорные знания, подобные человеческим, о результатах взаимодействия с GUI, без необходимости предсказания следующего состояния или обратной связи от среды. Это позволяет избежать накопления ошибок и повышает устойчивость к изменениям интерфейса, фокусируясь на семантическом анализе (например, "Продвигает ли это действие цель пользователя?"). Фреймворк работает в два этапа: (1) предобучение VEM для оценки долгосрочной полезности действий и (2) направление исследования политики с использованием замороженных сигналов VEM, что позволяет автоматизировать GUI независимо от его структуры. Оценка на бенчмарках Android-in-the-Wild показывает, что VEM достигает наилучших результатов как в оффлайн, так и в онлайн-режимах, значительно превосходя методы, не зависящие от среды, и сопоставим с подходами, основанными на взаимодействии со средой, без затрат на взаимодействие. Важно отметить, что VEM демонстрирует, что семантически осознанная оценка ценности может достичь сопоставимой производительности с методами, обученными в онлайн-режиме.
Монокулярное оценивание глубины (MDE) направлено на предсказание глубины сцены по одному RGB-изображению и играет ключевую роль в понимании трехмерных сцен. Последние достижения в области MDE с нулевым обучением используют нормализованные представления глубины и обучение на основе дистилляции для улучшения обобщения на разнообразные сцены. Однако современные методы нормализации глубины для дистилляции, основанные на глобальной нормализации, могут усиливать шум в псевдометках, снижая эффективность дистилляции. В данной работе мы систематически анализируем влияние различных стратегий нормализации глубины на дистилляцию псевдометок. На основе полученных результатов мы предлагаем метод Cross-Context Distillation, который интегрирует глобальные и локальные подсказки глубины для повышения качества псевдометок. Кроме того, мы представляем фреймворк многопреподавательской дистилляции, который использует комплементарные сильные стороны различных моделей оценивания глубины, что приводит к более устойчивым и точным предсказаниям глубины. Эксперименты на эталонных наборах данных демонстрируют, что наш подход значительно превосходит современные методы как количественно, так и качественно.
Языковые модели в значительной степени зависят от высококачественных данных для оптимальной работы. Существующие подходы полагаются на ручную разработку эвристик, перплексию существующих моделей, обучение классификаторов или тщательное проектирование промптов, что требует значительного экспертного опыта и усилий по аннотированию данных, а также вносит предвзятость. Мы представляем CritiQ — новый метод отбора данных, который автоматически извлекает критерии из человеческих предпочтений для оценки качества данных, используя всего 30 аннотированных пар, и выполняет эффективный отбор данных. Основной компонент, CritiQ Flow, использует агента-менеджера для развития критериев качества и агентов-исполнителей для попарных суждений. Мы создаем базу знаний, которая извлекает критерии качества из предыдущих работ, чтобы усилить CritiQ Flow. По сравнению с методами, основанными на перплексии и классификаторах, вербальные критерии более интерпретируемы и обладают повторно используемой ценностью. После вывода критериев мы обучаем CritiQ Scorer для присвоения оценок качества и выполнения эффективного отбора данных. Мы демонстрируем эффективность нашего метода в областях кода, математики и логики, достигая высокой точности на аннотированных человеком тестовых наборах. Для проверки качества отобранных данных мы продолжаем обучение моделей Llama 3.1 и наблюдаем улучшение производительности на последующих задачах по сравнению с равномерной выборкой. Абляционные исследования подтверждают преимущества базы знаний и процесса рефлексии. Мы анализируем, как эволюционируют критерии, и эффективность голосования большинством.
Крупные языковые модели (LLM) всё чаще применяются в повседневных задачах, что требует от них устойчивых общих навыков рассуждения и разнообразного набора способностей к логическому мышлению. Однако текущие тесты для оценки рассуждений LLM в основном сосредоточены на математических и программистских навыках, оставляя пробел в оценке более широких способностей к рассуждению. Одним из исключений является набор данных BIG-Bench, который стал важным эталоном для оценки общих способностей LLM к рассуждению благодаря разнообразию сложных задач, позволяющих всесторонне оценить общие навыки рассуждения в рамках единой структуры. Однако последние достижения в области LLM привели к насыщению как BIG-Bench, так и его более сложной версии BIG-Bench Hard (BBH). Современные модели достигают почти идеальных результатов на многих задачах в BBH, что снижает его полезность. Чтобы устранить это ограничение, мы представляем BIG-Bench Extra Hard (BBEH) — новый эталон, призванный расширить границы оценки способностей LLM к рассуждению. BBEH заменяет каждую задачу в BBH на новую, которая исследует аналогичные способности к рассуждению, но при этом значительно увеличивает сложность. Мы оцениваем различные модели на BBEH и наблюдаем среднюю (гармоническую) точность 9,8% для лучшей универсальной модели и 44,8% для лучшей специализированной модели, что указывает на значительный потенциал для улучшения и подчеркивает сохраняющуюся сложность достижения устойчивых общих навыков рассуждения в LLM. Мы публикуем BBEH в открытом доступе по адресу: https://github.com/google-deepmind/bbeh.
Эффективная персонализация LLM является критически важной для широкого спектра приложений, взаимодействующих с пользователем, таких как виртуальные ассистенты и кураторы контента. Вдохновленные сильными возможностями контекстного обучения LLM, мы предлагаем подход Few-Shot Preference Optimization (FSPO), который переосмысливает моделирование вознаграждения как проблему мета-обучения. В рамках этой концепции LLM учится быстро адаптироваться к пользователю через несколько помеченных предпочтений этого пользователя, создавая персонализированную функцию вознаграждения для них. Кроме того, поскольку реальные данные о предпочтениях являются редкими и сложными для сбора в масштабе, мы предлагаем тщательно продуманные выборы для создания синтетических наборов данных о предпочтениях для персонализации, генерируя более 1 млн синтетических персонализированных предпочтений с использованием общедоступных LLM. В частности, для успешного переноса с синтетических данных на реальных пользователей мы считаем важным, чтобы данные проявляли как высокое разнообразие, так и последовательную, самосогласованную структуру. Мы оцениваем FSPO на персонализированной генерации открытого текста для до 1,500 синтетических пользователей в трех областях: обзоры фильмов, педагогическая адаптация на основе образовательного фона и общие ответы на вопросы, а также с контролируемым исследованием с участием людей. В целом, FSPO достигает победы в 87% случаев в Alpaca Eval в среднем при генерации ответов, персонализированных для синтетических пользователей, и в 72% случаев с реальными людьми при ответах на открытые вопросы.
Архитектура "Смесь экспертов" (Mixture of Experts, MoE) значительно снижает затраты на обучение и вывод по сравнению с плотной моделью эквивалентной мощности. Метод "апсайклинга" заключается в инициализации и обучении модели MoE с использованием предварительно обученной плотной модели. Хотя апсайклинг приводит к начальному улучшению производительности, процесс обучения происходит медленнее, чем при обучении с нуля, что в долгосрочной перспективе приводит к неоптимальным результатам. Мы предлагаем метод Drop-Upcycling, который эффективно решает эту проблему. Drop-Upcycling объединяет два, казалось бы, противоречивых подхода: использование знаний предварительно обученных плотных моделей при статистической повторной инициализации некоторых частей весов. Этот подход стратегически способствует специализации экспертов, значительно повышая эффективность модели MoE в усвоении знаний. Масштабные эксперименты показывают, что Drop-Upcycling значительно превосходит предыдущие методы построения MoE в долгосрочной перспективе, особенно при обучении на сотнях миллиардов токенов и более. В результате наша модель MoE с 5,9 миллиардами активных параметров достигает сопоставимой производительности с плотной моделью на 13 миллиардов параметров из того же семейства моделей, при этом требуя примерно 1/4 вычислительных затрат (FLOPs) на обучение. Все экспериментальные ресурсы, включая исходный код, обучающие данные, контрольные точки модели и логи, находятся в открытом доступе для обеспечения воспроизводимости и дальнейших исследований в области MoE.
Эффективное взаимодействие в управлении воздушным движением (ATC) критично для обеспечения безопасности авиации, однако проблемы, вызванные акцентированным английским, остаются в значительной степени нерешенными в системах автоматического распознавания речи (ASR). Существующие модели испытывают трудности с точностью транскрипции речи с юго-восточноазиатским акцентом (SEA-акцентом), особенно в шумных средах ATC. В данном исследовании представлено развитие моделей ASR, настроенных специально на юго-восточноазиатские акценты с использованием недавно созданного набора данных. Наши исследования достигают значительных улучшений, достигая уровня ошибок слов (WER) 0.0982 или 9.82% для речи с SEA-акцентом в ATC. Кроме того, в статье подчеркивается важность региональных наборов данных и обучения с акцентом, предлагая путь для внедрения систем ASR в ресурсоемкие военные операции. Полученные результаты подчеркивают необходимость техник обучения, устойчивых к шуму, и региональных наборов данных для улучшения точности транскрипции для не-западных акцентов в коммуникациях ATC.
По мере того как модели искусственного интеллекта всё чаще внедряются в разнообразные реальные сценарии, обеспечение их безопасности остаётся критической, но недостаточно изученной задачей. Несмотря на значительные усилия, направленные на оценку и повышение безопасности ИИ, отсутствие стандартизированной структуры и комплексного инструментария создаёт серьёзные препятствия для систематических исследований и практического применения. Чтобы устранить этот пробел, мы представляем AISafetyLab — унифицированную структуру и инструментарий, который интегрирует репрезентативные методы атак, защиты и оценки безопасности ИИ. AISafetyLab обладает интуитивно понятным интерфейсом, позволяющим разработчикам легко применять различные методы, сохраняя при этом хорошо структурированную и расширяемую кодовую базу для будущих улучшений. Кроме того, мы проводим эмпирические исследования на модели Vicuna, анализируя различные стратегии атак и защиты, чтобы предоставить ценные данные об их сравнительной эффективности. Для содействия дальнейшим исследованиям и разработкам в области безопасности ИИ AISafetyLab доступен публично по адресу https://github.com/thu-coai/AISafetyLab, и мы стремимся к его постоянному поддержанию и совершенствованию.
Установление взаимосвязи между трехмерными структурами и энергетическими состояниями молекулярных систем оказалось перспективным подходом для обучения трехмерным молекулярным представлениям. Однако существующие методы ограничиваются моделированием энергетических состояний молекул в рамках классической механики. Это ограничение приводит к значительному упущению квантовомеханических эффектов, таких как квантованные (дискретные) энергетические уровни, которые позволяют более точно оценивать энергию молекул и могут быть экспериментально измерены с помощью энергетических спектров. В данной работе мы предлагаем использовать энергетические спектры для улучшения предварительного обучения трехмерных молекулярных представлений (MolSpectra), тем самым интегрируя знания квантовой механики в молекулярные представления. В частности, мы предлагаем SpecFormer — мультиспектральный кодировщик для кодирования молекулярных спектров с использованием маскированного восстановления патчей. Дополнительно выравнивая выходы трехмерного кодировщика и спектрального кодировщика с помощью контрастивной функции, мы улучшаем понимание трехмерным кодировщиком молекул. Оценки на публичных бенчмарках показывают, что наши предварительно обученные представления превосходят существующие методы в предсказании молекулярных свойств и моделировании динамики.
Техники редактирования знаний стали неотъемлемыми инструментами для обновления фактических знаний больших языковых моделей (LLM) и мультимодальных моделей (LMM), позволяя им исправлять устаревшую или неточную информацию без повторного обучения с нуля. Однако существующие эталоны для редактирования мультимодальных знаний в основном сосредоточены на знаниях на уровне сущностей, представленных в виде простых троек, что не удается уловить сложность мультимодальной информации реального мира. Для решения этой проблемы мы представляем MMKE-Bench, обширный эталон для редактирования мультимодальных знаний, разработанный для оценки способности LMM редактировать разнообразные визуальные знания в реальных сценариях. MMKE-Bench решает эти ограничения, включая три типа задач редактирования: редактирование визуальной сущности, редактирование визуальной семантики и редактирование для конкретного пользователя. Кроме того, MMKE-Bench использует естественный язык произвольной формы для представления и редактирования знаний, предлагая более гибкий и эффективный формат. Эталон состоит из 2 940 фрагментов знаний и 8 363 изображений в 33 широких категориях, с вопросами оценки, созданными автоматически и проверенными людьми. Мы оцениваем пять передовых методов редактирования знаний на трех ведущих LMM, выявляя, что ни один метод не превосходит по всем критериям, и что визуальные и редактирования для конкретного пользователя являются особенно сложными. MMKE-Bench устанавливает новый стандарт для оценки надежности техник редактирования мультимодальных знаний, способствуя прогрессу в этом быстро развивающемся поле.
Большие языковые модели (LLM) стали неотъемлемой частью задач обработки естественного языка. Однако авторегрессионная выборка стала узким местом в эффективности. Многодрафтовое спекулятивное декодирование (MDSD) - это недавний подход, при котором при генерации каждого токена небольшая модель-черновик создает несколько черновиков, и целевая LLM проверяет их параллельно, обеспечивая соответствие окончательного вывода распределению целевой модели. Два основных выбора дизайна в MDSD - это метод выборки черновиков и алгоритм верификации. Для фиксированного метода выборки черновиков оптимальная скорость принятия является решением задачи оптимальной транспортировки, но сложность этой задачи затрудняет нахождение оптимальной скорости принятия и измерение разрыва между существующими алгоритмами верификации и теоретическим верхним пределом. В данной статье обсуждается двойственность задачи оптимальной транспортировки, предоставляя способ эффективного вычисления оптимальной скорости принятия. Впервые мы измеряем теоретический верхний предел эффективности MDSD для размеров словарей в тысячах и количественно оцениваем разрыв между существующими алгоритмами верификации и этим пределом. Мы также сравниваем различные методы выборки черновиков на основе их оптимальных скоростей принятия. Наши результаты показывают, что метод выборки черновиков сильно влияет на оптимальную скорость принятия, причем выборка без повторений превосходит выборку с повторениями. Кроме того, существующие алгоритмы верификации не достигают теоретического верхнего предела как для выборки без повторений, так и для выборки с повторениями. Наши результаты предполагают, что тщательно разработанные методы выборки черновиков могут потенциально улучшить оптимальную скорость принятия и позволить разработке алгоритмов верификации, которые близки к теоретическому верхнему пределу.
Создание точных и лаконичных текстовых сводок из мультимодальных документов является сложной задачей, особенно при работе с визуально сложным контентом, таким как научные постеры. Мы представляем PosterSum — новый эталонный набор данных, призванный способствовать развитию моделей, способных понимать и обобщать научные постеры в виде аннотаций к исследовательским статьям. Наш набор данных включает 16 305 конференционных постеров, сопряженных с соответствующими аннотациями в качестве сводок. Каждый постер представлен в формате изображения и содержит разнообразные задачи для визуального анализа, такие как сложные макеты, плотные текстовые области, таблицы и графики. Мы тестируем современные мультимодальные языковые модели (MLLMs) на PosterSum и показываем, что они испытывают трудности с точной интерпретацией и обобщением научных постеров. Мы предлагаем метод Segment & Summarize, иерархический подход, который превосходит текущие MLLMs по автоматизированным метрикам, достигая улучшения на 3,14% по ROUGE-L. Это послужит отправной точкой для будущих исследований в области обобщения постеров.
Слабо контролируемая семантическая сегментация (WSSS) обычно использует ограниченные семантические аннотации для получения начальных карт активации классов (CAM). Однако из-за недостаточной связи между активацией классов и семантической информацией в высокоразмерном пространстве CAM подвержена проблемам совместного появления объектов или недостаточной активации, что приводит к снижению точности распознавания. Для решения этой проблемы мы предлагаем DOEI (Dual Optimization of Embedding Information) — новый подход, который реконструирует встраиваемые представления с помощью семантически осознанных матриц весов внимания, чтобы оптимизировать способность выражения встраиваемой информации. В частности, DOEI усиливает токены с высокой уверенностью и подавляет токены с низкой уверенностью в процессе взаимодействия класса с патчем. Это выравнивание активационных ответов с семантической информацией усиливает распространение и разделение целевых признаков, позволяя сгенерированным встраиваниям более точно представлять целевые признаки в высокоуровневом семантическом пространстве. Кроме того, мы предлагаем модуль гибридного выравнивания признаков в DOEI, который объединяет значения RGB, признаки, управляемые встраиванием, и веса самовнимания для повышения надежности кандидатных токенов. Комплексные эксперименты показывают, что DOEI является эффективным модулем plug-and-play, который позволяет современным моделям WSSS на основе визуальных трансформеров значительно улучшить качество CAM и производительность сегментации на популярных бенчмарках, включая PASCAL VOC (+3,6%, +1,5%, +1,2% mIoU) и MS COCO (+1,2%, +1,6% mIoU). Код будет доступен по адресу https://github.com/AIGeeksGroup/DOEI.