Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением с верифицируемыми наградами (RLVR) недавно продемонстрировало значительный успех в улучшении способностей крупных языковых моделей (LLM) к рассуждению, особенно в задачах математики и программирования. Широко распространено мнение, что RLVR позволяет LLM непрерывно самосовершенствоваться, приобретая новые способности к рассуждению, которые превосходят возможности базовых моделей. Однако в данном исследовании мы критически пересматриваем это предположение, измеряя метрику pass@k при больших значениях k, чтобы изучить границы способностей моделей к рассуждению в широком спектре семейств моделей и бенчмарков. Удивительно, но RL на самом деле не вызывает принципиально новых паттернов рассуждения. Хотя модели, обученные с RL, превосходят свои базовые версии при меньших значениях k (например, k=1), базовые модели могут достичь сопоставимого или даже более высокого показателя pass@k по сравнению с их RL-аналогами при больших значениях k. Пути рассуждения, генерируемые моделями, обученными с RL, уже включены в распределение выборки базовых моделей, что свидетельствует о том, что большинство способностей к рассуждению, проявляемых в RL-обученных моделях, уже доступны базовым моделям. Дополнительный анализ показывает, что обучение с RL повышает производительность, смещая распределение выходных данных модели в сторону путей, которые с большей вероятностью принесут награду, тем самым более эффективно выбирая правильные ответы. Однако это также приводит к более узкой границе способностей к рассуждению по сравнению с базовыми моделями. Подобные результаты наблюдаются и в задачах визуального рассуждения, обученных с RLVR. Более того, мы обнаруживаем, что дистилляция может действительно вносить новые знания в модель, в отличие от RLVR. Эти результаты подчеркивают критическое ограничение RLVR в продвижении способностей LLM к рассуждению, что заставляет нас фундаментально переосмыслить влияние RL-обучения на модели рассуждения и необходимость поиска лучшей парадигмы. Страница проекта: https://limit-of-RLVR.github.io
Генерация, усиленная поиском (RAG), позволяет крупным языковым моделям получать доступ к внешним и частным корпусам данных, обеспечивая фактологически согласованные ответы в конкретных предметных областях. Используя внутреннюю структуру корпуса, графовые методы RAG дополнительно обогащают этот процесс, создавая индекс графа знаний и используя структурные свойства графов. Однако современные графовые подходы RAG редко уделяют внимание проектированию графовых структур. Недостаточно продуманные графы не только затрудняют бесшовную интеграцию разнообразных графовых алгоритмов, но и приводят к несогласованности рабочих процессов и снижению производительности. Чтобы раскрыть весь потенциал графов для RAG, мы предлагаем NodeRAG — графоцентричную структуру, которая вводит гетерогенные графовые структуры, позволяющие бесшовно и целостно интегрировать графовые методологии в рабочий процесс RAG. Благодаря тесному соответствию возможностям крупных языковых моделей, эта структура обеспечивает полностью согласованный и эффективный сквозной процесс. В ходе обширных экспериментов мы демонстрируем, что NodeRAG превосходит предыдущие методы, включая GraphRAG и LightRAG, не только по времени индексации, времени запроса и эффективности хранения, но и по качеству ответов на вопросы в многозвенных тестах и открытых сравнительных оценках с минимальным количеством извлекаемых токенов. Наш репозиторий на GitHub доступен по ссылке: https://github.com/Terry-Xu-666/NodeRAG.
Качество и разнообразие данных являются ключевыми факторами при создании эффективных наборов данных для тонкой настройки инструкций. С увеличением доступности открытых наборов данных для такой настройки, автоматический выбор высококачественных и разнообразных подмножеств из большого объема данных становится преимуществом. Существующие методы обычно уделяют приоритетное внимание качеству отдельных экземпляров и используют эвристические правила для поддержания разнообразия. Однако отсутствие комплексного представления о всей коллекции часто приводит к неоптимальным результатам. Более того, эвристические правила обычно сосредоточены на расстоянии или кластеризации в пространстве эмбеддингов, что не позволяет точно уловить смысл сложных инструкций в семантическом пространстве. Чтобы устранить этот пробел, мы предлагаем унифицированный метод для количественной оценки информационного содержания наборов данных. Этот метод моделирует семантическое пространство путем построения графа меток и количественно оценивает разнообразие на основе распределения информации в графе. На основе такой оценки мы также вводим эффективный метод выборки, который итеративно выбирает образцы данных для максимизации информационного прироста (MIG) в семантическом пространстве. Эксперименты на различных наборах данных и базовых моделях показывают, что MIG стабильно превосходит современные методы. Примечательно, что модель, донастроенная на 5% данных Tulu3, отобранных с помощью MIG, демонстрирует сопоставимую производительность с официальной SFT-моделью, обученной на полном наборе данных, с улучшениями на +5,73% на AlpacaEval и +6,89% на Wildbench.
Предыдущие исследования показывают, что крупные языковые модели демонстрируют значительную "английскую предвзятость", то есть они часто работают лучше, когда задачи представлены на английском языке. Интересно, что мы наблюдали, что использование некоторых других языков в задачах логического рассуждения может давать лучшие результаты, чем английский. Однако это явление остается недостаточно изученным. В данной статье мы исследуем верхний предел использования многоязычия в задачах логического рассуждения, предполагая, что многоязычное рассуждение обещает значительно (почти на 10 пунктов Acc@k) и устойчиво (допуская вариации в качестве перевода и выборе языка) более высокие верхние пределы, чем рассуждение только на английском. Помимо анализа причин этого верхнего предела и трудностей в его достижении, мы также обнаруживаем, что распространенные методы выбора ответов не могут достичь этого предела из-за их ограничений и предубеждений. Эти инсайты могут проложить путь для будущих исследований, направленных на полное раскрытие потенциала многоязычного рассуждения в крупных языковых моделях.
Мы исследуем задачу геометрической реконструкции изображений, снятых с комбинации наземных и аэрофотоснимков. Современные подходы, основанные на обучении, не справляются с экстремальными вариациями точек обзора между парами аэро- и наземных изображений. Наша гипотеза заключается в том, что ключевой причиной этого является отсутствие высококачественных, совместно зарегистрированных наборов данных аэро- и наземных изображений для обучения. Такие данные сложно собрать именно потому, что их трудно реконструировать масштабируемым способом. Чтобы преодолеть эту проблему, мы предлагаем масштабируемую структуру, сочетающую псевдосинтетические рендеры из 3D-мешей городских масштабов (например, Google Earth) с реальными наземными изображениями, собранными с помощью краудсорсинга (например, MegaDepth). Псевдосинтетические данные моделируют широкий диапазон аэрофотоснимков, в то время как реальные изображения, собранные с помощью краудсорсинга, помогают улучшить визуальную достоверность для наземных изображений, где рендеры на основе мешей не обладают достаточной детализацией, эффективно устраняя разрыв между реальными изображениями и псевдосинтетическими рендерами. Используя этот гибридный набор данных, мы дообучаем несколько современных алгоритмов и достигаем значительных улучшений в реальных задачах аэро- и наземной реконструкции без предварительного обучения. Например, мы наблюдаем, что базовый алгоритм DUSt3R локализует менее 5% пар аэро- и наземных изображений с ошибкой вращения камеры менее 5 градусов, в то время как дообучение с нашими данными повышает точность до почти 56%, устраняя ключевую проблему при обработке значительных изменений точек обзора. Помимо оценки положения камеры и реконструкции сцены, наш набор данных также улучшает производительность в задачах синтеза новых видов в сложных сценариях аэро- и наземной съемки, демонстрируя практическую ценность нашего подхода в реальных приложениях.
Разработка эффективных и производительных архитектурных основ находится в центре исследовательских усилий, направленных на повышение возможностей базовых моделей. Вдохновленные когнитивным феноменом человека — внимательным смещением, естественной склонностью к приоритизации определенных событий или стимулов, — мы переосмысливаем нейронные архитектуры, включая Transformers, Titans и современные линейные рекуррентные нейронные сети, как модули ассоциативной памяти, которые изучают отображение ключей и значений с использованием внутренней цели, называемой внимательным смещением. Удивительно, но мы обнаружили, что большинство существующих моделей последовательностей используют либо (1) сходство на основе скалярного произведения, либо (2) цели регрессии L2 в качестве своего внимательного смещения. Выходя за рамки этих целей, мы предлагаем набор альтернативных конфигураций внимательного смещения вместе с их эффективными аппроксимациями для стабилизации процесса обучения. Затем мы переосмысливаем механизмы забывания в современных архитектурах глубокого обучения как форму регуляризации удержания, предлагая новый набор вентилей забывания для моделей последовательностей. Основываясь на этих идеях, мы представляем Miras — общую структуру для проектирования архитектур глубокого обучения, основанную на четырех выборах: (i) архитектура ассоциативной памяти, (ii) цель внимательного смещения, (iii) вентиль удержания и (iv) алгоритм обучения памяти. Мы представляем три новые модели последовательностей — Moneta, Yaad и Memora, — которые превосходят возможности существующих линейных рекуррентных сетей, сохраняя при этом быстрый параллелизуемый процесс обучения. Наши эксперименты показывают, что различные варианты проектирования в Miras приводят к моделям с разными сильными сторонами. Например, определенные реализации Miras демонстрируют выдающуюся производительность в специализированных задачах, таких как языковое моделирование, рассуждения на основе здравого смысла и задачи, требующие интенсивного запоминания, даже превосходя Transformers и другие современные линейные рекуррентные модели.
Хотя понимание границ знаний крупных языковых моделей (LLM) имеет решающее значение для предотвращения галлюцинаций, исследования в этой области до сих пор в основном сосредоточены на английском языке. В данной работе мы представляем первое исследование, анализирующее, как LLM распознают границы знаний на разных языках, исследуя их внутренние представления при обработке известных и неизвестных вопросов на нескольких языках. Наши эмпирические исследования выявили три ключевых вывода: 1) Восприятие границ знаний LLM кодируется в средних и верхних средних слоях модели независимо от языка. 2) Различия в восприятии границ знаний между языками следуют линейной структуре, что мотивирует наше предложение метода выравнивания без обучения, который эффективно переносит способность восприятия границ знаний между языками, тем самым помогая снизить риск галлюцинаций в языках с ограниченными ресурсами. 3) Тонкая настройка на переводе пар вопросов с двух языков дополнительно улучшает распознавание границ знаний LLM на разных языках. Учитывая отсутствие стандартных тестовых наборов для анализа кросс-лингвистических границ знаний, мы создали многоязычный набор для оценки, включающий три репрезентативных типа данных о границах знаний. Наш код и наборы данных доступны по адресу: https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries.
Первое поколение крупных языковых моделей — то, что можно назвать «Актом I» генеративного ИИ (2020–2023) — достигло впечатляющих успехов благодаря масштабированию параметров и данных, однако продемонстрировало фундаментальные ограничения в виде задержки обновления знаний, поверхностного мышления и ограниченных когнитивных процессов. В эту эпоху инженерия промптов стала основным интерфейсом взаимодействия с ИИ, позволяя вести диалог на уровне естественного языка. Сегодня мы наблюдаем зарождение «Акта II» (2024–настоящее время), где модели переходят от систем извлечения знаний (в латентном пространстве) к механизмам конструирования мыслей благодаря техникам масштабирования во время тестирования. Эта новая парадигма устанавливает связь на уровне мышления с ИИ через языковые мысли. В данной статье мы проясняем концептуальные основы когнитивной инженерии и объясняем, почему данный момент является критически важным для её развития. Мы систематически разбираем эти передовые подходы через подробные руководства и оптимизированные реализации, делая когнитивную инженерию доступной для всех и позволяя каждому специалисту участвовать во втором акте ИИ. Мы предоставляем регулярно обновляемую коллекцию статей по масштабированию во время тестирования в репозитории GitHub: https://github.com/GAIR-NLP/cognition-engineering.
Решение сложных дилемм, связанных с конфликтующими ценностями, представляет собой сложную задачу даже для людей, не говоря уже об искусственном интеллекте. Однако предыдущие исследования, посвященные оценке способностей крупных языковых моделей (LLM) к рассуждению в таких ситуациях, ограничивались повседневными сценариями. Чтобы устранить этот пробел, данная работа представляет CLASH (Character perspective-based LLM Assessments in Situations with High-stakes) — тщательно разработанный набор данных, включающий 345 высокостаксовых дилемм и 3 795 индивидуальных перспектив, отражающих разнообразные ценности. В частности, CLASH разработан таким образом, чтобы поддерживать изучение критических аспектов процессов принятия решений на основе ценностей, которые отсутствуют в предыдущих работах, включая понимание амбивалентности решений и психологического дискомфорта, а также фиксацию временных изменений ценностей в перспективах персонажей. Проведя тестирование 10 открытых и закрытых моделей, мы выявили несколько ключевых результатов. (1) Даже самые мощные модели, такие как GPT-4o и Claude-Sonnet, демонстрируют точность менее 50% в идентификации ситуаций, где решение должно быть амбивалентным, в то время как в однозначных сценариях их результаты значительно лучше. (2) Хотя LLM достаточно точно предсказывают психологический дискомфорт, отмеченный людьми, они недостаточно хорошо понимают перспективы, связанные с изменением ценностей, что указывает на необходимость улучшения способности LLM рассуждать о сложных ценностях. (3) Наши эксперименты также выявили значительную корреляцию между предпочтениями LLM в отношении ценностей и их управляемостью в сторону заданной ценности. (4) Наконец, LLM демонстрируют большую управляемость при рассуждении о ценностях с точки зрения третьего лица по сравнению с ситуацией от первого лица, хотя некоторые пары ценностей выигрывают именно от первого лица.
Генерация сцен на уровне 3D представляет собой важный рубеж в мультимедиа и компьютерной графике, однако существующие подходы либо ограничены в категориях объектов, либо не обладают достаточной гибкостью редактирования для интерактивных приложений. В данной статье мы представляем HiScene — новый иерархический фреймворк, который устраняет разрыв между генерацией 2D-изображений и 3D-объектов, создавая высококачественные сцены с композиционной идентичностью и эстетическим содержанием. Наше ключевое наблюдение заключается в рассмотрении сцен как иерархических "объектов" в изометрических проекциях, где комната выступает в роли сложного объекта, который может быть разложен на управляемые элементы. Такой иерархический подход позволяет нам генерировать 3D-контент, согласованный с 2D-представлениями, сохраняя при этом композиционную структуру. Для обеспечения полноты и пространственного выравнивания каждого разложенного экземпляра мы разработали технику амодального завершения на основе видео-диффузии, которая эффективно справляется с перекрытиями и тенями между объектами, а также ввели инъекцию приоритетов формы для обеспечения пространственной согласованности внутри сцены. Экспериментальные результаты показывают, что наш метод создает более естественные расположения объектов и полные экземпляры, подходящие для интерактивных приложений, сохраняя при этом физическую правдоподобность и соответствие пользовательским вводам.
Глобальная контекстная информация и локальные детали являются ключевыми для задач удаления дымки. Модели глубокого обучения показывают хорошие результаты на небольших изображениях с низким разрешением, но сталкиваются с трудностями при обработке крупных изображений с высоким разрешением из-за ограничений памяти GPU. В качестве компромисса часто применяются методы нарезки изображений или их уменьшения. Первый подход снижает глобальную информацию, а второй теряет высокочастотные детали. Для решения этих проблем мы предлагаем DehazeXL — метод удаления дымки, который эффективно балансирует извлечение глобального контекста и локальных признаков, позволяя выполнять сквозное моделирование крупных изображений на стандартных GPU. Кроме того, для оценки эффективности использования глобального контекста в задачах удаления дымки мы разработали метод визуальной атрибуции, адаптированный к особенностям таких задач. Наконец, учитывая отсутствие эталонных наборов данных для удаления дымки на крупных изображениях, мы создали набор данных сверхвысокого разрешения (8KDehaze) для обучения и тестирования моделей. Он включает 10000 пар чистых и задымленных изображений дистанционного зондирования, каждое размером 8192 на 8192 пикселей. Эксперименты показывают, что DehazeXL способен обрабатывать изображения размером до 10240 на 10240 пикселей, используя всего 21 ГБ памяти, и демонстрирует наилучшие результаты среди всех оцененных методов. Исходный код и экспериментальные данные доступны по адресу https://github.com/CastleChen339/DehazeXL.
Последние достижения в области крупных моделей рассуждений (LRM) продемонстрировали эффективность масштабирования вычислений во время тестирования для улучшения способностей к рассуждению в различных задачах. Однако LRM обычно страдают от проблемы "избыточного мышления", когда модели генерируют значительно избыточные шаги рассуждений, принося при этом ограниченный прирост производительности. Существующие подходы полагаются на тонкую настройку для смягчения этой проблемы, что требует дополнительных данных, нестандартных настроек обучения, рисков нарушения безопасности и плохой обобщаемости. Благодаря эмпирическому анализу мы выявили важную характеристику поведения LRM: размещение внешних цепочек рассуждений (CoT), сгенерированных меньшими моделями, между токенами мышления (<think> и </think>), позволяет эффективно управлять моделью для генерации меньшего количества мыслей. На основе этих инсайтов мы предлагаем простой, но эффективный подход, ThoughtMani, который позволяет LRM обходить ненужные промежуточные шаги и значительно снижать вычислительные затраты. Мы провели обширные эксперименты, чтобы подтвердить полезность и эффективность ThoughtMani. Например, при применении к модели QwQ-32B на наборе данных LiveBench/Code, ThoughtMani сохраняет исходную производительность и сокращает количество выходных токенов примерно на 30%, с минимальными накладными расходами от генератора CoT. Кроме того, мы обнаружили, что ThoughtMani улучшает соответствие требованиям безопасности в среднем на 10%. Поскольку поставщики моделей обычно обслуживают модели разных размеров одновременно, ThoughtMani предоставляет эффективный способ создания более производительных и доступных LRM для реальных приложений.
Широкое внедрение систем искусственного интеллекта в экономику зависит от их способности создавать экономическую ценность, превышающую затраты на их использование. Для оценки этого компромисса необходимы метрики, учитывающие как производительность, так и затраты. Мы предлагаем основанную на теории производства структуру для оценки языковых моделей, объединяющую точность и стоимость использования. Мы вводим понятие "стоимости прохода" — ожидаемых денежных затрат на генерацию правильного решения. Затем мы определяем "граничную стоимость прохода" как минимальную стоимость прохода, достижимую среди доступных моделей или с использованием эксперта, используя приблизительную стоимость найма специалиста. Наш анализ выявляет важные экономические инсайты. Во-первых, легковесные модели наиболее экономически эффективны для базовых количественных задач, крупные модели — для задач, требующих глубоких знаний, а модели для рассуждений — для сложных количественных задач, несмотря на более высокие затраты на токен. Во-вторых, отслеживание этой граничной стоимости прохода за последний год показывает значительный прогресс, особенно для сложных количественных задач, где стоимость сокращалась примерно вдвое каждые несколько месяцев. В-третьих, чтобы выявить ключевые инновации, способствующие этому прогрессу, мы исследуем контрфактуальные границы: оценки экономической эффективности без использования определенных классов моделей. Мы обнаруживаем, что инновации в легковесных, крупных и моделях для рассуждений были необходимы для продвижения границы в базовых количественных, требующих знаний и сложных количественных задачах соответственно. Наконец, мы оцениваем снижение затрат, обеспечиваемое распространенными методами на этапе использования, такими как мажоритарное голосование и самоусовершенствование, и обнаруживаем, что их дополнительные улучшения точности редко оправдывают затраты. Наши результаты подчеркивают, что взаимодополняющие инновации на уровне моделей являются основными драйверами экономической эффективности, а наша экономическая структура предоставляет принципиальный инструмент для измерения этого прогресса и руководства внедрением.
Несмотря на недавние достижения в области крупных языковых моделей для видео (LVLMs), они по-прежнему испытывают трудности с тонким временным пониманием, склонны к галлюцинациям и часто допускают простые ошибки даже в несложных задачах по ответам на вопросы о видео, что создает значительные препятствия для их безопасного и надежного применения в реальных сценариях. Чтобы устранить эти ограничения, мы предлагаем фреймворк самонастройки, который позволяет LVLMs учиться на своих ошибках. Наш подход сначала создает обучающий набор пар предпочтительных и нежелательных ответов, где нежелательные ответы генерируются с учетом типичных ошибок, возникающих из-за недостаточного пространственно-временного понимания, ложных корреляций между совместно встречающимися концепциями и чрезмерной зависимости от лингвистических подсказок в ущерб визуальной модальности, среди прочего. Для облегчения самонастройки LVLMs на основе сконструированных пар предпочтительных и нежелательных ответов мы представляем метод Refined Regularized Preference Optimization (RRPO) — новый подход к оптимизации предпочтений, который использует уточненные награды на уровне подпоследовательностей и токен-уровневую KL-регуляризацию для устранения ограничений Direct Preference Optimization (DPO). Мы показываем, что RRPO обеспечивает более точную настройку и более стабильное обучение по сравнению с DPO. Наши эксперименты и анализ подтверждают эффективность предложенного подхода в различных задачах, включая галлюцинации в видео, понимание коротких и длинных видео, а также тонкое временное рассуждение.
Количественная оценка неопределенности (UQ) в языковых моделях (LM) имеет решающее значение для повышения их безопасности и надежности. В ходе оценки часто используются метрики производительности, такие как AUROC, чтобы определить, насколько хорошо методы UQ (например, отрицательные вероятности последовательностей) коррелируют с функциями корректности задачи (например, ROUGE-L). В данной статье мы показываем, что широко используемые функции корректности искажают оценку UQ, завышая производительность определенных методов UQ. Мы оцениваем 7 функций корректности — от лексических и метрик на основе эмбеддингов до подходов с использованием LLM в качестве судьи — на 4 наборах данных × 4 моделях × 6 методах UQ. Наш анализ показывает, что смещения, связанные с длиной ошибок в этих функциях корректности, искажают оценку UQ, взаимодействуя со смещениями по длине в методах UQ. Мы выделяем подходы с использованием LLM в качестве судьи как наименее подверженные смещениям по длине и, следовательно, как потенциальное решение для смягчения этих искажений.
Эффективное шумоподавление имеет решающее значение в низкодозовой компьютерной томографии (КТ) для улучшения видимости тонких структур и низкоконтрастных поражений, предотвращая при этом диагностические ошибки. Методы с учителем сталкиваются с ограниченностью парных наборов данных, а самоконтролируемые подходы часто требуют нескольких зашумленных изображений и полагаются на глубокие сети, такие как U-Net, что оставляет мало понимания механизма шумоподавления. Для решения этих проблем мы предлагаем интерпретируемую самоконтролируемую структуру для шумоподавления на основе одного изображения — Filter2Noise (F2N). Наш подход включает Attention-Guided Bilateral Filter, адаптируемый к каждому зашумленному входу через легковесный модуль, который предсказывает пространственно изменяемые параметры фильтра. Эти параметры могут быть визуализированы и скорректированы после обучения для пользовательского управления шумоподавлением в конкретных областях интереса. Для обучения на одном изображении мы вводим новую стратегию понижающей перестановки с новой функцией самоконтролируемой потери, которая расширяет концепцию Noise2Noise на одно изображение и учитывает пространственно коррелированный шум. На наборе данных Mayo Clinic 2016 по низкодозовой КТ F2N превосходит ведущий самоконтролируемый метод для одного изображения (ZS-N2N) на 4.59 дБ по PSNR, одновременно улучшая прозрачность, пользовательский контроль и параметрическую эффективность. Эти особенности предоставляют ключевые преимущества для медицинских приложений, требующих точного и интерпретируемого снижения шума. Наш код доступен по ссылке: https://github.com/sypsyp97/Filter2Noise.git.