Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете мы представляем UltraShape 1.0 — масштабируемую фреймворк-диффузионную модель для генерации высокодетализированной 3D-геометрии. Предлагаемый подход реализует двухэтапный конвейер генерации: сначала синтезируется грубая глобальная структура, которая затем уточняется для создания детализированной геометрии высокого качества. Для обеспечения надежной 3D-генерации мы разработали комплексный конвейер обработки данных, включающий новый метод обеспечения водонепроницаемости и высококачественную фильтрацию данных. Данный конвейер улучшает геометрическое качество общедоступных 3D-наборов данных путем удаления низкокачественных образцов, заполнения отверстий и утолщения тонких структур при сохранении мелкодетализированных геометрических особенностей. Для обеспечения детального геометрического уточнения мы разделяем пространственную локализацию и синтез геометрических деталей в процессе диффузии. Это достигается за счет выполнения воксельного уточнения в фиксированных пространственных положениях, где воксельные запросы, полученные из грубой геометрии, обеспечивают явные позиционные привязки, кодируемые посредством RoPE, что позволяет диффузионной модели сосредоточиться на синтезе локальных геометрических деталей в пределах сокращенного структурированного пространства решений. Наша модель обучается исключительно на общедоступных 3D-наборах данных, достигая высокого геометрического качества несмотря на ограниченные вычислительные ресурсы. Результаты всестороннего тестирования демонстрируют, что UltraShape 1.0 конкурирует с существующими открытыми методами как по качеству обработки данных, так и по качеству генерации геометрии. Весь код и обученные модели будут опубликованы для поддержки будущих исследований.
Недавно появившиеся унифицированные модели генерации и редактирования достигли значительных успехов благодаря впечатляющим результатам. Эти модели в основном полагаются на текстовые промты для инструктивного редактирования и генерации, однако язык часто не позволяет точно передать предполагаемые пользователем области редактирования и тонкие визуальные детали. Для решения этой проблемы мы предлагаем две задачи: редактирование и генерацию на основе рисования от руки, что обеспечивает более гибкое творчество в графическом интерфейсе пользователя (GUI) с объединением текстовых описаний, изображений и свободных набросков. Мы представляем DreamOmni3, решающую две ключевые проблемы: создание данных и проектирование архитектуры. Наш конвейер синтеза данных включает две части: редактирование и генерацию на основе рисования. Для редактирования мы определяем четыре задачи: редактирование по рисованию и инструкции, редактирование по мультимодальной инструкции с рисованием, слияние изображений и редактирование дудлов. На основе набора данных DreamOmni2 мы извлекаем редактируемые области и накладываем рукописные прямоугольники, круги, дудлы или обрезанные изображения для создания обучающих данных. Для генерации на основе рисования мы определяем три задачи: генерацию по рисованию и инструкции, мультимодальную генерацию по рисованию и инструкции, а также генерацию дудлов, используя аналогичные конвейеры создания данных. В рамках архитектуры вместо бинарных масок, которые плохо справляются со сложными правками, включающими множественные рисунки, изображения и инструкции, мы предлагаем схему совместного ввода, при которой в модель подаются как исходное, так и размеченное рисунком изображение, с использованием разных цветов для различения областей и упрощения обработки. Применяя одинаковые индексные и позиционные кодировки к обоим изображениям, модель может точно локализовать размеченные области, сохраняя точность редактирования. Наконец, мы создаем комплексные бенчмарки для этих задач для стимулирования дальнейших исследований. Экспериментальные результаты демонстрируют, что DreamOmni3 достигает выдающихся показателей, а модели и код будут публично доступны.
Мы формулируем задачу языкового моделирования длинных контекстов как проблему непрерывного обучения, а не проектирования архитектуры. В рамках этой формулировки мы используем только стандартную архитектуру — трансформер со скользящим оконным вниманием. Однако наша модель продолжает обучение во время тестирования посредством предсказания следующего токена в заданном контексте, сжимая прочитанный контекст в своих весах. Кроме того, мы улучшаем инициализацию модели для обучения во время тестирования с помощью метаобучения на этапе тренировки. В целом, наш метод, являясь формой обучения во время тестирования, является сквозным как на этапе тестирования (через предсказание следующего токена), так и на этапе тренировки (через метаобучение), в отличие от предыдущих подходов. Мы проводим обширные эксперименты с акцентом на свойства масштабирования. В частности, для 3-миллиардных моделей, обученных на 164 миллиардах токенов, наш метод масштабируется с длиной контекста так же, как трансформер с полным вниманием, в то время как другие методы, такие как Mamba 2 и Gated DeltaNet, — нет. Однако, аналогично RNN, наш метод имеет постоянную задержку вывода независимо от длины контекста, что делает его в 2.7 раза быстрее полного внимания для контекста в 128K токенов. Наш код находится в открытом доступе.
Мы проводим систематическую оценку методов параметрически-эффективного тонкого обучения (PEFT) в рамках парадигмы обучения с подкреплением с верифицируемыми вознаграждениями (RLVR). RLVR стимулирует языковые модели повышать свои способности к рассуждению с помощью верифицируемой обратной связи; однако, хотя такие методы, как LoRA, широко используются, оптимальная архитектура PEFT для RLVR остается неопределенной. В данной работе мы проводим первое всестороннее сравнение более 12 методологий PEFT на семействах моделей DeepSeek-R1-Distill с использованием математических бенчмарков для оценки рассуждений. Наши эмпирические результаты ставят под сомнение стандартное применение обычной LoRA и приводят к трем основным выводам. Во-первых, мы показываем, что структурные варианты, такие как DoRA, AdaLoRA и MiSS, последовательно превосходят LoRA. Во-вторых, мы выявляем феномен спектрального коллапса в стратегиях инициализации на основе SVD (например, PiSSA, MiLoRA), объясняя их неудачу фундаментальным несоответствием между обновлениями по главным компонентам и RL-оптимизацией. Кроме того, наши ablation-исследования показывают, что экстремальное сокращение параметров (например, VeRA, Rank-1) серьезно ограничивает способность к рассуждению. Мы также проводим ablation-исследования и эксперименты по масштабированию для подтверждения наших выводов. Данная работа предоставляет четкое руководство, advocating за более активное исследование параметрически-эффективных методов для RL.
Задача локализации проблем направлена на определение мест в репозитории программного обеспечения, которые требуют изменений, исходя из описания проблемы на естественном языке. Эта задача является фундаментальной, но сложной в области автоматизированной разработки программного обеспечения из-за семантического разрыва между описанием проблемы и реализацией исходного кода. Этот разрыв проявляется в двух типах несоответствий: (1) несоответствие симптома и причины, когда описания не раскрывают явно корневые причины; (2) несоответствие "один-ко-многим", когда одна проблема соответствует нескольким взаимозависимым сущностям кода. Для устранения этих несоответствий мы предлагаем GraphLocator — подход, который смягчает несоответствие симптома и причины за счет обнаружения причинно-следственной структуры и разрешает несоответствие "один-ко-многим" с помощью динамического разделения проблемы. Ключевым артефактом является причинно-следственный граф проблемы (CIG), в котором вершины представляют обнаруженные подпроблемы вместе с связанными с ними сущностями кода, а рёбра кодируют причинно-следственные зависимости между ними. Рабочий процесс GraphLocator состоит из двух фаз: локализация вершин-симптомов и динамическое построение CIG; сначала идентифицируются местоположения симптомов в графе репозитория, затем CIG динамически расширяется путём итеративного анализа соседних вершин. Эксперименты на трёх реальных наборах данных демонстрируют эффективность GraphLocator: (1) По сравнению с базовыми методами, GraphLocator достигает более точной локализации со средним улучшением +19,49% по полноте на уровне функций и +11,89% по точности. (2) GraphLocator превосходит базовые методы в сценариях как несоответствия симптома и причины, так и несоответствия "один-ко-многим", достигая улучшения полноты на +16,44% и +19,18%, и улучшения точности на +7,78% и +13,23% соответственно. (3) CIG, сгенерированный GraphLocator, даёт наибольшее относительное улучшение, приводя к росту производительности на 28,74% в последующей задаче устранения проблем.
Архитектуры смеси экспертов (MoE) позволили масштабировать большие языковые модели (LLM) за счет активации лишь разреженного подмножества параметров на каждый вход, что обеспечило передовую производительность при сниженных вычислительных затратах. По мере того как эти модели все чаще применяются в критически важных областях, понимание и усиление механизмов их согласования (alignment) становится необходимым для предотвращения вредоносных выходных данных. Однако существующие исследования безопасности LLM почти исключительно сфокусированы на плотных (dense) архитектурах, оставляя уникальные свойства безопасности MoE-моделей в значительной степени неисследованными. Модульный, разреженно-активируемый дизайн MoE позволяет предположить, что механизмы безопасности могут работать иначе, чем в плотных моделях, что ставит вопросы об их устойчивости. В данной статье мы представляем GateBreaker — первую бесплатную, легковесную и не зависящую от архитектуры атакующую систему, которая нарушает безопасное согласование современных MoE LLM на этапе вывода. GateBreaker работает в три этапа: (i) профилирование на уровне гейтов, которое выявляет экспертов по безопасности, непропорционально часто направляемых на вредоносные входные данные; (ii) локализация на уровне экспертов, которая определяет структуру безопасности внутри экспертов по безопасности; и (iii) целевое удаление безопасности, которое отключает выявленную структуру для нарушения безопасного согласования. Наше исследование показывает, что безопасность MoE концентрируется в небольшом подмножестве нейронов, координируемых разреженной маршрутизацией. Селективное отключение этих нейронов, составляющих примерно 3% нейронов в целевых экспертных слоях, значительно увеличивает средний показатель успешности атаки (ASR) с 7,4% до 64,9% для восьми новейших согласованных MoE LLM при незначительной деградации полезности. Эти нейроны безопасности переносятся между моделями внутри одного семейства, повышая ASR с 17,9% до 67,7% при однослойной трансферной атаке. Более того, GateBreaker обобщается на пять MoE моделей визуального языка (VLM) с показателем ASR 60,9% на небезопасных изображениях.