HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

22 papers found

Анализ потока признаков для улучшения интерпретации и управления в языковых моделях.
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

Feb 5

ByDaniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov

Мы представляем новый подход к систематическому отображению признаков, обнаруженных разреженным автокодировщиком, через последовательные слои больших языковых моделей, расширяя ранее проведенные исследования, изучавшие связи признаков между слоями. Используя технику косинусного сходства без данных, мы отслеживаем, какие конкретные признаки сохраняются, преобразуются или впервые появляются на каждом этапе. Этот метод создает детальные графики эволюции признаков, обеспечивая тонкую интерпретируемость и механистические идеи в вычислениях модели. Критически важно, что мы демонстрируем, как эти карты признаков между слоями облегчают прямое управление поведением модели путем усиления или подавления выбранных признаков, достигая целевого тематического контроля в генерации текста. Вместе наши результаты подчеркивают полезность причинно-следственной, межслойной рамки интерпретируемости, которая не только разъясняет, как признаки развиваются в процессе прямого прохода, но также предоставляет новые средства для прозрачного управления большими языковыми моделями.

Золотой призер в решении олимпиадной геометрии с AlphaGeometry2.
Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

Feb 5

ByYuri Chervonyi, Trieu H. Trinh, Miroslav Olšák, Xiaomeng Yang, Hoang Nguyen, Marcelo Menegali, Junehyuk Jung, Vikas Verma, Quoc V. Le, Thang Luong

Мы представляем AlphaGeometry2, значительно улучшенную версию AlphaGeometry, представленную в работе Trinh и др. (2024), которая теперь превзошла среднего золотого медалиста в решении олимпиадных задач по геометрии. Для достижения этого мы сначала расширили оригинальный язык AlphaGeometry для решения более сложных задач, включающих движения объектов, а также задачи, содержащие линейные уравнения углов, отношений и расстояний. Это, вместе с другими дополнениями, значительно улучшило покрытие языка AlphaGeometry задачами по геометрии на Международных математических олимпиадах (IMO) с 2000 по 2024 год с 66% до 88%. Процесс поиска AlphaGeometry2 также значительно улучшен за счет использования архитектуры Gemini для более точного моделирования языка и нового механизма обмена знаниями, объединяющего несколько деревьев поиска. Вместе с дальнейшими улучшениями символьного движка и генерации синтетических данных, мы значительно увеличили общий процент решения задач AlphaGeometry2 до 84% для всех геометрических задач за последние 25 лет, по сравнению с предыдущими 54%. AlphaGeometry2 также была частью системы, которая достигла стандарта серебряной медали на IMO 2024 https://dpmd.ai/imo-silver. Наконец, мы сообщаем о продвижении в использовании AlphaGeometry2 в качестве части полностью автоматизированной системы, которая надежно решает задачи геометрии непосредственно из естественного языка.

Концепция внимания: Диффузионные трансформеры обучаются высокоинтерпретируемым признакам
ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

Feb 6

ByAlec Helbling, Tuna Han Salih Meral, Ben Hoover, Pinar Yanardag, Duen Horng Chau

Обладают ли богатые представления мультимодальных диффузионных трансформеров (DiTs) уникальными свойствами, улучшающими их интерпретируемость? Мы представляем ConceptAttention, новый метод, который использует выразительную мощь слоев внимания DiT для генерации высококачественных карт выдачи, точно определяющих текстовые концепции в изображениях. Не требуя дополнительного обучения, ConceptAttention переиспользует параметры слоев внимания DiT для создания высококонтекстных вложений концепций, внося ключевое открытие, что выполнение линейных проекций в пространстве выходных данных слоев внимания DiT приводит к значительно более четким картам выдачи по сравнению с обычно используемыми механизмами кросс-внимания. Замечательно, ConceptAttention даже достигает передового уровня производительности на нулевых данных бенчмарков сегментации изображений, превосходя 11 других методов интерпретируемости на нулевых данных на наборе данных ImageNet-Segmentation и на одноклассовом подмножестве PascalVOC. Наша работа представляет первые доказательства того, что представления мультимодальных моделей DiT, таких как Flux, являются высоко переносимыми на задачи зрения, такие как сегментация, даже превосходя мультимодальные базовые модели, такие как CLIP.

Великие модели мыслят одинаково, и это подрывает надзор над искусственным интеллектом.
Great Models Think Alike and this Undermines AI Oversight

Feb 6

ByShashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping

По мере усовершенствования возможностей языковых моделей (LM) оценка и надзор за ними в масштабе становятся все сложнее для людей. Существует надежда, что другие языковые модели могут автоматизировать обе эти задачи, которые мы называем "надзором над ИИ". Мы изучаем, как сходство моделей влияет на оба аспекта надзора над ИИ, предлагая вероятностную метрику для оценки сходства LM на основе перекрытия в ошибках модели. Используя эту метрику, мы сначала показываем, что оценки LLM-как-судьи благоприятствуют моделям, похожим на судью, обобщая недавние результаты самопредпочтения. Затем мы изучаем обучение на аннотациях LM и обнаруживаем, что дополняющие знания между слабым наблюдателем и сильной учебной моделью играют решающую роль в приросте от "слабого к сильному обобщению". По мере увеличения возможностей моделей становится сложнее находить их ошибки, и мы можем все больше полагаться на надзор над ИИ. Однако мы наблюдаем тревожную тенденцию - ошибки моделей становятся более похожими с увеличением возможностей, указывая на риски от коррелированных сбоев. Наша работа подчеркивает важность отчетности и корректировки с учетом сходства моделей, особенно в новом парадигме надзора над ИИ.

Ола: Расширение границ омни-модальной языковой модели с прогрессивным выравниванием модальности
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

Feb 6

ByZuyan Liu, Yuhao Dong, Jiahui Wang, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao

Недавние достижения в области больших языковых моделей, особенно после GPT-4o, вызвали растущий интерес к разработке омни-модальных моделей, способных понимать больше модальностей. Хотя появились некоторые альтернативы с открытым исходным кодом, все еще заметно отстают по производительности от специализированных моделей с одной модальностью. В данной статье мы представляем Ola, омни-модальную языковую модель, достигающую конкурентоспособной производительности в понимании изображений, видео и аудио по сравнению со специализированными аналогами. Основное принципиальное решение Ola заключается в стратегии прогрессивной выравнивания модальностей, которая постепенно расширяет поддерживаемую модальность языковой модели. Наша система обучения начинается с наиболее различных модальностей: изображения и текста, затем постепенно расширяет набор навыков модели, используя речевые данные, соединяющие языковые и аудио знания, и видео данные, соединяющие все модальности. Прогрессивная система обучения также позволяет нам поддерживать относительно небольшой объем данных для кросс-модального выравнивания, что облегчает разработку омни-модальных моделей на основе существующих моделей видео-язык. Более того, чтобы создать продвинутое интерактивное взаимодействие, подобное GPT-4o, мы дополнительно разработали решение декодирования по предложениям для генерации речи в реальном времени. Обширные эксперименты показывают, что Ola превосходит существующие открытые омни-модальные LLM по всем модальностям, достигая высокой конкурентоспособной производительности по сравнению с современными специализированными моделями схожего размера. Наша цель - сделать Ola полностью открытым решением для омни-модального понимания, чтобы продвигать будущие исследования в этой развивающейся области. Веса модели, код и данные доступны по ссылке https://github.com/Ola-Omni/Ola.

DynVFX: Дополнение реальных видеороликов динамическим контентом
DynVFX: Augmenting Real Videos with Dynamic Content

Feb 5

ByDanah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel

Мы представляем метод для дополнения видеороликов из реального мира новым сгенерированным динамическим контентом. Учитывая входное видео и простую текстовую инструкцию, предоставленную пользователем и описывающую желаемый контент, наш метод синтезирует динамические объекты или сложные эффекты сцены, которые естественно взаимодействуют с существующей сценой со временем. Положение, внешний вид и движение нового контента плавно интегрируются в оригинальный материал, учитывая движение камеры, заслонения и взаимодействия с другими динамическими объектами на сцене, что приводит к цельному и реалистичному видеоролику. Мы достигаем этого с помощью нулевого обучения, рамки, которая использует предварительно обученный трансформер распространения текста в видео для синтеза нового контента и предварительно обученной модели видео-языка для детального представления дополненной сцены. В частности, мы представляем новый метод на основе вывода, который манипулирует функциями в механизме внимания, обеспечивая точную локализацию и плавную интеграцию нового контента, сохраняя целостность оригинальной сцены. Наш метод полностью автоматизирован, требуя только простую инструкцию пользователя. Мы демонстрируем его эффективность на широком спектре изменений, примененных к видеороликам из реального мира, охватывающих различные объекты и сценарии, включающие как движение камеры, так и объекта.

Лласа: Масштабирование вычислений на этапе обучения и вывода для синтеза речи на основе Ламы
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

Feb 6

ByZhen Ye, Xinfa Zhu, Chi-Min Chan, Xinsheng Wang, Xu Tan, Jiahe Lei, Yi Peng, Haohe Liu, Yizhu Jin, Zheqi DAI, Hongzhan Lin, Jianyi Chen, Xingjian Du, Liumeng Xue, Yunlin Chen, Zhifei Li, Lei Xie, Qiuqiang Kong, Yike Guo, Wei Xue

Недавние достижения в области текстовых моделей большого объема (LLM), в частности в серии GPT и модели o1, продемонстрировали эффективность масштабирования как вычислительных ресурсов во время обучения, так и во время вывода. Однако существующие передовые системы синтеза речи, использующие LLM, часто являются многоэтапными, требуя отдельных моделей (например, моделей диффузии после LLM), что усложняет решение о том, следует ли масштабировать конкретную модель во время обучения или тестирования. В данной работе вносятся следующие вклады: Во-первых, мы исследуем масштабирование вычислительных ресурсов во время обучения и вывода для синтеза речи. Во-вторых, мы предлагаем простую структуру Llasa для синтеза речи, которая использует кодек однослойного векторного квантования (VQ) и одну архитектуру Трансформера для полного соответствия стандартным LLM, таким как Llama. Наши эксперименты показывают, что масштабирование вычислительных ресурсов во время обучения для Llasa последовательно улучшает естественность синтезированной речи и позволяет генерировать более сложные и точные модели просодии. Кроме того, с точки зрения масштабирования вычислительных ресурсов во время вывода, мы используем модели понимания речи в качестве верификаторов во время поиска, обнаруживая, что масштабирование вычислительных ресурсов во время вывода смещает режимы выборки в сторону предпочтений конкретных верификаторов, тем самым улучшая эмоциональную экспрессивность, согласованность тембра и точность содержания. Кроме того, мы предоставили для общего доступа контрольную точку и код обучения для нашей модели TTS (1B, 3B, 8B) и модели кодека.

BOLT: Bootstrap Long Chain-of-Thought в языковых моделях без дистилляции
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation

Feb 6

ByBo Pang, Hanze Dong, Jiacheng Xu, Silvio Savarese, Yingbo Zhou, Caiming Xiong

Большие языковые модели (LLM), такие как o1 от OpenAI, продемонстрировали выдающиеся способности к рассуждениям. o1 генерирует длинную цепочку мыслей (LongCoT) перед ответом на вопрос. LongCoT позволяет LLM анализировать проблемы, разрабатывать планы, размышлять и эффективно откатываться. Эти действия делают LLM способными решать сложные задачи. После выпуска o1 многие команды пытались воссоздать его LongCoT и способности к рассуждениям. В методологическом плане они в основном полагаются на дистилляцию знаний с данными из существующих моделей с возможностями LongCoT (например, OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), что оставляет значительные неопределенности в систематическом развитии таких способностей к рассуждениям. В отношении областей данных эти работы узко сосредоточены на математике, в то время как некоторые включают в себя также программирование, что ограничивает их обобщаемость. В данной статье представлен новый подход для развития возможностей LongCoT у LLM без дистилляции из моделей типа o1 или дорогостоящих аннотаций людей, где мы создаем LongCoT (BOLT) из стандартной модели instruct. BOLT включает три этапа: 1) бутстрапинг данных LongCoT с обучением в контексте на стандартной модели instruct; 2) надзорное дообучение LongCoT; 3) онлайн-обучение для дальнейшего совершенствования возможностей LongCoT. В BOLT на этапе бутстрапинга требуется создать всего несколько примеров в контексте; в наших экспериментах мы создали 10 примеров, демонстрируя осуществимость данного подхода. Мы используем Llama-3.1-70B-Instruct для бутстрапинга LongCoT и применяем наш метод к различным масштабам моделей (7B, 8B, 70B). Мы достигаем впечатляющих результатов на различных бенчмарках, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, которые оценивают разнообразные способности к решению задач и рассуждениям.

UltraIF: Продвижение выполнения инструкций из дикой среды
UltraIF: Advancing Instruction Following from the Wild

Feb 6

ByKaikai An, Li Sheng, Ganqu Cui, Shuzheng Si, Ning Ding, Yu Cheng, Baobao Chang

Следование инструкциям сделало современные большие языковые модели (LLM) полезными помощниками. Однако ключ к приручению LLM на сложных инструкциях остается загадкой, поскольку существуют огромные разрывы между моделями, обученными сообществом с открытым исходным кодом, и теми, которые обучены ведущими компаниями. Для устранения этого разрыва мы предлагаем простой и масштабируемый подход UltraIF для создания LLM, способных следовать сложным инструкциям с использованием данных с открытым исходным кодом. UltraIF сначала декомпозирует запросы пользователей из реального мира на более простые запросы, ограничения и соответствующие вопросы для оценки ограничений. Затем мы обучаем UltraComposer создавать запросы, связанные с ограничениями, с вопросами для оценки. Этот композитор запросов позволяет нам синтезировать сложные инструкции, а также фильтровать ответы с помощью вопросов для оценки. В нашем эксперименте мы впервые успешно выровняли модель LLaMA-3.1-8B-Base, чтобы догнать ее версию с инструкциями на 5 бенчмарках по следованию инструкциям без какой-либо информации о бенчмарках, используя только модель 8B в качестве генератора ответов и оценщика. Выровненная модель также достигла конкурентоспособных результатов на других бенчмарках. Более того, мы также показываем, что UltraIF может дополнительно улучшить модель LLaMA-3.1-8B-Instruct через самовыравнивание, мотивируя более широкое применение метода. Наш код будет доступен по адресу https://github.com/kkk-an/UltraIF.

Слабое-к-Сильному Диффузия с Отражением
Weak-to-Strong Diffusion with Reflection

Feb 1

ByLichen Bai, Masashi Sugiyama, Zeke Xie

Целью диффузионных генеративных моделей является согласование изученного распределения с реальным распределением данных путем градиентного сопоставления оценок. Однако встроенные ограничения в качестве обучающих данных, стратегии моделирования и архитектурное проектирование приводят к неизбежному разрыву между сгенерированными результатами и реальными данными. Для уменьшения этого разрыва мы предлагаем Weak-to-Strong Diffusion (W2SD), новую концепцию, которая использует оцененное различие между существующими слабыми и сильными моделями (т.е. разницу от слабого к сильному) для приближения разрыва между идеальной моделью и сильной моделью. Применяя отражательную операцию, которая чередует денойзинг и инверсию с разницей от слабого к сильному, мы теоретически понимаем, что W2SD направляет латентные переменные вдоль траекторий выборки к областям реального распределения данных. W2SD является высоко гибким и широко применимым, обеспечивая разнообразные улучшения через стратегический выбор пар слабых и сильных моделей (например, DreamShaper против SD1.5, хорошие эксперты против плохих экспертов в MoE). Обширные эксперименты показывают, что W2SD значительно улучшает предпочтения человека, эстетическое качество и соблюдение инструкций, достигая лучших результатов по различным модальностям (например, изображения, видео), архитектурам (например, на основе UNet, DiT, MoE) и бенчмаркам. Например, Juggernaut-XL с W2SD может увеличить победный процент HPSv2 до 90% по сравнению с оригинальными результатами. Более того, прирост производительности, достигнутый благодаря W2SD, значительно превышает дополнительные вычислительные затраты, в то время как накопленные улучшения от различий между слабыми и сильными моделями дополнительно укрепляют его практическую полезность и применимость.

MAGA: Массовая реформуляция жанра-аудитории для расширения корпуса предварительного обучения
MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion

Feb 6

ByXintong Hao, Ke Shen, Chenggang Li

Несмотря на замечательные возможности крупных языковых моделей в различных задачах, их дальнейшее масштабирование сталкивается с критическим вызовом: дефицитом высококачественных данных для предварительного обучения. В то время как архитектуры моделей продолжают развиваться, данные естественного языка испытывают трудности с масштабированием. Для решения этого узкого места мы предлагаем метод реформулирования MAssive Genre-Audience (MAGA), который систематически синтезирует разнообразные, контекстно насыщенные данные для предварительного обучения из существующего корпуса. Эта работа вносит три основных вклада: (1) Мы предлагаем метод реформулирования MAGA, легковесный и масштабируемый подход для расширения корпуса предварительного обучения и создаем корпус MAGACorpus объемом 770 миллиардов токенов. (2) Мы оцениваем корпус MAGACorpus с различными стратегиями масштабирования бюджета данных, демонстрируя последовательные улучшения при различных размерах моделей (134 миллиона - 13 миллиардов), устанавливая необходимость следующего поколения крупномасштабных синтетических моделей языка для предварительного обучения. (3) Через комплексный анализ мы исследуем влияние инженерии подсказок на коллапс синтетического обучения и выявляем ограничения в традиционных метриках обнаружения коллапса с использованием потерь на валидации. Наша работа показывает, что MAGA может значительно расширить обучающие наборы данных, сохраняя качество, предлагая надежный путь для масштабирования моделей за пределами ограничений данных.

ScoreFlow: Овладение рабочими процессами агента LLM через оптимизацию предпочтений на основе оценки.
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

Feb 6

ByYinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam

В недавних исследованиях использовались многоагентные системы на основе крупных языковых моделей для решения сложных задач с целью снижения ручного труда, необходимого для их создания, что способствует развитию методов оптимизации рабочего процесса автоматизированных агентов. Однако существующие методы остаются негибкими из-за ограничений в представлении, недостаточной адаптивности и плохой масштабируемости при использовании дискретных методов оптимизации. Мы решаем эти проблемы с помощью ScoreFlow, простой, но высокопроизводительной платформы, которая использует эффективную оптимизацию на основе градиентов в непрерывном пространстве. ScoreFlow включает в себя Score-DPO, новую вариацию метода прямой оптимизации предпочтений, которая учитывает количественную обратную связь. На шести тестовых задачах, охватывающих вопросно-ответные системы, программирование и математическое рассуждение, ScoreFlow показывает улучшение на 8,2% по сравнению с существующими базовыми уровнями. Более того, он позволяет более маленьким моделям превзойти более крупные с более низкими затратами на вывод. Проект: https://github.com/Gen-Verse/ScoreFlow

MotionLab: Единое создание и редактирование движения человека через парадигму движения-условия-движения
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

Feb 4

ByZiyan Guo, Zeyu Hu, Na Zhao, De Wen Soh

Генерация и редактирование движений человека являются ключевыми компонентами компьютерной графики и компьютерного зрения. Однако текущие подходы в этой области обычно предлагают изолированные решения, адаптированные к конкретным задачам, что может быть неэффективным и непрактичным для реальных приложений. Хотя некоторые усилия направлены на объединение задач, эти методы просто используют различные модальности в качестве условий для направления генерации движения. В результате они лишены возможности редактирования, точного контроля и не способствуют обмену знаниями между задачами. Для преодоления этих ограничений и создания универсальной, объединенной структуры, способной обрабатывать как генерацию, так и редактирование движений человека, мы представляем новую парадигму: Motion-Condition-Motion, которая позволяет объединенную формулировку различных задач с тремя концепциями: исходное движение, условие и целевое движение. Основываясь на этой парадигме, мы предлагаем объединенную структуру, MotionLab, которая включает исправленные потоки для изучения отображения от исходного движения к целевому движению, направляемого указанными условиями. В MotionLab мы представляем 1) MotionFlow Transformer для улучшения условной генерации и редактирования без задачеспецифичных модулей; 2) Выровненное вращательное кодирование позиции для гарантирования синхронизации времени между исходным и целевым движениями; 3) Модуляцию инструкций, специфичных для задачи; и 4) Обучение курса движения для эффективного мультизадачного обучения и обмена знаниями между задачами. Значительно, наш MotionLab демонстрирует многообещающие возможности обобщения и эффективность вывода на нескольких бенчмарках для движения человека. Наш код и дополнительные видео-результаты доступны по ссылке: https://diouo.github.io/motionlab.github.io/.

MotionCanvas: Кинематографический дизайн кадра с возможностью управления преобразованием изображения в видео
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

Feb 6

ByJinbo Xing, Long Mai, Cusuh Ham, Jiahui Huang, Aniruddha Mahapatra, Chi-Wing Fu, Tien-Tsin Wong, Feng Liu

Этот документ представляет метод, который позволяет пользователям создавать кинематографические видео кадры в контексте генерации изображения в видео. Проектирование кадра, критически важный аспект кинопроизводства, включает в себя тщательное планирование как движений камеры, так и движений объектов на сцене. Однако обеспечение интуитивного проектирования кадра в современных системах генерации изображения в видео представляет две основные проблемы: во-первых, эффективное улавливание намерений пользователя в дизайне движения, где необходимо совместно указывать как движения камеры, так и движения объектов в пространстве сцены; и во-вторых, представление информации о движении, которая может быть эффективно использована моделью диффузии видео для синтеза анимаций изображения. Для решения этих проблем мы представляем MotionCanvas, метод, который интегрирует управление, осуществляемое пользователем, в модели генерации изображения в видео (I2V), позволяя пользователям контролировать как движения объектов, так и камеры в осознанном образе на сцене. Соединяя идеи из классической компьютерной графики и современных техник генерации видео, мы демонстрируем способность достигать управления движением, осведомленным о 3D, в синтезе I2V без необходимости дорогостоящих тренировочных данных, связанных с 3D. MotionCanvas позволяет пользователям интуитивно изображать намерения движения в пространстве сцены и преобразовывать их в сигналы пространственно-временного условия для моделей диффузии видео. Мы демонстрируем эффективность нашего метода на широком спектре реального контента изображений и сценариев проектирования кадров, подчеркивая его потенциал улучшить творческие рабочие процессы в создании цифрового контента и приспособиться к различным приложениям по редактированию изображений и видео.

Превосходство содержания запроса: улучшение производительности LLM через оптимизацию запроса с интегрированным форматом содержания.
Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization

Feb 6

ByYuanye Liu, Jiahang Xu, Li Lyna Zhang, Qi Chen, Xuan Feng, Yang Chen, Zhongxin Guo, Yuqing Yang, Cheng Peng

Большие языковые модели (LLM) продемонстрировали значительные возможности в различных задачах, причем их эффективность в реальном мире часто зависит от дизайна подсказки. В то время как недавние исследования сосредоточены на оптимизации содержания подсказки, роль форматирования подсказки, критического, но часто пренебрегаемого аспекта, получила ограниченное систематическое изучение. В данной статье мы представляем методологию Content-Format Integrated Prompt Optimization (CFPO), инновационный подход, который совместно оптимизирует как содержание подсказки, так и ее форматирование через итеративный процесс уточнения. CFPO использует естественные мутации языка для исследования вариаций содержания и применяет динамическую стратегию исследования формата, которая систематически оценивает различные варианты формата. Наши обширные оценки на различных задачах и открытых LLM показывают, что CFPO демонстрирует измеримое улучшение производительности по сравнению с методами оптимизации только содержания. Это подчеркивает важность интегрированной оптимизации содержания и формата и предлагает практический, модельно-независимый подход к улучшению производительности LLM. Код будет доступен по ссылке https://github.com/HenryLau7/CFPO.

ПИЛАФ: Оптимальная выборка предпочтений человека для моделирования вознаграждения
PILAF: Optimal Human Preference Sampling for Reward Modeling

Feb 6

ByYunzhen Feng, Ariel Kwiatkowski, Kunhao Zheng, Julia Kempe, Yaqi Duan

Поскольку большие языковые модели все чаще используются в реальных приложениях, выравнивание их с человеческими ценностями становится важным. Обучение с подкреплением на основе обратной связи от человека (RLHF) выдвигается в качестве ключевой техники, преобразующей данные о предпочтениях в модели вознаграждения, когда оракул человеческих ценностей остается недоступным. На практике RLHF в основном полагается на приближенные модели вознаграждения, которые могут не всегда направлять политику на максимизацию лежащих в основе человеческих ценностей. Мы предлагаем метод обучения с интерполяцией политики для выравнивания обратной связи (PILAF), новую стратегию выборки ответов для маркировки предпочтений, которая явно выравнивает обучение предпочтениям с максимизацией лежащего в основе оракула вознаграждения. PILAF теоретически обоснован и демонстрирует оптимальность как с точки зрения оптимизации, так и статистики. Метод легко реализуется и показывает высокую производительность в итеративных и онлайн настройках RLHF, где кураторство обратной связи критично.

К физическому пониманию в генерации видео: подход регуляризации 3D точек
Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach

Feb 5

ByYunuo Chen, Junli Cao, Anil Kag, Vidit Goel, Sergei Korolev, Chenfanfu Jiang, Sergey Tulyakov, Jian Ren

Мы представляем новую структуру генерации видео, которая интегрирует трехмерную геометрию и динамическое восприятие. Для достижения этой цели мы дополняем двумерные видео трехмерными траекториями точек и выравниваем их в пространстве пикселей. Полученный набор данных видео с учетом трехмерной информации, PointVid, затем используется для настройки модели латентного диффузионного процесса, что позволяет отслеживать двумерные объекты с трехмерными декартовыми координатами. На этом основании мы регуляризуем форму и движение объектов в видео, чтобы устранить нежелательные артефакты, например, нереалистичные деформации. В результате мы улучшаем качество сгенерированных RGB видео и уменьшаем распространенные проблемы, такие как морфинг объектов, которые характерны для текущих моделей видео из-за отсутствия трехмерного восприятия формы. Благодаря нашему трехмерному дополнению и регуляризации, наша модель способна обрабатывать сценарии с богатым контактом, такие как видео с ориентированными на задачу. Эти видео включают в себя сложные взаимодействия твердых тел, где трехмерная информация необходима для восприятия деформации и контакта. Более того, наша модель улучшает общее качество генерации видео, повышая трехмерную согласованность движущихся объектов и уменьшая резкие изменения формы и движения.

ChartCitor: Мультиагентный фреймворк для детализированной визуальной атрибуции диаграмм.
ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution

Feb 3

ByKanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt

Большие языковые модели (LLM) могут выполнять задачи ответов на вопросы по диаграммам, но часто генерируют непроверенные галлюцинации ответов. Существующие методы атрибуции ответов испытывают затруднения в обосновании ответов на основе исходных диаграмм из-за ограниченного визуально-семантического контекста, сложных требований к выравниванию визуального и текстового контента и трудностей в предсказании ограничивающих рамок по сложным макетам. Мы представляем ChartCitor, мультиагентную платформу, которая предоставляет детализированные ссылки на ограничивающие рамки, выявляя подтверждающие доказательства на изображениях диаграмм. Система оркестрирует агентов LLM для выполнения извлечения информации из диаграммы в таблицу, переформулирования ответа, дополнения таблицы, извлечения доказательств через предварительную фильтрацию и повторную ранжировку, а также сопоставления таблицы и диаграммы. ChartCitor превосходит существующие базовые уровни производительности по различным типам диаграмм. Качественные пользовательские исследования показывают, что ChartCitor помогает повысить доверие пользователей к Генеративному ИИ, предоставляя улучшенную объяснимость для LLM-помощи в задачах ответов на вопросы по диаграммам и позволяет профессионалам быть более продуктивными.

PlotGen: Многоагентная визуализация научных данных на основе LLM с использованием мультимодальной обратной связи
PlotGen: Multi-Agent LLM-based Scientific Data Visualization via Multimodal Feedback

Feb 3

ByKanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt

Научная визуализация данных имеет решающее значение для преобразования необработанных данных в понятные визуальные представления, обеспечивая распознавание шаблонов, прогнозирование и представление данных, основанных на информации. Однако начинающие пользователи часто сталкиваются с трудностями из-за сложности выбора подходящих инструментов и освоения техник визуализации. Большие языковые модели (LLM) недавно продемонстрировали потенциал в помощи генерации кода, хотя они сталкиваются с проблемами точности и требуют итеративной отладки. В данной статье мы предлагаем PlotGen, новую многоагентную структуру, направленную на автоматизацию создания точных научных визуализаций. PlotGen оркестрирует несколько агентов на основе LLM, включая агента планирования запросов, который разбивает сложные запросы пользователей на выполнимые шаги, агента генерации кода, который преобразует псевдокод в исполняемый код Python, и три агента обратной связи по извлечению - агента числовой обратной связи, агента лексической обратной связи и агента визуальной обратной связи - которые используют мультимодальные LLM для итеративного улучшения точности данных, текстовых меток и визуальной корректности созданных графиков через саморефлексию. Обширные эксперименты показывают, что PlotGen превосходит сильные базовые уровни, достигая улучшения на 4-6 процентов на наборе данных MatPlotBench, что приводит к увеличению доверия пользователей к визуализациям, созданным LLM, и повышению производительности начинающих пользователей за счет сокращения времени, необходимого для отладки ошибок в графиках.

Изучение динамики действий в реальном мире на видео с использованием гетерогенной маскированной авторегрессии
Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

Feb 6

ByLirui Wang, Kevin Zhao, Chaoqi Liu, Xinlei Chen

Мы предлагаем метод гетерогенной маскированной авторегрессии (HMA) для моделирования динамики видео действий с целью генерации высококачественных данных и оценки масштабирования обучения роботов. Создание интерактивных моделей миров видео и политик для робототехники затруднено из-за сложности работы с различными сценариями, сохраняя при этом вычислительную эффективность для работы в реальном времени. HMA использует гетерогенное предварительное обучение на основе наблюдений и последовательностей действий на различных робототехнических платформах, областях и задачах. HMA применяет маскированную авторегрессию для генерации квантованных или мягких токенов для прогнозирования видео. Наш метод обеспечивает лучшую визуальную достоверность и управляемость по сравнению с предыдущими моделями генерации видео для роботов, обладая в 15 раз большей скоростью в реальном мире. После последующего обучения, эту модель можно использовать в качестве видео симулятора на основе входных действий низкого уровня для оценки политик и генерации синтетических данных. Дополнительную информацию можно найти по ссылке https://liruiw.github.io/hma.

Улучшение генерации кода для языков с ограниченными ресурсами: нет серебряной пули.
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet

Jan 31

ByAlessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota

Появление больших языковых моделей (LLM) значительно продвинуло область автоматической генерации кода. LLM основаны на больших и разнообразных наборах данных для изучения синтаксиса, семантики и шаблонов использования языков программирования. Для языков с ограниченными ресурсами (т.е. узких языков программирования, характеризующихся дефицитом обучающих данных), ограниченная доступность таких данных затрудняет способность моделей эффективно обобщать, что приводит к более слабой производительности генерации кода по сравнению с языками с высокими ресурсами. По этой причине существует стремление к техникам, способным устранить эту разницу в производительности. Мы представляем эмпирическое исследование, изучающее эффективность нескольких подходов для улучшения производительности LLM на языках с ограниченными ресурсами, а именно: (i) классическое дообучение, которое, однако, ограничено размером из-за дефицита обучающих данных; (ii) три варианта контекстного обучения, с промптами, созданными для предоставления LLM дополнительной информации о языке с ограниченными ресурсами (например, примеры с небольшим числом шагов, демонстрирующие особенности целевого языка); и (iii) предварительная цель обучения, обучающая модель переводить между языками с высокими и ограниченными ресурсами. Контекстом нашего исследования являются два языка с ограниченными ресурсами (R и Racket) и шесть LLM с различными архитектурами и размерами. Наши результаты показывают, что для более маленьких LLM обычное дообучение обычно является лучшим выбором, возможно, из-за того, что даже небольшой набор данных достаточен для обучения их ограниченного числа параметров. С увеличением размера моделей контекстное обучение становится все более эффективным, представляя собой надежную и дешевую стратегию (т.е. это всегда помогает, но с различной степенью воздействия). В отличие от этого, очень большие LLM могут ухудшать свою производительность на языках с ограниченными ресурсами при выполнении дообучения, возможно, из-за недостаточного количества данных, необходимых для эффективного обновления их весов.

Общение без усилий: Вызов вредоносных джейлбрейков от LLMs с помощью простых взаимодействий
Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

Feb 6

ByYik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi

Несмотря на обширные усилия по обеспечению безопасности, большие языковые модели (LLM) остаются уязвимыми для атак взлома, которые могут вызвать вредное поведение. В то время как существующие исследования в основном сосредотачиваются на методах атак, требующих технической экспертизы, остаются недостаточно исследованными два критических вопроса: (1) Действительно ли взломанные ответы полезны для обычных пользователей для совершения вредных действий? (2) Существуют ли уязвимости безопасности в более распространенных, простых человеко-LLM взаимодействиях? В данной статье мы демонстрируем, что ответы LLM наиболее эффективно облегчают вредные действия, когда они являются действенными и информативными - два атрибута, легко вызываемые в многоэтапных, многоязычных взаимодействиях. Исходя из этого, мы предлагаем метрику взлома HarmScore, измеряющую эффективность ответа LLM в облегчении вредных действий, а также Speak Easy, простую многоэтапную, многоязычную атакующую структуру. Значительно, внедрив Speak Easy в базовые прямого запроса и взлома, мы видим средний абсолютный прирост 0.319 в Успешности Атаки и 0.426 в HarmScore как в открытых, так и в закрытых LLM на четырех бенчмарках безопасности. Наша работа раскрывает критическую, но часто пренебрегаемую уязвимость: Злоумышленники могут легко злоупотреблять общими шаблонами взаимодействия для вредных намерений.