Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генеративные модели оказали значительное влияние в различных областях, в значительной степени благодаря их способности масштабироваться во время обучения путем увеличения данных, вычислительных ресурсов и размера модели, явление, описываемое законами масштабирования. Недавние исследования начали изучать поведение масштабирования во время вывода в больших языковых моделях (LLM), раскрывая, как производительность может дополнительно улучшаться с дополнительными вычислениями во время вывода. В отличие от LLM, модели диффузии по своей природе обладают гибкостью в настройке вычислений во время вывода с помощью количества шагов денойзинга, хотя прирост производительности обычно замедляется после нескольких десятков. В данной работе мы исследуем поведение масштабирования во время вывода моделей диффузии за пределами увеличения шагов денойзинга и исследуем, как производительность генерации может дополнительно улучшиться с увеличением вычислений. Конкретно, мы рассматриваем задачу поиска с целью выявления лучших шумов для процесса диффузионной выборки. Мы структурируем пространство проектирования по двум осям: верификаторы, используемые для обратной связи, и алгоритмы, используемые для поиска лучших кандидатов на шум. Через обширные эксперименты на классифицированных и текстовых образцах генерации изображений наша работа показывает, что увеличение времени вывода приводит к существенному улучшению качества образцов, сгенерированных моделями диффузии, и с учетом сложной природы изображений, комбинации компонентов в рамках могут быть специально выбраны для соответствия различным сценариям применения.
Машинное письмо с использованием больших языковых моделей часто опирается на генерацию с усилением поиска. Однако эти подходы остаются ограниченными предопределенным рамками модели, что ограничивает генерацию содержания с богатой информацией. Конкретно, информация, полученная стандартным способом, часто не имеет глубины, полезности и страдает от избыточности, что негативно сказывается на качестве созданных статей, приводя к поверхностным, повторяющимся и неоригинальным результатам. Для решения этих проблем мы предлагаем OmniThink, фреймворк для машинного письма, который эмулирует человекоподобный процесс итеративного расширения и рефлексии. Основная идея за OmniThink заключается в имитации когнитивного поведения обучающихся, постепенно углубляющих свои знания по темам. Экспериментальные результаты показывают, что OmniThink улучшает плотность знаний созданных статей, не жертвуя такими метриками, как связность и глубина. Оценки людей и обратная связь экспертов дополнительно подчеркивают потенциал OmniThink в решении реальных проблем в создании статей большого объема.
Язык давно рассматривается как важный инструмент для человеческого мышления. Прорыв в области Больших Языковых Моделей (БЯМ) вызвал значительный интерес исследователей к использованию этих моделей для решения сложных задач рассуждения. Исследователи перешли от простой авторегрессивной генерации токенов, представив концепцию "мысли" - последовательность токенов, представляющую промежуточные этапы в процессе рассуждения. Этот инновационный парадигма позволяет БЯМ имитировать сложные процессы человеческого рассуждения, такие как поиск по дереву и рефлексивное мышление. Недавно возникшая тенденция обучения рассуждения применяет обучение с подкреплением (ОП) для обучения БЯМ овладению процессами рассуждения. Этот подход позволяет автоматически генерировать траектории рассуждения высокого качества с помощью алгоритмов проб и ошибок, значительно расширяя возможности рассуждения БЯМ за счет предоставления гораздо большего объема обучающих данных. Более того, недавние исследования показывают, что поощрение БЯМ "думать" с более большим количеством токенов во время вывода на тесте может значительно улучшить точность рассуждения. Таким образом, комбинирование масштабирования на этапе обучения и на этапе тестирования показывает новую исследовательскую границу - путь к Большой Модели Рассуждения. Появление серии o1 от OpenAI является значительным вехой в этом направлении исследований. В этом обзоре мы представляем всесторонний обзор недавних достижений в рассуждении БЯМ. Мы начинаем с введения основных принципов БЯМ, а затем исследуем ключевые технические компоненты, способствующие развитию больших моделей рассуждения, с акцентом на автоматизированном создании данных, техниках обучения рассуждению и масштабировании на этапе тестирования. Мы также анализируем популярные проекты с открытым исходным кодом по созданию больших моделей рассуждения и заканчиваем открытыми вызовами и направлениями будущих исследований.
Визуальная токенизация с использованием автоэнкодера усиливает современные генеративные модели изображений и видео путем сжатия пикселей в скрытое пространство. Хотя масштабирование генераторов на основе трансформеров было ключевым в последних достижениях, компонент токенизатора сам по себе редко масштабируется, что оставляет открытыми вопросы о том, как выбор дизайна автоэнкодера влияет как на его цель восстановления, так и на последующую генеративную производительность. Наша работа направлена на исследование масштабирования в автоэнкодерах, чтобы заполнить этот пробел. Для облегчения этого исследования мы заменяем типичную сверточную основу на улучшенную архитектуру Vision Transformer для токенизации (ViTok). Мы обучаем ViTok на крупномасштабных наборах данных изображений и видео, значительно превышающих ImageNet-1K, устраняя ограничения данных на масштабирование токенизатора. Сначала мы изучаем, как масштабирование узкого места автоэнкодера влияет как на восстановление, так и на генерацию, и обнаруживаем, что хотя оно сильно коррелирует с восстановлением, его отношение к генерации более сложно. Затем мы исследовали эффект отдельного масштабирования кодера и декодера автоэнкодеров на производительность восстановления и генерации. Критически важно, что мы обнаружили, что масштабирование кодера приносит минимальные выгоды как для восстановления, так и для генерации, в то время как масштабирование декодера улучшает восстановление, но выгоды для генерации неоднозначны. Основываясь на нашем исследовании, мы разработали ViTok как легкий автоэнкодер, который достигает конкурентоспособной производительности с передовыми автоэнкодерами на задачах восстановления ImageNet-1K и COCO (256p и 512p), превосходя существующие автоэнкодеры на восстановлении видео из 16 кадров 128p для UCF-101, все это с 2-5 раз меньшим количеством операций с плавающей запятой (FLOPs). При интеграции с Диффузионными Трансформерами, ViTok демонстрирует конкурентоспособную производительность в генерации изображений для ImageNet-1K и устанавливает новые передовые стандарты для классовой генерации видео на UCF-101.
Генерация видео с использованием искусственного интеллекта претерпевает революцию, с качеством и реализмом, развивающимися стремительно. Эти достижения привели к страстному научному дебату: научатся ли видеомодели "моделям мира", которые открывают законы физики, или же они просто сложные предсказатели пикселей, достигающие визуального реализма без понимания физических принципов реальности? Мы рассматриваем этот вопрос, разрабатывая Physics-IQ, обширный набор данных для оценки, который можно решить только, обладая глубоким пониманием различных физических принципов, таких как гидродинамика, оптика, твердая механика, магнетизм и термодинамика. Мы обнаружили, что у большинства существующих моделей (Sora, Runway, Pika, Lumiere, Stable Video Diffusion и VideoPoet) понимание физики сильно ограничено и не связано с визуальным реализмом. В то же время некоторые тестовые случаи уже могут быть успешно решены. Это указывает на то, что возможно приобретение определенных физических принципов только на основе наблюдения, но остаются значительные препятствия. Хотя мы ожидаем быстрого прогресса вперед, наша работа демонстрирует, что визуальный реализм не подразумевает понимания физики. Наша страница проекта находится по адресу https://physics-iq.github.io; код доступен на https://github.com/google-deepmind/physics-IQ-benchmark.
Авторегрессионные модели последовательностей, такие как действия на основе трансформера для визуально-языковых задач (VLA), могут быть чрезвычайно эффективны для захвата сложных и обобщаемых робототехнических поведений. Однако такие модели требуют выбора токенизации наших непрерывных сигналов действий, которая определяет, как дискретные символы, предсказанные моделью, соотносятся с непрерывными действиями робота. Мы обнаружили, что текущие подходы к токенизации действий робота, основанные на простых схемах разбиения по измерениям и временным шагам, обычно плохо справляются с обучением ловкости на основе данных роботов с высокой частотой. Для решения этой проблемы мы предлагаем новую схему токенизации действий робота на основе сжатия, используя дискретное косинусное преобразование. Наш подход к токенизации, названный Токенизация последовательности действий в частотной области (FAST), позволяет нам обучать авторегрессионные VLA для очень ловких и высокочастотных задач, где стандартные методы дискретизации полностью терпят неудачу. На основе FAST мы выпустили FAST+, универсальный токенизатор действий робота, обученный на 1 миллионе реальных траекторий действий робота. Он может использоваться как черный ящик для широкого спектра последовательностей действий робота с различными пространствами действий и частотами управления. Наконец, мы показываем, что при совмещении с VLA pi0 наш метод масштабируется для обучения на 10 тысячах часов данных робота и соответствует производительности VLA диффузии, сокращая время обучения до 5 раз.
Мы представляем SynthLight, модель диффузии для переосвещения портретов. Наш подход формулирует переосвещение изображения как проблему повторного рендеринга, где пиксели преобразуются в ответ на изменения в условиях окружающего освещения. Используя физически основанный рендеринговый движок, мы синтезируем набор данных для моделирования этого преобразования под воздействием освещения с 3D-моделями головы при различных условиях освещения. Мы предлагаем две стратегии обучения и вывода, чтобы сократить разрыв между синтетическим и реальным доменами изображений: (1) многозадачное обучение, использующее реальные портреты людей без меток освещения; (2) процедура диффузионного сэмплирования во время вывода на основе руководства без классификатора, которая использует входной портрет для лучшего сохранения деталей. Наш метод обобщается на разнообразные реальные фотографии и создает реалистичные эффекты освещения, включая зеркальные блики и бросающиеся тени, сохраняя при этом идентичность субъекта. Наши количественные эксперименты на данных Light Stage показывают результаты, сравнимые с передовыми методами переосвещения. Наши качественные результаты на изображениях "in-the-wild" демонстрируют богатые и необычные эффекты освещения. Страница проекта: https://vrroom.github.io/synthlight/
Онлайн медицинское консультирование (ОМК) ограничивает врачей в получении информации о пациенте исключительно через запросы, что делает уже сложный последовательный процесс принятия решений при диагностике еще более сложным. Недавние быстрые достижения в области крупных языковых моделей продемонстрировали значительный потенциал для трансформации ОМК. Однако большинство исследований в основном сосредоточены на повышении точности диагностики в условиях относительно достаточной информации, уделяя ограниченное внимание "фазе запроса" в процессе консультации. Этот недостаток внимания привел к недостаточному изучению взаимосвязи между "запросом" и "диагнозом". В данной статье мы сначала извлекаем стратегии взаимодействия с реальными пациентами из аутентичных разговоров врача с пациентом и используем эти стратегии для направления обучения пациентского симулятора, который тесно отражает поведение в реальном мире. Подавая медицинские записи в наш пациентский симулятор для имитации ответов пациента, мы проводим обширные эксперименты для изучения взаимосвязи между "запросом" и "диагнозом" в процессе консультации. Экспериментальные результаты показывают, что запрос и диагноз следуют закону Либиха: низкое качество запроса ограничивает эффективность диагностики, независимо от диагностической способности, и наоборот. Более того, эксперименты выявляют значительные различия в качестве запроса различных моделей. Для изучения этого явления мы классифицируем процесс запроса на четыре типа: (1) запрос о главных жалобах; (2) уточнение известных симптомов; (3) запрос о сопутствующих симптомах; и (4) сбор семейного или медицинского анамнеза. Мы анализируем распределение запросов по четырем типам для различных моделей, чтобы исследовать причины их значительных различий в производительности. Мы планируем сделать веса и связанный код нашего пациентского симулятора общедоступными на https://github.com/LIO-H-ZEN/PatientSimulator.
Синтез высококачественных 3D-объектов из текстовых или визуальных источников стал центральной задачей в современном генеративном моделировании. Несмотря на многообразие алгоритмов генерации 3D-моделей, они часто сталкиваются с проблемами, такими как несогласованность между видами, медленное время генерации, низкая достоверность и проблемы восстановления поверхности. Хотя некоторые исследования решают некоторые из этих проблем, всеобъемлющее решение остается неясным. В данной статье мы представляем CaPa, фреймворк по вырезанию и раскрашиванию, который эффективно генерирует высококачественные 3D-объекты. CaPa использует двухэтапный процесс, разделяя генерацию геометрии и синтез текстур. Сначала модель диффузии латентного пространства 3D генерирует геометрию под руководством многовидовых входных данных, обеспечивая структурную согласованность между перспективами. Затем, используя новый, независимый от модели Пространственно Разделенный Внимательный Механизм, фреймворк синтезирует текстуры высокого разрешения (до 4K) для заданной геометрии. Кроме того, мы предлагаем алгоритм заполнения затененных областей, основанный на знании 3D-структуры, что приводит к цельным результатам по всей модели. Этот конвейер генерирует высококачественные 3D-объекты менее чем за 30 секунд, предоставляя готовые к использованию результаты для коммерческих приложений. Экспериментальные результаты показывают, что CaPa превосходит как по достоверности текстур, так и по геометрической стабильности, устанавливая новый стандарт для практичной, масштабируемой генерации 3D-объектов.
Недавно крупномасштабные генеративные модели продемонстрировали выдающиеся возможности генерации текста в изображение. Однако создание высококачественных персонализированных изображений с определенными объектами все еще представляет определенные трудности, особенно в случаях, когда вовлечены несколько объектов. В данной статье мы предлагаем AnyStory, унифицированный подход к генерации персонализированных объектов. AnyStory не только достигает высокого уровня персонализации для одиночных объектов, но также для нескольких объектов, не жертвуя при этом точностью передачи объекта. Конкретно, AnyStory моделирует проблему персонализации объекта способом "кодирование-затем-маршрутизация". На этапе кодирования AnyStory использует универсальный и мощный кодировщик изображений, т.е. ReferenceNet, совместно с кодировщиком CLIP для зрения, чтобы достичь высококачественного кодирования характеристик объекта. На этапе маршрутизации AnyStory использует разделенный экземпляр-осведомленный маршрутизатор объекта для точного восприятия и предсказания потенциального местоположения соответствующего объекта в скрытом пространстве и направления инъекции условий объекта. Подробные экспериментальные результаты демонстрируют отличную производительность нашего метода в сохранении деталей объекта, выравнивании текстовых описаний и персонализации для нескольких объектов. Страница проекта находится по адресу https://aigcdesigngroup.github.io/AnyStory/.
Недавнее увеличение популярности больших языковых моделей стимулировало разработку обширных наборов данных кода, необходимых для их обучения. Это привело к ограниченной доступности кода для сбора и использования в последующем исследовании конкретных поведенческих моделей или оценке больших языковых моделей без риска загрязнения данных. Для решения этой проблемы мы выпустили The Heap, большой многоязычный набор данных, охватывающий 57 языков программирования, который был дедуплицирован по отношению к другим открытым наборам данных кода, что позволяет исследователям проводить справедливые оценки больших языковых моделей без значительных затрат на очистку данных.
Генеративные системы искусственного интеллекта, такие как модели-основы (FMs), должны хорошо соответствовать человеческим ценностям, чтобы обеспечить полезное и надежное поведение. В то время как обучение с подкреплением на основе обратной связи от людей (RLHF) показало себя многообещающим в оптимизации производительности модели с использованием человеческих оценок, существующие конвейеры RLHF в основном полагаются на мгновенную обратную связь, которая может не точно отражать последствия взаимодействия для полезности пользователей. Мы демонстрируем, что обратная связь на основе оценок предвидения о последствиях систематически порождает динамику закона Гудхарта, стимулируя несоответствующие поведенческие модели, такие как подхалимство и обман, и в конечном итоге ухудшая результаты для пользователей. Для устранения этого мы предлагаем разделить оценку от предсказания, перенацелив RLHF на обратную связь по итогам. Наше теоретическое исследование показывает, что условие обратной связи оценщика на последующие наблюдения смягчает несоответствие и улучшает ожидаемую полезность для человека, даже когда эти наблюдения симулируются самой системой искусственного интеллекта. Чтобы использовать это понимание в практическом алгоритме выравнивания, мы представляем обучение с подкреплением на основе симуляции по итогам (RLHS), которое сначала симулирует вероятные последствия, а затем запрашивает обратную связь, чтобы оценить, какие поведенческие модели действительно были полезны с точки зрения итогов. Мы применяем RLHS к двум широко используемым методам оптимизации предпочтений онлайн и офлайн - Проксимальная оптимизация политики (PPO) и Прямая оптимизация предпочтений (DPO) - и эмпирически показываем, что несоответствие значительно снижается с обоими методами. Через онлайн-исследование с участием человека мы показываем, что RLHS последовательно превосходит RLHF в помощи пользователям в достижении их целей и получает более высокие оценки удовлетворенности, несмотря на то, что обучался исключительно с помощью симулированной обратной связи по итогам. Эти результаты подчеркивают важность фокусировки на долгосрочных последствиях, даже симулированных, для смягчения несоответствия в RLHF.