Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация изображений на основе текста, ориентированная на объект, направлена на создание изображений нового объекта в желаемом контексте путем точного захвата как визуальных характеристик объекта, так и семантического содержания текстовой подсказки. Традиционные методы полагаются на трудоемкую настройку для выравнивания объекта, в то время как недавние нулевые подходы используют мгновенное подсказывание изображения, часто жертвуя выравниванием объекта. В данной статье мы представляем Diptych Prompting, новый нулевой подход, который переосмысливает как задачу заполнения пропусков с точным выравниванием объекта, используя возникающее свойство генерации диптихов в масштабных моделях текст-изображение. Diptych Prompting устанавливает неполный диптих с эталонным изображением в левой панели и выполняет заполнение пропусков, зависящее от текста, в правой панели. Мы также предотвращаем нежелательное проникновение контента, удаляя фон на эталонном изображении, и улучшаем мелкие детали в созданном объекте, улучшая веса внимания между панелями во время заполнения пропусков. Экспериментальные результаты подтверждают, что наш подход значительно превосходит методы мгновенного подсказывания изображения, что приводит к изображениям, которые визуально предпочтительны для пользователей. Кроме того, наш метод поддерживает не только генерацию, ориентированную на объект, но и генерацию стилизованных изображений и редактирование изображений, ориентированное на объект, демонстрируя универсальность в различных приложениях генерации изображений. Страница проекта: https://diptychprompting.github.io/
Это исследование представляет новую систему оценки, разработанную для оценки способности крупных языковых моделей (LLM) признавать неопределенность на 675 фундаментально неразрешимых проблемах. Используя отобранный набор данных с вопросами высшего уровня сложности с преднамеренно неизвестными ответами, мы оценили двенадцать передовых LLM, включая как открытые, так и закрытые модели, по их склонности признавать невежество, а не генерировать правдоподобные, но неверные ответы. Лучшие модели показали результаты в диапазонах точности от 62 до 68% в отношении признания того, что решение проблемы неизвестно в областях от биологии до философии и математики. Мы обнаружили обратную зависимость между сложностью проблемы и точностью модели, причем GPT-4 продемонстрировал более высокие показатели признания неопределенности на более сложных проблемах (35,8%) по сравнению с более простыми (20,0%). Этот шаблон указывает на то, что модели могут быть более склонны к генерации спекулятивных ответов, когда проблемы кажутся более разрешимыми. Исследование также выявило значительные вариации по категориям проблем, с моделями, испытывающими трудности в признании неопределенности в изобретательских и NP-сложных задачах, в то время как они относительно лучше справлялись с философскими и психологическими вызовами. Эти результаты вносят свой вклад в растущее направление исследований по оценке искусственного общего интеллекта (AGI), подчеркивая важность признания неопределенности как критического компонента будущей оценки машинного интеллекта. Этот тест невозможности таким образом расширяет предыдущие теоретические рамки для тестирования универсального интеллекта, предоставляя эмпирические доказательства текущих ограничений в способности LLM распознавать свои собственные границы знаний, указывая на новые направления для улучшения архитектур обучения моделей и подходов к оценке.
Мы представляем Material Anything, полностью автоматизированную, объединенную рамку диффузии, разработанную для создания материалов на основе физики для 3D объектов. В отличие от существующих методов, которые полагаются на сложные конвейеры или оптимизации, ориентированные на конкретные случаи, Material Anything предлагает надежное, полностью интегрированное решение, способное адаптироваться к объектам в различных условиях освещения. Наш подход использует предварительно обученную модель диффузии изображения, улучшенную трехголовой архитектурой и потерями рендеринга для повышения стабильности и качества материалов. Кроме того, мы вводим маски уверенности в качестве динамического переключателя в модели диффузии, что позволяет ей эффективно обрабатывать как текстурированные, так и нетекстурированные объекты при различных условиях освещения. Применяя стратегию пошагового создания материалов, направляемую этими масками уверенности, вместе с улучшителем материалов в UV-пространстве, наш метод гарантирует последовательные, готовые к UV выходные данные материалов. Обширные эксперименты демонстрируют, что наш подход превосходит существующие методы в широком диапазоне категорий объектов и условий освещения.
Данная статья представляет критический анализ текущих подходов к воспроизведению возможностей модели O1 от OpenAI, с особым вниманием к широко распространенному, но часто скрытому использованию техник дистилляции знаний. В то время как наша предыдущая работа исследовала фундаментальный технический путь к воспроизведению O1, данное исследование показывает, как простая дистилляция из API O1, в сочетании с надзорным дообучением, может достичь более высокой производительности на сложных задачах математического рассуждения. Через обширные эксперименты мы показываем, что базовая модель, дообученная всего лишь на десятках тысяч образцов O1-дистиллированных длинных цепочек мыслей, превосходит O1-preview на American Invitational Mathematics Examination (AIME) с минимальной технической сложностью. Более того, наше исследование выходит за пределы математического рассуждения, чтобы исследовать обобщающие способности O1-дистиллированных моделей на различных задачах: галлюцинация, безопасность и вопросно-ответные системы в открытой области. Заметно, что несмотря на обучение только на данных по решению математических задач, наши модели продемонстрировали сильное обобщение на задачи открытого вопросно-ответного формата и стали значительно менее подвержены подхалимству после дообучения. Мы намеренно делаем это открытым для общественности, чтобы способствовать прозрачности в исследованиях в области искусственного интеллекта и вызвать на вызов текущему тренду затемненных технических утверждений в данной области. Наша работа включает: (1) Подробное техническое изложение процесса дистилляции и его эффективности, (2) Комплексная система оценки и категоризации попыток воспроизведения O1 на основе их технической прозрачности и воспроизводимости, (3) Критическое обсуждение ограничений и потенциальных рисков чрезмерной зависимости от подходов дистилляции, наш анализ завершается важным горьким уроком: важность развития исследователей, укорененных в мышлении первых принципов, несравненно выше, чем стремление к более способным системам искусственного интеллекта.
Оценка и оценка давно являются критическими вызовами в искусственном интеллекте (ИИ) и обработке естественного языка (NLP). Однако традиционные методы, будь то на основе сопоставления или вложений, часто не способны оценить тонкие атрибуты и обеспечить удовлетворительные результаты. Недавние достижения в области больших языковых моделей (LLM) вдохновляют парадигму "LLM-как-судья", где LLM используются для выполнения оценки, ранжирования или выбора по различным задачам и приложениям. В данной статье представлен обширный обзор оценки и судейства на основе LLM, предлагая глубокий обзор для развития этой развивающейся области. Мы начинаем с подробных определений с точки зрения как ввода, так и вывода. Затем мы представляем обширную таксономию для изучения LLM-как-судья с трех измерений: что судить, как судить и где судить. Наконец, мы составляем бенчмарки для оценки LLM-как-судья и выделяем основные вызовы и перспективные направления, с целью предоставить ценные идеи и вдохновить будущие исследования в этой перспективной области. Список статей и дополнительные ресурсы о LLM-как-судья можно найти на https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge и https://llm-as-a-judge.github.io.
Несмотря на значительные достижения в области общего искусственного интеллекта, такие как GPT-4, их эффективность в медицинской сфере (общий медицинский ИИ, GMAI) остается ограниченной из-за отсутствия специализированных медицинских знаний. Для решения этой проблемы мы представляем GMAI-VL-5.5M, обширный мультимодальный медицинский набор данных, созданный путем преобразования сотен специализированных медицинских наборов данных в тщательно составленные пары изображений и текста. Этот набор данных обладает всесторонним покрытием задач, разнообразными модальностями и высококачественными данными изображений и текста. Основываясь на этом мультимодальном наборе данных, мы предлагаем GMAI-VL, общую медицинскую модель видео-языка с пошаговой стратегией тренировки в трех этапах. Этот подход значительно улучшает способности модели путем интеграции визуальной и текстовой информации, тем самым улучшая ее способность обрабатывать мультимодальные данные и поддерживать точные диагностику и клиническое принятие решений. Экспериментальные оценки показывают, что GMAI-VL достигает передовых результатов в широком спектре мультимодальных медицинских задач, таких как ответы на визуальные вопросы и диагностика медицинских изображений. Наши вклады включают разработку набора данных GMAI-VL-5.5M, введение модели GMAI-VL и установление новых стандартов в нескольких медицинских областях. Код и набор данных будут опубликованы на https://github.com/uni-medical/GMAI-VL.
Здесь мы представляем результаты второго Хакатона по Большой Языковой Модели (LLM) для Применений в Материаловедении и Химии, в котором приняли участие участники со всего мира, что привело к 34 командам-участникам. Представленные проекты охватывают семь ключевых областей применения и демонстрируют разнообразную полезность LLM для применений в (1) предсказании молекулярных и материальных свойств; (2) дизайне молекул и материалов; (3) автоматизации и новых интерфейсов; (4) научной коммуникации и образования; (5) управления и автоматизации научных данных; (6) генерации и оценки гипотез; и (7) извлечения знаний и рассуждений из научной литературы. Каждый проект команды представлен в сводной таблице с ссылками на код и краткими статьями в приложении. Помимо результатов команд, мы обсуждаем событие хакатона и его гибридный формат, который включал физические хабы в Торонто, Монреале, Сан-Франциско, Берлине, Лозанне и Токио, а также глобальный онлайн-хаб для обеспечения локального и виртуального взаимодействия. В целом, событие подчеркнуло значительное улучшение возможностей LLM по сравнению с хакатоном предыдущего года, что указывает на продолжающееся расширение применения LLM для исследований в области материаловедения и химии. Эти результаты демонстрируют двойную полезность LLM как универсальных моделей для различных задач машинного обучения и платформ для быстрого прототипирования индивидуальных приложений в научных исследованиях.
Мы представляем OneDiffusion - универсальную модель диффузии большого масштаба, которая безупречно поддерживает двустороннюю синтез и понимание изображений по различным задачам. Она позволяет условную генерацию на основе таких входных данных, как текст, глубина, поза, композиция и семантические карты, а также обрабатывает задачи, такие как размытие изображения, увеличение масштаба и обратные процессы, такие как оценка глубины и сегментация. Кроме того, OneDiffusion позволяет генерацию множества видов, оценку позы камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель применяет простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными уровнями шума во время обучения, что позволяет любому кадру действовать как условное изображение во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое многозадачное обучение и плавно адаптируется к любому разрешению, улучшая как обобщение, так и масштабируемость. Экспериментальные результаты демонстрируют конкурентоспособную производительность по различным задачам как в области генерации, так и прогнозирования, таких как текст в изображение, многовидовая генерация, сохранение идентификатора, оценка глубины и поза камеры, несмотря на относительно небольшой набор данных для обучения. Наш код и контрольная точка доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion
Механизм Multi-Head Mixture-of-Experts (MH-MoE) продемонстрировал превосходную производительность, используя механизм мульти-головок для совместного обращения внимания на информацию из различных пространств представлений внутри различных экспертов. В данной статье мы представляем новую реализацию MH-MoE, которая сохраняет как FLOPs, так и параметрическую паритетность с разреженными моделями Mixture of Experts. Экспериментальные результаты на языковых моделях показывают, что новая реализация приводит к улучшению качества как по сравнению с обычными MoE, так и с детализированными моделями MoE. Кроме того, наши эксперименты показывают, что MH-MoE совместим с 1-битными большими языковыми моделями (LLM), такими как BitNet.
Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась ограниченной доступностью масштабных, разнообразных и плотно аннотированных наборов данных, что затрудняло обобщение моделей и последующую оценку их работы. В данной статье мы представляем набор данных IMed-361M, значительный прогресс в исследованиях по IMIS. Сначала мы собрали и стандартизировали более 6,4 миллионов медицинских изображений и соответствующие им маски истинных значений из нескольких источников данных. Затем, используя сильные возможности распознавания объектов модели основного зрения, мы автоматически сгенерировали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, ограниченных определенными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок - в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на этом наборе данных, которая поддерживает генерацию масок высокого качества через интерактивные входные данные, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оценили ее производительность на задачах сегментации медицинских изображений с разных точек зрения, продемонстрировав превосходную точность и масштабируемость по сравнению с существующими моделями интерактивной сегментации. Для облегчения исследований по основным моделям в медицинском компьютерном зрении мы выпустили IMed-361M и модель на https://github.com/uni-medical/IMIS-Bench.
Вычислительная томография (CT) является одним из самых популярных методов для медицинского изображения. До сих пор изображения CT внесли наибольший вклад в крупные общедоступные наборы данных для объемных медицинских задач сегментации, охватывая анатомические структуры всего тела. Большие объемы изображений CT всего тела предоставляют возможность предварительного обучения мощных моделей, например, модели STU-Net, предварительно обученной в надзорной манере, для сегментации многочисленных анатомических структур. Однако остается неясным, в каких условиях эти предварительно обученные модели могут быть перенесены на различные последующие медицинские задачи сегментации, особенно на сегментацию других модальностей и разнообразных целей. Для решения этой проблемы критически важно иметь крупномасштабный бенчмарк для всесторонней оценки этих условий. Таким образом, мы собрали 87 общедоступных наборов данных с различной модальностью, целью и размером выборки для оценки возможности передачи предварительно обученных моделей CT всего тела. Затем мы использовали представительную модель, STU-Net с несколькими масштабами моделей, для проведения обучения передачи между модальностями и целями. Наши экспериментальные результаты показывают, что (1) может наблюдаться эффект узкого места в отношении размера набора данных при настройке, с большим улучшением как на небольших, так и на крупных наборах данных, чем на среднемасштабных. (2) Модели, предварительно обученные на CT всего тела, демонстрируют эффективную передачу модальности, хорошо адаптируясь к другим модальностям, таким как МРТ. (3) Предварительное обучение на CT всего тела не только поддерживает сильное выполнение обнаружения структур, но также показывает эффективность в обнаружении очагов, демонстрируя адаптируемость к различным целевым задачам. Мы надеемся, что эта крупномасштабная открытая оценка обучения передачи может направить будущие исследования в области объемной сегментации медицинских изображений.
AdamW был выбранным оптимизатором для предварительного обучения трансформера. На протяжении многих лет наше сообщество искало более быстрые и стабильные оптимизаторы с исключительно положительными результатами. В данной работе мы предлагаем однострочное изменение в Pytorch к любому оптимизатору на основе импульса, который мы переименовываем в Осторожный Оптимизатор, например, C-AdamW и C-Lion. Наш теоретический результат показывает, что это изменение сохраняет гамильтонианскую функцию Адама и не нарушает гарантию сходимости в рамках анализа Ляпунова. Кроме того, наше теоретическое понимание раскрывает целое семейство оптимизаторов. Из них мы выбираем самый простой для эмпирических экспериментов, показывающих ускорение на предварительном обучении Лама и MAE до 1,47 раза. Код доступен по ссылке https://github.com/kyleliang919/C-Optim
Генерация видео повествования (SVG) недавно появилась как задача создания длинных, многодвижущихся, многоплановых видеороликов, которые последовательно отображают историю, описанную во входном текстовом сценарии. SVG имеет большой потенциал для разнообразного контентного создания в медиа и развлекательной индустрии; однако он также представляет существенные вызовы: (1) объекты должны демонстрировать широкий спектр тонких, сложных движений, (2) несколько объектов должны появляться последовательно в разных сценах, и (3) субъекты могут требовать несколько движений с плавными переходами внутри одной сцены. Для решения этих проблем мы предлагаем DreamRunner, новый метод генерации видео по сюжету: Сначала мы структурируем входной сценарий с использованием большой языковой модели (LLM) для облегчения как грубого планирования сцены, так и тонкой планировки макета объектов и движений. Затем DreamRunner представляет адаптацию на основе поиска для захвата целевых движений объектов в каждой сцене, поддерживая разнообразную настройку движения на основе найденных видеороликов, тем самым облегчая создание новых видео с сложными, сценарными движениями. Наконец, мы предлагаем новый модуль внимания на основе пространственно-временных регионов 3D и инъекции приоритетов SR3AI для тонкой привязки объектов к движению и семантического управления кадр за кадром. Мы сравниваем DreamRunner с различными базовыми моделями SVG, демонстрируя передовую производительность в согласованности персонажей, выравнивании текста и плавных переходах. Кроме того, DreamRunner проявляет сильную способность к тонкому следованию условиям в композиционной генерации текста в видео, значительно превосходя базовые модели на T2V-ComBench. Наконец, мы подтверждаем надежную способность DreamRunner генерировать взаимодействия между несколькими объектами на качественных примерах.
Визуальные токенизаторы являются фундаментальными для генерации изображений. Они преобразуют визуальные данные в дискретные токены, позволяя моделям на основе трансформеров превосходно справляться с генерацией изображений. Несмотря на свой успех, токенизаторы на основе VQ, такие как VQGAN, сталкиваются с значительными ограничениями из-за ограниченного размера словаря. Простое расширение кодовой книги часто приводит к нестабильности обучения и уменьшению прироста производительности, что делает масштабируемость критической проблемой. В данной работе мы представляем Факторизованную Квантизацию (FQ), новый подход, который оживляет токенизаторы на основе VQ путем декомпозиции большой кодовой книги на несколько независимых подкодовых книг. Эта факторизация снижает сложность поиска в больших кодовых книгах, обеспечивая более эффективную и масштабируемую визуальную токенизацию. Для того чтобы гарантировать, что каждая подкодовая книга захватывает различную и дополняющую информацию, мы предлагаем регуляризацию деконволюции, которая явно снижает избыточность, способствуя разнообразию среди подкодовых книг. Более того, мы интегрируем обучение представлений в процесс обучения, используя предварительно обученные модели зрения, такие как CLIP и DINO, чтобы внедрить семантическое богатство в изученные представления. Этот дизайн гарантирует, что наш токенизатор захватывает различные семантические уровни, что приводит к более выразительным и деконволюционным представлениям. Эксперименты показывают, что предложенная модель FQGAN значительно улучшает качество восстановления визуальных токенизаторов, достигая передовой производительности. Мы также демонстрируем, что этот токенизатор может быть эффективно адаптирован для авторегрессивной генерации изображений. https://showlab.github.io/FQGAN
Мы предполагаем, что история визуальных данных пользователя, отражающая их повседневную жизнь, предоставляет ценные понимания их интересов и предпочтений, и может быть использована для персонализации. Среди многих вызовов для достижения этой цели, главным является разнообразие и шумы в визуальной истории, содержащей изображения, не обязательно связанные с задачей рекомендации, не обязательно отражающие интересы пользователя или даже не обязательно имеющие отношение к предпочтениям. Существующие системы рекомендаций либо опираются на логи взаимодействия пользователя, специфичные для задачи, такие как история онлайн-покупок для рекомендаций по покупкам, либо фокусируются на текстовых сигналах. Мы предлагаем новый подход, VisualLens, который извлекает, фильтрует и улучшает представления изображений, и использует эти сигналы для персонализации. Мы создали два новых эталона с задаче-агностическими визуальными историями и показываем, что наш метод улучшает рекомендации по сравнению с передовыми методами на 5-10% по Hit@3, и улучшает результаты по сравнению с GPT-4o на 2-5%. Наш подход прокладывает путь для персонализированных рекомендаций в сценариях, где традиционные методы не справляются.
Мы представляем способ изучения новых концепций, используя только их текстовое описание. Мы называем этот метод Передача Знаний. Аналогично человеческому восприятию, мы используем кросс-модальное взаимодействие для введения новых концепций. Мы предполагаем, что в предварительно обученном визуальном кодировщике уже достаточно изученных низкоуровневых характеристик (например, форма, внешний вид, цвет), которые можно использовать для описания ранее неизвестных высокоуровневых концепций. Предоставленное текстовое описание нового концепта, наш метод работает путем выравнивания известных низкоуровневых характеристик визуального кодировщика с его высокоуровневым текстовым описанием. Мы показываем, что Передача Знаний успешно может ввести новые концепции в мультимодельные модели очень эффективным способом, требуя только одного описания целевого концепта. Наш подход совместим как с отдельными текстовыми и визуальными кодировщиками (например, CLIP), так и с общими параметрами между модальностями. Мы также показываем, что, следуя тому же принципу, Передача Знаний может улучшить концепции, уже известные модели. Используя Передачу Знаний, мы улучшаем нулевую производительность на различных задачах, таких как классификация, сегментация, поиск изображений по тексту и подписывание.
Переход от архитектуры x86 к архитектуре ARM становится все более распространенным в различных областях, в основном благодаря энергоэффективности ARM и улучшенной производительности в традиционных секторах. Однако этот сдвиг в ISA представляет существенные вызовы, главным образом из-за обширной легаси-экосистемы программного обеспечения x86 и отсутствия переносимости между проприетарными экосистемами и программными стеками. В данной статье представлен CRT, легковесный транспайлер на основе LLM, который автоматически преобразует ассемблер x86 в ассемблер ARM. Наш подход устраняет фундаментальный архитектурный разрыв между CISC-ориентированным подходом x86 и RISC-ориентированным подходом ARM, сохраняя семантику программы и оптимизируя производительность. Мы оцениваем CRT на разнообразных прикладных программах, достигая точности перевода 79,25% с x86 на ARMv5 в нашем комплексном тестовом наборе и точности 88,68% с x86 на RISC-V. В практических применениях на аппаратных средствах Apple M2 (ARMv8) наш преобразованный код обеспечивает ускорение в 1,73 раза по сравнению с виртуальной машиной Rosetta 2 от Apple, обеспечивая при этом эффективность памяти в 2,41 раза и лучшее энергопотребление в 1,47 раза. Через тестирование и анализ мы показываем, что CRT успешно преодолевает разрыв между CISC и RISC и генерирует корректный исполняемый RISC-код, несмотря на языковые барьеры машины. Мы публикуем наш код, модели, обучающие наборы данных и бенчмарки по адресу: https://ahmedheakl.github.io/asm2asm/.
Существующие большие мультимодальные модели (LMM) обычно сосредотачиваются только на нескольких регионах и языках. Поскольку LMM продолжают улучшаться, становится все более важным обеспечить их понимание культурных контекстов, уважение к местным чувствительностям и поддержку языков с ограниченными ресурсами, эффективно интегрируя соответствующие визуальные подсказки. В поисках культурно разнообразных глобальных мультимодальных моделей наш предложенный Бенчмарк "Все Языки Важны" (ALM-bench) представляет собой крупнейшее и наиболее всестороннее усилие на сегодняшний день по оценке LMM на 100 языках. ALM-bench ставит перед существующими моделями задачу проверить их способность понимать и рассуждать о культурно разнообразных изображениях, сопровождаемых текстом на различных языках, включая множество языков с ограниченными ресурсами, традиционно недостаточно представленных в исследованиях LMM. Бенчмарк предлагает надежную и тонкую систему оценки, включающую различные форматы вопросов, включая верно/неверно, выбор из нескольких вариантов и открытые вопросы, которые дополнительно разделены на категории коротких и длинных ответов. Дизайн ALM-bench обеспечивает всестороннюю оценку способности модели справляться с различными уровнями сложности в визуальном и лингвистическом рассуждении. Для захвата богатой мозаики мировых культур ALM-bench тщательно подбирает контент из 13 различных культурных аспектов, начиная от традиций и обрядов до известных личностей и праздников. Через это ALM-bench не только предоставляет строгую площадку для тестирования передовых открытых и закрытых источников LMM, но также подчеркивает важность культурной и лингвистической инклюзивности, поощряя разработку моделей, способных эффективно обслуживать разнообразные глобальные популяции. Наш бенчмарк доступен публично.
Генерация и редактирование трехмерных сцен на основе текста имеют значительный потенциал для оптимизации создания контента через интуитивное взаимодействие пользователя. В то время как последние достижения используют трехмерное гауссово сглаживание (3DGS) для высококачественного и реального времени визуализации, существующие методы часто специализированы и ориентированы на конкретные задачи, лишены единой структуры как для генерации, так и для редактирования. В данной статье мы представляем SplatFlow, комплексную структуру, которая заполняет этот разрыв, обеспечивая прямую генерацию и редактирование трехмерного гауссова сглаживания. SplatFlow состоит из двух основных компонентов: модели многозрительного выправленного потока (RF) и декодера гауссова сглаживания (GSDecoder). Многозрительная модель RF работает в скрытом пространстве, генерируя изображения с нескольких точек зрения, глубины и положения камеры одновременно, условно от текстовых подсказок, тем самым решая проблемы, такие как разнообразные масштабы сцен и сложные траектории камер в реальных условиях. Затем GSDecoder эффективно преобразует эти скрытые выходы в трехмерные представления 3DGS с помощью прямого метода 3DGS. Используя техники инверсии и заполнения без обучения, SplatFlow обеспечивает бесшовное редактирование 3DGS и поддерживает широкий спектр трехмерных задач, включая редактирование объектов, синтез нового вида и оценку положения камеры, в рамках единой структуры без необходимости дополнительных сложных конвейеров. Мы проверяем возможности SplatFlow на наборах данных MVImgNet и DL3DV-7K, демонстрируя его универсальность и эффективность в различных трехмерных задачах генерации, редактирования и заполнения.
Хорошо известно, что цепочка мыслей может значительно улучшить производительность LLM на сложных задачах. Однако, поскольку это также приводит к медленным скоростям вывода и более высоким вычислительным затратам, многие исследователи пытались использовать неявную цепочку мыслей, которая не требует от LLM явного создания промежуточных шагов. Однако все еще существует разрыв между их эффективностью и типичными методами явной цепочки мыслей. Это заставляет нас сомневаться, действительно ли неявная цепочка мыслей равносильна явной цепочке мыслей? Поэтому в данном исследовании мы рассматриваем этот вопрос с помощью экспериментов. Мы исследуем информацию о промежуточных шагах из скрытых состояний модели во время выполнения неявной цепочки мыслей. Результаты удивительно показывают, что LLM почти не задумывается о промежуточных шагах, что указывает на то, что они могут просто полагаться на опыт, а не на строгое пошаговое рассуждение. Более того, мы обнаруживаем, что неявные способности рассуждения LLM подвержены воздействию и нестабильны, подтверждая необходимость явной цепочки мыслей для эффективной поддержки сложных задач.
Одной из основных открытых проблем современного масштабирования LLM является недостаточное понимание возникающих возможностей. В частности, известно, что потери предварительного обучения языковых моделей можно высоко предсказать как функцию вычислений. Однако возможности на уровне конечных задач гораздо менее предсказуемы, иногда даже проявляя эмерджентные скачки, что затрудняет предвидение возможностей будущих моделей. В данной работе мы первоначально ставим задачу предсказания эмерджентности: имея доступ к текущим LLM с случайной точностью few-shot на задаче, можем ли мы предсказать, будут ли у будущих моделей (GPT-N+1) значимые результаты на данной задаче? Затем мы обнаруживаем простое наблюдение для данной проблемы: донастройка LLM на заданной задаче может сдвинуть точку эмерджентности к менее способным моделям. Для операционализации этого наблюдения мы можем донастраивать LLM с различными объемами данных и подгонять параметрическую функцию, которая предсказывает момент эмерджентности (т.е. "законы эмерджентности"). Мы проверяем этот подход на четырех стандартных бенчмарках NLP, где крупномасштабные открытые LLM уже демонстрируют эмерджентность (MMLU, GSM8K, CommonsenseQA и CoLA). Используя только LLM малого масштаба, мы обнаруживаем, что в некоторых случаях мы можем точно предсказать, появились ли модели, обученные с использованием до 4 раз большего количества вычислений. Наконец, мы представляем кейс-стади двух реалистичных применений предсказания эмерджентности.
Современные модели последовательностей (например, Трансформеры, линейные RNN и т. д.) выделяются как доминирующие основы недавних фреймворков глубокого обучения, в основном благодаря их эффективности, репрезентативной мощности и/или способности захватывать долгосрочные зависимости. Применение этих моделей последовательностей для данных, структурированных в виде графов, недавно стало популярным как альтернатива нейронным сетям с передачей сообщений (MPNN). Однако отсутствует общее представление о том, что составляет хорошую модель последовательности графа, а также математическое описание преимуществ и недостатков при использовании различных моделей последовательностей для обучения на графах. Для этой цели мы представляем модель последовательности графа (GSM) - объединяющую структуру для применения моделей последовательностей к графам, состоящую из трех основных шагов: (1) Токенизация, которая преобразует граф в набор последовательностей; (2) Локальное кодирование, которое кодирует локальные окрестности вокруг каждого узла; и (3) Глобальное кодирование, которое использует масштабируемую модель последовательности для захвата долгосрочных зависимостей внутри последовательностей. Эта структура позволяет нам понять, оценить и сравнить мощность различных основ моделей последовательностей в задачах с графами. Наши теоретические оценки мощности представления Трансформеров и современных рекуррентных моделей через призму глобальных и локальных задач с графами показывают, что у обоих типов моделей есть как положительные, так и отрицательные стороны. Основываясь на этом наблюдении, мы представляем GSM++, быструю гибридную модель, которая использует алгоритм иерархической аффинной кластеризации (HAC) для токенизации графа в иерархические последовательности, а затем применяет гибридную архитектуру Трансформера для кодирования этих последовательностей. Наши теоретические и экспериментальные результаты подтверждают концепцию GSM++, показывая, что GSM++ превосходит базовые модели в большинстве бенчмарковых оценок.
Метод оценки позы, независимый от категории объекта (CAPE), локализует ключевые точки по всем различным категориям объектов с использованием одной или нескольких размеченных опорных изображений. Недавние исследования показали, что использование графа поз (т.е. рассмотрение ключевых точек как узлов в графе, а не как изолированных точек) помогает справляться с заслонениями и нарушениями симметрии. Однако эти методы предполагают статический граф поз с ребрами равного веса, что приводит к неоптимальным результатам. Мы представляем EdgeCape, новую структуру, которая преодолевает эти ограничения путем предсказания весов ребер графа, что оптимизирует локализацию. Для дальнейшего использования структурных априорных данных мы предлагаем интегрировать Марковское структурное смещение, которое модулирует взаимодействие самовнимания между узлами на основе количества шагов между ними. Мы показываем, что это улучшает способность модели улавливать глобальные пространственные зависимости. Оцененный на бенчмарке MP-100, который включает 100 категорий и более 20 тыс. изображений, EdgeCape достигает лучших результатов в режиме 1-шот и лидирует среди методов схожего размера в режиме 5-шот, значительно улучшая точность локализации ключевых точек. Наш код доступен публично.
Мы изучаем сегментацию частей в открытом мире в 3D: сегментация любой части в любом объекте на основе любого текстового запроса. Ранее использованные методы ограничены категориями объектов и словарями частей. Недавние достижения в области искусственного интеллекта продемонстрировали эффективные возможности распознавания в открытом мире в 2D. Вдохновленные этим прогрессом, мы предлагаем модель прямого предсказания для сегментации частей в 3D в открытом мире, которая может быть применена нулевым шагом к любому объекту. Наш подход, названный Find3D, обучает общую модель встраивания точек на крупномасштабных 3D-ресурсах из интернета без какой-либо аннотации человека. Он объединяет движок данных, основанный на базовых моделях для аннотации данных, с контрастным методом обучения. Мы достигаем высокой производительности и обобщения на нескольких наборах данных, с улучшением mIoU до 3 раз по сравнению с следующим лучшим методом. Наша модель работает в 6-300 раз быстрее, чем существующие базовые модели. Для поощрения исследований в сегментации частей в открытом мире общей категории в 3D, мы также выпустили бенчмарк для общих объектов и частей. Веб-сайт проекта: https://ziqi-ma.github.io/find3dsite/