Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы исследуем эволюционную стратегию поиска для масштабирования времени вычислений вывода в больших языковых моделях. Предложенный подход, Mind Evolution, использует языковую модель для генерации, рекомбинации и улучшения кандидатских ответов. Предложенный подход избегает необходимости формализации основной проблемы вывода, когда доступен оценщик решений. Учитывая стоимость вывода, мы обнаружили, что Mind Evolution значительно превосходит другие стратегии вывода, такие как Best-of-N и Последовательная Переработка, в задачах естественного языкового планирования. На бенчмарках TravelPlanner и Natural Plan, Mind Evolution решает более 98% примеров проблем, используя Gemini 1.5 Pro без использования формального солвера.
Мы представляем PaSa, передового агента поиска статей, работающего на основе больших языковых моделей. PaSa способен автономно принимать ряд решений, включая вызов инструментов поиска, чтение статей и выбор релевантных ссылок, чтобы в конечном итоге получить всесторонние и точные результаты для сложных научных запросов. Мы оптимизируем PaSa с использованием обучения с подкреплением на синтетическом наборе данных AutoScholarQuery, который включает 35 тыс. тонких академических запросов и соответствующих статей из публикаций конференций по искусственному интеллекту высшего уровня. Кроме того, мы разрабатываем RealScholarQuery, бенчмарк, собирающий реальные академические запросы для оценки производительности PaSa в более реалистичных сценариях. Несмотря на то, что PaSa обучен на синтетических данных, он значительно превосходит существующие базовые уровни на RealScholarQuery, включая Google, Google Scholar, Google с GPT-4 для перефразированных запросов, chatGPT (GPT-4o с возможностью поиска), GPT-o1 и PaSa-GPT-4o (PaSa, реализованный путем подсказки GPT-4o). Заметно, что PaSa-7B превосходит лучший базовый уровень на основе Google, Google с GPT-4o, на 37,78% в recall@20 и 39,90% в recall@50. Он также превосходит PaSa-GPT-4o на 30,36% в recall и 4,25% в precision. Модель, наборы данных и код доступны по ссылке https://github.com/bytedance/pasa.
Одним из наиболее широко используемых методов оценки LLM являются тесты с выбором из нескольких вариантов ответа (MCQ). Бенчмарки MCQ позволяют проверять знания LLM по практически любой теме в масштабах, так как результаты можно обрабатывать автоматически. Чтобы помочь LLM в ответе, в вопросе могут быть включены несколько примеров, называемых few shots. Кроме того, LLM могут попросить ответить на вопрос непосредственно с выбранным вариантом или сначала предоставить рассуждение, а затем выбранный ответ, что известно как цепочка мыслей. Помимо проверки правильности выбранного ответа, оценка может рассматривать оцененную LLM вероятность своего ответа как показатель уверенности LLM в ответе. В данной работе мы изучаем, как уверенность LLM в своем ответе зависит от того, было ли модели предложено ответить непосредственно или предоставить рассуждение перед ответом. Результаты оценки вопросов по широкому спектру тем в семи различных моделях показывают, что LLM более уверены в своих ответах, когда они предоставляют рассуждение перед ответом. Это происходит независимо от того, правильный ли выбран ответ. Наша гипотеза заключается в том, что такое поведение обусловлено рассуждениями, которые изменяют вероятность выбранного ответа, поскольку LLM предсказывает ответ на основе входного вопроса и рассуждений, поддерживающих сделанный выбор. Следовательно, оцененные вероятности LLM кажутся имеющими внутренние ограничения, которые следует понимать для использования их в процедурах оценки. Интересно, что такое же поведение наблюдается у людей, для которых объяснение ответа увеличивает уверенность в его правильности.
2D-стиль мультфильма является важной художественной формой в создании цифровых персонажей, особенно популярной среди молодой аудитории. В то время как прогресс в технологии цифровых людей способствовал обширным исследованиям фотореалистичных цифровых людей и трехмерных персонажей, интерактивные 2D мультяшные персонажи получили сравнительно меньше внимания. В отличие от трехмерных аналогов, которые требуют сложного создания и ресурсоемкого рендеринга, Live2D, широко используемый формат для 2D мультяшных персонажей, предлагает более эффективную альтернативу, позволяющую анимировать 2D персонажей таким образом, что имитируется трехмерное движение без необходимости создания полной 3D модели. Более того, Live2D использует легковесный HTML5 (H5) рендеринг, улучшая как доступность, так и эффективность. В данном техническом отчете мы представляем Textoon, инновационный метод генерации разнообразных 2D мультяшных персонажей в формате Live2D на основе текстовых описаний. Textoon использует передовые языковые и видеомодели для понимания текстовых намерений и генерации внешности 2D, способной создавать широкий спектр потрясающих и интерактивных 2D персонажей всего за одну минуту. Домашняя страница проекта: https://human3daigc.github.io/Textoon_webpage/.
Улучшение больших языковых моделей (LLM) с помощью API в реальном времени может помочь генерировать более точные и актуальные ответы. Однако оценка возможностей вызова функций LLM в реальных сценариях остается мало исследованной из-за сложности сбора данных и оценки. В данной работе мы представляем ComplexFuncBench, набор тестов для сложного вызова функций в пяти реальных сценариях. По сравнению с существующими тестами, ComplexFuncBench охватывает многоэтапный и ограниченный вызов функций, который требует заполнения длинных параметров, рассуждения о значении параметров и контекста длиной 128 тыс. символов. Кроме того, мы предлагаем автоматизированную платформу, ComplexEval, для количественной оценки сложных задач вызова функций. Через комплексные эксперименты мы демонстрируем недостатки современных LLM в вызове функций и предлагаем направления для оптимизации этих возможностей. Данные и код доступны по ссылке https://github.com/THUDM/ComplexFuncBench.
Мы представляем X-Dyna, новый конвейер на основе диффузии для анимации одного человеческого изображения с использованием мимики лица и движений тела, полученных из видео-драйва, который генерирует реалистичную, контекстно-ориентированную динамику как для объекта, так и для окружающей среды. Основываясь на предыдущих подходах, сфокусированных на управлении позами человека, X-Dyna решает основные недостатки, приводящие к потере динамических деталей, улучшая реалистичность видеоанимаций человека. В основе нашего подхода лежит Dynamics-Adapter, легкий модуль, который эффективно интегрирует контекст внешнего вида в пространственные внимания основы диффузии, сохраняя способность модулей движения к синтезу плавных и сложных динамических деталей. Помимо управления позой тела, мы соединяем локальный модуль управления с нашей моделью для захвата дизентанглированных по идентификации выражений лица, облегчая точный перенос выражений для улучшения реализма в анимированных сценах. Вместе эти компоненты формируют единый каркас, способный обучаться физическому движению человека и естественной динамике сцены из разнообразного набора видео человека и сцены. Комплексные качественные и количественные оценки демонстрируют, что X-Dyna превосходит современные методы, создавая высокореалистичные и выразительные анимации. Код доступен по ссылке https://github.com/bytedance/X-Dyna.
Данная статья исследует проблемы разработки крупных языковых моделей (LLM), способных эффективно работать как в мультиязычном контексте, так и в области медицинских знаний. Мы показываем, что простое переведение медицинских данных не гарантирует высокую производительность на клинических задачах на целевом языке. Наши эксперименты показывают, что оптимальный языковой состав обучающих данных значительно различается в зависимости от конкретных медицинских задач. Мы обнаружили, что более крупные модели с тщательно откалиброванными языковыми соотношениями достигают более высокой производительности на клинических задачах на родном языке. Более того, наши результаты подтверждают, что полагаться исключительно на тонкую настройку может быть не самым эффективным подходом для внедрения новых языковых знаний в LLM. Вместо этого могут потребоваться методы предварительного обучения, требующие больших объемов данных и вычислительных ресурсов, для достижения оптимальной производительности в мультиязычных медицинских средах. Эти результаты предоставляют ценное руководство для создания эффективных и инклюзивных медицинских ИИ-систем для разноязычных сообществ.
Применение генеративных противоборствующих сетей (GANs) недавно продвинуло улучшение разрешения речи на основе промежуточных представлений, таких как мел-спектрограммы. Однако существующие методы улучшения разрешения речи, обычно основанные на независимо обученных и объединенных сетях, могут привести к несогласованным представлениям и низкому качеству речи, особенно в сценариях вне области применения. В данной работе мы предлагаем HiFi-SR, объединенную сеть, которая использует энд-ту-энд обучение с применением противоборства для достижения высококачественного улучшения разрешения речи. Наша модель включает объединенный трансформаторно-сверточный генератор, разработанный для плавного обработки как предсказания латентных представлений, так и их преобразования в временные волны области времени. Сеть трансформатора служит мощным кодировщиком, преобразуя низкоразрешенные мел-спектрограммы в латентные представления, в то время как сверточная сеть увеличивает разрешение этих представлений до высокочастотных волн. Для улучшения высокочастотной точности мы включаем мульти-диапазонный, мульти-масштабный временно-частотный дискриминатор, а также мульти-масштабную потерю мел-восстановления в процессе обучения с противоборством. HiFi-SR универсален, способен увеличивать разрешение любого входного речевого сигнала между 4 кГц и 32 кГц до частоты дискретизации 48 кГц. Экспериментальные результаты показывают, что HiFi-SR значительно превосходит существующие методы улучшения разрешения речи как по объективным метрикам, так и по тестам предпочтения ABX, как для сценариев внутри области применения, так и вне нее (https://github.com/modelscope/ClearerVoice-Studio).
Мы представляем GaussianAvatar-Editor, инновационную платформу для редактирования анимируемых гауссовских головных аватаров по тексту, которые могут быть полностью управляемы в выражении, позе и точке зрения. В отличие от статического редактирования 3D-гауссов, редактирование анимируемых 4D-гауссовских аватаров представляет вызовы, связанные с заслонением движения и пространственно-временной несогласованностью. Для решения этих проблем мы предлагаем уравнение взвешенного альфа-смешивания (WABE). Эта функция улучшает вес смешивания видимых гауссов, подавляя влияние на невидимые гауссы, эффективно обрабатывая заслонение движения во время редактирования. Более того, для улучшения качества редактирования и обеспечения 4D-согласованности мы включаем условное адверсариальное обучение в процесс редактирования. Эта стратегия помогает усовершенствовать отредактированные результаты и поддерживать согласованность на протяжении анимации. Интегрируя эти методы, наш GaussianAvatar-Editor достигает фотореалистичных и согласованных результатов в редактировании анимируемых 4D-гауссов. Мы проводим обширные эксперименты с различными объектами, чтобы подтвердить эффективность наших предложенных техник, что демонстрирует превосходство нашего подхода над существующими методами. Дополнительные результаты и код доступны по ссылке на проект: [Ссылка на проект](https://xiangyueliu.github.io/GaussianAvatar-Editor/).