번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델에서 추론 시간 계산을 확장하기 위한 진화적 탐색 전략을 탐구합니다. 제안된 방법인 마인드 진화는 언어 모델을 사용하여 후보 응답을 생성, 재결합 및 정제합니다. 제안된 방법은 해결 평가자가 제공될 때 기본 추론 문제를 형식화할 필요가 없습니다. 추론 비용을 제어하는 경우, 마인드 진화가 Best-of-N 및 Sequential Revision과 같은 다른 추론 전략을 크게 능가함을 발견했습니다. TravelPlanner 및 Natural Plan 벤치마크에서 마인드 진화는 Gemini 1.5 Pro를 사용하여 형식적인 솔버를 사용하지 않고 문제 인스턴스의 98% 이상을 해결합니다.
대규모 언어 모델을 기반으로 한 고급 Paper Search 에이전트인 PaSa를 소개합니다. PaSa는 검색 도구를 활용하고 논문을 읽고 관련 참고 자료를 선택하는 등 일련의 결정을 자율적으로 내릴 수 있어 복잡한 학술적 질의에 대해 종합적이고 정확한 결과를 얻을 수 있습니다. 우리는 35,000개의 세부적인 학술적 질의와 주요 AI 학회 출판물에서 수집한 해당 논문들을 포함한 합성 데이터셋 AutoScholarQuery를 활용하여 PaSa를 최적화합니다. 게다가 PaSa의 성능을 더 현실적인 시나리오에서 평가하기 위해 실제 학술적 질의를 수집한 벤치마크인 RealScholarQuery를 개발합니다. 합성 데이터를 기반으로 훈련되었음에도 불구하고, PaSa는 Google, Google Scholar, Google with GPT-4(변형된 질의에 대한 GPT-4 포함), chatGPT(검색 기능이 추가된 GPT-4o), GPT-o1 및 PaSa-GPT-4o(프롬프트로 구현된 GPT-4o에 의한 PaSa)를 포함한 기존의 베이스라인을 RealScholarQuery에서 현저하게 능가합니다. 특히, PaSa-7B는 recall@20에서 최고의 Google 기반 베이스라인인 Google with GPT-4o를 37.78%의 차이로, 그리고 recall@50에서 39.90%의 차이로 능가합니다. 또한 recall에서 PaSa-GPT-4o를 30.36%, 정밀도에서 4.25% 초과합니다. 모델, 데이터셋 및 코드는 https://github.com/bytedance/pasa에서 확인할 수 있습니다.
LLM(Large Language Model)를 평가하는 가장 널리 사용되는 방법 중 하나는 객관식 문제(Multiple Choice Question, MCQ) 테스트입니다. MCQ 벤치마크는 결과를 자동으로 처리할 수 있기 때문에 LLM 지식을 거의 모든 주제에서 대규모로 테스트할 수 있습니다. LLM이 답변하는 데 도움이 되도록 몇 가지 예시인 퓨 샷(few shots)를 프롬프트에 포함시킬 수 있습니다. 게다가 LLM은 직접 선택한 옵션으로 답변하거나 먼저 추론을 제시한 후 선택한 답변을 제공하도록 요청받을 수 있으며, 이를 사고 과정(chain of thought)이라고 합니다. 선택한 답변이 올바른지 확인하는 것 외에도, 평가는 LLM이 응답에 대한 자신감의 지표로서 응답의 LLM 추정 확률을 살펴볼 수 있습니다. 본 논문에서는 모델이 직접 답변하도록 요청되었는지 아니면 답변하기 전에 추론을 제공하도록 요청되었는지에 따라 LLM이 답변에 대한 자신감이 어떻게 달라지는지 연구합니다. 일곱 가지 다양한 모델에서 다양한 주제에 대한 질문을 평가한 결과, LLM은 답변하기 전에 추론을 제공할 때 더 자신감을 갖는 것으로 나타났습니다. 이는 선택한 답변이 올바른지 여부와 관계없이 발생합니다. 우리의 가설은 이러한 행동이 선택한 답변의 확률을 수정하는 추론 때문에 발생한다는 것이며, LLM은 입력 질문과 선택한 답변을 지원하는 추론을 기반으로 답변을 예측합니다. 따라서 LLM 추정 확률은 평가 절차에서 사용하기 위해 이해해야 할 본질적인 한계가 있는 것으로 보입니다. 흥미로운 점은 사람들에게도 동일한 행동이 관찰되었는데, 답변을 설명함으로써 정확성에 대한 자신감이 증가합니다.
2D 만화 스타일은 디지턈 캐릭터 생성에서 주목받는 예술 형식으로, 특히 젊은 관객들 사이에서 인기가 높습니다. 디지턈 인간 기술의 발전으로 사실적인 디지턈 인간과 3D 캐릭터에 대한 광범위한 연구가 진행되었지만, 대화형 2D 만화 캐릭터는 상대적으로 적은 관심을 받았습니다. 3D와는 달리 정교한 구성과 자원 집약적인 렌더링이 필요한 3D 캐릭터와 달리, 2D 만화 캐릭터에 널리 사용되는 형식인 Live2D는 3D 모델을 완전히 구축할 필요 없이 3D 움직임을 시뮬레이트하는 방식으로 2D 캐릭터를 애니메이션화할 수 있는 더 효율적인 대안을 제공합니다. 더불어, Live2D는 가벼운 HTML5 (H5) 렌더링을 사용하여 접근성과 효율성을 모두 향상시킵니다. 본 기술 보고서에서는 텍스트 설명을 기반으로 Live2D 형식의 다양한 2D 만화 캐릭터를 생성하는 혁신적인 방법인 Textoon을 소개합니다. Textoon은 첨단 언어 및 비전 모델을 활용하여 텍스트 의도를 이해하고 2D 외형을 생성하여, 1분 이내에 다양하고 멋진 대화형 2D 캐릭터를 만들어낼 수 있습니다. 프로젝트 홈페이지는 https://human3daigc.github.io/Textoon_webpage/ 에서 확인하실 수 있습니다.
대규모 언어 모델(LLM)을 실시간 API로 강화하면 보다 정확하고 최신의 응답을 생성하는 데 도움이 될 수 있습니다. 그러나 실제 시나리오에서 LLM의 함수 호출 능력을 평가하는 것은 데이터 수집 및 평가의 복잡성으로 인해 미개척된 상태입니다. 본 연구에서는 다섯 가지 실제 시나리오에서 복잡한 함수 호출을 위한 벤치마크인 ComplexFuncBench를 소개합니다. 기존의 벤치마크와 비교하여 ComplexFuncBench는 다단계 및 제약이 있는 함수 호출을 포함하며, 긴 매개변수 작성, 매개변수 값 추론 및 128k 길이의 컨텍스트가 필요합니다. 더불어, 복잡한 함수 호출 작업을 양적으로 평가하기 위한 자동 프레임워크인 ComplexEval을 제안합니다. 포괄적인 실험을 통해 최첨단 LLM의 함수 호출 능력의 결핍을 증명하고, 이러한 능력을 최적화하기 위한 미래 방향을 제안합니다. 데이터와 코드는 https://github.com/THUDM/ComplexFuncBench에서 확인할 수 있습니다.
우리는 X-Dyna를 소개합니다. 이는 얼굴 표정과 신체 움직임을 사용하여 단일 인간 이미지를 애니메이션화하는 새로운 zero-shot, 확산 기반 파이프라인으로, 대상 및 주변 환경에 대한 현실적이고 맥락에 맞는 역학을 생성합니다. X-Dyna는 인간 자세 제어를 중심으로 한 이전 방법들을 기반으로 하며, 동적 세부 사항의 손실을 일으키는 주요 결점을 해결하여 인간 비디오 애니메이션의 생동감 있는 특성을 향상시킵니다. 우리 접근 방식의 핵심은 Dynamics-Adapter로, 확산 백본의 공간 주의에 참조 외관 맥락을 효과적으로 통합하면서 운동 모듈의 용량을 보존하여 순조롭고 복잡한 동적 세부 사항을 합성합니다. 신체 자세 제어를 넘어서, 우리는 로컬 제어 모듈을 모델에 연결하여 독립된 정체성의 얼굴 표정을 포착하며, 애니메이션 장면에서 현실감을 향상시키기 위한 정확한 표현 이전을 용이하게 합니다. 이러한 구성 요소들이 결합하여, 다양한 인간 및 장면 비디오에서 물리적 인간 동작과 자연 장면 역학을 학습할 수 있는 통합된 프레임워크를 형성합니다. 포괄적인 질적 및 양적 평가는 X-Dyna가 최첨단 방법을 능가하며, 매우 생동감 있고 표현력이 풍부한 애니메이션을 생성한다는 것을 입증합니다. 코드는 https://github.com/bytedance/X-Dyna에서 사용할 수 있습니다.
본 논문은 다국어 이해와 의학 지식에 능통한 대규모 언어 모델(LLMs)을 개발하는 데 직면하는 어려움을 조사합니다. 우리는 단순히 의료 데이터를 번역하는 것만으로는 목표 언어의 임상 작업에서 강력한 성능을 보장할 수 없음을 입증합니다. 실험 결과를 통해 훈련 데이터에서의 최적 언어 조합이 다양한 의료 작업에 따라 상당히 다르다는 것을 밝혀냅니다. 저희는 조화롭게 조정된 언어 비율을 갖춘 더 큰 모델이 모국어 임상 작업에서 우수한 성능을 달성한다는 것을 발견했습니다. 게다가, 우리의 결과는 단순한 파인 튜닝에만 의존하는 것이 LLMs에 새로운 언어 지식을 통합하는 가장 효과적인 방법이 아닐 수 있다는 것을 시사합니다. 대신, 데이터와 계산 집약적인 사전 훈련 방법이 여전히 다국어 의료 환경에서 최적의 성능을 달성하는 데 필요할 수 있습니다. 이러한 발견들은 다양한 언어 커뮤니티를 위한 효과적이고 포괄적인 의료 AI 시스템을 구축하는 데 유용한 지침을 제공합니다.
최근에는 적대적 생성 신경망(GANs)의 적용이 mel-스펙트로그램과 같은 중간 표현을 기반으로 한 음성 초해상도(SR)를 발전시켰습니다. 그러나 일반적으로 독립적으로 훈련되고 연결된 네트워크에 의존하는 기존의 SR 방법은 불일치하는 표현과 특히 도메인 밖 시나리오에서는 낮은 음질을 유발할 수 있습니다. 본 연구에서는 고품질 음성 초해상도를 달성하기 위해 end-to-end 적대적 훈련을 활용하는 통합 네트워크인 HiFi-SR을 제안합니다. 저희 모델은 잠재 표현의 예측과 시간 영역 파형으로의 변환을 원활하게 처리하기 위해 설계된 통합 transformer-convolutional 생성기를 특징으로 합니다. transformer 네트워크는 강력한 인코더 역할을 하며 저해상도 mel-스펙트로그램을 잠재 공간 표현으로 변환하고, convolutional 네트워크는 이러한 표현을 고해상도 파형으로 업스케일링합니다. 고주파수 품질을 향상시키기 위해 다중 밴드, 다중 스케일 시간-주파수 판별자와 적대적 훈련 과정에서 다중 스케일 mel-재구성 손실을 통합합니다. HiFi-SR은 4 kHz에서 32 kHz 사이의 모든 입력 음성 신호를 48 kHz 샘플링 속도로 업스케일링할 수 있는 다재다능한 성능을 갖추고 있습니다. 실험 결과는 HiFi-SR이 기존의 음성 SR 방법을 목적적 지표와 ABX 선호도 테스트 모두에서 도메인 내외 시나리오에서 현저하게 능가함을 보여주며 (https://github.com/modelscope/ClearerVoice-Studio).
저희는 GaussianAvatar-Editor를 소개합니다. 이는 표현, 자세, 및 시점을 완전히 제어할 수 있는 애니메이션 가능한 가우시안 머리 아바타를 텍스트 기반으로 편집하는 혁신적인 프레임워크입니다. 정적인 3D 가우시안 편집과는 달리, 애니메이션 가능한 4D 가우시안 아바타 편집은 움직임 가림과 공간-시간적 불일치와 관련된 도전을 제기합니다. 이러한 문제를 해결하기 위해, 저희는 Weighted Alpha Blending Equation (WABE)를 제안합니다. 이 함수는 가시적인 가우시안의 혼합 가중치를 향상시키면서 비가시적인 가우시안에 대한 영향을 억제하여 편집 중 움직임 가림을 효과적으로 다룹니다. 게다가, 편집 품질을 향상시키고 4D 일관성을 보장하기 위해 조건부 적대적 학습을 편집 프로세스에 통합합니다. 이 전략은 편집된 결과물을 정제하고 애니메이션 전체에서 일관성을 유지하는 데 도움을 줍니다. 이러한 방법을 통합함으로써, 우리의 GaussianAvatar-Editor는 애니메이션 가능한 4D 가우시안 편집에서 사실적이고 일관된 결과를 달성합니다. 우리는 제안된 기술의 효과를 검증하기 위해 다양한 주제를 대상으로 포괄적인 실험을 실시하였으며, 이는 우리의 방법이 기존 방법보다 우월함을 입증합니다. 더 많은 결과 및 코드는 다음 링크에서 확인할 수 있습니다: [프로젝트 링크](https://xiangyueliu.github.io/GaussianAvatar-Editor/).