번역이 포함된 일일 선별된 AI 연구 논문
인간 동작 생성은 디지털 인간 및 인간형 로봇 제어와 같은 응용 프로그램에서 중요한 역할을 합니다. 그러나 대부분의 기존 접근 방식은 물리 제약 조건을 무시하여 물리적으로 불가능한 동작이 자주 발생하고 부유 및 발 미끄러짐과 같은 현저한 아티팩트를 유발합니다. 본 논문에서는 실제 움직임 데이터에 의존하지 않고 물리적 타당성을 향상시키기 위한 Morph라는 무동작 물리 최적화 프레임워크를 제안합니다. 구체적으로, 움직임 생성기는 대규모 합성 움직임 데이터를 제공하는 역할을 하며, 움직임 물리 정제 모듈은 이러한 합성 데이터를 활용하여 물리 시뮬레이터 내에서 움직임 모방자를 훈련시켜 노이즈가 있는 움직임을 물리적으로 타당한 공간으로 투영하기 위해 물리적 제약 조건을 강제합니다. 이러한 물리적으로 정제된 움직임은 다시 움직임 생성기를 세밀하게 조정하여 그 성능을 더욱 향상시킵니다. 텍스트-움직임 및 음악-댄스 생성 작업에 대한 실험 결과는 우리의 프레임워크가 최첨단 움직임 생성 품질을 달성하면서 물리적 타당성을 크게 향상시킨다는 것을 입증합니다.
비전-언어 모델(VLMs)은 다중 모달 추론 작업에서 현저한 진전을 보여주었습니다. 그러나 여전히 환각된 이미지 이해나 정제되지 않은 추론 경로와 같은 문제로 인해 종종 부정확하거나 관련성이 없는 응답을 생성합니다. 이러한 도전에 대처하기 위해, 우리는 VLMs의 추론 능력을 향상시키기 위해 Actor-Critic 패러다임에서 영감을 받은 새로운 프레임워크인 Critic-V를 소개합니다. 이 프레임워크는 추론 프로세스와 비평 프로세스를 분리하여 시각적 및 텍스트 입력을 기반으로 추론 경로를 생성하는 Reasoner와 이러한 경로를 정제하기 위해 건설적 비평을 제공하는 Critic이라는 두 개의 독립적인 구성 요소를 통합함으로써 작동합니다. 이 접근 방식에서 Reasoner는 텍스트 프롬프트에 따라 추론 응답을 생성하며, Critic로부터의 피드백에 기반한 정책으로 반복적으로 진화할 수 있습니다. 이 상호 작용 프로세스는 Critic이 스칼라 보상 대신 자연어 비평을 제공함으로써 더 복잡한 추론 작업에서 Reasoner의 능력을 향상시키기 위한 보다 미묘한 피드백을 가능하게 하는 강화 학습 프레임워크에 이론적으로 기반합니다. Critic 모델은 직접 선호 최적화(DPO)를 사용하여 교훈 기능을 향상시키기 위해 규칙 기반 보상(RBR)에 의해 순위 매겨진 선호 데이터셋을 활용하여 훈련됩니다. 평가 결과는 Critic-V 프레임워크가 GPT-4V를 포함한 기존 방법들을 훨씬 능가한다는 것을 보여주며, 특히 추론 정확성과 효율성에 있어 8개 벤치마크 중 5개에서 우수한 성과를 보입니다. Reasoner를 위한 동적 텍스트 기반 정책과 선호도 최적화된 Critic로부터의 건설적 피드백을 결합함으로써 더 신뢰할 수 있고 맥락에 민감한 다중 모달 추론 프로세스를 가능하게 합니다. 우리의 접근 방식은 VLMs의 신뢰성을 향상시키는 유망한 해결책을 제공하며, 자율 주행 및 촉각 지능과 같은 실제 추론 중심의 다중 모달 응용 프로그램에서의 성능을 향상시킵니다.
본 논문은 가상 시착 (Virtual Try-Off, VTOFF)을 소개하는데, 이는 옷을 입은 개인의 단일 사진에서 표준화된 의류 이미지를 생성하는 것에 초점을 맞춘 새로운 작업입니다. 기존의 가상 시착 (Virtual Try-On, VTON)이 모델에 디지털 의류를 입히는 것과는 달리, VTOFF는 의류 모양, 질감 및 복잡한 패턴을 캡처하는 독특한 과제를 가지고 있습니다. 이 명확히 정의된 목표는 생성 모델의 재구성 정확도를 평가하는 데 VTOFF가 특히 효과적임을 보여줍니다. 저희는 고품질과 세부 정보 보존을 보장하기 위해 Stable Diffusion과 SigLIP 기반 시각적 조건부를 채택한 TryOffDiff 모델을 제시합니다. 수정된 VITON-HD 데이터셋에서의 실험 결과, 저희 방법이 자세 전이와 가상 시착을 기반으로 한 기준선 방법들보다 더 적은 사전 및 사후 처리 단계로 우수한 성능을 보여줍니다. 저희의 분석 결과, 전통적인 이미지 생성 지표가 재구성 품질을 부적절하게 평가하므로, 보다 정확한 평가를 위해 DISTS에 의존해야 한다는 점을 드러냅니다. 저희 결과는 VTOFF가 전자 상거래 응용 프로그램에서 제품 이미지를 향상시키고, 생성 모델 평가를 발전시키며, 고품질 재구성에 대한 미래 작업에 영감을 줄 수 있는 잠재력을 강조합니다. 데모, 코드 및 모델은 다음 링크에서 확인할 수 있습니다: https://rizavelioglu.github.io/tryoffdiff/
텍스트에서 이미지로 (T2I) 생성 모델의 중요한 발전에도 불구하고, 사용자들은 실제 시나리오에서 시행착오 도전에 직면하는 경우가 많습니다. 이 도전은 적절한 프롬프트 작성, 적합한 모델 선택, 특정 인수 구성과 같은 복잡하고 불확실한 단계에서 발생하며, 사용자들은 원하는 이미지를 얻기 위해 노동 집약적인 시도에 의존해야 합니다. 본 논문은 자동 T2I 생성을 제안하며, 이는 이러한 번거로운 단계들을 자동화하여 사용자들이 자유롭게 채팅하는 방식으로 필요를 설명할 수 있도록 하는 것을 목표로 합니다. 이 문제를 체계적으로 연구하기 위해 먼저 자동 T2I를 위해 설계된 혁신적인 벤치마크인 ChatGenBench를 소개합니다. 이는 다양한 자유로운 입력을 갖는 고품질의 페어 데이터를 특징으로 하며, 모든 단계에서 자동 T2I 모델의 포괄적인 평가를 가능하게 합니다. 또한 복잡한 다단계 추론 작업으로 자동 T2I를 인식함에 따라, 점진적으로 모델에 필수적인 자동화 기술을 제공하는 다단계 진화 전략인 ChatGen-Evo를 제안합니다. 단계별 정확도와 이미지 품질에 걸쳐 광범위한 평가를 통해 ChatGen-Evo는 다양한 기준선에 비해 성능을 현저히 향상시킵니다. 우리의 평가는 자동 T2I를 발전시키는 데 유용한 통찰을 제공합니다. 모든 데이터, 코드 및 모델은 https://chengyou-jia.github.io/ChatGen-Home에서 제공될 예정입니다.
우리는 SelfSplat을 제안합니다. 이는 포즈에 자유로운 3D 가우시안 스플래팅 모델로, 포즈가 없는 다중 뷰 이미지로부터의 3D 재구성을 위해 설계되었습니다. 이러한 설정은 지면 실측 데이터의 부족, 학습된 기하학적 정보, 그리고 세부 조정 없이 정확한 3D 재구성을 달성해야 하는 필요로 인해 본질적으로 불명확합니다. 이는 기존 방법이 고품질 결과를 달성하기 어렵게 만듭니다. 우리의 모델은 명시적인 3D 표현을 효과적으로 통합하여 자기 지도 깊이 및 포즈 추정 기술과 결합함으로써 이러한 도전에 대처합니다. 이는 포즈 정확도와 3D 재구성 품질 간의 상호 개선을 이끌어냅니다. 더불어, 매칭 인식 포즈 추정 네트워크와 깊이 세부 조정 모듈을 통합하여 뷰 간 기하학적 일관성을 향상시키고 더 정확하고 안정적인 3D 재구성을 보장합니다. 우리의 방법의 성능을 제시하기 위해 우리는 RealEstate10K, ACID, DL3DV를 포함한 대규모 실제 데이터셋에서 평가했습니다. SelfSplat은 외관 및 기하학 품질 모두에서 이전 최첨단 방법보다 우수한 결과를 달성하며, 강력한 교차 데이터셋 일반화 능력을 보여줍니다. 철저한 제거 연구 및 분석도 우리의 제안된 방법의 효과를 검증합니다. 코드 및 사전 학습된 모델은 https://gynjn.github.io/selfsplat/에서 이용 가능합니다.
확산 모델은 텍스트-이미지 (T2I) 및 텍스트-비디오 (T2V) 합성과 같은 생성 작업에서 인상적인 결과를 달성했습니다. 그러나 T2V 생성에서 정확한 텍스트 정렬을 달성하는 것은 프레임 간 복잡한 시간 의존성으로 인해 여전히 어려움을 겪고 있습니다. 기존의 강화 학습 (RL) 기반 접근 방식은 종종 미분 가능한 보상 함수가 필요하거나 제한된 프롬프트에 국한되어 확장성과 적용 가능성이 제한되는 문제가 있습니다. 본 논문에서는 추가 모델 훈련이 필요하지 않는 생성된 비디오를 텍스트 프롬프트와 정렬하는 새로운 그래디언트-프리 프레임워크인 Free^2Guide를 제안합니다. 경로 적분 제어의 원리를 활용하여 Free^2Guide는 미분 불가능한 보상 함수를 사용하여 확산 모델을 위한 가이드를 근사화함으로써 강력한 블랙박스 대형 비전-언어 모델 (LVLMs)을 보상 모델로 통합할 수 있습니다. 또한 우리의 프레임워크는 대규모 이미지 기반 모델을 포함한 여러 보상 모델을 유연하게 앙상블링하여 정렬을 협력적으로 향상시키면서 상당한 계산 부담을 초래하지 않습니다. Free^2Guide가 다양한 차원에서 텍스트 정렬을 크게 개선하고 생성된 비디오의 전반적인 품질을 향상시킨다는 것을 증명합니다.
정보 과부하 시대에는 방대하고 계속 증가하는 문서와 학술 논문 코퍼스를 수동으로 주석을 다는 것이 점점 불가능해지고 있습니다. 자동 핵심어 추출은 텍스트 내 대표 용어를 식별함으로써 이러한 도전에 대처합니다. 그러나 대부분의 기존 방법은 짧은 문서(최대 512 토큰)에 초점을 맞추어 긴 콘텍스트 문서의 처리에는 빈 공간이 남습니다. 본 논문에서는 긴 문서에서 핵심어를 추출하기 위한 새로운 프레임워크인 LongKey를 소개합니다. 이는 인코더 기반 언어 모델을 사용하여 확장된 텍스트 세부 사항을 포착합니다. LongKey는 맥스-풀링 임베더를 사용하여 핵심어 후보 표현을 강화합니다. LDKP 데이터셋과 여섯 가지 다양한, 이전에 보지 못한 데이터셋에서 검증된 결과, LongKey는 일관되게 기존의 비지도 및 언어 모델 기반 핵심어 추출 방법을 능가합니다. 우리의 연구 결과는 LongKey의 다재다능성과 우수한 성능을 입증하며, 다양한 텍스트 길이와 도메인에 대한 핵심어 추출의 발전을 나타냅니다.
최근 의료 다지선다 문제(MCQ) 벤치마크에서 대형 언어 모델(LLM)의 성능 향상이 글로벌 의료 공급자 및 환자들의 관심을 자극했습니다. 특히 의사 부족과 전문의 부족으로 심각한 상황에 직면한 저소득 및 중간소득 국가(LMICs)에서 LLM은 의료 접근성을 향상시키고 비용을 줄일 수 있는 잠재적으로 확장 가능한 방안을 제공합니다. 그러나 아프리카 대륙 전역을 포함한 Global South에서의 효과는 아직 입증되지 않았습니다. 본 연구에서는 아프리카 전역의 영어 다학제 의료 질문-답변(QA) 데이터셋인 AfriMed-QA를 소개합니다. 이 데이터셋은 16개국의 60개 이상 의료학교에서 유래된 15,000개의 질문(개방형 및 폐쇄형)으로, 32가지 의료 전문 분야를 다룹니다. 또한 30개의 LLM을 정확성 및 인구 편향을 포함한 여러 가지 면에서 평가합니다. 결과는 전문 분야 및 지리적 위치에 따라 상당한 성능 차이가 있으며, MCQ 성능은 분명히 USMLE(MedQA)에 미치지 못합니다. 생물의학적 LLM은 일반 모델보다 성능이 떨어지며, 작은 엣지 친화적 LLM은 합격 점수를 달성하기 어려워 합니다. 흥미로운 점은 인간 평가에서 임상 응답과 비교했을 때 LLM 응답 및 설명에 대한 일관된 소비자 선호도가 나타난다는 것입니다.