번역이 포함된 일일 선별된 AI 연구 논문
의료 진단 분야는 대형 언어 모델(LLM)의 등장으로 상당한 변화를 겪었지만, 이러한 모델 내의 해석 가능성 문제는 여전히 크게 해결되지 않고 있습니다. 본 연구에서는 LLM 기반 의료 진단의 해석 가능성을 향상시키기 위해 Chain-of-Diagnosis(CoD)를 제안합니다. CoD는 진단 과정을 의사의 사고 과정을 반영하는 진단 체인으로 변환하여 투명한 추론 경로를 제공합니다. 또한, CoD는 질병 신뢰도 분포를 출력하여 의사결정의 투명성을 보장합니다. 이러한 해석 가능성은 모델 진단을 제어 가능하게 만들고, 신뢰도의 엔트로피 감소를 통해 질문할 중요한 증상을 식별하는 데 도움을 줍니다. CoD를 기반으로 우리는 9604가지 질병을 진단할 수 있는 DiagnosisGPT를 개발했습니다. 실험 결과, DiagnosisGPT는 진단 벤치마크에서 다른 LLM들을 능가하는 성능을 보였습니다. 더 나아가, DiagnosisGPT는 진단의 엄격성을 제어하면서도 해석 가능성을 제공합니다.
본 논문은 새로운 방법론을 제안하지 않습니다. 대신, KAN과 MLP 모델을 머신러닝, 컴퓨터 비전, 오디오 처리, 자연어 처리, 그리고 기호식 표현 등 다양한 작업에 걸쳐 보다 공정하고 포괄적으로 비교합니다. 특히, 우리는 파라미터 수와 FLOPs를 통제하여 KAN과 MLP의 성능을 비교했습니다. 주요 관찰 결과는, 기호식 표현 작업을 제외하고는 일반적으로 MLP가 KAN보다 더 나은 성능을 보인다는 것입니다. 또한, KAN에 대한 ablation 연구를 수행한 결과, 기호식 표현에서의 KAN의 장점은 주로 B-spline 활성화 함수에서 비롯된다는 것을 발견했습니다. B-spline을 MLP에 적용했을 때, 기호식 표현 작업에서의 성능이 크게 향상되어 KAN을 능가하거나 비슷한 수준에 도달했습니다. 그러나 MLP가 이미 KAN보다 우수한 다른 작업에서는 B-spline이 MLP의 성능을 크게 향상시키지 못했습니다. 더불어, 표준 클래스-증가형 지속 학습 환경에서 KAN의 망각 문제가 MLP보다 더 심각하다는 것을 발견했는데, 이는 KAN 논문에서 보고된 결과와는 다릅니다. 이러한 결과가 KAN 및 기타 MLP 대안에 대한 향후 연구에 통찰을 제공하기를 바랍니다. 프로젝트 링크: https://github.com/yu-rp/KANbeFair
최근 비디오 생성 분야의 발전은 주로 짧은 지속 시간의 콘텐츠를 위해 디퓨전 모델을 활용해 왔습니다. 그러나 이러한 접근 방식은 복잡한 내러티브를 모델링하고 영화와 같은 장편 비디오 제작에 필수적인 장기간의 캐릭터 일관성을 유지하는 데 있어서 종종 한계를 보입니다. 우리는 MovieDreamer라는 새로운 계층적 프레임워크를 제안하며, 이는 오토리그레시브 모델의 강점과 디퓨전 기반 렌더링을 통합하여 정교한 플롯 진행과 높은 시각적 충실도를 갖춘 장기간 비디오 생성을 선도합니다. 우리의 접근 방식은 전역적 내러티브 일관성을 위해 오토리그레시브 모델을 활용하여 시각적 토큰 시퀀스를 예측하고, 이를 디퓨전 렌더링을 통해 고품질 비디오 프레임으로 변환합니다. 이 방법은 복잡한 이야기를 관리 가능한 장면 촬영으로 분해하는 전통적인 영화 제작 프로세스와 유사합니다. 더 나아가, 우리는 다중 모달 스크립트를 사용하여 장면 설명에 상세한 캐릭터 정보와 시각적 스타일을 추가함으로써 장면 간의 연속성과 캐릭터 정체성을 강화합니다. 다양한 영화 장르에 걸친 광범위한 실험을 통해 우리의 접근 방식이 우수한 시각적 및 내러티브 품질을 달성할 뿐만 아니라 생성된 콘텐츠의 지속 시간을 현재의 한계를 넘어 크게 확장할 수 있음을 입증합니다. 홈페이지: https://aim-uofa.github.io/MovieDreamer/.
가상 피팅(VTON)은 사용자가 실제로 옷을 입어보지 않고도 패션을 실험할 수 있게 해주는 혁신적인 기술로 자리 잡았습니다. 그러나 기존 방법들은 고해상도와 디테일 일관성을 유지한 결과물을 생성하는 데 어려움을 겪는 경우가 많습니다. Stable Diffusion 시리즈와 같은 디퓨전 모델은 고품질의 사실적인 이미지를 생성하는 능력을 보여주었지만, VTON과 같은 조건부 생성 시나리오에서는 상당한 어려움에 직면합니다. 특히, 이러한 모델들은 가상 의류 시뮬레이션을 위한 이미지를 생성할 때 제어와 일관성 사이의 균형을 유지하는 데 어려움을 겪습니다. OutfitAnyone은 이러한 한계를 극복하기 위해 이중 스트림 조건부 디퓨전 모델을 활용하여 의류 변형을 능숙하게 처리하고 더욱 생생한 결과물을 생성합니다. 이 모델은 포즈, 체형과 같은 확장성 조절 요소와 애니메이션부터 실제 사진까지 광범위한 적용 가능성을 통해 차별화됩니다. OutfitAnyone의 다양한 시나리오에서의 성능은 실세계 배포 준비와 유용성을 강조합니다. 더 자세한 내용과 애니메이션 결과는 https://humanaigc.github.io/outfit-anyone/에서 확인할 수 있습니다.
텍스트-투-비디오(T2V) 생성 모델은 크게 발전했지만, 다양한 객체, 속성, 동작 및 움직임을 비디오로 구성하는 능력은 아직 탐구되지 않았습니다. 기존의 텍스트-투-비디오 벤치마크도 이러한 중요한 능력을 평가하는 데 소홀히 했습니다. 본 연구에서는 구성적 텍스트-투-비디오 생성에 대한 첫 번째 체계적인 연구를 수행합니다. 우리는 구성적 텍스트-투-비디오 생성을 위해 특별히 설계된 첫 번째 벤치마크인 T2V-CompBench를 제안합니다. T2V-CompBench는 일관된 속성 바인딩, 동적 속성 바인딩, 공간적 관계, 움직임 바인딩, 동작 바인딩, 객체 상호작용 및 생성적 수리 능력 등 다양한 구성적 측면을 포괄합니다. 또한, 우리는 MLLM 기반 메트릭, 탐지 기반 메트릭 및 추적 기반 메트릭을 신중하게 설계하여, 700개의 텍스트 프롬프트로 제안된 7개 범주의 구성적 텍스트-투-비디오 생성 품질을 더 잘 반영할 수 있도록 했습니다. 제안된 메트릭의 효과는 인간 평가와의 상관관계를 통해 검증되었습니다. 우리는 또한 다양한 텍스트-투-비디오 생성 모델을 벤치마크하고, 다양한 모델과 구성적 범주에 걸쳐 심층 분석을 수행했습니다. 우리는 구성적 텍스트-투-비디오 생성이 현재 모델들에게 매우 어려운 과제임을 발견했으며, 우리의 시도가 이 방향의 미래 연구에 빛을 비추기를 바랍니다.
기존의 3D 인간-객체 상호작용(HOI) 데이터셋과 모델들은 전역적 설명을 긴 HOI 시퀀스와 단순히 정렬할 뿐, 중간 상태와 상태 간 전환에 대한 세부적인 이해가 부족합니다. 본 논문에서는 상태 수준의 설명을 활용한 세밀한 의미론적 정렬이 의미적으로 풍부한 HOI 표현을 학습하기 위한 유망한 패러다임을 제공한다고 주장합니다. 이를 위해, 우리는 각 HOI 상태와 두 연속 상태 간에 발생하는 신체 움직임에 대한 세밀한 설명을 포함한 20,000개 이상의 짝을 이루는 HOI 상태로 구성된 새로운 데이터셋인 Semantic-HOI를 소개합니다. 제안된 데이터셋을 활용하여, 우리는 HOI 시퀀스 내에서 세밀한 의미론적 정렬을 달성하기 위한 세 가지 상태 수준 HOI 작업을 설계합니다. 또한, 우리는 다중 모달 지침을 활용하고 다중 모달 대형 언어 모델이 다양한 HOI 작업을 효율적으로 처리할 수 있도록 설계된 통합 모델인 F-HOI를 제안합니다. F-HOI는 여러 가지 장점을 제공합니다: (1) 다양한 다중 모달 입력의 사용을 지원하는 통합 작업 공식을 채택합니다. (2) 2D, 3D 및 언어 공간에서 HOI의 일관성을 유지합니다. (3) HOI 상태의 복잡한 모델링을 피하고 직접 최적화를 위한 세밀한 텍스트 감독을 활용합니다. 광범위한 실험을 통해 F-HOI가 HOI 상태를 세밀한 의미론적 설명과 효과적으로 정렬하며, 이해, 추론, 생성 및 재구성 작업을 능숙하게 처리함을 확인했습니다.
데이터 가용성과 컴퓨팅 자원의 발전으로 인해, 멀티모달 대형 언어 모델(MLLMs)은 다양한 분야에서 그 능력을 입증해 왔습니다. 그러나 MLLMs의 비전 인코더가 가지는 2차 복잡도는 입력 이미지의 해상도를 제한하는 요인으로 작용합니다. 현재 대부분의 접근법은 고해상도 이미지를 더 작은 하위 이미지로 잘라내어 비전 인코더가 이를 독립적으로 처리하는 방식으로 이 문제를 완화합니다. 이러한 하위 이미지는 충분한 지역적 세부 사항을 포착하지만, 전역적 맥락이 부족하고 서로 상호작용하지 못하는 한계가 있습니다. 이러한 한계를 극복하기 위해, 우리는 고해상도 이미지 인식을 효과적으로 수행할 수 있는 새로운 MLLM인 INF-LLaVA를 제안합니다. INF-LLaVA는 두 가지 혁신적인 구성 요소를 포함합니다. 첫째, 지역적 관점에서 연속적인 세부 사항과 전역적 관점에서 포괄적인 정보를 포함하도록 각 하위 이미지를 보장하는 이중 관점 자르기 모듈(DCM)을 도입했습니다. 둘째, 전역적 및 지역적 특징이 상호 강화될 수 있도록 이중 관점 강화 모듈(DEM)을 도입하여, INF-LLaVA가 세부적인 지역 정보와 포괄적인 전역 맥락을 동시에 포착함으로써 고해상도 이미지를 효과적으로 처리할 수 있게 했습니다. 다양한 벤치마크에 대한 실험을 통해 INF-LLaVA가 기존 MLLMs를 능가하는 성능을 보임을 입증했으며, 코드와 사전 학습된 모델은 https://github.com/WeihuangLin/INF-LLaVA에서 확인할 수 있습니다.
국제적인 상금 대회, 스케일링된 차량, 시뮬레이션 환경이 존재함에도 불구하고, 한계 주행 상황에서 작동하는 스포츠카의 자율 주행 및 제어에 대한 연구는 차량 구입 및 관리의 높은 비용과 오픈소스 시뮬레이터의 물리적 정확도 한계로 인해 제한적이었습니다. 본 논문에서는 Assetto Corsa 시뮬레이터를 기반으로 한 레이싱 시뮬레이션 플랫폼을 제안하여, 강화 학습(RL) 및 전통적인 모델 예측 제어(MPC)를 포함한 자율 주행 알고리즘을 현실적이고 도전적인 시나리오에서 테스트, 검증 및 벤치마킹할 수 있도록 합니다. 우리의 기여는 이 시뮬레이션 플랫폼 개발, 레이싱 환경에 맞춰진 여러 최신 알고리즘, 그리고 인간 드라이버로부터 수집된 포괄적인 데이터셋을 포함합니다. 또한, 오프라인 RL 설정에서 알고리즘을 평가합니다. 모든 필요한 코드(환경 및 벤치마크 포함), 작동 예제, 데이터셋, 비디오는 공개되어 있으며, https://assetto-corsa-gym.github.io에서 확인할 수 있습니다.
비디오 기반 사전 학습은 전례 없는 규모로 강력한 시각적 표현을 학습할 수 있는 엄청난 잠재력을 제공합니다. 최근 마스킹된 비디오 모델링 방법이 확장성 측면에서 유망한 성과를 보였으나, 픽셀과 같은 사전 정의된 저수준 타겟을 재구성하기 때문에 고수준 의미를 충분히 포착하지 못하는 한계가 있습니다. 이를 해결하기 위해, 우리는 Sinkhorn-guided Masked Video Modelling(SIGMA)이라는 새로운 비디오 사전 학습 방법을 제안합니다. SIGMA는 프로젝션 네트워크를 사용하여 비디오 모델과 타겟 특징 공간을 함께 학습합니다. 그러나 이 간단한 수정은 두 네트워크가 함께 최적화되기 때문에 일반적인 L2 재구성 손실이 사소한 해결책으로 이어질 수 있다는 문제를 야기합니다. 이를 해결하기 위해, 우리는 시공간 튜브의 특징을 제한된 수의 학습 가능한 클러스터에 균등하게 분포시킵니다. 이를 최적 수송 문제로 설정함으로써, 배치 전체에서 생성된 특징에 높은 엔트로피를 강제하여 특징 공간에 의미론적 및 시간적 의미를 부여합니다. 결과적으로 생성된 클러스터 할당은 대칭 예측 작업의 타겟으로 사용되며, 여기서 비디오 모델은 프로젝션 네트워크의 클러스터 할당을 예측하고 그 반대도 마찬가지입니다. 세 가지 벤치마크에서 열 개의 데이터셋에 대한 실험 결과는 SIGMA가 더 높은 성능, 시간적 인식, 그리고 강건한 비디오 표현을 학습하는 데 있어 최신 방법들을 개선하는 효과를 입증합니다. 우리의 프로젝트 웹사이트와 코드는 https://quva-lab.github.io/SIGMA에서 확인할 수 있습니다.
언어 모델(LM)을 배포하기 위해서는 출력이 고품질이면서도 안전 가이드라인을 준수해야 합니다. 추론 시 가드레일(Inference-Time Guardrails, ITG)은 모델 출력 분포를 준수 방향으로 전환하는 해결책을 제공하지만, 현재의 방법들은 안전성과 유용성 간의 균형을 맞추는 데 어려움을 겪고 있습니다. 비준수 쿼리를 안전하게 처리하는 ITG 방법들은 유용성이 낮은 반면, 유용성을 우선시하는 방법들은 안전성을 희생합니다. 우리는 이러한 트레이드오프를 가드레일 세금(guardrail tax)이라고 부르며, 이는 정렬 세금(alignment tax)과 유사합니다. 이를 해결하기 위해 우리는 구조화된 제어 흐름을 활용한 새로운 ITG 방법인 PrimeGuard를 제안합니다. PrimeGuard는 다양한 지시를 가진 LM의 자기 인스턴스화(self-instantiation)로 요청을 라우팅하며, LM의 내재된 지시 수행 능력과 문맥 학습(in-context learning)을 활용합니다. 우리의 튜닝 없는 접근 방식은 각 쿼리에 대해 시스템 설계자 가이드라인을 동적으로 컴파일합니다. 또한, 우리는 다양한 레드팀 안전 벤치마크인 safe-eval을 구축하고 공개했습니다. 광범위한 평가 결과, PrimeGuard는 튜닝 없이도 (1) 반복적인 탈옥 공격에 대한 저항성을 크게 높이고, (2) 안전 가드레일링에서 최첨단 결과를 달성하며, (3) 정렬 튜닝된 모델의 유용성 점수와 동등한 성능을 보임으로써 가드레일 세금을 극복했습니다. 평가 결과, PrimeGuard는 튜닝 없이도 모든 경쟁 기준선을 능가하며, 안전 응답 비율을 61%에서 97%로 향상시키고, 가장 큰 모델에서 평균 유용성 점수를 4.17에서 4.29로 높이며, 공격 성공률을 100%에서 8%로 감소시켰습니다. PrimeGuard 구현은 https://github.com/dynamofl/PrimeGuard에서 확인할 수 있으며, safe-eval 데이터셋은 https://huggingface.co/datasets/dynamoai/safe_eval에서 이용 가능합니다.
비전-언어 모델(VLMs)의 적용은 다양한 로봇 공학 작업에서 인상적인 성공을 거두었지만, 사족 보행 로봇 네비게이션에 사용되는 기초 모델에 대한 탐구는 아직 미미한 상황입니다. 우리는 Cross Anything System(CAS)을 소개합니다. 이 혁신적인 시스템은 고수준 추론 모듈과 저수준 제어 정책으로 구성되어, 로봇이 복잡한 3D 지형을 가로질러 목표 위치에 도달할 수 있도록 합니다. 고수준 추론 및 모션 계획을 위해, 우리는 VLM을 활용한 새로운 알고리즘 시스템을 제안하며, 이를 위해 작업 분해와 폐루프 하위 작업 실행 메커니즘을 설계했습니다. 저수준 이동 제어를 위해, 우리는 확률적 어닐링 선택(PAS) 방법을 사용하여 강화 학습을 통해 제어 정책을 훈련시킵니다. 다양한 실험을 통해 우리의 전체 시스템이 복잡한 3D 지형을 정확하고 견고하게 탐색할 수 있음을 보여주며, 그 강력한 일반화 능력은 다양한 실내외 시나리오와 지형에서의 응용을 보장합니다. 프로젝트 페이지: https://cross-anything.github.io/