번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 2D 및 3D 의료 이미지 분할 작업에 대응하기 위해 SAM 2 프레임워크를 활용한 고급 분할 모델인 의료 SAM 2(MedSAM-2)을 소개합니다. 의료 이미지를 비디오로 취급하는 철학을 채택함으로써, MedSAM-2는 3D 의료 이미지에 적용되는 동시에 새로운 One-prompt Segmentation 기능을 개발했습니다. 이를 통해 사용자는 한 가지 또는 특정 이미지에 대한 프롬프트를 제공한 후, 모델이 그 이후의 모든 이미지에서 동일한 유형의 객체를 자율적으로 분할할 수 있도록 할 수 있습니다. 이미지 간의 시간적 관계에 관계없이 모델이 동일한 유형의 객체를 자동으로 분할할 수 있습니다. 본 연구에서는 복부 장기, 시신경 디스크, 뇌 종양, 갑상선 결절 및 피부 병변을 포함한 다양한 의료 영상 모달리티를 통해 MedSAM-2를 평가하고, 전통적 및 상호작용적 분할 설정에서 최첨단 모델과 비교했습니다. 연구 결과는 MedSAM-2가 성능에서 기존 모델을 능가할 뿐만 아니라 다양한 의료 이미지 분할 작업에 걸쳐 우수한 일반화 능력을 나타낸다는 것을 보여줍니다. 저희의 코드는 다음에서 공개될 예정입니다: https://github.com/MedicineToken/Medical-SAM2
대규모 자가 지도 학습 사전 훈련은 하나의 기본 모델이 여러 가지 다른 시각 작업을 처리할 수 있도록 해 주었습니다. 대부분의 사전 훈련 방법론은 한 번에 특정 크기의 단일 모델을 훈련시킵니다. 그러나 실제 시나리오에서의 다양한 계산 또는 저장 제약으로 인해 다양한 크기의 모델을 개발하여 배포하는 데 상당한 노력이 필요합니다. 따라서 본 연구에서는 이러한 문제에 대처하기 위해 POA(Pre-training Once for All)라는 새로운 삼 분기 자가 지도 학습 프레임워크를 제안합니다. 저희 방법은 현대적인 자가 증류 패러다임에 혁신적인 탄성 학생 분기를 도입합니다. 각 사전 훈련 단계에서 우리는 원본 학생에서 하위 네트워크를 무작위로 샘플링하여 탄성 학생을 형성하고 모든 분기를 자가 증류 방식으로 훈련시킵니다. 한 번 사전 훈련된 후, POA는 하향 작업을 위해 다양한 크기의 사전 훈련된 모델을 추출할 수 있습니다. 놀랍게도, 탄성 학생은 다양한 크기의 여러 모델을 동시에 사전 훈련하는 데 도움이 되며, 표현 학습을 강화하기 위해 다양한 크기의 모델 앙상블로 작용합니다. ViT, Swin Transformer 및 ResNet 백본을 사용하여 POA의 효과와 장점을 입증하는 다양한 실험, k-최근접 이웃, 선형 프로빙 평가 및 여러 하향 작업 평가가 수행되었습니다. POA는 단일 사전 훈련 세션을 통해 다양한 크기의 약 백 개 모델을 생성하여 최첨단 성능을 달성합니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/Qichuzyy/POA.
개체 연결(Entity Linking, EL) 및 관계 추출(Relation Extraction, RE)은 자연어 처리에서 기본적인 작업으로, 다양한 응용 프로그램에서 중요한 구성 요소로 작용합니다. 본 논문에서는 EL과 RE 모두에 대한 Retriever-Reader 아키텍처인 ReLiK을 제안합니다. 여기서 입력 텍스트가 주어지면 Retriever 모듈은 텍스트 내에 나타날 수 있는 후보 개체 또는 관계를 식별합니다. 이후 Reader 모듈은 관련된 검색된 개체 또는 관계를 식별하고 해당 텍스트 범위와의 일치를 확립하는 작업을 맡습니다. 특히, 우리는 텍스트와 함께 후보 개체 또는 관계를 통합한 혁신적인 입력 표현을 제시하여, 단일 순방향 전달로 개체를 연결하거나 관계를 추출하고 사전 훈련된 언어 모델의 문맥화 능력을 완전히 활용할 수 있습니다. 이는 이전 Retriever-Reader 기반 방법과 대조적으로 각 후보에 대해 순방향 전달이 필요한 것입니다. 우리 EL과 RE의 정의는 학술 예산 훈련을 사용하며 도메인 내 및 도메인 외 벤치마크에서 최첨단 성능을 달성하며 경쟁자 대비 최대 40배의 추론 속도를 보여줍니다. 마지막으로, 우리 아키텍처가 정보 추출(cIE)에 매끄럽게 사용될 수 있는 방법을 보여주며, 즉 EL + RE을 의미하며, 동시에 개체와 관계를 추출하는 공유 Reader를 활용하여 최신 기술 수준을 설정합니다.
3D 메쉬가 주어졌을 때, 임의의 텍스트 설명과 일치하는 3D 텍스처를 합성하는 것을 목표로 합니다. 샘플링된 뷰로부터 텍스처를 생성하고 조립하는 현재의 방법은 종종 두드러진 이음선이나 과도한 평활화를 초래합니다. 이러한 문제를 해결하기 위해 저희는 TexGen을 제시합니다. 이는 사전 훈련된 텍스트-이미지 확산 모델을 활용한 텍스처 생성을 위한 혁신적인 다중 뷰 샘플링 및 재샘플링 프레임워크입니다. 뷰 일관성 있는 샘플링을 위해, 먼저 확산 모델의 각 샘플링 단계 후에 업데이트되는 RGB 공간의 텍스처 맵을 유지하여 점진적으로 뷰 불일치를 줄입니다. 외관 정보를 뷰 간에 전파하기 위해 주의력 안내된 다중 뷰 샘플링 전략이 활용됩니다. 텍스처 세부 정보를 보존하기 위해, 현재의 텍스처 맵에 따라 텍스트 프롬프트에 따라 지시된 후속 노이즈 추정을 돕는 노이즈 재샘플링 기술을 개발합니다. 방대한 양의 질적 및 양적 평가를 통해, 우리의 제안된 방법이 현재의 최첨단 기술을 능가하며 뷰 일관성과 풍부한 외관 세부 정보를 가진 다양한 3D 객체에 대해 상당히 우수한 텍스처 품질을 생산한다는 것을 입증합니다. 더 나아가, 우리의 제안된 텍스처 생성 기술은 원래의 정체성을 보존하면서 텍스처 편집에도 적용할 수 있습니다. 더 많은 실험 결과는 https://dong-huo.github.io/TexGen/에서 확인할 수 있습니다.
음성과 언어를 공동으로 처리하는 다중 모달 모델은 음악 분야에서 큰 가능성을 가지고 있으며 점차 채택되고 있습니다. 텍스트를 통한 쿼리를 허용하고 주어진 오디오 입력에 대한 정보를 얻을 수 있도록 함으로써, 이러한 모델은 언어 기반 인터페이스를 통해 다양한 음악 이해 작업을 가능하게 할 수 있습니다. 그러나 이러한 모델의 평가는 상당한 어려움을 안겨주며, 현재의 방법으로 음악 관련 입력을 올바르게 해석하는 능력을 효과적으로 평가하는 방법은 여전히 명확하지 않습니다. 이에 동기부여를 받아 우리는 오디오에 초점을 맞춘 다중 모달 언어 모델에서 음악 이해를 평가하기 위한 벤치마크인 MuChoMusic을 소개합니다. MuChoMusic은 두 개의 공개 음악 데이터셋에서 가져온 644개 음악 트랙에 대한 1,187개의 다중 선택 질문으로 이루어져 있으며 모든 질문은 인간 주석자들에 의해 검증되었습니다. 이 벤치마크의 질문들은 문화적 및 기능적 맥락과 관련된 기본적인 음악 개념과 그들의 관계를 포함하는 여러 차원을 걸쳐 지식과 추론 능력을 평가하기 위해 설계되었습니다. 벤치마크에 의해 제공되는 종합적 분석을 통해 우리는 다섯 개의 오픈 소스 모델을 평가하고, 언어 모달리티에 대한 과도한 의존과 같은 여러 문제점을 식별하며, 더 나은 다중 모달 통합이 필요함을 지적합니다. 데이터와 코드는 오픈 소스로 공개되어 있습니다.
대규모 생성 언어 모델 (LLM)의 능력은 콘텍스트 내 학습을 수행하는 능력으로 이어져, 다양한 자연어 처리 작업에 대해 모델을 가장 잘 유도하는 방법에 대한 많은 연구가 진행되었습니다. 본 논문에서는 콘텍스트 내 번역 예제의 이점이 입증된 기계 번역 (MT)에 초점을 맞춥니다. 그러나 어떻게 예제를 가장 잘 선택해야 하는지에 대한 체계적인 연구가 발표되지 않았으며, 유사성 기반 선택이 임의 선택보다 유용성에 대해 상충되는 결과가 보고되었습니다. 본 연구에서는 다양한 LLM 및 다양한 콘텍스트 내 예제 검색 전략을 비교하는 다국어 문장 임베딩을 다룹니다. 여러 언어 방향을 다루며, 언어 자원 수준이 다른 것을 대표합니다 (영어에서 프랑스어, 독일어, 스와힐리어 및 월로프로). 이전에 발표된 결과와는 달리, 문장 임베딩 유사성이 특히 자원이 제한된 언어 방향에 대해 MT를 개선할 수 있다는 것을 발견하고, 선택 풀 다양성과 품질 사이의 균형에 대해 논의합니다. 또한 LLM 기반 MT의 평가에 대한 잠재적인 문제점을 강조하고, COMET 메트릭을 LLM의 평가에 적합하게 적용하는 더 적절한 평가 프로토콜을 제안합니다. 코드 및 결과물은 https://github.com/ArmelRandy/ICL-MT에서 무료로 제공됩니다.
우리는 그래프 신경망을 사용하여 관계형 데이터베이스에서 예측 작업을 해결하기 위한 공개 벤치마크인 RelBench를 제시합니다. RelBench는 다양한 도메인과 규모를 아우르는 데이터베이스와 작업을 제공하며, 향후 연구를 위한 기초 인프라 역할을 하도록 의도되었습니다. 우리는 RelBench를 사용하여 관계형 딥 러닝(RDL) (Fey et al., 2024)의 첫 번째 포괄적인 연구를 수행했습니다. 이는 그래프 신경망 예측 모델과 (깊은) 테이블 모델을 결합하여 원시 테이블에서 초기 엔티티 수준 표현을 추출하는 RDL입니다. 끝에서 끝으로 학습된 RDL 모델은 주요-외래 키 링크에 인코딩된 예측 신호를 완전히 활용하며, 수동 특성 공학과 테이블 모델 결합의 주요 패러다임에서 중요한 변화를 나타냅니다. 이전의 골드 표준에 대한 RDL의 철저한 평가를 위해, 각 작업에 대해 경험 많은 데이터 과학자가 수동으로 특성을 공학하는 사용자 연구를 실시했습니다. 이 연구에서 RDL은 더 나은 모델을 학습하면서 인간의 작업을 한 차원 이상으로 줄입니다. 이는 관계형 데이터베이스에서 예측 작업을 해결하기 위한 딥 러닝의 힘을 보여주며, RelBench가 가능케 하는 많은 새로운 연구 기회를 열어줍니다.
어떤 잠재적 특징이 언어 모델 (LM) 표현에 인코딩되어 있을까요? LM 표현에서 해석 가능한 특징을 분리하기 위해 희소 오토인코더(SAEs)를 훈련하는 최근 연구는 상당한 성과를 보여주었습니다. 그러나 이러한 SAEs의 품질을 평가하는 것은 어렵습니다. 왜냐하면 우리는 좋은 SAEs가 복구할 것으로 기대하는 해석 가능한 특징의 실제 모음이 부족하기 때문입니다. 따라서 우리는 체스와 오셀로 대본에서 훈련된 LM 설정에서 작업하여 해석 가능한 사전 학습의 진전을 측정하기로 제안합니다. 이러한 설정은 "F3에 나이트가 있다"와 같은 자연스러운 해석 가능한 특징의 모음을 가지고 있으며, 우리는 이를 SAE 품질에 대한 지도 지표로 활용합니다. 해석 가능한 사전 학습의 진전을 이끌기 위해 우리는 새로운 SAE 훈련 기술인 p-단열을 소개합니다. 이 기술은 이전의 비지도 메트릭뿐만 아니라 우리의 새로운 메트릭에서의 성능을 향상시킵니다.