번역이 포함된 일일 선별된 AI 연구 논문
Transformer는 기계 학습을 혁신했지만 내부 작동 방식은 여전히 많은 사람들에게 불투명합니다. 우리는 Transformer Explainer를 제공합니다. 이는 비전문가들이 GPT-2 모델을 통해 Transformer에 대해 배울 수 있는 대화형 시각화 도구입니다. 우리의 도구는 사용자가 모델 개요를 통합하고 수학적 연산 및 모델 구조의 추상화 수준을 부드럽게 전환할 수 있도록 지원하여 복잡한 Transformer 개념을 이해하는 데 도움을 줍니다. 사용자의 브라우저에서 실시간으로 작동하는 GPT-2 인스턴스를 실행하여 사용자가 자체 입력을 실험하고 Transformer의 내부 구성 요소 및 매개변수가 어떻게 작동하여 다음 토큰을 예측하는지 실시간으로 관찰할 수 있도록 합니다. 우리의 도구는 설치나 특별한 하드웨어가 필요하지 않으며, 현대적인 생성적 AI 기술에 대한 대중의 교육 접근성을 확대합니다. 우리의 오픈 소스 도구는 https://poloclub.github.io/transformer-explainer/에서 이용할 수 있습니다. 비디오 데모는 https://youtu.be/ECR4oAwocjs에서 확인할 수 있습니다.
대형 비전-언어 모델(LVLMs)은 이미지, 텍스트 및 생리 신호와 같은 다양한 데이터 유형을 처리할 수 있으며 다양한 분야에 적용할 수 있습니다. 의료 분야에서 LVLMs는 진단 및 치료에 상당한 지원을 제공할 수 있는 높은 잠재력을 가지고 있습니다. 그러나 그 전에, LVLMs의 효과를 다양한 의료 응용 분야에서 평가하기 위한 벤치마크를 개발하는 것이 중요합니다. 현재의 벤치마크는 주로 특정 학술 문헌을 기반으로 구축되어 있으며 주로 단일 도메인에 초점을 맞추고 다양한 지각적 세분성이 부족합니다. 따라서, 이러한 한계를 해결하기 위해 우리는 GMAI-MMBench를 개발했습니다. 이는 현재까지 가장 포괄적인 일반 의료 AI 벤치마크로, 잘 분류된 데이터 구조와 다중 지각적 세분성을 갖추고 있습니다. 이는 285개의 데이터셋을 포함하며 39가지 의료 이미지 모달리티, 18가지 임상 관련 작업, 18개 부서 및 4가지 지각적 세분성으로 구성되어 있습니다. 또한 사용자가 평가 작업을 사용자 정의할 수 있는 어휘 트리 구조를 구현하여 다양한 평가 요구를 수용하고 의료 AI 연구 및 응용을 크게 지원합니다. 우리는 50개의 LVLMs를 평가했으며 결과는 심지어 고급 GPT-4o도 52%의 정확도만 달성한다는 것을 보여줍니다. 이는 개선할 여지가 많다는 것을 나타냅니다. 또한, 현재 최첨단 LVLMs의 다섯 가지 주요 미흡 사항을 확인했으며, 더 나은 의료 응용 프로그램 개발을 위해 해결해야 할 것으로 판단됩니다. 우리는 GMAI-MMBench가 커뮤니티에 다음 세대의 LVLMs를 GMAI 방향으로 구축하도록 자극할 것으로 믿습니다. 프로젝트 페이지: https://uni-medical.github.io/GMAI-MMBench.github.io/
3D 콘텐츠 생성은 비디오 게임, 영화 제작, 가상 및 증강 현실 등을 포함한 많은 컴퓨터 그래픽 애플리케이션의 핵심 요소입니다. 본 논문은 사용자의 손그림 스케치와 같은 캐주얼한 입력으로부터 상호작용 가능하고 플레이 가능한 3D 게임 씬을 자동으로 생성하기 위한 혁신적인 딥러닝 기반 접근 방식을 제안합니다. 스케치 기반 입력은 콘텐츠 생성 과정에서 사용자의 디자인 의도를 자연스럽고 편리하게 전달하는 방법을 제공합니다. 학습 중 데이터 부족의 문제(즉, 3D 씬의 대규모 훈련 데이터 부족)를 우회하기 위해 우리의 방법은 사전 훈련된 2D 노이즈 제거 확산 모델을 활용하여 시각적 안내로써 씬의 2D 이미지를 생성합니다. 이 과정에서 우리는 등각 투영 모드를 채택하여 알려지지 않은 카메라 포즈를 제거하고 씬 레이아웃을 얻습니다. 생성된 등각 이미지에서 우리는 사전 훈련된 이미지 이해 방법을 사용하여 이미지를 의미 있는 부분으로 분할하고 지상에서 떨어진 객체, 나무, 건물 등의 2D 씬 레이아웃을 추출합니다. 이러한 세그먼트와 레이아웃은 이후 절차적 콘텐츠 생성(PCG) 엔진(예: Unity 또는 Unreal과 같은 3D 비디오 게임 엔진)으로 전달되어 3D 씬을 생성합니다. 생성된 3D 씬은 게임 개발 환경에 신속하게 통합되어 즉시 플레이할 수 있습니다. 광범위한 테스트에서 우리의 방법이 사용자의 의도를 밀접하게 따르는 레이아웃을 갖춘 고품질 및 상호작용 가능한 3D 게임 씬을 효율적으로 생성할 수 있음을 입증하였습니다.
대중에게 대규모 언어 모델 (LLM)에 대한 광범위한 접근성은 기계 생성 텍스트 (MGT)의 보급을 크게 증폭시켰습니다. 프롬프트 조작의 발전은 텍스트의 출처 (인간 작성 vs 기계 생성)를 구별하는 어려움을 악화시켰습니다. 이는 특히 교육 및 학술 분야 내에서 MGT의 잠재적 남용에 대한 우려를 불러일으킵니다. 본 논문에서는 세밀한 MGT 감지를 위해 설계된 시스템인 LLM-DetectAIve를 제시합니다. 이 시스템은 텍스트를 인간 작성, 기계 생성, 기계 작성 기계-인간화, 그리고 인간 작성 기계-연마된 네 가지 범주로 분류할 수 있습니다. LLM-DetectAIve는 이전의 MGT 감지기가 이진 분류를 수행하는 것과는 달리, 두 가지 추가 범주를 도입함으로써 텍스트 작성 과정에서의 LLM 개입의 다양한 정도에 대한 통찰을 제공합니다. 이는 교육과 같은 일부 분야에서 LLM 개입이 일반적으로 금지되어 있는 경우 유용할 수 있습니다. 실험 결과, LLM-DetectAIve가 텍스트 콘텐츠의 저작자를 효과적으로 식별할 수 있음을 보여주며, 교육, 학술 및 기타 분야에서 무결성을 향상시키는 데 유용함을 입증합니다. LLM-DetectAIve는 https://huggingface.co/spaces/raj-tomar001/MGT-New에서 공개적으로 접근할 수 있습니다. 저희 시스템을 설명하는 비디오는 https://youtu.be/E8eT_bE7k8c에서 확인할 수 있습니다.
저자들은 낮은 및 중간 자원 언어를 위한 단일 언어 모델의 개발이 고품질 훈련 데이터를 확보하는 어려움으로 계속해서 방해받고 있다는 문제를 다루었습니다. 본 연구에서는 이러한 도전에 대처하고 더 효율적인 언어 적응을 가능하게 하는 새로운 교차언어 어휘 전이 전략인 'trans-tokenization'을 제시합니다. 저희의 방법은 고자원 단일 언어 모델을 보이지 않은 대상 언어에 적응시키기 위해 대상 언어의 토큰 임베딩을 소스 언어의 의미적으로 유사한 토큰 임베딩의 가중 평균을 사용하여 초기화하는 데 초점을 맞춥니다. 이를 위해 소스 언어와 대상 언어를 모두 다루는 번역 자원을 활용합니다. 저희는 Tweeties로 불리는 일련의 trans-tokenized LLM과 이들이 작은 다양한 언어 집합에서 다양한 하향 작업에서 경쟁력 있는 성능을 보여주는 것으로 이 방법을 검증하였습니다. 게다가, 여러 교체 가능한 언어 모델링 헤드와 임베딩 테이블을 갖는 모델인 Hydra LLM을 소개하였습니다. 이는 우리의 trans-tokenization 전략의 능력을 더욱 확장시킵니다. TowerInstruct 다국어 모델을 기반으로 한 Hydra LLM을 설계함으로써, 우리는 고품질 병렬 데이터 필요 없이 타타르어에 대한 최첨단 기계 번역 모델을 개발하였습니다. 이는 특히 타타르어와 같은 낮은 자원 언어에 있어서 고품질 병렬 데이터를 확보하기 어려운 경우에 중요한 진전입니다. 고품질 모델 훈련을 위한 데이터 및 시간 요구 사항을 낮춤으로써, 우리의 trans-tokenization 전략은 제한된 자원을 갖는 언어를 위한 LLM 개발을 가능하게 하며, 특히 한정된 자원을 갖는 언어에 대한 LLM의 개발을 허용합니다. 우리의 연구가 국제적인 언어들의 발전에 기여하고 교차언어 어휘 전이 분야에서의 추가 연구와 협력을 촉진할 것을 희망합니다.
우리는 대규모 언어 모델 (LLM)을 조정하기 위해 세계 지식에 근거한 고품질 합성 데이터를 구축하는 새로운 방법인 '지시 양방향 번역' 방법을 제안합니다. 웹 말뭉치에서 문서를 제공받아 Li 등(2023a)이 제안한 역번역 접근 방식을 사용하여 합성 지시사항을 생성하고 정비하며, 초기 문서를 기반으로 응답을 재작성하여 품질을 더욱 향상시킵니다. 결과적으로 (역번역된 지시사항, 재작성된 응답) 쌍으로 세밀 조정을 수행하면 Humpback, ShareGPT, Open Orca, Alpaca-GPT4 및 Self-instruct와 같은 일반적인 지시 데이터셋보다 AlpacaEval에서 더 높은 승률을 얻을 수 있습니다. 또한 LLM을 사용하여 응답을 재작성하는 것이 직접 증류보다 우수함을 입증하며, 두 생성된 텍스트 분포가 임베딩 공간에서 상당한 차이를 나타냅니다. 추가 분석 결과, 우리의 역번역된 지시사항이 다른 합성 지시사항 소스보다 품질이 높으며, 우리의 응답은 증류로 얻은 것보다 다양하고 복잡합니다. 전반적으로, 지시 양방향 번역은 웹에서 발견되는 정보 다양성과 양을 활용하면서 효과적인 조정을 위해 필요한 응답의 품질을 보장하는 데 필요한 최상의 방법을 결합한다는 것을 발견했습니다.
고성능 다중 모달 대형 언어 모델(MLLMs)은 데이터 품질에 크게 의존합니다. 본 연구는 대조 학습과 이미지 차이 캡션 작성에서 얻은 통찰을 활용하여 MLLMs에서 미세한 이미지 인식을 향상시키기 위해 설계된 새로운 데이터셋인 Img-Diff를 소개합니다. 유사한 이미지 간의 객체 차이를 분석함으로써 모델에 일치하는 및 구별되는 구성 요소를 식별하도록 도전합니다. 우리는 Stable-Diffusion-XL 모델과 고급 이미지 편집 기술을 활용하여 객체 교체를 강조하는 유사한 이미지 쌍을 생성합니다. 우리의 방법론에는 객체 차이 식별을 위한 차이 영역 생성기와 자세한 차이 설명을 위한 차이 캡션 생성기가 포함됩니다. 결과적으로 "객체 교체" 샘플의 상대적으로 작지만 고품질 데이터셋이 생성됩니다. 우리는 제안된 데이터셋을 MGM-7B와 같은 최첨단 MLLMs를 세밀하게 조정하여, 다수의 이미지 차이 및 시각적 질문 응답 작업에서 대규모 데이터셋으로 훈련된 최첨단 모델보다 성능 점수를 종합적으로 향상시킵니다. 예를 들어, 우리가 훈련한 모델은 MMVP 벤치마크에서 GPT-4V 및 Gemini와 같은 최첨단 모델을 현저히 능가합니다. 또한 "객체 제거"를 통해 이미지 차이 데이터를 생성하기 위한 대안적 방법을 조사하고 데이터셋의 다양성, 품질 및 견고성을 확인하기 위해 철저한 평가를 실시하여 이러한 대조적 데이터셋의 합성에 대한 여러 통찰을 제시합니다. 다중 모달 데이터 합성 및 MLLMs의 이미지 이해 능력의 기본적인 기능을 향상시키기 위한 연구를 장려하고자, 우리는 코드와 데이터셋을 https://github.com/modelscope/data-juicer/tree/ImgDiff 에 공개합니다.
우리는 부분 수준 역학을 위한 움직임 사전으로 작용할 수 있는 대화형 비디오 생성 모델인 Puppet-Master를 제안합니다. 테스트 시에는 단일 이미지와 희소한 움직임 궤적 세트(즉, 드래그)가 주어지며, Puppet-Master는 주어진 드래그 상호작용에 충실한 현실적인 부분 수준 움직임을 묘사하는 비디오를 합성할 수 있습니다. 이는 대규모 사전 훈련된 비디오 확산 모델을 세밀하게 조정하여 달성되며, 우리는 드래깅 제어를 효과적으로 주입하기 위한 새로운 조건부 아키텍처를 제안합니다. 더 중요한 것은, 기존 모델의 외형 및 배경 문제를 해결함으로써 생성 품질을 크게 향상시키는 널리 사용되는 공간 주의 모듈의 대체품인 all-to-first 주의 메커니즘을 소개합니다. 다른 움직임 조건화 비디오 생성기가 야외 비디오에서 훈련되고 주로 전체 객체를 이동시키는 반면, Puppet-Master는 부분 수준 움직임 클립의 새로운 데이터셋인 Objaverse-Animation-HQ에서 학습됩니다. 우리는 부적절한 애니메이션을 자동으로 걸러내고 의미 있는 움직임 궤적으로 합성 렌더링을 보강하는 전략을 제안합니다. Puppet-Master는 다양한 범주의 실제 이미지에 대해 일반화되며, 실제 세계 벤치마크에서 제로샷 방식으로 기존 방법을 능가합니다. 더 많은 결과를 보려면 프로젝트 페이지를 방문하십시오: vgg-puppetmaster.github.io.
인간 머리 감지, 키포인트 추정 및 3D 머리 모델 맞춤은 다양한 응용 프로그램을 가진 중요한 작업입니다. 그러나 전통적인 실제 세계 데이터셋은 종종 편향, 개인 정보 보호 및 윤리적 문제로 고통받고 있으며, 연구된 모델이 일반화하기 어렵도록 실험실 환경에서 기록되어 있습니다. 본 연구에서는 인간 머리 감지 및 3D 메쉬 추정을 위해 확산 모델을 사용하여 생성된 대규모 합성 데이터셋인 VGGHeads를 소개합니다. 우리의 데이터셋은 자세한 3D 머리 메쉬, 얼굴 랜드마크 및 경계 상자로 주석이 달린 100만 개 이상의 고해상도 이미지로 구성되어 있습니다. 이 데이터셋을 사용하여 우리는 단일 이미지에서 단일 단계로 동시에 머리 감지 및 머리 메쉬 재구성이 가능한 새로운 모델 아키텍처를 소개합니다. 광범위한 실험 평가를 통해 우리의 합성 데이터로 훈련된 모델이 실제 이미지에서 강력한 성능을 달성하는 것을 입증합니다. 또한 우리 데이터셋의 다용도성은 다양한 작업 범위에 적용 가능하며, 인간 머리의 일반적이고 포괄적인 표현을 제공합니다. 게다가, 우리는 합성 데이터 생성 파이프라인에 대한 자세한 정보를 제공하여 다른 작업 및 도메인에서 재사용할 수 있도록 합니다.
물리적 3D 환경에서 자연어를 기반으로 하는 것은 살아있는 인공지능의 발전에 중요합니다. 현재의 3D 시각적 기반에 대한 데이터셋과 모델은 주로 정적이고 객체 중심적인 설명에서 객체를 식별하고 위치를 파악하는 데 초점을 맞추고 있습니다. 이러한 접근 방식은 실용적인 응용 프로그램에 필요한 작업 지향적 기반의 동적이고 순차적인 성격을 충분히 다루지 못합니다. 본 연구에서는 새로운 작업을 제안합니다: 3D 장면에서의 작업 지향적 순차 기반, 여기서 에이전트는 실내 장면에서 순차적으로 대상 객체를 찾아 일상 활동을 완료하기 위해 자세한 단계별 지침을 따라야 합니다. 이 작업을 용이하게 하기 위해 22,346개의 작업과 112,236개의 단계가 포함된 대규모 데이터셋 SG3D를 소개합니다. 이 데이터셋은 다양한 3D 장면 데이터셋의 RGB-D 스캔과 자동화된 작업 생성 파이프라인을 결합하여 구성되었으며, 품질 보증을 위해 인간 검증이 이루어졌습니다. 우리는 세 가지 최첨단 3D 시각적 기반 모델을 순차 기반 작업에 적응시키고 SG3D에서 그들의 성능을 평가했습니다. 결과는 이러한 모델이 기존의 벤치마크에서 잘 수행되지만, 작업 지향적 순차 기반에서 중요한 도전에 직면하며, 이 분야에서 추가 연구가 필요함을 강조합니다.
분자 표현은 물리적 세계를 이해하는 데 기초적인 요소입니다. 그 중요성은 화학 반응의 기초부터 새로운 치료제 및 물질의 설계에 이르기까지 다양합니다. 이전의 분자 기계 학습 모델은 문자열, 지문, 전역 특징 및 정보가 희박한 특성을 지닌 간단한 분자 그래프를 사용해 왔습니다. 그러나 예측 작업의 복잡성이 증가함에 따라 분자 표현은 더 높은 충실도의 정보를 인코딩해야 합니다. 본 연구는 입체전자효과를 통해 양자화학적 풍부한 정보를 분자 그래프에 주입하는 새로운 접근 방식을 소개합니다. 우리는 입체전자 상호작용을 명시적으로 추가함으로써 분자 기계 학습 모델의 성능을 크게 향상시킬 수 있음을 보여줍니다. 게다가, 입체전자가 주입된 표현은 맞춤형 이중 그래프 신경망 워크플로우를 통해 학습하고 적용할 수 있어, 어떠한 하류 분자 기계 학습 작업에도 적용될 수 있습니다. 마지막으로, 학습된 표현이 전체 단백질과 같은 이전에 해결하기 어려웠던 시스템의 쉬운 입체전자 평가를 가능하게 하며, 분자 설계의 새로운 길을 열어줍니다.
실행 없이 프로그램 동작을 예측하는 것은 소프트웨어 공학에서 중요하고 어려운 작업입니다. 기존 모델은 종종 코드 내의 동적 종속성과 상호작용을 포착하는 데 어려움을 겪습니다. 본 논문은 동적 종속성 학습을 통해 코드 커버리지를 예측하고 런타임 오류를 감지하는 새로운 기계 학습 기반 프레임워크인 CodeFlowrepresents를 소개합니다. 제어 흐름 그래프(CFGs)를 활용하여 CodeFlowrepresents는 모든 가능한 실행 경로와 서로 다른 문장 간의 관계를 나타내며 프로그램 동작에 대한 포괄적인 이해를 제공합니다. 이는 실행 경로를 묘사하기 위해 CFGs를 구성하고 CFG 노드에 대한 벡터 표현을 학습하여 정적 제어 흐름 종속성을 포착합니다. 더불어 실행 추적을 통해 동적 종속성을 학습하여 실행 중 문장 간의 영향을 반영합니다. 이 접근 방식은 코드 커버리지의 정확한 예측과 런타임 오류의 식별을 가능케 합니다. 경험적 평가 결과, 코드 커버리지 예측 정확도와 런타임 오류의 효과적인 지역화에서 현재 모델을 능가하는 상당한 개선이 나타났습니다.
언어 모델(Language Models, LMs)을 사용하여 복잡한 문제를 해결할 때, 인간은 LM이 생성한 해결책을 이해하고 오류를 수정하는 데 어려움을 겪을 수 있습니다. 이를 보왕하기 위해 우리는 복잡한 해결책을 여러 간단한 부분으로 자동으로 분해하여 특정 하위 작업에 해당하는 각 부분으로 분해하는 것을 제안합니다. 우리는 학습 작업 분해를 위한 새로운 목적을 소개하는데, 이를 Assistive Value (AssistV)라고 하며, 이는 인간이 분해된 해결책을 수정하는 데 필요한 실행 가능성과 속도를 측정합니다. 우리는 다양한 분해된 해결책에 대한 인간의 수정 경험 데이터셋을 수집합니다. 이 수집된 데이터를 맥락을 고려한 예제로 활용하여, 우리는 분해된 해결책을 비평하고 개선하며 순위를 매겨 AssistV를 향상시킵니다. 우리는 경쟁적 프로그래밍 문제에서 우리의 방법을 검증합니다: 177시간의 인간 연구를 통해, 우리의 방법을 통해 비전문가가 문제를 33.3% 더 해결할 수 있게 되었으며, 속도가 3.3배 향상되었고, 비지원 전문가들과 맞설 수 있게 되었습니다.