번역이 포함된 일일 선별된 AI 연구 논문
OpenAI o1의 중요한 발전은 추론 능력을 향상시킴으로써 LLM을 개선할 수 있는 잠재력을 강조합니다. 그러나 대부분의 추론 연구는 수학적 작업에 초점을 맞추어 의학과 같은 영역은 미개척 상태입니다. 의학 영역은 수학과는 다르지만, 높은 의료 기준을 충족하기 위해 신뢰할 수 있는 답변을 제공하기 위해 견고한 추론을 요구합니다. 그러나 의학적 추론을 확인하는 것은 수학과는 다르게 어려운 일입니다. 이를 해결하기 위해 우리는 의료 검증기를 사용하여 모델 출력의 정확성을 확인하는 검증 가능한 의료 문제를 제안합니다. 이러한 검증 가능한 특성은 의료 추론의 발전을 가능하게 하며 다음과 같은 이차 접근법을 통해 구현됩니다: (1) 복잡한 추론 궤적을 찾기 위해 검증기를 사용하여 LLM을 미세 조정하고, (2) 검증기 기반 보상을 사용하여 강화 학습(RL)을 적용하여 더욱 복잡한 추론을 강화합니다. 마지막으로, 복잡한 추론이 의료 문제 해결을 개선하고 RL에서 더 많은 이점을 얻는 것을 실험을 통해 입증한 의료 LLM인 HuatuoGPT-o1을 소개합니다. 우리의 접근 방식이 의료 및 다른 전문 분야 전반에 걸쳐 추론의 발전을 영감으로 삼기를 희망합니다.
우리는 1.58비트 FLUX를 제시합니다. 이는 최첨단 텍스트에서 이미지를 생성하는 FLUX.1-dev 모델을 1.58비트 가중치(즉, {-1, 0, +1} 값)로 양자화하는 첫 성공적인 방법으로, 1024 x 1024 이미지 생성에 대해 유사한 성능을 유지합니다. 특히, 우리의 양자화 방법은 이미지 데이터에 액세스하지 않고 FLUX.1-dev 모델로부터의 자기 지도만을 의존합니다. 추가적으로, 1.58비트 연산에 최적화된 사용자 정의 커널을 개발하여 모델 저장 공간을 7.7배, 추론 메모리를 5.1배 줄이고 추론 대기 시간을 개선합니다. GenEval 및 T2I Compbench 벤치마크에서의 철저한 평가는 1.58비트 FLUX의 효과적인 성능을 입증하며, 생성 품질을 유지하면서 계산 효율성을 크게 향상시킵니다.
자연어 처리에서 언어 모델링의 기초를 바탕으로 한 Next Token Prediction (NTP)은 다양한 모달리티를 가진 기계 학습 작업에 대한 다재다능한 훈련 목표로 발전해 왔으며 상당한 성과를 이루었습니다. 대규모 언어 모델(Large Language Models, LLMs)이 텍스트 모달리티 내에서 이해와 생성 작업을 통합하는 데 발전함에 따라 최근 연구에서는 다른 모달리티의 작업도 NTP 프레임워크 내에 효과적으로 포함될 수 있다는 것을 보여주었습니다. 이를 통해 다모달 정보를 토큰으로 변환하고 문맥을 고려하여 다음 토큰을 예측합니다. 본 설문은 NTP의 시각을 통해 다모달 학습 내에서 이해와 생성을 통합하는 포괄적인 분류 체계를 소개합니다. 제안된 분류 체계는 다섯 가지 주요 측면을 다루며, 다모달 토큰화, MMNTP 모델 구조, 통합된 작업 표현, 데이터 및 평가, 그리고 오픈 챌린지를 다룹니다. 이 새로운 분류 체계는 연구자들이 다모달 인공지능을 탐구하는 데 도움이 되도록 목표로 합니다. 최신 논문과 저장소를 수집한 관련 GitHub 저장소는 https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction에서 확인할 수 있습니다.
방향은 객체의 주요 속성으로, 이미지 내에서의 공간 자세와 배열을 이해하는 데 중요합니다. 그러나 단일 이미지로부터 정확한 방향 추정을 위한 실용적인 솔루션은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 단일 및 자유 시점 이미지에서 객체 방향을 추정하는 데 특화된 최초의 전문적이고 기본적인 모델인 Orient Anything을 소개합니다. 레이블이 부족한 상황에서, 3D 세계로부터 지식을 추출하는 것을 제안합니다. 3D 객체의 전면을 주석 달하고 임의의 시점에서 이미지를 렌더링하여, 정확한 방향 주석이 달린 2백만 장의 이미지를 수집합니다. 데이터셋을 완전히 활용하기 위해, 우리는 3개의 각도에 대한 확률 분포로 3D 방향을 모델링하고, 이러한 분포를 적합시켜 객체 방향을 예측하는 견고한 훈련 목표를 설계합니다. 게다가, 합성에서 실제로의 전이를 개선하기 위해 여러 전략을 도입합니다. 우리의 모델은 렌더링된 이미지와 실제 이미지 모두에서 최첨단 방향 추정 정확도를 달성하며, 다양한 시나리오에서 인상적인 제로샷 능력을 보여줍니다. 더 중요한 것은, 우리의 모델이 복잡한 공간 개념의 이해와 생성, 그리고 3D 객체 자세 조정과 같은 많은 응용 프로그램을 향상시킵니다.
현재의 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 시각적인 세밀하거나 정확한 이해에 어려움을 겪지만 다양한 시각 응용 프로그램 범위에서 포괄적인 지각과 추론을 제공합니다. 최근 연구들은 특정 시각 작업을 자동 회귀적 프레임워크로 통합하거나 도구 사용을 개발하며 종종 전체 다중 모달 성능을 희생하는 경향이 있습니다. 이 문제를 해결하고 MLLMs를 확장 가능한 방식으로 시각 작업으로 향상시키기 위해 우리는 Task Preference Optimization (TPO)이라는 새로운 방법을 제안합니다. TPO는 전형적인 세밀한 시각 작업에서 유도된 미분 가능한 작업 선호도를 활용하는 방법입니다. TPO는 학습 가능한 작업 토큰을 도입하여 여러 작업별 헤드와 MLLM 간의 연결을 설정합니다. 풍부한 시각적 레이블을 활용하여 TPO는 MLLM의 다중 모달 능력과 작업별 성능을 현저하게 향상시킵니다. TPO 내에서 다중 작업 공동 학습을 통해 우리는 단일 작업 학습 방법을 통해 달성할 수 있는 것 이상의 개별 작업 성능을 끌어올리는 상호 작용적 이점을 관찰합니다. VideoChat 및 LLaVA와 이 접근 방식의 구현은 기준 모델과 비교하여 전체적으로 다중 모달 성능이 14.6% 향상되었습니다. 또한, MLLM-TPO는 다양한 작업에서 강력한 제로샷 능력을 보여주며 최첨단 지도 모델과 유사한 성능을 발휘합니다. 코드는 https://github.com/OpenGVLab/TPO에서 공개될 예정입니다.
본 연구에서는 다중 모달 그래픽 요소로부터의 자동 디자인 구성을 조사합니다. 최근 연구들은 그래픽 디자인을 위한 다양한 생성 모델을 개발해왔지만, 일반적으로 다음과 같은 제한에 직면합니다: 특정 하위 작업에만 초점을 맞추며 디자인 구성 작업을 달성하기에는 멀었습니다. 또한 생성 과정 중에 그래픽 디자인의 계층적 정보를 고려하지 않습니다. 이러한 문제를 해결하기 위해 우리는 계층적 디자인 원칙을 대규모 다모달 모델(LMMs)에 도입하고 이 어려운 작업을 수행하기 위한 새로운 방법인 LaDeCo를 제안합니다. 구체적으로, LaDeCo는 먼저 주어진 요소 집합에 대한 계층 계획을 수행하여 입력 요소를 내용에 따라 다른 의미적 계층으로 분할합니다. 계획 결과를 바탕으로, LaDeCo는 계층별로 디자인 구성을 제어하는 요소 속성을 예측하고 이전에 생성된 계층의 렌더링된 이미지를 컨텍스트에 포함합니다. 이러한 통찰력 있는 디자인을 통해 LaDeCo는 어려운 작업을 더 작고 관리하기 쉬운 단계로 분해하여 생성 과정을 더 부드럽고 명확하게 만듭니다. 실험 결과는 LaDeCo의 디자인 구성에서의 효과를 입증합니다. 더 나아가, LaDeCo가 해상도 조정, 요소 채우기, 디자인 변형 등 그래픽 디자인에서 흥미로운 응용 프로그램을 가능하게 하며, 작업 특정 훈련 없이 일부 디자인 하위 작업에서 전문 모델을 능가하는 것을 보여줍니다.
제로샷 맞춤형 비디오 생성은 상당한 응용 잠재력으로 인해 상당한 관심을 받고 있습니다. 기존 방법은 참조 주제 특징을 추출하고 주입하기 위해 추가 모델에 의존하는데, 이는 비디오 확산 모델(VDM)만으로는 제로샷 맞춤형 비디오 생성에 부족하다고 가정합니다. 그러나 이러한 방법은 종종 최적이 아닌 특징 추출 및 주입 기술로 인해 일관된 주제 외관을 유지하는 데 어려움을 겪습니다. 본 논문에서는 VDM이 본질적으로 주제 특징을 추출하고 주입할 능력을 갖고 있다는 것을 밝힙니다. 이전의 휴리스틱 접근에서 벗어나 VDM의 본질적인 능력을 활용하여 고품질 제로샷 맞춤형 비디오 생성을 가능하게 하는 새로운 프레임워크를 소개합니다. 구체적으로 특징 추출에 대해 참조 이미지를 직접 VDM에 입력하고 그 내재적인 특징 추출 과정을 사용하여 세밀한 특징을 제공할 뿐만 아니라 VDM의 사전 훈련된 지식과 크게 일치시킵니다. 특징 주입에 대해 VDM 내에서 공간 자기 주의를 통해 주제 특징과 생성된 콘텐츠 간의 혁신적인 양방향 상호 작용을 고안하여, VDM이 생성된 비디오의 다양성을 유지하면서 주제 충실도를 더 잘 갖도록 보장합니다. 맞춤형 인간 및 물체 비디오 생성에 대한 실험은 우리의 프레임워크의 효과를 검증합니다.
캄브리아 폭발적으로 쉽게 접근할 수 있는 사전 훈련된 확산 모델들의 등장은 하나의 큰 통합 모델을 다시 훈련하는 중요한 계산 부담 없이 여러 다른 사전 훈련된 확산 모델을 결합하는 방법에 대한 수요를 시사합니다. 본 논문에서는 생성 단계에서 여러 사전 훈련된 확산 모델을 결합하는 문제를 새롭게 제안된 '초위상(superposition)' 프레임워크 아래에서 제시합니다. 이론적으로 우리는 초위상을 연속 방정식에서 비롯된 엄격한 첫 원리로부터 유도하고, SuperDiff에서 확산 모델을 결합하기 위해 특별히 설계된 두 가지 새로운 알고리즘을 개발합니다. SuperDiff는 확산 SDE의 로그 우도에 대한 새로운 확장 가능한 이토 밀도 추정기를 활용하며, 발산 계산에 필요한 잘 알려진 허친슨의 추정기와 비교했을 때 추가적인 오버헤드가 없습니다. 우리는 초위상이 추론 중에 단순히 합성을 통해 수행되므로 SuperDiff가 대규모 사전 훈련된 확산 모델에 확장 가능하며, 자동 가중치 조정 체계를 통해 다른 사전 훈련된 벡터 필드를 결합함으로써 구현이 간편하다는 것을 입증합니다. 특히, 우리는 SuperDiff가 추론 시 효율적이며 논리적 OR 및 논리적 AND와 같은 전통적인 합성 연산자를 모방한다는 것을 보여줍니다. 우리는 CIFAR-10에서 더 다양한 이미지를 생성하기 위해 SuperDiff를 사용하는 유용성을 경험적으로 입증하고, Stable Diffusion을 사용한 더 충실한 프롬프트 조건 이미지 편집 및 단백질의 개선된 무조건적인 새로운 구조 설계에 대한 효과를 보여줍니다. https://github.com/necludov/super-diffusion
대규모 언어 모델(LLM)을 하위 작업에 맞게 세밀하게 조정하는 것은 널리 사용되는 방법이지만, 안전에 맞춘 LLM에서 안전성이 저하되는 경우가 종종 있습니다. 현재 많은 해결책이 이 문제를 다루고 있지만, 많은 경우에 추가적인 안전 데이터를 통합하는 것은 현실적이지 않을 수 있습니다. 본 논문에서는 다음 질문에 대답합니다: 어떻게 하면 추가적인 안전 데이터에 의존하지 않고 LLM의 안전성을 유지하면서 하위 작업 성능을 향상시킬 수 있을까요? 우리는 사전 및 사후 세밀 조정된 안전에 맞춘 모델의 가중치를 병합함으로써 LLM의 내재적 안전성을 유지하면서 하위 작업 성능을 향상시키는 간단하고 효과적인 방법을 제안합니다. 다양한 하위 작업, 모델 및 병합 방법에 걸쳐 실험 결과는 이 접근 방식이 안전성 저하를 효과적으로 완화하면서 하위 작업 성능을 향상시키는 것을 입증하며, 안전에 맞춘 LLM을 적응시키는 실용적인 해결책을 제공합니다.
그래프 데이터로부터의 검색은 대규모 언어 모델(LLM)을 오픈 도메인 지식과 기업 내부 데이터 모두로 보강하는 데 중요하며, 최근의 GraphRAG 시스템(Edge 등, 2024)에서도 핵심 구성 요소입니다. 지식 그래프와 지식 베이스 질의에 대한 수십 년의 연구에도 불구하고, 주요 LLM 프레임워크(예: Langchain 및 LlamaIndex)는 Wikidata와 같은 현대적인 백과사전 지식 그래프로부터의 검색을 거의 지원하지 않습니다. 본 논문에서는 이러한 근본적인 원인을 분석하고, 현대적인 RDF 지식 그래프(Wikidata, Freebase 등)가 LLM에 대해 너무 큰 스키마, 자원 식별자의 사용, 중복되는 관계 유형 및 정규화 부재로 인해 효율적이지 않다고 제안합니다. 이에 대한 해결책으로 우리는 LLM이 Cypher를 사용하여 효율적으로 쿼리할 수 있는 기본 RDF 그래프 위에 속성 그래프 뷰를 제안합니다. 우리는 이 아이디어를 Wikidata에 적용하고, 7.8백만 개체와 1만 개 이상의 질문을 포함하는 11개의 대규모, 다도메인 속성 그래프를 갖춘 CypherBench를 소개했습니다. 이를 달성하기 위해 RDF에서 속성 그래프로의 변환 엔진 개발, 텍스트에서 Cypher 작업 생성을 위한 체계적인 파이프라인 작성, 새로운 평가 지표 설계 등 여러 핵심적인 도전에 대처했습니다.
대규모 그림 질의응답(QA) 데이터셋을 구축하는 데에는 그림 수집 및 선택부터 텍스트, 숫자, 색상과 같은 속성 추출, 그리고 QA 생성까지 상당한 작업량이 필요합니다. 최근 LLMs의 발전으로 그림을 합성하기 위한 노력이 진행되었지만, 대부분은 주로 QA 생성에 초점을 맞추고 있습니다. 게다가 LLMs를 사용하여 직접 그림을 만드는 것은 종종 코드 오류, 비슷해 보이는 그림, 그리고 그림 내 반복 콘텐츠와 같은 문제에 직면할 수 있습니다. 이 문제를 해결하기 위해, 저희는 SBSFigures(단계별 합성 그림)라는 figure QA 사전 훈련을 위한 데이터셋을 제안합니다. 저희가 제안하는 파이프라인을 통해 시각화된 데이터의 완전한 주석이 달린 차트 그림과 어떠한 수동 주석 과정도 없이 밀도 높은 QA 주석을 생성할 수 있습니다. 저희의 단계별 파이프라인은 코드 오류를 최소화하면서 다양한 주제와 외관의 그림을 효율적으로 생성할 수 있도록 합니다. 저희의 SBSFigures는 강력한 사전 훈련 효과를 보여주며, 저희의 사전 훈련 가중치를 시작으로 실제 차트 데이터의 한정된 양으로 효율적인 훈련을 달성할 수 있게 합니다.