번역이 포함된 일일 선별된 AI 연구 논문
우리는 MiniMax-01 시리즈를 소개합니다. MiniMax-Text-01과 MiniMax-VL-01을 포함하여, 이 시리즈는 최고 수준의 모델들과 비교 가능하면서 더 긴 맥락을 처리하는 우수한 능력을 제공합니다. 핵심은 빠른 어텐션과 효율적인 스케일링에 있습니다. 계산 능력을 극대화하기 위해, 우리는 Mixture of Experts (MoE)와 통합하여 32명의 전문가와 4560억 개의 총 매개변수를 가진 모델을 만들었습니다. 이 중 각 토큰에 대해 459억 개가 활성화됩니다. MoE와 빠른 어텐션에 대해 최적화된 병렬 전략과 매우 효율적인 계산-통신 중첩 기술을 개발했습니다. 이 접근 방식을 통해 수백억 개의 매개변수를 가진 모델에 대해 수백만 개의 토큰을 포함하는 다양한 맥락에서 효율적인 훈련과 추론을 수행할 수 있습니다. MiniMax-Text-01의 맥락 창은 훈련 중에 최대 100만 개의 토큰에 이를 수 있으며, 추론 중에는 400만 개의 토큰까지 저렴한 비용으로 확장될 수 있습니다. 우리의 비전-언어 모델 MiniMax-VL-01은 5120억 개의 비전-언어 토큰을 계속해서 훈련하여 구축되었습니다. 표준 및 내부 벤치마크에서의 실험 결과는 우리의 모델이 GPT-4o와 Claude-3.5-Sonnet과 같은 최첨단 모델의 성능을 맞먹으면서 20-32배 더 긴 맥락 창을 제공함을 보여줍니다. 우리는 MiniMax-01을 https://github.com/MiniMax-AI에서 공개합니다.
확산 모델에서 파생된 MangaNinjia는 참조 안내 선 아트 채색 작업에 특화되어 있습니다. 우리는 정확한 캐릭터 세부 사항 전사를 보장하기 위해 두 가지 신중한 설계를 통합했습니다. 이는 참조 색상 이미지와 대상 선 아트 간의 일치 학습을 용이하게 하는 패치 섞기 모듈과 섬세한 색상 일치를 가능하게 하는 점 주도 제어 체계를 포함하고 있습니다. 자체 수집한 벤치마크에서의 실험은 우리 모델이 정확한 채색 측면에서 현재 솔루션보다 우월함을 입증합니다. 또한 제안된 대화식 점 제어의 잠재력을 보여주며, 기존 알고리즘의 한계를 넘어 어려운 경우, 다중 참조 조화 등을 다룰 수 있음을 보여줍니다.
텍스트에서 이미지로의 생성에서 조절 가능한 출력물에 대한 수요 증가로 인해, 다중 인스턴스 생성(MIG) 분야에서 중요한 발전이 있었으며 사용자가 인스턴스 레이아웃과 속성을 모두 정의할 수 있게 되었습니다. 현재 MIG 분야에서 선두적인 방법은 주로 어댑터 기반입니다. 그러나 이러한 방법들은 더 고급 모델이 출시될 때마다 새로운 어댑터를 재학습해야 하므로 상당한 자원 소비가 발생합니다. 깊이 주도 분리된 인스턴스 합성(3DIS) 방법이 소개되었는데, 이 방법은 MIG를 두 가지 구분된 단계로 분리합니다: 1) 깊이 기반의 장면 구성 및 2) 널리 사전 훈련된 깊이 제어 모델을 사용한 세부 렌더링. 3DIS 방법은 장면 구성 단계에서만 어댑터 훈련이 필요하며, 다양한 모델이 훈련 없이 세부 렌더링을 수행할 수 있습니다. 처음에는 3DIS가 SD1.5, SD2 및 SDXL과 같은 U-Net 아키텍처를 활용한 렌더링 기술에 초점을 맞추었지만, 최근의 DiT 기반 모델인 FLUX의 잠재력을 탐색하지 않았습니다. 본 논문에서는 FLUX 모델을 통합하여 렌더링 능력을 향상시킨 3DIS-FLUX를 제안합니다. 구체적으로, 우리는 깊이 맵 제어 이미지 생성을 위해 FLUX.1-Depth-dev 모델을 활용하고, FLUX의 Joint Attention 메커니즘에서 레이아웃 정보를 기반으로 Attention Mask를 조작하는 세부 렌더러를 소개합니다. 이 방식은 각 인스턴스의 세밀한 속성을 정확하게 렌더링할 수 있도록 합니다. 실험 결과는 FLUX 모델을 활용한 3DIS-FLUX가 SD2 및 SDXL을 사용한 원래의 3DIS 방법보다 우수한 성능과 이미지 품질을 보여주며, 현재의 선두적인 어댑터 기반 방법을 능가한다는 것을 나타냅니다. 프로젝트 페이지: https://limuloo.github.io/3DIS/.
우리는 이미지와 비디오 모두에 대한 영역 수준 이해를 용이하게 하는 다중 모달 대형 언어 모델인 Omni-RGPT를 제안합니다. 시공간 차원 전반에 걸쳐 일관된 영역 표현을 달성하기 위해 시각적 특징 공간 내에서 대상 영역을 강조하는 일련의 토큰인 토큰 마크를 소개합니다. 이러한 토큰들은 시각적 특징 공간 내의 공간적 영역에 직접 포함되며, 동시에 텍스트 토큰에 포함되어 대상을 지정하여 시각적 및 텍스트 토큰 간의 직접적인 연결을 설정합니다. 트랙렛을 필요로 하지 않고 안정적인 영상 해석을 가능케 하는 보조 작업을 통해 토큰 마크를 안정적으로 이용하는 보조 작업을 소개합니다. 또한 대규모 영역 수준 비디오 지시 데이터 세트(RegVID-300k)를 소개합니다. Omni-RGPT는 이미지 및 비디오 기반 상식 추론 벤치마크에서 최첨단 결과를 달성하면서 캡션 생성 및 참조 표현 이해 작업에서 강력한 성능을 보여줍니다.
확산 모델은 이미지 및 비디오 생성에 널리 사용되지만, 그들의 반복적 생성 과정은 느리고 비용이 많이 듭니다. 기존의 증류 접근법은 이미지 도메인에서 한 단계 생성의 잠재력을 보여 주었지만, 여전히 상당한 품질 저하를 겪고 있습니다. 본 연구에서는 확산 사전 훈련에 이어 실제 데이터에 대항하는 Adversarial Post-Training (APT)을 제안하여 한 단계 비디오 생성을 위한 것입니다. 훈련 안정성과 품질을 향상시키기 위해 모델 구조 및 훈련 절차에 여러 가지 개선 사항을 도입하고 근사화된 R1 정규화 목표를 소개합니다. 경험적으로, 우리의 실험은 Seaweed-APT라는 적대적으로 후속 훈련된 모델이 실시간으로 2초, 1280x720, 24fps 비디오를 단일 전방 평가 단계를 사용하여 생성할 수 있음을 보여줍니다. 게다가, 우리 모델은 단일 단계로 1024px 이미지를 생성할 수 있으며, 최첨단 방법과 비교할 수 있는 품질을 달성합니다.
텍스트-이미지 (T2I) 확산 모델은 이미지 생성 과정을 안내하기 위해 인코딩된 프롬프트에 의존합니다. 일반적으로 이러한 프롬프트는 텍스트 인코딩 전에 패딩 토큰을 추가하여 고정된 길이로 확장됩니다. 이는 기본적인 관행이지만, 패딩 토큰이 이미지 생성 과정에 미치는 영향은 조사되지 않았습니다. 본 연구에서는 T2I 모델에서 패딩 토큰이 하는 역할에 대해 첫 번째 철저한 분석을 수행합니다. 우리는 정보가 어떻게 토큰의 표현에 인코딩되는지 분석하기 위해 두 가지 인과 기법을 개발했습니다. 이러한 기술을 사용하여 패딩 토큰이 이미지 생성 과정에 어떻게 영향을 미치는지 조사합니다. 우리의 연구 결과는 세 가지 다른 시나리오를 밝혀냅니다: 패딩 토큰은 텍스트 인코딩 중에 모델의 출력에 영향을 줄 수 있으며, 확산 과정 중에 영향을 줄 수도 있고, 효과적으로 무시될 수도 있습니다. 더불어, 이러한 시나리오와 모델의 아키텍처 (교차 또는 자기 주의) 및 훈련 과정 (동결된 또는 훈련된 텍스트 인코더) 사이의 주요 관계를 확인합니다. 이러한 통찰력은 패딩 토큰의 메커니즘에 대한 보다 심층적인 이해에 기여하여, 향후 T2I 시스템에서 모델 설계 및 훈련 방법에 영향을 줄 수 있습니다.
대형 언어 모델은 복잡한 자연어 지시를 해석하는 데 뛰어나며, 이를 통해 다양한 작업을 수행할 수 있습니다. 생명 과학 분야에서 단일 세포 RNA 시퀀싱(scRNA-seq) 데이터는 세포 생물학의 "언어"로 기능하며, 단일 세포 수준에서 복잡한 유전자 발현 패턴을 포착합니다. 그러나 이 "언어"와 상호 작용하기 위해 전통적인 도구를 사용하는 것은 종종 비효율적이고 직관적이지 않아 연구자들에게 어려움을 줍니다. 이러한 제한을 해결하기 위해 우리는 InstructCell을 제안합니다. 이는 자연어를 매개로 더 직접적이고 유연한 단일 세포 분석을 위한 멀티 모달 AI 동료입니다. 우리는 텍스트 기반 지시사항과 다양한 조직 및 종의 scRNA-seq 프로필을 짝지은 포괄적인 멀티 모달 지시 데이터셋을 구축합니다. 이를 기반으로 우리는 동시에 두 가지 모드를 해석하고 처리할 수 있는 멀티 모달 세포 언어 아키텍처를 개발합니다. InstructCell은 연구자들이 세포 유형 주석, 조건부 의사 세포 생성, 그리고 약물 민감도 예측과 같은 중요한 작업을 간편한 자연어 명령을 사용하여 수행할 수 있도록 돕습니다. 철저한 평가 결과, InstructCell은 기존의 단일 세포 기반 모델의 성능을 일관되게 능가하며, 다양한 실험 조건에 적응합니다. 더 중요한 것은, InstructCell은 복잡한 단일 세포 데이터를 탐색하기 위한 접근 가능하고 직관적인 도구를 제공하여 기술적 장벽을 낮추고 더 깊은 생물학적 통찰력을 제공합니다.
대화형 이미지 편집은 사용자가 그리기, 클릭, 드래그 등의 시각적 상호작용 작업을 통해 이미지를 수정할 수 있게 합니다. 기존 방법은 비디오에서 이러한 감독 신호를 구성하는데, 이는 물체가 다양한 물리적 상호작용으로 어떻게 변하는지를 포착하기 때문입니다. 그러나 이러한 모델들은 일반적으로 텍스트-이미지 확산 모델에 기반을 두기 때문에 (i) 대규모 훈련 샘플과 (ii) 실제 세계의 동적 및 시각적 일관성을 학습하기 위한 추가 참조 인코더가 필요합니다. 본 논문에서는 이 작업을 이미지-비디오 생성 문제로 재정의하여 강력한 비디오 확산 사전을 상속하여 훈련 비용을 줄이고 시간적 일관성을 보장합니다. 구체적으로 이 정식화의 효율적 구현인 FramePainter를 소개합니다. 안정적인 비디오 확산으로 초기화된 FramePainter는 가벼운 희소 제어 인코더만 사용하여 편집 신호를 주입합니다. 두 프레임 간의 큰 움직임을 처리하는 데 있어서 시간적 주의의 한계를 고려하여, 편집된 이미지 토큰과 원본 이미지 토큰 간의 밀도 있는 일치를 촉진하면서 수용 영역을 확대하는 일치 주의를 제안합니다. 우리는 다양한 편집 신호에 걸쳐 FramePainter의 효과적이고 효율적인 성능을 강조합니다: 이는 이전 최첨단 방법보다 훨씬 적은 훈련 데이터로 매우 부드럽고 일관된 이미지 편집을 달성하여, 예를 들어, 컵의 반사를 자동으로 조절합니다. 게다가, FramePainter는 실제 세계 비디오에 없는 시나리오에서도 뛰어난 일반화 능력을 보여줍니다. 예를 들어, 클라운피시를 상어 모양으로 변환합니다. 우리의 코드는 https://github.com/YBYBZhang/FramePainter에서 사용할 수 있습니다.
우리는 PokerBench를 소개합니다 - 대형 언어 모델(LLMs)의 포커 플레이 능력을 평가하기 위한 벤치마크입니다. LLMs는 전통적인 자연어 처리(NLP) 작업에서 뛰어나지만, 포커와 같은 복잡하고 전략적인 게임에 적용하는 것은 새로운 도전입니다. 포커는 정보가 불완전한 게임으로, 수학, 추론, 계획, 전략, 게임 이론 및 인간 심리에 대한 심층적인 이해와 같은 다양한 기술을 요구합니다. 이는 포커를 대형 언어 모델에게 이상적인 새로운 영역으로 만듭니다. PokerBench는 훈련된 포커 플레이어와 협력하여 개발된 프리플랍과 포스트플랍 플레이로 분할된 11,000가지 중요한 시나리오의 포괄적인 컴필레이션으로 구성됩니다. 우리는 GPT-4, ChatGPT 3.5 및 다양한 Llama 및 Gemma 시리즈 모델을 포함한 주요 모델들을 평가하며, 모든 최첨단 LLMs가 최적의 포커 플레이에서 성능이 부족함을 발견했습니다. 그러나 세밀한 튜닝 이후 이러한 모델들은 상당한 개선을 보입니다. 우리는 서로 다른 점수를 가진 모델들이 경쟁하도록 PokerBench를 검증하여, PokerBench에서 높은 점수가 실제 포커 게임에서 높은 승률로 이어진다는 것을 입증했습니다. 우리가 세밀하게 튜닝된 모델과 GPT-4 간의 게임을 통해, 최적의 플레이 전략을 학습하기 위한 간단한 지도 튜닝의 한계를 확인하며, 게임에서 뛰어난 언어 모델을 효과적으로 훈련하기 위한 더 고급화된 방법론이 필요함을 시사했습니다. PokerBench는 LLMs의 포커 플레이 능력을 신속하고 신뢰할 수 있는 평가를 위한 독특한 벤치마크로서, 복잡한 게임 플레이 시나리오에서 LLMs의 진전을 연구하기 위한 포괄적인 벤치마크로 제시됩니다. 데이터셋과 코드는 다음에서 제공될 예정입니다: https://github.com/pokerllm/pokerbench.
고품질이며 유창한 텍스트를 생성하는 능력이 뛰어난 생성형 대형 언어 모델(Large Language Models, LLMs)은 환각을 생성하기도 합니다: 확립된 세계 지식이나 입력된 맥락과 일치하지 않는 문장들을 생성합니다. 그러나 환각을 측정하는 것은 어려울 수 있습니다. 왜냐하면 모델 생성물을 인간이 실시간으로 확인하는 것은 비용이 많이 들고 시간이 많이 소요되기 때문입니다. 본 연구에서는 프로그래밍, 과학적 속성, 요약 등 아홉 가지 도메인에 걸쳐 생성 모델을 위한 10,923개의 프롬프트와 각 사용 사례에 대한 자동 고정밀 확인 도구로 구성된 포괄적인 환각 벤치마크인 HALoGEN을 공개합니다. 이 도구는 LLM 생성물을 원자 단위로 분해하고 각 단위를 고품질 지식 원본과 비교하여 확인합니다. 우리는 이 프레임워크를 사용하여 14개의 언어 모델로부터 약 150,000개의 생성물을 평가하고, 최고 수준의 모델조차도 환각으로 가득 차 있음을 발견했습니다(도메인에 따라 생성된 원자적 사실의 최대 86%까지). 또한, LLM 환각에 대한 새로운 오류 분류를 정의했습니다. 이는 훈련 데이터의 잘못된 기억(Type A 오류), 훈련 데이터의 잘못된 지식(Type B 오류), 또는 가공(Type C 오류)에서 유래한 것인지를 기반으로 합니다. 우리는 이 프레임워크가 생성 모델이 왜 환각을 일으키는지를 체계적으로 연구하고 신뢰할 수 있는 대형 언어 모델의 개발을 진전시키는 기초를 제공할 것으로 기대합니다.
이미지 토크나이저는 현대의 텍스트-이미지 생성 모델의 기초를 형성하지만 훈련이 어렵다는 것으로 유명합니다. 게다가 대부분의 기존 텍스트-이미지 모델은 대규모이고 고품질의 사적 데이터셋에 의존하기 때문에 재현이 어렵습니다. 본 연구에서는 효율적이고 강력한 이미지 토크나이저인 텍스트 인식 트랜스포머 기반 1차원 토크나이저(TA-TiTok)를 소개합니다. TA-TiTok은 이산 또는 연속적인 1차원 토큰을 활용할 수 있습니다. TA-TiTok은 토크나이저 디코딩 단계(즉, 디토크나이제이션)에서 텍스트 정보를 독특하게 통합하여 수렴을 가속화하고 성능을 향상시킵니다. TA-TiTok은 또한 이전 1차원 토크나이저에서 사용된 복잡한 이차원 증류 과정을 제거하고 간소화되고 효과적인 단계적 훈련 과정을 통해 이점을 얻습니다. 이러한 설계는 대규모 데이터셋으로의 원활한 확장성을 허용합니다. 여기에 기반하여, 우리는 공개 데이터만을 사용하여 훈련된 텍스트-이미지 마스크 생성 모델(MaskGen)의 가족을 소개합니다. 이 모델은 사적 데이터로 훈련된 모델과 비교 가능한 성능을 달성합니다. 우리는 효율적이고 강력한 TA-TiTok 토크나이저와 텍스트-이미지 마스크 생성 모델(MaskGen)을 공개하여 텍스트-이미지 마스크 생성 모델 분야의 보다 넓은 접근과 민주화를 촉진하고자 합니다.
우리는 Tarsier2를 소개합니다. 이는 최첨단 대형 비전-언어 모델(LVLM)로, 상세하고 정확한 비디오 설명을 생성하는 데 설계되었으며 우수한 비디오 이해 능력을 보여줍니다. Tarsier2는 세 가지 주요 업그레이드를 통해 중요한 발전을 이루었습니다: (1) 11백만에서 40백만 비디오-텍스트 쌍으로 사전 훈련 데이터 확장, 양과 다양성을 풍부하게 함; (2) 지도된 세밀한 시간적 정렬 수행; (3) 모델 기반 샘플링을 사용하여 선호 데이터를 자동으로 구성하고 최적화를 위해 DPO 훈련을 적용함. 광범위한 실험 결과, Tarsier2-7B는 상세한 비디오 설명 작업에서 GPT-4o 및 Gemini 1.5 Pro를 포함한 선도적인 전용 모델을 일관되게 능가합니다. DREAM-1K 벤치마크에서 Tarsier2-7B는 GPT-4o 대비 F1을 2.8\% 향상시키고 Gemini-1.5-Pro 대비 5.8\% 향상시킵니다. 인간의 측면에서 직접 비교한 평가에서, Tarsier2-7B는 GPT-4o 대비 +8.6\%의 성능 우위와 Gemini-1.5-Pro 대비 +24.9\%의 우위를 보여줍니다. Tarsier2-7B는 비디오 질문-답변, 비디오 그라운딩, 환영 테스트, 그리고 실체 질문-답변과 같은 작업을 포함하는 15개의 공개 벤치마크에서 새로운 최첨단 결과를 세우며, 견고한 일반 비전-언어 모델로서의 다재다능성을 입증합니다.
자동 해석 가능성 파이프라인은 대형 언어 모델 (LLM)의 특성으로 표현되는 개념에 대한 자연어 설명을 생성합니다. 이러한 설명은 특성을 활성화하는 입력을 사용하여 유도되며, 이 입력은 모델의 표현 공간에서 차원이나 방향일 수 있습니다. 그러나 활성화 입력을 식별하는 것은 비용이 많이 들며, 특성의 모델 동작에서의 기계적 역할은 입력이 특성을 활성화하는 방법과 특성 활성화가 출력에 어떻게 영향을 미치는지에 의해 결정됩니다. 조종 평가를 사용하여 현재의 파이프라인이 출력에 대한 특성의 인과 효과를 포착하지 못하는 설명을 제공한다는 것을 밝혀냅니다. 이를 해결하기 위해 우리는 효율적인, 출력 중심적 방법을 제안하여 특성 설명을 자동으로 생성합니다. 이 방법은 특성 자극 후 가중치가 높은 토큰을 사용하거나 특성에 직접 "unembedding" 헤드를 적용한 후 가장 높은 가중치 토큰을 사용합니다. 우리의 출력 중심적 설명은 입력 중심적 설명보다 모델 출력에 대한 특성의 인과 효과를 더 잘 포착하지만, 두 가지를 결합하면 입력 및 출력 평가 모두에서 최상의 성능을 보입니다. 마지막으로, 출력 중심적 설명을 사용하여 이전에 "죽은" 것으로 여겨졌던 특성을 활성화하는 입력을 찾을 수 있다는 것을 보여줍니다.
대형 언어 모델(LLMs)은 놀라운 능력을 보여주었지만, 그들의 성공은 사전 훈련 말뭉치의 품질에 크게 의존합니다. 중국어 LLMs의 경우, 고품질 중국어 데이터셋의 부족은 종종 그들의 성능을 제한하는 중요한 도전 과제로 나타납니다. 이 문제를 해결하기 위해, 우리는 LLM 사전 훈련, 사후 훈련 및 세밀 조정을 위해 특별히 설계된 고품질 데이터셋 시리즈인 OpenCSG 중국어 말뭉치를 제안합니다. 이 말뭉치에는 다양한 중국 웹 소스에서 유래한 걸러낸 고품질 콘텐츠에 중점을 둔 Fineweb-edu-chinese, Fineweb-edu-chinese-v2, 지식 중심 훈련을 위한 합성, 교과서 스타일 데이터를 제공하는 Cosmopedia-chinese, 그리고 스타일리쉬하고 다양한 채팅 형식 데이터에 중점을 둔 Smoltalk-chinese이 포함되어 있습니다. OpenCSG 중국어 말뭉치는 고품질 텍스트, 다양한 도메인을 아우르는 커버리지, 확장 가능하고 재현 가능한 데이터 정리 프로세스로 특징 지어집니다. 또한, 우리는 C-Eval과 같은 작업에서 유의미한 성능 향상을 보여주는 작은 매개변수 모델에 대한 평가를 포함한 광범위한 실험적 분석을 수행하여, 중국어 LLMs의 훈련에 대한 이 말뭉치의 효과를 입증했습니다.
혐오 발언과 남용 언어는 사회 문화적 배경 지식이 필요하여 이해, 식별 및 조절되어야 하는 전 세계적 현상이다. 그러나 세계 남쪽의 많은 지역에서는 (1) 조절 부재 및 (2) 맥락을 빼고 키워드 감지에 의존하여 검열이 이루어진 사례가 여러 건 기록되어 왔다. 더 나아가, 유명 인물들이 조절 과정의 중심에 자주 있었으며, 소수자에 대한 대규모 및 표적형 혐오 발언 캠페인은 무시되어 왔다. 이러한 한계는 주로 현지 언어의 고품질 데이터 부족과 현지 커뮤니티를 데이터 수집, 주석 및 조절 과정에 포함시키지 못한 것에서 비롯된다. 이 문제에 대응하기 위해, 우리는 AfriHate를 제시한다: 15개의 아프리카 언어로 된 혐오 발언과 남용 언어 데이터셋의 다중 언어 모음이다. AfriHate의 각 사례는 현지 문화에 익숙한 원어민들에 의해 주석이 달렸다. 데이터셋 구축과 관련된 도전 과제를 보고, LLMs를 사용하거나 사용하지 않은 다양한 분류 기준 결과를 제시한다. 데이터셋, 개별 주석 및 혐오 발언 및 모욕적 언어 어휘는 https://github.com/AfriHate/AfriHate에서 제공된다.
대형 언어 모델의 급속한 발전은 비구조화된 텍스트 데이터를 처리하고 요약하는 놀라운 능력을 발휘하게 했습니다. 이는 설문 응답과 같은 풍부하고 개방적인 데이터셋의 분석에 영향을 미치며, 이러한 대규모 언어 모델은 주요 주제와 감정을 효율적으로 추출할 수 있는 가능성을 가지고 있습니다. 그러나 기업이 이러한 강력한 AI 시스템을 텍스트 피드백을 해석하는 데 활용할 때 중요한 질문이 제기됩니다. LLMs가 이러한 텍스트 기반 데이터셋에 포함된 관점을 정확하게 대표할 수 있는지 신뢰할 수 있는지에 대한 문제입니다. LLMs는 인간과 유사한 요약을 생성하는 데 뛰어나지만, 그들의 결과물이 원래 응답의 본질에서 우연히 벗어날 수 있는 위험이 있습니다. LLM이 생성한 결과물과 데이터에 실제로 존재하는 주제 간의 불일치는 조직에 심각한 결과를 초래할 수 있는 잘못된 의사결정으로 이어질 수 있습니다. 본 연구는 다른 LLMs가 생성한 요약의 주제적 일치를 평가하기 위한 판단 모델로서 LLMs의 효과를 조사합니다. 우리는 Anthrop Claude 모델을 활용하여 개방형 설문 응답에서 주제적 요약을 생성하였으며, Amazon의 Titan Express, Nova Pro, 그리고 Meta의 Llama가 LLM 판단자로 사용되었습니다. LLM을 심사자로 사용한 접근법은 Cohen의 카파, Spearman의 로, Krippendorff의 알파를 사용하여 인간 평가와 비교되었으며, 전통적인 인간 중심 평가 방법에 대한 확장 가능한 대안임을 입증하였습니다. 우리의 연구 결과는 LLMs가 심사자로서 인간 심사자와 비슷한 확장 가능한 솔루션을 제공하지만, 인간은 여전히 섬세하고 맥락 특정한 뉘앙스를 감지하는 데 뛰어날 수 있다는 것을 보여줍니다. 본 연구는 AI 지원 텍스트 분석에 대한 지식의 증가하는 영역에 기여합니다. 우리는 한계를 논의하고 향후 연구를 위한 권고 사항을 제공하며, 다양한 맥락과 사용 사례에 걸쳐 LLM 판단 모델을 보편화할 때 신중한 고려가 필요함을 강조합니다.
이미지 매칭은 이미지 간에 해당하는 픽셀 위치를 식별하는 것을 목표로 하며, 이미지 등록, 퓨전 및 분석에 도움이 되어 다양한 과학 분야에서 중요합니다. 최근 몇 년 동안, 딥러닝 기반 이미지 매칭 알고리즘은 대량의 대응을 신속하고 정확하게 찾는 데에서 인간을 크게 능가했습니다. 그러나 상이한 이미징 모달리티에서 촬영된 이미지를 처리할 때, 외관 변화가 큰 양상을 보이는 경우, 이러한 알고리즘의 성능이 종종 저하됩니다. 이는 교차 모달리티 훈련 데이터가 부족하기 때문입니다. 이 제한은 여러 이미지 모달리티에 의존하여 보완적 정보를 얻는 다양한 분야의 응용 프로그램을 방해합니다. 이러한 도전에 대처하기 위해, 우리는 다양한 소스에서 다양한 데이터를 통합하여 합성 교차 모달리티 훈련 신호를 활용하는 대규모 사전 훈련 프레임워크를 제안합니다. 이를 통해 모델을 훈련하여 이미지 간의 기본 구조를 인식하고 매칭시키는 능력을 갖추게 합니다. 이 능력은 실제 세계에서 보이지 않는 교차 모달리티 이미지 매칭 작업으로 전이 가능합니다. 우리의 주요 발견은 이 프레임워크로 훈련된 매칭 모델이 동일한 네트워크 가중치를 사용하여 여덟 개 이상의 보이지 않는 교차 모달리티 등록 작업에 걸쳐 현저한 일반화 능력을 달성한다는 것입니다. 기존 방법을 크게 능가하며, 일반화를 위해 설계되었든 특정 작업에 맞춰진 것이든 상관없이 결과가 나옵니다. 이 발전은 이미지 매칭 기술의 적용 가능성을 크게 향상시키고 다양한 과학 분야에서의 새로운 응용 프로그램을 열어줍니다.
자동화된 과학적 발견의 추구는 상징 논리에서 현대 AI로의 진전을 촉진하여 추론과 패턴 인식 분야에서 새로운 지평을 열었습니다. 트랜스포머는 잠재적 시스템으로 작용하며, 모든 가능한 관계는 작업이 제약을 가할 때까지 잠재적 가능성으로 남아 있습니다. 그러나 그들의 샘플링을 정제하는 데에는 확률적 선택 이상의 것이 필요합니다: 솔루션은 특정 구조나 규칙에 부합하여야 하며, 일관성과 일반 원칙의 발동을 보장해야 합니다. 우리는 탐색적 추론의 최적화를 위한 그래프 기반 선호도 기반 재귀 언어 모델링(Graph-PReFLexOR)이라는 프레임워크를 제시합니다. 이는 그래프 추론을 상징적 추상화와 결합하여 도메인 지식을 동적으로 확장합니다. 강화 학습에 영감을 받아, Graph-PReFLexOR는 작업이 지식 그래프, 추상적 패턴, 그리고 궁극적으로 최종 답변을 제공하는 구조화된 매핑으로 추론을 정의합니다. 범주 이론에 영감을 받아, 이는 개념을 노드로, 그들의 관계를 엣지로 인코딩하여 계층적 추론과 이성적 표현을 통한 적응 학습을 지원합니다. 이는 가설 생성, 재료 설계, 그리고 '얇은 곳'과 재료 과학과 같은 신화적 개념 사이의 관계 발견과 같은 창의적 추론을 포함한 시연을 제시합니다. 우리는 다양한 분야 간의 통찰력을 통합하여 학제간 연결을 촉진하는 '지식 정원 성장' 전략을 제안합니다. 30억 개의 매개변수를 가진 Graph-PReFLexOR 모델의 결과는 우수한 추론 깊이와 적응성을 보여주며, 투명하고 다학제적인 AI 주도의 발견 가능성을 강조합니다. 이는 일반적인 자율적 추론 솔루션을 위한 기초를 마련합니다.