번역이 포함된 일일 선별된 AI 연구 논문
LLM(대형 언어 모델)과 RAG(검색-증강 생성) 시스템은 이제 수백만 개의 입력 토큰 이상을 처리할 수 있습니다. 그러나 긴 문맥 작업에서 이러한 시스템의 출력 품질을 평가하는 것은 여전히 어려운 과제로 남아 있습니다. 특히 '건초 더미 속 바늘 찾기(Needle-in-a-Haystack)'와 같은 작업은 복잡성이 부족합니다. 본 연구에서는 요약(summarization)이 이러한 평가에서 중심적인 역할을 할 수 있다고 주장합니다. 우리는 특정 통찰력이 여러 문서에 걸쳐 반복되도록 문서 더미(Haystack)를 합성하는 절차를 설계했습니다. "건초 더미 요약(Summary of a Haystack, SummHay)" 작업은 시스템이 건초 더미를 처리하고, 주어진 쿼리에 대해 관련 통찰력을 식별하고 정확하게 출처 문서를 인용한 요약을 생성하도록 요구합니다. 건초 더미 요약에 어떤 통찰력이 포함되어야 하고 어떤 문서가 인용되어야 하는지 정확히 알고 있기 때문에, 우리는 높은 재현성을 가진 자동 평가를 구현하여 요약을 '포괄성(Coverage)'과 '인용(Citation)' 두 가지 측면에서 점수화할 수 있습니다. 우리는 대화와 뉴스 두 가지 도메인에서 건초 더미를 생성하고, 10개의 LLM과 이에 대응하는 50개의 RAG 시스템에 대한 대규모 평가를 수행했습니다. 연구 결과에 따르면 SummHay는 현재 시스템들에게 열린 도전 과제로, 문서 관련성을 나타내는 오라클 신호를 제공받은 시스템조차도 인간의 예상 성능(56%)보다 10점 이상 낮은 '통합 점수(Joint Score)'를 기록했습니다. 검색기가 없는 경우, GPT-4o 및 Claude 3 Opus와 같은 긴 문맥 LLM은 SummHay에서 20% 미만의 점수를 기록했습니다. 우리는 SummHay가 기업용 RAG 시스템과 긴 문맥 모델의 위치 편향(position bias)을 연구하는 데에도 사용될 수 있음을 보여줍니다. 우리는 미래의 시스템이 SummHay에서 인간의 성능을 따라잡고 능가할 수 있기를 기대합니다.
대규모 언어 모델(LLM)의 최근 발전은 코드 합성, 프로그램 수리, 테스트 생성 등 소프트웨어 개발 작업의 자동화를 크게 진전시켰습니다. 더 최근에는 연구자들과 산업계 실무자들이 종단 간(end-to-end) 소프트웨어 개발 작업을 수행하기 위한 다양한 자율 LLM 에이전트를 개발했습니다. 이러한 에이전트는 도구를 사용하고 명령을 실행하며 환경으로부터 피드백을 관찰하고 미래의 행동을 계획할 수 있는 능력을 갖추고 있습니다. 그러나 이러한 에이전트 기반 접근 방식의 복잡성과 현재 LLM의 제한된 능력으로 인해 다음과 같은 질문이 제기됩니다: 정말 복잡한 자율 소프트웨어 에이전트를 사용해야 할까요? 이 질문에 답하기 위해 우리는 Agentless를 구축했습니다. Agentless는 소프트웨어 개발 문제를 자동으로 해결하기 위한 에이전트 없는 접근 방식입니다. 에이전트 기반 접근 방식의 장황하고 복잡한 설정과 비교하여, Agentless는 LLM이 미래의 행동을 결정하거나 복잡한 도구를 사용하지 않고도, 단순화된 두 단계 프로세스인 문제 위치 파악(localization)과 수리(repair)를 사용합니다. 인기 있는 SWE-bench Lite 벤치마크에서의 결과는 놀랍게도 단순한 Agentless가 기존의 모든 오픈소스 소프트웨어 에이전트와 비교하여 가장 높은 성능(27.33%)과 가장 낮은 비용(\$0.34)을 달성할 수 있음을 보여줍니다! 또한, 우리는 SWE-bench Lite의 문제를 수동으로 분류하고 정확한 정답 패치가 있거나 불충분하거나 오해의 소지가 있는 문제 설명을 가진 문제들을 발견했습니다. 따라서 이러한 문제가 있는 이슈를 제외하여 더 엄격한 평가와 비교를 수행할 수 있는 SWE-bench Lite-S를 구성했습니다. 우리의 작업은 자율 소프트웨어 개발에서 간단하고 해석 가능한 기술의 현재 간과된 잠재력을 강조합니다. 우리는 Agentless가 자율 소프트웨어 에이전트의 기준선, 시작점, 그리고 지평을 재설정하고 이 중요한 방향으로의 미래 연구에 영감을 줄 수 있기를 바랍니다.
텍스트-투-비디오(T2V) 생성은 최근 대규모 멀티모달 모델인 Sora 덕분에 상당한 주목을 받고 있습니다. 그러나 T2V 생성은 여전히 두 가지 중요한 과제에 직면해 있습니다: 1) 정밀한 오픈 소스 고품질 데이터셋의 부족. 이전에 널리 사용되던 비디오 데이터셋들, 예를 들어 WebVid-10M과 Panda-70M은 품질이 낮거나 대부분의 연구 기관에 너무 큰 규모입니다. 따라서 T2V 생성을 위한 정밀한 고품질 텍스트-비디오 쌍을 수집하는 것은 어렵지만 매우 중요합니다. 2) 텍스트 정보를 충분히 활용하지 못함. 최근의 T2V 방법들은 비전 트랜스포머에 초점을 맞추고, 비디오 생성을 위해 간단한 교차 주의 모듈을 사용함으로써 텍스트 프롬프트에서 의미 정보를 철저히 추출하는 데 부족함이 있습니다. 이러한 문제를 해결하기 위해, 우리는 표현력 있는 캡션을 가진 정밀한 고품질 데이터셋인 OpenVid-1M을 소개합니다. 이 오픈 시나리오 데이터셋은 100만 개 이상의 텍스트-비디오 쌍을 포함하여 T2V 생성 연구를 촉진합니다. 더 나아가, 우리는 OpenVid-1M에서 433K개의 1080p 비디오를 선별하여 OpenVidHD-0.4M을 만들어 고화질 비디오 생성을 발전시켰습니다. 또한, 우리는 시각적 토큰에서 구조 정보와 텍스트 토큰에서 의미 정보를 모두 추출할 수 있는 새로운 멀티모달 비디오 확산 트랜스포머(MVDiT)를 제안합니다. 광범위한 실험과 절제 연구를 통해 OpenVid-1M이 이전 데이터셋보다 우수함과 우리의 MVDiT의 효과를 검증했습니다.
대규모 언어 모델(LLM) 추론의 계산적 과제는 여전히 광범위한 배포에 있어 상당한 장애물로 남아 있으며, 특히 프롬프트 길이가 계속 증가함에 따라 더욱 두드러지고 있습니다. 어텐션 계산의 2차 복잡도로 인해, 단일 A100 GPU에서 8B 규모의 LLM이 1백만 토큰의 프롬프트(즉, 프리필링 단계)를 처리하는 데 30분이 소요됩니다. 기존의 프리필링 가속화 방법들은 장문맥 LLM에 적용할 때 허용 가능한 정확도나 효율성을 유지하지 못하는 경우가 많습니다. 이러한 격차를 해결하기 위해, 우리는 장문맥 처리를 위한 프리필링을 가속화하기 위해 설계된 희소 계산 방법인 MInference(Milliontokens Inference)를 소개합니다. 구체적으로, 우리는 장문맥 어텐션 행렬에서 A-모양, 수직 슬래시, 블록 희소성이라는 세 가지 독특한 패턴을 식별하여 GPU에서 효율적인 희소 계산을 수행할 수 있도록 합니다. 우리는 각 어텐션 헤드에 대해 오프라인에서 최적의 패턴을 결정하고, 추론 중에 할당된 패턴을 기반으로 동적으로 희소 인덱스를 구축합니다. 패턴과 희소 인덱스를 통해, 우리는 최적화된 GPU 커널을 통해 효율적인 희소 어텐션 계산을 수행하여 장문맥 LLM의 프리필링 단계에서의 지연 시간을 크게 줄입니다. 우리가 제안한 기술은 사전 학습 설정을 수정하거나 추가적인 미세 조정 없이 기존 LLM에 직접 적용할 수 있습니다. InfiniteBench, RULER, PG-19, Needle In A Haystack와 같은 다양한 다운스트림 작업과 LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K, Qwen2-128K와 같은 모델을 평가함으로써, MInference가 A100에서 프리필링에 대한 추론 지연 시간을 최대 10배까지 효과적으로 줄이면서도 정확도를 유지한다는 것을 입증합니다. 우리의 코드는 https://aka.ms/MInference에서 확인할 수 있습니다.
선호도 정렬(Preference Alignment)은 대규모 언어 모델(LLMs)의 성능을 향상시키는 데 있어 중요한 요소로 자리 잡았지만, 다중모달 대규모 언어 모델(MLLMs)에서의 영향력은 상대적으로 덜 탐구된 상태입니다. 언어 모델과 유사하게, 이미지 이해 작업을 위한 MLLMs도 환각(hallucination)과 같은 문제에 직면합니다. MLLMs에서 환각은 잘못된 사실을 기술하는 것뿐만 아니라 이미지 내용과 일치하지 않는 응답을 생성하는 방식으로도 발생할 수 있습니다. MLLMs를 위한 정렬의 주요 목표 중 하나는 이러한 모델이 이미지 정보와 더욱 긴밀하게 일치하는 응답을 생성하도록 유도하는 것입니다. 최근 여러 연구에서 MLLMs를 위한 선호도 데이터셋을 소개하고, 직접 선호도 최적화(Direct Preference Optimization, DPO) 및 근위 정책 최적화(Proximal Policy Optimization, PPO)와 같은 다양한 정렬 방법을 검토했습니다. 그러나 데이터셋, 기본 모델 유형, 정렬 방법의 차이로 인해 이러한 연구에서 보고된 개선 사항에 가장 크게 기여한 구체적인 요소가 무엇인지는 여전히 명확하지 않습니다. 본 논문에서는 MLLMs의 선호도 정렬의 각 측면을 독립적으로 분석합니다. 먼저 정렬 알고리즘을 오프라인(예: DPO)과 온라인(예: 온라인-DPO) 두 그룹으로 분류하고, 특정 시나리오에서 오프라인과 온라인 방법을 결합하면 모델 성능이 향상될 수 있음을 보여줍니다. 또한, 다양한 공개된 다중모달 선호도 데이터셋을 검토하고, 데이터셋 구성의 세부 사항이 모델 성능에 미치는 영향을 논의합니다. 이러한 통찰을 바탕으로, 추가 주석이나 외부 모델이 필요 없는 새로운 다중모달 선호도 데이터 생성 방법인 편향 기반 환각 샘플링(Bias-Driven Hallucination Sampling, BDHS)을 소개합니다. 이 방법은 다양한 벤치마크에서 기존에 발표된 다중모달 모델 정렬 연구와 경쟁력 있는 성능을 달성할 수 있음을 보여줍니다.
우리는 Magic Insert를 소개합니다. 이는 사용자가 제공한 이미지에서 대상을 드래그 앤 드롭하여 다른 스타일의 대상 이미지에 물리적으로 타당한 방식으로 삽입하면서 대상 이미지의 스타일과 일치시키는 방법입니다. 본 연구는 스타일 인식 드래그 앤 드롭 문제를 공식화하고, 이를 해결하기 위해 두 가지 하위 문제인 스타일 인식 개인화와 스타일화된 이미지에서의 사실적인 객체 삽입을 다루는 방법을 제시합니다. 스타일 인식 개인화를 위해, 우리의 방법은 먼저 사전 학습된 텍스트-이미지 확산 모델을 LoRA와 학습된 텍스트 토큰을 사용하여 대상 이미지에 맞게 미세 조정한 다음, 대상 스타일의 CLIP 표현을 주입합니다. 객체 삽입을 위해, 우리는 부트스트랩 도메인 적응을 사용하여 도메인 특화된 사실적인 객체 삽입 모델을 다양한 예술적 스타일의 도메인에 적응시킵니다. 전반적으로, 이 방법은 인페인팅과 같은 전통적인 접근법을 크게 능가합니다. 마지막으로, 이 분야의 평가와 향후 발전을 촉진하기 위해 SubjectPlop 데이터셋을 제시합니다. 프로젝트 페이지: https://magicinsert.github.io/
플로우 매칭(FM)은 노이즈와 데이터 샘플 간의 변환을 위해 상미분방정식(ODEs)을 통해 확률 경로를 정의하는 일반적인 프레임워크입니다. 최근 연구들은 이러한 플로우 궤적을 직선화하여 더 적은 함수 평가로 고품질 샘플을 생성하려는 시도를 하고 있으며, 주로 반복적 수정 방법이나 최적 수송 솔루션을 통해 이를 달성하고 있습니다. 본 논문에서는 속도 필드에서 자기 일관성을 명시적으로 강제하는 새로운 FM 방법인 일관성 플로우 매칭(Consistency-FM)을 소개합니다. Consistency-FM은 서로 다른 시간에서 시작하여 동일한 종점으로 향하는 직선 플로우를 직접 정의하며, 이들의 속도 값에 제약을 가합니다. 또한, 샘플링 품질과 속도 간의 더 나은 균형을 달성하기 위해 Consistency-FM을 위한 다중 세그먼트 학습 접근 방식을 제안합니다. 예비 실험 결과, 우리의 Consistency-FM은 일관성 모델보다 4.4배 빠르고, 수정된 플로우 모델보다 1.7배 빠르게 수렴하면서 더 나은 생성 품질을 달성함으로써 학습 효율성을 크게 향상시킴을 보여줍니다. 우리의 코드는 https://github.com/YangLing0818/consistency_flow_matching에서 확인할 수 있습니다.
광범위한 코퍼스로 훈련된 대형 언어 모델(LLMs)은 필연적으로 개인 정보 및 저작권이 있는 자료와 같은 민감한 데이터를 보유하게 됩니다. 최근의 지식 언러닝(knowledge unlearning) 기술 발전은 특정 지식을 삭제하기 위해 LLM 파라미터를 업데이트하는 방식을 포함합니다. 그러나 현재의 언러닝 패러다임은 모호한 삭제 경계에 얽매여 있어 종종 지식을 무분별하게 삭제하는 문제가 있습니다. 본 연구에서는 저작권이 있는 콘텐츠와 사용자 프라이버시 도메인을 포함한 KnowUnDo 벤치마크를 소개하여, 언러닝 과정에서 필수적인 지식이 의도치 않게 삭제되는지를 평가합니다. 우리의 연구 결과는 기존 언러닝 방법들이 과도한 삭제 문제를 겪고 있음을 보여줍니다. 이를 해결하기 위해, 우리는 그래디언트 정보를 활용하여 민감한 파라미터를 정확히 타겟팅하고 언러닝하는 간단하면서도 효과적인 방법인 MemFlex를 제안합니다. 실험 결과는 MemFlex가 LLM의 정밀한 지식 언러닝과 일반 지식 보존 모두에서 기존 방법들보다 우수함을 보여줍니다. 코드와 데이터셋은 https://github.com/zjunlp/KnowUnDo에서 공개될 예정입니다.
디퓨전 기반 비디오 생성의 최근 발전은 놀라운 결과를 보여주었지만, 합성 비디오와 실제 비디오 간의 차이는 여전히 충분히 탐구되지 않았습니다. 본 연구에서는 외관, 움직임, 기하학이라는 세 가지 기본 관점에서 이 차이를 조사하며, 실제 비디오와 최신 AI 모델인 Stable Video Diffusion으로 생성된 비디오를 비교합니다. 이를 위해 3D 컨볼루션 네트워크를 사용하여 세 가지 분류기를 학습합니다: 외관을 위한 비전 기반 모델 특징, 움직임을 위한 광학 흐름, 기하학을 위한 단안 깊이 정보를 각각 대상으로 합니다. 각 분류기는 가짜 비디오 탐지에서 질적 및 양적으로 강력한 성능을 보여줍니다. 이는 AI 생성 비디오가 여전히 쉽게 탐지될 수 있으며, 실제와 가짜 비디오 간의 상당한 차이가 지속됨을 나타냅니다. 또한 Grad-CAM을 활용하여 AI 생성 비디오의 외관, 움직임, 기하학에서의 체계적인 실패 지점을 특정합니다. 마지막으로, 외관, 광학 흐름, 깊이 정보를 통합한 Ensemble-of-Experts 모델을 제안하여 가짜 비디오 탐지의 견고성과 일반화 능력을 향상시킵니다. 우리의 모델은 학습 중 Sora 비디오에 노출되지 않았음에도 Sora로 생성된 비디오를 높은 정확도로 탐지할 수 있습니다. 이는 실제와 가짜 비디오 간의 차이가 다양한 비디오 생성 모델에 걸쳐 일반화될 수 있음을 시사합니다. 프로젝트 페이지: https://justin-crchang.github.io/3DCNNDetection.github.io/
대규모 언어 모델(LLM)에 잠재된 가치관과 의견을 밝혀내는 것은 편향을 식별하고 잠재적 피해를 완화하는 데 도움이 될 수 있습니다. 최근에는 LLM에 설문 질문을 제시하고 도덕적, 정치적으로 민감한 주제에 대한 입장을 정량화하는 방식으로 이 문제에 접근했습니다. 그러나 LLM이 생성하는 입장은 프롬프트 방식에 따라 크게 달라질 수 있으며, 특정 입장을 지지하거나 반대하는 데는 다양한 논거가 존재합니다. 본 연구에서는 6개의 LLM이 420가지 프롬프트 변형을 사용하여 정치적 성향 테스트(PCT)의 62개 명제에 대해 생성한 156,000개의 응답 데이터셋을 분석하여 이 문제를 해결하고자 합니다. 우리는 생성된 입장에 대한 대략적인 분석과 해당 입장을 뒷받침하는 일반 텍스트 설명에 대한 세밀한 분석을 수행합니다. 세밀한 분석을 위해, 우리는 응답에서 트로프(trope)를 식별하는 방법을 제안합니다: 트로프는 다양한 프롬프트에서 반복적으로 나타나며 일관된 의미를 가진 구문으로, 특정 LLM이 생성하기 쉬운 텍스트 패턴을 드러냅니다. 우리는 프롬프트에 추가된 인구통계학적 특성이 PCT 결과에 상당한 영향을 미치며, 이는 편향을 반영할 뿐만 아니라 폐쇄형 응답과 개방형 응답을 유도할 때의 테스트 결과 간 차이를 보여줌을 발견했습니다. 또한, 트로프를 통한 일반 텍스트 논리에서의 패턴은 모델과 프롬프트가 다르더라도 유사한 근거가 반복적으로 생성됨을 보여줍니다.
우리는 비디오와 동기화된 고품질 사운드 효과를 자동으로 생성하여 몰입형 오디오-비주얼 경험을 가능하게 하는 Neural Foley를 연구합니다. 다양한 응용 분야가 있음에도 불구하고, 기존 접근 방식들은 고품질과 비디오 정렬(즉, 의미적으로 관련 있고 시간적으로 동기화된) 사운드를 동시에 합성하는 데 한계가 있었습니다. 이러한 한계를 극복하기 위해, 우리는 고품질 오디오 생성을 보장하기 위해 사전 훈련된 텍스트-투-오디오 모델을 활용하는 새로운 프레임워크인 FoleyCrafter를 제안합니다. FoleyCrafter는 의미적 정렬을 위한 semantic adapter와 정확한 오디오-비디오 동기화를 위한 temporal controller라는 두 가지 핵심 구성 요소로 이루어져 있습니다. Semantic adapter는 병렬 크로스-어텐션 레이어를 사용하여 비디오 특징에 기반한 오디오 생성을 조건화함으로써 시각적 콘텐츠와 의미적으로 관련된 현실적인 사운드 효과를 생성합니다. 한편, temporal controller는 온셋 감지기와 타임스탬프 기반 어댑터를 통합하여 정확한 오디오-비디오 정렬을 달성합니다. FoleyCrafter의 주목할 만한 장점 중 하나는 텍스트 프롬프트와의 호환성으로, 사용자의 의도에 따라 제어 가능하고 다양한 비디오-투-오디오 생성을 위해 텍스트 설명을 사용할 수 있습니다. 우리는 FoleyCrafter의 효과를 검증하기 위해 표준 벤치마크에서 광범위한 정량적 및 정성적 실험을 수행했습니다. 모델과 코드는 https://github.com/open-mmlab/FoleyCrafter에서 확인할 수 있습니다.
최근 현미경 기술의 발전으로 세포 생물학 및 생의학 연구 분야에서 테라바이트 단위의 이미지 데이터가 빠르게 생성되고 있습니다. 비전-언어 모델(VLMs)은 대규모 생물학적 이미지 분석을 위한 유망한 솔루션으로, 연구자의 효율성을 높이고 새로운 이미지 바이오마커를 식별하며 가설 생성과 과학적 발견을 가속화할 수 있습니다. 그러나 생물학적 이미지 이해에서 VLMs의 인지 및 인식 능력을 평가하기 위한 표준화되고 다양하며 대규모의 비전-언어 벤치마크가 부족한 실정입니다. 이러한 격차를 해결하기 위해, 우리는 {\mu}-Bench를 소개합니다. 이는 전문가가 선별한 벤치마크로, 다양한 과학 분야(생물학, 병리학), 현미경 방식(전자, 형광, 광학), 규모(세포 내, 세포, 조직), 그리고 정상 및 비정상 상태의 생물체를 아우르는 22개의 생의학 과제를 포함합니다. 우리는 {\mu}-Bench에서 최신 생의학, 병리학 및 일반 VLMs을 평가하고 다음과 같은 결과를 발견했습니다: i) 현재 모델들은 현미경 방식 구분과 같은 기본 과제에서도 모든 범주에서 어려움을 겪습니다; ii) 생의학 데이터에 미세 조정된 현재의 전문가 모델들은 종종 일반 모델들보다 성능이 떨어집니다; iii) 특정 현미경 도메인에서의 미세 조정은 기본 모델에 인코딩된 이전의 생의학 지식을 파괴하는 치명적 망각을 초래할 수 있습니다; iv) 미세 조정된 모델과 사전 학습된 모델 간의 가중치 보간은 망각 문제를 해결하고 생의학 과제 전반에 걸쳐 일반적인 성능을 향상시킬 수 있는 하나의 해결책을 제공합니다. 우리는 {\mu}-Bench를 허가된 라이선스 하에 공개하여 현미경 기반 모델의 연구 및 개발을 가속화하고자 합니다.