번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)의 신속한 발전은 복잡한 추론 작업에서의 현저한 진전을 입증했습니다. 그러나 벤치마크 성능과 실제 응용 프로그램 간에는 상당한 차이가 남아 있습니다. 우리는 현재의 평가 프로토콜과 측정 지표가 LLM 능력의 전체 스펙트럼을 부적절하게 포착하여 주로 이러한 간극에서 비롯된다고 판단합니다. 특히 정확도와 일관성이 모두 중요한 복잡한 추론 작업에서 LLM 능력을 측정하는 데 부족함이 있습니다. 본 연구는 두 가지 주요 기여를 합니다. 첫째, 우리는 G-Pass@k라는 새로운 평가 지표를 소개합니다. 이는 다중 샘플링 시도를 통해 모델 성능을 지속적으로 평가하여 모델의 최대 성능 가능성과 안정성을 양적으로 측정합니다. 둘째, 우리는 데이터 유출 위험을 최소화하기 위해 설계된 도전적이고 현대적인 수학 문제로 구성된 동적 벤치마크인 LiveMathBench를 제시합니다. G-Pass@k를 사용하여 최신 LLM에서 LiveMathBench를 통해 광범위한 실험을 통해 그들의 최대 능력과 운영 일관성에 대한 포괄적인 통찰력을 제공합니다. 우리의 연구 결과는 LLM의 "현실적" 추론 능력에 대한 상당한 향상 여지를 보여주며, 보다 견고한 평가 방법의 필요성을 강조합니다. 벤치마크 및 상세 결과는 다음에서 확인할 수 있습니다: https://github.com/open-compass/GPassK.
대형 언어 모델 (LLM)의 전형적이고 실용적인 응용 중 하나로서, 검색 증강 생성 (RAG) 기술은 특히 LLM이 도메인별 특정 지식이 부족할 수 있는 수직 도메인에서 광범위한 관심을 받았습니다. 본 논문에서는 금융 도메인에서 옴니디렉셔널하고 자동화된 RAG 벤치마크인 OmniEval을 소개합니다. 저희의 벤치마크는 (1) 쿼리를 다섯 가지 작업 클래스와 16가지 금융 주제로 분류하는 행렬 기반 RAG 시나리오 평가 시스템을 포함한 다차원 평가 프레임워크로 특징 지어지며, 이는 다양한 쿼리 시나리오의 체계적인 평가를 이끌어 냅니다; (2) GPT-4 기반 자동 생성과 인간 주석을 결합하여 87.47%의 수용률을 달성한 다차원 평가 데이터 생성 방법을 포함합니다; (3) 검색 및 생성 성능을 모두 평가하는 다단계 평가 시스템을 포함하여 RAG 파이프라인에 대한 포괄적인 평가를 제공합니다; 그리고 (4) 규칙 기반 및 LLM 기반 평가 지표에서 파생된 견고한 평가 메트릭을 포함하여, 수동 주석 및 LLM 평가자의 지도 학습을 통해 신뢰성 있는 평가를 향상시킵니다. 저희의 실험은 OmniEval의 포괄성을 입증하며, 이는 광범위한 테스트 데이터셋을 포함하고 다양한 주제와 작업에 걸쳐 RAG 시스템의 성능 변화를 강조하여, 수직 도메인에서 능력을 향상시킬 수 있는 중요한 기회를 드러냅니다. 저희는 저희 벤치마크의 코드를 https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}에서 오픈 소스로 제공합니다.
대규모 다중 모달 모델(LMMs) 분야의 급속한 발전으로 다양한 능력을 갖춘 다양한 모델이 등장했습니다. 그러나 기존의 평가 기준은 LMMs가 현실 세계 시나리오에서 사람들의 다양한 요구와 일치하는지를 포괄적으로, 객관적으로, 정확하게 평가하지 못합니다. 이 간극을 메우기 위해 우리는 Multi-Dimensional Insights(MDI) 벤치마크를 제안합니다. 이 벤치마크는 인간 생활의 여섯 가지 일반적 시나리오를 다루는 500개 이상의 이미지를 포함합니다. 특히 MDI-벤치마크는 기존 평가에 비해 두 가지 중요한 장점을 제공합니다. 첫째, 각 이미지는 이미지 이해를 평가하는 간단한 질문과 기본 콘텐츠 이상의 분석과 추론 능력을 평가하는 복잡한 질문 두 가지 유형의 질문과 함께 제공됩니다. 둘째, 동일한 시나리오에 직면했을 때 서로 다른 연령대의 사람들이 다양한 요구와 시각을 갖는다는 점을 고려하여 우리의 벤치마크는 질문을 청소년, 중년, 노인 세 가지 연령 그룹으로 분류합니다. 이 설계는 LMMs가 다양한 연령 그룹의 선호도와 요구를 충족하는 능력을 상세히 평가할 수 있도록 합니다. MDI-벤치마크를 통해 GPT-4와 같은 강력한 모델이 연령 관련 작업에서 79%의 정확도를 달성했으며, 기존 LMMs가 현실 세계 응용 프로그램에 대한 개선 여지가 상당히 있다는 것을 보여줍니다. 앞으로 MDI-벤치마크가 LMMs에서 현실 세계 개인화를 조율하는 새로운 길을 열 것으로 기대합니다. MDI-벤치마크 데이터와 평가 코드는 https://mdi-benchmark.github.io/에서 제공됩니다.
Chain-of-thought (CoT) 디코딩은 언어 모델이 추론 성능을 향상시키는 데 도움이 되지만 디코딩에서 생성 지연이 크게 발생하는 비용이 발생합니다. 최근 제안들은 사색 토큰의 변형을 탐구했는데, 이 용어는 추론 중에 추가 계산을 허용하기 위해 사용되는 특수 토큰을 가리킵니다. 이전 연구는 이해 토큰으로 고려된 고정 길이 시퀀스를 고려해왔습니다. 여기서 우리는 Compressed Chain-of-Thought (CCoT)를 제안합니다. 이는 변수 시퀀스 길이의 내용이 풍부하고 연속적인 사색 토큰을 생성하기 위한 프레임워크입니다. 생성된 사색 토큰은 명시적 추론 체인의 압축된 표현이며, 우리의 방법은 기존의 디코더 언어 모델에 적용할 수 있습니다. 실험을 통해 CCoT가 밀집된 내용이 풍부한 표현을 통해 추가적인 추론을 가능하게 하여 정확도 개선을 이루는 방법을 설명합니다. 게다가, 추론 개선은 생성된 사색 토큰의 수를 제어함으로써 요구에 맞게 적응적으로 수정할 수 있습니다.
인간은 복잡한 경험을 빠른 학습과 적응을 가능케 하는 기본적인 추상화로 단순화합니다. 마찬가지로, 자기회귀 트랜스포머는 문맥 내 학습(ICL)을 통해 적응적 학습을 보여주는데, 이는 어떻게 가능한지에 대한 의문을 제기합니다. 본 논문에서는 트랜스포머가 내부 추상화를 형성하고 활용하는 방식을 연구하여 ICL을 설명하기 위해 개념 부호화-복호화 메커니즘을 제안합니다. 합성 ICL 작업에서, 작은 트랜스포머의 훈련 역학을 분석하고 개념 부호화와 복호화의 결합된 발생을 보고합니다. 모델이 서로 다른 잠재적 개념(예: "문장에서 첫 번째 명사 찾기")을 구별 가능한 표현으로 부호화하고 조건적 복호화 알고리즘을 동시에 구축하며 ICL 성능을 향상시키는 것을 관찰합니다. 우리는 다양한 규모의 사전 훈련된 모델(Gemma-2 2B/9B/27B, Llama-3.1 8B/70B)을 통해 이 메커니즘의 존재를 검증합니다. 더 나아가, 메커니즘적 개입과 통제된 세밀 조정을 통해 개념 부호화의 품질이 ICL 성능과 인과적 관련성 및 예측성이 있는 것을 시연합니다. 우리의 경험적 통찰력은 대형 언어 모델의 표현을 통해 이러한 모델의 성공과 실패 모드를 더 잘 이해하는 데 기여합니다.
다중 문서 집합으로부터 정보를 이해하는 것은 특히 시각적으로 풍부한 요소를 가진 문서에 대해 중요하며, 문서 기반 질문 응답을 평가하기 위해 설계된 첫 번째 포괄적인 벤치마크인 VisDoMBench를 소개하는 논문이다. 이 벤치마크는 테이블, 차트, 프레젠테이션 슬라이드를 포함한 풍부한 다중 모달 콘텐츠 환경에서 QA 시스템을 평가하는 것을 목적으로 한다. 우리는 시각적 및 텍스트 RAG를 동시에 활용하는 새로운 다중 모달 검색 증강 생성(RAG) 접근 방식인 VisDoMRAG를 제안한다. VisDoMRAG는 강력한 시각적 검색 능력과 정교한 언어적 추론을 결합한 다중 단계 추론 프로세스를 사용하여, 동시에 텍스트 및 시각적 RAG 파이프라인에 대한 증거 선별 및 사고 체계 추론을 수행한다. VisDoMRAG의 주요 특징 중 하나는 추론 시 일관성 제약 모달리티 퓨전 메커니즘으로, 모달리티 간 추론 프로세스를 조정하여 일관된 최종 답변을 생성한다. 이는 중요 정보가 모달리티 간 분산되어 있는 시나리오에서 향상된 정확도와 암시적 문맥 속성을 통한 답변 검증 기능을 제공한다. 오픈 소스 및 프로프리어터리 대형 언어 모델을 활용한 다양한 실험을 통해, 우리는 VisDoMBench에서 최신 문서 QA 방법을 벤치마킹한다. 광범위한 결과는 VisDoMRAG가 단일 모달 및 장문맥 LLM 베이스라인을 능가하여, 최종 다중 모달 문서 QA에서 12-20%의 성능을 보여준다.
최근의 시각-언어 모델 가속화에 관한 연구는 시각 정보를 매우 압축하더라도 다양한 시각-언어 작업에서 강력한 성능을 유지할 수 있다는 것을 보여줍니다. 본 연구에서는 언어 모델 내 시각 토큰의 초기 가지치기라는 인기 있는 가속화 접근 방식을 조사하고, 이 방식이 다양한 작업에서 강력한 성능을 보이는 것은 시각 정보를 효율적으로 압축하는 능력 때문이 아니라 벤치마크가 세밀한 시각 능력을 평가하는 데 제한이 있는 것 때문임을 발견했습니다. 즉, 이미지 상단의 대부분의 토큰이 제거되는 가속화 접근 방식의 핵심 문제를 보여주었으며, 이 문제는 위치 지정과 같은 일부 작업에서만 성능에 반영됩니다. 다른 평가된 작업에서는 잘못된 가지치기 전략으로도 강력한 성능이 유지됩니다. 연구된 가속화 기술의 시각 능력이 제한되었다는 점을 고려하여, 우리는 FEATHER(Fast and Effective Acceleration wiTH Ensemble cRiteria)라는 간단한 방법을 제안합니다. 이 방법은 (1) 초기 레이어 가지치기에서 발견된 문제를 해결하고, (2) 모든 이미지 영역을 커버하기 위해 균일 샘플링을 통합하며, (3) 가지치기를 두 단계로 적용하여 나중에 기준이 더 효과적으로 작동하도록 하면서도 초기 레이어 가지치기를 통해 상당한 가속을 달성합니다. 비슷한 계산 비용 절감으로, FEATHER는 원래의 가속화 접근 방식과 비교하여 시각 중심의 위치 지정 벤치마크에서 5배 이상의 성능 향상을 보입니다.
널리 적응 가능하고 목표 지향적인 에이전트의 비전, 예를 들어 디지털 세계의 인터넷 탐색 에이전트와 물리적 세계의 가정용 인간형 로봇은, 기초 모델의 일반화 능력 덕분에 신속히 발전해왔습니다. 이러한 일반적인 에이전트는 두 여행 장소 간의 방향을 찾거나 인터넷에서 특정 항목을 구매하는 것과 같은 다양하고 방대한 기술 레퍼토리가 필요합니다. 각 기술이 고정된 인간 주석 지침 세트를 통해 수동으로 지정되어야 한다면, 인간 주석 지침의 양과 다양성으로 인해 에이전트의 기술 레퍼토리는 필연적으로 제한될 것입니다. 본 연구에서는 이러한 도전에 대응하기 위해 Proposer-Agent-Evaluator(제안자-에이전트-평가자)를 제안함으로써, 기초 모델 에이전트가 야생에서 기술을 자율적으로 발견하고 연습할 수 있는 효과적인 학습 시스템을 소개합니다. PAE의 핵심은 환경의 컨텍스트 정보(사용자 데모 또는 인터넷 탐색 에이전트의 웹사이트 이름만 포함)와 함께 에이전트에게 연습할 작업을 자율적으로 제안하는 컨텍스트 인식 작업 제안자입니다. 그런 다음, 에이전트 정책은 실제 세계에서 생각과 실제 기반 작업을 사용하여 해당 작업을 수행하고, 결과 궤적은 자율 VLM 기반 성공 평가자에 의해 평가됩니다. 성공 평가는 RL을 통해 정책을 개선하기 위한 보상 신호로 작용합니다. 우리는 WebVoyager 및 WebArena의 실제 세계 및 자체 호스팅 웹사이트를 사용하여 도전적인 비전 기반 웹 탐색에서 PAE를 검증합니다. 우리의 지식으로는, 본 연구는 SOTA 성능을 보이는 실제 세계 인간 주석 벤치마크를 일반화하는 에이전트를 위해 자율적인 작업 제안과 RL을 적용한 첫 번째 효과적인 학습 시스템을 대표합니다. 저희의 오픈 소스 체크포인트와 코드는 https://yanqval.github.io/PAE/에서 확인할 수 있습니다.
깊이 완성은 희소한 깊이 측정값을 밀도 있는 깊이 맵으로 업그레이드하는 작업을 의미하며, 기존의 방법들은 이 극도로 불연속한 작업에 대해 엄격한 설정에서 작동하며, 훈련 도메인 외의 이미지에 적용하거나 사용 가능한 깊이 측정값이 희소하거나 불규칙하게 분포되거나 밀도가 다양한 경우에 어려움을 겪는 경향이 있습니다. 최근의 단안 깊이 추정 기술의 발전에서 영감을 받아 깊이 완성을 희소한 측정값에 의해 안내되는 이미지 조건부 깊이 맵 생성으로 재구성합니다. 저희의 방법인 Marigold-DC는 단안 깊이 추정을 위한 사전 훈련된 잠재 확산 모델을 기반으로 하며, 깊이 관측값을 테스트 시간 안내로 주입하여 노이즈 제거 확산의 반복 추론과 함께 실행되는 최적화 체계를 통해 작동합니다. 이 방법은 다양한 환경에서 우수한 제로샷 일반화를 보여주며, 극도로 희소한 안내조차도 효과적으로 처리합니다. 저희의 결과는 현대적인 단안 깊이 사전이 깊이 완성을 매우 견고하게 만들어주는 것을 시사합니다: (밀도 있는) 이미지 픽셀로부터 (밀도 있는) 깊이를 복구하는 작업을 희소한 깊이에 의해 안내받는 것으로 보는 것이 더 나을 수 있습니다. 프로젝트 웹사이트: https://MarigoldDepthCompletion.github.io/
실제 소프트웨어 개발에서 부적절하거나 누락된 예외 처리는 코드의 견고성과 신뢰성에 심각한 영향을 미칠 수 있습니다. 예외 처리 메커니즘은 개발자가 고수준 표준에 따라 예외를 감지, 포착 및 관리해야 하지만, 많은 개발자들이 이러한 작업에 어려움을 겪어 취약한 코드를 만들어내곤 합니다. 이 문제는 오픈 소스 프로젝트에서 특히 두드러지며 소프트웨어 생태계 전반에 영향을 미칩니다. 이러한 도전에 대처하기 위해, 우리는 코드 내 예외 처리를 개선하기 위해 대규모 언어 모델(LLMs)의 활용을 탐구합니다. 철저한 분석을 통해 우리는 세 가지 주요 문제를 식별했습니다: 취약한 코드의 민감하지 않은 감지, 예외 블록의 부정확한 포착, 그리고 왜곡된 처리 해결책. 이러한 문제들은 실제 저장소 전반에 널리 퍼져 있으며, 견고한 예외 처리 관행이 종종 간과되거나 잘못 다뤄진다는 것을 시사합니다. 이에 대응하여, 우리는 예외 처리에 대한 전문 개발자 전략에서 영감을 받은 다중 에이전트 프레임워크인 Seeker를 제안합니다. Seeker는 Scanner, Detector, Predator, Ranker 및 Handler라는 에이전트를 사용하여 LLMs가 예외를 보다 효과적으로 감지, 포착 및 해결할 수 있도록 지원합니다. 우리의 연구는 실제 개발 시나리오에서 LLMs를 활용하여 예외 처리 관행을 향상시키는 데 있어 첫 번째 체계적인 연구로, 코드 신뢰성 개선을 위한 미래 개선에 대한 유용한 통찰을 제공합니다.
우리는 주제 중심 비디오 맞춤화를 위한 제로샷 방법인 SUGAR을 제안합니다. 입력 이미지를 받으면, SUGAR은 이미지에 포함된 주제를 바탕으로 사용자 입력 텍스트로 지정된 스타일 및 동작과 같은 임의의 시각적 속성과 일치하도록 비디오를 생성할 수 있습니다. 테스트 시간 미세 조정이 필요하거나 텍스트에 맞게 정렬된 비디오를 생성하지 못하는 이전 방법과는 달리, SUGAR은 테스트 시간에 추가 비용이 필요 없이 우수한 결과를 달성합니다. 제로샷 기능을 가능하게 하기 위해, 주제 중심 맞춤화를 위해 특별히 설계된 합성 데이터셋을 구축하기 위한 확장 가능한 파이프라인을 소개합니다. 이를 통해 250만 개의 이미지-비디오-텍스트 쌍을 생성합니다. 또한, 특별한 주의 디자인, 개선된 훈련 전략 및 정교한 샘플링 알고리즘을 포함한 여러 방법을 제안합니다. 광범위한 실험을 수행했습니다. 이전 방법과 비교하여, SUGAR은 주제 중심 비디오 맞춤화를 위한 신원 보존, 비디오 역동성 및 비디오-텍스트 정렬에서 최첨단 결과를 달성하여 우리가 제안한 방법의 효과를 입증합니다.
최근 AI 기반 비디오 편집 기술은 사용자가 간단한 텍스트 프롬프트를 통해 비디오를 편집할 수 있게 하여 편집 프로세스를 크게 간소화했습니다. 그러나 최근 제로샷 비디오 편집 기술은 주로 전역 또는 단일 객체 편집에 초점을 맞추어 다른 부분에서 의도하지 않은 변경을 일으킬 수 있습니다. 여러 객체에 지역화된 편집이 필요한 경우 기존 방법은 충실하지 못한 편집, 편집 유출 및 적합한 평가 데이터셋 및 메트릭의 부재와 같은 도전에 직면합니다. 이러한 제한을 극복하기 위해 우리는 제로샷 다중 인스턴스 비디오 편집 프레임워크인 MIVE를 제안합니다. MIVE는 특정 객체(예: 사람)에 특화되지 않은 일반적인 마스크 기반 프레임워크입니다. MIVE는 편집 유출을 방지하기 위한 Disentangled Multi-instance Sampling (DMS) 및 정확한 지역화와 충실한 편집을 보장하기 위한 Instance-centric Probability Redistribution (IPR)이라는 두 가지 주요 모듈을 도입합니다. 또한, 다양한 비디오 시나리오를 제공하는 새로운 MIVE 데이터셋을 소개하고, 다중 인스턴스 비디오 편집 작업에서 편집 유출을 평가하기 위한 Cross-Instance Accuracy (CIA) 점수를 도입합니다. 우리의 포괄적인 질적, 양적 및 사용자 연구 평가는 MIVE가 편집 충실성, 정확성 및 유출 방지 측면에서 최근 최첨단 기법을 크게 능가함을 보여주며, 다중 인스턴스 비디오 편집에 대한 새로운 기준을 제시합니다. 프로젝트 페이지는 https://kaist-viclab.github.io/mive-site/에서 확인할 수 있습니다.
대형 언어 모델 (LLMs)은 사전 훈련된 지식(즉, 매개 변수 지식)과 외부 지식(즉, 맥락 지식)을 활용하여 다양한 작업에서 뛰어난 성능을 보여줍니다. 두 종류의 지식을 활용하기 위해 상당한 노력이 기울여졌지만, 모델이 관련 지식이 전혀 없는 상황은 미개척된 채로 남아 있습니다. 이러한 제한은 환각과 같은 문제를 일으켜 신뢰성이 감소하고 고위험 응용에서 잠재적인 위험을 초래할 수 있습니다. 이러한 제한을 해결하기 위해 본 논문은 사용자 요청이 관련 지식 부족으로 충족되지 못하는 경우를 포함하는 작업 범위를 확장합니다. 이를 위해 우리는 Contrastive Decoding with Abstention (CDA)라는 훈련 없이 디코딩하는 방법을 소개합니다. 이 방법은 LLMs에게 관련 지식이 있는 경우 응답을 생성하고 그렇지 않은 경우 삼가게 합니다. CDA는 주어진 쿼리에 대해 각 지식의 관련성을 평가하여 어떤 지식을 우선시해야 하는지 또는 완전히 무시해야 하는지를 적응적으로 결정합니다. 세 개의 질문-응답 데이터셋에서 네 개의 LLMs를 사용한 광범위한 실험 결과는 CDA가 정확한 생성과 삼가를 동시에 효과적으로 수행할 수 있다는 것을 보여줍니다. 이러한 결과는 CDA의 LLMs의 적용 가능성을 확대시키고 신뢰성을 향상시키며 사용자 신뢰를 유지하는 데 기여할 수 있는 잠재력을 강조합니다.