번역이 포함된 일일 선별된 AI 연구 논문
놀랄 만한 성능을 보이고 있지만 대형 언어 모델(LLMs)의 개발은 확장 가능한 감독에 중대한 도전을 직면하고 있습니다: 인간 평가가 어려운 작업이나 LLMs가 인간을 능가하는 작업에 대한 효과적인 피드백을 제공하는 것입니다. 비판을 위해 LLMs를 사용하는 데 관심이 커지고 있지만, 현재의 접근 방식은 여전히 인간 주석이나 더 강력한 모델에 의존하고 있어 외부 감독 없이 비판 능력을 향상시키는 문제는 해결되지 않았습니다. 우리는 SCRIT(Self-evolving CRITic)라는 프레임워크를 소개합니다. 이 프레임워크는 비판 능력의 진정한 자가 진화를 가능하게 합니다. 기술적으로 SCRIT은 차별 기반의 자가 비평가를 사용하여 단계별 비평을 위한 참조 솔루션을 사용하여 생성된 합성 데이터로 훈련함으로써 자가 개선됩니다. 또한 비평 품질을 보정 결과를 통해 보장하는 자가 유효성 메커니즘을 사용합니다. 가장 강력한 LLM 중 하나인 Qwen2.5-72B-Instruct로 구현된 SCRIT은 비판-보정 및 오류 식별 벤치마크에서 최대 10.3%의 성능 향상을 달성합니다. 우리의 분석 결과 SCRIT의 성능이 데이터와 모델 크기에 비례하여 양호하며, 대안적 접근 방법을 능가하며, 자가 유효성 구성 요소에서 중요한 이점을 얻는다는 것을 보여줍니다.
검색 증강 생성 (RAG)은 재단 모델에서 사실적으로 부정확한 출력 생성 문제를 해결하기 위한 강력한 전략으로, 쿼리와 관련된 외부 지식을 검색하여 생성 프로세스에 통합함으로써 이를 대응합니다. 그러나 기존의 RAG 접근 방식은 주로 텍스트 정보에 초점을 맞추었으며, 최근의 일부 발전은 이미지를 고려하기 시작했지만, 비디오라는 다중 모달 지식의 풍부한 원천을 대부분 간과했습니다. 비디오는 사건, 과정, 및 문맥적 세부 사항을 다른 모달보다 효과적으로 나타낼 수 있습니다. 최근 연구 몇 가지는 응답 생성 프로세스에 비디오를 통합하는 것을 탐구하지만, 이들은 쿼리에 따라 비디오를 검색하는 것이 아니라 미리 정의된 쿼리와 관련된 비디오를 사용하거나 비디오를 텍스트 설명으로 변환하면서 다중 모달 풍부함을 활용하지 않습니다. 이러한 문제를 해결하기 위해 우리는 VideoRAG라는 혁신적인 프레임워크를 소개합니다. 이 프레임워크는 쿼리와의 관련성을 기반으로 관련 비디오를 동적으로 검색하는 것뿐만 아니라 비디오의 시각적 및 텍스트 정보를 출력 생성에 활용합니다. 더 나아가, 이를 운용화하기 위해 우리의 방법은 최근에 발전한 대규모 비디오 언어 모델 (LVLMs)을 중심으로 전개되었습니다. 이 모델은 비디오 콘텐츠를 직접 처리하여 검색을 위해 나타내고 검색된 비디오를 쿼리와 함께 원활하게 통합할 수 있습니다. 우리는 VideoRAG의 효과를 실험적으로 검증하여, 해당 방법이 관련 기준선보다 우수함을 입증하였습니다.
추론은 복잡한 다단계 문제를 해결하는 데 필수적인 능력으로, 특히 순차적인 단계별 이해가 중요한 시각적 맥락에서는 특히 중요합니다. 기존 접근 방식은 시각적 추론을 평가하기 위한 포괄적인 프레임워크가 부족하며, 단계별 문제 해결을 강조하지 않습니다. 이에 우리는 대규모 언어 모델(LMMs)에서 단계별 시각적 추론을 발전시키기 위한 포괄적인 프레임워크를 제안합니다. 첫째, 다단계 추론 작업을 평가하기 위해 특별히 설계된 시각적 추론 벤치마크를 소개합니다. 이 벤치마크는 총 4천개 이상의 추론 단계를 포함한 복잡한 시각적 지각부터 과학적 추론까지 여덟 가지 다양한 범주의 도전 과제를 제시하여, LLMs의 정확하고 해석 가능한 시각적 추론 능력을 다단계로 견고하게 평가할 수 있습니다. 둘째, 개별 단계의 시각적 추론 품질을 평가하는 새로운 메트릭을 제안합니다. 이 제안된 메트릭은 전통적인 최종 작업 정확도 메트릭보다 추론 성능에 대한 더 깊은 통찰을 제공하며, 정확성과 논리적 일관성을 강조합니다. 셋째, 다단계 커리큘럼 학습 방식을 활용하여 훈련된 새로운 다중 모달 시각적 추론 모델인 LlamaV-o1을 제안합니다. 이 제안된 LlamaV-o1은 다단계 추론을 위해 설계되었으며, 구조화된 훈련 패러다임을 통해 단계별로 학습합니다. 포괄적인 실험 결과는 우리의 LlamaV-o1이 기존 오픈 소스 모델을 능가하며, 폐쇄 소스 프로프리터리 모델에 유리한 성과를 보인다는 것을 보여줍니다. 최근 Llava-CoT와 비교했을 때, 우리의 LlamaV-o1은 여섯 가지 벤치마크에서 평균 점수 67.3을 달성하며 추론 스케일링 시 5배 빠른 속도로 작동합니다. 우리의 벤치마크, 모델 및 코드는 공개적으로 이용 가능합니다.
비구조화된 환경에서 조작이 가능한 일반 로봇 시스템을 개발하는 것은 중요한 도전입니다. Vision-Language Models(VLM)은 고수준의 상식적 추론에서 뛰어나지만, 정밀한 조작 작업에 필요한 섬세한 3D 공간 이해력이 부족합니다. VLM을 로봇 데이터셋에 맞게 세밀하게 조정하여 Vision-Language-Action Models(VLA)를 만드는 것은 잠재적인 해결책이지만, 데이터 수집 비용과 일반화 문제로 인해 어려움을 겪고 있습니다. 이러한 도전에 대응하기 위해, 우리는 VLM의 고수준 추론과 조작에 필요한 저수준 정밀성 사이의 간극을 메우는 새로운 객체 중심 표현을 제안합니다. 우리의 주요 인사이트는 객체의 기능적 affordances에 의해 정의된 객체의 정규 공간이 점과 방향과 같은 상호 작용 원시를 설명하는 구조화되고 의미 있는 방법을 제공한다는 것입니다. 이러한 원시는 VLM의 상식적 추론을 실행 가능한 3D 공간 제약으로 번역하는 다리 역할을 합니다. 이 문맥에서, 우리는 고수준 계획을 위한 원시 재샘플링, 상호 작용 렌더링 및 VLM 확인을 통한 닫힌 이중 루프와 6D 포즈 추적을 통한 저수준 실행을 위한 열린 어휘의 로봇 조작 시스템을 소개합니다. 이 설계는 VLM 세밀 조정 없이도 견고하고 실시간 제어를 보장합니다. 광범위한 실험은 다양한 로봇 조작 작업에 걸쳐 강력한 제로샷 일반화를 보여주며, 이 방법이 대규모 시뮬레이션 데이터 생성을 자동화하는 데 잠재력을 갖고 있음을 강조합니다.
시간적 인식(Temporal Awareness)은 질문이 제기된 타임스탬프를 기반으로 동적으로 추론하는 능력으로, 오프라인과 온라인 비디오 LLMs 간의 주요한 차이점입니다. 오프라인 모델은 완전한 비디오를 활용하여 정적인 사후 분석에 의존하는 반면, 온라인 모델은 비디오 스트림을 점진적으로 처리하고 질문이 제기된 타임스탬프에 기반하여 동적으로 응답을 조정합니다. 그 중요성에도 불구하고, 시간적 인식은 기존의 벤치마크에서 충분히 평가되지 않았습니다. 이러한 공백을 채우기 위해, 우리는 온라인 비디오 이해 능력 벤치마킹을 강조하는 혁신적인 비디오 벤치마크인 OVO-Bench(Online-VideO-Benchmark)를 제시합니다. OVO-Bench는 비디오 LLMs가 특정 타임스탬프에서 발생하는 사건에 대해 추론하고 응답하는 능력을 평가합니다. (1) 과거 추적: 과거 사건을 추적하여 질문에 답합니다. (2) 실시간 이해: 현재 타임스탬프에서 일어나는 사건을 이해하고 응답합니다. (3) 미래적인 응답: 질문에 정확하게 답변하기 위해 충분한 미래 정보가 제공될 때까지 응답을 지연합니다. OVO-Bench는 644개의 고유한 비디오와 약 2,800개의 정확한 타임스탬프를 가진 세심하게 정리된 메타 어노테이션으로 구성된 12가지 작업을 포함합니다. 우리는 자동 생성 파이프라인과 인간의 선별을 결합했습니다. 이러한 고품질 샘플을 통해 우리는 비디오 LLMs를 비디오 타임라인을 따라 체계적으로 쿼리하는 평가 파이프라인을 더 발전시켰습니다. 아홉 가지 비디오 LLMs의 평가 결과는, 전통적인 벤치마크에 대한 발전에도 불구하고 현재 모델들이 온라인 비디오 이해에 어려움을 겪고 있으며, 인간 에이전트와 비교했을 때 상당한 차이를 보여줍니다. 우리는 OVO-Bench가 비디오 LLMs의 발전을 촉진하고 온라인 비디오 추론에 대한 미래 연구를 영감을 주기를 희망합니다. 저희의 벤치마크와 코드는 https://github.com/JoeLeelyf/OVO-Bench에서 확인하실 수 있습니다.
최근 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 발전은 단일 이미지의 세밀한 인식과 여러 이미지에 걸친 일반 이해력을 크게 향상시켰습니다. 그러나 기존 MLLMs는 여전히 복잡한 다중 이미지 시나리오에서 정확한 기반을 확립하는 데 어려움을 겪고 있습니다. 이를 해결하기 위해 먼저 단일 이미지 기반을 다중 이미지 이해력과 통합하는 Chain-of-Thought (CoT) 프레임워크를 탐구합니다. 부분적으로 효과적이지만, 이는 안정성이 부족하며 추상적인 시각 정보를 포착하는 데 어려움이 있습니다. 따라서 여러 이미지에 걸쳐 자유롭고 정확한 기반을 수행할 수 있는 최초의 다중 이미지 기반 모델인 Migician을 소개합니다. 이를 지원하기 위해 기존 데이터셋에서 파생된 여러 다중 이미지 기반 작업을 위한 데이터와 새롭게 생성된 자유형 기반 지시어 따르기 데이터로 이루어진 MGrounding-630k 데이터셋을 제시합니다. 더불어, 다중 이미지 기반 능력을 평가하기 위해 특별히 설계된 포괄적인 벤치마크인 MIG-Bench를 제안합니다. 실험 결과는 우리 모델이 최고의 기존 MLLMs보다 21.61% 우수한 다중 이미지 기반 능력을 달성하며, 훨씬 더 큰 70B 모델을 능가한다는 것을 입증합니다. 우리의 코드, 모델, 데이터셋, 그리고 벤치마크는 완전히 오픈 소스로 제공됩니다.
대형 언어 모델(LLMs)은 최근 몇 년 동안 놀라운 성과를 이루었지만 기본적으로는 훈련 데이터에 의해 제한됩니다. 훈련 데이터를 넘어서 모델을 개선하기 위해 최근 연구들은 LLMs가 자체적인 자가 개선을 위해 합성 데이터를 생성하는 방법을 탐구해 왔습니다. 그러나 자가 개선의 연속적인 단계는 점차적인 수익점에 도달할 수 있습니다. 본 연구에서는 자가 개선을 위한 보완적인 접근 방식을 제안합니다. 여기서는 다중 에이전트 언어 모델의 세부 조정(finetuning)이 적용됩니다. 동일한 기본 모델을 시작으로 하는 일련의 언어 모델 그룹은 각각이 모델 간 다중 에이전트 상호작용을 통해 생성된 데이터를 사용하여 독립적으로 특수화됩니다. 각 모델을 독립적인 데이터 집합에 대해 훈련함으로써, 이 접근 방식이 모델 간 특수화와 모델 집합에 걸쳐 다양성을 유지할 수 있음을 설명합니다. 결과적으로, 우리의 전체 시스템은 다양한 추론 체인을 보존하고 단일 에이전트 자가 개선 방법보다 훨씬 많은 세부 조정 라운드 동안 자율적으로 개선할 수 있습니다. 우리는 이 접근 방식의 효과를 다양한 추론 작업 세트를 통해 양적으로 설명합니다.
구조화된 이미지 이해는 표와 차트를 해석하는 것과 같이 이미지 내의 다양한 구조와 텍스트를 전략적으로 다시 초점을 맞추어 최종 답변에 이르는 추론 순서를 형성하는 능력을 필요로 합니다. 그러나 현재의 다중 모달 대형 언어 모델(Large Language Models, LLMs)은 이러한 다중 점프 선택적 주의 능력을 갖추고 있지 않습니다. 본 논문에서는 ReFocus를 소개합니다. 이는 간단하면서도 효과적인 프레임워크로, 시각적 편집을 통해 입력 이미지를 수정하고 시각적 초점을 이동하고 정제하여 "시각적 생각"을 생성할 수 있는 능력을 다중 모달 LLMs에 제공합니다. 구체적으로 ReFocus는 도구를 호출하고 입력 이미지를 수정하는 Python 코드를 생성하여, 순차적으로 상자를 그리고 섹션을 강조하며 영역을 마스킹하여 시각적 추론 과정을 향상시킵니다. 우리는 표와 차트를 포함하는 다양한 구조화된 이미지 이해 작업에 실험을 진행했습니다. ReFocus는 시각적 편집 없이 GPT-4o에 비해 모든 작업에서 성능을 크게 향상시켰으며, 표 작업에서 평균 11.0%의 향상과 차트 작업에서 6.8%의 향상을 보여주었습니다. 우리는 다양한 시각적 편집의 효과에 대한 심층적인 분석을 제시하고, ReFocus가 성능을 향상시킬 수 있는 이유와 추가 정보를 도입하지 않고도 성능을 향상시킬 수 있는 이유를 설명합니다. 더 나아가, ReFocus를 사용하여 14k 규모의 훈련 세트를 수집하고, 중간 정보를 활용한 시각적 사고 체인이 표준 VQA 데이터보다 더 나은 감독을 제공함을 증명하며, QA 쌍으로 훈련된 동일한 모델 대비 평균 8.0%의 향상과 CoT 대비 2.6%의 향상을 달성했습니다.
비디오 생성에 대한 텍스트는 확산 모델을 통해 현저한 발전을 이루었습니다. 그러나 Multi-Concept Video Customization (MCVC)은 여전히 중요한 도전 과제로 남아 있습니다. 이 작업에서 두 가지 주요 도전 과제를 식별합니다: 1) 신원 분리 문제, 여러 개념을 동시에 처리할 때 기존 사용자 정의 방법을 직접 채택하면 불가피하게 속성을 혼합하는 문제, 그리고 2) 고품질 비디오-개체 쌍의 부족, 이는 다양한 개념을 잘 표현하고 분리하는 이러한 모델을 훈련하는 데 중요합니다. 이러한 도전 과제를 해결하기 위해 우리는 ConceptMaster를 소개합니다. 이는 개인화된 비디오에서 신원 분리의 중요한 문제를 효과적으로 다루면서 사용자 정의된 비디오에서 개념 충실도를 유지하는 혁신적인 프레임워크입니다. 구체적으로, 우리는 독립적인 방식으로 확산 모델에 주입되는 분리된 다중 개념 임베딩을 학습하는 새로운 전략을 소개합니다. 이는 고품질 비디오를 효과적으로 보장하며, 비슷한 시각적 개념에 대해서도 여러 신원을 가진 비디오의 품질을 향상시킵니다. 고품질 MCVC 데이터의 부족을 극복하기 위해 우리는 다양한 개념을 통해 정확한 다중 개념 비디오-개체 데이터를 체계적으로 수집 가능하게 하는 데이터 구축 파이프라인을 신중히 구축합니다. 우리의 모델의 효과를 검증하기 위해 포괄적인 벤치마크가 설계되었습니다. 이는 개념 충실도, 신원 분리 능력, 그리고 여섯 가지 다른 개념 조합 시나리오에 걸쳐 비디오 생성 품질을 검증합니다. 광범위한 실험 결과는 우리의 ConceptMaster가 이 작업에 대한 이전 접근 방식을 크게 능가함을 보여주며, 다중 개념을 횡단하여 개인화되고 의미론적으로 정확한 비디오를 생성하는 길을 열어놓습니다.
비디오 개인화 방법을 사용하면 사람, 애완동물 및 장소와 같은 특정 개념을 포함한 비디오를 합성할 수 있습니다. 그러나 기존 방법은 종종 제한된 도메인에 집중하거나 주제당 최적화에 시간이 많이 소요되거나 단일 주제만 지원하는 경우가 많습니다. 저희는 Video Alchemist를 제안합니다. 이는 전경 객체와 배경 모두에 대한 다중 주제, 오픈셋 개인화 기능이 내장된 비디오 모델로, 테스트 시간 최적화가 필요 없도록 합니다. 저희 모델은 각 조건부 참조 이미지와 해당 주제 수준의 텍스트 프롬프트를 교차 주의층과 융합하는 새로운 확산 트랜스포머 모듈에 기반합니다. 이러한 대규모 모델을 개발하는 데는 데이터셋과 평가라는 두 가지 주요 도전 과제가 있습니다. 먼저, 참조 이미지와 비디오의 짝 데이터셋을 수집하는 것은 매우 어렵기 때문에 대상 비디오의 클립을 합성하기 위해 선택된 비디오 프레임을 샘플링합니다. 그러나 모델은 참조 프레임을 제공하여 훈련 비디오의 잡음을 쉽게 제거할 수 있지만 새로운 맥락으로의 일반화에 실패합니다. 이 문제를 완화하기 위해 우리는 다양한 이미지 증강을 사용하는 새로운 자동 데이터 구축 파이프라인을 설계했습니다. 둘째, 오픈셋 비디오 개인화를 평가하는 것 자체가 도전입니다. 이를 해결하기 위해 정확한 주제 충실도에 중점을 둔 다양한 개인화 시나리오를 지원하는 개인화 벤치마크를 소개합니다. 마지막으로, 저희의 방법이 양적 및 질적 평가 모두에서 기존 개인화 방법을 크게 능가한다는 광범위한 실험 결과를 보여줍니다.
본 연구는 Vision-Large Language Model (VLM/LLM)의 보안 경계를 테스트하기 위한 혁신적인 접근 방식을 시연합니다. JPEG 이미지 내에 포함된 EICAR 테스트 파일을 활용합니다. 우리는 OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro, 그리고 Anthropic Claude 3.5 Sonnet을 포함한 여러 LLM 플랫폼에서 네 가지 다른 프로토콜을 성공적으로 실행했습니다. 실험 결과, EICAR 시그니처가 포함된 수정된 JPEG가 LLM 가상 작업 영역 내에서 업로드, 조작, 그리고 잠재적으로 실행될 수 있음을 검증했습니다. 주요 결과로는 다음이 포함됩니다: 1) 이미지 메타데이터에 EICAR 문자열을 감추는 일관된 능력, 2) Python 기반 조작을 통한 LLM 환경 내 테스트 파일 추출의 성공, 그리고 3) base64 인코딩과 문자열 반전을 포함한 다양한 난독화 기술의 시연. 이 연구는 Microsoft Research의 "침투 테스트 참여 규칙" 프레임워크를 확장하여 클라우드 기반 생성적 AI와 LLM의 보안 경계를 평가하며, 특히 컨테이너화된 환경 내 파일 처리 및 실행 능력에 초점을 맞춥니다.
전통적인 셀룰로이드(Cel) 애니메이션 제작 파이프라인은 스토리보드, 레이아웃 디자인, 키프레임 애니메이션, 인betweening 및 색칠과 같은 여러 필수 단계로 구성되어 있으며, 상당한 수동 노력, 기술 전문 지식 및 상당한 시간 투자가 필요합니다. 이러한 도전은 역사적으로 Cel-Animation 제작의 효율성과 확장 가능성을 방해해 왔습니다. 대규모 언어 모델, 멀티모달 모델 및 확산 모델을 포함하는 생성적 인공지능(GenAI)의 등장은 인between 프레임 생성, 색칠 및 스토리보드 작성과 같은 작업을 자동화함으로써 혁신적인 해결책을 제공합니다. 이 조사는 AniDoc, ToonCrafter 및 AniSora와 같은 도구를 통해 창작자들에게 넓은 범위의 접근성을 제공하고 예술가들이 창의적 표현과 예술적 혁신에 더 많은 시간을 할애할 수 있도록 함으로써 전통적인 애니메이션 워크플로우를 혁신하는 GenAI 통합이 어떻게 이루어지고 있는지 탐구합니다. 잠재력에도 불구하고 시각적 일관성 유지, 스타일 일관성 보장 및 윤리적 고려 사항 해결과 같은 문제가 계속해서 도전을 제기하고 있습니다. 더 나아가, 본 논문은 AI 보조 애니메이션의 미래 방향과 잠재적인 발전을 논의합니다. 추가 탐구 및 자료는 아래 GitHub 저장소를 방문해 주십시오: https://github.com/yunlong10/Awesome-AI4Animation
대규모 언어 모델 (LLM)의 도메인 적응형 사후 훈련은 의학 및 금융과 같은 전문 분야에 대한 유망한 접근 방식으로 등장했습니다. 그러나 다양한 데이터 및 모델 구성에 걸쳐 최적의 적응 기준과 훈련 전략을 식별하는 데 중대한 어려움이 남아 있습니다. 이러한 어려움에 대처하기 위해 금융 분야를 위한 LLM의 도메인 적응형 사후 훈련에 대한 체계적이고 세밀한 조사인 FINDAP을 소개합니다. 저희 방법론은 대상 도메인에 필요한 핵심 능력을 식별하고 이에 부합하는 포괄적인 평가 체계를 설계하는 것으로 시작합니다. 그런 다음, 계속적인 사전 훈련, 지시 조정 및 선호도 조정을 포함한 주요 사후 훈련 단계의 효과를 분석합니다. 이러한 통찰을 기반으로, 우리는 새로운 선호도 데이터 증류 방법에 중점을 둔 효과적인 훈련 레시피를 제안합니다. 이 방법은 생성 보상 모델로부터 프로세스 신호를 활용합니다. 결과적인 모델인 Llama-Fin은 다양한 금융 작업에서 최첨단 성능을 달성합니다. 저희 분석은 또한 각 사후 훈련 단계가 특정 능력에 기여하는 방식을 강조하여 특정 도전과 효과적인 해결책을 발견하고 LLM의 도메인 적응에 대한 소중한 통찰을 제공합니다. 프로젝트 페이지: https://github.com/SalesforceAIResearch/FinDap