번역이 포함된 일일 선별된 AI 연구 논문
사전 학습 데이터셋은 일반적으로 웹 콘텐츠에서 수집되며, 내재적인 도메인 구분이 없습니다. 예를 들어, Common Crawl과 같이 널리 사용되는 데이터셋은 명시적인 도메인 레이블을 포함하지 않으며, The Pile와 같은 레이블이 지정된 데이터셋을 수동으로 정제하는 것은 노동 집약적입니다. 결과적으로, 사전 학습 성능에 상당한 이점을 제공함에도 불구하고 최적의 사전 학습 데이터 혼합물을 식별하는 것은 여전히 어려운 문제로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 CLustering-based Iterative Data Mixture Bootstrapping (CLIMB)를 제안합니다. 이는 사전 학습 환경에서 데이터 혼합물을 발견, 평가 및 개선하는 자동화된 프레임워크입니다. 구체적으로, CLIMB는 대규모 데이터셋을 의미 공간에 임베딩하고 클러스터링한 후, 더 작은 프록시 모델과 예측기를 사용하여 반복적으로 최적의 혼합물을 탐색합니다. 이 혼합물로 400B 토큰을 지속적으로 학습했을 때, 우리의 1B 모델은 최신 기술인 Llama-3.2-1B를 2.0% 능가했습니다. 또한, 특정 도메인(예: 사회과학)에 최적화하면 무작위 샘플링보다 5%의 성능 향상을 관찰했습니다. 마지막으로, 우리는 연구 플레이그라운드로 20개의 클러스터로 구성된 필터링된 1.2조 토큰 코퍼스인 ClimbLab과, 동일한 토큰 예산 하에서 우수한 성능을 제공하도록 설계된 간결하면서도 강력한 4000억 토큰 데이터셋인 ClimbMix를 소개합니다. 우리는 최종 데이터 혼합물을 분석하여 최적의 데이터 혼합물의 특성을 설명합니다. 우리의 데이터는 https://research.nvidia.com/labs/lpr/climb/에서 확인할 수 있습니다.
확장된 추론 흔적을 생성하는 프론티어 모델들은 의도치 않게 모델 증류를 용이하게 하는 풍부한 토큰 시퀀스를 생성합니다. 이러한 취약성을 인식한 모델 소유자들은 모델 성능을 저해하지 않으면서 증류의 효과를 제한하는 샘플링 전략을 모색할 수 있습니다. 안티-증류 샘플링은 바로 이러한 기능을 제공합니다. 모델의 다음 토큰 확률 분포를 전략적으로 수정함으로써, 안티-증류 샘플링은 추론 흔적을 오염시켜 증류에 훨씬 덜 효과적으로 만들면서도 모델의 실용적 유용성을 보존합니다. 자세한 내용은 https://antidistillation.com을 참조하십시오.
비디오 생성을 위한 다음 프레임(또는 다음 프레임 섹션) 예측 모델을 학습하기 위한 신경망 구조인 FramePack을 제안합니다. FramePack은 입력 프레임을 압축하여 비디오 길이와 상관없이 트랜스포머 컨텍스트 길이를 고정된 수로 만듭니다. 이를 통해 이미지 확산과 유사한 계산 병목 현상을 유지하면서도 많은 수의 프레임을 처리할 수 있습니다. 또한 이로 인해 학습 비디오 배치 크기가 크게 증가하며(배치 크기가 이미지 확산 학습과 비슷해짐), 노출 편향(반복에 따른 오류 누적)을 방지하기 위해 초기 설정된 종료점과 함께 역시간 순서로 프레임을 생성하는 안티 드리프팅 샘플링 방법을 제안합니다. 마지막으로, 기존 비디오 확산 모델을 FramePack으로 미세 조정할 수 있으며, 다음 프레임 예측이 더 균형 잡힌 확산 스케줄러와 덜 극단적인 흐름 이동 시간 단계를 지원함으로써 시각적 품질이 개선될 수 있음을 보여줍니다.
비전-언어 모델(VLMs)은 시각적 이해 능력에서 뛰어나지만, 종종 존재하지 않는 객체, 행동 또는 개념에 대한 설명을 생성하는 시각적 환각(visual hallucination) 문제를 겪습니다. 이는 안전이 중요한 응용 분야에서 상당한 위험을 초래할 수 있습니다. 기존의 환각 완화 방법은 일반적으로 두 가지 패러다임 중 하나를 따릅니다: 텍스트를 시각적 입력과 일치시키기 위해 디코딩 행동을 수정하는 생성 조정(generation adjustment)과, 외부 모델이 출력을 평가하고 수정하는 사후 검증(post-hoc verification)입니다. 생성 조정 방법은 효과적이지만 휴리스틱에 의존하며 수정 메커니즘이 부족한 반면, 사후 검증은 복잡하고 일반적으로 여러 모델을 필요로 하며 출력을 개선하기보다는 거부하는 경향이 있습니다. 본 연구에서는 환각 인지 학습과 실시간 자체 검증을 통합한 통합 프레임워크인 REVERSE를 소개합니다. 130만 개 이상의 반합성 샘플로 구성된 새로운 환각 검증 데이터셋과 새로운 추론 시점 회고적 리샘플링 기술을 활용하여, 우리의 접근 방식은 VLMs이 생성 중에 환각을 감지하고 동적으로 수정할 수 있도록 합니다. 평가 결과, REVERSE는 CHAIR-MSCOCO에서 최대 12%, HaloQuest에서 28%까지 기존 최고의 방법을 능가하는 최첨단 환각 감소 성능을 달성했습니다. 우리의 데이터셋, 모델 및 코드는 https://reverse-vlm.github.io에서 확인할 수 있습니다.
우리는 단순한 시각-언어 학습을 통해 훈련된 이미지 및 비디오 이해를 위한 최첨단 인코더인 Perception Encoder(PE)를 소개합니다. 전통적으로 시각 인코더는 분류, 캡셔닝, 위치 파악과 같은 특정 하위 작업에 맞춰진 다양한 사전 훈련 목표에 의존해 왔습니다. 놀랍게도, 우리가 세심하게 조정한 이미지 사전 훈련 레시피를 확장하고 강력한 비디오 데이터 엔진으로 정제한 후, 대조적 시각-언어 훈련만으로도 이러한 모든 하위 작업에 강력하고 일반적인 임베딩을 생성할 수 있음을 발견했습니다. 단 하나의 주의 사항은 이러한 임베딩이 네트워크의 중간 계층에 숨겨져 있다는 것입니다. 이를 추출하기 위해, 우리는 다중 모달 언어 모델링을 위한 언어 정렬과 밀집 예측을 위한 공간 정렬이라는 두 가지 정렬 방법을 도입했습니다. 핵심 대조적 체크포인트와 함께, 우리의 PE 모델 제품군은 제로샷 이미지 및 비디오 분류 및 검색; 문서, 이미지, 비디오 Q&A; 그리고 탐지, 깊이 추정, 추적과 같은 공간 작업을 포함한 다양한 작업에서 최첨단 성능을 달성했습니다. 더 나아가 연구를 촉진하기 위해, 우리는 모델, 코드, 그리고 합성 및 인간 주석이 달린 비디오의 새로운 데이터셋을 공개하고 있습니다.
세계 시뮬레이션은 가상 환경을 모델링하고 행동의 결과를 예측할 수 있는 능력으로 인해 점점 더 많은 관심을 받고 있습니다. 그러나 제한된 시간적 컨텍스트 윈도우는 장기적인 일관성을 유지하는 데 실패를 초래하는 경우가 많으며, 특히 3D 공간 일관성을 유지하는 데 어려움을 겪습니다. 본 연구에서는 메모리 프레임과 상태(예: 포즈 및 타임스탬프)를 저장하는 메모리 유닛으로 구성된 메모리 뱅크를 통해 장면 생성을 향상시키는 WorldMem 프레임워크를 제안합니다. 메모리 프레임의 상태를 기반으로 관련 정보를 효과적으로 추출하는 메모리 주의 메커니즘을 사용함으로써, 우리의 방법은 상당한 시점 또는 시간적 차이가 있는 경우에도 이전에 관찰된 장면을 정확하게 재구성할 수 있습니다. 또한, 상태에 타임스탬프를 통합함으로써, 우리의 프레임워크는 정적인 세계를 모델링할 뿐만 아니라 시간에 따른 동적인 변화도 포착하여, 시뮬레이션된 세계 내에서의 인지와 상호작용을 가능하게 합니다. 가상 및 실제 시나리오에서의 광범위한 실험을 통해 우리의 접근 방식의 효과성을 검증하였습니다.
대형 언어 모델(LLMs)의 규모가 빠르게 증가함에 따라, 자원이 제한된 하드웨어에서의 효율적인 배포가 중요한 과제로 대두되고 있습니다. 본 논문에서는 LLM의 크기를 30% 줄이면서도 원본 모델과 비트 단위로 동일한 출력을 보장하는 무손실 압축 프레임워크인 Dynamic-Length Float(DFloat11)를 소개합니다. DFloat11은 LLM의 BFloat16 가중치 표현에서 낮은 엔트로피를 관찰하여 기존 저장 형식의 비효율성을 해결하고자 개발되었습니다. 엔트로피 코딩을 적용함으로써, DFloat11은 가중치의 빈도에 따라 동적 길이 인코딩을 할당하여 정밀도 손실 없이 정보 이론적 최적에 가까운 압축을 달성합니다. 동적 길이 인코딩을 사용한 효율적인 추론을 위해, 빠른 온라인 압축 해제를 위한 맞춤형 GPU 커널을 개발했습니다. 우리의 설계는 다음과 같은 요소를 포함합니다: (i) 메모리 집약적인 룩업 테이블(LUTs)을 GPU SRAM에 적합한 컴팩트 LUTs로 분해, (ii) 경량 보조 변수를 사용하여 스레드 읽기/쓰기 위치를 조정하는 2단계 커널, (iii) 지연 시간을 최소화하기 위한 트랜스포머 블록 수준의 압축 해제. Llama-3.1, Qwen-2.5, Gemma-3 등 최신 모델에 대한 실험을 통해 DFloat11이 약 30%의 모델 크기 감소를 달성하면서도 비트 단위로 정확한 출력을 유지한다는 가설을 검증했습니다. 메모리 제약을 충족하기 위해 압축되지 않은 모델의 일부를 CPU로 오프로딩하는 잠재적 대안과 비교했을 때, DFloat11은 토큰 생성에서 1.9-38.8배 높은 처리량을 달성했습니다. 고정된 GPU 메모리 예산 내에서, DFloat11은 압축되지 않은 모델보다 5.3-13.17배 더 긴 컨텍스트 길이를 가능하게 합니다. 특히, 우리의 방법은 810GB 크기의 Llama-3.1-405B 모델을 8x80GB GPU가 장착된 단일 노드에서 무손실 추론할 수 있게 합니다. 우리의 코드와 모델은 https://github.com/LeanModels/DFloat11에서 확인할 수 있습니다.
데이터 합성과 증류는 소규모 언어 모델을 향상시키기 위한 유망한 전략이지만, 현재의 접근 방식은 대규모 언어 모델(LLM)에 크게 의존하고 있습니다. 이러한 대규모 모델은 높은 계산 비용, 환경 비효율성, 그리고 단일 구조에서 상속된 잠재적 편향성 등의 문제를 안고 있습니다. 반면, 소규모 LLM은 접근성이 높고 지속 가능하지만, 개별 모델의 능력만으로는 고품질, 다양성, 신뢰성이 보장된 데이터를 생성하기에는 부족한 경우가 많습니다. 인간의 협업 프로세스(예: 동료 검토)에서 영감을 받아, 우리는 여러 소규모 LLM이 참여하는 GRA 프레임워크를 제안합니다. 이 프레임워크는 단일 대규모 LLM이 달성하는 반복적 개선과 품질 관리를 위해 소규모 LLM 간의 전문적 역할을 통합합니다. 이 협업 프레임워크에서 여러 소규모 LLM은 생성자(Generator), 검토자(Reviewer), 중재자(Adjudicator)라는 구별된 역할을 맡아 동료 검토를 모방한 데이터 합성 파이프라인을 시뮬레이션합니다. 생성자는 초기 데이터 샘플을 제안하고, 검토자는 그 품질과 다양성을 비판하며, 중재자는 충돌을 해결하여 최종 출력을 결정합니다. 합성 프로세스를 전문적인 하위 작업으로 분해함으로써, 협업하는 소규모 LLM은 대규모 LLM 기반 증류와 데이터 수준에서 동등한 성과를 달성할 수 있습니다. 여러 벤치마크를 통한 실험을 통해, 우리는 GRA가 생성한 데이터가 단일 대규모 LLM(예: Qwen-2.5-72B-Instruct)의 출력 품질과 동등하거나 이를 능가함을 입증했습니다. 우리의 결과는 고품질 데이터 합성을 위해 단일 대규모 모델이 필수적이라는 통념에 도전하며, 대신 소규모 에이전트들의 전략적 조정을 주장합니다. 우리의 데이터셋, 모델, 코드는 https://github.com/GX-XinGao/GRA에서 공개되어 있습니다.
차트는 데이터를 분석하고 질문에 답하며 중요한 통찰을 발견하기 위해 사람들이 자주 사용하기 때문에 어디에서나 볼 수 있습니다. 그러나 차트를 사용하여 복잡한 분석 작업을 수행하려면 상당한 지각적 및 인지적 노력이 필요합니다. 차트 질문 응답(Chart Question Answering, CQA) 시스템은 모델이 데이터의 시각적 표현을 해석하고 추론할 수 있도록 함으로써 이 과정을 자동화합니다. 그러나 ChartQA와 같은 기존 벤치마크는 현실 세계의 다양성이 부족하며, 최근에는 현대적인 대형 시각-언어 모델(Large Vision-Language Models, LVLMs)의 성능이 포화 상태에 이르렀습니다. 이러한 한계를 해결하기 위해 우리는 ChartQAPro라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 157개의 다양한 출처에서 수집된 1,341개의 차트를 포함하며, 인포그래픽과 대시보드를 포함한 다양한 차트 유형과 객관식, 대화형, 가설적, 그리고 답변이 불가능한 질문 등 다양한 유형의 1,948개의 질문을 제공하여 현실 세계의 도전을 더 잘 반영합니다. 21개의 모델을 사용한 평가 결과, LVLMs의 성능이 ChartQAPro에서 크게 하락했음을 확인했습니다. 예를 들어, Claude Sonnet 3.5는 ChartQA에서 90.5%의 점수를 기록했지만 ChartQAPro에서는 55.81%에 그쳤으며, 이는 차트 추론의 복잡성을 강조합니다. 우리는 이러한 결과를 보완하기 위해 상세한 오류 분석과 제거 연구를 수행하여 LVLMs의 차트 이해 및 추론 능력을 향상시키기 위한 주요 도전 과제와 기회를 식별했습니다. 우리는 ChartQAPro를 https://github.com/vis-nlp/ChartQAPro에서 공개합니다.
대형 언어 모델(LLMs)을 기반으로 구축된 대형 비디오 모델(LVMs)은 비디오 이해에서 유망한 성과를 보여왔지만, 종종 인간의 직관과의 불일치 및 비디오 환각 문제로 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 비디오 계층적 시공간 직접 선호 최적화를 위한 새로운 프레임워크인 VistaDPO를 소개합니다. VistaDPO는 세 가지 계층적 수준에서 텍스트-비디오 선호도를 향상시킵니다: i) 인스턴스 수준, 전체 비디오 내용과 응답을 정렬; ii) 시간적 수준, 비디오의 시간적 의미와 이벤트 설명을 정렬; iii) 지각적 수준, 공간적 객체와 언어 토큰을 정렬. 세밀한 비디오-언어 선호도 정렬을 위한 데이터셋의 부재를 고려하여, 우리는 7.2K QA 쌍으로 구성된 VistaDPO-7k 데이터셋을 구축했습니다. 이 데이터셋은 선택된 응답과 거부된 응답, 타임스탬프, 키프레임, 바운딩 박스와 같은 시공간적 근거 정보를 포함합니다. 비디오 환각, 비디오 QA, 캡션 성능 작업과 같은 벤치마크에서의 광범위한 실험을 통해 VistaDPO가 기존 LVMs의 성능을 크게 향상시키고, 비디오-언어 불일치와 환각 문제를 효과적으로 완화함을 입증했습니다. 코드와 데이터는 https://github.com/HaroldChen19/VistaDPO에서 확인할 수 있습니다.
텍스트-이미지(T2I) 생성 모델의 성공은 동일한 기본 모델을 다양한 전문 데이터셋에 맞춰 미세 조정한 수많은 모델 체크포인트의 급증을 촉발했습니다. 이러한 압도적인 전문 모델 생산은 높은 매개변수 중복성과 방대한 저장 비용이라는 새로운 도전 과제를 야기하며, 이로 인해 다양한 강력한 모델의 능력을 단일 모델로 통합하고 통일할 수 있는 효과적인 방법의 개발이 필요하게 되었습니다. 모델 병합에서 일반적으로 사용되는 방법은 스타일 혼합을 달성하기 위해 매개변수 공간에서 정적 선형 보간을 채택합니다. 그러나 이 방법은 T2I 생성 작업의 특징, 즉 다양한 스타일을 다루는 수많은 모델이 병합된 모델에서 비호환성과 혼란을 초래할 수 있다는 점을 간과합니다. 이 문제를 해결하기 위해, 우리는 스타일 벡터의 제어 하에서 임의의 스타일 이미지를 정확하게 생성할 수 있는 스타일 프롬프트 가능 이미지 생성 파이프라인을 소개합니다. 이 설계를 기반으로, 우리는 점수 증류 기반 모델 병합 패러다임(DMM)을 제안하여 여러 모델을 단일 다용도 T2I 모델로 압축합니다. 더 나아가, 우리는 T2I 생성의 맥락에서 모델 병합 작업을 재고하고 재구성하여 새로운 병합 목표와 평가 프로토콜을 제시합니다. 우리의 실험은 DMM이 여러 교사 모델의 지식을 간결하게 재구성하고 제어 가능한 임의의 스타일 생성을 달성할 수 있음을 보여줍니다.
최근 강화 학습(Reinforcement Learning, RL)의 발전으로 시각-언어 모델(Vision-Language Models, VLMs)의 추론 능력이 강화되었습니다. 그러나 VLMs에서 테스트 시 계산 자원을 더 효과적으로 확장하기 위한 정책 탐색(policy exploration) 강화는 여전히 충분히 연구되지 않았습니다. 또한, VLMs는 여전히 불완전한 시각 인식(visual perception)으로 인해 어려움을 겪고 있으며, 이는 이후의 추론 과정에도 영향을 미칩니다. 이를 해결하기 위해 우리는 NoisyRollout이라는 간단하지만 효과적인 RL 접근 방식을 제안합니다. 이 방법은 깨끗한 이미지와 적당히 왜곡된 이미지에서 얻은 궤적(trajectories)을 혼합하여 시각 인식과 그에 따른 추론 패턴에 목표적인 다양성을 도입합니다. 추가적인 학습 비용 없이 NoisyRollout은 시각 지향적 귀납적 편향(vision-oriented inductive bias)을 통합함으로써 VLMs의 탐색 능력을 향상시킵니다. 더 나아가, NoisyRollout은 학습 과정에서 왜곡 강도를 점진적으로 감소시키는 노이즈 어닐링 스케줄(noise annealing schedule)을 사용하여 초기 단계에서는 노이즈 신호로부터 이점을 얻으면서도 후기 단계에서는 학습 안정성과 확장성을 유지합니다. 단 2,100개의 학습 샘플만으로 NoisyRollout은 추론 및 인식 작업을 아우르는 5개의 도메인 외 벤치마크(out-of-domain benchmarks)에서 오픈소스 RL 튜닝 모델 중 최첨단 성능을 달성하며, 동시에 도메인 내 성능도 유사하거나 더 우수하게 유지합니다.
비전-언어 모델은 컴퓨터 비전 연구에서 핵심적인 역할을 하지만, 많은 고성능 모델들이 여전히 폐쇄적이며, 그들의 데이터, 설계 및 학습 방법이 공개되지 않고 있습니다. 연구 커뮤니티는 블랙박스 모델로부터의 지식을 추출하여 학습 데이터에 레이블을 부여하는 방식으로 강력한 벤치마크 결과를 달성했지만, 이는 과학적 진보를 측정하기 어렵게 만드는 비용을 치렀습니다. 그러나 교사 모델과 그 데이터 소스의 세부 사항을 알지 못하면 과학적 진보를 측정하기가 여전히 어렵습니다. 본 논문에서는 이미지 및 비디오 이해를 위한 투명한 연구를 위해 완전히 개방적이고 재현 가능한 프레임워크 내에서 Perception Language Model (PLM)을 구축하는 방법을 연구합니다. 우리는 독점 모델로부터의 지식 추출 없이 표준 학습 파이프라인을 분석하고, 대규모 합성 데이터를 탐구하여 특히 세밀한 비디오 이해에서의 중요한 데이터 격차를 식별합니다. 이러한 격차를 해소하기 위해, 우리는 280만 개의 인간이 레이블한 세밀한 비디오 질문-답변 쌍과 시공간적으로 근거가 있는 비디오 캡션을 공개합니다. 또한, 비디오의 "무엇", "어디", "언제", "어떻게"에 대한 추론 능력에 초점을 맞춘 도전적인 비디오 이해 작업을 평가하기 위한 PLM-VideoBench를 소개합니다. 우리는 데이터, 학습 방법, 코드 및 모델을 제공함으로써 우리의 작업이 완전히 재현 가능하도록 합니다.
현재의 학습 기반 주체 맞춤화 접근 방식은 주로 U-Net 아키텍처에 의존하고 있어, 제한된 일반화 능력과 저하된 이미지 품질 문제를 겪고 있습니다. 한편, 최적화 기반 방법은 주체별 미세 조정이 필요하며, 이는 필연적으로 텍스트 제어 가능성을 저하시킵니다. 이러한 문제를 해결하기 위해, 우리는 기반 확산 트랜스포머를 기반으로 한 캐릭터 맞춤화를 위한 확장 가능한 프레임워크인 InstantCharacter를 제안합니다. InstantCharacter는 세 가지 기본적인 장점을 보여줍니다: 첫째, 다양한 캐릭터 외모, 포즈, 스타일을 넘나드는 개방형 도메인 개인화를 달성하면서도 고해상도 결과를 유지합니다. 둘째, 이 프레임워크는 스택된 트랜스포머 인코더로 구성된 확장 가능한 어댑터를 도입하여, 개방형 도메인 캐릭터 특징을 효과적으로 처리하고 현대 확산 트랜스포머의 잠재 공간과 원활하게 상호작용합니다. 셋째, 프레임워크를 효과적으로 학습시키기 위해, 우리는 1천만 수준의 샘플을 포함하는 대규모 캐릭터 데이터셋을 구축했습니다. 이 데이터셋은 짝을 이루는 (다중 시점 캐릭터) 데이터와 짝을 이루지 않는 (텍스트-이미지 조합) 데이터의 하위 집합으로 체계적으로 구성되어 있습니다. 이 이중 데이터 구조는 별도의 학습 경로를 통해 일관성 있는 정체성과 텍스트 편집 가능성을 동시에 최적화할 수 있게 합니다. 정성적 실험은 InstantCharacter가 고해상도, 텍스트 제어 가능, 캐릭터 일관성 있는 이미지를 생성하는 데 있어 뛰어난 능력을 보여주며, 캐릭터 주도 이미지 생성 분야에서 새로운 벤치마크를 제시합니다. 우리의 소스 코드는 https://github.com/Tencent/InstantCharacter에서 확인할 수 있습니다.
테스트 시간 계산 확장(Scaling test-time compute)은 대규모 언어 모델(LLM)이 어려운 문제를 해결할 수 있도록 하는 핵심 요소로 부상했지만, 높은 지연 시간과 추론 비용이 수반됩니다. 우리는 슬립 시간 계산(sleep-time compute)을 도입하여, 모델이 쿼리가 제시되기 전에 컨텍스트에 대해 오프라인으로 "생각"할 수 있도록 합니다: 사용자가 어떤 쿼리를 할지 예측하고 유용한 양을 미리 계산함으로써, 테스트 시간에 필요한 계산 요구량을 크게 줄일 수 있습니다. 우리의 방법의 효용성을 입증하기 위해, 두 가지 추론 작업인 Stateful GSM-Symbolic과 Stateful AIME의 수정 버전을 생성했습니다. 우리는 슬립 시간 계산이 Stateful GSM-Symbolic과 Stateful AIME에서 동일한 정확도를 달성하기 위해 필요한 테스트 시간 계산량을 약 5배 줄일 수 있으며, 슬립 시간 계산을 확장함으로써 Stateful GSM-Symbolic에서 최대 13%, Stateful AIME에서 최대 18%까지 정확도를 더욱 높일 수 있음을 발견했습니다. 또한, 우리는 GSM-Symbolic을 확장하여 컨텍스트당 여러 관련 쿼리를 포함하는 Multi-Query GSM-Symbolic을 소개합니다. Multi-Query GSM-Symbolic을 사용하여 동일한 컨텍스트에 대한 관련 쿼리 간에 슬립 시간 계산을 분산함으로써, 쿼리당 평균 비용을 2.5배 줄일 수 있습니다. 그런 다음, 슬립 시간 계산이 가장 효과적인 시기를 이해하기 위해 추가 분석을 수행하여, 사용자 쿼리의 예측 가능성이 슬립 시간 계산의 효용성과 잘 상관관계가 있음을 발견했습니다. 마지막으로, 우리는 현실적인 에이전트 기반 SWE 작업에 슬립 시간 계산을 적용한 사례 연구를 수행합니다.
대규모 언어 모델(LLMs)은 에이전트로서의 엄청난 잠재력을 보여주며, 다중 단계의 추론과 상호작용이 필요한 작업에서 뛰어난 성능을 발휘합니다. 거부 샘플링 미세 조정(RFT)은 LLMs를 에이전트로 미세 조정하는 효과적인 방법으로 부상했습니다: 이 방법은 먼저 전문가가 생성한 성공적인 궤적을 모방하고, 성공적으로 자체 생성된 궤적에 대한 반복적인 미세 조정을 통해 에이전트의 기술을 더욱 향상시킵니다. 그러나 전문가(예: GPT-4)가 주로 더 간단한 하위 작업에서 성공하고 RFT가 본질적으로 더 간단한 시나리오를 선호하기 때문에, 많은 복잡한 하위 작업은 여전히 해결되지 않고 지속적으로 분포 외(OOD) 상태로 남아 있습니다. 이러한 도전적인 하위 작업을 조사한 결과, 이전에 실패한 전문가 궤적이 종종 가치 있는 지침(예: 계획 및 핵심 행동)을 제공할 수 있으며, 이는 에이전트 탐색 효율성과 핵심 기술 습득을 크게 향상시킬 수 있음을 발견했습니다. 이러한 관찰에 동기를 부여받아, 우리는 실패한 전문가 궤적에서 유익한 행동을 식별하고 이를 훈련 데이터셋에 통합하는 Exploring Expert Failures(EEF)를 제안합니다. 잠재적으로 유해한 행동은 모델 학습 과정을 오염시키지 않도록 신중하게 제외됩니다. 전문가 실패에서 유익한 행동을 활용함으로써, EEF는 이전에 해결할 수 없었던 일부 하위 작업을 성공적으로 해결하고 에이전트 조정 성능을 향상시킵니다. 특히, 우리의 접근 방식은 WebShop에서 62%의 승률을 달성하여 RFT(53.6%)와 GPT-4(35.6%)를 능가했으며, 우리가 아는 한 WebShop에서 0.81점을 넘고 SciWorld에서 81점을 초과하는 최초의 방법으로 새로운 최첨단 기술을 설정했습니다.
계산적 색상 항상성 또는 화이트 밸런싱은 카메라의 이미지 신호 처리기(ISP)에서 장면 조명으로 인한 색조를 보정하는 핵심 모듈입니다. 이 작업은 카메라별 원시 색상 공간에서 이루어지기 때문에, 화이트 밸런스 알고리즘은 다양한 카메라에 적응해야 합니다. 본 논문은 재학습 없이 새로운 카메라에 일반화할 수 있는 교차 카메라 색상 항상성을 위한 학습 기반 방법을 소개합니다. 우리의 방법은 ISP에서 사용 가능한 미리 보정된 색상 보정 행렬(CCM)을 활용하며, 이 행렬은 카메라의 원시 색상 공간을 표준 공간(예: CIE XYZ)으로 매핑합니다. 우리의 방법은 이러한 CCM을 사용하여 미리 정의된 조명 색상(즉, 플랑크 궤적을 따라)을 테스트 카메라의 원시 공간으로 변환합니다. 매핑된 조광은 컴팩트한 카메라 지문 임베딩(CFE)으로 인코딩되어 네트워크가 보지 못한 카메라에 적응할 수 있도록 합니다. 훈련 중 제한된 카메라와 CCM으로 인한 과적합을 방지하기 위해, 우리는 카메라와 그들의 CCM 사이를 보간하는 데이터 증강 기술을 도입했습니다. 여러 데이터셋과 백본에 걸친 실험 결과는 우리의 방법이 경량화된 상태에서 카메라 ISP에서 쉽게 사용 가능한 데이터만을 사용하여 최첨단 교차 카메라 색상 항상성을 달성함을 보여줍니다.
영화 오디오 설명(Audio Description, AD)은 대화가 없는 장면에서 시각적 콘텐츠를 설명하는 것을 목표로 하며, 특히 시각 장애인(BVI) 관객에게 유용합니다. 일반적인 비디오 캡셔닝과 비교할 때, AD는 플롯과 관련된 설명과 명시적인 캐릭터 이름 참조를 요구하며, 이는 영화 이해에 있어 독특한 도전 과제를 제기합니다. 주요 활성 캐릭터를 식별하고 스토리라인과 관련된 영역에 초점을 맞추기 위해, 우리는 캐릭터 중심의 영화 오디오 설명을 제공하는 새로운 프레임워크인 FocusedAD를 제안합니다. 이 프레임워크는 다음과 같은 요소를 포함합니다: (i) 캐릭터 영역을 추적하고 이름과 연결하는 캐릭터 인식 모듈(Character Perception Module, CPM); (ii) 이전 AD와 자막에서 컨텍스트 단서를 학습 가능한 소프트 프롬프트를 통해 주입하는 동적 사전 모듈(Dynamic Prior Module, DPM); (iii) 플롯 관련 세부 사항과 명명된 캐릭터가 포함된 설명을 생성하는 집중 캡션 모듈(Focused Caption Module, FCM). 캐릭터 식별의 한계를 극복하기 위해, 우리는 또한 캐릭터 쿼리 뱅크를 구축하기 위한 자동화된 파이프라인을 소개합니다. FocusedAD는 MAD-eval-Named와 우리가 새롭게 제안한 Cinepile-AD 데이터셋을 포함한 여러 벤치마크에서 최첨단 성능을 달성하며, 강력한 제로샷 결과를 보여줍니다. 코드와 데이터는 https://github.com/Thorin215/FocusedAD에서 공개될 예정입니다.
우리는 다양한 복잡도의 지시문을 통해 지시 기반 이미지 편집 모델을 체계적으로 평가하기 위해 설계된 포괄적인 벤치마크인 Complex-Edit를 소개합니다. 이 벤치마크를 개발하기 위해 GPT-4o를 활용하여 대규모로 다양한 편집 지시문을 자동으로 수집했습니다. 우리의 접근 방식은 잘 구조화된 "Chain-of-Edit" 파이프라인을 따릅니다: 먼저 개별적인 원자적 편집 작업을 독립적으로 생성한 후, 이를 통합하여 일관된 복잡한 지시문을 형성합니다. 또한, 편집 성능의 다양한 측면을 평가하기 위한 메트릭 세트와 대규모 평가를 지원하는 VLM 기반 자동 평가 파이프라인을 도입했습니다. 우리의 벤치마크는 몇 가지 주목할 만한 통찰을 제공합니다: 1) 오픈소스 모델은 독점적인 클로즈드소스 모델에 비해 상당히 낮은 성능을 보이며, 지시문의 복잡성이 증가할수록 성능 격차가 더욱 벌어집니다; 2) 지시문의 복잡성이 증가하면 모델이 입력 이미지의 주요 요소를 유지하고 전반적인 미적 품질을 보존하는 능력이 주로 저하됩니다; 3) 복잡한 지시문을 원자적 단계로 분해하여 단계별로 실행하면 여러 메트릭에서 성능이 크게 저하됩니다; 4) 간단한 Best-of-N 선택 전략은 직접 편집과 단계별 순차적 접근 모두에서 결과를 개선합니다; 5) 우리는 "합성 데이터의 저주"를 관찰했습니다: 모델 훈련에 합성 데이터가 포함되면, 이러한 모델에서 편집된 이미지는 편집 지시문의 복잡성이 증가함에 따라 점점 더 합성적으로 보이는 경향이 있으며, 이 현상은 흥미롭게도 최신 GPT-4o 출력에서도 나타납니다.
대형 언어 모델(LLM) 에이전트는 응답의 사실성을 개선하기 위해 검색 증강 생성(RAG)을 점점 더 많이 활용하고 있습니다. 그러나 실제로 이러한 시스템은 모호한 사용자 질의와 여러 출처에서의 잠재적으로 상충되는 정보를 처리해야 하며, 동시에 노이즈가 많거나 관련 없는 문서에서의 부정확한 정보를 억제해야 하는 경우가 많습니다. 기존 연구는 일반적으로 이러한 문제를 개별적으로 연구하고 해결해 왔으며, 모호성 처리 또는 노이즈와 오정보에 대한 견고성과 같은 한 가지 측면만을 고려했습니다. 우리는 대신 여러 요소를 동시에 고려하여 (i) RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)라는 새로운 데이터셋을 제안합니다. 이 데이터셋은 사용자 질의에 대한 모호성, 오정보, 노이즈를 포함한 복잡하고 현실적인 상충 증거 시나리오를 시뮬레이션합니다. 또한 (ii) MADAM-RAG이라는 다중 에이전트 접근 방식을 제안합니다. 이 접근 방식에서는 LLM 에이전트들이 여러 라운드에 걸쳐 답변의 장점에 대해 토론하며, 집계자가 모호성이 해소된 엔티티에 해당하는 응답을 통합하고 오정보와 노이즈를 제거함으로써 다양한 상충 출처를 함께 처리합니다. 우리는 MADAM-RAG의 효과를 폐쇄형 및 오픈소스 모델을 사용하여 AmbigDocs(모호한 질의에 대해 모든 유효한 답변을 제시해야 하는 데이터셋)와 FaithEval(오정보를 억제해야 하는 데이터셋)에서 입증했습니다. AmbigDocs에서는 강력한 RAG 베이스라인 대비 최대 11.40%의 개선을 보였고, FaithEval에서는 Llama3.3-70B-Instruct를 사용하여 최대 15.80%(절대값)의 개선을 달성했습니다. 또한, RAMDocs는 기존 RAG 베이스라인에 대한 도전 과제로 나타났습니다(Llama3.3-70B-Instruct는 정확도 점수 32.60을 기록). MADAM-RAG은 이러한 상충 요소를 해결하기 시작했지만, 우리의 분석은 특히 지지 증거와 오정보의 불균형 수준을 높일 때 상당한 격차가 남아 있음을 보여줍니다.
텍스트-이미지 모델의 윤리적 배포를 보장하기 위해서는 유해하거나 부적절한 콘텐츠의 생성을 방지할 수 있는 효과적인 기술이 필요합니다. 개념 삭제 방법이 유망한 해결책을 제공하지만, 기존의 미세 조정 기반 접근법은 상당한 한계를 가지고 있습니다. 앵커 없는 방법은 샘플링 궤적을 방해하여 시각적 결함을 유발할 위험이 있고, 앵커 기반 방법은 휴리스틱적으로 선택된 앵커 개념에 의존합니다. 이러한 단점을 극복하기 위해, 우리는 원치 않는 개념을 피하기 위해 자동으로 디노이징 궤적을 안내하는 ANT(Automatically guides deNoising Trajectories)라는 미세 조정 프레임워크를 소개합니다. ANT는 중간부터 후반 디노이징 단계에서 분류자 없는 가이던스의 조건 방향을 반전시키면 초기 단계의 구조적 무결성을 희생하지 않고도 정밀한 콘텐츠 수정이 가능하다는 핵심 통찰에 기반을 두고 있습니다. 이는 휴리스틱적인 앵커 개념 선택에 의존하지 않고도 자연스러운 이미지 매니폴드로 샘플을 이끄는 초기 단계 점수 함수 필드의 무결성을 보존하는 궤적 인식 목적 함수를 고안하게 했습니다. 단일 개념 삭제를 위해, 우리는 원치 않는 개념에 가장 크게 기여하는 중요한 매개변수를 정확히 식별할 수 있는 증강 강화 가중치 중요도 맵을 제안하여 더 철저하고 효율적인 삭제를 가능하게 합니다. 다중 개념 삭제를 위해, 우리의 목적 함수는 성능을 크게 향상시키는 다용도의 플러그 앤 플레이 솔루션을 제공합니다. 광범위한 실험을 통해 ANT가 단일 및 다중 개념 삭제 모두에서 최첨단 결과를 달성하며, 생성 품질을 저하시키지 않고도 고품질의 안전한 출력을 제공함을 입증했습니다. 코드는 https://github.com/lileyang1210/ANT에서 확인할 수 있습니다.
최근 Phi-3.5 및 Phi-4와 같은 소규모 언어 모델은 더 큰 언어 모델을 사용해 생성된 합성 데이터에 의존하고 있습니다. 특정 도메인에 대형 언어 모델(LLM)을 적응시키는 것과 같은 다른 사용 사례에서 합성 데이터를 활용하는 방법에 대한 의문이 남아 있습니다. 합성 데이터의 주요 한계는 다양성이 낮다는 점이며, 이는 다른 모델을 개선하기 위한 하류 적용성에 부정적인 영향을 미칩니다. 이를 해결하기 위해, 우리는 메타 프롬프팅을 통해 다양성을 향상시키는 합성 데이터 생성 방법인 MetaSynth를 제안합니다. 여기서 언어 모델은 여러 "전문가" LLM 에이전트를 조율하여 협력적으로 데이터를 생성합니다. MetaSynth로 생성된 단 2,500만 토큰의 합성 데이터만을 사용하여, 우리는 잘 훈련된 LLM(Mistral-7B-v0.3)을 금융 및 생물의학이라는 두 특수 도메인에 성공적으로 적응시켰으며, 결과 모델의 일반 작업 능력을 저하시키지 않았습니다. 또한, 우리는 7가지 자동화된 지표를 사용해 합성 데이터의 다양성을 평가했으며, 이는 LLM 사전 훈련 코퍼스의 다양성에 근접함을 발견했습니다. MetaSynth를 사용해 Mistral-7B-v0.3을 지속적으로 사전 훈련한 결과, 기본 LLM을 크게 능가하며 금융 분야에서 최대 4.08%, 생물의학 분야에서 13.75%의 개선을 보였습니다. 동일한 모델은 템플릿 프롬프트를 사용해 생성된 데이터로 훈련했을 때 성능이 저하되었으며, 이는 템플릿에 이전 생성물과 실제 데이터의 다양한 In-Context 예시가 포함된 경우에도 마찬가지였습니다. 우리의 연구 결과는 MetaSynth를 사용할 때, 실제 데이터를 혼합하지 않고도 수백만 토큰의 다양한 합성 데이터만으로도 효과적인 도메인 적응이 가능함을 시사합니다.
비전 트랜스포머(ViT) 백본을 사용한 단일 스트림 아키텍처는 최근 실시간 UAV 추적에서 큰 잠재력을 보여주고 있습니다. 그러나 건물이나 나무와 같은 장애물로 인한 빈번한 가림 현상은 이러한 모델들이 효과적으로 가림을 처리할 전략을 갖추지 못했다는 주요 단점을 드러냅니다. 공중 추적에서 단일 스트림 ViT 모델의 가림 내성을 강화하기 위한 새로운 방법이 필요합니다. 본 연구에서는 공간적 콕스 프로세스로 모델링된 랜덤 마스킹 연산에 대해 타겟의 특징 표현이 불변하도록 강제함으로써 UAV 추적을 위한 가림 내성 표현(Occlusion-Robust Representations, ORR)을 학습하는 방법을 제안합니다. 이 랜덤 마스킹은 타겟 가림을 근사적으로 시뮬레이션함으로써 UAV 추적에서 타겟 가림에 강인한 ViT를 학습할 수 있도록 합니다. 이 프레임워크는 ORTrack으로 명명되었습니다. 또한, 실시간 응용을 용이하게 하기 위해, 우리는 작업의 난이도에 따라 교사 모델인 ORTrack의 동작을 적응적으로 모방하는 적응형 특징 기반 지식 증류(Adaptive Feature-Based Knowledge Distillation, AFKD) 방법을 제안하여 더 컴팩트한 추적기를 생성합니다. 이 학생 모델은 ORTrack-D로 명명되었으며, ORTrack의 성능을 대부분 유지하면서 더 높은 효율성을 제공합니다. 여러 벤치마크에서의 광범위한 실험을 통해 우리 방법의 효과성을 검증하고, 최첨단 성능을 입증하였습니다. 코드는 https://github.com/wuyou3474/ORTrack에서 확인할 수 있습니다.