번역이 포함된 일일 선별된 AI 연구 논문
우리는 일반적인 시각 이해와 멀티모달 추론 모두에서 최첨단 성능을 제공하는 두 가지 강력한 비전-언어 모델인 MiMo-VL-7B-SFT와 MiMo-VL-7B-RL을 오픈소스로 공개합니다. MiMo-VL-7B-RL은 평가된 40개 작업 중 35개에서 Qwen2.5-VL-7B를 능가하며, OlympiadBench에서 59.4점을 기록하여 최대 78B 파라미터 규모의 모델들도 뛰어넘었습니다. GUI 기반 응용 프로그램에서는 OSWorld-G에서 56.1점으로 새로운 기준을 세웠으며, UI-TARS와 같은 특화된 모델들까지도 능가했습니다. 우리의 훈련은 2.4조 토큰의 4단계 사전 훈련과 다양한 보상 신호를 통합한 Mixed On-policy Reinforcement Learning(MORL)을 결합합니다. 우리는 사전 훈련 단계에서 고품질 추론 데이터와 긴 Chain-of-Thought를 포함하는 것의 중요성과, 동시 다중 도메인 최적화의 어려움에도 불구하고 혼합 RL의 이점을 확인했습니다. 또한 재현성을 촉진하고 해당 분야를 발전시키기 위해 50개 이상의 작업을 아우르는 포괄적인 평가 스위트를 제공합니다. 모델 체크포인트와 전체 평가 스위트는 https://github.com/XiaomiMiMo/MiMo-VL에서 확인할 수 있습니다.
복잡한 텍스트 작업에서 Deepseek-R1이 보여준 놀라운 추론 능력에 영감을 받아, 많은 연구들이 다중모드 대형 언어 모델(MLLM)에서 유사한 능력을 유도하기 위해 강화 학습(RL)을 직접 적용하려 시도하고 있습니다. 그러나 이러한 접근법들은 여전히 복잡한 추론을 활성화하는 데 어려움을 겪고 있습니다. 본 논문에서는 다중모드 RL을 단독으로 검토하는 대신, 현재의 학습 파이프라인을 깊이 파고들어 세 가지 중요한 현상을 확인했습니다: 1) 효과적인 콜드 스타트 초기화는 MLLM의 추론 능력 향상에 매우 중요합니다. 흥미롭게도, 신중하게 선택된 텍스트 데이터만으로 초기화하는 것만으로도 다중모드 RL 이전 단계에서 최근의 많은 다중모드 추론 모델을 능가하는 성능을 달성할 수 있음을 발견했습니다. 2) 다중모드 RL에 적용된 표준 GRPO는 그래디언트 정체 현상을 겪으며, 이는 학습 안정성과 성능을 저하시킵니다. 3) 다중모드 RL 단계 이후에 이어지는 텍스트 전용 RL 학습은 다중모드 추론 능력을 더욱 향상시킵니다. 이러한 단계적 학습 접근법은 지각적 기반과 인지적 추론 개발을 효과적으로 균형 있게 조율합니다. 위의 통찰을 통합하고 다중모드 RL의 문제점을 해결함으로써, 우리는 ReVisual-R1을 소개하며, MathVerse, MathVision, WeMath, LogicVista, DynaMath 및 도전적인 AIME2024와 AIME2025를 포함한 까다로운 벤치마크에서 오픈소스 7B MLLM 중 새로운 최첨단 성능을 달성했습니다.
구현된 에이전트의 일부로서, 대형 언어 모델(LLMs)은 일반적으로 사용자로부터의 자연어 지시에 따른 행동 계획을 위해 사용된다. 그러나 현실 세계 환경에서 모호한 지시를 처리하는 것은 LLMs에게 여전히 도전 과제로 남아 있다. 작업 모호성 탐지를 위한 다양한 방법들이 제안되어 왔지만, 이들은 서로 다른 데이터셋에서 테스트되며 보편적인 벤치마크가 없기 때문에 비교하기가 어렵다. 이러한 이유로, 우리는 주방 환경에서 로봇에게 주어진 모호한 지시의 완전한 텍스트 데이터셋인 AmbiK(Ambiguous Tasks in Kitchen Environment)를 제안한다. AmbiK는 LLMs의 도움을 받아 수집되었으며 인간 검증을 거쳤다. 이 데이터셋은 모호성 유형(인간 선호도, 상식 지식, 안전)에 따라 분류된 1000쌍의 모호한 작업과 그에 대응하는 명확한 작업으로 구성되며, 환경 설명, 명확화 질문과 답변, 사용자 의도, 작업 계획을 포함하여 총 2000개의 작업을 담고 있다. 우리는 AmbiK가 연구자들이 모호성 탐지 방법을 통일된 방식으로 비교할 수 있도록 해주기를 바란다. AmbiK는 https://github.com/cog-model/AmbiK-dataset에서 이용 가능하다.
추론 모델은 수학, 코드, 과학을 포함한 다양한 벤치마크에서 빠른 발전을 이루어 왔습니다. 그러나 최첨단 모델들이 공개 정보가 거의 없는 독점 데이터셋에 의존하는 경우가 많기 때문에, 추론을 위한 최적의 훈련 방법에 관해서는 여전히 많은 의문점이 남아 있습니다. 이를 해결하기 위해 OpenThoughts 프로젝트는 추론 모델 훈련을 위한 오픈소스 데이터셋을 구축하는 것을 목표로 합니다. 초기 탐색을 거쳐, OpenThoughts2-1M 데이터셋은 AIME 및 LiveCodeBench과 같은 표준 추론 벤치마크에서 DeepSeek-R1-Distill-32B와 동등한 성능을 보이는 최초의 공개 추론 데이터로 훈련된 모델인 OpenThinker2-32B를 탄생시켰습니다. 이후 우리는 1,000개 이상의 통제된 실험을 통해 데이터 생성 파이프라인의 각 단계를 체계적으로 조사하여 데이터셋을 더욱 개선하였고, 이를 통해 OpenThoughts3를 개발했습니다. 이 파이프라인을 120만 개의 예제로 확장하고 QwQ-32B를 교사 모델로 사용하여 OpenThinker3-7B 모델을 개발하였으며, 이 모델은 AIME 2025에서 53%, LiveCodeBench 06/24-01/25에서 51%, GPQA Diamond에서 54%라는 최첨단 성적을 달성했습니다. 우리의 모든 데이터셋과 모델은 https://openthoughts.ai에서 확인할 수 있습니다.
장문 텍스트 생성은 대규모 언어 모델(LLM)에게 여전히 중요한 과제로, 특히 일관성 유지, 논리적 일관성 보장, 그리고 시퀀스 길이가 증가함에 따라 텍스트 품질을 유지하는 데 어려움이 있습니다. 이러한 한계를 해결하기 위해, 우리는 장문 텍스트 생성의 품질과 일관성을 향상시키기 위해 설계된 에이전트 기반 프레임워크인 SuperWriter-Agent를 제안합니다. SuperWriter-Agent는 생성 파이프라인에 명시적인 구조화된 사고 과정을 계획 및 개선 단계로 도입하여, 모델이 전문 작가와 유사한 더 신중하고 인지적으로 근거 있는 프로세스를 따르도록 유도합니다. 이 프레임워크를 기반으로, 우리는 7B 규모의 SuperWriter-LM을 학습시키기 위한 지도 학습 미세 조정 데이터셋을 구축합니다. 또한, 최종 품질 평가를 전파하고 각 생성 단계를 최적화하기 위해 몬테카를로 트리 탐색(MCTS)을 사용하는 계층적 직접 선호 최적화(DPO) 절차를 개발합니다. 다양한 벤치마크에서의 실험 결과는 SuperWriter-LM이 자동 평가와 인간 평가 모두에서 더 큰 규모의 기준 모델을 능가하는 최첨단 성능을 달성함을 보여줍니다. 더불어, 포괄적인 절제 연구는 계층적 DPO의 효과를 입증하고, 구조화된 사고 단계를 통합하는 것이 장문 텍스트 생성의 품질을 향상시키는 데 가치가 있음을 강조합니다.
장문 맥락 언어 모델(LCLM)을 평가하기 위한 기존 프레임워크는 크게 실제 세계 작업과 합성 작업으로 분류할 수 있습니다. 이러한 접근법들은 유용성에도 불구하고 각각 고유한 한계를 가지고 있습니다. 실제 세계 작업은 해석하거나 특성화하기에 너무 복잡하며 데이터 오염에 취약합니다. 반면, 합성 작업은 흔히 건초 더미 속 바늘(NIAH) 형식을 채택하는데, 여기서 "바늘"과 "건초 더미" 간의 일관성 부족이 현실적인 애플리케이션의 대리자로서의 타당성을 훼손합니다. 이러한 문제에 대응하여, 우리는 이상적인 장문 맥락 평가 프레임워크가 세 가지 필수 특성, 즉 원활한 맥락, 제어 가능한 설정, 그리고 건전한 평가를 갖춰야 한다고 주장합니다. 본 연구는 이러한 특성을 반영한 LongBioBench라는 새로운 벤치마크를 소개하며, 이는 인공적으로 생성된 전기를 활용하여 LCLM의 이해, 추론, 신뢰성 차원을 평가하기 위한 통제된 환경을 제공합니다. 총 18개의 LCLM을 대상으로 한 실험적 평가 결과, 대부분의 모델이 검색 결과에 대한 의미론적 이해와 기본적인 추론 능력에서 여전히 부족함을 보였으며, 맥락 길이가 증가함에 따라 신뢰성이 더 낮아지는 것으로 나타났습니다. 추가 분석을 통해, 기존 합성 벤치마크가 채택한 일부 설계 선택(예: 맥락적 비일관성, 수치적 바늘, 방해 요소의 부재 등)이 모델의 장문 맥락 능력을 테스트하는 데 취약성을 드러냄을 확인했습니다. 또한, 장문 맥락 지속 사전 학습이 주로 RoPE 임베딩을 조정하여 확장된 맥락 길이를 수용한다는 점도 밝혀냈습니다. 요약하자면, LongBioBench는 이전의 합성 벤치마크와 비교하여 실제 언어 작업을 반영함과 동시에 제어 가능성을 유지하는 더 나은 균형을 달성했으며, 높은 해석 가능성과 구성 가능성을 갖추고 있습니다.
비디오의 순차적 구조는 다중모드 대형 언어 모델(MLLMs)이 다중 프레임 증거를 찾고 다중모드 추론을 수행하는 능력에 있어 도전 과제로 작용한다. 그러나 기존의 비디오 벤치마크는 주로 이해 과제에 초점을 맞추고 있으며, 이는 모델이 질문에서 언급된 프레임(이하 "질문 프레임")과 몇 개의 인접 프레임을 매칭하고 인지하는 것만을 요구한다. 이러한 격차를 해결하기 위해, 우리는 MMR-V: 비디오에서의 다중모드 심층 추론 벤치마크를 제안한다. 이 벤치마크는 다음과 같은 특징을 가진다. (1) 장거리, 다중 프레임 추론: 모델은 질문 프레임과 멀리 떨어진 증거 프레임을 추론하고 분석해야 한다. (2) 인지를 넘어선 추론: 질문은 직접적인 인지만으로는 답할 수 없으며 숨겨진 정보에 대한 추론이 필요하다. (3) 신뢰성: 모든 과제는 수동으로 주석 처리되었으며, 광범위한 실제 사용자 이해를 참조하여 일반적인 인식과 일치하도록 하였다. (4) 혼란 유도: 모델의 단축 경로를 줄이기 위해 신중하게 설계된 방해 요소 주석 전략을 적용하였다. MMR-V는 317개의 비디오와 1,257개의 과제로 구성된다. 우리의 실험 결과, 현재의 모델들은 여전히 다중모드 추론에 어려움을 겪고 있으며, 가장 성능이 좋은 모델인 o4-mini도 정확도가 52.5%에 불과하다. 또한, 현재의 추론 강화 전략(Chain-of-Thought 및 테스트 시간 계산 확장)은 제한된 성능 향상을 가져온다. 추가 분석에 따르면, 다중모드 추론에 요구되는 CoT는 텍스트 추론에서의 CoT와 다르며, 이는 제한된 성능 향상을 부분적으로 설명한다. 우리는 MMR-V가 다중모드 추론 능력을 향상시키기 위한 추가 연구에 영감을 줄 수 있기를 바란다.
대규모 언어 모델(LLM)의 개발은 신뢰할 수 있는 평가에 의존한다. 그러나 현재 대부분의 평가는 공개 벤치마크를 기반으로 하며, 이는 데이터 오염 문제에 취약하여 공정성을 크게 저해할 수 있다. 기존 연구는 오염 문제를 해결하기 위해 동적 벤치마크 구축에 초점을 맞추어 왔다. 그러나 지속적으로 새로운 벤치마크를 구축하는 것은 비용이 많이 들고 순환적인 문제를 야기한다. 본 연구에서는 오염된 모델 자체의 메커니즘을 분석함으로써 오염 문제를 해결하고자 한다. 실험을 통해 오염된 모델의 과대평가는 훈련 과정에서 매개변수가 단축 해결책(shortcut solution)을 획득하기 때문일 가능성이 높다는 것을 발견했다. 또한, 비교 및 인과 분석을 통해 단축 뉴런(shortcut neuron)을 식별하는 새로운 방법을 제안한다. 이를 바탕으로 단축 뉴런을 억제하기 위한 평가 방법인 단축 뉴런 패칭(shortcut neuron patching)을 소개한다. 실험 결과, 본 접근법이 오염을 완화하는 데 효과적임이 검증되었다. 더불어, 본 평가 결과는 최근 출시된 신뢰할 수 있는 벤치마크인 MixEval과 강한 선형 상관관계를 보이며, 스피어만 계수(rho)가 0.95를 초과한다. 이는 본 방법이 모델의 진정한 능력을 밝히고 신뢰할 수 있음을 나타낸다. 추가 실험을 통해 본 방법이 다양한 벤치마크와 하이퍼파라미터 설정에서 일반화 가능함을 입증한다. 코드: https://github.com/GaryStack/Trustworthy-Evaluation
비디오 게임과 가상 현실과 같은 실제 세계의 응용 프로그램들은 종종 사용자가 정의한 카메라 궤적을 따라 탐색할 수 있는 3D 장면을 모델링할 수 있는 능력을 요구합니다. 텍스트나 이미지로부터 3D 객체를 생성하는 데 있어서는 상당한 진전이 있었지만, 장거리, 3D 일관성, 탐색 가능한 3D 장면을 생성하는 것은 여전히 복잡하고 어려운 문제로 남아 있습니다. 본 연구에서는 사용자 정의 카메라 경로를 통해 단일 이미지로부터 세계 일관적인 3D 포인트 클라우드 시퀀스를 생성하는 새로운 비디오 확산 프레임워크인 Voyager를 제시합니다. 기존 접근 방식과 달리, Voyager는 프레임 간의 내재적 일관성을 통해 엔드투엔드 장면 생성 및 재구성을 달성하며, 3D 재구성 파이프라인(예: 구조적 모션 추정 또는 다중 뷰 스테레오)의 필요성을 제거합니다. 우리의 방법은 세 가지 주요 구성 요소를 통합합니다: 1) 세계 일관적인 비디오 확산: 기존 세계 관찰을 조건으로 하여 정렬된 RGB 및 깊이 비디오 시퀀스를 공동으로 생성하는 통합 아키텍처, 2) 장거리 세계 탐색: 포인트 컬링과 자동 회귀 추론을 통한 효율적인 세계 캐시 및 컨텍스트 인식 일관성을 통한 반복적 장면 확장을 위한 부드러운 비디오 샘플링, 3) 확장 가능한 데이터 엔진: 임의의 비디오에 대해 카메라 포즈 추정 및 메트릭 깊이 예측을 자동화하는 비디오 재구성 파이프라인으로, 수동 3D 주석 없이도 대규모, 다양한 훈련 데이터 큐레이션을 가능하게 합니다. 이러한 설계는 시각적 품질과 기하학적 정확성에서 기존 방법보다 명확한 개선을 가져오며, 다양한 응용 프로그램에 적용 가능합니다.
확산 모델은 텍스트-이미지 생성 분야에서 놀라운 성과를 거두었지만, 지시 기반 이미지 편집에서는 상당한 어려움에 직면하고 있습니다. 우리의 연구는 이러한 모델들이 특히 레이아웃 변경과 같은 구조적으로 불일치하는 편집에서 어려움을 겪는다는 핵심 문제를 강조합니다. 이러한 격차를 해소하기 위해, 우리는 Diffusion Transformer(DiT) 아키텍처를 기반으로 한 통합 이미지 편집 프레임워크인 Image Editing As Programs(IEAP)를 소개합니다. IEAP의 핵심은 복잡한 편집 지시를 원자적 작업의 시퀀스로 분해하는 환원론적 접근을 통해 지시 기반 편집을 수행하는 것입니다. 각 작업은 동일한 DiT 백본을 공유하는 경량 어댑터를 통해 구현되며, 특정 유형의 편집에 특화되어 있습니다. 이러한 작업들은 비전-언어 모델(VLM) 기반 에이전트에 의해 프로그래밍되며, 임의적이고 구조적으로 불일치하는 변환을 협력적으로 지원합니다. 이러한 방식으로 편집을 모듈화하고 순차화함으로써, IEAP는 단순한 조정부터 상당한 구조적 변경에 이르기까지 다양한 편집 작업에 걸쳐 강력하게 일반화됩니다. 광범위한 실험을 통해 IEAP가 다양한 편집 시나리오에서 표준 벤치마크에 대해 최첨단 방법들을 크게 능가함을 입증했습니다. 이러한 평가에서 우리의 프레임워크는 특히 복잡한 다단계 지시에 대해 우수한 정확도와 의미적 충실도를 제공합니다. 코드는 https://github.com/YujiaHu1109/IEAP에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 코드 정확성과 시각적 의미론 모두에 의존하는 다이어그램 및 차트 그리기와 같은 시각화 작업에서 종종 어려움을 겪는다. 기존의 지시 튜닝 데이터셋은 실행 기반 감독이 부족하고 반복적인 코드 수정을 위한 지원이 제한적이어서, 취약하고 신뢰할 수 없는 플롯 생성을 초래한다. 본 연구에서는 Python 기반 시각화 및 자체 수정을 위한 대규모 지시 튜닝 데이터셋인 VisCode-200K를 제안한다. 이 데이터셋은 두 가지 출처에서 얻은 20만 개 이상의 예제를 포함한다: (1) 오픈소스 저장소에서 검증된 플롯팅 코드와 자연어 지시문, 렌더링된 플롯이 짝을 이루는 데이터; (2) Code-Feedback에서 얻은 4만 5천 개의 다중 턴 수정 대화로, 런타임 피드백을 사용하여 오류가 있는 코드를 수정할 수 있도록 한다. 우리는 VisCode-200K를 사용하여 Qwen2.5-Coder-Instruct를 미세 조정하여 VisCoder를 생성하고, 이를 PandasPlotBench에서 평가한다. VisCoder는 강력한 오픈소스 베이스라인을 크게 능가하며 GPT-4o-mini와 같은 사유 모델의 성능에 근접한다. 또한, 반복적 수정을 평가하기 위해 자체 디버그 평가 프로토콜을 채택하여, 실행 가능하고 시각적으로 정확한 코드 생성을 위한 피드백 기반 학습의 이점을 입증한다.
확산 기반 모델은 텍스트나 이미지 입력으로부터 고품질의 고해상도 비디오 시퀀스를 생성할 수 있지만, 프레임 간의 장면 조명과 시각적 외관을 제어할 때 명시적인 기하학적 단서를 통합하지 못한다는 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 IllumiCraft를 제안합니다. 이는 세 가지 상호 보완적인 입력을 받는 종단 간 확산 프레임워크로, (1) 상세한 조명 제어를 위한 고동적 범위(HDR) 비디오 맵, (2) 무작위 조명 변화가 적용된 합성 재조명 프레임(선택적으로 정적 배경 참조 이미지와 함께 제공됨)을 통해 외관 단서를 제공하며, (3) 정확한 3D 기하학 정보를 포착하는 3D 포인트 트랙을 포함합니다. 조명, 외관, 기하학적 단서를 통합된 확산 아키텍처 내에서 통합함으로써, IllumiCraft는 사용자 정의 프롬프트와 일치하는 시간적 일관성을 가진 비디오를 생성합니다. 이는 배경 조건 및 텍스트 조건 비디오 재조명을 지원하며, 기존의 제어 가능한 비디오 생성 방법보다 더 나은 충실도를 제공합니다. 프로젝트 페이지: https://yuanze-lin.me/IllumiCraft_page
Qwen-Math, MiMo, Phi-4와 같은 강력한 대형 언어 모델(LLM)이 사전 학습 단계에서 상속받은 엄청난 추론 잠재력을 가지고 있음을 목격했습니다. 강화 학습(RL)을 통해 이러한 모델들은 추론 작업에서 극적인 성능 향상을 보일 수 있습니다. 최근 연구에 따르면, 단일 문제에 대한 RL만으로도 이러한 모델들의 추론 능력을 발휘할 수 있다고 합니다. 그러나 RL은 비용이 많이 들 뿐만 아니라 불안정하기도 합니다. 심지어 원샷 RL도 수백 GPU 시간이 필요합니다. 이는 중요한 질문을 제기합니다: 이러한 강력한 기본 LLM들의 추론 잠재력을 발휘하는 더 효율적인 방법이 있을까요? 본 연구에서는 단일 문제에 대한 비평 미세 조정(Critique Fine-Tuning, CFT)만으로도 LLM의 추론 잠재력을 효과적으로 발휘할 수 있음을 입증합니다. 우리의 방법은 단일 문제에 대한 다양한 모델 생성 솔루션을 수집하고, 교사 LLM을 사용하여 상세한 비평을 제공함으로써 비평 데이터를 구성합니다. 1.5B에서 14B 파라미터에 이르는 Qwen 및 Llama 계열 모델을 CFT 데이터에 대해 미세 조정하고, 다양한 추론 작업에서 상당한 성능 향상을 관찰했습니다. 예를 들어, 단 5 GPU 시간의 훈련으로 Qwen-Math-7B-CFT는 6개의 수학 벤치마크에서 평균 15%, 3개의 논리 추론 벤치마크에서 16%의 성능 향상을 보였습니다. 이러한 결과는 RL을 사용한 결과와 비슷하거나 더 나은 성능을 보이며, 계산 비용은 20배 적게 듭니다. 다양한 프롬프트 문제에 대한 원샷 CFT의 견고성을 보여주는 절제 연구도 수행했습니다. 이러한 결과는 원샷 CFT가 현대 LLM의 추론 능력을 발휘하는 간단하고 일반적이며 계산 효율적인 접근 방식임을 강조합니다.
우리는 Psi-Sampler를 소개합니다. 이는 pCNL 기반 초기 입자 샘플링을 통합한 SMC 기반 프레임워크로, 스코어 기반 생성 모델과의 추론 시점 보상 정렬을 효과적으로 수행합니다. 스코어 기반 생성 모델과의 추론 시점 보상 정렬은 최근 사전 학습에서 사후 학습 최적화로의 더 넓은 패러다임 전환에 따라 상당한 주목을 받고 있습니다. 이 트렌드의 핵심은 Sequential Monte Carlo(SMC)를 디노이징 프로세스에 적용하는 것입니다. 그러나 기존 방법들은 일반적으로 가우시안 사전 분포에서 입자를 초기화하는데, 이는 보상 관련 영역을 충분히 포착하지 못하고 샘플링 효율성을 감소시킵니다. 우리는 보상을 고려한 사후 분포에서 초기화하는 것이 정렬 성능을 크게 향상시킨다는 것을 보여줍니다. 고차원 잠재 공간에서의 사후 샘플링을 가능하게 하기 위해, 우리는 차원에 강건한 제안 분포와 그래디언트 정보를 활용한 역학을 결합한 전처리된 Crank-Nicolson Langevin(pCNL) 알고리즘을 도입했습니다. 이 접근법은 효율적이고 확장 가능한 사후 샘플링을 가능하게 하며, 레이아웃-투-이미지 생성, 수량 인식 생성, 미적 선호도 생성 등 다양한 보상 정렬 작업에서 일관되게 성능을 개선합니다. 이는 우리의 실험을 통해 입증되었습니다.
대형 언어 모델(LLMs) 및 멀티모달 LLMs는 SVG 처리에 있어 유망한 능력을 보여주고 있지만, 기존 벤치마크는 현실 세계의 제한된 적용 범위, 복잡성 계층화의 부재, 그리고 단편적인 평가 패러다임으로 인해 한계를 보이고 있다. 본 연구에서는 이해, 편집, 생성이라는 세 가지 점진적 차원에 걸쳐 2,377개의 질의를 포함한 포괄적인 벤치마크인 SVGenius를 소개한다. SVGenius는 24개의 응용 분야에서 수집된 현실 세계 데이터를 기반으로 체계적인 복잡성 계층화를 통해 구축되었으며, 8개의 작업 범주와 18개의 지표를 통해 모델을 평가한다. 우리는 다양한 규모, 아키텍처, 훈련 패러다임, 접근성 수준을 아우르는 22개의 주류 모델을 평가하였다. 분석 결과, 독점 모델이 오픈소스 모델을 크게 앞서는 것으로 나타났지만, 모든 모델은 복잡성이 증가함에 따라 체계적인 성능 저하를 보여 현재 접근법의 근본적인 한계를 드러냈다. 그러나 이러한 한계를 극복하기 위해 순수한 규모 확장보다는 추론 강화 훈련이 더 효과적인 것으로 나타났으며, 스타일 전환은 모든 모델 유형에서 가장 어려운 능력으로 남아 있었다. SVGenius는 SVG 처리를 위한 첫 번째 체계적인 평가 프레임워크를 구축함으로써, 더 능력 있는 벡터 그래픽 모델 개발과 자동화된 그래픽 디자인 응용 프로그램의 발전에 중요한 통찰을 제공한다. 부록 및 보조 자료(모든 데이터 및 코드 포함)는 https://zju-real.github.io/SVGenius에서 확인할 수 있다.
우리는 레이어 인식 비디오 생성을 위한 통합 솔루션인 LayerFlow를 소개합니다. LayerFlow는 레이어별 프롬프트가 주어지면 투명한 전경, 깔끔한 배경, 그리고 혼합된 장면에 대한 비디오를 생성합니다. 또한 혼합된 비디오를 분해하거나 주어진 전경에 대한 배경을 생성하는 등 다양한 변형을 지원합니다. 텍스트-투-비디오 확산 트랜스포머를 기반으로, 우리는 서로 다른 레이어의 비디오를 서브 클립으로 구성하고, 레이어 임베딩을 활용하여 각 클립과 해당 레이어별 프롬프트를 구분합니다. 이를 통해 하나의 통합 프레임워크 내에서 앞서 언급한 다양한 변형을 원활하게 지원합니다. 고품질의 레이어별 학습 비디오가 부족한 문제를 해결하기 위해, 우리는 고품질 레이어 주석이 포함된 정적 이미지를 활용할 수 있는 다단계 학습 전략을 설계했습니다. 구체적으로, 먼저 저품질 비디오 데이터로 모델을 학습시킵니다. 그런 다음, 모델이 정적 프레임과 호환되도록 모션 LoRA를 튜닝합니다. 이후, 고품질 레이어 이미지와 복사-붙여넣기된 비디오 데이터를 혼합한 이미지 데이터로 콘텐츠 LoRA를 학습시킵니다. 추론 과정에서는 모션 LoRA를 제거하여 원하는 레이어가 포함된 부드러운 비디오를 생성합니다.
Direct Preference Optimization(DPO)는 최근 텍스트-비디오 확산 모델의 사후 학습 기법으로 적용되고 있다. 학습 데이터를 얻기 위해, 주석자는 독립적인 노이즈로부터 생성된 두 비디오 간의 선호도를 제공하도록 요청받는다. 그러나 이 접근 방식은 세밀한 비교를 방해하며, 저자들은 이 방법이 시각적 결함이 적은 저모션 클립에 대한 주석자의 편향을 유발한다고 지적한다. 본 연구에서는 이러한 단점을 해결하기 위해 DenseDPO라는 방법을 소개하며, 세 가지 기여를 한다. 첫째, DPO를 위한 각 비디오 쌍을 생성할 때, 원본 비디오의 손상된 복사본을 디노이징하여 유사한 모션 구조를 가지면서도 지역적 세부 사항에서 차이가 나는 정렬된 쌍을 만든다. 이를 통해 모션 편향을 효과적으로 중립화한다. 둘째, 결과적으로 얻은 시간적 정렬을 활용하여 전체 클립이 아닌 짧은 세그먼트에 대한 선호도를 라벨링함으로써 더 밀도 높고 정확한 학습 신호를 얻는다. DenseDPO는 라벨링된 데이터의 1/3만 사용하여도 기본 DPO 대비 모션 생성 능력을 크게 향상시키며, 텍스트 정렬, 시각적 품질, 시간적 일관성에서는 동등한 성능을 보인다. 마지막으로, DenseDPO가 오프더셰프 비전 언어 모델(VLM)을 사용한 자동 선호도 주석을 가능하게 함을 보인다: GPT는 작업에 특화된 비디오 보상 모델과 유사하게 세그먼트 수준의 선호도를 정확하게 예측하며, 이러한 라벨로 학습된 DenseDPO는 인간 라벨을 사용한 경우와 근접한 성능을 달성한다.
최근 대형 언어 모델(LLMs)은 수학 및 코딩과 같이 신중한 사고를 요구하는 IQ 관련 영역에서 상당한 진전을 이루었습니다. 그러나 사회적 영역에서 LLMs의 인지 발달을 향상시키는 것, 특히 사후 훈련(post-training) 관점에서의 연구는 아직 미흡한 상태입니다. 사회적 세계는 수학과 달리 독특한 시간적 흐름을 따르며, 직관적 반응(System 1)과 표면적 사고에서부터 신중한 사고(System 2)에 이르기까지 더 풍부한 인지 모드의 조합을 필요로 한다는 점을 인식하여, 우리는 LLMs의 사회적 지능을 향상시키기 위한 시간 인지적 계층적 강화 학습(Temporal-aware Hierarchical Cognitive Reinforcement Learning, TimeHC-RL)을 제안합니다. 실험에서는 다양한 데이터 패턴을 가진 8개의 데이터셋에 대해 5가지 사후 훈련 패러다임과 2가지 테스트 시점 개입 패러다임을 통해 LLMs의 사회적 지능을 체계적으로 탐구하고 TimeHC-RL 방법의 효과를 검증했습니다. 실험 결과는 널리 채택된 System 2 RL 방법과 비교하여 우리가 제안한 TimeHC-RL 방법의 우수성을 보여줍니다. 이 방법은 7B 백본 모델에 날개를 달아 DeepSeek-R1 및 OpenAI-O3와 같은 고급 모델의 성능에 필적할 수 있게 합니다. 또한, 사후 훈련 및 테스트 시점 개입 관점에서 LLMs의 사회적 지능을 향상시키기 위한 체계적인 탐구는 여러 유용한 통찰을 제공했습니다.
효율적인 장문 시퀀스 생성은 대형 언어 모델(Large Language Models)의 중요한 과제입니다. 최근의 희소 디코딩 방법들이 효율성을 개선했지만, KV 캐시 불일치 문제로 인해 근사 오차가 누적되어 생성 품질이 저하되는 단점이 있습니다. 본 연구에서는 블록 희소 어텐션(block-sparse attention)과 주기적 밀집 보정(periodic dense rectification)을 결합한 간단하지만 효과적인 방법인 Rectified Sparse Attention(ReSA)을 제안합니다. ReSA는 고정된 간격으로 밀집 순전파(dense forward pass)를 사용하여 KV 캐시를 갱신함으로써 오차 누적을 제한하고 사전 학습 분포와의 정렬을 유지합니다. 수학적 추론, 언어 모델링, 검색 작업에 걸친 실험 결과, ReSA는 상당한 효율성 개선과 함께 거의 손실 없는 생성 품질을 달성함을 보여줍니다. 특히, ReSA는 256K 길이의 시퀀스 디코딩에서 최대 2.42배의 종단 간 속도 향상을 제공하여 확장 가능한 장문 컨텍스트 추론을 위한 실용적인 솔루션임을 입증했습니다. 코드는 https://aka.ms/ReSA-LM에서 확인할 수 있습니다.
대형 언어 모델(LLM) 에이전트는 게임 산업을 재편하고 있으며, 특히 더 지능적이고 인간 친화적인 게임 캐릭터를 통해 그 영향력을 확대하고 있다. 그러나 기존의 게임 벤치마크는 실질적인 요구를 충족시키지 못하고 있다: 다양한 게임 장르에 걸친 LLM의 능력을 평가하는 데 부족하며, 복잡한 게임 플레이에 필수적인 에이전트 모듈에 대한 연구가 부족하고, 사전 훈련된 LLM을 게임 에이전트로 정렬하기 위한 미세 조정 데이터셋이 부족하다. 이러한 격차를 메우기 위해, 우리는 다양한 실제 비디오 게임에서 LLM 에이전트를 훈련하고 평가하기 위해 설계된 기초 벤치마크인 \benchname{}을 제시한다. 기존 벤치마크와 달리, Orak은 모든 주요 장르를 아우르는 12개의 인기 비디오 게임을 포함하여, 복잡한 게임 시나리오에 필수적인 LLM 능력과 에이전트 모듈에 대한 포괄적인 연구를 가능하게 한다. LLM의 일관된 평가를 지원하기 위해, 우리는 LLM이 게임과 원활하게 연결되고 에이전트 모듈을 조작할 수 있도록 하는 Model Context Protocol (MCP) 기반의 플러그 앤 플레이 인터페이스를 도입한다. 또한, 다양한 게임 장르에 걸친 LLM 게임 플레이 궤적으로 구성된 미세 조정 데이터셋을 제안한다. Orak은 일반 게임 점수 리더보드, LLM 배틀 아레나, 시각적 입력 상태, 에이전트 전략, 미세 조정 효과에 대한 심층 분석을 포함한 포괄적인 평가 프레임워크를 제공하여, 범용 게임 에이전트 구축을 위한 기반을 마련한다. 코드는 https://github.com/krafton-ai/Orak에서 확인할 수 있다.
본 논문에서는 사전 학습된 비디오 생성 모델을 실시간 오디오 기반 캐릭터 애니메이터로 변환하는 효율적인 프레임워크인 TalkingMachines를 소개합니다. TalkingMachines는 오디오 대형 언어 모델(LLM)과 비디오 생성 기반 모델을 통합하여 자연스러운 대화 경험을 가능하게 합니다. 우리의 주요 기여는 다음과 같습니다: (1) 사전 학습된 최첨단 이미지-비디오 DiT를 180억 파라미터의 오디오 기반 아바타 생성 모델로 적응시켰습니다; (2) 양방향 교사 모델로부터 희소 인과적 자기회귀 학생 모델로의 비대칭 지식 증류를 통해 오류 누적 없이 무한 비디오 스트리밍을 가능하게 했습니다; (3) 고처리량, 저지연 추론 파이프라인을 설계하여 다음과 같은 주요 엔지니어링 최적화를 도입했습니다: (a) DiT와 VAE 디코더를 별도의 장치로 분리, (b) CUDA 스트림을 사용한 장치 간 통신과 계산의 효율적 중첩, (c) 프레임 생성 처리량 극대화를 위한 불필요한 재계산 제거. 데모 비디오는 여기에서 확인하실 수 있습니다 - https://aaxwaz.github.io/TalkingMachines/
최근 연구에 따르면, 대형 언어 모델(LLM)이 판단자 역할을 할 때 자기 선호 편향(self-preference bias)을 보이는 것으로 나타났습니다. 이는 모델이 다른 모델이 생성한 응답보다 자신이 생성한 응답을 더 선호하는 경향을 의미합니다. 기존 방법은 일반적으로 판단자 모델이 자신의 응답에 부여한 점수와 다른 모델의 응답에 부여한 점수 간의 차이를 계산하여 이러한 편향을 측정합니다. 그러나 이 접근법은 자기 선호 편향과 응답 품질을 혼동할 수 있습니다. 판단자 모델의 응답 품질이 더 높은 경우 편향이 없더라도 긍정적인 점수 차이가 발생할 수 있기 때문입니다. 이 문제를 해결하기 위해, 우리는 실제 응답 품질을 대표하는 기준 판단(gold judgment)을 도입하고, DBG 점수를 제안합니다. DBG 점수는 판단자 모델이 자신의 응답에 부여한 점수와 해당 기준 판단 간의 차이로 자기 선호 편향을 측정합니다. 기준 판단은 실제 응답 품질을 반영하므로, DBG 점수는 편향 측정에 대한 응답 품질의 혼란 효과를 완화합니다. DBG 점수를 사용하여, 우리는 다양한 버전, 크기, 추론 능력을 가진 LLM 간의 자기 선호 편향을 평가하기 위한 포괄적인 실험을 수행했습니다. 또한, 우리는 자기 선호 편향에 영향을 미치고 완화하는 두 가지 요인인 응답 텍스트 스타일과 판단자 모델의 사후 학습 데이터를 조사했습니다. 마지막으로, 우리는 주의 기반 관점에서 자기 선호 편향의 잠재적 근본 메커니즘을 탐구합니다. 우리의 코드와 데이터는 https://github.com/zhiyuanc2001/self-preference에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 계속 발전함에 따라 최신 정보를 반영하고 잘 정리된 벤치마크의 필요성이 점점 더 중요해지고 있다. 그러나 기존의 많은 데이터셋은 흩어져 있고 관리하기 어려우며, 수학이나 코드와 같은 분야에서 도메인 특화 모델의 중요성이 증가하고 있음에도 불구하고 특정 요구사항이나 도메인에 맞춘 평가를 수행하기 어렵게 만든다. 본 논문에서는 연구자와 개발자가 LLM을 보다 효과적으로 평가할 수 있도록 지원하는 동적 벤치마크 저장소인 BenchHub를 소개한다. BenchHub는 다양한 도메인의 벤치마크 데이터셋을 통합하고 자동으로 분류하며, 38개의 벤치마크에 걸쳐 303K개의 질문을 포함한다. 이는 지속적인 업데이트와 확장 가능한 데이터 관리를 지원하도록 설계되어 다양한 도메인이나 사용 사례에 맞춘 유연하고 맞춤화된 평가를 가능하게 한다. 다양한 LLM 패밀리를 대상으로 한 광범위한 실험을 통해 모델 성능이 도메인 특화 하위 집단 간에 상당히 다르다는 것을 입증하며, 도메인 인식 벤치마킹의 중요성을 강조한다. 우리는 BenchHub가 더 나은 데이터셋 재사용, 더 투명한 모델 비교, 기존 벤치마크에서 소외된 영역의 쉬운 식별을 촉진할 수 있으며, LLM 평가 연구를 발전시키는 데 중요한 인프라를 제공할 것으로 믿는다.
최근 생성형 인공지능의 발전은 스타일 캡션 텍스트-음성 합성(CapTTS) 분야에 상당한 변화를 가져왔다. 그러나 CapTTS를 실제 응용 분야에 적용하는 것은 표준화된 포괄적인 데이터셋의 부족과 CapTTS를 기반으로 한 다운스트림 작업에 대한 연구가 제한적이라는 점에서 여전히 어려운 과제로 남아 있다. 이러한 격차를 해소하기 위해, 우리는 CapSpeech라는 새로운 벤치마크를 소개한다. CapSpeech는 사운드 이벤트가 포함된 스타일 캡션 텍스트-음성 합성(CapTTS-SE), 액센트 캡션 TTS(AccCapTTS), 감정 캡션 TTS(EmoCapTTS), 그리고 채팅 에이전트를 위한 텍스트-음성 합성(AgentTTS) 등 일련의 CapTTS 관련 작업을 위해 설계되었다. CapSpeech는 1천만 개 이상의 기계 주석 오디오-캡션 쌍과 약 36만 개의 인간 주석 오디오-캡션 쌍으로 구성되어 있다. 또한, 우리는 AgentTTS 및 CapTTS-SE 작업을 위해 전문 성우와 경험 많은 오디오 엔지니어가 수집 및 녹음한 두 가지 새로운 데이터셋을 소개한다. 데이터셋과 함께, 우리는 CapSpeech에서 자기회귀 모델과 비자기회귀 모델을 사용한 포괄적인 실험을 수행한다. 우리의 결과는 다양한 말하기 스타일에서 고충실도와 높은 명료성을 보여준다. 우리가 아는 한, CapSpeech는 CapTTS 관련 작업을 위한 포괄적인 주석을 제공하는 가장 큰 데이터셋이다. 실험과 연구 결과는 CapTTS 시스템 개발의 과제에 대한 귀중한 통찰력을 제공한다.
디퓨전 모델은 최근 객체 제거와 같은 다양한 생성 작업에서 큰 성공을 거두었습니다. 그러나 기존의 이미지 분해 방법들은 마스크 사전 의존성, 정적 객체 가정, 그리고 데이터셋 부족으로 인해 반투명 또는 투명 레이어 오클루전을 분리하는 데 어려움을 겪고 있습니다. 본 논문에서는 새로운 과제인 '알파 합성 이미지의 계층별 분해'를 탐구하며, 단일 중첩 이미지에서 반투명/투명 알파 레이어의 비선형 오클루전 조건 하에 구성 레이어를 복원하는 것을 목표로 합니다. 레이어 모호성, 일반화, 데이터 부족과 같은 문제를 해결하기 위해, 우리는 먼저 투명 및 반투명 레이어 분해를 위한 첫 번째 대규모 고품질 데이터셋인 AlphaBlend를 소개합니다. 이 데이터셋은 반사광 제거, 반투명 세포 분해, 유리 제품 분해 등 6가지 실제 작업을 지원합니다. 이 데이터셋을 기반으로, 우리는 디퓨전 트랜스포머 기반 프레임워크인 DiffDecompose를 제안합니다. 이 프레임워크는 입력 이미지, 의미적 프롬프트, 블렌딩 유형에 조건부로 가능한 레이어 분해의 사후 분포를 학습합니다. DiffDecompose는 알파 매트를 직접 회귀하는 대신, 컨텍스트 내 분해를 수행하여 레이어별 감독 없이 하나 이상의 레이어를 예측할 수 있도록 하며, 레이어 간 픽셀 수준의 대응을 유지하기 위해 레이어 위치 인코딩 복제를 도입합니다. 제안된 AlphaBlend 데이터셋과 공개 LOGO 데이터셋에서의 광범위한 실험을 통해 DiffDecompose의 효과를 검증합니다. 코드와 데이터셋은 논문 수락 시 공개될 예정입니다. 우리의 코드는 https://github.com/Wangzt1121/DiffDecompose에서 확인할 수 있습니다.
추론적 디코딩은 작은 드래프트 모델을 사용하여 다중 토큰을 예측하고, 대형 타겟 모델을 통해 이러한 토큰을 병렬로 검증함으로써 대형 언어 모델(LLM)의 추론 속도를 가속화합니다. 최근 연구에서는 타겟 모델의 은닉 상태를 활용하여 드래프트 모델의 예측 정확도를 향상시키고 있습니다. 그러나 기존 방법들은 드래프트 모델에서 생성된 특징의 오류 누적으로 인해 후반 위치에서 드래프트 토큰 예측의 품질이 저하되는 문제를 겪고 있습니다. 본 논문에서는 특정 위치(들)에서 토큰을 생성하기 위해 다중 위치 전문화 드래프트 레이어로 구성된 위치 전문가(Position Specialists, PosS)를 제안합니다. 위치 전문가는 각 전문가가 특정 수준의 드래프트 모델 특징 편차만 처리하면 되기 때문에, 드래프팅 라운드에서 후반 위치의 토큰 수용률을 크게 향상시킵니다. Llama-3-8B-Instruct와 Llama-2-13B-chat 모델을 사용한 6개 데이터셋에 대한 실험 결과는 PosS가 평균 수용 길이와 속도 향상 비율에서 기준선을 효과적으로 개선함을 보여줍니다. 우리의 코드베이스는 https://github.com/shrango/PosS에서 확인할 수 있습니다.
최근 Chain-of-Thought(CoT) 추론의 발전은 복잡한 비디오 이해를 개선했지만, 기존 방법들은 다양한 비디오 콘텐츠에 걸쳐 도메인 특화 기술(예: 이벤트 탐지, 공간 관계 이해, 감정 이해)에 적응하는 데 어려움을 겪는 경우가 많습니다. 이를 해결하기 위해, 우리는 도메인 적응형 비디오 추론을 위해 기술 인식 CoT 감독을 자동으로 구성하고 활용하는 Video-Skill-CoT(일명 Video-SKoT) 프레임워크를 제안합니다. 먼저, 우리는 기술 기반 CoT 주석을 구성합니다: 훈련 질문에서 도메인 관련 추론 기술을 추출하고, 이를 공유 기술 분류 체계로 클러스터링하며, 각 비디오-질문 쌍에 맞춘 다단계 CoT 근거를 상세히 작성하여 훈련에 사용합니다. 둘째, 우리는 기술 특화 전문가 학습 프레임워크를 도입합니다. 각 전문가 모듈은 추론 기술의 하위 집합에 특화되어 있으며, 수집된 CoT 감독을 사용하여 경량 어댑터로 훈련됩니다. 우리는 제안된 접근법의 효과를 세 가지 비디오 이해 벤치마크에서 입증하며, Video-SKoT가 강력한 베이스라인을 지속적으로 능가함을 보여줍니다. 또한, 여러 비디오 도메인에 걸쳐 다양한 CoT 주석 파이프라인과 학습된 기술을 비교하는 심층 분석을 제공합니다.
적대적 입력 공격은 CLIP 임베딩의 상당한 변화를 초래할 수 있습니다. 이는 텍스트-이미지 생성 모델이나 대규모 시각-언어 모델과 같이 파이프라인에 CLIP을 통합한 모델의 다운스트림 강건성에 영향을 미칠 수 있습니다. CLIP 이미지 인코더를 강건하게 만들기 위한 일부 노력이 이루어졌지만, 텍스트 인코더의 강건성은 아직 탐구되지 않았습니다. 본 연구에서는 이러한 문헌상의 공백을 메우고자 합니다. 우리는 LEAF를 제안합니다: 이는 텍스트 도메인에서 효율적인 적대적 미세 조정 방법으로, 대규모 CLIP 모델로 확장할 수 있는 능력을 갖추고 있습니다. 우리의 모델은 텍스트 도메인에서 제로샷 적대적 정확도를 크게 향상시키면서도, 강건한 이미지 인코더가 제공하는 시각 성능을 유지합니다. 텍스트-이미지 확산 모델과 결합할 때, 적대적 노이즈 하에서의 생성 품질을 개선할 수 있습니다. 다중모드 검색 작업에서 우리의 강건한 CLIP 인코더를 사용할 때, 표준 CLIP 모델 대비 적대적 노이즈 하에서의 재현율을 향상시킵니다. 마지막으로, 강건한 텍스트 인코더가 직접 최적화를 통해 입력 텍스트의 임베딩으로부터 더 나은 재구성을 가능하게 한다는 것을 보여줍니다.
스칼라 보상과 같은 수치적 피드백을 활용한 강화학습(RL)의 최근 발전은 대규모 언어 모델(LLMs)의 복잡한 추론 능력을 크게 향상시켰습니다. 이러한 성공에도 불구하고, 순수 수치적 피드백을 사용한 RL이 직면하는 세 가지 주요 문제를 확인했습니다: 성능 정체, 자기 반성의 제한적 효과, 그리고 지속적인 실패입니다. 우리는 성능 정체를 보인 RL로 미세 조정된 모델이 비판 형태의 자연어 피드백을 활용하여 지속적으로 실패한 문제에 대해 올바른 개선안을 생성할 수 있음을 보여줍니다. 이러한 통찰을 바탕으로, 효과적인 정책 최적화를 위해 자연어와 수치적 피드백을 통합한 온라인 RL 프레임워크인 Critique-GRPO를 제안합니다. Critique-GRPO는 LLM이 초기 응답과 비판 기반 개선안을 동시에 학습하면서 탐색을 유지할 수 있도록 합니다. Qwen2.5-7B-Base와 Qwen3-8B-Base를 사용한 광범위한 실험을 통해 Critique-GRPO가 8가지 도전적인 수학, STEM, 일반 추론 과제에서 지도 학습 기반 및 RL 기반 미세 조정 접근법을 일관되게 능가하며, 평균 pass@1 점수를 각각 약 4.5%와 5% 향상시킴을 보여줍니다. 특히, Critique-GRPO는 온라인 RL 내에서 전문가 시연을 포함한 강력한 베이스라인을 능가합니다. 추가 분석을 통해 정책 탐색에 대한 두 가지 중요한 통찰을 얻었습니다: (1) 더 높은 엔트로피가 항상 탐색으로부터의 효율적인 학습을 보장하지는 않으며, (2) 더 긴 응답이 반드시 더 효과적인 탐색으로 이어지지는 않습니다.
지속 학습(Continual Learning, CL)은 신경망이 기존 지식을 유지하면서(안정성) 새로운 지식을 점진적으로 습득(가소성)할 수 있도록 하는 것을 목표로 한다. 사전 학습된 모델(Pre-trained Models, PTMs)이 CL에서 중요한 역할을 하고 있지만, 기존 접근법은 안정성을 유지하기 위해 PTM 백본을 고정함으로써 가소성을 제한하며, 특히 점진적 작업에서 큰 도메인 격차를 마주할 때 이러한 한계가 두드러진다. 반면, PTM 전체를 순차적으로 미세 조정하는 것은 일반화 가능한 지식의 치명적인 망각(catastrophic forgetting)을 초래할 위험이 있어, 안정성과 가소성 간의 중요한 균형 문제를 노출시킨다. 이러한 문제를 해결하기 위해, 우리는 핵심 CL 프로세스 이전에 PTM을 적응시키는(Adapting PTMs before the core CL process, ACL) 새로운 프레임워크를 제안한다. ACL은 기존 CL 접근법(예: 프롬프트 튜닝)을 사용하여 각 새로운 작업을 학습하기 전에 플러그 앤 플레이 방식의 적응 단계를 통해 PTM 백본을 개선한다. ACL은 임베딩을 원래 클래스 프로토타입과 정렬시키고 다른 클래스와 거리를 두도록 함으로써 가소성을 향상시키며, 이론적 및 실험적으로 안정성과 가소성의 균형을 맞추는 것으로 입증되었다. 광범위한 실험을 통해 ACL이 다양한 벤치마크와 통합 방법에서 CL 성능을 크게 향상시키며, PTM 기반 CL을 위한 다용도 솔루션을 제공함을 보여준다.
LLM-as-a-judge는 대형 언어 모델(LLM)이 다른 LLM의 출력을 자동으로 평가하는 프레임워크입니다. 우리는 기존 LLM 평가자의 점수를 특정 도메인에서 인간 평가자의 점수와 일치시키기 위해 회귀 모델을 사용하는 정량적 LLM 평가자를 제안합니다. 이 모델들은 평가자의 텍스트 평가와 점수를 활용하여 원래 평가자의 점수를 개선하도록 훈련됩니다. 우리는 절대적 및 상대적 피드백의 다양한 유형에 대한 네 가지 정량적 평가자를 제시함으로써 우리 프레임워크의 일반성과 다양성을 보여줍니다. 우리의 프레임워크는 지도 미세 조정보다 계산적으로 더 효율적이며, 인간 피드백이 제한적인 상황에서 통계적으로 더 효율적일 수 있습니다. 이는 우리 작업의 대부분의 응용 분야에서 예상되는 상황입니다. 우리는 이러한 주장을 두 가지 기본 평가자를 사용하여 네 가지 데이터셋에서 실증적으로 검증합니다. 우리의 실험은 정량적 평가자가 사후 모델링을 통해 기존 평가자의 예측 능력을 효과적으로 개선할 수 있음을 보여줍니다.
광범위한 데이터셋으로 학습된 대형 파운데이션 모델은 다양한 도메인에서 강력한 제로샷 능력을 보여줍니다. 데이터와 모델 크기가 제한된 상황에서 이러한 성공을 재현하기 위해, 지식 증류는 파운데이션 모델의 지식을 작은 학생 네트워크로 전달하는 확립된 도구로 자리 잡았습니다. 그러나 증류의 효과는 사용 가능한 학습 데이터에 의해 크게 제한됩니다. 본 연구는 학습 중에는 나타나지만 테스트 시에는 나타나지 않는 가짜 특징들로 인해 발생하는 공변량 변화라는 일반적인 실질적 문제를 다룹니다. 우리는 이러한 가짜 특징들이 알려져 있지 않지만 견고한 교사 모델이 사용 가능할 때, 학생 모델도 이에 대해 견고해질 수 있는지에 대한 질문을 제기합니다. 우리는 교사와 학생 간의 불일치를 극대화하여 이미지를 생성하는 새로운 확산 기반 데이터 증강 전략을 도입함으로써 이 문제를 해결합니다. 이는 학생 모델이 어려움을 겪는 도전적인 샘플을 효과적으로 생성합니다. 실험 결과, 우리의 접근 방식은 공변량 변화 하에서 CelebA와 SpuCo Birds에서의 최악 그룹 및 평균 그룹 정확도와 spurious ImageNet에서의 가짜 mAUC를 크게 향상시키며, 최신 확산 기반 데이터 증강 기준선을 능가하는 것으로 나타났습니다.
최근 역전 및 지시 기반 이미지 편집 기술의 발전에도 불구하고, 기존 접근법은 단일, 두드러진 객체 편집에서 뛰어난 성과를 보이지만, 다중 개체를 포함한 복잡한 장면에 적용할 때는 상당한 어려움을 겪는다. 이러한 격차를 정량화하기 위해, 우리는 먼저 RefCOCO에 기반한 엄격한 실세계 벤치마크인 RefEdit-Bench를 소개한다. 이 벤치마크에서는 수백만 개의 샘플로 훈련된 베이스라인 모델조차도 낮은 성능을 보인다. 이러한 한계를 극복하기 위해, 우리는 확장 가능한 합성 데이터 생성 파이프라인으로 훈련된 지시 기반 편집 모델인 RefEdit을 제안한다. 단 20,000개의 편집 트리플렛으로 훈련된 우리의 RefEdit은 수백만 개의 데이터로 훈련된 Flux/SD3 모델 기반 베이스라인을 능가한다. 다양한 벤치마크에 걸친 광범위한 평가를 통해, 우리의 모델이 참조 표현 작업에서 뛰어난 성과를 보일 뿐만 아니라 전통적인 벤치마크에서도 성능을 향상시키며, 폐쇄형 소스 방법에 필적하는 최첨단 결과를 달성함을 입증한다. 재현성을 위해 데이터 및 체크포인트를 공개한다.
대형 언어 모델(LLMs)은 다양한 작업에서 인간에 가까운 성능을 보이며 일반적인 대화를 나눌 수 있는 능력으로 높이 평가받고 있다. 그러나 에이전트형 AI 시스템의 부상은 언어 모델이 소수의 특화된 작업을 반복적이고 거의 변형 없이 수행하는 수많은 애플리케이션을 이끌고 있다. 여기서 우리는 소형 언어 모델(SLMs)이 에이전트 시스템에서의 많은 호출에 대해 충분히 강력하고, 본질적으로 더 적합하며, 필연적으로 더 경제적이므로 에이전트형 AI의 미래가 될 것이라는 입장을 제시한다. 우리의 주장은 현재 SLMs가 보여주는 능력 수준, 에이전트 시스템의 일반적인 아키텍처, 그리고 언어 모델 배치의 경제성에 기반을 두고 있다. 또한, 일반적인 대화 능력이 필수적인 상황에서는 이질적 에이전트 시스템(즉, 여러 다른 모델을 호출하는 에이전트)이 자연스러운 선택임을 주장한다. 우리는 에이전트 시스템에서 SLMs의 채택을 가로막는 잠재적 장벽에 대해 논의하고, 일반적인 LLM-to-SLM 에이전트 변환 알고리즘을 개괄한다. 우리의 입장은 가치 선언으로 공식화되어, LLMs에서 SLMs로의 부분적 전환이 AI 에이전트 산업에 미칠 운영적 및 경제적 영향의 중요성을 강조한다. 우리는 AI 자원의 효과적 사용에 대한 논의를 촉진하고, 현재 AI의 비용을 낮추기 위한 노력을 진전시키고자 한다. 우리의 입장에 대한 기여와 비판을 모두 요청하며, 이러한 모든 서신을 https://research.nvidia.com/labs/lpr/slm-agents에 게시할 것을 약속한다.
플로우차트는 의사결정 과정을 시각화하는 데 있어 중요한 도구입니다. 그러나 비선형적인 구조와 복잡한 시각-텍스트 관계로 인해 LLM(Large Language Model)을 사용하여 이를 해석하는 것은 어려운 과제입니다. 시각-언어 모델은 이러한 다이어그램을 분석할 때 존재하지 않는 연결과 의사결정 경로를 자주 환각적으로 생성하기 때문입니다. 이는 물류, 의료, 공학과 같은 중요한 분야에서 자동화된 플로우차트 처리의 신뢰성을 저하시키는 원인이 됩니다. 우리는 플로우차트를 참조하는 LLM 응답의 근거가 되는 특정 구성 요소를 추적하는 세분화된 플로우차트 속성(Fine-grained Flowchart Attribution) 작업을 소개합니다. 플로우차트 속성은 LLM 예측의 검증 가능성을 보장하고, 생성된 응답을 플로우차트의 구조와 연결하여 설명 가능성을 향상시킵니다. 우리는 그래프 기반 추론을 통해 세분화된 사후 속성을 수행하는 신경-기호적 에이전트인 FlowPathAgent를 제안합니다. 이 에이전트는 먼저 플로우차트를 분할하고, 이를 구조화된 기호 그래프로 변환한 후, 그래프와 동적으로 상호작용하여 속성 경로를 생성합니다. 또한, 다양한 스타일, 도메인 및 질문 유형에 걸쳐 플로우차트 속성을 평가하기 위한 새로운 벤치마크인 FlowExplainBench를 제시합니다. 실험 결과, FlowPathAgent는 플로우차트 QA에서 LLM 응답의 시각적 환각 현상을 완화하며, 제안된 FlowExplainBench 데이터셋에서 강력한 베이스라인을 10-14% 앞섰습니다.
프루닝(Pruning)은 최근 대규모 언어 모델(LLM)의 파라미터 규모를 줄이고 추론 효율성을 개선하기 위해 널리 채택되고 있습니다. 주류 프루닝 기법은 종종 균일한 계층별 프루닝 전략에 의존하는데, 이는 높은 희소성 수준에서 심각한 성능 저하를 초래할 수 있습니다. LLM의 각 계층이 기여하는 바가 다르다는 점을 인식한 최근 연구들은 비균일 계층별 프루닝으로 초점을 옮겼습니다. 그러나 이러한 접근 방식은 종종 미리 정의된 값에 의존하기 때문에 최적의 성능을 달성하지 못할 수 있습니다. 이러한 한계를 극복하기 위해, 우리는 동적 계층별 프루닝(Dynamic Layerwise Pruning, DLP)이라는 새로운 방법을 제안합니다. 이 접근 방식은 모델 가중치와 입력 활성화 정보를 통합하여 각 계층의 상대적 중요도를 적응적으로 결정하고, 이에 따라 프루닝 비율을 할당합니다. 실험 결과, DLP는 여러 LLM에서 높은 희소성 수준에서도 모델 성능을 효과적으로 유지하는 것으로 나타났습니다. 구체적으로, 70% 희소성에서 DLP는 LLaMA2-7B의 복잡도(perplexity)를 7.79 감소시키고, 최신 기법 대비 평균 정확도를 2.7% 향상시켰습니다. 또한, DLP는 다양한 기존 LLM 압축 기법과 호환되며, 파라미터 효율적 미세 조정(Parameter-Efficient Fine-Tuning, PEFT)에 원활하게 통합될 수 있습니다. 우리는 향후 연구를 촉진하기 위해 코드를 https://github.com/ironartisan/DLP에 공개했습니다.
최근 장편 비디오-언어 이해 벤치마크는 비디오 대형 멀티모달 모델(Video-LMMs)의 발전을 이끌어 왔습니다. 그러나 잘 주석 처리된 장편 비디오의 부족으로 인해 시간 단위의 Video-LLMs 훈련은 충분히 탐구되지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 대규모 시간 단위 비디오 명령 수행 데이터셋인 VideoMarathon을 제안합니다. 이 데이터셋은 다양한 도메인에서 수집된 약 9,700시간 분량의 장편 비디오를 포함하며, 비디오당 3분에서 60분까지의 길이를 가집니다. 특히, 이 데이터셋은 시간성, 공간성, 객체, 행동, 장면, 이벤트 등 여섯 가지 기본 주제를 아우르는 330만 개의 고품질 질문-답변 쌍을 포함합니다. 기존의 비디오 명령 데이터셋과 비교할 때, VideoMarathon은 훈련 비디오의 길이를 최대 1시간까지 크게 확장하고, 단기 및 장기 비디오 이해를 모두 요구하는 22가지 다양한 작업을 지원합니다. VideoMarathon을 기반으로, 우리는 시간 단위 비디오-언어 모델링을 위한 강력하고 효율적인 Video-LMM인 Hour-LLaVA를 제안합니다. Hour-LLaVA는 메모리 증강 모듈을 활용하여 1-FPS 샘플링으로 시간 단위 비디오 훈련 및 추론을 가능하게 하며, 이 모듈은 캐시된 전체 비디오 컨텍스트에서 사용자 질문과 관련된 시공간 정보 의미를 적응적으로 통합합니다. 우리의 실험에서, Hour-LLaVA는 여러 장편 비디오-언어 벤치마크에서 최고의 성능을 달성하며, VideoMarathon 데이터셋의 높은 품질과 Hour-LLaVA 모델의 우수성을 입증했습니다.
대형 언어 모델(LLM)을 기반으로 구축되고 다중 에이전트 구성으로 배포되는 에이전트형 AI 시스템은 기업 및 사회적 영역 전반에 걸쳐 지능형 자율성, 협업 및 의사결정을 재정의하고 있습니다. 본 리뷰는 LLM 기반 에이전트형 다중 에이전트 시스템(AMAS)의 맥락에서 신뢰, 위험 및 보안 관리(TRiSM)에 대한 구조화된 분석을 제시합니다. 먼저 에이전트형 AI의 개념적 기초, 기존 AI 에이전트와의 아키텍처적 차이, 그리고 확장 가능한 도구 사용 자율성을 가능하게 하는 새로운 시스템 설계를 검토합니다. 그런 다음 에이전트형 AI 프레임워크 내의 TRiSM은 거버넌스, 설명 가능성, ModelOps, 프라이버시/보안이라는 네 가지 기둥을 통해 상세히 설명되며, 각각은 에이전트형 LLM에 맞게 맥락화됩니다. 우리는 고유한 위협 벡터를 식별하고 실제 취약성을 보여주는 사례 연구를 통해 에이전트형 AI 애플리케이션을 위한 포괄적인 위험 분류 체계를 소개합니다. 또한, 이 논문은 분산된 LLM 에이전트 시스템에서의 신뢰 구축 메커니즘, 투명성 및 감독 기술, 최신 설명 가능성 전략을 조사합니다. 더불어, 신뢰, 해석 가능성 및 인간 중심 성능을 평가하기 위한 메트릭과 함께 공개 벤치마킹 과제를 검토합니다. 보안과 프라이버시는 암호화, 적대적 방어, 그리고 진화하는 AI 규정 준수를 통해 다루어집니다. 이 논문은 책임 있는 에이전트형 AI를 위한 로드맵으로 마무리되며, 안전하고 책임감 있으며 투명한 배포를 위해 강력한 TRiSM 원칙과 조화를 이루는 새로운 다중 에이전트 시스템을 위한 연구 방향을 제안합니다.
고온 초전도체 물질의 발견은 인간의 산업과 일상생활에 큰 의미를 지닌다. 최근 몇 년간 인공지능(AI)을 활용하여 초전도 전이 온도를 예측하는 연구가 주목받고 있으며, 이러한 도구들은 대부분 높은 정확도를 달성했다고 주장한다. 그러나 이 분야에서 널리 받아들여지는 벤치마크 데이터셋의 부재는 다양한 AI 알고리즘 간의 공정한 비교를 심각하게 저해하고, 이러한 방법들의 더 나은 발전을 방해해 왔다. 본 연구에서는 상압 고온 초전도 벤치마크 데이터셋인 HTSC-2025를 제시한다. 이 포괄적인 데이터셋은 BCS 초전도 이론을 기반으로 2023년부터 2025년까지 이론 물리학자들이 발견한 이론적으로 예측된 초전도 물질들을 포함하며, 유명한 X_2YH_6 시스템, 페로브스카이트 MXH_3 시스템, M_3XH_8 시스템, LaH_{10} 구조적 진화에서 파생된 케이지 형태의 BCN 도핑 금속 원자 시스템, 그리고 MgB_2에서 진화한 2차원 벌집 구조 시스템 등을 다룬다. HTSC-2025 벤치마크는 https://github.com/xqh19970407/HTSC-2025에서 오픈소스로 공개되었으며, 지속적으로 업데이트될 예정이다. 이 벤치마크는 AI 기반 방법을 통해 초전도 물질의 발견을 가속화하는 데 중요한 의미를 지닌다.
대규모 언어 모델의 추론 능력을 강화하기 위해 강화 학습(RL)을 효과적으로 활용하는 것은 여전히 중요한 과제로 남아 있다. 기존 접근 방식은 주로 두 가지 대조적인 이점 추정 세분화를 채택한다: 토큰 수준 방법(예: PPO)은 세밀한 이점 신호를 제공하는 것을 목표로 하지만, 정확한 비평 모델을 훈련하기 어려워 추정이 부정확한 문제가 있다. 반면, 궤적 수준 방법(예: GRPO)은 최종 보상에서 얻은 거친 이점 신호에만 의존하여 정확한 신용 할당이 어렵다. 이러한 한계를 해결하기 위해, 우리는 중간 세분화 수준에서 세그먼트 수준 이점 추정을 활용하는 새로운 RL 프레임워크인 세그먼트 정책 최적화(SPO)를 제안한다. SPO는 궤적 수준 방법보다 더 정확한 신용 할당을 제공하고 토큰 수준 방법보다 더 적은 추정 지점을 필요로 하여, 비평 모델 없이도 몬테카를로(MC) 기반의 정확한 이점 추정을 가능하게 한다. SPO는 세 가지 구성 요소와 새로운 전략을 특징으로 한다: (1) 유연한 세그먼트 분할; (2) 정확한 세그먼트 이점 추정; (3) 세그먼트 이점을 활용한 정책 최적화(새로운 확률 마스크 전략 포함). 우리는 SPO를 두 가지 특정 시나리오에 적용한다: (1) 짧은 사고 사슬(CoT)을 위한 SPO-chain은 새로운 컷포인트 기반 분할과 사슬 기반 이점 추정을 특징으로 하여 GSM8K에서 PPO와 GRPO보다 6-12% 포인트 정확도 향상을 달성한다. (2) 긴 CoT를 위한 SPO-tree는 새로운 트리 기반 이점 추정을 특징으로 하여 MC 추정 비용을 크게 줄이고, MATH500에서 2K 및 4K 컨텍스트 평가에서 GRPO보다 7-11% 포인트 정확도 향상을 달성한다. 우리는 코드를 https://github.com/AIFrameResearch/SPO에서 공개한다.
객체 참조(Object referring)는 주어진 자연어 설명과 일치하는 이미지 내 모든 객체를 탐지하는 것을 목표로 합니다. 우리는 강력한 객체 참조 모델이 시각적 내용에 대해 설명 가능하고 충실한, 즉 'grounded' 상태여야 한다고 주장합니다. 구체적으로, 이러한 모델은 두 가지 핵심 속성을 충족해야 합니다: 1) **검증 가능성**: 예측을 정당화하는 해석 가능한 추론을 생성하고 이를 시각적 증거와 명확히 연결해야 함, 2) **신뢰성**: 주어진 표현을 만족하는 객체가 이미지에 없을 때 예측을 자제할 수 있어야 함. 그러나 대부분의 방법은 참조를 직접적인 바운딩 박스 예측 작업으로 취급하여 해석 가능성이 제한적이며, 일치하는 객체가 없는 표현을 거부하는 데 어려움을 겪습니다. 본 연구에서는 객체 참조를 명시적인 CoT(Chain-of-Thought) 추론 작업으로 공식화한 Rex-Thinker 모델을 제안합니다. 참조 표현이 주어지면, 먼저 참조된 객체 카테고리에 해당하는 모든 후보 객체 인스턴스를 식별합니다. 이후 Rex-Thinker는 각 후보에 대해 단계별 추론을 수행하여 주어진 표현과 일치하는지 평가한 후 최종 예측을 합니다. 이를 지원하기 위해, HumanRef 데이터셋에 GPT-4o를 활용하여 대규모 CoT 스타일 참조 데이터셋인 HumanRef-CoT를 구축했습니다. 각 추론 흔적은 구조화된 계획, 행동, 요약 형식을 따르며, 이를 통해 모델이 객체 후보에 대해 분해 가능하고 해석 가능한 추론을 학습할 수 있도록 합니다. 그런 다음 Rex-Thinker를 두 단계로 학습시킵니다: 구조화된 추론을 수행하는 방법을 가르치는 감독된 미세 조정 단계와, 정확도와 일반화 능력을 향상시키기 위한 GRPO 기반 강화 학습 단계입니다. 실험 결과, 우리의 접근 방식은 도메인 내 평가에서 정밀도와 해석 가능성 모두에서 표준 베이스라인을 능가하며, 허구적인 출력을 거부하는 능력과 도메인 외 설정에서의 강력한 일반화 능력도 보여줍니다.
지속 학습(Continual Learning, CL)의 탐구는 신경망이 점진적으로 학습하고 적응할 수 있는 능력을 부여하는 것을 목표로 합니다. 이 탐구의 핵심은 안정성과 가소성의 딜레마를 해결하는 데 있으며, 이는 두 가지 상충되는 목표, 즉 이전에 학습한 지식을 보존하는 것과 새로운 지식을 습득하는 것 사이의 균형을 맞추는 것을 포함합니다. 수많은 CL 방법들이 이러한 균형을 달성하려고 시도하지만, 이들은 종종 네트워크 아키텍처가 안정성과 가소성에 미치는 영향을 간과하며, 매개변수 수준에서만 균형을 맞추려고 합니다. 본 논문에서는 아키텍처 수준에서의 안정성과 가소성 간의 갈등을 심층적으로 탐구합니다. 우리는 동일한 매개변수 제약 하에서, 더 깊은 네트워크가 더 나은 가소성을 보이는 반면, 더 넓은 네트워크는 더 우수한 안정성을 특징으로 한다는 것을 밝혀냅니다. 이러한 아키텍처 수준의 딜레마를 해결하기 위해, 우리는 CL을 위한 플러그인 구성 요소로 작동하는 새로운 프레임워크인 Dual-Arch를 소개합니다. 이 프레임워크는 두 가지 독립적이고 구별되는 네트워크의 상호 보완적인 강점을 활용합니다: 하나는 가소성에 전념하고, 다른 하나는 안정성에 전념합니다. 각 네트워크는 각자의 목적에 맞게 특화된 경량 아키텍처로 설계되었습니다. 광범위한 실험을 통해 Dual-Arch가 기존 CL 방법들의 성능을 향상시키면서도 매개변수 측면에서 최대 87% 더 컴팩트함을 입증했습니다.
출판물 데이터베이스는 다양한 웹 소스로부터 정확한 메타데이터 추출에 의존하지만, 웹 레이아웃과 데이터 형식의 다양성은 메타데이터 제공자에게 도전 과제로 작용합니다. 본 논문은 링크된 웹 문서의 문맥 기반 순위를 매기는 새로운 방법인 CRAWLDoc을 소개합니다. 디지털 객체 식별자와 같은 출판물의 URL을 시작점으로, CRAWLDoc은 랜딩 페이지와 PDF, ORCID 프로필, 보조 자료를 포함한 모든 링크된 웹 리소스를 검색합니다. 이 리소스들을 앵커 텍스트와 URL과 함께 통합된 표현으로 임베딩합니다. CRAWLDoc을 평가하기 위해, 우리는 컴퓨터 과학 분야의 6개 주요 출판사에서 수집한 600개의 출판물로 구성된 새로운 수동 라벨링 데이터셋을 구축했습니다. 우리의 방법인 CRAWLDoc은 출판사와 데이터 형식에 걸쳐 관련 문서의 강력하고 레이아웃 독립적인 순위를 보여줍니다. 이는 다양한 레이아웃과 형식을 가진 웹 문서로부터 향상된 메타데이터 추출의 기반을 마련합니다. 우리의 소스 코드와 데이터셋은 https://github.com/FKarl/CRAWLDoc에서 확인할 수 있습니다.
비전-언어 모델(Vision-Language Models, VLMs)의 위험을 완화하는 한 가지 방법은 학습 데이터에서 위험한 샘플을 제거하는 것입니다. 그러나 유해한 이미지가 작고 무해해 보이는 패치로 분할되어 여러 학습 샘플에 흩어져 있을 경우, 이러한 데이터 조정은 쉽게 우회될 수 있습니다. 이 경우, VLM은 학습 중에 이러한 조각들을 조합하여 학습하고, 추론 시 전체 이미지나 텍스트 참조로부터 유해한 응답을 생성할 수 있습니다. 예를 들어, 피가 낭자한 장면의 이미지 패치가 "안전하다"는 설명과 함께 학습되면, VLM은 나중에 해당 장면의 전체 이미지나 텍스트 참조를 "안전하다"고 설명할 수 있습니다. 우리는 이러한 공격을 가능하게 하는 VLM의 핵심 능력을 시각적 스티칭(visual stitching)으로 정의합니다. 이는 동일한 텍스트 설명을 공유하는 여러 학습 샘플에 걸쳐 퍼져 있는 시각적 정보를 통합하는 능력입니다. 본 연구에서는 먼저 세 가지 데이터셋에서 각 이미지가 고유한 합성 ID로 레이블링된 일반적인 오픈소스 VLM의 시각적 스티칭 능력을 입증합니다. 각 (이미지, ID) 쌍을 다양한 세분화 수준에서 {(패치, ID)} 쌍으로 분할하여 미세 조정을 수행한 결과, 조정된 모델이 전체 이미지나 텍스트 참조로부터 올바른 ID를 언어화할 수 있음을 확인했습니다. 이를 바탕으로, 위험한 이미지의 패치를 사용하고 ID를 "안전하다" 또는 "위험하다"와 같은 텍스트 설명으로 대체하여 위에서 언급한 적대적 데이터 중독 시나리오를 시뮬레이션했습니다. 이를 통해 유해한 콘텐츠가 패치에서 조정을 피하고 나중에 시각적 스티칭을 통해 재구성될 수 있음을 보여주며, 이는 VLM의 심각한 안전 위험을 초래할 수 있습니다. 코드는 https://github.com/ZHZisZZ/visual-stitching에서 확인할 수 있습니다.
야외 이미지에서의 3D 재구성은 일관되지 않은 조명 조건과 일시적인 방해 요소로 인해 여전히 어려운 과제로 남아 있습니다. 기존 방법들은 일반적으로 낮은 품질의 학습 데이터를 처리하기 위해 휴리스틱 전략에 의존하는데, 이는 종종 안정적이고 일관된 재구성을 생성하는 데 어려움을 겪으며 시각적 아티팩트를 자주 발생시킵니다. 본 연구에서는 이러한 아티팩트의 확률적 특성을 활용한 새로운 프레임워크인 Asymmetric Dual 3DGS를 제안합니다: 이 아티팩트들은 사소한 무작위성으로 인해 서로 다른 학습 실행 간에 변동하는 경향이 있습니다. 구체적으로, 우리의 방법은 두 개의 3D Gaussian Splatting (3DGS) 모델을 병렬로 학습시키며, 일관성 제약을 적용하여 신뢰할 수 있는 장면 기하학에 수렴하도록 유도하고 일관되지 않은 아티팩트를 억제합니다. 두 모델이 확인 편향으로 인해 유사한 실패 모드로 수렴하는 것을 방지하기 위해, 우리는 두 가지 상호 보완적인 마스크를 적용하는 divergent masking 전략을 도입했습니다: 다중 단서 적응형 마스크와 자기 지도 소프트 마스크로, 이는 두 모델의 비대칭적 학습 과정을 유도하여 공유 오류 모드를 줄입니다. 또한, 모델 학습의 효율성을 향상시키기 위해 Dynamic EMA Proxy라는 경량 변형을 도입했습니다. 이는 두 모델 중 하나를 동적으로 업데이트되는 지수 이동 평균(EMA) 프록시로 대체하고, 교대 마스킹 전략을 사용하여 분산을 유지합니다. 도전적인 실제 데이터셋에 대한 광범위한 실험을 통해 우리의 방법이 기존 접근법을 일관되게 능가하면서도 높은 효율성을 달성함을 입증했습니다. 코드와 학습된 모델은 공개될 예정입니다.
Stable Diffusion 3와 같은 플로우 기반 잠재 생성 모델은 놀라운 품질의 이미지를 생성할 수 있으며, 사실적인 텍스트-이미지 생성도 가능하게 합니다. 이러한 인상적인 성능은 이 모델들이 역 이미징 문제에 대한 강력한 사전 분포로도 작용할 수 있음을 시사하지만, 이 접근법은 아직 비슷한 수준의 정확도를 달성하지 못했습니다. 여기에는 몇 가지 주요 장애 요인이 있습니다: (i) 저차원 잠재 공간으로의 인코딩은 기본적인 (순방향) 매핑을 비선형적으로 만듭니다; (ii) 데이터 가능도 항목은 일반적으로 계산이 불가능합니다; (iii) 학습된 생성 모델은 추론 과정에서 드물고 비전형적인 데이터 모드를 복구하는 데 어려움을 겪습니다. 우리는 FLAIR라는 새로운 학습 없이도 사용 가능한 변분 프레임워크를 제안하며, 이를 통해 플로우 기반 생성 모델을 역 문제에 대한 사전 분포로 활용합니다. 이를 위해, 우리는 퇴화 유형에 구애받지 않는 플로우 매칭을 위한 변분 목적 함수를 도입하고, 이를 결정론적 궤적 조정과 결합하여 비전형적인 모드를 복구합니다. 관측된 데이터와의 정확한 일관성을 강제하기 위해, 데이터 충실도와 정규화 항목의 최적화를 분리합니다. 또한, 오프라인 정확도 추정치에 따라 정규화 강도를 조절하는 시간 의존적 보정 기법을 도입합니다. 표준 이미징 벤치마크에서의 결과는 FLAIR가 재구성 품질과 샘플 다양성 측면에서 기존의 확산 및 플로우 기반 방법들을 지속적으로 능가함을 보여줍니다.
다단계 기호 추론(symbolic reasoning)은 금융 과제에서의 하위 작업 성능을 향상시키는 데 핵심적인 역할을 합니다. 그러나 이러한 능력을 체계적으로 평가하기 위한 벤치마크가 부족한 실정입니다. FinQA와 ConvFinQA와 같은 기존 데이터셋은 최종 수치적 답변만을 감독하며, 중간 추론 단계를 평가하지 않습니다. 이를 해결하기 위해, 우리는 검증 가능한 사고의 연쇄(Chain-of-Thought, CoT) 금융 추론을 위해 설계된 첫 번째 기호 벤치마크인 FinChain을 소개합니다. FinChain은 12개의 금융 도메인에 걸쳐 54개의 주제를 다루며, 각 주제마다 추론 복잡성과 필요한 도메인 전문성에 따라 다섯 가지의 파라미터화된 템플릿을 제공합니다. 각 데이터셋 인스턴스는 실행 가능한 Python 트레이스를 포함하여, 광범위한 학습 데이터의 자동 생성과 다른 도메인으로의 쉬운 적용을 가능하게 합니다. 또한, 우리는 최종 답변과 중간 추론을 모두 자동으로 평가하기 위한 새로운 메트릭인 ChainEval을 도입했습니다. 우리의 데이터셋에서 30개의 대형 언어 모델(LLM)을 벤치마킹한 결과, 최첨단 모델들도 다단계 금융 추론에서 상당한 개선의 여지가 있음을 발견했습니다. FinChain의 모든 템플릿과 평가 메트릭은 https://github.com/mbzuai-nlp/finchain에서 확인할 수 있습니다.
복잡한 시청각 장면에 대한 정확한 사운드 생성은 특히 다수의 객체와 음원이 존재할 때 어려운 과제입니다. 본 논문에서는 사용자가 이미지 내에서 선택한 시각적 객체를 기반으로 사운드 생성을 수행하는 {\em 객체 인식형 상호작용 오디오 생성} 모델을 제안합니다. 우리의 방법은 객체 중심 학습을 조건부 잠재 확산 모델에 통합하여, 다중 모드 어텐션을 통해 이미지 영역과 해당 사운드를 연관시키는 방법을 학습합니다. 테스트 단계에서, 우리의 모델은 이미지 분할을 활용하여 사용자가 {\em 객체} 수준에서 상호적으로 사운드를 생성할 수 있도록 합니다. 우리는 이론적으로 어텐션 메커니즘이 테스트 시 분할 마스크를 기능적으로 근사화함으로써 생성된 오디오가 선택된 객체와 일치하도록 보장함을 검증합니다. 정량적 및 정성적 평가를 통해 우리의 모델이 기준 모델을 능가하며, 객체와 관련 사운드 간의 더 나은 정렬을 달성함을 보여줍니다. 프로젝트 페이지: https://tinglok.netlify.app/files/avobject/
데이터에 주석을 다는 작업은 시간이 많이 들고 비용이 많이 드는 작업이지만, 지도 기계 학습에는 필수적으로 요구된다. 능동 학습(Active Learning, AL)은 전문가가 주석을 달아야 할 가장 유익한 미표본 데이터를 반복적으로 선택함으로써 인간의 라벨링 노력을 최소화하고, 궁극적으로 분류 성능을 향상시키는 확립된 방법이다. AL이 수십 년 동안 알려져 왔음에도 불구하고, 실제 응용 프로그램에서는 여전히 거의 사용되지 않고 있다. NLP 커뮤니티를 대상으로 한 두 차례의 웹 설문조사에서 나타난 바에 따르면, 실무자들이 AL을 사용하지 않는 주된 이유는 두 가지이다: 첫째, AL을 설정하는 복잡성, 둘째, AL의 효과성에 대한 신뢰 부족이다. 우리는 이 두 가지 이유가 동일한 근본 원인, 즉 AL의 방대한 하이퍼파라미터 공간에서 비롯된다고 가정한다. 이 대부분 탐구되지 않은 하이퍼파라미터 공간은 종종 오해를 불러일으키고 재현이 불가능한 AL 실험 결과로 이어진다. 본 연구에서는 첫째, 460만 개가 넘는 하이퍼파라미터 조합으로 구성된 대규모 하이퍼파라미터 그리드를 작성하였고, 둘째, 지금까지 진행된 가장 큰 AL 연구에서 모든 조합의 성능을 기록하였으며, 셋째, 실험 결과에 대한 각 하이퍼파라미터의 영향을 분석하였다. 마지막으로, 각 하이퍼파라미터의 영향에 대한 권장 사항을 제시하고, 구체적인 AL 전략 구현의 놀라운 영향을 입증하며, 최소한의 계산 노력으로 재현 가능한 AL 실험을 위한 실험 설계를 제안함으로써, 앞으로 더 재현 가능하고 신뢰할 수 있는 AL 연구에 기여하고자 한다.
다중모드 대형 언어 모델(MLLM)의 급속한 발전과 함께, 이들은 복잡한 컴퓨터 작업을 수행할 수 있는 자율적인 컴퓨터 사용 에이전트로 점점 더 많이 배포되고 있다. 그러나 중요한 문제가 대두된다: 대화 시나리오를 위해 설계되고 정렬된 일반 MLLM의 안전 위험 원칙이 실제 컴퓨터 사용 시나리오에 효과적으로 전이될 수 있는가? MLLM 기반 컴퓨터 사용 에이전트의 안전 위험을 평가하는 기존 연구는 몇 가지 한계를 가지고 있다: 현실적인 상호작용 환경이 부족하거나, 하나 또는 소수의 특정 위험 유형에만 초점을 맞추는 경우가 많다. 이러한 한계는 실제 환경의 복잡성, 변동성, 다양성을 무시함으로써 컴퓨터 사용 에이전트에 대한 포괄적인 위험 평가를 제한한다. 이를 위해, 우리는 실제 컴퓨터 조작 중 MLLM 기반 에이전트의 잠재적 위험을 평가하기 위해 RiOSWorld라는 벤치마크를 소개한다. 우리의 벤치마크는 웹, 소셜 미디어, 멀티미디어, 운영체제, 이메일, 오피스 소프트웨어 등 다양한 컴퓨터 애플리케이션에 걸친 492개의 위험 작업을 포함한다. 우리는 이러한 위험을 위험 원천에 따라 두 가지 주요 범주로 분류한다: (i) 사용자 기원 위험과 (ii) 환경 위험. 평가를 위해, 우리는 안전 위험을 두 가지 관점에서 평가한다: (i) 위험 목표 의도와 (ii) 위험 목표 완료. RiOSWorld에서 다중모드 에이전트를 대상으로 한 광범위한 실험은 현재의 컴퓨터 사용 에이전트가 실제 시나리오에서 상당한 안전 위험에 직면하고 있음을 보여준다. 우리의 연구 결과는 실제 컴퓨터 조작에서 컴퓨터 사용 에이전트의 안전 정렬의 필요성과 긴급성을 강조하며, 신뢰할 수 있는 컴퓨터 사용 에이전트 개발을 위한 귀중한 통찰을 제공한다. 우리의 벤치마크는 https://yjyddq.github.io/RiOSWorld.github.io/에서 공개적으로 이용 가능하다.