번역이 포함된 일일 선별된 AI 연구 논문
우리는 대규모 언어 모델의 성능을 자기 성찰과 강화 학습을 통해 개선하는 방법을 탐구합니다. 모델이 잘못된 답변을 했을 때 더 나은 자기 성찰을 생성하도록 유도함으로써, 합성 데이터 생성이 불가능하고 이진 피드백만 가능한 상황에서도 복잡하고 검증 가능한 과제를 해결하는 모델의 능력을 향상시킬 수 있음을 입증합니다. 우리의 프레임워크는 두 단계로 작동합니다: 첫째, 주어진 과제를 실패했을 때 모델은 이전 시도를 분석하는 자기 성찰적 코멘트를 생성합니다; 둘째, 모델은 자기 성찰을 맥락에 포함시켜 과제에 다시 도전합니다. 후속 시도가 성공하면, 자기 성찰 단계에서 생성된 토큰에 보상을 부여합니다. 우리의 실험 결과는 다양한 모델 아키텍처에서 상당한 성능 향상을 보여주며, 수학 방정식 작성에서는 최대 34.7%, 함수 호출에서는 18.1%의 개선을 달성했습니다. 특히, 더 작은 파라미터 규모(15억에서 70억)의 미세 조정된 모델들이 동일 계열에서 10배 더 큰 모델들을 능가하는 것으로 나타났습니다. 따라서 우리의 새로운 패러다임은 제한된 외부 피드백으로도 어려운 과제에서 스스로 개선할 수 있는 더 유용하고 신뢰할 수 있는 언어 모델로 나아가는 흥미로운 길을 제시합니다.
기존의 통합 모델들은 시각-언어 이해 및 텍스트-이미지 생성에서 강력한 성능을 보여주지만, 이러한 모델들은 사용자들이 다양한 응용 분야에서 절실히 필요로 하는 이미지 인식 및 조작 작업을 탐구하는 데 한계가 있다. 최근 OpenAI는 포괄적인 이미지 인식 및 조작을 위한 강력한 GPT-4o-Image 모델을 공개하여 표현 능력을 달성하고 커뮤니티의 관심을 끌었다. 우리가 신중하게 설계한 실험에서 GPT-4o-Image의 성능을 관찰한 결과, GPT-4o-Image는 VAE 대신 의미론적 인코더에 의해 추출된 특징을 활용하는 것으로 추론되며, VAE는 많은 이미지 조작 모델에서 필수적인 구성 요소로 간주된다. 이러한 영감을 주는 관찰에 동기를 받아, 우리는 강력한 시각-언어 모델과 대조적 의미론적 인코더가 제공하는 의미론적 특징을 기반으로 한 UniWorld라는 통합 생성 프레임워크를 제시한다. 그 결과, 우리는 BAGEL 데이터의 1%만을 사용하여 강력한 통합 모델을 구축했으며, 이 모델은 이미지 편집 벤치마크에서 BAGEL을 지속적으로 능가한다. UniWorld는 또한 경쟁력 있는 이미지 이해 및 생성 능력을 유지하며, 여러 이미지 인식 작업에서 강력한 성능을 달성한다. 우리는 모델 가중치, 훈련 및 평가 스크립트, 데이터셋을 포함한 모델을 완전히 오픈소스로 공개한다.
최근 비전 언어 모델(Vision Language Models, VLMs)의 발전으로 인해 이러한 모델들이 상호작용 에이전트 작업에 적용될 수 있는 능력이 확장되었으나, 기존 벤치마크는 단일 에이전트 또는 텍스트 전용 환경에 국한되어 있다. 반면, 실제 세계 시나리오에서는 다중 에이전트가 풍부한 시각적 및 언어적 맥락 내에서 상호작용하며, 이는 다중모달 관찰과 전략적 상호작용 모두에서 도전 과제를 제기한다. 이러한 격차를 해소하기 위해, 우리는 다중 에이전트 환경에서 전략적 추론과 의사결정을 평가하는 다중모달 벤치마크인 Visual Strategic Bench(VS-Bench)를 소개한다. VS-Bench는 협력적, 경쟁적, 혼합 동기 상호작용을 아우르는 8개의 시각 기반 환경으로 구성되어 있으며, 에이전트가 다른 에이전트의 미래 행동을 예측하고 장기적 목표를 최적화하는 능력을 평가하도록 설계되었다. 우리는 다음 행동 예측 정확도를 통한 전략적 추론의 오프라인 평가와 정규화된 에피소드 수익을 통한 의사결정의 온라인 평가를 포함한 두 가지 상호 보완적인 평가 차원을 고려한다. 14개의 주요 VLM에 대한 광범위한 실험 결과, 현재 모델과 최적 성능 간에 상당한 격차가 있음을 확인하였으며, 최고 모델은 47.8%의 예측 정확도와 24.3%의 정규화된 수익을 달성하였다. 또한, 우리는 다중모달 관찰, 테스트 시 스케일링, 사회적 행동, 그리고 VLM 에이전트의 실패 사례에 대한 심층 분석을 수행하였다. 평가를 표준화하고 기존 모델의 한계를 강조함으로써, 우리는 VS-Bench가 전략적 다중모달 에이전트에 대한 미래 연구의 기반이 될 것으로 기대한다. 코드와 데이터는 https://vs-bench.github.io에서 확인할 수 있다.
검증 가능한 보상(RLVR)을 통한 강화 학습으로 훈련된 시각-언어 모델(VLMs)은 테스트 시점 계산을 효과적으로 확장하는 데 있어서 주목할 만한 진전을 보여주었다. 본 연구에서는 합성된 RL 데이터가 RLVR을 어떻게 더욱 개선할 수 있는지 조사한다. 이를 위해, 우리는 추론 지향적 RL 훈련에서 자동 데이터 확장을 위한 확장 가능하고 보장된 파이프라인인 SynthRL을 제안한다. SynthRL은 세 가지 주요 단계로 구성된다: (1) 적절한 분포를 가진 시드 질문을 선택하고, (2) 원래 답변을 보존하면서 더 도전적인 변형으로 확장하며, (3) 거의 완벽한 정확성과 난이도 향상을 보장하는 검증 단계. 우리의 실험 결과는 SynthRL의 확장성과 효과성을 입증한다. MMK12 데이터셋에 적용했을 때, SynthRL은 약 8,000개의 시드 샘플로부터 3,300개 이상의 검증 가능하고 도전적인 추가 질문을 합성한다. 우리가 합성한 데이터로 훈련된 모델은 시드 데이터만으로 훈련된 기준 모델에 비해 다섯 가지 도메인 외 시각 수학 추론 벤치마크에서 일관된 성능 향상을 보이며, 특히 가장 도전적인 평가 샘플에서 더 두드러진 개선을 보인다. 이는 SynthRL이 더 깊고 복잡한 추론 패턴을 이끌어내는 데 효과적임을 강조한다.
비전-언어 모델(VLMs)은 다중모달 이해에서 놀라운 진전을 보여왔으나, 과학적 추론 능력에 대한 평가는 여전히 미흡한 상태이다. 현재의 다중모달 벤치마크는 주로 일반적인 이미지 이해나 텍스트 기반 추론을 평가하는 데 초점을 맞추고 있어, 시각적 증거 분석과 도메인 특화 지식 통합을 요구하는 진정한 과학적 맥락이 부족하다. 이러한 격차를 메우기 위해, 우리는 도메인 기반 시각적 질의응답을 통해 과학적 추론을 평가하기 위해 특별히 설계된 진단적 다중모달 벤치마크인 CSVQA를 제안한다. 우리의 벤치마크는 다양한 STEM 분야에 걸쳐 1,378개의 신중하게 구성된 질문-답변 쌍을 포함하며, 각각 도메인 지식, 시각적 증거 통합, 고차원적 추론을 요구한다. 기존의 다중모달 벤치마크와 비교하여, CSVQA는 실제 과학적 내용과 복잡한 추론에 더 큰 중점을 둔다. 또한, 우리는 모델 예측이 선별된 설명을 기반으로 유효한 중간 추론 단계에 의해 뒷받침되는지를 체계적으로 평가하기 위한 엄격한 평가 프로토콜을 제안한다. 이 벤치마크에서 15개의 VLM을 종합적으로 평가한 결과, 상위 순위의 독점 모델조차 49.6%의 정확도에 그치는 등 주목할 만한 성능 격차가 나타났다. 이러한 실증적 증거는 VLM의 과학적 추론 능력 향상이 시급함을 강조한다. 우리의 CSVQA는 https://huggingface.co/datasets/Skywork/CSVQA에서 공개되었다.
VLM 기반 GUI 에이전트를 구축하는 데 있어 주요 과제 중 하나는 시각적 접지(visual grounding)입니다. 이는 시각적 콘텐츠와 텍스트 기반 계획을 모두 고려하여 동작 실행을 위한 적절한 화면 영역을 찾아내는 작업을 의미합니다. 기존 연구 대부분은 이를 텍스트 기반 좌표 생성 작업으로 공식화했습니다. 그러나 이러한 접근법은 몇 가지 한계를 가지고 있습니다: 약한 공간-의미적 정렬, 모호한 감독 대상 처리의 어려움, 그리고 화면 좌표의 밀집성과 Vision Transformer와 같은 모델이 추출하는 패치 수준의 거친 시각적 특징 간의 불일치 등이 그것입니다. 본 논문에서는 좌표 없이 GUI 접지를 수행하는 VLM 기반 방법인 GUI-Actor를 제안합니다. GUI-Actor의 핵심은 전용 <ACTOR> 토큰을 모든 관련 시각적 패치 토큰과 정렬하도록 학습하는 주의 기반 동작 헤드를 도입한 것으로, 이를 통해 모델이 단일 순방향 전파에서 하나 이상의 동작 영역을 제안할 수 있게 합니다. 이를 바탕으로, 우리는 동작 실행을 위해 제안된 후보들 중에서 가장 타당한 동작 영역을 평가하고 선택하기 위한 접지 검증기(grounding verifier)를 추가로 설계했습니다. 광범위한 실험을 통해 GUI-Actor가 여러 GUI 동작 접지 벤치마크에서 기존 최첨단 방법들을 능가하며, 보이지 않는 화면 해상도와 레이아웃에 대한 일반화 능력도 향상되었음을 확인했습니다. 특히, GUI-Actor-7B는 ScreenSpot-Pro에서 UI-TARS-72B(38.1)를 능가하며, Qwen2-VL을 백본으로 사용했을 때 40.7, Qwen2.5-VL을 사용했을 때 44.6의 점수를 기록했습니다. 또한, 검증기를 통합함으로써 새로 도입된 동작 헤드(~100M 파라미터, 7B 모델 기준)만을 미세 조정하고 VLM 백본을 고정 상태로 유지하는 것만으로도 기존 최첨단 모델과 비슷한 성능을 달성할 수 있음을 확인했습니다. 이는 GUI-Actor가 기본 VLM의 일반적인 강점을 훼손하지 않으면서도 효과적인 접지 능력을 부여할 수 있음을 보여줍니다.
공간 추론은 인지 심리학의 핵심 요소이며, 현재의 시각-언어 모델(VLMs)에게 주요한 병목 현상으로 남아 있습니다. 기본적인 공간 관계, 예를 들어 좌우 구분, 가까움과 멂의 차이, 물체 계수 등을 이해하는 VLMs의 능력을 평가하거나 개선하기 위한 광범위한 연구가 진행되어 왔지만, 이러한 과제들은 공간 추론의 가장 기본적인 수준에 불과합니다. 본 연구에서는 인지 심리학에 기반을 둔 포괄적이고 도전적인 공간 추론 벤치마크인 OmniSpatial을 소개합니다. OmniSpatial은 동적 추론, 복잡한 공간 논리, 공간 상호작용, 관점 수용이라는 네 가지 주요 범주와 50개의 세부 범주를 다룹니다. 인터넷 데이터 크롤링과 신중한 수동 주석을 통해 1,500개 이상의 질문-답변 쌍을 구성했습니다. 광범위한 실험을 통해 오픈소스 및 클로즈드소스 VLMs, 그리고 기존의 추론 및 공간 이해 모델들이 포괄적인 공간 이해에 있어 상당한 한계를 보임을 확인했습니다. 또한 실패 사례를 분석하고 향후 연구를 위한 잠재적인 방향을 제안합니다.
최근의 고급 대형 추론 모델(LRMs)은 확장된 사고의 연쇄(CoT) 추론을 활용하여 복잡한 작업을 해결하며 최첨단 성능을 달성하고 있습니다. 그러나 이러한 성공에도 불구하고, 우리는 중요한 문제를 발견했습니다: LRMs에 의해 해결된 단순 작업의 상당 부분이 비추론적 대형 언어 모델(LLMs)을 사용하여 훨씬 적은 토큰으로도 해결될 수 있다는 점입니다. 이는 복잡한 추론이 항상 필요하지 않을 수 있음을 시사합니다. 이를 해결하기 위해, 우리는 LRMs의 추론 궤적을 체계적으로 분석하고, 식별된 패러다임과 LLM-Judge를 활용하여 이러한 궤적을 '불필요한 추론(Redundant Reasoning)' 또는 '필수적인 추론(Essential Reasoning)'으로 분류하는 방법을 제시합니다. 또한, 우리는 OThink-R1이라는 방법을 소개합니다. 이 방법은 논리적 타당성을 유지하면서 불필요한 추론 단계를 제거합니다. OThink-R1은 단순한 문제에 대해서는 비사고 모드(빠른 사고)를 동적으로 사용하고, 복잡한 문제에 대해서는 신중한 사고(느린 사고)를 수행합니다. 수학적 문제와 질의응답 작업에 대한 실험 결과, OThink-R1은 정확도를 저하시키지 않으면서 평균적으로 거의 23%의 추론 중복을 줄임으로써 효율적인 추론 모델을 위한 실용적인 지침을 제공합니다. 코드는 https://github.com/AgenticIR-Lab/OThink-R1에서 확인할 수 있습니다.
다중모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 최근 몇 년 동안 급속한 발전을 이루어 왔습니다. 그러나 금융 분야에서는 효과적이고 전문적인 다중모드 평가 데이터셋이 현저히 부족한 상황입니다. 금융 분야에서 MLLMs의 발전을 촉진하기 위해, 우리는 FinMME를 소개합니다. FinMME는 18개의 금융 도메인과 6개의 자산 클래스에 걸쳐 10가지 주요 차트 유형과 21가지 하위 유형을 포함한 11,000개 이상의 고품질 금융 연구 샘플을 포괄합니다. 우리는 20명의 주석자와 신중하게 설계된 검증 메커니즘을 통해 데이터 품질을 보장합니다. 또한, 환각 패널티와 다차원 능력 평가를 통합한 평가 시스템인 FinScore를 개발하여 편견 없는 평가를 제공합니다. 광범위한 실험 결과는 GPT-4o와 같은 최첨단 모델조차 FinMME에서 만족스럽지 못한 성능을 보여주며, 이 데이터셋의 도전적인 특성을 강조합니다. 이 벤치마크는 다양한 프롬프트 하에서 예측 변동이 1% 미만으로 유지되며 높은 견고성을 보여주며, 기존 데이터셋에 비해 우수한 신뢰성을 입증합니다. 우리의 데이터셋과 평가 프로토콜은 https://huggingface.co/datasets/luojunyu/FinMME와 https://github.com/luo-junyu/FinMME에서 확인할 수 있습니다.
다중모달 대형 언어 모델(MLLMs)의 놀라운 발전은 이를 다리 달린 로봇과 같은 물리적 개체로 확장하려는 관심을 끌어모으고 있습니다. 이는 일반적으로 MLLMs가 다중모달 이해 능력을 파악할 뿐만 아니라 시각-공간 추론 및 물리적 상호작용 능력을 통합해야 함을 요구합니다. 그러나 기존 방법들은 이러한 능력들의 근본적인 차이로 인해 이를 통합하는 데 어려움을 겪고 있습니다. 본 논문에서는 실세계에서의 인지, 추론 및 제어를 위한 통합 프레임워크인 Visual Embodied Brain(VeBrain)을 제시합니다. VeBrain은 로봇 제어를 2D 시각 공간에서의 일반적인 텍스트 기반 MLLM 작업으로 재구성함으로써 다양한 작업의 목표와 매핑 공간을 통일합니다. 그런 다음, MLLMs에서 나오는 텍스트 제어 신호를 실제 로봇의 동작 정책으로 변환하기 위한 새로운 로봇 어댑터를 제안합니다. 데이터 관점에서, 우리는 VeBrain의 다양한 능력을 포괄하는 고품질 명령 데이터셋인 VeBrain-600k를 추가로 소개합니다. VeBrain-600k에서는 수백 시간을 들여 데이터를 수집, 정리 및 주석 처리하고, 다중모달 사고의 연쇄(CoT)를 채택하여 다양한 능력을 단일 대화로 혼합합니다. 13개의 다중모달 벤치마크와 5개의 공간 지능 벤치마크에서의 광범위한 실험을 통해 VeBrain이 Qwen2.5-VL과 같은 기존 MLLMs보다 우수한 성능을 보임을 입증합니다. 다리 달린 로봇과 로봇 팔에 배포될 때, VeBrain은 기존 방법에 비해 강력한 적응성, 유연성 및 구성 능력을 보여줍니다. 예를 들어, Qwen2.5-VL과 비교하여 VeBrain은 MMVet에서 +5.6%의 상당한 성능 향상을 달성할 뿐만 아니라 다리 달린 로봇 작업에서도 평균 +50%의 성능 향상을 보입니다.
디퓨전 LLM은 기존의 자기회귀적 LLM에 비해 유망한 대안으로 떠올랐으며, 런타임 효율성의 상당한 개선 가능성을 제공합니다. 그러나 기존의 디퓨전 모델은 정규 표현식과 같은 사용자 지정 형식적 제약 조건을 확실하게 강제할 수 있는 능력이 부족하여, 고정 스키마 JSON 생성과 같은 구조화된 출력이 필요한 작업에 대해 신뢰할 수 없습니다. 토큰을 순차적으로 생성하는 자기회귀 모델과 달리, 디퓨전 LLM은 토큰 블록을 병렬로 예측합니다. 이러한 병렬성은 순차적 토큰 예측을 위해 설계된 기존의 제약 디코딩 알고리즘이 실제 출력 분포를 보존하는 데 비효율적이게 만듭니다. 이러한 한계를 해결하기 위해, 우리는 동적 프로그래밍 기반의 제약 디코딩 전략인 DINGO를 제안합니다. DINGO는 효율적이며 확률 분포를 보존하는 것이 증명 가능한 방법으로, 사용자가 지정한 정규 표현식을 엄격히 만족시키면서 모델의 예측 분포 하에서 가장 높은 확률을 가진 출력 문자열을 샘플링할 수 있게 합니다. 표준 기호 수학 및 JSON 생성 벤치마크에서 DINGO는 제약 없는 추론에 비해 최대 68% 포인트의 성능 향상을 달성했습니다.
대규모 시각-언어 모델(LVLMs)은 최근 구체화된 추론과 로봇 제어를 결합함으로써 로봇 공학의 발전에 큰 가능성을 보여주고 있습니다. 일반적인 접근 방식은 지도 미세 조정(SFT)을 사용하여 로봇 제어와 관련된 구체화된 추론 작업에 대해 학습하는 것입니다. 그러나 SFT 데이터셋은 종종 경험적으로 구성되며 로봇 제어 개선을 위해 명시적으로 최적화되지 않습니다. 더욱이, SFT는 종종 치명적인 망각과 일반화 성능 저하와 같은 문제를 야기합니다. 이러한 한계를 해결하기 위해, 우리는 로봇 제어를 위한 구체화된 추론을 강화하기 위해 강화 학습을 활용하는 새로운 프레임워크인 Robot-R1을 소개합니다. Robot-R1은 전문가 시연에서 도출된 현재 장면 이미지와 환경 메타데이터를 조건으로 하여 작업 완료에 필요한 다음 키포인트 상태를 예측하는 방법을 학습합니다. DeepSeek-R1 학습 접근법에서 영감을 받은 Robot-R1은 추론 기반 응답을 샘플링하고 더 정확한 예측으로 이어지는 응답을 강화합니다. 우리의 실험은 Robot-R1으로 훈련된 모델이 구체화된 추론 작업에서 SFT 방법을 능가하는 것을 보여줍니다. 단 7B 파라미터만을 가지고 있음에도 불구하고, Robot-R1은 공간 및 기본 동작 추론과 같은 저수준 동작 제어와 관련된 추론 작업에서 GPT-4o를 능가합니다.
디퓨전 트랜스포머(DiTs)가 비디오 생성 분야에서 획기적인 성과를 거두었지만, 이러한 장기간 시퀀스 생성 작업은 여전히 어텐션 메커니즘의 2차 복잡성으로 인해 상당한 추론 지연이 발생합니다. 비디오 디퓨전 트랜스포머(vDiT)의 어텐션 맵을 상세히 분석한 결과, 우리는 세 가지 반복적인 희소성 패턴을 확인했습니다: 대각선, 다중 대각선, 그리고 수직 줄무늬 구조입니다. 또한 3-6%의 어텐션 헤드를 생략할 수도 있습니다. 중요한 점은 이러한 패턴이 레이어 깊이와 헤드 위치와 강한 상관관계를 보이지만, 입력 콘텐츠에 대한 의존성은 제한적이라는 것입니다. 이러한 발견을 바탕으로, 우리는 vDiT를 위한 희소성 가속 프레임워크인 Sparse-vDiT를 제안합니다. 이 프레임워크는 다음과 같이 구성됩니다: 1) 각각의 희소성 패턴에 대해 계산 효율적인 구현으로 밀집 어텐션을 대체하는 패턴 최적화 희소 커널. 2) 하드웨어 인식 비용 모델링을 통해 각 레이어와 헤드에 대해 최적의 희소 계산 전략을 선택하는 오프라인 희소 디퓨전 탐색 알고리즘. 최적의 구성을 결정한 후, 동일한 어텐션 전략을 공유하는 레이어 내의 헤드를 융합하여 추론 효율성을 향상시킵니다. 최신 vDiT 모델(CogVideoX1.5, HunyuanVideo, Wan2.1)에 통합된 Sparse-vDiT는 각각 2.09배, 2.38배, 1.67배의 이론적 FLOP 감소와 1.76배, 1.85배, 1.58배의 실제 추론 속도 향상을 달성하면서도 높은 시각적 충실도를 유지하며, PSNR 값은 각각 24.13, 27.09, 22.59에 도달했습니다. 우리의 연구는 vDiT의 잠재적 구조적 희소성이 장기간 비디오 합성을 위해 체계적으로 활용될 수 있음을 보여줍니다.
멀티모달 대형 언어 모델(MLLMs)의 발전에도 불구하고, 미세한 동영상 움직임 이해 능력은 여전히 심각한 한계를 보이고 있습니다. 이러한 모델들은 프레임 간 차이를 잘 파악하지 못하며, 미묘한 시각적 단서를 평균화하거나 무시하는 경향이 있습니다. 또한, 시각적 프롬프팅이 정적 이미지에서는 잠재력을 보였지만, 특히 미세한 움직임 이해를 위한 동영상의 시간적 복잡성에 대한 적용은 거의 탐구되지 않았습니다. 우리는 내재된 능력을 해제하여 MLLMs의 움직임 인식을 향상시키고, 객체와 카메라 움직임 단서를 분리하기 위한 독특한 시각적 특징을 가능하게 할 수 있는지 조사합니다. 본 연구에서는 훈련 없이도 미세한 움직임 이해를 효과적으로 개선하기 위해 객체 중심 시각적 스포트라이트와 모션 블러를 시각적 프롬프트로 활용하는 새로운 제로샷 방법인 MotionSight를 소개합니다. 이를 가치 있는 데이터 자산으로 전환하기 위해, 우리는 계층적 주석(包括 SFT 및 선호 데이터), 약 40,000개의 동영상 클립 및 약 87,000개의 질문-답변 쌍을 포함한 최초의 대규모 미세 동영상 움직임 이해 데이터셋인 MotionVid-QA를 구축했습니다. 실험 결과, MotionSight는 오픈소스 모델 중 최고의 성능을 달성하며 상용 모델과도 경쟁력을 보였습니다. 특히, 미세한 움직임 이해를 위한 새로운 제로샷 기술과 대규모 고품질 데이터셋을 제시합니다. 모든 코드와 주석은 공개될 예정입니다.
우리는 제로샷 주체 기반 생성에서 주체 충실도를 향상시키는 새로운 비교 학습 프레임워크인 Subject Fidelity Optimization(SFO)을 제안한다. 사전 학습 단계에서와 같이 확산 손실만을 사용하고 양성 타겟에만 의존하는 지도 미세 조정 방법을 넘어, SFO는 합성 음성 타겟을 도입하고 쌍별 비교를 통해 모델이 음성보다 양성을 선호하도록 명시적으로 안내한다. 음성 타겟을 위해, 우리는 비용이 많이 드는 인간 주석 없이도 시각적 및 텍스트적 단서를 의도적으로 저하시켜 독특하고 유익한 음성을 자동으로 생성하는 Condition-Degradation Negative Sampling(CDNS)을 제안한다. 또한, 주체 세부 사항이 나타나는 중간 단계에 미세 조정을 집중하기 위해 확산 시간 단계를 재조정한다. 광범위한 실험을 통해 SFO와 CDNS가 주체 기반 생성 벤치마크에서 주체 충실도와 텍스트 정렬 모두에서 기준선을 크게 능가함을 입증한다. 프로젝트 페이지: https://subjectfidelityoptimization.github.io/
우리는 CURE라는 새로운 강화 학습 프레임워크를 제안합니다. 이 프레임워크는 전용 보상 설계를 통해 코드 생성과 단위 테스트 생성 능력을 상호작용 결과에 기반하여 공동으로 진화시키며, 어떠한 정답 코드도 감독으로 사용하지 않습니다. 이 접근 방식은 유연하고 확장 가능한 학습을 가능하게 하며, 단위 테스터가 코더의 실수로부터 직접 학습할 수 있도록 합니다. 우리가 도출한 ReasonFlux-Coder-7B 및 14B 모델은 Qwen2.5-Instruct 모델에 대한 최적화 후 코드 생성 정확도를 5.3%, Best-of-N 정확도를 9.0% 향상시켜, 비슷한 규모의 Qwen-Coder, DeepSeek-Coder 및 Seed-Coder를 능가합니다. 이 모델들은 테스트 시간 스케일링 및 에이전트 코딩과 같은 다운스트림 작업으로 자연스럽게 확장되어 기본 모델 대비 8.1%의 개선을 달성합니다. long-CoT 모델의 경우, 우리의 ReasonFlux-Coder-4B는 Qwen3-4B를 꾸준히 능가하면서 단위 테스트 생성에서 64.8%의 추론 효율성을 달성합니다. 특히, 우리 모델이 기본 모델에 대한 강화 학습의 효과적인 보상 모델로도 사용될 수 있음을 발견했습니다. 프로젝트: https://github.com/Gen-Verse/CURE
최근 AI 생성 콘텐츠(AIGC)의 발전으로 애니메이션 제작 속도가 크게 빨라졌습니다. 매력적인 애니메이션을 제작하기 위해서는 내러티브 스크립트와 캐릭터 참조를 포함한 일관된 다중 샷 비디오 클립을 생성하는 것이 필수적입니다. 그러나 기존의 공개 데이터셋은 주로 전반적인 설명이 포함된 실제 시나리오에 초점을 맞추고 있으며, 일관된 캐릭터 안내를 위한 참조 이미지가 부족합니다. 이러한 격차를 해소하기 위해, 우리는 참조 기반 다중 샷 애니메이션 데이터셋인 AnimeShooter를 소개합니다. AnimeShooter는 자동화된 파이프라인을 통해 포괄적인 계층적 주석과 샷 간의 강력한 시각적 일관성을 제공합니다. 스토리 수준의 주석은 스토리라인, 주요 장면, 참조 이미지가 포함된 주요 캐릭터 프로필 등 내러티브 개요를 제공하며, 샷 수준의 주석은 스토리를 연속적인 샷으로 분해하여 각 샷에 장면, 캐릭터, 내러티브 및 시각적 설명 캡션을 추가합니다. 또한, 전용 하위 집합인 AnimeShooter-audio는 각 샷에 대한 동기화된 오디오 트랙과 오디오 설명 및 사운드 소스를 제공합니다. AnimeShooter의 효과를 입증하고 참조 기반 다중 샷 비디오 생성 작업을 위한 기준을 설정하기 위해, 우리는 다중 모드 대형 언어 모델(MLLM)과 비디오 확산 모델을 활용한 AnimeShooterGen을 소개합니다. 참조 이미지와 이전에 생성된 샷은 먼저 MLLM에 의해 처리되어 참조와 컨텍스트를 모두 인식하는 표현을 생성한 후, 이를 확산 모델의 조건으로 사용하여 다음 샷을 디코딩합니다. 실험 결과, AnimeShooter에서 훈련된 모델은 샷 간의 뛰어난 시각적 일관성과 참조 시각적 안내에 대한 충실도를 보여주며, 이는 우리 데이터셋이 일관된 애니메이션 비디오 생성에 있어 가치가 있음을 강조합니다.
우리는 임의의 해상도와 종횡비로 이미지를 합성할 수 있는 새로운 생성 모델링 패러다임인 네이티브 해상도 이미지 합성을 소개한다. 이 접근법은 가변 길이 시각적 토큰을 네이티브하게 처리함으로써 기존의 고정 해상도 및 정사각형 이미지 방법의 한계를 극복한다. 이를 위해, 우리는 디노이징 프로세스 내에서 다양한 해상도와 종횡비를 명시적으로 모델링하도록 설계된 네이티브 해상도 디퓨전 트랜스포머(NiT) 아키텍처를 제안한다. 고정된 형식의 제약에서 벗어난 NiT는 광범위한 해상도와 종횡비를 가진 이미지로부터 내재적인 시각적 분포를 학습한다. 특히, 단일 NiT 모델은 ImageNet-256x256 및 512x512 벤치마크에서 동시에 최첨단 성능을 달성한다. 놀랍게도, 고급 대형 언어 모델에서 볼 수 있는 강력한 제로샷 능력과 유사하게, ImageNet만으로 훈련된 NiT는 우수한 제로샷 일반화 성능을 보여준다. 이 모델은 이전에 보지 못한 고해상도(예: 1536 x 1536)와 다양한 종횡비(예: 16:9, 3:1, 4:3)에서도 고품질의 이미지를 성공적으로 생성한다(그림 1 참조). 이러한 결과는 네이티브 해상도 모델링이 시각적 생성 모델링과 고급 LLM 방법론 사이의 가교로서의 잠재력을 보여준다.
긴 영상 생성은 엔터테인먼트 및 시뮬레이션과 같은 분야에서의 광범위한 응용으로 인해 점점 더 많은 관심을 받고 있습니다. 그러나 시간적으로 일관되고 시각적으로 매력적인 긴 시퀀스를 합성하는 것은 여전히 큰 도전 과제로 남아 있습니다. 기존의 접근 방식은 주로 짧은 클립을 순차적으로 생성하고 연결하거나, 키 프레임을 생성한 후 계층적 방식으로 중간 프레임을 보간하는 방법을 사용합니다. 하지만 이러한 방법들은 여전히 시간적 반복이나 부자연스러운 전환과 같은 문제를 야기합니다. 본 논문에서는 계층적 긴 영상 생성 파이프라인을 재검토하고, 명시적으로 모션 가이던스를 도입한 LumosFlow 프레임워크를 소개합니다. 구체적으로, 우리는 먼저 Large Motion Text-to-Video Diffusion Model (LMTV-DM)을 사용하여 더 큰 모션 간격을 가진 키 프레임을 생성함으로써 생성된 긴 영상에서의 내용 다양성을 보장합니다. 키 프레임 간의 문맥적 전환을 보간하는 복잡성을 고려하여, 우리는 중간 프레임 보간을 모션 생성과 사후 정제로 분해합니다. 각 키 프레임 쌍에 대해, Latent Optical Flow Diffusion Model (LOF-DM)은 복잡하고 큰 모션의 광학 흐름을 합성하며, MotionControlNet은 이후에 왜곡된 결과를 정제하여 품질을 향상시키고 중간 프레임 생성을 안내합니다. 기존의 비디오 프레임 보간과 비교하여, 우리는 15배의 보간을 달성하여 인접 프레임 간의 합리적이고 연속적인 모션을 보장합니다. 실험 결과, 우리의 방법은 일관된 모션과 외관을 가진 긴 영상을 생성할 수 있음을 보여줍니다. 코드와 모델은 논문 채택 후 공개될 예정입니다. 프로젝트 페이지: https://jiahaochen1.github.io/LumosFlow/
대규모 언어 모델(LLMs)의 인-컨텍스트 학습 메커니즘에서 영감을 받아, 일반화 가능한 시각적 프롬프트 기반 이미지 편집의 새로운 패러다임이 등장하고 있습니다. 기존의 단일 참조 방식은 주로 스타일이나 외관 조정에 초점을 맞추며, 비강체 변환에는 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 소스-타겟 이미지 쌍을 활용하여 콘텐츠 인식 편집 의도를 추출하고 새로운 쿼리 이미지에 전달하는 방법을 제안합니다. 이를 위해, 우리는 Diffusion Transformer(DiT) 기반 모델이 최소한의 예제로부터 시각적 변환을 효과적으로 포착하고 적용할 수 있도록 하는 경량 모듈인 RelationAdapter를 소개합니다. 또한, 모델의 일반화 및 적응 능력을 시각적 프롬프트 기반 시나리오에서 평가하기 위해 218가지 다양한 편집 작업으로 구성된 포괄적인 데이터셋인 Relation252K를 제안합니다. Relation252K에 대한 실험 결과, RelationAdapter는 모델의 편집 의도 이해 및 전달 능력을 크게 향상시켜 생성 품질과 전반적인 편집 성능에서 상당한 개선을 이끌어냄을 보여줍니다.
디퓨전 모델은 비디오 합성 분야에서 뛰어난 성과를 거두었지만, 반복적인 노이즈 제거 단계가 필요하여 상당한 계산 비용이 발생합니다. 컨시스턴시 모델은 디퓨전 모델의 가속화에 있어 큰 진전을 이루었습니다. 그러나 이를 비디오 디퓨전 모델에 직접 적용할 경우, 시간적 일관성과 외관 디테일이 심각하게 저하되는 문제가 발생합니다. 본 논문에서는 컨시스턴시 모델의 학습 동역학을 분석함으로써, 증류 과정에서 발생하는 주요 학습 동역학적 충돌을 확인했습니다: 서로 다른 시간 단계에서 최적화 그래디언트와 손실 기여도 간에 상당한 차이가 존재합니다. 이러한 차이는 증류된 학생 모델이 최적의 상태에 도달하는 것을 방해하여, 시간적 일관성이 손상되고 외관 디테일이 저하되는 결과를 초래합니다. 이 문제를 해결하기 위해, 우리는 파라미터 효율적인 듀얼-전문가 컨시스턴시 모델(DCM)을 제안합니다. 여기서 시맨틱 전문가는 시맨틱 레이아웃과 모션 학습에 집중하고, 디테일 전문가는 미세한 디테일 정제에 특화됩니다. 더 나아가, 우리는 시맨틱 전문가의 모션 일관성을 개선하기 위해 시간적 일관성 손실(Temporal Coherence Loss)을 도입하고, 디테일 전문가의 합성 품질을 향상시키기 위해 GAN 및 특징 매칭 손실(Feature Matching Loss)을 적용합니다. 우리의 접근 방식은 샘플링 단계를 크게 줄이면서도 최첨단 시각적 품질을 달성하여, 비디오 디퓨전 모델 증류에서 전문가 특화의 효과를 입증합니다. 우리의 코드와 모델은 https://github.com/Vchitect/DCM에서 확인할 수 있습니다.
텍스트-투-비디오 확산 모델은 움직임, 물리학, 동적 상호작용과 같은 시간적 측면을 모델링하는 데 있어서 잘 알려진 한계를 가지고 있습니다. 기존의 접근 방식은 이러한 한계를 극복하기 위해 모델을 재학습하거나 시간적 일관성을 강제하기 위해 외부 조건 신호를 도입하는 방법을 사용했습니다. 본 연구에서는 추가적인 학습이나 보조 입력 없이 사전 학습된 모델의 예측에서 직접 의미 있는 시간적 표현을 추출할 수 있는지 탐구합니다. 우리는 FlowMo라는 새로운 학습이 필요 없는 가이던스 방법을 소개하며, 이 방법은 각 확산 단계에서 모델의 예측만을 사용하여 움직임의 일관성을 향상시킵니다. FlowMo는 먼저 연속된 프레임에 해당하는 잠재 변수 간의 거리를 측정하여 외관 편향이 제거된 시간적 표현을 도출합니다. 이는 모델이 예측한 암묵적인 시간적 구조를 강조합니다. 그런 다음 시간 차원에서 패치 단위의 분산을 측정하여 움직임 일관성을 추정하고, 샘플링 과정에서 이 분산을 동적으로 줄이도록 모델을 가이드합니다. 다양한 텍스트-투-비디오 모델에 걸친 광범위한 실험을 통해 FlowMo가 시각적 품질이나 프롬프트 정렬을 희생하지 않으면서도 움직임 일관성을 크게 개선함을 입증하였으며, 이는 사전 학습된 비디오 확산 모델의 시간적 충실도를 향상시키는 효과적인 플러그 앤 플레이 솔루션을 제공합니다.
고품질 데이터셋은 머신러닝 모델의 훈련과 평가에 필수적이지만, 특히 정확한 인간 주석이 포함된 데이터셋의 생성은 여전히 큰 과제로 남아 있습니다. 많은 데이터셋 논문 제출물은 독창성, 다양성 또는 엄격한 품질 관리가 부족하며, 이러한 결함은 동료 검토 과정에서 종종 간과됩니다. 또한 제출물은 데이터셋 구성과 속성에 대한 필수적인 세부 사항을 빈번히 누락합니다. 데이터시트와 같은 기존 도구들은 투명성을 촉진하기 위해 노력하지만, 이들은 주로 설명적이며 데이터 품질을 평가하기 위한 표준화되고 측정 가능한 방법을 제공하지 않습니다. 마찬가지로, 학회의 메타데이터 요구사항은 책임성을 촉진하지만 일관되게 시행되지는 않습니다. 이러한 한계를 해결하기 위해, 본 포지션 논문은 특히 제출량이 계속 증가함에 따라 데이터셋 검토 과정에 체계적이고 루브릭 기반의 평가 지표를 통합할 것을 주장합니다. 또한, 우리는 전용 도구와 LLM-as-a-judge 접근법을 포함한 확장 가능하고 비용 효율적인 합성 데이터 생성 방법을 탐구하여 보다 효율적인 평가를 지원합니다. 행동 촉구로서, 우리는 인간 및 모델 생성 데이터셋의 품질을 평가하기 위한 구조화된 프레임워크인 DataRubrics를 소개합니다. 최근의 LLM 기반 평가 기술을 활용한 DataRubrics는 재현 가능하고 확장 가능하며 실행 가능한 데이터셋 품질 평가 솔루션을 제공하여, 저자와 검토자 모두가 데이터 중심 연구에서 더 높은 기준을 유지할 수 있도록 합니다. 또한, 우리는 LLM 기반 평가의 재현성을 지원하기 위해 코드를 https://github.com/datarubrics/datarubrics에서 공개합니다.
최근 비디오 확산 기술이 크게 발전했음에도 불구하고, 대부분의 운전 데이터셋에서 사고 사례가 부족하기 때문에 현실적인 자동차 충돌 영상을 생성하는 데 어려움을 겪고 있다. 교통 안전을 개선하기 위해서는 현실적이고 제어 가능한 사고 시뮬레이션이 필요하다. 이 문제를 해결하기 위해, 우리는 바운딩 박스, 충돌 유형, 초기 이미지 프레임과 같은 신호를 조건으로 하는 제어 가능한 자동차 충돌 비디오 생성 모델인 Ctrl-Crash를 제안한다. 우리의 접근 방식은 입력의 작은 변화가 극적으로 다른 충돌 결과를 초래할 수 있는 반사실적 시나리오 생성을 가능하게 한다. 추론 시 세밀한 제어를 지원하기 위해, 우리는 각 조건 신호에 대해 독립적으로 조정 가능한 스케일을 가진 분류자 없는 지도를 활용한다. Ctrl-Crash는 정량적 비디오 품질 지표(예: FVD 및 JEDi)와 이전의 확산 기반 방법과 비교한 물리적 현실감 및 비디오 품질에 대한 인간 평가 기반의 정성적 측정에서 최첨단 성능을 달성한다.
대규모 언어 모델(LLMs)을 활용한 코드 생성, 흔히 '바이브 코딩'이라 불리는 방식은 생산 환경에서 점차 채택되고 있지만, 특히 보안(예: SQL 인젝션 취약점)과 유지보수성(예: 타입 어노테이션 누락) 측면에서 코드 품질을 보장하지 못합니다. 기존의 방법들, 예를 들어 지도 학습을 통한 미세 조정이나 규칙 기반 후처리는 노동 집약적인 주석 작업이나 취약한 휴리스틱에 의존하여 확장성과 효과성이 제한됩니다. 우리는 REAL이라는 강화 학습 프레임워크를 제안하며, 이는 프로그램 분석 기반 피드백을 통해 LLMs가 생산 수준의 코드를 생성하도록 유도합니다. 구체적으로, REAL은 두 가지 자동화된 신호를 통합합니다: (1) 보안 또는 유지보수성 결함을 탐지하는 프로그램 분석과 (2) 기능적 정확성을 보장하는 단위 테스트입니다. 기존 연구와 달리, 우리의 프레임워크는 프롬프트에 구애받지 않고 참조 자료가 필요 없어, 수동 개입 없이도 확장 가능한 감독이 가능합니다. 여러 데이터셋과 모델 규모에 걸친 실험 결과, REAL은 기능성과 코드 품질을 동시에 평가하는 데 있어 최신 방법들을 능가하는 성능을 보여줍니다. 우리의 작업은 빠른 프로토타이핑과 생산 준비가 된 코드 간의 간극을 메우며, LLMs가 속도와 품질을 모두 제공할 수 있도록 합니다.
지식 증류(Knowledge Distillation, KD)는 교사 모델의 지식을 활용하여 컴팩트하고 작업 특화된 모델을 훈련시키기 위해 널리 사용되는 프레임워크입니다. 그러나 주석 비용을 최소화하기 위해 반복적인 샘플 선택을 목표로 하는 능동 학습(Active Learning, AL)에의 적용은 아직 충분히 탐구되지 않았습니다. 이러한 격차는 KD가 일반적으로 충분한 레이블 데이터에 접근할 수 있다고 가정하는 반면, AL은 작업 특화된 교사 모델이 종종 부재한 데이터가 부족한 시나리오에서 작동하기 때문입니다. 본 논문에서는 대규모 시각-언어 모델(Vision-Language Models, VLMs)의 제로샷 및 퓨샷 능력을 활용하여 AL과 KD를 통합한 ActiveKD 프레임워크를 소개합니다. ActiveKD의 핵심 요소는 VLMs의 구조화된 예측 편향, 즉 그들의 예측이 확률 공간에서 클러스터를 형성하는 특성입니다. 우리는 이 구조를 교사 모델의 귀납적 편향으로 간주하며, 이는 학생 모델의 학습에 유익한 일반화 가능한 출력 패턴을 포착합니다. 이 편향을 활용하기 위해, 우리는 확률 공간에서의 커버리지를 극대화하는 선택 전략인 확률적 코어셋(Probabilistic CoreSet, PCoreSet)을 제안합니다. PCoreSet은 범주적으로 다양한 레이블 없는 샘플을 전략적으로 선택함으로써 제한된 주석 예산 하에서 교사 지식의 더 효율적인 전달을 가능하게 합니다. 11개의 데이터셋에 대한 평가 결과, PCoreSet은 ActiveKD 프레임워크 내에서 기존 선택 방법들을 지속적으로 능가하며, AL과 KD의 교차점에서의 연구를 진전시킵니다.
대규모 언어 모델은 도구를 사용할 수 있는 지능형 에이전트의 기반으로 빠르게 자리 잡고 있습니다. 그러나 이러한 에이전트를 훈련하는 것은 다양한 작업, 도구 및 평가 기준을 인간이 직접 생성하고 주석을 달아야 하기 때문에 어려운 과제입니다. 본 논문에서는 에이전트가 스스로 생성한 고품질 작업을 통해 훈련할 수 있는 Self-Challenging 프레임워크를 제안합니다. 이 프레임워크에서 에이전트는 먼저 도전자 역할을 맡아 주어진 도구와 상호작용한 후 작업을 생성합니다. 이러한 작업은 Code-as-Task라는 새로운 일반적인 문제 클래스로 정의되며, 이는 명령어, 검증 함수, 그리고 테스트 역할을 하는 솔루션 및 실패 사례로 구성되어 고품질 작업만을 선별할 수 있도록 합니다. 이후 에이전트는 실행자 역할을 맡아 이러한 작업에 대해 강화 학습을 수행하며, 평가 피드백을 보상으로 활용합니다. 기존의 다중 턴 도구 사용 에이전트 벤치마크인 M3ToolEval과 TauBench에서의 평가 결과, Self-Challenging 프레임워크는 Llama-3.1-8B-Instruct 모델에서 2배 이상의 성능 향상을 달성했으며, 이는 오직 자체 생성된 훈련 데이터만을 사용한 결과입니다.
본 논문에서는 이미지 도메인의 의미론적 혼합과 비디오 간의 격차를 해소하는 학습이 필요 없는 프레임워크인 MoCA-Video(Motion-Aware Concept Alignment in Video)를 소개한다. 생성된 비디오와 사용자가 제공한 참조 이미지가 주어졌을 때, MoCA-Video는 참조 이미지의 의미론적 특징을 비디오 내 특정 객체에 주입하면서 원래의 움직임과 시각적 맥락을 보존한다. 우리의 접근 방식은 대각선 디노이징 스케줄과 클래스 불가지론적 분할을 활용하여 잠재 공간에서 객체를 탐지하고 추적하며, 혼합된 객체의 공간적 위치를 정밀하게 제어한다. 시간적 일관성을 보장하기 위해, 모멘텀 기반 의미론적 보정과 감마 잔차 노이즈 안정화를 도입하여 부드러운 프레임 전환을 달성한다. MoCA의 성능을 평가하기 위해 표준 SSIM, 이미지 수준 LPIPS, 시간적 LPIPS를 사용하며, 소스 프롬프트와 수정된 비디오 프레임 간의 시각적 변화의 일관성과 효과성을 평가하기 위해 새로운 지표인 CASS(Conceptual Alignment Shift Score)를 제안한다. 자체 구축한 데이터셋을 사용하여, MoCA-Video는 학습이나 미세 조정 없이도 현재의 베이스라인을 능가하며, 우수한 공간적 일관성, 일관된 움직임, 그리고 상당히 높은 CASS 점수를 달성한다. MoCA-Video는 확산 노이즈 궤적에서의 구조화된 조작이 제어 가능하고 고품질의 비디오 합성을 가능하게 함을 입증한다.
실제 로봇 시뮬레이션 데이터를 원격 조작을 통해 획득하는 작업은 시간과 노력이 많이 드는 것으로 악명이 높다. 최근, 행동 기반 생성 모델은 안전 문제를 제거하고 유지 보수 노력을 줄이는 장점으로 인해 로봇 학습 및 시뮬레이션 분야에서 널리 채택되고 있다. 그러나 이러한 방법에서 사용되는 행동 시퀀스는 전역적으로 거친 정렬로 인해 제어 정밀도가 제한되고 일반화 성능이 떨어지는 문제가 있다. 이러한 한계를 해결하기 위해, 본 논문에서는 4D 의미적 점유 시퀀스를 세밀한 표현으로 활용하여 비디오 생성에 더 정확한 의미적 및 기하학적 지침을 제공하는 점유 중심 로봇 비디오 생성 프레임워크인 ORV를 제안한다. 점유 기반 표현을 활용함으로써 ORV는 시뮬레이션 데이터를 사실적인 로봇 비디오로 원활하게 변환하면서도 높은 시간적 일관성과 정밀한 제어 가능성을 보장한다. 또한, 본 프레임워크는 로봇 그리핑 작업의 다중 시점 비디오를 동시에 생성할 수 있는 기능을 지원하며, 이는 하위 로봇 학습 작업에 중요한 역량이다. 다양한 데이터셋과 하위 작업에서 수행된 광범위한 실험 결과는 ORV가 기존 베이스라인 방법들을 일관되게 능가함을 보여준다. 데모, 코드 및 모델: https://orangesodahub.github.io/ORV
대규모 언어 모델(LLM)의 생성 속도는 자동회귀 디코딩(autoregressive decoding)에 의해 병목 현상이 발생하며, 이는 토큰을 순차적으로 하나씩 예측하는 방식입니다. 반면, 확산 기반 대규모 언어 모델(diffusion large language models, dLLMs)은 이론적으로 병렬 토큰 생성을 가능하게 하지만, 실제로는 품질을 크게 저하시키지 않고서는 자동회귀 모델의 속도를 달성하는 데 어려움을 겪습니다. 따라서 우리는 병렬로 샘플링되는 토큰의 수를 동적으로 조절하는 새로운 방법인 적응형 병렬 디코딩(adaptive parallel decoding, APD)을 제안합니다. 이를 위해 dLLM의 주변 확률과 작은 보조 자동회귀 모델에서의 시퀀스 결합 확률 간의 곱셈 혼합(multiplicative mixture)을 정의합니다. 이는 일반적으로 작은 모델에서 초안을 작성하여 큰 자동회귀 검증 모델로부터 샘플링하는 스펙티브 디코딩(speculative decoding)의 표준 설정을 역전시킵니다. 또한, 우리는 KV 캐싱을 활성화하고 마스킹된 입력의 크기를 제한함으로써 APD를 더욱 최적화합니다. 종합적으로, 우리의 방법은 처리량과 품질 간의 유연한 트레이드오프를 위해 세 가지 조정 가능한 매개변수를 제시합니다. APD는 다운스트림 벤치마크에서 최소한의 품질 저하로 현저히 높은 처리량을 제공함을 보여줍니다.
현재 텍스트-to-SQL 분야의 자기 수정 접근법은 두 가지 중요한 한계에 직면해 있습니다: 1) 기존의 자기 수정 방법은 대형 언어 모델(LLM)의 재귀적 호출에 의존하여 계산 오버헤드가 기하급수적으로 증가하며, 2) LLM은 선언적 SQL 쿼리에 대한 효과적인 오류 탐지 및 수정을 구현하는 데 어려움을 겪습니다. 이는 근본적인 추론 경로를 제대로 보여주지 못하기 때문입니다. 본 연구에서는 SHARE(SLM 기반 계층적 액션 수정 보조 도구)를 제안하여 LLM이 더 정확한 오류 위치 파악과 효율적인 수정을 수행할 수 있도록 합니다. SHARE는 세 개의 특화된 소형 언어 모델(SLM)을 순차적 파이프라인으로 구성하며, 먼저 선언적 SQL 쿼리를 단계별 액션 트레이젝토리로 변환하여 근본적인 추론을 드러내고, 이어서 두 단계의 세분화된 정제 과정을 거칩니다. 또한, 데이터 효율적인 학습을 위한 새로운 계층적 자기 진화 전략을 제안합니다. 실험 결과는 SHARE가 다양한 LLM에서 강건성을 입증하면서도 자기 수정 능력을 효과적으로 향상시킴을 보여줍니다. 더 나아가, 종합적인 분석을 통해 SHARE가 데이터 프라이버시 제약이 있는 텍스트-to-SQL 애플리케이션에서 특히 유용한 저자원 학습 환경에서도 강력한 성능을 유지함을 확인했습니다.
시각화는 개념과 정보를 효과적으로 전달하는 데 중요한 역할을 합니다. 최근 추론 및 검색 강화 생성 기술의 발전으로 대형 언어 모델(LLMs)이 심층 연구를 수행하고 포괄적인 보고서를 생성할 수 있게 되었습니다. 이러한 진전에도 불구하고, 기존의 심층 연구 프레임워크는 주로 텍스트만으로 구성된 콘텐츠 생성에 초점을 맞추고 있어, 텍스트와 시각화가 결합된 자동 생성은 충분히 탐구되지 않고 있습니다. 이 새로운 과제는 정보를 효과적으로 전달하는 시각화를 설계하고 이를 텍스트 보고서와 효과적으로 통합하는 데 있어 주요한 도전 과제를 제시합니다. 이러한 도전 과제를 해결하기 위해, 우리는 시각화의 구조화된 텍스트 표현인 Formal Description of Visualization (FDV)를 제안합니다. FDV는 LLMs가 다양한 고품질 시각화를 학습하고 생성할 수 있도록 합니다. 이 표현을 기반으로, 우리는 Multimodal DeepResearcher라는 에이전트 기반 프레임워크를 소개합니다. 이 프레임워크는 작업을 네 단계로 분해합니다: (1) 연구, (2) 예시 보고서 텍스트화, (3) 계획, (4) 멀티모달 보고서 생성. 생성된 멀티모달 보고서의 평가를 위해, 우리는 100개의 다양한 주제를 입력으로 포함하고 5개의 전용 메트릭을 갖춘 MultimodalReportBench를 개발했습니다. 다양한 모델과 평가 방법을 통한 광범위한 실험은 Multimodal DeepResearcher의 효과를 입증합니다. 특히, 동일한 Claude 3.7 Sonnet 모델을 사용할 때, Multimodal DeepResearcher는 기준 방법 대비 82%의 전반적인 승률을 달성합니다.
공개된 대규모 추론 모델(LRM)인 R1의 출시와 함께, 연구자들은 일반적으로 R1의 긴 사고 연쇄(CoT) 추론을 기반으로 언어 모델을 학습시켜 새로운 LRM을 훈련시킵니다. 기존 연구에서는 LRM의 능력이 직접적인 증류를 통해 재현될 수 있음을 보여주었지만, 기존 모델(예: R1)에 대한 지속적인 의존은 이 분야의 발전에 있어 중요한 한계로 남아 있습니다. 독자적인 LRM 개발을 위한 첫걸음으로, 본 논문은 추론 시간 확장을 위해 훈련되지 않은 LLM을 사용하여 긴 CoT 데이터셋을 구축할 가능성을 탐구합니다. 이를 위해, 우리는 기존의 짧은 CoT LLM을 사용하여 주석이 달린 100K개의 CoT 근거로 구성된 Long CoT Collection 데이터셋을 제시합니다. 우리는 o1의 새로운 추론 전략을 짧은 CoT LLM에 도입하여 더 오래 생각할 수 있도록 하고, 과도한 사고 문제를 더 잘 관리하기 위해 사고 예산에 대한 제어 가능성을 도입하는 파이프라인을 개발했습니다. 우리의 광범위한 분석은 우리의 데이터셋이 R1과 비슷하거나 약간 낮은 품질을 달성함을 검증합니다. 또한, 우리의 실험은 우리의 데이터셋으로 훈련하는 것이 일반적인 추론 능력을 강화할 뿐만 아니라 강화 학습을 위한 강력한 기반을 제공한다는 것을 보여줍니다. 우리의 데이터로 초기화된 모델은 RLVR을 통해 2-3배 더 큰 성능 향상을 달성합니다.
대규모 언어 모델(LLM)의 최근 획기적인 발전은 지도 미세조정(SFT) 및 강화학습(RL)과 같은 기술을 통해, 특히 검증 가능한 답이 있는 수학적 및 논리적 문제에서 추론 능력을 효과적으로 향상시켰습니다. 선행 연구에 따르면, RL은 탐색 전략을 효과적으로 내재화하여 긴 사고의 연쇄(CoT) 추론을 가능하게 하며, 역추적(backtracking)이 학습된 능력으로 자연스럽게 나타납니다. 그러나 역추적의 정확한 이점, 특히 추론 개선에 얼마나 크게 기여하는지와 그 사용의 최적 범위는 아직 잘 이해되지 않고 있습니다. 본 연구에서는 Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, Self Reference 등 8가지 추론 과제에서 SFT와 RL 간의 역학을 체계적으로 조사합니다. 우리의 연구 결과는 SFT에서 워밍업으로 사용된 짧은 CoT 시퀀스가 콜드 스타트 RL과 비교했을 때 RL 훈련에 어느 정도 기여하지만, 과제가 점점 더 어려워질수록 이러한 기여도가 감소한다는 것을 보여줍니다. 이러한 관찰에 동기를 부여받아, 우리는 역추적 단계의 수를 체계적으로 변화시킨 합성 데이터셋을 구성하고, 정확성(내용) 또는 구조(즉, 역추적 빈도)의 영향을 분리하기 위해 통제된 실험을 수행합니다. 우리는 (1) 역추적이 포함된 더 긴 CoT가 일반적으로 더 나은 RL 훈련을 유도하고 더 안정적이며, (2) 더 큰 탐색 공간을 가진 더 어려운 문제는 SFT 단계에서 더 많은 역추적이 필요하다는 것을 발견했습니다. 또한, 증류된 데이터에 대한 실험을 통해 RL 훈련이 긴 CoT 시퀀스의 정확성에 크게 영향을 받지 않는다는 것을 보여주며, 이는 RL이 내용의 정확성보다 구조적 패턴을 우선시한다는 것을 시사합니다. 종합적으로, 우리의 결과는 LLM에서 추론을 효과적으로 확장하기 위한 최적의 훈련 전략 설계에 실질적인 통찰을 제공합니다.
장편 비디오 이해는 광범위한 시간-공간적 복잡성과 이러한 확장된 맥락에서의 질문 응답의 어려움으로 인해 상당한 도전 과제를 제시합니다. 대형 언어 모델(LLM)이 비디오 분석 능력과 긴 맥락 처리에서 상당한 발전을 보여주었지만, 정보가 밀집된 시간 단위의 비디오를 처리할 때는 여전히 한계를 보입니다. 이러한 한계를 극복하기 위해, 우리는 세분화된 비디오 클립에 대한 에이전트 탐색 전략을 활용하는 Deep Video Discovery(DVD) 에이전트를 제안합니다. 이전의 비디오 에이전트들이 수동으로 고정된 워크플로우를 설계한 것과 달리, 우리의 접근 방식은 에이전트의 자율성에 중점을 둡니다. 다중 세분화 비디오 데이터베이스에 대한 탐색 중심의 도구 세트를 제공함으로써, 우리의 DVD 에이전트는 LLM의 고급 추론 능력을 활용하여 현재 관찰 상태를 계획하고, 전략적으로 도구를 선택하며, 행동에 적합한 매개변수를 설정하고, 수집된 정보를 바탕으로 내부 추론을 반복적으로 개선합니다. 우리는 여러 장편 비디오 이해 벤치마크에 대한 포괄적인 평가를 수행하여 전체 시스템 설계의 우수성을 입증합니다. 우리의 DVD 에이전트는 도전적인 LVBench 데이터셋에서 이전 작업들을 큰 차이로 능가하며 SOTA 성능을 달성합니다. 또한, 포괄적인 절제 연구와 심층 도구 분석을 제공하여 장편 비디오 이해 작업에 맞춤화된 지능형 에이전트를 더욱 발전시키기 위한 통찰력을 제공합니다. 코드는 추후 공개될 예정입니다.
시맨틱 검색은 현대 애플리케이션에 있어 핵심적인 요소임에도 불구하고, 현재 연구에서는 충분히 탐구되지 않고 있다. 기존 데이터셋은 단일 언어, 단일 이미지 또는 단일 검색 조건에 국한되어 있어, 이미지를 캡션으로 대체해도 성능이 유지되는 것으로 볼 때 시각 정보의 표현력을 충분히 활용하지 못하고 있다. 그러나 실제 검색 시나리오에서는 여러 이미지가 포함된 복합 조건 쿼리가 빈번하게 발생한다. 이에 본 논문은 5개 언어로 구성된 135,000개의 제품과 320,000개의 쿼리를 포함하며 7개의 서로 다른 제품 카테고리를 다루는, 인터리브된 다중 조건 시맨틱 검색을 위한 최초의 다국어 데이터셋인 MERIT를 소개한다. MERIT에 대한 광범위한 실험을 통해 기존 모델의 한계를 확인하였는데, 이는 쿼리의 특정 조건 요소를 간과하고 전역 시맨틱 정보에만 초점을 맞추는 것이다. 이에 따라, 우리는 사전 학습된 MLLM을 적응시키기 위해 임베딩 재구성을 통한 세부 조건 요소 보존과 대조 학습을 통한 포괄적인 전역 시맨틱 추출을 통합한 새로운 파인튜닝 프레임워크인 Coral을 제안한다. 실험 결과, Coral은 MERIT에서 기존 접근 방식 대비 45.9%의 성능 향상을 달성하였으며, 8개의 기존 검색 벤치마크에서 검증된 강력한 일반화 능력을 보여주었다. 종합적으로, 우리의 기여는 새로운 데이터셋, 기존 접근법의 중요한 한계 식별, 그리고 혁신적인 파인튜닝 프레임워크를 통해 인터리브된 다중 조건 시맨틱 검색 분야의 미래 연구를 위한 기반을 마련하였다.
대조적 언어-이미지 사전 학습은 각 모달리티에 대한 별도의 인코더를 통해 텍스트-이미지 쌍의 특징을 공통 잠재 공간에 정렬합니다. 이 접근법은 여러 제로샷 작업에서 인상적인 성능을 달성하지만, 다중 모달 입력, 즉 이미지와 텍스트를 단일 특징 벡터로 인코딩하는 것을 기본적으로 처리할 수 없습니다. 이를 해결하기 위해 단일 모달 인코더로 추출된 특징을 병합하기 위해 추가 모듈을 사용하는 것이 일반적인 관행입니다. 본 연구에서는 다중 모달 임베딩을 위한 대안적 아키텍처인 FuseLIP를 제시합니다. 이산 이미지 토크나이저의 최근 발전을 활용하여, 텍스트와 이미지 토큰의 확장된 어휘를 기반으로 작동하는 단일 트랜스포머 모델을 사용할 것을 제안합니다. 이 초기 융합 접근법은 서로 다른 모달리티가 인코딩의 각 단계에서 상호작용할 수 있게 하여 일반적인 후기 융합에 비해 더 풍부한 표현을 얻을 수 있습니다. 우리는 다중 모달 사전 학습 및 평가를 위한 새로운 데이터셋을 수집하고, 다중 모달 인코더 모델을 위한 도전적인 작업을 설계합니다. FuseLIP가 VQA 및 텍스트 기반 이미지 변환 검색과 같은 다중 모달 임베딩 작업에서 다른 접근법을 능가하는 동시에 단일 모달 작업에서는 기준선과 비슷한 성능을 보임을 입증합니다.
대형 언어 모델(LLMs)은 최근 강화 학습과 확장된 사고 연쇄(Chain-of-Thought, CoT) 기법을 활용하여 놀라운 진전을 이루었습니다. 그러나 특히 매우 긴 출력을 생성하는 추론 과정에서 효율적인 언어 추론을 수행하는 문제는 연구 커뮤니티로부터 점점 더 많은 관심을 받고 있습니다. 본 연구에서는 정교한 데이터 주석이나 다중 모델 간의 보간에 의존하지 않는 동적 비율 기반 훈련 파이프라인을 제안합니다. 우리는 모델의 System-1과 System-2 데이터 간의 가중치를 지속적으로 조정하여 불필요한 추론 과정을 제거하면서도 모델의 추론 능력을 유지합니다. 이 접근법을 DeepSeek-R1-Distill-7B와 DeepSeek-R1-Distill-14B 모델 및 다양한 난이도의 벤치마크 세트에서 검증하였습니다. 우리의 방법은 추론의 정확도를 유지하면서 출력 토큰 수를 약 40%까지 크게 줄였습니다. 코드와 데이터는 곧 공개될 예정입니다.
대규모 언어 모델(LLM)의 최근 획기적인 발전은 금융 분야에서의 성능 평가를 위한 새로운 벤치마크 개발로 이어졌다. 그러나 현재의 금융 벤치마크는 뉴스 기사, 실적 보고서 또는 공시 자료에 의존하는 경우가 많아, 실제 금융 회의의 역동성을 포착하기 어려운 한계가 있다. 이러한 격차를 해결하기 위해, 우리는 금융 회의 이해를 위해 설계된 다국어, 다산업, 다중 작업 데이터셋인 M^3FinMeeting이라는 새로운 벤치마크를 제안한다. 첫째, M^3FinMeeting은 영어, 중국어, 일본어를 지원하여 다양한 언어적 맥락에서의 금융 논의 이해를 강화한다. 둘째, 이 벤치마크는 글로벌 산업 분류 표준(GICS)에 정의된 다양한 산업 분야를 포괄함으로써 광범위한 금융 활동을 아우른다. 마지막으로, M^3FinMeeting은 요약, 질문-답변(QA) 쌍 추출, 질문 응답이라는 세 가지 작업을 포함하여 보다 현실적이고 포괄적인 이해 평가를 가능하게 한다. 7개의 인기 있는 LLM을 사용한 실험 결과, 가장 발전된 장문맥 모델조차도 개선의 여지가 크다는 것이 밝혀졌으며, 이는 M^3FinMeeting이 LLM의 금융 회의 이해 능력을 평가하는 벤치마크로서의 효과적임을 입증한다.
현재 대규모 언어 모델(LLM)을 위한 강화 미세 조정(RFT) 패러다임은 균일한 데이터 샘플링 하에서 동일한 쿼리가 반복적으로 노출됨에 따라 샘플 비효율성 문제를 겪고 있습니다. 기존 연구에서는 휴리스틱 난이도 지표를 통한 커리큘럼 학습을 탐구했지만, 이러한 전략은 모델 자체가 생성하는 내재적 학습 신호를 간과함으로써 최적이 아닌 훈련 체계로 이어지는 한계를 보였습니다. 본 논문에서는 LLM이 특정 데이터로부터 학습할 수 있는 능력을 효과적으로 반영하는 모델 내재적 신호인 '각도 집중도(angle concentration)'를 식별합니다. 우리는 토큰 은닉 상태 벡터의 각도 분포와 그에 따른 그래디언트 간의 상관관계를 이론적 및 실증적으로 입증함으로써, 더 높은 각도 집중도를 보이는 데이터에 대한 학습 선호도를 밝혀냅니다. 이러한 발견에 영감을 받아, 우리는 그래디언트 주도 각도 정보 기반 탐색 강화 학습 프레임워크인 GAIN-RL을 제안합니다. GAIN-RL은 모델의 내재적 각도 집중도 신호를 활용하여 각 에포크마다 훈련 데이터를 동적으로 선택함으로써, 지속적으로 영향력 있는 그래디언트 업데이트를 보장하고 전반적인 훈련 효율성을 크게 향상시킵니다. 실험 평가 결과, GAIN-RL(GRPO)은 다양한 수학 및 코딩 작업과 다양한 모델 규모에서 훈련 효율성을 2.5배 이상 가속화하는 것으로 나타났습니다. 또한 GAIN-RL(GRPO)의 효율적인 샘플링은 데이터 효율적인 훈련을 가능하게 하여, 전체 훈련 데이터를 사용한 일반 GRPO 대비 절반의 데이터로도 더 나은 성능을 달성했습니다. 코드는 https://github.com/wangqinsi1/GAINRL/tree/main에서 공개되었습니다.
문화는 지리적, 시간적 차원을 가로지르며 진화하는 풍부하고 역동적인 영역이다. 그러나 시각-언어 모델(VLMs)을 활용한 문화 이해에 관한 기존 연구들은 주로 지리적 다양성에 초점을 맞추며, 중요한 시간적 차원을 간과하는 경향이 있다. 이러한 격차를 해소하기 위해, 우리는 전문가가 선별한 새로운 멀티모달 데이터셋인 한푸-벤치(Hanfu-Bench)를 소개한다. 한푸는 중국 고대 왕조를 아우르는 전통 의상으로, 중국 문화의 심오한 시간적 측면을 반영하면서도 현대 중국 사회에서 여전히 높은 인기를 누리고 있는 대표적인 문화 유산이다. 한푸-벤치는 문화적 시각 이해와 문화적 이미지 변형이라는 두 가지 핵심 과제로 구성된다. 전자의 과제는 단일 또는 다중 이미지 입력을 기반으로 한 객관식 시각 질의응답을 통해 시간적-문화적 특징 인식을 검토하며, 후자의 과제는 전통 의상을 현대적 디자인으로 변형하는 데 초점을 맞추어 문화적 요소의 계승과 현대적 맥락의 적응을 다룬다. 평가 결과, 폐쇄형 VLMs는 시각적 문화 이해에서 비전문가와 비슷한 성능을 보이지만 인간 전문가에 비해 10% 뒤처지는 반면, 개방형 VLMs는 비전문가보다 더 뒤처지는 것으로 나타났다. 변형 과제의 경우, 다각적인 인간 평가를 통해 가장 성능이 우수한 모델도 성공률이 42%에 불과한 것으로 확인되었다. 우리의 벤치마크는 이 새로운 시간적 문화 이해와 창의적 적응 방향에서의 상당한 도전 과제를 드러내며, 필수적인 테스트베드를 제공한다.
최근 대규모 멀티모달 모델(Large Multi-modal Models, LMMs)의 발전으로 효과적인 시각-언어 추론이 가능해졌지만, 비디오 콘텐츠를 이해하는 능력은 여전히 최적이 아닌 프레임 선택 전략에 의해 제한되고 있습니다. 기존 접근 방식은 종종 정적 휴리스틱이나 외부 검색 모듈에 의존하여 비디오-LLM에 프레임 정보를 제공하는데, 이는 질의와 관련된 정보를 제공하지 못할 수 있습니다. 본 연구에서는 ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)를 소개합니다. 이는 텍스트 응답에서 시각적 입력 선택으로 최적화 대상을 전환하는 새로운 프레임 수준 정책 최적화 프레임워크입니다. ReFoCUS는 강화 학습을 통해 프레임 선택 정책을 학습하며, 참조 LMM에서 도출된 보상 신호를 사용하여 시간적으로 근거 있는 응답을 가장 잘 지원하는 프레임에 대한 모델의 내재적 선호도를 반영합니다. 큰 조합적 프레임 공간을 효율적으로 탐색하기 위해, 우리는 시간적 일관성을 보장하면서 복잡성을 줄이는 자기회귀적 조건부 선택 아키텍처를 사용합니다. 우리의 접근 방식은 프레임 수준에서 명시적인 지도가 필요하지 않으며, 여러 비디오 QA 벤치마크에서 일관되게 추론 성능을 향상시켜 프레임 선택과 모델 내부 유틸리티를 정렬하는 이점을 강조합니다.
본 논문은 대규모 추론 모델(Large Reasoning Models, LRMs)의 긴 사고 연쇄(Long Chain-of-Thought, CoT) 추론에서 발생하는 과소사고(underthinking)와 과잉사고(overthinking) 문제를 해결하기 위해, 구조화된 제어 신호를 주입하여 트리 탐색 관점에서 추론을 안내하는 새로운 테스트 시간 접근법인 추론 제어 필드(Reasoning Control Fields, RCF)를 제안합니다. RCF는 복잡한 과제를 해결할 때 주어진 제어 조건에 따라 추론 노력을 조정할 수 있도록 모델을 지원합니다. 또한, 상세한 추론 과정과 해당 제어 필드가 주석 처리된 도전적인 문제들로 구성된 Control-R-4K 데이터셋을 소개합니다. 추론 제어를 더욱 강화하기 위해, 특히 Control-R-32B 모델을 테스트 시간 동안 효과적으로 추론 노력을 조정하도록 훈련시키는 조건부 증류 미세조정(Conditional Distillation Finetuning, CDF) 방법을 제안합니다. AIME2024 및 MATH500과 같은 벤치마크에서의 실험 결과는 우리의 접근법이 32B 규모에서 최첨단 성능을 달성하면서도 제어 가능한 긴 사고 연쇄 추론 과정(L-CoT)을 가능하게 함을 보여줍니다. 전반적으로, 이 연구는 테스트 시간 동안 확장 가능한 추론을 제어할 수 있는 효과적인 패러다임을 제시합니다.
기존의 보간 방법들은 희소하게 샘플링된 키프레임 사이의 중간 프레임을 생성하기 위해 사전 훈련된 비디오 확산 프라이어를 사용합니다. 3D 기하학적 지도가 없는 경우, 이러한 방법들은 복잡하고 관절이 있는 인간의 움직임에 대해 그럴듯한 결과를 생성하는 데 어려움을 겪으며, 합성된 동역학에 대한 제어가 제한적입니다. 본 논문에서는 3D 인간 지도 신호를 확산 과정에 통합하여 제어 가능한 인간 중심 키프레임 보간(CHKI)을 위한 새로운 프레임워크인 PoseFuse3D 키프레임 보간기(PoseFuse3D-KI)를 소개합니다. 보간을 위한 풍부한 공간 및 구조적 단서를 제공하기 위해, 우리의 PoseFuse3D는 3D 기하학과 형태를 2D 잠재 조건 공간으로 변환하는 새로운 SMPL-X 인코더와 이러한 3D 단서를 2D 포즈 임베딩과 통합하는 융합 네트워크를 특징으로 하는 3D 정보 기반 제어 모델입니다. 평가를 위해, 우리는 2D 포즈와 3D SMPL-X 파라미터로 주석이 달린 새로운 데이터셋인 CHKI-Video를 구축했습니다. 우리는 PoseFuse3D-KI가 CHKI-Video에서 최신 베이스라인을 지속적으로 능가하며, PSNR에서 9%의 개선과 LPIPS에서 38%의 감소를 달성함을 보여줍니다. 포괄적인 절제 실험은 우리의 PoseFuse3D 모델이 보간 충실도를 향상시킴을 입증합니다.
아랍어 스크립트의 내재적 복잡성; 즉, 필기체 특성, 발음 구별 기호(타쉬킬), 그리고 다양한 타이포그래피는 광학 문자 인식(OCR)에 지속적인 도전 과제로 작용합니다. 본 연구에서는 Qwen2-VL-2B-Instruct에서 파생된 일련의 비전-언어 모델인 Qari-OCR을 제안하며, 특수한 합성 데이터셋에 대한 반복적인 미세 조정을 통해 아랍어에 점진적으로 최적화되었습니다. 우리의 주력 모델인 QARI v0.2는 발음 구별 기호가 풍부한 텍스트에서 단어 오류율(WER) 0.160, 문자 오류율(CER) 0.061, 그리고 BLEU 점수 0.737을 달성하여 새로운 오픈소스 최첨단 기술을 확립했습니다. Qari-OCR은 타쉬킬 처리, 다양한 폰트, 문서 레이아웃에서 우수한 성능을 보여주며, 저해상도 이미지에서도 인상적인 성과를 보였습니다. 추가 탐구(QARI v0.3)는 구조적 문서 이해와 필기체 텍스트에 대한 강력한 잠재력을 입증했습니다. 이 연구는 아랍어 OCR의 정확성과 효율성을 크게 개선하였으며, 모든 모델과 데이터셋을 공개하여 추가 연구를 촉진하고자 합니다.
제로샷 사고 연쇄(Chain-of-Thought, CoT) 과정의 성공 여부를 완료 전에 예측할 수 있는지 조사합니다. 우리는 LLM 표현을 기반으로 한 프로빙 분류기가 단일 토큰도 생성되기 전에 이미 잘 작동한다는 것을 발견했는데, 이는 초기 단계 표현에 이미 추론 과정에 대한 중요한 정보가 포함되어 있음을 시사합니다. 반면, 생성된 토큰에만 의존하는 강력한 BERT 기반 베이스라인은 더 나쁜 성능을 보이는데, 이는 더 깊은 추론 역학보다는 피상적인 언어적 단서에 의존하기 때문일 가능성이 높습니다. 놀랍게도, 이후의 추론 단계를 사용하더라도 분류 성능이 항상 개선되는 것은 아닙니다. 추가 컨텍스트가 도움이 되지 않을 때, 초기 표현이 이후 표현과 더 유사해지는데, 이는 LLM이 초기에 핵심 정보를 인코딩한다는 것을 시사합니다. 이는 추론이 손실 없이 조기에 중단될 수 있음을 의미합니다. 이를 테스트하기 위해 조기 중단 실험을 수행했는데, CoT 추론을 중단하더라도 CoT를 전혀 사용하지 않는 것보다 성능이 개선되지만, 완전한 추론과 비교했을 때 여전히 격차가 남아 있음을 보여줍니다. 그러나 CoT 체인을 단축하기 위해 설계된 지도 학습 또는 강화 학습과 같은 접근 방식은 우리 분류기의 지도를 활용하여 조기 중단이 효과적인 시점을 식별할 수 있습니다. 우리의 연구 결과는 이러한 방법을 지원할 수 있는 통찰력을 제공함으로써 CoT의 효율성을 최적화하면서 그 이점을 보존하는 데 도움을 줄 수 있습니다.
대규모 추천 모델은 LLM(Large Language Model)을 강력한 추천 시스템으로 확장하기 위해 인코딩 또는 아이템 생성 방식을 활용해 왔으며, 최근 LLM의 추론 능력에서의 획기적인 발전은 추천 시스템에서의 추론 탐구를 동시에 촉진하고 있다. 현재 연구들은 주로 LLM을 외부 추론 모듈로 위치시켜 기존 추천 파이프라인을 보조하는 추가적인 사고를 생성하는 데 활용하고 있다. 그러나 이러한 분리된 설계는 상당한 자원 비용과 최적화되지 않은 결합 최적화로 인해 한계를 보인다. 이러한 문제를 해결하기 위해, 본 연구에서는 내재적 추론 능력을 갖춘 통합 대규모 추천 모델인 \name을 제안한다. 먼저, 모델 아키텍처를 재구성하여 자기회귀 과정에서 추론과 추천이 교차적으로 이루어지도록 설계한다. 이후, RecPO라는 강화 학습 프레임워크를 제안하여 \name의 추론 및 추천 능력을 단일 정책 업데이트에서 동시에 최적화한다. RecPO는 추천 레이블만을 활용하여 추론 능력을 시뮬레이션하는 융합 보상 체계를 도입함으로써 전문적인 추론 주석에 대한 의존성을 제거한다. 다양한 베이스라인과 함께 세 가지 데이터셋에서 수행한 실험을 통해 \name의 효과를 검증하였으며, Hit@5에서 68.67%, NDCG@20에서 45.21%의 상대적 개선을 보였다. 코드는 https://github.com/YRYangang/RRec에서 확인할 수 있다.
비강체 운동, 카메라 시점 이동, 물체 변형, 인간 관절 움직임, 복잡한 상호작용을 반영한 이미지 편집은 컴퓨터 비전 분야에서 도전적이면서도 충분히 탐구되지 않은 문제로 남아 있다. 기존의 접근법과 데이터셋은 주로 정적 장면이나 강체 변환에 초점을 맞추고 있어, 동적 움직임을 포함한 표현적 편집을 다루는 데 한계가 있다. 이러한 격차를 해결하기 위해, 우리는 비강체 운동에 중점을 둔 지시 기반 이미지 편집을 위한 포괄적인 프레임워크인 ByteMorph를 소개한다. ByteMorph는 대규모 데이터셋인 ByteMorph-6M과 Diffusion Transformer(DiT)를 기반으로 한 강력한 베이스라인 모델인 ByteMorpher로 구성된다. ByteMorph-6M은 훈련을 위한 600만 개 이상의 고해상도 이미지 편집 쌍과 신중하게 선별된 평가 벤치마크인 ByteMorph-Bench를 포함한다. 이 둘은 다양한 환경, 인간 형상, 물체 범주에 걸친 다양한 비강체 운동 유형을 포착한다. 데이터셋은 모션 가이드 데이터 생성, 레이어 합성 기술, 자동 캡션 생성을 통해 다양성, 현실성, 의미적 일관성을 보장하도록 구성되었다. 또한, 우리는 학계와 상업적 영역에서 최근에 제안된 지시 기반 이미지 편집 방법들을 포괄적으로 평가한다.
트랜스포머(Transformer)를 위한 효과적인 설명 가능성 도구의 개발은 딥러닝 연구에서 중요한 과제입니다. 이 분야에서 가장 유망한 접근법 중 하나는 계층별 관련성 전파(Layer-wise Relevance Propagation, LRP)로, 이는 미리 정의된 규칙에 따라 활성화 값을 재분배하여 네트워크를 통해 입력 공간으로 관련성 점수를 역전파합니다. 그러나 트랜스포머 설명 가능성을 위한 기존의 LRP 기반 방법들은 트랜스포머 아키텍처의 중요한 구성 요소인 위치 인코딩(Positional Encoding, PE)을 완전히 간과하고 있어, 보존 속성을 위반하고 구조적 및 위치적 특징과 관련된 중요하고 독특한 유형의 관련성을 상실하게 됩니다. 이러한 한계를 해결하기 위해, 우리는 트랜스포머 설명 가능성을 위한 입력 공간을 위치-토큰 쌍의 집합으로 재구성합니다. 이를 통해 로터리(Rotary), 학습 가능한(Learnable), 절대적(Absolute) PE를 포함한 다양한 위치 인코딩 방법에 걸쳐 속성을 전파하도록 설계된 이론적으로 근거 있는 특수화된 LRP 규칙을 제안할 수 있습니다. LLaMA 3와 같은 미세 조정된 분류기와 제로샷 기반 모델을 사용한 광범위한 실험을 통해, 우리의 방법이 비전 및 NLP 설명 가능성 작업에서 최신 기술을 크게 능가함을 입증했습니다. 우리의 코드는 공개되어 있습니다.
컨텍스트 내 학습(In-context learning, ICL)은 사전 훈련된 대규모 언어 모델(LLMs)의 중요하지만 완전히 이해되지 않은 능력 중 하나이다. ICL은 미세 조정 없이도 몇 가지 예시(데모)를 통해 작업 성능을 크게 향상시킬 수 있다. 질문 응답에서는 효과적이지만, 요약과 같은 장문 생성 작업에서는 종종 성능이 떨어진다. 적절히 현실적인 가정 하에서, 우리는 실증적 및 이론적으로 ICL 데모만으로는 LLMs에게 생성 작업을 위한 작업 언어 및 형식 분포를 가르치기에 불충분함을 보인다. 우리는 작업 분포에 대한 명시적 노출이 필요하며, 이를 프롬프트로 정의함으로써 모델 성능이 향상될 것이라는 가설을 제시한다. 이를 위해, 우리는 작업 언어 및 형식 속성을 포착하는 두 가지 병렬 가이드라인 스트림을 효율적으로 생성하는 LongGuide를 제안한다: (i) 모델이 자체 평가 지표를 최적화하도록 지시하는 메트릭 가이드라인(Metric Guidelines, MGs); (ii) 토큰 및 문장 수준에서 생성을 제한하는 출력 제약 가이드라인(Output Constraint Guidelines, OCGs). LongGuide는 자동으로 최적의 가이드라인 조합을 선택하여, 강력한 오픈소스 및 클로즈드소스 LLMs의 제로샷 및 퓨샷 설정에서 모두 5% 이상의 성능 향상을 이끌어낸다. 우리는 LongGuide가 일반화 가능하며, 약한 모델이 강한 모델을 향상시키기 위해 학습할 수 있고, 자동 프롬프트 최적화 도구와 시너지적으로 통합될 수 있음을 보인다.