번역이 포함된 일일 선별된 AI 연구 논문
다단계 검색-강화 생성(RAG)은 전역적 이해와 집중적 추론을 요구하는 과제에서 대규모 언어 모델(LLM)의 성능을 향상시키기 위해 널리 채택된 전략이 되었습니다. 많은 RAG 시스템은 검색된 정보를 통합하기 위한 작업 메모리 모듈을 포함합니다. 그러나 기존 메모리 설계는 주로 장문 입력을 요약하고 연역을 통해 새로운 하위 질의를 생성하기 위해 고립된 사실을 누적하는 수동적 저장소로 기능합니다. 이러한 정적 특성은 원시 사실 간의 중요한 고차 상관관계를 간과하는데, 이러한 조합은 후속 단계에 더 강력한 지침을 제공할 수 있습니다. 따라서 기존 방식은 표현력과 다단계 추론 및 지식 진화에 미치는 영향이 제한적이며, 이는 단편적 추론과 확장된 맥락에서 약한 전역적 의미 구축 능력으로 이어집니다. 우리는 HGMem이라는 하이퍼그래프 기반 메모리 메커니즘을 소개합니다. 이는 메모리 개념을 단순한 저장소를 넘어 복잡한 추론과 전역적 이해를 위한 동적이고 표현력 있는 구조로 확장합니다. 우리의 접근 방식에서 메모리는 하이퍼에지가 개별 메모리 단위에 해당하는 하이퍼그래프로 표현되며, 이를 통해 메모리 내에서 고차원적 상호작용이 점진적으로 형성됩니다. 이 메커니즘은 핵심 문제를 중심으로 사실과 사고를 연결하여 통합적이고 상황에 맞는 지식 구조로 진화하며, 후속 단계의 심층 추론을 위한 강력한 명제를 제공합니다. 우리는 HGMem을 전역적 의미 구축을 위해 설계된 여러 어려운 데이터셋에서 평가합니다. 광범위한 실험과 심층 분석을 통해 우리의 방법이 다단계 RAG를 지속적으로 개선하며 다양한 과제에서 강력한 기준 시스템을 크게 능가함을 보여줍니다.
대규모 언어 모델(LLM)은 언어가 매우 불균일한 정보 밀도를 보임에도 불구하고 모든 토큰에 균일한 계산을 적용합니다. 이러한 토큰 균일 처리 방식은 지역적으로 예측 가능한 구간에 대한 용량을 낭비하는 동시에 의미론적으로 중요한 전환 지점에 대한 계산을 충분히 할당하지 못합니다. 본 연구에서는 잠재 표현으로부터 의미적 경계를 학습하고, 계산을 토큰에서 추론이 더 효율적인 압축된 개념 공간으로 전환하는 계층적 언어 모델링 프레임워크인 동적 대규모 개념 모델(DLCM)을 제안합니다. DLCM은 미리 정의된 언어 단위에 의존하지 않고 종단간 방식으로 가변 길이 개념을 발견합니다. 계층적 압축은 확장 양상을 근본적으로 변화시킵니다. 우리는 토큰 수준 용량, 개념 수준 추론 용량, 압축률을 분리하여 고정된 FLOPs 하에서 체계적인 계산 할당을 가능하게 하는 최초의 압축 인지 확장 법칙을 소개합니다. 이러한 이질적 아키텍처를 안정적으로 학습시키기 위해, 우리는 다양한 폭(width)과 압축 체계 간에 제로샷 하이퍼파라미터 전이를 지원하는 분리된 μP 매개변수화 방법을 추가로 개발했습니다. 실용적인 설정(R=4, 개념 당 평균 4개 토큰에 해당)에서 DLCM은 추론 계산량의 약 1/3을 더 높은 용량의 추론 백본으로 재할당하여, 동일한 추론 FLOPs 조건에서 12개의 제로샷 벤치마크에 걸쳐 평균 +2.69%의 성능 향상을 달성했습니다.
최근 멀티모달 대규모 언어 모델(MLLM)이 멀티모달 추론에서 상당한 진전을 이루었지만, 그 추론 과정은 여전히 주로 텍스트 중심에 머물러 있어 복잡한 장기적(Long-horizon) 및 시각 중심(Vision-centric) 과제에서 성능이 제한되는 한계를 보인다. 본 논문에서는 새로운 생성형 멀티모달 추론(Generative Multimodal Reasoning) 패러다임을 정립하고, 확산 모델 기반의 추론 프레임워크인 DiffThinker를 소개한다. 개념적으로 DiffThinker는 멀티모달 추론을 본질적인 생성형 이미지-이미지(Image-to-image) 작업으로 재정의하여 시각 중심 과제에서 뛰어난 논리적 일관성과 공간 정밀도를 달성한다. 우리는 DiffThinker와 MLLM 간의 체계적인 비교를 수행함으로써 이 패러다임의 내재적 특성에 대한 첫 심층 분석을 제공하며, 효율성, 제어 가능성, 본질적 병렬성, 협력 능력이라는 네 가지 핵심 속성을 규명한다. 네 가지 영역(순차적 계획, 조합 최적화, 제약 조건 충족, 공간 구성)에 걸친 광범위한 실험을 통해 DiffThinker가 GPT-5(+314.2%) 및 Gemini-3-Flash(+111.6%)를 포함한 주요 클로즈드 소스 모델들과 미세 조정된 Qwen3-VL-32B 기준선(+39.0%)을 모두 크게 능가함을 입증하여, 생성형 멀티모달 추론이 시각 중심 추론을 위한 유망한 접근법임을 강조한다.
확산 모델은 병렬 디코딩과 반복적 정제와 같은 언어 생성에 대한 매력적인 특성을 제공하지만, 텍스트의 이산적이고 높은 구조화된 특성으로 인해 확산 원리의 직접적 적용에는 어려움이 있습니다. 본 논문에서는 확산 과정과 언어 모델링의 관점에서 확산 언어 모델링을 재검토하며, 확산 메커니즘이 언어별 요구사항과 구분되는 다섯 가지 속성을 제시합니다. 먼저 기존 접근법을 임베딩 공간에서의 연속 확산과 토큰 기반의 이산 확산으로 분류합니다. 이후 각 접근법이 다섯 가지 필수 속성의 일부만을 충족하므로 구조적 절충을 반영함을 보입니다. 최근 대규모 확산 언어 모델 분석을 통해 두 가지 핵심 문제를 확인했습니다: (i) 균일한 손상은 정보가 위치에 따라 어떻게 분포하는지를 고려하지 않으며, (ii) 토큰 단위 주변 훈련은 병렬 디코딩 과정에서 다중 토큰 의존성을 포착할 수 없습니다. 이러한 관찰은 텍스트 구조와 더욱 일치하는 확산 과정의 필요성을 시사하며, 더욱 일관성 있는 확산 언어 모델을 위한 향후 연구를 촉진합니다.
본 연구에서는 모델 용량의 영향이 시간 스텝에 따라 상이하게 나타남을 보인다: 초기 및 후기 단계에서는 결정적 중요성을 가지나 중간 단계에서는 대체로 무시할 수 있다. 이에 따라 우리는 용량 민감 단계와 중간 단계에서 각각 대형 모델과 소형 모델을 활용하는 단계 인식 다중 모델 샘플링 전략인 FlowBlending을 제안한다. 더 나아가 단계 경계를 선택하는 간단한 기준을 제시하고, 용량 민감 영역 식별을 위한 효과적 대리 지표로 속도-발산 분석을 제공한다. LTX-Video(2B/13B)와 WAN 2.1(1.3B/14B)에서 FlowBlending은 대형 모델의 시각적 정확도, 시간적 일관성, 의미론적 정합성을 유지하면서 최대 1.65배 빠른 추론 속도와 57.35% 감소한 FLOPs를 달성했다. FlowBlending은 기존 샘플링 가속 기술과도 호환되어 최대 2배의 추가 속도 향상을 가능하게 한다. 프로젝트 페이지는 https://jibin86.github.io/flowblending_project_page에서 확인할 수 있다.
생성 비디오 모델링은 개방형 환경 조작을 위한 합리적인 물리적 상호작용을 제로샷 추론하는 매력적인 도구로 부상했습니다. 그러나 이러한 인간 주도 동작을 로봇 시스템이 요구하는 저수준 동작으로 변환하는 것은 여전히 과제로 남아 있습니다. 우리는 초기 이미지와 작업 지시가 주어졌을 때 이러한 모델이 합리적인 객체 운동을 합성하는 데 탁월하다는 점에 주목했습니다. 이에 본 논문에서는 3D 객체 흐름을 중간 표현으로 활용하여 비디오 생성과 로봇 제어를 연결하는 Dream2Flow 프레임워크를 소개합니다. 우리의 방법은 생성된 비디오에서 3D 객체 운동을 재구성하고 조작을 객체 궤적 추적 문제로 공식화합니다. 상태 변화를 이를 실현하는 구동기와 분리함으로써 Dream2Flow는 구현체 간격 문제를 극복하고 사전 학습된 비디오 모델의 제로샷 지도를 통해 강체, 관절체, 변형체, 입상체 등 다양한 범주의 객체를 조작할 수 있습니다. 궤적 최적화 또는 강화 학습을 통해 Dream2Flow는 재구성된 3D 객체 흐름을 작업별 데모 없이도 실행 가능한 저수준 명령으로 변환합니다. 시뮬레이션과 실제 환경 실험을 통해 3D 객체 흐름이 비디오 생성 모델을 개방형 환경 로봇 조작에 적용하기 위한 일반적이고 확장 가능한 인터페이스임을 입증했습니다. 비디오 및 시각화 자료는 https://dream2flow.github.io/에서 확인할 수 있습니다.
시뮬레이션 최적화(SO)는 노이즈가 있는 평가, 높은 계산 비용, 복잡하고 다중 모드를 가진 탐색 공간으로 인해 자주 어려움을 겪습니다. 본 논문은 적응형 탐색과 메모리 기반 전략을 통합한 새로운 메타휴리스틱 프레임워크인 Tabu-Enhanced Simulation Optimization(TESO)을 소개합니다. TESO는 단기 기억 Tabu 목록을 활용하여 순환을 방지하고 다양화를 촉진하며, 장기 기억 Elite Memory를 통해 우수한 해를 변형하여 집중화를 유도합니다. 예외적으로 우수한 후보 해에 대해서는 tabu 제한을 무시할 수 있는 aspiration 기준을 적용합니다. 이러한 조합은 확률론적 환경에서 탐사와 활용 사이의 동적 균형을 용이하게 합니다. 저희는 대기행렬 최적화 문제를 사용하여 TESO의 효율성과 신뢰성을 입증하며, 벤치마크 대비 향상된 성능을 보이고 메모리 구성 요소의 기여도를 검증합니다. 소스 코드와 데이터는 https://github.com/bulentsoykan/TESO에서 확인할 수 있습니다.