번역이 포함된 일일 선별된 AI 연구 논문
자기 진화 방법은 "생성-검증-정제"의 반복적 순환을 통해 코드 생성을 향상시키지만, 기존 접근법은 탐색 효율성이 낮아 제한된 예산 내에서 복잡도가 더 높은 솔루션을 발견하지 못한다. 이러한 비효율성은 초기화 편향으로 인해 진화가 열악한 솔루션 영역에 갇히고, 피드백 지도가 없는 통제되지 않은 확률적 연산, 그리고 과제 간 경험 활용 부족에서 비롯된다. 이러한 병목 현상을 해결하기 위해 우리는 세 가지 핵심 구성 요소로 이루어진 제어 자기 진화(CSE)를 제안한다. 다양화 계획 초기화는 광범위한 솔루션 공간 coverage를 위해 구조적으로 구별되는 알고리즘 전략을 생성한다. 유전적 진화는 확률적 연산을 피드백 지도 메커니즘으로 대체하여 표적 변이와 구성적 교차를 가능하게 한다. 계층적 진화 메모리는 과제 간 및 과제 내 수준에서 성공적·실패적 경험을 모두 포착한다. EffiBench-X에 대한 실험 결과, CSE는 다양한 LLM 백본에서 모든 기준 모델을 지속적으로 능가함을 보여준다. 더 나아가 CSE는 초기 세대부터 더 높은 효율성을 달성하고 진화 전 과정에 걸쳐 지속적인 개선을 유지한다. 우리의 코드는 https://github.com/QuantaAlpha/EvoControl에서 공개된다.
딥 리서치 시스템은 다단계 웹 조사, 분석 및 크로스-소스 통합에 널리 사용되지만, 이에 대한 평가는 여전히 어려운 과제로 남아 있습니다. 기존 벤치마크는 주석 중심의 과제 구성이 필요하거나, 정적인 평가 차원에 의존하거나, 인용이 누락된 경우 사실을 신뢰성 있게 검증하지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해 우리는 딥 리서치 과제 구성 및 에이전트 기반 평가를 위한 자동화 프레임워크인 DeepResearchEval을 소개합니다. 과제 구성 측면에서는 다양한 사용자 프로파일에 기반한 현실적이고 복잡한 연구 과제를 생성하는 페르소나 기반 파이프라인을 제안하며, '과제 적격성'과 '검색 필요성'이라는 2단계 필터를 적용하여 다중 소스 증거 통합과 외부 검색이 필요한 과제만 선별합니다. 평가 측면에서는 두 가지 구성 요소로 이루어진 에이전트 기반 파이프라인을 제안합니다: 첫째, 생성된 각 과제에 조건화되어 과제별 평가 차원, 기준 및 가중치를 동적으로 도출하는 '적응형 점별 품질 평가'와, 둘째, 인용이 누락된 경우에도 웹 검색을 통해 보고서 진술을 자율적으로 추출 및 검증하는 '능동적 사실 확인'입니다.
대규모 언어 모델(LLM) 에이전트는 여러 도구의 협업을 통해 내재된 추론 능력을 보여줍니다. 그러나 에이전트 추론 과정에서 기존 방법들은 (i) 선견지명의 부재로 인한 국소적 근시안적 생성 및 (ii) 초기의 사소한 오류가 발산하는 추론 경로로 확대될 수 있는 궤적 불안정성 문제를 자주 겪습니다. 이러한 문제들은 전역적 효과성과 계산 효율성의 균형을 잡기 어렵게 만듭니다. 이 두 가지 문제를 해결하기 위해 우리는 LLM 에이전트 기반의 메타 적응형 추론 프레임워크인 MAXS(메타 적응형 탐색)를 제안합니다. MAXS는 도구 실행과 추론 계획을 유연하게 통합하며, 선견지명 전략을 사용하여 추론 경로를 몇 단계 앞서 확장하고 도구 사용의 장점 값을 추정합니다. 또한 단계 일관성 분산과 단계 간 경사도를 결합하여 안정적이고 일관성 있으며 고가치의 추론 단계를 공동으로 선택합니다. 더불어, 경로 일관성이 달성되면 추가 롤아웃을 중단하여 계산 비용을 통제하는 궤적 수렴 메커니즘을 도입하여 다중 도구 추론에서 자원 효율성과 전역적 효과성 간의 균형을 가능하게 합니다. 우리는 세 가지 기본 모델과 다섯 가지 데이터셋을 대상으로 광범위한 실증 연구를 수행하여 MAXS가 성능과 추론 효율성 모두에서 기존 방법들을 지속적으로 능가함을 입증했습니다. 추가 분석을 통해 우리의 선견지명 전략과 도구 사용의 효과성을 확인하였습니다.
과학적 추론은 논리적 추론뿐만 아니라 사전 지식과 경험적 구조의 활성화에도 의존합니다. 기억은 지식을 효율적으로 재사용하고 추론의 일관성과 안정성을 향상시킬 수 있습니다. 그러나 기존 벤치마크는 주로 최종 답변 또는 단계별 일관성을 평가할 뿐, 인간의 추론 토대가 되는 기억 주도 메커니즘을 간과해 왔습니다. 이 메커니즘은 앵커(anchor)와 어트랙터(attractor)를 활성화한 후 이를 다단계 추론에 통합하는 과정을 포함합니다. 이러한 격차를 해결하기 위해 우리는 앵커 및 어트랙터 활성화(Anchor and Attractor Activation)에 기반한 이중 규모 기억 주도 활성화를 통해 과학적 추론을 평가하도록 설계된 벤치마크인 A^3-Bench(https://a3-bench.github.io)를 제안합니다. 먼저, SAPM(주제, 앵커 및 어트랙터, 문제, 기억 발전) 프로세스를 사용하여 다양한 분야의 2,198개 과학 추론 문제에 주석을 달았습니다. 둘째, 앵커와 어트랙터를 활용한 이중 규모 기억 평가 프레임워크와 기억 활성화 비율을 측정하는 AAUI(Anchor-Attractor Utilization Index) 지표를 도입합니다. 마지막으로 다양한 기본 모델과 패러다임을 사용한 실험을 통해 A^3-Bench를 검증하고 기억 활성화가 추론 성능에 미치는 영향을 분석하여 기억 주도 과학 추론에 대한 통찰을 제공합니다.
본 보고서에서는 경량이면서도 높은 성능을 지닌 완전 오픈소스 추론 모델인 DASD-4B-Thinking을 소개합니다. 이 모델은 수학, 과학적 추론, 코드 생성 분야의 도전적인 벤치마크에서 유사한 규모의 오픈소스 모델들 가운데 SOTA 성능을 달성했으며, 일부 더 큰 모델들보다도 뛰어난 성능을 보여줍니다. 우리는 먼저 커뮤니티에서 광범위하게 채택된 하나의 증류 패러다임, 즉 교사 모델이 생성한 응답에 대한 SFT(시퀀스 수준 증류라고도 불림)를 비판적으로 재검토합니다. 이 방식을 따른 일련의 최근 연구들이 놀라운 효율성과 강력한 경험적 성능을 입증했지만, 이러한 접근법은 주로 SFT 관점에 기반을 두고 있습니다. 그 결과, 이러한 방법론들은 SFT 데이터 필터링을 위한 휴리스틱 규칙 설계에 주로 집중하는 반면, 증류의 핵심 원리인 학생 모델이 교사 모델의 전체 출력 분포를 학습하여 일반화 능력을 계승하게 하는 본질은 크게 간과되고 있습니다. 구체적으로, 우리는 현재 관행에서 세 가지 중요한 한계를 확인했습니다: i) 교사 모델의 시퀀스 수준 분포를 충분히 표현하지 못함, ii) 교사 모델의 출력 분포와 학생 모델의 학습 능력 간의 불일치, iii) Teacher-Forced 학습과 자동회귀 추론 사이에서 발생하는 Exposure Bias. 요약하면, 이러한 단점들은 증류 과정 전반에 걸쳐 명시적인 교사-학생 상호작용이 체계적으로 부재함을 보여주며, 증류의 본질이 충분히 활용되지 못하고 있음을 나타냅니다. 이러한 문제들을 해결하기 위해, 우리는 향상된 시퀀스 수준 증류 학습 파이프라인을 구성하는 몇 가지 방법론적 혁신을 제안합니다. 주목할 만하게도, DASD-4B-Thinking은 기존 대부분의 오픈소스 노력들이 사용하는 데이터 양보다 한 자릿수 적은 448K개의 훈련 샘플만으로도 경쟁력 있는 결과를 얻었습니다. 커뮤니티 연구를 지원하기 위해, 우리는 모델과 훈련 데이터셋을 공개합니다.
비전-언어-행동(VLA) 과제는 복잡한 시각적 장면에 대한 추론과 역동적 환경에서의 적응적 행동 실행을 요구합니다. 최근 추론형 VLA 연구들은 명시적 사고 연쇄(CoT)가 일반화 성능을 향상시킬 수 있음을 보여주지만, 과도하게 길어지는 추론 경로로 인해 높은 추론 지연 시간이 발생하는 문제점을 안고 있습니다. 본 연구에서는 언어화 가능한 잠재적 추론을 통해 간결하면서도 높은 성능의 계획 수립을 달성하는 효율적 추론 프레임워크인 Fast-ThinkAct를 제안합니다. Fast-ThinkAct는 교사 모델로부터 지식을 증류하여 잠재적 CoT를 효율적으로 추론하는 방법을 학습하며, 조작 궤적 정렬을 위한 선호도 기반 목표 함수를 통해 구체화된 제어를 위한 언어적 및 시각적 계획 능력을 동시에 전이합니다. 이는 간결한 추론과 행동 실행을 효과적으로 연결하는 추론 강화 정책 학습을 가능하게 합니다. 다양한 구체화 조작 및 추론 벤치마크에서의 광범위한 실험을 통해 Fast-ThinkAct가 최첨단 추론형 VLA 대비 최대 89.3% 감소한 추론 지연 시간으로 우수한 성능을 달성함과 동시에 효과적인 장기 계획, 소수 샷 적응, 실패 복구 능력을 유지함을 입증하였습니다.
범용 대규모 시각-언어 모델(LVLM)은 규모가 방대함에도 불구하고, 미세한 병리학적 병변을 배경 잡음으로부터 분리해내지 못하는 '확산 주의력' 문제로 인해 피부학 분야에서 종종 난항을 겪습니다. 본 논문에서는 매개변수 확장이 의료 정밀도를 달성하는 유일한 방법이라는 가정에 의문을 제기합니다. 우리는 진단을 시각 정보 전달 효율성의 최적화 문제로 접근하는 SkinFlow 프레임워크를 소개합니다. 우리의 접근법은 물리적 매개변수 확장 없이 복잡한 병리학적 다양체를 '펼쳐내기' 위해 가상 너비 동적 시각 인코더(DVE)를 활용하고, 두 단계의 강화 학습 전략을 결합합니다. 이 전략은 제한된 의미 공간 내에서 명시적 의료 설명(1단계)을 정렬하고 암묵적 진단 텍스처(2단계)를 순차적으로 재구성합니다. 더 나아가, 경직된 레이블 매칭보다 진단 안전성과 계층적 관련성을 우선시하는 임상 기반 평가 프로토콜을 제안합니다. 실험 결과는 매우 설득력 있습니다: 우리의 70억 매개변수 모델은 Fitzpatrick17k 벤치마크에서 새로운 최첨단 성능을确立하며, 대규모 범용 모델(예: Qwen3VL-2350억, GPT-5.2) 대비 Top-1 정확도에서 +12.06%, Top-6 정확도에서 +28.57%의 향상을 달성했습니다. 이러한 결과는 원시적인 매개변수 확장보다 기하학적 수용능력과 정보 흐름을 최적화하는 것이 더 우수한 진단 추론 능력을 낳는다는 것을 입증합니다.
본 논문에서는 오픈-보케블러리 3D 장면 이해를 위한 희소 복셀 그룹화 및 캡션 생성이 가능한 훈련 불요(訓練不要) 알고리즘인 OpenVoxel을 제안한다. 3D 장면의 다중 뷰 이미지로부터 얻은 희소 복셀 래스터화(SVR) 모델을 입력받아, 제안하는 OpenVoxel은 장면 내 다양한 객체들을 설명하는 의미론적 그룹들을 생성할 수 있다. 또한 강력한 비전-언어 모델(VLM)과 다중 모달 대형 언어 모델(MLLM)을 활용하여 각 그룹에 대한 캡션을 생성함으로써 정보적 장면 지도를 성공적으로 구축하며, 이를 통해 오픈-보케블러리 분할(OVS) 또는 참조 표현 분할(RES)과 같은 추가적인 3D 장면 이해 작업을 가능하게 한다. 기존 방법들과 달리, 본 방법은 훈련이 필요 없으며 CLIP/BERT 텍스트 인코더로부터 임베딩을 도입하지 않는다. 대신 MLLM을 이용한 텍스트-대-텍스트(text-to-text) 검색을 직접 수행한다. 광범위한 실험을 통해, 특히 복잡한 참조 표현 분할(RES) 작업에서 최근 연구들 대비 우수한 성능을 입증하였다. 코드는 공개될 예정이다.
대규모 언어 모델(LLM)의 발전은 LLM 기반 검색 증강 생성(RAG)을 포함한 다양한 다운스트림 과제에서 우수한 성능을 달성했습니다. 생성된 콘텐츠의 품질은 검색된 정보의 유용성과 답변 생성에 이를 활용하는 LLM의 내부 정보 처리 메커니즘의 능력에 크게 좌우됩니다. 일반적으로 검색된 정보는 질문과 관련이 있다고 가정합니다. 그러나 검색된 정보는 질문과 문서 컬렉션에 따라 관련성과 유용성의 정도가 가변적일 수 있습니다. 답변 생성 시 검색된 정보의 관련성을 고려하는 것이 중요합니다. 본 논문에서는 생성에 대한 품질 지표 특성으로 검색된 정보의 명시적 평가를 활용하는 새로운 접근 방식인 OpenDecoder를 제안합니다. 우리는 다양한 수준의 노이즈 컨텍스트에 대해 더 강건한 RAG 모델을 구축하는 것을 목표로 합니다. 관련성 점수, 순위 점수, QPP(쿼리 성능 예측) 점수 등 세 가지 유형의 명시적 평가 정보를 고려합니다. 5개의 벤치마크 데이터셋에 대한 실험 결과는 다양한 베이스라인 방법을 능가함으로써 OpenDecoder의 효과성과 더 나은 강건성을 입증합니다. 중요한 것은, 이 패러다임은 어떤 목적이든 LLM의 사후 학습과 통합되거나 어떤 유형의 외부 지표와도 결합될 수 있는 유연성을 지닌다는 점입니다.
경험 인터벤션은 축적된 경험에서 가치 있는 통찰력을 제공하여 에이전트 상호작용 능력을 향상시키는 유망한 기술 패러다임으로 부상하고 있습니다. 그러나 기존 방법들은 주로 과제 수행 전에 경험을 전역 컨텍스트로 수동적으로 주입하며, 에이전트-환경 상호작용 과정에서 동적으로 변화하는 상황 관측에 적응하는 데 어려움을 겪습니다. 본 연구는 경험을 단계별 능동적 탐색으로 전환하는 ExpSeek를 제안합니다: (1) 모델의 내재적 신호를 활용하여 단계별 엔트로피 임계값을 추정하여 인터벤션 시점을 결정하고, (2) 단계별 맞춤형 경험 콘텐츠를 설계합니다. 4가지 도전적인 웹 에이전트 벤치마크에서 Qwen3-8B 및 32B 모델을 대상으로 한 실험 결과, ExpSeek는 각각 9.3%, 7.5%의 절대적 성능 향상을 달성했습니다. 우리의 실험은 엔트로피가 자기-트리거 신호로서의 타당성과 장점을 입증하며, 4B 규모의 소형 경험 모델만으로도 대규모 에이전트 모델의 성능을 크게 향상시킬 수 있음을 보여줍니다.
비전-언어 모델(VLM)은 점차 고해상도 스크린샷을 처리할 수 있는 능력을 바탕으로 사용자 인터페이스(UI) 기반 작업에서 뛰어난 성능을 보여주고 있습니다. 그러나 스크린샷은 수천 개의 시각 토큰(예: 2K 해상도 기준 약 4700개)으로 토큰화되어 상당한 계산 오버헤드를 발생시키고 주의 집중을 분산시킵니다. 이와 대조적으로, 인간은 UI와 상호작용할 때 일반적으로 관심 영역에 초점을 둡니다. 본 연구에서는 효율적인 UI 기반 작업이라는 과제를 선도적으로 다룹니다. 해당 작업의 특성과 과제에 대한 실질적인 분석을 바탕으로, 정확한 기반 작업을 위해 위치 연속성을 유지하면서 지시어와 가장 관련된 패치를 선택하는 효율적인 UI 기반 프레임워크인 FocusUI를 제안합니다. FocusUI는 두 가지 핵심 과제를 해결합니다: (1) 시각 인코딩에서 중복 토큰 제거. 우리는 큰 동질 영역의 가중치를 낮춰 구별되고 지시어와 관련된 시각 토큰을 선택하기 위한 규칙 기반 UI 그래프 점수와 지시어 조건 점수를 융합하여 패치 수준 감독을 구성합니다. (2) 시각 토큰 선택 중 위치 연속성 보존. 일반적인 시각 토큰 프루닝 방법은 손상된 위치 정보로 인해 UI 기반 작업에서 심각한 정확도 저하를 겪는 것을 확인했습니다. 우리는 위치 연속성을 보존하기 위해 삭제된 시각 토큰의 각 연속 시퀀스를 해당 시퀀스의 마지막 인덱스에 배치된 단일 특수 마커로 압축하는 새로운 PosPad 전략을 도입합니다. 4가지 기반 벤치마크에 대한 포괄적인 실험을 통해 FocusUI가 GUI 특화 베이스라인을 능가함을 입증했습니다. ScreenSpot-Pro 벤치마크에서 FocusUI-7B는 GUI-Actor-7B 대비 3.7%의 성능 향상을 달성했습니다. 시각 토큰을 30%만 유지하더라도 FocusUI-7B는 단 3.2%만 하락하면서 최대 1.44배 빠른 추론 속도와 17% 낮은 최대 GPU 메모리 사용량을 달성했습니다.
대규모 언어 모델(LLM) 학습은 주로 선호도 정렬을 최적화하며, 도움이 되고 상호작용하기 쉬운 것으로 인식되는 출력을 보상하는 방향으로 이루어집니다. 그러나 이러한 선호도 지향적 목표는 악용될 수 있습니다. 조작적인 프롬프트는 사용자를 달래는 데 동의하는 방향으로 응답을 이끌어 진실 지향적 수정에서 벗어나게 할 수 있습니다. 본 연구에서는 정렬된 모델이 선호도 훼손 공격(PUA)에 취약한지 조사합니다. PUA는 진실성을 희생시키면서까지 사용자 선호도를 맞추려는 모델의 욕구를 악용하도록 설계된 조작적 프롬프트 전략의 한 유형입니다. 우리는 집계된 벤치마크 점수보다 세분화되고 지시적인 분석을 제공하는 진단 방법론을 제안하며, 통제된 2 x 2^4 설계 내에서 시스템 목표(진실 지향 대 선호도 지향)와 PUA 스타일 대화 요인(지시적 통제, 개인 비하, 조건부 승인, 현실 부정)의 해석 가능한 효과로 프롬프트에 의한 변화를 분해하는 요인 평가 프레임워크를 사용합니다. 놀랍게도, 더 발전된 모델이 때로는 조작적 프롬프트에 더 취약할 수 있습니다. 지배적인 현실 부정 요인을 넘어, 모델별 부호 반전 및 PUA 스타일 요인과의 상호작용을 관찰함으로써 균일한 견고성보다는 맞춤형 방어가 필요함을 시사합니다. 이러한 발견은 RLHF와 같은 학습 후 과정을 위한 세분화된 진단을 제공하는 새로운 재현 가능한 요인 평가 방법론을 제시하며, 조작적 프롬프트의 영향과 선호도 정렬 위험에 대한 더욱 미묘한 이해를 통해 LLM 제품 반복 과정에서 더 나은 균형을 잡을 수 있게 합니다.
LLM 기반 에이전트가 심층 연구 분야에서 가능성을 보여주고 있지만, 대부분의 기존 접근법은 실제 세계의 개방형 질의에 적응하기 어려운 고정된 워크플로우에 의존합니다. 따라서 최근 연구에서는 에이전트가 자체 코드나 프롬프트를 재작성하여 문제 해결 능력을 향상시키는 자기 진화(Self-evolution)를 탐구하지만, 제약 없는 최적화는 종종 불안정성, 환각(Hallucination) 및 명령어 이탈(Instruction drift)을 유발합니다. 우리는 자유 형식 재작성에 의존하기보다 명시적 유한 상태 기계(Finite State Machine, FSM)를 진화시켜 적응성과 제어력을 동시에 달성하는 구조화된 자기 진화 프레임워크인 EvoFSM을 제안합니다. EvoFSM은 최적화 공간을 거시적 흐름(Flow, 상태 전이 논리)과 미시적 기술(Skill, 상태별 행동)로 분리하여 명확한 행동 경계 내에서 표적 개선을 가능하게 합니다. 비판 메커니즘(Critic mechanism)의 지도를 받아 EvoFSM은 소수의 제약된 연산을 통해 FSM을 정제하며, 성공적인 궤적은 재사용 가능한 사전 지식(Prior)으로, 실패 패턴은 향후 질의를 위한 제약 조건으로 정제하는 자기 진화 메모리를 추가로 통합합니다. 5개의 다중 홉 질의응답(Multi-hop QA) 벤치마크에 대한 광범위한 평가를 통해 EvoFSM의 효과를 입증했습니다. 특히 EvoFSM은 DeepSearch 벤치마크에서 58.0%의 정확도를 달성했습니다. 대화형 의사 결정 과제에 대한 추가 결과는 그 일반화 능력을 더욱 검증합니다.
우리는 Gemma 3 기반 모델을 기반으로 한 오픈 기계 번역 모델군인 TranslateGemma를 소개한다. 번역 작업을 위해 Gemma 3의 내재된 다국어 능력을 향상시키기 위해, 우리는 두 단계의 미세 조정 과정을 적용했다. 첫째, 최첨단 모델을 통해 생성된 대규모 고품질 합성 병렬 데이터와 인간이 번역한 병렬 데이터의 풍부한 혼합물을 사용하여 지도 미세 조정을 수행한다. 이어서 강화 학습 단계에서는 MetricX-QE와 AutoMQM 등을 포함한 보상 모델 앙상블을 사용하여 번역 품질을 목표로 최적화를 진행한다. 우리는 WMT25 테스트 세트에서 10개 언어 쌍에 대한 인간 평가와 WMT24++ 벤치마크에서 55개 언어 쌍에 대한 자동 평가를 통해 TranslateGemma의 효과를 입증한다. 자동 평가 지표는 모든 규모에서 기준이 되는 Gemma 3 모델 대비 일관적이고 상당한 성능 향상을 보여준다. 특히 더 작은 규모의 TranslateGemma 모델이 종종 더 큰 기준 모델에 필적하는 성능을 달성하여 향상된 효율성을 제공한다. 또한 TranslateGemma 모델이 Vistra 이미지 번역 벤치마크에서 향상된 성능을 보이며 강력한 다중모달 능력을 유지함을 보여준다. 오픈 TranslateGemma 모델의 공개는 연구 커뮤니티에 강력하고 적응성이 높은 기계 번역 도구를 제공하는 것을 목표로 한다.
월드 모델의 최근 발전은 환경 상태의 미래 역학을 모델링하는 데 유망한 가능성을 보여주며, 에이전트가 실제 환경에 접근하지 않고도 추론하고 행동할 수 있게 합니다. 현재 방법론은 주로 단일 단계 또는 고정된 예측 범위의 롤아웃을 수행하여 복잡한 작업 계획에 대한 잠재력이 충분히 활용되지 않고 있습니다. 우리는 에이전트의 정책 모델이 학습된 월드 모델과 상호작용하여 다단계 "상상" 궤적을 생성하는, 선행 상상을 통한 에이전트 학습을 위한 통합 프레임워크인 Imagine-then-Plan(ITP)을 제안합니다. 상상 범위는 작업과 단계에 따라 달라질 수 있으므로, 최종 목표와 작업 진행 사이의 균형을 맞추는 새로운 적응형 선행 기법을 도입했습니다. 그 결과 생성된 상상 궤적은 달성된 진행도 및 잠재적 충돌과 같은 미래 결과에 대한 풍부한 신호를 제공하며, 이는 현재 관측값과 융합되어 정책 학습을 안내하는 부분 관측 가능 및 상상 가능 마르코프 결정 과정을 구성합니다. 우리는 ITP를 학습 불필요 변형과 강화 학습 변형으로 구현합니다. 대표적인 에이전트 벤치마크에 대한 광범위한 실험을 통해 ITP가 경쟁력 있는 베이스라인을 크게 능가함을 입증합니다. 추가 분석을 통해 우리의 적응형 선행 기법이 에이전트의 추론 능력을 크게 향상시키며, 더 넓고 복잡한 작업 해결에 대한 유용한 통찰을 제공함을 검증합니다.
확산 모델 기반의 현대적 비디오 생성 모델은 매우 사실적인 영상을 생성할 수 있지만, 몇 초 분량의 비디오를 생성하는 데에도 수 분의 GPU 시간이 소요되는 등 계산 효율성이 낮습니다. 이러한 비율적 비효율성은 구현형 AI 및 VR/AR과 같이 실시간 상호작용이 필요한 응용 분야에 생성형 비디오를 적용하는 데 중요한 장벽으로 작용합니다. 본 논문은 정적 장면에 대한 카메라 조건부 비디오 생성을 위한 새로운 전략을 탐구합니다. 즉, 확산 기반 생성 모델을 사용하여 희소한 키프레임 집합을 생성한 후, 3D 재구성 및 렌더링을 통해 전체 비디오를 합성하는 방식입니다. 키프레임을 3D 표현으로 변환하고 중간 시점을 렌더링함으로써, 우리의 접근 방식은 기하학적 일관성을 유지하면서 수백 개의 프레임에 걸쳐 생성 비용을 분산합니다. 또한 주어진 카메라 궤적에 대해 최적의 키프레임 수를 예측하는 모델을 도입하여 시스템이 계산 자원을 적응적으로 할당할 수 있도록 합니다. 우리의 최종 방법인 SRENDER는 단순한 궤적에는 매우 희소한 키프레임을, 복잡한 카메라 운동에는 더 밀집된 키프레임을 사용합니다. 이를 통해 20초 길이의 비디오 생성 시 확산 모델 기반 기준 방법 대비 40배 이상 빠른 속도를 달성하면서도 높은 시각적 충실도와 시간적 안정성을 유지하여, 효율적이고 제어 가능한 비디오 합성의 실용적인 길을 제시합니다.
메모리는 현대 대규모 언어 모델(LLM) 및 다중 모달 LLM(MLLM)의 추론 능력, 적응성, 맥락 정확도를 향상시키는 기반 역할을 수행한다. 이러한 모델들이 정적 예측 도구에서 지속적 학습과 개인화된 추론이 가능한 상호작용 시스템으로 전환됨에 따라, 메모리 메커니즘의 통합은 그 구조적, 기능적 진화의 핵심 주제로 부상했다. 본 종설은 LLM과 MLLM에서의 메모리를 포괄적이고 체계적으로 종합하여, 암묵적 메모리, 명시적 메모리, 에이전트 메모리 패러다임으로 구성된 일관된 분류 체계로 관련 문헌을 정리한다. 구체적으로, 본 종설은 세 가지 주요 메모리 프레임워크를 delineate한다. 암묵적 메모리는 사전 학습된 트랜스포머의 내부 매개변수에 내재된 지식을 의미하며, 기억 능력, 연상 검색, 맥락적 추론 능력을 포괄한다. 최근 연구는 이 잠재적 메모리를 해석, 조작, 재구성하는 방법을 탐구해 왔다. 명시적 메모리는 텍스트 코퍼스, 밀집 벡터, 그래프 기반 구조와 같은 동적이고 질의 가능한 지식 표현으로 모델 출력을 보강하도록 설계된 외부 저장 및 검색 구성 요소를 포함하며, 이를 통해 정보원과의 확장 가능하고 갱신 가능한 상호작용을 가능하게 한다. 에이전트 메모리는 자율 에이전트 내에 지속적이고 시간적으로 확장된 메모리 구조를 도입하여, 다중 에이전트 시스템에서의 장기 계획, 자기 일관성, 협력 행동을 용이하게 하며, 구현형 및 상호작용형 AI와 관련이 있다. 텍스트를 넘어서, 본 종설은 시각, 언어, 음향, 행동 양식 간의 일관성이 필수적인 다중 모달 환경에서의 메모리 통합을 검토한다. 메모리 용량, 정렬, 사실 일관성, 시스템 간 상호운용성과 관련된 문제들을 포함하여, 주요 구조적 발전, 벤치마크 과제, 그리고 개방형 과제들에 대해 논의한다.
학습된 표현의 분석에는 맹점이 존재합니다. 바로 외부 참조와 임베딩이 얼마나 밀접하게 일치하는지 측정하는 유사성에만 초점을 맞춘다는 점인데, 유사성은 단지 무엇이 표현되었는지만 보여줄 뿐 해당 구조가 강건한지는 알려주지 않습니다. 우리는 표현 기하학이 교란 하에서 얼마나 안정적으로 유지되는지를 정량화하는 새로운 차원인 기하학적 안정성을 소개하고, 이를 측정하기 위한 프레임워크인 Shesha를 제시합니다. 7개 분야의 2,463개 구성에 대한 실험에서 안정성과 유사성은 경험적으로 상관관계가 거의 없으며(ρ≈0.01) 기제적으로도 구별됨을 보입니다. 유사도 지표는 주성분 상위 요소를 제거하면 붕괴되는 반면, 안정성은 미세한 매니폴드 구조에 대한 민감도를 유지합니다. 이러한 차이는 실행 가능한 통찰로 이어집니다. 안전성 모니터링 분야에서는 안정성이 기능적 기하학적 캐너리(canary) 역할을 하여, CKA보다 구조적 드리프트를 약 2배 더 민감하게 감지하면서도 경직된 거리 지표에서 오경보를 유발하는 비기능적 노이즈를 걸러냅니다. 제어 가능성 분야에서는 지도 학습 기반 안정성이 선형 조종 가능성을 높은 정확도로 예측합니다(ρ=0.89-0.96). 모델 선택 분야에서는 안정성이 전이 가능성과 분리되어 전이 최적화가 초래하는 기하학적 비용(tax)을 드러냅니다. 기계 학습을 넘어서, 안정성은 CRISPR 교란 일관성과 신경-행동 결합을 예측합니다. 시스템이 구조를 얼마나 안정적으로 유지하는지 정량화함으로써, 기하학적 안정성은 생물학 및 컴퓨팅 시스템 전반에 걸쳐 표현을 감사(auditing)하기 위해 유사성에 필요한 보완적 지표를 제공합니다.
구현된 시스템은 '흐름의 교향곡'으로 세계를 경험합니다. 이는 자체 운동과 결합된 다중의 연속적인 감각 입력 스트림이 외부 객체의 역학과 얽힌 조합입니다. 이러한 스트림은 매끄럽고 시간 매개변수화된 대칭성을 따르며, 정밀하게 구조화된 대수(代數)를 통해 결합됩니다. 그러나 대부분의 신경망 세계 모델은 이 구조를 무시하고 데이터로부터 동일한 변환을 반복적으로 재학습합니다. 본 연구에서는 자체 운동과 외부 객체 운동이 모두 1-매개변수 리 군(Lie group) '흐름'으로 통일된 '흐름 등변 세계 모델(Flow Equivariant World Models)' 프레임워크를 소개합니다. 우리는 이러한 통일을 활용하여 해당 변환에 대한 군 등변성(group equivariance)을 구현함으로써 수백 타임스텝에 걸쳐 안정적인 잠재 세계 표현을 제공합니다. 2D 및 3D 부분 관측 비디오 세계 모델링 벤치마크에서, 흐름 등변 세계 모델이 유사한 최첨단 확산 기반(diffusion-based) 및 메모리 강화(memory-augmented) 세계 모델링 아키텍처를 크게 능가함을 입증합니다. 특히 에이전트의 현재 시야 밖에서 예측 가능한 세계 역학이 존재할 때 그 성능이 두드러집니다. 우리는 흐름 등변성이 롤아웃(rollout)이 길어질수록 특히 유리하며, 훈련 범위를 훨씬 넘어 일반화됨을 보여줍니다. 내부 및 외부 운동에 대한 세계 모델 표현을 구조화함으로써, 흐름 등변성은 데이터 효율적이고 대칭성에 기반한 구현형 지능으로 가는 확장 가능한 경로를 제시합니다. 프로젝트 링크: https://flowequivariantworldmodels.github.io.
다중모달 대규모 언어 모델(MLLMs)은 다중모달 추론 분야에서 상당한 진전을 이루고 있습니다. 초기 접근법은 순수 텍스트 기반 추론에 중점을 두었습니다. 보다 최근 연구들은 추론 단계에 다중모달 정보를 통합하고 있지만, 종종 단일 작업 특화 추론 패턴을 따르기 때문에 다양한 다중모달 작업 간 일반화 성능이 제한됩니다. 실제로 이미지 내 특정 영역을 확대하거나 객체를 표시하는 것과 같이 다양한 추론 기술을 요구하는 다중모달 작업이 많이 존재합니다. 이를 해결하기 위해 우리는 추론 과정에서 중간 이미지를 생성함으로써 다양한 다중모달 추론 기술을 통합하는 통합 생성형 다중모달 추론을 제안합니다. 우리는 인식 정렬 손실과 인식 보상을 특징으로 하는 2단계 SFT+RL 프레임워크인 Omni-R1을 통해 이 패러다임을 구체화하며, 이를 통해 기능적 이미지 생성을 가능하게 합니다. 또한 텍스트 전용 추론 데이터로부터 단계별 시각화를 부트스트래핑하여 다중모달 주석 필요성을 제거한 Omni-R1-Zero를 소개합니다. 실험 결과, Omni-R1은 다양한 다중모달 작업에 걸쳐 통합 생성 추론을 달성했으며, Omni-R1-Zero는 평균적으로 Omni-R1에 필적하거나 이를 능가하는 성능을 보여 생성형 다중모달 추론의 유망한 방향을 제시합니다.
강화학습(RL) 기반 대규모 언어 모델(LLM) 향상은 종종 출력 다양성을 감소시켜 창의적 글쓰기와 같은 개방형 과제에서의 유용성을 저해합니다. 기존 방법은 다양성 탐색을 명시적으로 유도하는 메커니즘을 결여한 채 다양성보다 최적화 효율과 성능을 우선시합니다. 본 논문은 생성 과정을 명시적으로 계획된 중간 단계로 분해하는 반구조화된 긴 사고 연쇄(CoT)를 중심으로 구성된 RL 프레임워크를 제안합니다. 다양성 변화를 기반으로 계획 단계에서 전략적으로 분기를 도입하는 다양성 계획 분기법과 상이한 경로를 장려하기 위한 그룹 인식 다양성 보상을 함께 소개합니다. 창의적 글쓰기 벤치마크에서의 실험 결과는 우리의 접근법이 생성 품질을 저하시키지 않으면서 출력 다양성을 크게 향상시키며 기존 기준선을 지속적으로 능가함을 입증합니다.
이미지-비디오 변환(I2V) 생성의 목표는 참조 이미지와 텍스트 프롬프트로부터 비디오를 합성하는 것입니다. 이는 디노이징 과정에서 확산 모델이 고주파 시각적 제약 조건과 저주파 텍스트 지침을 조화롭게 결합해야 함을 의미합니다. 그러나 기존 I2V 모델들은 시각적 일관성을 우선시하는 반면, 이 이중 지침을 효과적으로 결합하여 텍스트 프롬프트에 대한 강력한 준수를 보장하는 방법은 충분히 연구되지 않았습니다. 본 연구에서는 Diffusion Transformer(DiT) 기반 I2V 모델에서 특정 중간 계층들이 텍스트-시각적 유사성 측정치의 감소로 나타나는 약한 의미론적 응답(의미론적 약화 계층)을 보인다는 점을 관찰했습니다. 우리는 이를 시각적 특징에 대한 주의가 텍스트 지침에서 부분적으로 분리되고 학습된 시각적 사전 지식에 지나치게 의존하는 '조건 격리' 현상으로 규명했습니다. 이를 해결하기 위해 의미론적 약화 계층의 제어 가능성을 향상시키는 Focal Guidance(FG)를 제안합니다. FG는 두 가지 메커니즘으로 구성됩니다: (1) Fine-grained Semantic Guidance(FSG)는 CLIP을 활용하여 참조 프레임의 주요 영역을 식별하고 이를 앵커로 사용하여 의미론적 약화 계층을 유도합니다. (2) Attention Cache는 의미론적으로 응답성이 높은 계층의 주의 맵을 의미론적 약화 계층으로 전달하여 명시적인 의미론적 신호를 주입하고 모델의 학습된 시각적 사전 지식에 대한 과도한 의존을 완화함으로써 텍스트 지침 준수를 강화합니다. 우리의 접근법을 추가로 검증하고 이 방향의 평가 부족 문제를 해결하기 위해 I2V 모델의 지침 수행 능력을 평가하는 벤치마크를 도입했습니다. 이 벤치마크에서 Focal Guidance는 그 효과성과 일반화 가능성을 입증하며, Wan2.1-I2V에서 총점을 0.7250(+3.97%)으로 향상시키고, MMDiT 기반 HunyuanVideo-I2V를 0.5571(+7.44%)까지 끌어올렸습니다.
강화학습(Reinforcement Learning, RL)은 대규모 언어 모델의 추론 능력을 향상시키는 원칙적인 방법을 제공하지만, 그 효과성은 모델이 진화함에 따라 정보를 유지하는 훈련 신호에 달려 있습니다. 실제로 RL의 진전은 과제 난이도가 모델 능력과 잘 맞지 않거나, 훈련이 반복되는 소수의 문제 패턴에 지배될 때 종종 느려집니다. 이러한 문제를 종합적으로 해결하기 위해, 우리는 적응형 환경 설계를 통해 효과적인 학습 신호를 지속하는 프레임워크인 SCALER(Synthetic sCalable Adaptive Learning Environment for Reasoning)를 제안합니다. SCALER는 실제 프로그래밍 문제를 난이도를 제어할 수 있고 무한한 인스턴스 생성을 지원하는 검증 가능한 추론 환경으로 변환하는 확장 가능한 합성 파이프라인을 도입합니다. 이를 통해 유한한 데이터셋의 한계를 넘어서면서도 강력한 정확성 보장을 유지하는 RL 훈련이 가능해집니다. 이를 기반으로 SCALER는 모델의 능력 최전선을 추적하고 분포 다양성을 유지하기 위해 인스턴스 난이도를 동적으로 조정하고 활성 환경 집합을 선별하는 적응형 다중 환경 RL 전략을 추가로 활용합니다. 이러한 공동 적응(co-adaptation)은 보상 희소성을 방지하고 좁은 과제 패턴에의 과적합을 완화하며 훈련 전반에 걸쳐 지속적인 개선을 지원합니다. 폭넓은 실험을 통해 SCALER가 다양한 추론 벤치마크에서 데이터셋 기반 RL 기준선을 꾸준히 능가하고, 더 안정적이며 장기적인 훈련 역동성을 보여줌을 확인했습니다.
비판-안내 강화 학습(RL)은 자연어 피드백으로 희소한 결과 보상을 보강하여 LLM 에이전트를 훈련하는 강력한 패러다임으로 부상했습니다. 그러나 현재 방법들은 정적 또는 오프라인 비판 모델에 의존하는 경우가 많아, 정책이 진화함에 따라 적응하지 못합니다. 온-정책 RL에서 에이전트의 오류 패턴은 시간이 지남에 따라 변하며, 이로 인해 고정된 비판 모델은 점차 낡아져 유용성이 감소하는 피드백을 제공하게 됩니다. 이를 해결하기 위해 우리는 동기화된 공진화 루프를 통해 정책과 비판 모델을 공동 최적화하는 프레임워크인 ECHO(사후 안내 최적화를 위한 진화하는 비판 모델)를 소개합니다. ECHO는 비판 모델이 초기 궤적에 대해 여러 진단을 생성한 다음, 그룹 구조화된 어드밴티지 추정을 가능하게 하는 정책 개선이 뒤따르는 계단식 롤아웃 메커니즘을 활용합니다. 우리는 포화 인식 이득 형성 목적 함수를 통해 학습 정체 문제에 대응하며, 이는 높은 성능을 보이는 궤적에서 점진적인 개선을 유도한 비판 모델에 보상을 제공합니다. 이중 트랙 GRPO 업데이트를 사용함으로써 ECHO는 비판 모델의 피드백이 진화하는 정책과 동기화된 상태를 유지하도록 보장합니다. 실험 결과, ECHO가 개방형 환경에서 더 안정적인 훈련과 더 높은 장기 과제 성공률을 달성함을 보여줍니다.
클러스터 워크로드 할당은 종종 복잡한 설정을 필요로 하여 사용성 격차를 발생시킵니다. 본 논문은 자연어 처리(NLP)를 활용한 클러스터 시스템을 위한 의미론적, 의도 기반 스케줄링 패러다임을 소개합니다. 본 시스템은 Kubernetes 스케줄러 익스텐더를 통해 통합된 대규모 언어 모델(LLM)을 사용하여 소프트 어피니티(soft affinity) 선호도를 위한 자연어 할당 힌트 주석을 해석합니다. 클러스터 상태 캐시와 의도 분석기(AWS Bedrock 사용)를 갖춘 프로토타입이 개발되었습니다. 실증 평가에서는 Amazon Nova Pro/Premier 및 Mistral Pixtral Large와 같은 최상위 모델들이 높은 LLM 파싱 정확도(평가 기준 데이터셋 기준 부분집합 정확도 >95%)를 보여 기준 엔진을 크게 능가했습니다. 여섯 가지 시나리오에 대한 스케줄링 품질 테스트에서 프로토타입은 표준 Kubernetes 설정에 비해 우수하거나 동등한 배치 성능을 달성했으며, 특히 복잡하고 정량적인 시나리오와 상충되는 소프트 선호도 처리에서 뛰어난 성능을 보였습니다. 결과는 접근성 높은 스케줄링을 위해 LLM을 사용하는 것을 검증하지만, 동기식 LLM 지연과 같은 한계점을 지적하며 프로덕션 환경 적용을 위한 비동기식 처리의 필요성을 시사합니다. 본 연구는 워크로드 오케스트레이션 간소화를 위한 의미론적 소프트 어피니티의 실현 가능성을 확인합니다.
대규모 언어 모델은 사용자가 원본 텍스트와 대조하여 확인할 수 없는 그럴듯하지만 정확성에 문제가 있는 요약을 자주 생성하는데, 이는 정부 및 법률 분석과 같이 규정 준수가 중요한 분야에서 심각한 한계로 작용합니다. 본 논문은 24B 파라미터 규모의 sui-1 모델을 소개합니다. 이 모델은 인라인 인용이 포함된 추상적 요약을 생성하여 사용자가 모든 주장의 근거가 되는 원문 문장을 추적할 수 있게 합니다. 저희의 합성 데이터 파이프라인은 사고 사슬(chain-of-thought) 프롬프트 기법과 다단계 검증 절차를 결합하여, 의회 문서, 웹 텍스트, 위키백과 등 다양한 출처의 자료로부터 5개 언어로 총 22,000개 이상의 고품질 학습 예시를 생성했습니다. 평가 결과, sui-1은 파라미터 수가 3배 이상 많은 모델들을 포함하여 테스트된 모든 오픈 가중치 기준 모델들을 크게 능가하는 성능을 보였습니다. 이러한 결과는 인용 기반 요약 작업에서는 규모 확장만큼 과제 특화적 훈련이 매우 중요함을 입증합니다. 모델 가중치와 대화형 데모는 공개되어 있습니다.
하위 단어 토큰화의 품질은 대규모 언어 모델에 있어 핵심적이지만, 형태론적으로 풍부한 우랄어족 언어들의 토크나이저 평가는 정제된 형태소 사전의 부재로 어려움을 겪고 있다. 본 연구에서는 MDL에서 영감을 받은 자기 참조적 원자성 점수를 활용하여 내부 구조적 단서를 통해 합성 형태를 걸러내는, 저자원 환경에 적합한 코퍼스 무관 형태소 사전 구축 도구인 SampO NLP를 소개한다. SampO NLP로 생성된 핀란드어, 헝가리어, 에스토니아어의 고순도 형태소 사전을 사용하여 다양한 어휘 집합 크기(8k-256k) 범위에서 BPE 토크나이저의 체계적인 평가를 수행한다. 우리는 형태소 커버리지와 과도한 분할 사이의 상충 관계를 탐색하기 위해 통합 성능 점수(IPS)라는 통합 지표를 제안한다. IPS 곡선을 분석함으로써 수익 체감의 "엘보우 포인트"를 확인하고, 이들 언어에 대한 최적의 어휘 집합 크기(k)에 대한 첫 번째 실증 기반 권장 사항을 제시한다. 본 연구는 실용적인 지침을 제공할 뿐만 아니라, 고도로 교착적인 언어에 대한 표준 BPE의 한계를 정량적으로 입증한다. SampO NLP 라이브러리와 생성된 모든 자원은 공개적으로 이용 가능하다: https://github.com/AragonerUA/SampoNLP