번역이 포함된 일일 선별된 AI 연구 논문
메모리 시스템은 LLM 및 AI 에이전트와 같은 AI 시스템이 장기적 학습과 지속적 상호작용을 가능하게 하는 핵심 구성 요소입니다. 그러나 메모리 저장 및 검색 과정에서 이러한 시스템은 허구적 내용, 오류, 충돌, 생략을 포함한 메모리 환각 현상을 빈번하게 보여줍니다. 기존의 메모리 환각 평가는 주로 종단 간 질의응답 방식으로 이루어져, 메모리 시스템 내에서 환각이 발생하는 운영 단계를 정확히 파악하기 어렵습니다. 이를 해결하기 위해 우리는 메모리 시스템에 특화된 최초의 운영 수준 환각 평가 벤치마크인 HaluMem(Hallucination in Memory Benchmark)을 소개합니다. HaluMem은 세 가지 평가 과목(메모리 추출, 메모리 갱신, 메모리 질의응답)을 정의하여 상호작용의 다양한 운영 단계에 걸친 환각 현상을 포괄적으로 드러냅니다. 평가를 지원하기 위해 우리는 사용자 중심의 다중 턴 인간-AI 상호작용 데이터셋인 HaluMem-Medium과 HaluMem-Long을 구축했습니다. 두 데이터셋은 약 15,000개의 메모리 포인트와 3,500개의 다양한 유형의 질문을 포함합니다. 사용자당 평균 대화 길이는 각각 1,500턴과 2,600턴에 달하며, 컨텍스트 길이는 100만 토큰을 초과하여 다양한 컨텍스트 규모와 과제 복잡도에서의 환각 현상을 평가할 수 있습니다. HaluMem을 기반으로 한 실증 연구 결과, 기존 메모리 시스템은 추출 및 갱신 단계에서 환각을 생성하고 축적하는 경향이 있으며, 이로 인해 오류가 질의응답 단계로 전파됨을 확인했습니다. 향후 연구는 환각을 체계적으로 억제하고 메모리 신뢰성을 향상시키기 위한 해석 가능하고 제약이 있는 메모리 운영 메커니즘 개발에 집중해야 할 것입니다.
최근 딥 리서치 에이전트 분야의 발전은 외부 소스에 대한 동적 추론을 통한 자율적 지식 구축의 가능성을 보여주고 있다. 그러나 기존 접근법은 모든 정보를 단일 확장 컨텍스트 윈도우에 누적하는 단일 맥락 패러다임에 의존하여, 장기 과제에서 효과성을 제한하는 컨텍스트 포화 및 노이즈 오염을 초래한다. 본 연구에서는 장기 리서치를 전략적 작업 공간 재구성을 통한 마르코프 결정 과정으로 재정의하는 새로운 반복적 딥 리서치 패러다임인 IterResearch를 소개한다. 발전적인 보고서를 메모리로 유지하고 주기적으로 통찰력을 종합함으로써, 우리의 접근법은 임의의 탐색 깊이에서도 일관된 추론 능력을 유지한다. 더 나아가 기하학적 보상 할인을 통한 효율적 탐색을 장려하고 적응형 다운샘플링을 통해 안정적인 분산 학습을 가능하게 하는 강화 학습 프레임워크인 효율성 인식 정책 최적화(EAPO)를 개발하였다. 광범위한 실험 결과, IterResearch는 기존 오픈소스 에이전트 대비 6개 벤치마크에서 평균 +14.5%p의 상당한 성능 향상을 달성하고 선도적 독점 시스템과의 격차를 좁히는 것으로 나타났다. 특히 우리의 패러다임은 2048회의 상호작용까지 확장되며 극적인 성능 향상(3.5%에서 42.5%로)을 보이는 전례 없는 상호작용 확장성을 나타냈으며, 장기 과제에서 ReAct 대비 선도적 모델의 성능을 최대 19.2%p 향상시키는 효과적인 프롬프팅 전략으로도 기능한다. 이러한 연구 결과는 IterResearch를 훈련된 에이전트로서뿐만 아니라 선도적 모델을 위한 프롬프팅 패러다임으로서도 효과적인 장기 추론을 위한 다목적 솔루션으로 위치시킨다.
최근 추론 우선 모델(예: OpenAI o1, DeepSeek R1)의 등장으로 RLVR(Reinforcement Learning from Verifiable Feedback)에 대한 관심이 다시 높아지고 있습니다. 그러나 이러한 발전은 주로 수학 문제(예: AIME)에 집중되어 있으며, 경쟁 프로그래밍 코드 생성 분야는 상대적으로 덜 탐구되고 데이터 큐레이션은 RL 알고리즘 설계보다 적은 관심을 받았습니다. 본 연구는 RLVR 데이터셋(즉, RL 프롬프트)을 구축하는 방법과 경쟁 프로그래밍 코드 생성에서 강력한 성능을 보이는 실용적인 훈련 기법을 제시합니다. 우리의 파이프라인은 강력한 오픈소스 모델에서 추출한 지도 미세 조정(SFT)으로 시작되며, 일반 목적 및 고강도 추론 데이터로 보강됩니다. 이후 RL은 실행 가능한 테스트케이스 기반 보상을 사용하는 두 단계 과정을 따릅니다. 첫 번째 단계에서는 광범위하고 균일하게 분포된 경쟁 프로그래밍 문제 집합에 대해 그룹 상대 정책 최적화(GRPO)를 적용하며, 프롬프트당 8개의 롤아웃과 상대적으로 짧은 응답 생성 창(예: SFT 동안 32k, 이 단계에서 24k)을 사용하여 엔트로피를 확장하고 반복 및 잘림 현상을 완화합니다. 두 번째 단계에서는 Pre-GRPO를 수행합니다. 이는 적은 수의 고품질 도전적 문제 집합에 대해 많은 롤아웃 예산(프롬프트당 64 롤아웃)을 사용하고, 훈련 전체에 걸쳐 가장 어려운 인스턴스를 지속적으로 유지하는 하드 포커스 커리큘럼 하에서 모델을 업데이트하는 방식입니다. 우리는 이 방법을 Qwen2.5-32B에 구현하고 데이터 누출을 피하기 위해 LeetCode 및 Codeforces 주간 대회에서 평가했습니다. 그 결과, 동일 규모 모델 중 최고 수준의 성능을 달성했으며 DeepSeek v3.1 및 Doubao-1.5-Thinking과 같은 선도적인 시스템에 필적하는 성능을 보였습니다. 또한 규모 확장 추세를 분석했으며 내부 대규모 MoE 모델에서 강력한 RL 규모 확장 효과를 관찰했습니다. 본 연구는 경쟁 프로그래밍 코드 생성을 위한 RLVR의 데이터 큐레이션, 엔트로피 확장, 커리큘럼 설계에 대한 간결한 모범 사례를 정리합니다.
우리는 소형 과학 생태계를 모델링하는 오픈 월드 다중 에이전트 환경인 STATION을 소개한다. 확장된 컨텍스트 윈도우를 활용하여 Station 내 에이전트들은 동료의 논문 읽기, 가설 수립, 코드 제출, 분석 수행, 결과 출판 등을 포함하는 긴 과학적 여정을 수행할 수 있다. 중요한 점은 그들의 활동을 조정하는 중앙 집중식 시스템이 존재하지 않는다는 것으로, 에이전트들은 Station 내에서 자유롭게 자신의 행동을 선택하고 고유한 서사를 발전시킬 수 있다. 실험 결과, Station 내 AI 에이전트들은 수학부터 계산 생물학, 기계 학습에 이르는 다양한 벤치마크에서 새로운 최첨단 성능을 달성했으며, 특히 원 채우기 문제에서 AlphaEvolve를 능가하는 것으로 나타났다. 에이전트들이 독자적인 연구를 수행하고 동료와 상호작용하며 누적된 역사를 바탕으로 발전해 나감에 따라 풍부한 서사가 나타난다. 이러한 발생적 서사에서 scRNA-seq 배치 통합을 위한 새로운 밀도 적응 알고리즘과 같은 새로운 방법론이 유기적으로 발생한다. Station은 오픈 월드 환경에서 발생적 행동에 의해 주도되는 자율적 과학 발견으로 나아가는 첫걸음이며, 경직된 최적화를 넘어서는 새로운 패러다임을 나타낸다.
우리는 물리 세계 모델링을 통해 비디오 생성으로부터 로봇 학습을 가능하게 하는 프레임워크인 PhysWorld를 소개한다. 최근 비디오 생성 모델들은 언어 명령과 이미지로부터 사실적인 시각적 데모를 합성할 수 있어 로봇 공학에 강력하면서도 충분히 탐구되지 않은 훈련 신호원을 제공한다. 그러나 생성된 비디오의 픽셀 운동을 로봇에 직접 재타겟팅하는 것은 물리 법칙을 간과하여 종종 부정확한 조작을 초래한다. PhysWorld는 비디오 생성과 물리 세계 재구성을 결합하여 이 한계를 해결한다. 단일 이미지와 작업 명령이 주어지면, 우리의 방법은 작업 조건화된 비디오를 생성하고 비디오로부터 기저에 있는 물리 세계를 재구성하며, 생성된 비디오 운동은 물리 세계 모델을 활용한 객체 중심 잔여 강화 학습을 통해 물리적으로 정확한 행동으로 정착된다. 이러한 시너지는 암묵적인 시각적 지도를 물리적으로 실행 가능한 로봇 궤적으로 변환하여 실제 로봇 데이터 수집의 필요성을 제거하고 제로샷 일반화 가능한 로봇 조작을 가능하게 한다. 다양한 실제 작업에 대한 실험 결과, PhysWorld가 기존 접근법 대비 조작 정확도를 크게 향상시킴을 입증한다. 자세한 내용은 https://pointscoder.github.io/PhysWorld_Web/{프로젝트 웹페이지}를 방문하기 바란다.
텍스트-이미지 모델은 캐주얼한 창작 도구에서 전문가 수준의 시스템으로 빠르게 진화하며 전례 없는 수준의 이미지 품질과 사실감을 달성했습니다. 그러나 대부분의 모델은 짧은 프롬프트를 상세한 이미지로 매핑하도록 학습되어, 부족한 텍스트 입력과 풍부한 시각적 출력 사이에 간극을 만듭니다. 이러한 불일치는 모델이 종종 누락된 세부 사항을 임의로 채워 일반 사용자 선호도에 편향되는 방식으로 제어 가능성을 낮추고 전문적인 사용에서의 정밀도를 제한합니다. 우리는 모든 학습 샘플이 동일한 세분화된 속성 집합으로 주석 처리된 긴 구조화된 캡션으로 최초의 오픈소스 텍스트-이미지 모델을 학습하여 이 한계를 해결합니다. 이 설계는 표현 범위를 극대화하고 시각적 요소에 대한 분리된 제어를 가능하게 합니다. 긴 캡션을 효율적으로 처리하기 위해 우리는 토큰 길이를 증가시키지 않으면서 경량 LLM의 중간 토큰을 통합하는 퓨전 메커니즘인 DimFusion을 제안합니다. 또한 텍스트-보틀네크 재구성(TaBR) 평가 프로토콜을 소개합니다. 실제 이미지가 캡션-생성 루프를 통해 얼마나 잘 재구성될 수 있는지 평가함으로써, TaBR는 기존 평가 방법이 실패하는 매우 긴 캡션에서도 제어 가능성과 표현력을 직접 측정합니다. 마지막으로, 대규모 모델 FIBO를 학습하여 오픈소스 모델 중 최고 수준의 프롬프트 정렬을 달성함으로써 우리의 기여를 입증합니다. 모델 가중치는 https://huggingface.co/briaai/FIBO에서 공개됩니다.
희소 전문가 혼합 모델(Sparse Mixture-of-Experts, MoE)은 추론 비용을 증가시키지 않으면서 모델 성능을 효율적으로 확장할 수 있어 최근 대규모 언어 모델에 널리 채택되고 있습니다. 그러나 다양한 다운스트림 작업에 대한 평가 결과, 기존 MoE LLM의 라우터에서 일관된 최적성 부족이 확인되었으며, 이는 최적 라우팅 대비 심각한 성능 격차(예: 정확도 기준 10-20%)를 초래합니다. 본 논문에서는 라우팅 가중치의 매니폴드를 작업 임베딩의 매니폴드와 정렬시키면 이러한 격차를 효과적으로 줄이고 MoE LLM의 일반화 성능을 개선할 수 있음을 보여줍니다. 우리의 방법인 "라우팅 매니폴드 정렬(Routing Manifold Alignment, RoMA)"은 사후 훈련 목적 함수에 추가적인 매니폴드 정규화 항을 도입하며, 라우터의 경량 파인튜닝만을 요구합니다(다른 매개변수는 고정). 구체적으로, 이 정규화는 각 샘플의 라우팅 가중치가 작업 임베딩 공간 내에서 해당 샘플의 성공적인 이웃(라우팅 가중치가 정답을 도출한 샘플)들의 라우팅 가중치에 가까워지도록 유도합니다. 그 결과, 유사한 작업을 대상으로 하는 샘플들은 여러 계층에 걸쳐 유사한 전문가 선택을 공유하게 됩니다. 서로 다른 샘플들에 대해 작업과 전문가 간의 이러한 연결을 구축하는 것은 더 나은 일반화를 달성하는 데 필수적입니다. 더욱이, RoMA는 작업 이해(임베딩 모델 담당)와 해결책 생성(MoE LLM 담당)을 통합하는 이점을 보여줍니다. 실험에서는 RoMA를 사용하여 OLMoE, DeepSeekMoE 및 Qwen3-MoE의 라우터를 파인튜닝했습니다. 다양한 벤치마크에 대한 평가와 베이스라인과의 광범위한 비교를 통해 RoMA가 가져오는 상당한 성능 향상을 확인하였습니다.
인간 상호작용과 정보 교류의 핵심 매체로서 소셜 네트워킹 서비스(SNS)는 대규모 언어 모델(LLM)에게 이질적인 워크로드, 빠르게 변화하는 규범 및 속어, 급격한 분포 변화를 유발하는 다국어 및 문화적으로 다양한 코퍼스라는 독특한 과제를 제기합니다. 지도 미세 조정(SFT)은 모델을 특화시킬 수 있지만, 특히 소규모 모델에서 내부 분포 성능 향상과 외부 분포 강건성 간의 「시소 효과」를 자주 유발합니다. 이러한 과제를 해결하기 위해 우리는 빠르고 안정적인 적응을 위해 설계된 점진적 강화 학습 우선 순위 사후 훈련 패러다임으로 훈련된 SNS 지향 LLM인 RedOne 2.0을 소개합니다. 이 파이프라인은 세 단계로 구성됩니다: (1) 선별된 SNS 코퍼스에 대한 탐색적 학습을 통한 초기 정렬 확립 및 체계적 약점 식별; (2) 진단된 격차에 선택적으로 SFT를 적용하면서 일반 데이터의 소량을 혼합하여 망각 현상을 완화하는 표적 미세 조정; (3) SNS 중심 신호로 강화 학습을 재적용하여 개선사항을 공고히 하고 작업 간 트레이드오프를 조화시키는 정제 학습. 세 가지 범주에 걸친 다양한 작업에서 우리의 40억 규모 모델은 70억 규모의 차선基线 모델 대비 평균 약 2.41의 성능 향상을 달성했습니다. 또한 RedOne 2.0은 SFT 중심 방법인 RedOne보다 필요한 데이터량의 절반 미만으로 기본 모델 대비 평균 약 8.74의 성능 향상을 이루어, 컴팩트 규모에서 우수한 데이터 효율성과 안정성을 입증했습니다. 전반적으로 RedOne 2.0은 SNS 시나리오에서 도메인 특화 LLM의 경쟁력 있고 비용 효율적인 기준을 제시하며, 강건성을 희생하지 않고 성능을 발전시켰습니다.
다중 양식 대형 언어 모델(MLLMs)의 등장으로 AI의 능력이 시각 양식으로 확장되었으나, 기존 평가 벤치마크는 단일 영상 이해에 국한되어 실제 시나리오(예: 스포츠 분석 및 자율 주행)에서 중요한 다중 영상 이해 필요성을 간과해 왔습니다. 이러한 중대한 격차를 해결하기 위해 본 논문에서는 MLLMs의 다중 영상 이해 능력을 평가하는 최초의 포괄적 벤치마크인 MVU-Eval을 소개합니다. 구체적으로, MVU-Eval은 다양한 분야의 4,959개 영상에 걸쳐 정교하게 구성된 1,824개의 질문-답변 쌍을 통해 8가지 핵심 역량을 평가하며, 기본 인식 작업과 고차원 추론 작업을 모두 다룹니다. 이러한 역량은 자율 시스템의 다중 센서 합성 및 교차 각도 스포츠 분석과 같은 실제 적용 사례와 엄격하게 연계되었습니다. 최첨단 오픈소스 및 클로즈드소스 모델에 대한 광범위한 평가를 통해, 현재 MLLMs의 다중 영상 이해 수행 능력에서 존재하는 상당한 성능 격차와 한계를 규명합니다. 본 벤치마크는 향후 연구 발전을 위해 공개될 예정입니다.
복잡한 작업을 해결하려면 일반적으로 LLM이 긴 다단계 추론 체인을 생성해야 합니다. 선행 연구에서는 개별 추론 단계의 정확성을 검증하는 것이 이러한 작업에서 LLM의 성능과 효율성을 더욱 향상시키고 해결책의 해석 가능성을 높일 수 있음을 보여주었습니다. 그러나 PRM(Process Reward Models)과 같은 기존 검증 접근법은 계산 비용이 많이 들거나, 특정 영역에 국한되거나, 대규모의 인간 또는 모델 생성 주석이 필요합니다. 따라서 우리는 데이터 기반 불확실성 점수에 기반한 단계별 추론 검증을 위한 경량 대안을 제안합니다. 우리는 고정된 LLM의 내부 상태를 사용하여 생성 과정 중 추론 단계의 불확실성을 추정하는 Transformer 기반 불확실성 정량화 헤드(UHead)를 학습합니다. 이 접근법은 완전 자동화되어 있습니다: 목표 레이블은 더 큰 LLM(예: DeepSeek R1)에 의해 생성되거나 원본 모델 자체에 의해 자기 지도 방식으로 생성됩니다. UHead는 1천만 개 미만의 매개변수를 포함하여 효과적이면서도 경량입니다. 수학, 계획 수립, 일반 상식 질의응답을 포함한 여러 영역에서 UHead는 크기가 최대 810배 큰 PRM의 성능을 따라잡거나 심지어 능가합니다. 우리의 연구 결과는 LLM의 내부 상태가 그 불확실성을 인코딩하며 추론 검증을 위한 신뢰할 수 있는 신호로 작용할 수 있음을 시사하며, 확장 가능하고 일반화 가능한 자기 성찰적 LLM을 위한 유망한 방향을 제시합니다.
최근 깊이 순환 언어 모델의 발전은 순환 구조가 학습 시 연산량과 매개변수 수를 추론 시 연산량과 분리할 수 있음을 보여주고 있습니다. 본 연구에서는 기존에 사전 학습된 비순환 언어 모델을 깊이 순환 모델로 변환하는 방법을 탐구합니다. 학습 과정에서 점진적으로 순환을 도입하여 모델의 유효 깊이를 증가시키는 커리큘럼 방식을 적용하면 전체 계산 비용을 줄이면서도 성능을 유지할 수 있음을 발견했습니다. 수학 문제 해결 실험에서 사전 학습된 모델을 순환 모델로 변환했을 때, 기존 비순환 언어 모델을 단순히 사후 학습하는 것보다 동일한 계산 예산 대비 더 우수한 성능을 보였습니다.
대규모 언어 모델(LLM) 추론을 위한 소프트 사고 패러다임은 일부 시나리오에서 기존의 이산 토큰 연쇄 사고(CoT) 추론을 능가할 수 있어 그 연구 및 적용 가치를 부각시킵니다. 그러나 이산 토큰 CoT 추론 패턴은 GRPO와 같은 정책 최적화 알고리즘을 통해 강화될 수 있는 반면, 강화 학습(RL)을 이용해 소프트 사고 패턴을 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 어려움은 소프트 사고 토큰에 확률적 요소를 주입하고 이에 따라 소프트 사고 정책을 업데이트하는 과정의 복잡성에서 비롯됩니다. 그 결과, 소프트 사고와 GRPO를 결합하려는 기존 시도들은 일반적으로 이산 토큰 GRPO 방식에 비해 낮은 성능을 보였습니다. 소프트 사고의 잠재력을 완전히 끌어내기 위해 본 논문은 소프트 사고 추론 패러다임 하에서 LLM을 강화하는 새로운 정책 최적화 알고리즘인 SofT-GRPO를 제안합니다. SofT-GRPO는 로짓에 검벨 노이즈를 주입하고, 사전 훈련된 임베딩 공간을 벗어나는 소프트 사고 토큰을 방지하기 위해 검벨-소프트맥스 기법을 사용하며, 정책 그래디언트에서 재매개변수화 트릭을 활용합니다. 우리는 15억에서 70억 파라미터 규모의 기본 LLM을 대상으로 실험을 수행했으며, 결과는 SofT-GRPO가 소프트 사고 LLM이 Pass@1에서는 이산 토큰 GRPO를 약간 상회하고(평균 정확도 +0.13%), Pass@32에서는 상당한 향상을 보임을 입증합니다(평균 정확도 +2.19%). 코드와 가중치는 https://github.com/zz1358m/SofT-GRPO-master에서 확인할 수 있습니다.
우리는 언어 모델(LM)의 강화 학습(RL)을 확장하기 위해, 절차적으로 문제를 생성하고 알고리즘적으로 검증 가능한 보상을 제공하는 검증 가능 환경을 활용하는 접근법인 RLVE(Adaptive Verifiable Environments)를 소개합니다. RLVE는 각 검증 가능 환경이 학습 진행에 따라 정책 모델의 능력에 맞춰 문제 난이도 분포를 동적으로 조정할 수 있게 합니다. 이와 대조적으로, 정적 데이터 분포는 문제가 정책에 비해 너무 쉬우거나 어려울 경우 학습 신호가 사라지는 경우가 많습니다. RLVE를 구현하기 위해 수동 환경 엔지니어링을 통해 신중하게 개발된 400개의 검증 가능 환경으로 구성된 대규모 제품군인 RLVE-Gym을 구축했습니다. RLVE-Gym을 사용하여 훈련 환경 컬렉션을 확장하는 환경 스케일링이 일반화된 추론 능력을 꾸준히 향상시킴을 보여줍니다. RLVE-Gym의 400개 환경 전체를 대상으로 한 공동 훈련을 적용한 RLVE는 가장 강력한 1.5B 매개변수 추론 LM 중 하나를 시작점으로 하여 6개의 추론 벤치마크에서 평균 3.37%의 절대적 향상을 달성했습니다. 비교적으로, 해당 LM의 기존 RL 훈련을 지속하는 경우 3배 이상의 계산 자원을 사용했음에도 평균 절대 향상률은 0.49%에 그쳤습니다. 우리는 코드를 공개합니다.
대규모 언어 모델(LLM)으로 구동되는 자율 에이전트는 추론 및 문제 해결 분야에 혁명을 가져왔지만, 훈련 후에는 정적 상태로 남아 배포 과정에서 지능적 존재처럼 경험을 통해 성장하지 못합니다. 본 연구에서는 경험 기반 전방 학습(FLEX)을 소개합니다. 이는 경사하강법을 사용하지 않는 학습 패러다임으로, LLM 에이전트가 축적된 경험을 통해 지속적으로 진화할 수 있도록 합니다. 구체적으로 FLEX는 환경과의 상호작용 과정에서 성공과 실패에 대한 지속적인 성찰을 통해 구조화된 경험 라이브러리를 구축함으로써 확장 가능하고 계승 가능한 진화를 도모합니다. FLEX는 수학적 추론, 화학 역합성, 단백질 적합도 예측 분야에서 상당한 성능 향상(AIME25 기준 최대 23%, USPTO50k 기준 10%, ProteinGym 기준 14%)을 보여주었습니다. 또한 우리는 경험적 성장의 명확한 스케일링 법칙과 에이전트 간 경험 계승 현상을 확인하여, 확장 가능하고 계승 가능한 지속적 에이전트 진화를 위한 한 걸음을 내디뎠습니다. 프로젝트 페이지: https://flex-gensi-thuair.github.io.
2025년 10월 21일 기준 다국어 대규모 텍스트 임베딩 벤치마크(MMTEB) 리더보드에서 최첨단 성능을 달성한 오픈 웨이트 텍스트 임베딩 모델인 llama-embed-nemotron-8b를 소개합니다. 최근 모델들은 강력한 성능을 보여주지만, 그 학습 데이터나 방법론이 종종 완전히 공개되지 않습니다. 우리는 모델 가중치와 상세한 제어 실험 결과를 공개하고, 정제된 학습 데이터셋의 공유를 계획함으로써 완전한 오픈소스 모델을 개발하여 이 문제를 해결하고자 합니다. 우리의 모델은 검색, 분류, 의미적 텍스트 유사성(STS)을 포함한 모든 주요 임베딩 작업에서 우수한 성능을 보이며, 저자원 언어 및 교차 언어 설정과 같은 까다로운 다국어 시나리오에서도 뛰어납니다. 이러한 최첨단 성능은 공개 데이터셋의 770만 개 샘플과 다양한 오픈 웨이트 LLM으로부터 합성 생성된 840만 개의 예시로 구성된 총 1,610만 개의 쿼리-문서 쌍이라는 새로운 데이터 조합에 기인합니다. 우리의 핵심 기여 중 하나는 대조 손실 구현 방식 비교, 합성 데이터 생성(SDG) 전략 평가, 모델 병합의 영향 분석 등 핵심 설계 선택을 분석한 상세한 제어 실험입니다. llama-embed-nemotron-8b는 지시어 인식 모델로, 특정 사용 사례에 대한 성능을 향상시키기 위해 사용자 정의 지시어를 지원합니다. 이처럼 최고 수준의 성능, 광범위한 적용성, 사용자 주도적 유연성을 결합하여 이 모델은 범용 텍스트 임베딩 솔루션으로 역할할 수 있습니다.
자연어로부터 편집 가능한 3D CAD 모델을 생성하는 것은 기존 텍스트-to-CAD 시스템이 메시를 생성하거나 부족한 설계 이력 데이터에 의존하기 때문에 여전히 어려운 과제입니다. 본 논문에서는 비균일 유리 B-스플라인(NURBS)을 이용하여 텍스트로부터 직접 고품질 3D CAD 모델을 생성하는 최초의 프레임워크인 NURBGen을 제안합니다. 이를 위해 대규모 언어 모델(LLM)을 미세 조정하여 자유 형식 텍스트를 NURBS 표면 매개변수(제어점, 노트 벡터, 차수, 유리 가중치)를 포함하는 JSON 표현으로 변환하며, 이는 Python을 사용하여 BRep 형식으로 직접 변환될 수 있습니다. 또한, 트리밍된 표면과 퇴화 영역을 더 강력하게 처리하면서 토큰 복잡성을 줄이기 위해 트리밍되지 않은 NURBS와 해석적 기본 요소를 결합한 하이브리드 표현을 추가로 제안합니다. 더불어 자동화된 주석 생성 파이프라인을 통해 상세한 캡션으로 주석 처리된 개별 CAD 컴포넌트로 구성된 ABC 데이터셋의 정제된 하위 집합인 partABC를 소개합니다. NURBGen은 다양한 프롬프트에서 강력한 성능을 보여주며, 전문가 평가를 통해 확인된 바와 같이 기하학적 정확도와 치수 정밀도에서 기존 방법들을 능가합니다. 코드와 데이터셋은 공개될 예정입니다.
검증 가능한 보상 강화학습(RLVR)은 대규모 추론 모델 훈련에 강력하지만, 그 훈련 역학에는 중요한 과제가 내재되어 있습니다: 바로 RL 과적합으로, 모델이 훈련 보상은 획득하지만 일반화 능력을 상실하는 현상입니다. 우리의 분석에 따르면 이는 정책의 과도한 전문화와 훈련 과정에서 생성된 다양한 해결책에 대한 파국적 망각에 기인합니다. 표준 최적화 방법은 이러한 소중한 단계 간 정책 다양성을 버리게 됩니다. 이를 해결하기 위해 우리는 반복적 정책 초기화에 기반한 자기 개선 프레임워크인 RLoop를 제안합니다. RLoop는 표준 훈련 과정을 선순환 구조로 전환합니다: 먼저 주어진 정책에서 출발해 RL을 통해 해결책 공간을 탐색하고, 성공적인 궤적을 필터링하여 전문가 데이터셋을 생성합니다. 이 데이터셋은 기각 샘플링 미세 조정(RFT)을 통해 초기 정책을 개선하여 다음 반복을 위한 우수한 출발점을 마련합니다. 이러한 반복적 재초기화를 통한 탐험과 활용의 루프는 일시적인 정책 변이를 견고한 성능 향상으로 효과적으로 전환합니다. 우리의 실험 결과 RLoop는 망각 현상을 완화하고 일반화 능력을 크게 향상시켜, 일반 RL 대비 평균 정확도 9%, pass@32 기준 15% 이상의 성능 향상을 달성했습니다.
강화학습(RL)은 암기된 지식의 저하를 대가로 언어 모델의 추론 및 일반화 능력을 향상시킨다는 평가를 종종 받습니다. 본 연구는 이러한 통념에 의문을 제기하며, RL로 강화된 모델들이 순수 지식 회상 과제, 특히 계층적 구조화된 지식(예: 의료 코드)의 탐색이 필요한 과제에서 기준 모델과 지도 미세조정(SFT) 모델을 지속적으로 능가함을 관찰했습니다. 우리는 이러한 성능 향상이 새로 습득한 데이터에서 비롯된 것이 아니라, 모델 매개변수 내에 존재하는 기존 지식 계층 구조를 탐색하고 검색하는 절차적 기술이 향상되었기 때문이라고 가정합니다. 이 가설을 뒷받침하기 위해, 계층적 탐색을 명시적으로 안내하는 구조화된 프롬프팅이 SFT 모델의 성능 격차 대부분을 회복시킴을 보여줍니다(MedConceptsQA 데이터셋에서 DeepSeek-V3/R1의 격차를 24%p에서 7%p로 축소). 또한 프롬프팅이 최종 답변 정확도는 향상시키지만, RL 강화 모델은 심층 검색 과제에서 올바른 절차적 경로를 회상하는 능력이 여전히 우월함을 발견했습니다. 마지막으로, 계층별 내부 활성화 분석 결과, 사실적 표현(예: "코드 57.95는 요로 감염을 의미함"이라는 문장에 대한 활성화)은 SFT와 RL 모델 간 높은 코사인 유사도를 유지하는 반면, 질의 표현(예: "코드 57.95는 무엇인가요?")은 뚜렷이 차이를 보여 RL이 주로 지식 표현 자체가 아니라 모델이 지식을 탐색하는 방식을 변형시킨다는 것을 시사합니다.
최근 멀티모달 추론 분야의 발전은 대부분 공개되지 않은 데이터셋과 독점적인 데이터 합성 방법에 의해 주도되어 왔으며, 특히 시각 수학을 넘어서는 과제를 위해 대규모의 시각 중심 추론 데이터셋을 체계적으로 구축하는 방법에 대한 의문이 남아 있었습니다. 본 연구에서는 100만 개 이상의 고품질 합성 시각 중심 질문으로 다양한 기술과 복잡성 수준을 아우르는 새로운 추론 데이터 생성 프레임워크를 소개합니다. 이 데이터셋은 오프라인 및 온라인 강화학습(RL)을 모두 지원하는 선호도 데이터와 지시 프롬프트도 포함하고 있습니다. 우리의 합성 프레임워크는 (1) 규모 확장 및 (2) 복잡성 증가라는 두 단계로 진행됩니다. 이후 추론 흔적은 VLM과 추론 LLM을 활용하는 두 단계 프로세스를 통해 합성되어, 최첨단 추론 모델에서 발견되는 풍부하고 다양한 인지 행동을 포착하는 VLM용 CoT 흔적을 생성합니다. 주목할 만하게도, Qwen2.5-VL-7B을 우리 데이터로 미세 조정하면 평가된 모든 시각 중심 벤치마크에서 오픈 데이터 기반 모델들을 모두 능가하며, V* Bench, CV-Bench, MMStar-V에서 MiMo-VL-7B-RL과 같은 강력한 클로즈드 데이터 모델까지도 능가하는 성능을 보였습니다. 가장 놀라운 점은 전적으로 시각 중심으로 구성되었음에도 불구하고, 우리 데이터가 텍스트 전용 추론(MMLU-Pro)과 오디오 추론(MMAU)에 긍정적으로 전이되어 그 효과성을 입증했다는 것입니다. 마찬가지로, 비디오나 구현된 시각 데이터를 포함하지 않았음에도 불구하고, 단일 증거 구현 질의응답 벤치마크(NiEH)에서 평가 시 상당한 성능 향상을 관찰했습니다. 마지막으로, 우리는 이 데이터를 사용하여 VLM 사후 훈련 파이프라인 전체를 분석합니다. 우리의 실증적 분석은 (i) 비선형 추론 흔적을 가진 고품질 데이터에 대한 SFT가 효과적인 온라인 RL에 필수적이며, (ii) 단계적 오프라인 RL이 컴퓨팅 요구량을 줄이면서 온라인 RL의 성능을 따라갈 수 있고, (iii) 고품질 데이터에 대한 신중한 SFT가 도메인 외부, 크로스 모달리티 전이를 상당히 개선할 수 있음을 강조합니다.
사용자 인터페이스를 제어할 수 있는 AI 에이전트는 인간과 디지털 기기 간의 상호작용을 혁신할 잠재력을 지니고 있습니다. 이러한 변화를 가속화하기 위해서는 두 가지 기본 구성 요소가 필수적입니다. 첫째, 에이전트가 복잡하고 인간 중심의 목표를 달성할 수 있도록 하는 고품질 데이터셋이며, 둘째, 연구자와 실무자가 에이전트 성능을 신속하게 향상시킬 수 있도록 하는 강력한 평가 방법론입니다. 본 논문에서는 모바일 제어 에이전트 학습을 위해 설계된 대규모, 고품질, 다양성, 다중 모달 데이터셋인 DigiData를 소개합니다. 비정형 상호작용에서 목표를 도출하는 기존 데이터셋과 달리 DigiData는 앱 기능을 포괄적으로 탐색하여 세심하게 구축되었으며, 이로 인해 더 높은 다양성과 목표 복잡성을 지닙니다. 또한 실제 세계의 복잡한 작업에 대해 모바일 제어 에이전트를 평가하는 벤치마크인 DigiData-Bench를 제시합니다. 우리는 일반적으로 사용되는 단계 정확도(step-accuracy) 메트릭이 모바일 제어 에이전트를 신뢰성 있게 평가하는 데 부족함을 보여주며, 이를 해결하기 위해 에이전트 평가를 위한 엄격한 대안으로 동적 평가 프로토콜과 AI 기반 평가를 제안합니다. 우리의 기여는 모바일 제어 에이전트 개발을 크게 진전시켜 보다 직관적이고 효과적인 인간-기기 상호작용의 길을 열어줄 것입니다.
음악 유도 회화는 음악의 영향을 받아 시각 예술 작품을 창작하는 독특한 예술 실천이다. 영감을 준 음악을 회화가 충실히 반영하고 있는지 평가하는 것은 난해한 지각적 평가 과제를 제기한다. 기존 방법론은 주로 음악과 회화 간 유사성을 평가하기 위해 감정 인식 모델에 의존하지만, 이러한 모델은 상당한 노이즈를 유입하며 감정 이상의 포괄적 지각 단서를 간과한다. 이러한 한계를 해결하기 위해, 본 연구는 음악과 시각 예술 간 지각적 일관성을 직접 모델링하는 새로운 음악 유도 회화 평가 프레임워크를 제안한다. 우리는 분야 전문가가 지각적 일관성을 기준으로 주석을 단 최초의 대규모 음악-회화 쌍 데이터셋인 MPD를 소개한다. 모호한 사례를 더 효과적으로 처리하기 위해 pairwise 선호도 주석을 추가로 수집하였다. 이 데이터셋을 기반으로, 변조 기반 융합 메커니즘을 통해 음악 특징을 시각 인코더에 통합하는 MPJudge 모델을 제시한다. 모호한 사례에서의 효과적 학습을 위해 Direct Preference Optimization을 훈련에 채택하였다. 폭넓은 실험을 통해 우리 방법론이 기존 접근법을 능가함을 입증한다. 정성적 결과는 further 우리 모델이 회화에서 음악 관련 영역을 더 정확하게 식별함을 보여준다.
대규모 언어 모델(LLM)의 급속한 발전으로 다양한 애플리케이션이 진전되었으나, 온디바이스 인텔리전스를 위해서는 효율적인 단일 배치 추론이 여전히 중요합니다. FPGA는 세밀한 데이터 제어와 높은 에너지 효율을 제공하지만, 최근 GPU 최적화 기술로 인해 특히 산술 연산 기반 컴퓨팅 환경에서 그 이점이 축소되었습니다. 이를 극복하기 위해 우리는 FPGA의 풍부한 온칩 메모리를 활용하여 테이블 탐색을 통해 LLM 추론을 산술 기반에서 메모리 기반 컴퓨팅으로 전환합니다. 우리는 벡터 양자화된 메모리 연산을 통해 10억 파라미터 이상의 LLM 추론을 가능하게 하는 최초의 FPGA 가속기인 LUT-LLM을 제시합니다. 우리의 분석은 활성화-가중치 공동 양자화가 가장 효과적인 기법임을 확인하며, 이를 위해 (1) 대역폭 인식 병렬 중심점 탐색, (2) 효율적인 2차원 테이블 탐색, (3) 데이터 캐싱을 최소화하는 시공간 하이브리드 설계를 지원합니다. 맞춤형 Qwen 3 1.7B 모델에 대해 AMD V80 FPGA로 구현된 LUT-LLM은 AMD MI210 대비 1.66배 낮은 지연 시간을 달성했으며, NVIDIA A100 대비 1.72배 높은 에너지 효율을 보여줍니다. 또한 320억 파라미터 모델로 확장 시 A100 대비 2.16배의 효율 향상을 달성합니다.
자연어 명령을 따를 수 있는 능력 덕분에 비전-언어-행동(VLA) 모델은 그 전신인 LLM과 VLM의 광범위한 성공에 이어 구현형 AI 영역에서 점점 더 보편화되고 있습니다. 본 논문에서는 VLA 모델의 지속적인 발전 과정에서 나타나는 10가지 주요 이정표—다중모달성, 추론, 데이터, 평가, 로봇 간 행동 일반화, 효율성, 전신 조율, 안전성, 에이전트, 인간과의 협력—에 대해 논의합니다. 나아가 이러한 이정표에 도달하기 위한 공간 이해 활용, 세계 역학 모델링, 사후 훈련, 데이터 합성 등 신흥 트렌드에 대해서도 살펴봅니다. 이러한 논의를 통해 VLA 모델의 개발이 보다 폭넓은 수용성을 얻는 방향으로 가속화될 수 있는 연구 경로에 주목을促하고자 합니다.
텍스트-이미지 확산 모델은 고품질 이미지를 생성하지만, 이를 인간의 선호도와 정렬하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 이러한 모델에 대한 확산 기반 직접 선호도 최적화(DPO)를 재검토하고 중요한 문제점을 확인했습니다: 선호도 마진을 확대하는 것이 반드시 생성 품질 향상으로 이어지지는 않는다는 것입니다. 특히 표준 Diffusion-DPO 목적 함수는 승자와 패자 브랜치 모두의 재구성 오차를 증가시킬 수 있습니다. 그 결과, 선호도가 낮은 출력의 저하가 심해져 마진이 커짐에 따라 선호되는 브랜치까지 부정적인 영향을 받을 수 있습니다. 이를 해결하기 위해 우리는 Diffusion-SDPO를 도입했습니다. 이는 패자 그래디언트를 승자 그래디언트와의 정렬 정도에 따라 적응적으로 스케일링하여 승자를 보존하는 안전장치가 있는 업데이트 규칙입니다. 1차 분석을 통해 최적화 단계마다 선호 출력의 오차가 비증가함을 보장하는 폐쇄형 스케일링 계수를 도출했습니다. 우리의 방법은 단순하며 모델에 독립적이고, 기존 DPO 스타일 정렬 프레임워크와 광범위하게 호환되며, 계산 오버헤드도 미미합니다. 표준 텍스트-이미지 벤치마크에서 Diffusion-SDPO는 자동화된 선호도, 심미성, 프롬프트 정렬 메트릭에 대해 선호도 학습 기준선 대비 일관된 성능 향상을 제공합니다. 코드는 https://github.com/AIDC-AI/Diffusion-SDPO에서 공개적으로 이용 가능합니다.
단일 이미지로부터 임의의 객체에 대한 다양한 3D 동작을 생성할 수 있는 생성적 접근법인 DIMO를 제안합니다. 우리 연구의 핵심 아이디어는 사전 학습된 비디오 모델의 풍부한 사전 지식을 활용하여 공통된 동작 패턴을 추출한 후, 이를 공유 저차원 잠재 공간에 임베딩하는 것입니다. 구체적으로, 우리는 먼저 동일한 객체에 대해 다양한 동작을 가진 여러 비디오를 생성합니다. 그런 다음 각 동작을 잠재 벡터로 임베딩하고, 공유 동작 디코더를 학습시켜 구조화되고 간결한 동작 표현(즉, 신경망 키 포인트 궤적)으로 나타낸 동작의 분포를 학습합니다. 이후 표준 3D 가우시안들이 이러한 키 포인트에 의해 구동되며 형상과 외관을 모델링하기 위해 융합됩니다. 학습된 잠재 공간을 이용한 추론 시에는 단일 순전파 과정으로 다양한 3D 동작을 즉시 샘플링할 수 있으며, 3D 동작 보간 및 언어 유도 동작 생성을 포함한 여러 흥미로운 응용을 지원합니다. 우리의 프로젝트 페이지는 https://linzhanm.github.io/dimo에서 확인할 수 있습니다.
강화 학습(RL)을 통해 사후 학습된 시각-언어 모델(VLM)은 인상적인 일반 추론 능력을 보이지만, 그 평가는 주로 언어 중심 과제(예: 수학)에 국한되는 경향이 있습니다. 이는 중요한 질문을 제기합니다: 특히 기본 VLM이 처음에는 실패하는 시각 중심 공간 과제에서 RL 사후 학습이 정말로 기본 VLM의 고유 능력 한계를 확장할 수 있을까요? 이를 조사하기 위해 우리는 과제 난이도(예: 경로 길이, 회전)를 정밀하게 제어할 수 있는 다단계 공간 추론을 위한 합성 미로를 활용하는 Ariadne 프레임워크를 소개합니다. 우리는 이 제어 가능한 환경을 활용하여 난이도 인지 커리큘럼 하에서 검증된 보상을 활용한 강화 학습(RLVR)으로 VLM을 학습시킵니다. 놀랍게도, RLVR 사후 학습을 거친 VLM은 기본 모델이 0%의 정확도를 보였던 문제 집합에서 50% 이상의 정확도를 달성하여, 우리의 접근 방식이 모델의 초기 능력 한계를 확장함을 입증했습니다. 실제 적용 가능성을 평가하기 위해 우리는 실용적인 벤치마크에서 분포 외(OOD) 일반화 성능을 평가합니다. 합성 미로 샘플만으로 학습했음에도 불구하고, Ariadne는 MapBench(예: 박물관 내비게이션)에서 평균 16%, ReasonMap(지하철 환승 과제)에서 평균 24%의 상당한 제로샷 성능 향상을 달성합니다. 이러한 결과는 우리의 방법이 모델의 근본적인 한계를 넓힐 뿐만 아니라 실제 공간 추론으로의 일반화 능력도 향상시킨다는 것을 확인해줍니다. 우리는 사전 학습 데이터의 불투명성을 고려할 때 본 연구가 사후 학습 단계에 국한됨을 인정하며, 우리의 연구가 특화되고 능력 확장을 위한 정렬(alignment)에 대한 추가 연구를 촉진하기를 바랍니다.
대규모 소프트웨어 저장소의 성능 최적화는 프로그램 정확성을 유지하면서 실행 시간을 단축하기 위해 코드 추론 및 소프트웨어 공학(Software Engineering, SWE) 전문 지식을 요구합니다. 그러나 대부분의 벤치마크는 코드를 '수정할 대상'보다 '수정 방법'에 중점을 두지 않습니다. 본 연구에서는 실제 워크로드에 대한 저장소 수준 성능 최적화를 평가하기 위한 벤치마크인 SWE-fficiency를 소개합니다. 저희 제품군에는 널리 사용되는 9개의 데이터 사이언스, 머신러닝, HPC 저장소(예: numpy, pandas, scipy)에 걸친 498개의 작업이 포함되어 있습니다. 완전한 코드베이스와 느린 워크로드가 주어지면, 에이전트는 코드 의미를 조사하고 병목 현상 및 관련 테스트를 지역화하며, 동일한 단위 테스트를 통과하면서 전문가의 속도 향상에 부합하거나 이를 초과하는 패치를 생성해야 합니다. 이러한 '수정 방법' 평가를 가능하게 하기 위해, 저희의 자동화된 파이프라인은 성능 향상 편집을 위한 GitHub 풀 리퀘스트를 수집하며, 키워드 필터링, 정적 분석, 커버리지 도구 및 실행 검증을 결합하여 전문가의 속도 향상 기준선을 확인하고 관련 저장소 단위 테스트를 식별합니다. 최첨단 에이전트에 대한 실증적 평가는 상당한 저성능을 보여줍니다. 평균적으로 에이전트는 전문가의 속도 향상의 0.15배 미만을 달성하는데, 이는 에이전트가 최적화 기회 지역화, 함수 간 실행 추론, 제안된 편집의 정확성 유지에 어려움을 겪기 때문입니다. 저희는 자동화된 성능 공학 및 장기적 소프트웨어 추론 연구를 촉진하기 위해 이 벤치마크와 함께 제공되는 데이터 파이프라인을 공개합니다.
비디오 이상 현상 이해(VAU)는 이상 이벤트에 대한 세부적인 해석과 의미론적 이해를 제공하여, 이상 현상의 탐지 및 위치 특정에만 집중하는 기존 방법의 한계를 해결하고자 합니다. 그러나 기존 접근법들은 이상 행동을 이해하는 데 중요한 객체 간의 깊은 인과 관계와 상호작용을 종종 간과합니다. 본 논문에서는 비디오 기반 이상 현상 이해를 위한 LLM 기반 프레임워크인 VADER를 제안합니다. VADER는 키프레임 객체 관계 특징과 시각적 단서를 통합하여 비디오로부터의 이상 현상 이해를 향상시킵니다. 구체적으로, VADER는 먼저 Anomaly Scorer를 적용하여 프레임별 이상 점수를 부여한 후, 각 이상 이벤트의 인과적 맥락을 포착하기 위한 Context-AwarE Sampling(CAES) 전략을 적용합니다. Relation Feature Extractor와 COntrastive Relation Encoder(CORE)는 동적 객체 상호작용을 공동으로 모델링하여 다운스트림 추론을 위한 간결한 관계 표현을 생성합니다. 이러한 시각적 및 관계적 단서는 LLM과 통합되어 세부적이고 인과적으로 근거 있는 설명을 생성하며, 강력한 이상 현상 관련 질의응답을 지원합니다. 여러 실제 VAU 벤치마크에서의 실험 결과, VADER가 이상 현상 설명, 해석 및 인과 추론 과제 전반에 걸쳐 우수한 성과를 달성하여 설명 가능한 비디오 이상 현상 분석의 최전선을 발전시킴을 입증했습니다.
대화 감정 인식(ERC)은 인간의 감정을 이해하고 자연스러운 인간-컴퓨터 상호작용을 가능하게 하는 중요한 과제입니다. 대규모 언어 모델(LLM)이 최근 이 분야에서 큰 잠재력을 보여주고 있지만, 명시적 감정과 암묵적 감정 사이의 내재적 연결을 포착하는 능력은 여전히 제한적입니다. 본 연구에서는 LLM이 대화 맥락에서 감정을 효과적으로 인지할 수 있는지 탐구하기 위해 프롬프트 엔지니어링, 데모 검색, 커리큘럼 학습을 통합한 새로운 ERC 훈련 프레임워크인 PRC-Emo를 제안합니다. 구체적으로, 화자의 심리 상태를 더 잘 이해하도록 모델을 유도하기 위해 명시적 및 암묵적 감정 단서를 기반으로 감정 민감형 프롬프트 템플릿을 설계합니다. 또한 널리 사용되는 데이터셋의 훈련 샘플과 LLM이 생성 후 수동으로 검증된 고품질 대화 예제를 포함하는 ERC 전용 최초의 데모 검색 저장소를 구축합니다. 더 나아가 LoRA 미세 조정 과정에 커리큘럼 학습 전략을 도입하여 동일 화자와 상이 화자 발화 간의 가중 감정 변화를 활용하여 대화 샘플에 난이도를 부여하고, 이를 쉬운 것에서 어려운 순서로 훈련 시퀀스를 구성합니다. IEMOCAP과 MELD라는 두 벤치마크 데이터셋에 대한 실험 결과, 우리의 방법이 새로운 최첨단(SOTA) 성능을 달성하여 LLM 기반 감정 이해 개선에 대한 우리 접근법의 효과성과 일반화 능력을 입증하였습니다.
대규모 언어 모델(LLM)은 최근 청각 음성 인식(ASR), 시각 음성 인식(VSR), 그리고 오디오-시각 음성 인식(AVSR)을 포함한 다중 양식 간 음성 인식 분야에서 인상적인 성과를 거두었습니다. 이러한 진전에도 불구하고, 현재의 LLM 기반 접근법은 일반적으로 각 작업을 독립적으로 처리하여 별도의 모델을 학습시키며, 이는 계산 및 배포 자원 사용을 증가시키고 작업 간 시너지 효과를 놓치게 합니다. 또한 고정 비율 토큰 압축에 의존하여 정확도와 효율성 간의 균형을 유연하게 조정하는 데 제약이 있습니다. 이러한 한계점들은 ASR, VSR, AVSR을 모두 지원하면서 탄력적인 추론을 가능하게 하는 통합 프레임워크의 필요성을 부각시킵니다. 이를 위해 우리는 효율적인 다중 세분성 학습과 매개변수 효율적 적응을 결합한 통합 오디오-비주얼 LLM인 Omni-AVSR을 제안합니다. 구체적으로, 우리는 마트료시카 표현 학습 패러다임을 적용하여 다중 오디오 및 시각 세분성 간 효율적인 학습을 수행함으로써 내재된 학습 자원 사용을 줄입니다. 더 나아가, 백본 LLM을 적응시키기 위한 세 가지 LoRA 기반 전략을 탐구하여 공유된 특화와 작업별 특화 간의 균형을 맞춥니다. LRS2와 LRS3에 대한 실험 결과, Omni-AVSR은 단일 모델을 훨씬 낮은 학습 및 배포 자원으로 학습시키면서도 최신 기준 모델들과 견줄 만하거나 더 나은 정확도를 달성함을 보여줍니다. 또한 해당 모델은 음향 노이즈 하에서도 견고성을 유지하며, 우리는 LLM 크기가 증가함에 따른 확장 행동을 분석하여 성능과 효율성 간의 트레이드오프에 대한 통찰을 제공합니다.