번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 일반화된 이중성(duality)을 통해 주석 없는 피드백을 생성하는 이중 학습 기반 선호 최적화 프레임워크인 DuPO를 제안한다. DuPO는 두 가지 주요 한계를 해결한다: 첫째, 검증 가능한 보상을 통한 강화 학습(RLVR)이 비용이 많이 드는 레이블에 의존하며 검증 가능한 작업에만 적용 가능하다는 점, 둘째, 전통적인 이중 학습이 엄격한 이중 작업 쌍(예: 번역 및 역번역)에만 제한된다는 점이다. 구체적으로, DuPO는 주 작업의 입력을 알려진 부분과 알려지지 않은 부분으로 분해한 후, 이중 작업을 구성하여 주 작업의 출력과 알려진 정보를 사용하여 알려지지 않은 부분을 재구성한다(예: 수학 문제 해결을 역으로 수행하여 숨겨진 변수를 복구). 이를 통해 비가역적 작업에도 적용 범위를 확장한다. 이 재구성의 품질은 주 작업을 최적화하기 위한 자기 지도 학습 보상으로 작용하며, 단일 모델을 통해 두 작업을 모두 인스턴스화할 수 있는 대형 언어 모델(LLM)의 능력과 시너지를 낸다. 실험적으로, DuPO는 다양한 작업에서 상당한 성능 향상을 달성했다: 756개 방향에서 평균 번역 품질을 2.13 COMET 향상시켰으며, 세 가지 수학적 추론 벤치마크에서 평균 6.4점의 정확도 향상을 보였고, 추론 시간 재순위 지정기로서 9.3점의 성능 향상을 달성했다(정확도를 위해 계산을 희생). 이러한 결과는 DuPO를 LLM 최적화를 위한 확장 가능하고 일반적이며 주석 없는 패러다임으로 자리매김한다.
미래 예측은 LLM 에이전트에게 분석적 사고, 정보 수집, 맥락 이해, 불확실성 하의 의사결정 등 높은 수준의 능력을 요구하는 복잡한 과제입니다. 에이전트는 방대한 양의 동적 정보를 수집하고 해석할 뿐만 아니라 다양한 데이터 소스를 통합하고, 불확실성을 고려하며, 신흥 트렌드에 기반해 예측을 조정해야 합니다. 이는 정치, 경제, 금융 등 분야에서 인간 전문가들이 수행하는 작업과 유사합니다. 그 중요성에도 불구하고, 실시간 업데이트 처리와 시의적절한 정확한 답변 검색의 어려움으로 인해 미래 예측을 평가하기 위한 대규모 벤치마크는 존재하지 않았습니다. 이를 해결하기 위해, 우리는 미래 예측 작업을 수행하는 LLM 에이전트를 위해 특별히 설계된 동적이고 실시간 평가 벤치마크인 FutureX를 소개합니다. FutureX는 미래 예측을 위한 가장 크고 다양한 실시간 벤치마크로, 실시간 일일 업데이트를 지원하며 자동화된 질문 수집 및 답변 수집 파이프라인을 통해 데이터 오염을 제거합니다. 우리는 추론 및 검색 능력을 갖춘 모델과 오픈소스 Deep Research Agent 및 클로즈드소스 Deep Research 모델과 같은 외부 도구 통합 모델을 포함한 25개의 LLM/에이전트 모델을 평가합니다. 이 포괄적인 평가는 동적 환경에서 에이전트의 적응적 추론과 성능을 평가합니다. 또한, 가짜 웹 페이지에 대한 취약성과 시간적 유효성을 포함한 미래 지향적 작업에서 에이전트의 실패 모드와 성능 결함에 대한 심층 분석을 제공합니다. 우리의 목표는 복잡한 추론과 예측적 사고에서 전문 인간 분석가 수준의 성능을 발휘할 수 있는 LLM 에이전트의 개발을 촉진하는 동적이고 오염 없는 평가 기준을 확립하는 것입니다.
대형 언어 모델(LLMs)은 금융 응용 분야에서 유망한 가능성을 보여주고 있지만, 기존 벤치마크의 부족으로 인해 이 고위험 영역에서의 적합성은 여전히 대부분 입증되지 못한 상태입니다. 기존 벤치마크는 단순히 점수 수준의 평가에 의존하며, 단일 점수로 성능을 요약함으로써 모델이 실제로 알고 있는 것과 정확한 한계에 대한 미묘한 이해를 가리게 됩니다. 또한, 이들은 실제 응용에 필수적인 다른 요소들을 간과하면서도 금융 개념의 좁은 하위 집합만을 다루는 데이터셋에 의존합니다. 이러한 격차를 해결하기 위해, 우리는 금융 LLMs를 위한 첫 번째 인지 진단 평가 프레임워크인 FinCDM을 소개합니다. FinCDM은 지식-기술 수준에서 LLMs를 평가할 수 있게 하여, 단일 집계된 숫자 대신 기술 태그가 지정된 작업들에 대한 응답 패턴을 기반으로 어떤 금융 기술과 지식을 가지고 있거나 부족한지를 식별합니다. 우리는 공인회계사(CPA) 시험에서 유래한 첫 번째 인지적으로 정보화된 금융 평가 데이터셋인 CPA-QKA를 구축했습니다. 이 데이터셋은 실제 회계 및 금융 기술을 포괄적으로 다루며, 도메인 전문가들이 엄격하게 주석을 달아 높은 주석자 간 일치도와 세분화된 지식 레이블을 가지고 질문을 작성, 검증, 주석 처리했습니다. 30개의 독점, 오픈소스, 도메인 특화 LLMs에 대한 광범위한 실험을 통해 FinCDM은 숨겨진 지식 격차를 드러내고, 전통적인 벤치마크에서 간과된 세금 및 규제 추론과 같은 충분히 테스트되지 않은 영역을 식별하며, 모델 간의 행동 클러스터를 발견합니다. FinCDM은 해석 가능하고 기술 인식 진단을 가능하게 함으로써 더 신뢰할 수 있고 목표 지향적인 모델 개발을 지원하는 새로운 금융 LLM 평가 패러다임을 제시하며, 모든 데이터셋과 평가 스크립트는 추가 연구를 지원하기 위해 공개될 예정입니다.
3D 객체를 편집 가능한 프로그램으로 재구성하는 것은 역공학 및 형태 편집과 같은 응용 분야에서 매우 중요하다. 그러나 기존 방법들은 제한된 도메인 특화 언어(DSL)와 소규모 데이터셋에 의존하는 경우가 많아, 복잡한 기하학적 구조와 형태를 모델링하는 데 한계가 있다. 이러한 문제를 해결하기 위해, 우리는 MeshCoder라는 새로운 프레임워크를 소개한다. MeshCoder는 복잡한 3D 객체를 포인트 클라우드에서 편집 가능한 Blender Python 스크립트로 재구성한다. 우리는 복잡한 기하학적 구조를 합성할 수 있는 포괄적인 Blender Python API 세트를 개발했다. 이러한 API를 활용하여, 각 객체의 코드를 별도의 의미론적 부분으로 분해한 대규모 객체-코드 쌍 데이터셋을 구축하였다. 이후, 3D 포인트 클라우드를 실행 가능한 Blender Python 스크립트로 변환하는 다중 모드 대형 언어 모델(LLM)을 학습시켰다. 우리의 접근 방식은 형태-코드 재구성 작업에서 우수한 성능을 달성할 뿐만 아니라, 편리한 코드 수정을 통해 직관적인 기하학적 및 위상학적 편집을 가능하게 한다. 또한, 코드 기반 표현은 3D 형태 이해 작업에서 LLM의 추론 능력을 향상시킨다. 이러한 공헌들은 MeshCoder를 프로그래밍 방식의 3D 형태 재구성 및 이해를 위한 강력하고 유연한 솔루션으로 자리매김하게 한다.
본 논문에서는 고해상도 3D 편집을 위한 다목적 프레임워크인 Tinker를 소개한다. Tinker는 장면별 미세 조정 없이도 원샷(one-shot) 및 퓨샷(few-shot) 방식으로 작동하며, 기존 기술들과 달리 다중 뷰 일관성을 보장하거나 수십 개의 일관된 편집된 입력 뷰를 생성하기 위해 광범위한 장면별 최적화를 요구하지 않는다. Tinker는 단 한두 장의 이미지로도 견고하고 다중 뷰 일관성을 유지한 편집을 제공한다. 이러한 능력은 사전 학습된 확산 모델(diffusion model)을 재활용하여 잠재적인 3D 인식을 활용함으로써 가능해졌다. 이 분야의 연구를 촉진하기 위해, 우리는 다양한 장면과 스타일을 아우르는 최초의 대규모 다중 뷰 편집 데이터셋과 데이터 파이프라인을 구축했다. 이 데이터셋을 기반으로, 장면별 학습 없이도 다중 뷰 일관성을 유지한 편집된 뷰를 생성할 수 있는 프레임워크를 개발했다. 이 프레임워크는 두 가지 새로운 구성 요소로 이루어져 있다: (1) 참조 기반 다중 뷰 편집기(Referring multi-view editor): 모든 시점에서 일관성을 유지하는 정밀한 참조 기반 편집을 가능하게 한다. (2) 임의 뷰-투-비디오 합성기(Any-view-to-video synthesizer): 비디오 확산 모델의 시공간적 사전 정보를 활용하여 희소한 입력에서도 고품질의 장면 완성 및 새로운 뷰 생성을 수행한다. 광범위한 실험을 통해 Tinker는 일반화 가능한 3D 콘텐츠 생성의 장벽을 크게 낮추며, 편집, 새로운 뷰 합성, 렌더링 향상 작업에서 최첨단 성능을 달성했다. 우리는 Tinker가 진정으로 확장 가능한 제로샷(zero-shot) 3D 편집으로 나아가는 중요한 단계를 대표한다고 믿는다. 프로젝트 웹페이지: https://aim-uofa.github.io/Tinker
모델 컨텍스트 프로토콜(MCP)은 대형 언어 모델(LLM)을 외부 데이터 소스 및 도구와 연결하기 위한 혁신적인 표준으로 부상하며, 주요 AI 제공업체 및 개발 플랫폼 전반에 걸쳐 빠르게 채택되고 있습니다. 그러나 기존 벤치마크는 지나치게 단순하며 장기적 추론이나 크고 익숙하지 않은 도구 공간과 같은 실제 애플리케이션의 도전 과제를 제대로 반영하지 못하고 있습니다. 이러한 중요한 격차를 해결하기 위해, 우리는 실제 MCP 서버와의 상호작용을 통해 현실적이고 어려운 작업에서 LLM을 평가하도록 특별히 설계된 첫 번째 포괄적인 벤치마크인 MCP-Universe를 소개합니다. 우리의 벤치마크는 위치 탐색, 저장소 관리, 재무 분석, 3D 설계, 브라우저 자동화, 웹 검색 등 11개의 서로 다른 MCP 서버를 아우르는 6개의 핵심 도메인을 포함합니다. 엄격한 평가를 보장하기 위해, 우리는 에이전트 형식 준수를 위한 형식 평가자, 시간에 불변하는 콘텐츠 매칭을 위한 정적 평가자, 그리고 시간에 민감한 작업을 위해 실시간 기준 데이터를 자동으로 검색하는 동적 평가자를 포함한 실행 기반 평가자를 구현했습니다. 주요 LLM에 대한 광범위한 평가를 통해 GPT-5(43.72%), Grok-4(33.33%), Claude-4.0-Sonnet(29.44%)와 같은 최첨단 모델조차도 상당한 성능 한계를 보이는 것을 확인했습니다. 또한, 우리의 벤치마크는 상호작용 단계 수가 증가함에 따라 입력 토큰 수가 급격히 증가함으로써 LLM 에이전트에게 상당한 장기 컨텍스트 도전 과제를 제시합니다. 더욱이, LLM 에이전트가 MCP 서버의 정확한 사용법에 익숙하지 않은 경우가 많아 알려지지 않은 도구 도전 과제를 도입합니다. 특히, Cursor와 같은 기업 수준의 에이전트도 표준 ReAct 프레임워크보다 더 나은 성능을 달성할 수 없습니다. 평가를 넘어, 우리는 UI 지원이 포함된 확장 가능한 평가 프레임워크를 오픈소스로 공개하여 연구자와 실무자가 새로운 에이전트와 MCP 서버를 원활하게 통합할 수 있도록 하고, 빠르게 진화하는 MCP 생태계 내에서 혁신을 촉진합니다.
우리는 Mamba-Transformer 하이브리드 언어 모델인 Nemotron-Nano-9B-v2를 소개합니다. 이 모델은 유사한 크기의 모델들과 비교하여 최고 수준의 정확도를 달성하면서도 추론 작업에서의 처리량을 증가시키도록 설계되었습니다. Nemotron-Nano-9B-v2는 Nemotron-H 아키텍처를 기반으로 하며, 일반적인 Transformer 아키텍처의 대부분의 self-attention 레이어를 Mamba-2 레이어로 대체하여 추론에 필요한 긴 사고 흔적을 생성할 때 향상된 추론 속도를 달성합니다. 우리는 먼저 FP8 훈련 레시피를 사용하여 20조 개의 토큰으로 120억 개의 파라미터를 가진 모델(Nemotron-Nano-12B-v2-Base)을 사전 훈련했습니다. Nemotron-Nano-12B-v2-Base를 정렬한 후, Minitron 전략을 사용하여 모델을 압축하고 증류하여 단일 NVIDIA A10G GPU(22GiB 메모리, bfloat16 정밀도)에서 최대 128k 토큰의 추론을 가능하게 했습니다. 기존의 유사한 크기의 모델(예: Qwen3-8B)과 비교하여, Nemotron-Nano-9B-v2는 추론 벤치마크에서 동등하거나 더 나은 정확도를 달성하면서 8k 입력 및 16k 출력 토큰과 같은 추론 설정에서 최대 6배 더 높은 추론 처리량을 달성합니다. 우리는 Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base 및 Nemotron-Nano-9B-v2-Base 체크포인트와 대부분의 사전 및 사후 훈련 데이터셋을 Hugging Face에 공개하고 있습니다.
인공지능(AI)은 과학적 발견을 재구성하며, 특수화된 계산 도구에서 자율적인 연구 파트너로 진화하고 있습니다. 우리는 '에이전트 과학(Agentic Science)'을 더 넓은 AI for Science 패러다임 내에서 중추적인 단계로 위치지으며, 여기서 AI 시스템은 부분적인 지원에서 완전한 과학적 주체성으로 발전합니다. 대규모 언어 모델(LLMs), 멀티모달 시스템, 통합 연구 플랫폼의 지원을 받아, 에이전트 AI는 가설 생성, 실험 설계, 실행, 분석, 반복적 개선 등 한때 인간만의 고유한 행동으로 여겨졌던 능력을 보여줍니다. 본 논문은 생명과학, 화학, 재료과학, 물리학 분야에 걸친 자율적 과학적 발견을 도메인 중심으로 검토합니다. 우리는 프로세스 지향적, 자율성 지향적, 메커니즘 지향적이라는 세 가지 이전에 분리된 관점을 통합하여, 기초 능력, 핵심 프로세스, 도메인별 실현을 연결하는 포괄적인 프레임워크를 제시합니다. 이 프레임워크를 바탕으로, 우리는 (i) AI for Science의 진화를 추적하고, (ii) 과학적 주체성을 뒷받침하는 다섯 가지 핵심 능력을 식별하며, (iii) 발견을 동적인 4단계 워크플로우로 모델링하고, (iv) 상기 도메인들에 걸친 응용 사례를 검토하며, (v) 주요 도전 과제와 미래 기회를 종합합니다. 이 작업은 자율적 과학적 발견에 대한 도메인 중심의 종합을 확립하고, 에이전트 과학을 AI 주도 연구를 발전시키기 위한 구조화된 패러다임으로 위치짓습니다.
최근 확산 기반 대형 언어 모델(diffusion large language models, dLLMs)의 발전은 자연어 생성 작업을 위한 자기회귀(autoregressive, AR) LLMs에 대한 유망한 대안으로 부상하며, 전체 어텐션(full attention)과 잡음 제거 기반 디코딩 전략을 활용하고 있습니다. 그러나 이러한 모델들은 엣지 디바이스에서의 배포가 여전히 어려운데, 이는 모델의 방대한 파라미터 규모와 높은 자원 요구 때문입니다. 사후 학습 양자화(post-training quantization, PTQ)가 AR LLMs를 압축하기 위해 널리 채택된 기술로 부상했지만, dLLMs에 대한 적용 가능성은 여전히 크게 탐구되지 않았습니다. 본 연구에서는 확산 기반 언어 모델의 양자화에 대한 첫 번째 체계적인 연구를 제시합니다. 우리는 먼저 비정상적으로 큰 활성화 값으로 특징지어지는 활성화 이상치(activation outliers)의 존재를 확인했습니다. 이러한 이상치는 대부분의 값에 대한 정밀도를 유지하기 어렵게 만들어 저비트 양자화의 주요 도전 과제로 작용합니다. 더 중요한 것은, 우리는 최신 PTQ 방법들을 구현하고 다양한 작업 유형과 모델 변형에 걸쳐 포괄적인 평가를 수행했습니다. 우리의 분석은 비트 폭(bit-width), 양자화 방법, 작업 범주, 모델 유형이라는 네 가지 핵심 차원을 따라 구조화되었습니다. 이러한 다각적 평가를 통해, 우리는 다양한 구성 하에서 dLLMs의 양자화 동작에 대한 실질적인 통찰을 제공합니다. 우리의 연구 결과가 효율적인 dLLMs 배포를 위한 미래 연구의 기반이 되길 바랍니다. 모든 코드와 실험 설정은 커뮤니티를 지원하기 위해 공개될 예정입니다.
우리는 체화된 인지(embodied cognition)를 위해 설계된 비디오 멀티모달 대형 언어 모델인 RynnEC를 소개한다. RynnEC는 범용 비전-언어 기반 모델을 기반으로 구축되었으며, 지역 인코더(region encoder)와 마스크 디코더(mask decoder)를 통합하여 유연한 지역 수준의 비디오 상호작용을 가능하게 한다. 컴팩트한 아키텍처에도 불구하고, RynnEC는 객체 속성 이해, 객체 분할, 공간 추론 분야에서 최첨단 성능을 달성한다. 개념적으로, 이 모델은 체화된 에이전트의 두뇌를 위한 지역 중심의 비디오 패러다임을 제공하며, 물리적 세계에 대한 세밀한 인식을 가능하게 하고 더 정확한 상호작용을 지원한다. 주석이 달린 3D 데이터셋의 부족 문제를 완화하기 위해, 우리는 체화된 인지 데이터를 생성하기 위한 자기 중심적(egocentric) 비디오 기반 파이프라인을 제안한다. 또한, 체화된 인지 능력을 평가하기 위한 지역 중심 벤치마크인 RynnEC-Bench를 소개한다. 우리는 RynnEC가 체화된 에이전트를 위한 범용 인지 코어의 개발을 촉진하고 다양한 체화된 작업 간 일반화를 용이하게 할 것으로 기대한다. 코드, 모델 체크포인트, 벤치마크는 https://github.com/alibaba-damo-academy/RynnEC에서 확인할 수 있다.
인공지능 시스템은 단백질 구조 예측부터 소재 설계에 이르기까지 특정 연구 과제를 가속화함으로써 과학적 발견을 혁신하고 있지만, 여전히 상당한 인간의 감독이 필요한 좁은 영역에 국한되어 있습니다. 과학 문헌의 기하급수적 증가와 분야별 전문화의 심화는 연구자들이 학제 간 지식을 종합하고 통합 이론을 개발하는 능력을 제한하며, 이는 보다 일반적인 목적의 과학용 AI 시스템 탐구를 촉진하고 있습니다. 본 연구에서는 도메인에 구애받지 않는 자율적인 AI 시스템이 가설 생성부터 데이터 수집, 원고 작성에 이르는 과학적 워크플로우를 독자적으로 탐색할 수 있음을 보여줍니다. 이 시스템은 시각 작업 기억, 정신적 회전, 심상 생생함에 대한 세 가지 심리학 연구를 자율적으로 설계 및 실행하고, 288명의 참가자를 대상으로 새로운 온라인 데이터 수집을 수행했으며, 8시간 이상의 연속 코딩 세션을 통해 분석 파이프라인을 개발하고 완성된 원고를 작성했습니다. 결과는 AI 과학적 발견 파이프라인이 경험 많은 연구자들과 견줄 만한 이론적 추론과 방법론적 엄격성을 바탕으로 사소하지 않은 연구를 수행할 수 있는 능력을 보여주지만, 개념적 미묘함과 이론적 해석 측면에서는 한계가 있음을 나타냅니다. 이는 실제 실험을 통해 가설을 검증할 수 있는 체화된 AI로 나아가는 한 걸음이며, 인간의 인지적 및 자원적 제약으로 인해 탐색되지 않을 수 있는 과학적 영역을 자율적으로 탐구함으로써 발견을 가속화합니다. 이는 과학적 이해의 본질과 과학적 공로의 귀속에 대한 중요한 질문을 제기합니다.
자기 주의(self-attention)의 이차 복잡도는 대규모 비정형 메시에서의 적용 가능성과 확장성을 제한합니다. 우리는 고정 길이 잠재 시퀀스를 통해 주의를 라우팅하는 선형 복잡도의 자기 주의 메커니즘인 Fast Low-rank Attention Routing Engine(FLARE)을 소개합니다. 각 주의 헤드는 학습 가능한 쿼리 토큰을 사용하여 입력 시퀀스를 M ≪ N 토큰의 고정 길이 잠재 시퀀스로 투영함으로써 N개의 토큰 간 전역 통신을 수행합니다. FLARE는 병목 시퀀스를 통해 주의를 라우팅함으로써 O(NM) 비용으로 적용 가능한 저순위 형태의 주의를 학습합니다. FLARE는 전례 없는 문제 규모로 확장할 수 있을 뿐만 아니라 다양한 벤치마크에서 최신 신경망 PDE 대체 모델보다 우수한 정확도를 제공합니다. 또한, 추가적인 연구를 촉진하기 위해 새로운 적층 제조 데이터셋을 공개합니다. 우리의 코드는 https://github.com/vpuri3/FLARE.py에서 확인할 수 있습니다.
지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 능력을 개선하고 행동을 조정하기 위한 두 가지 주요 사후 훈련 패러다임입니다. 기존의 SFT와 RL을 통합하는 접근법들은 종종 기존 모델 패턴을 교란하고 전문가 데이터에 과적합을 유발할 위험에 직면합니다. 이를 해결하기 위해, 우리는 오프-정책(off-policy) 대 온-정책(on-policy) 관점을 통해 SFT와 RL의 통합된 시각을 탐구하는 새로운 연구를 제시합니다. 우리는 CHORD(Controllable Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic Weighting)라는 프레임워크를 제안합니다. 이 프레임워크는 SFT를 별도의 단계가 아닌 온-정책 RL 프로세스 내에서 동적으로 가중치가 부여된 보조 목표로 재구성합니다. 오프-정책 전문가 데이터의 전체적 및 세부적 수준에서의 영향을 분석한 결과, 우리는 CHORD에 이중 제어 메커니즘을 통합했습니다. 구체적으로, 이 프레임워크는 먼저 전역 계수를 사용하여 오프-정책 모방에서 온-정책 탐색으로의 전환을 전체적으로 안내하고, 그런 다음 전문가 토큰으로부터 세부적인 학습을 가능하게 하는 토큰 단위 가중치 함수를 적용합니다. 이를 통해 온-정책 탐색을 보존하고 오프-정책 데이터로 인한 교란을 완화합니다. 우리는 널리 사용되는 벤치마크에서 광범위한 실험을 수행하여 CHORD가 안정적이고 효율적인 학습 과정을 달성한다는 경험적 증거를 제시합니다. 오프-정책 전문가 데이터와 온-정책 탐색을 효과적으로 조화시킴으로써, CHORD는 기준선 대비 상당한 개선을 보여줍니다. 우리는 추가 연구를 촉진하기 위해 구현을 https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord 에 공개합니다.
비전 언어 모델(VLMs)은 영어 다중모달 작업에서 뛰어난 성능을 보여주지만, 진정한 다중모달 교육 콘텐츠를 포함한 저자원 언어에 대한 성능은 여전히 크게 탐구되지 않았다. 본 연구에서는 VLMs가 베트남 교육 평가에서 어떻게 수행되는지 테스트하며, 주로 영어 데이터로 훈련된 VLMs가 실제 세계의 교차 언어 다중모달 추론을 처리할 수 있는지 조사한다. 우리의 연구는 2,548개의 다중모달 질문을 포함한 벤치마크인 ViExam을 제안함으로써 베트남 다중모달 시험에 대한 VLMs의 능력을 처음으로 종합적으로 평가한다. 우리는 최첨단 VLMs가 수학, 물리학, 화학, 생물학, 지리, 운전 시험, IQ 테스트를 포함한 7개 학문 영역에서 평균 57.74%의 정확도를 달성하는 반면, 오픈소스 모델은 27.70%의 평균 정확도를 달성한다는 것을 발견했다. 대부분의 VLMs는 평균 인간 응시자(66.54%)보다 낮은 성적을 보이며, 사고 VLM o3(74.07%)만이 인간 평균 성능을 초과했지만, 여전히 인간 최고 성능(99.60%)에 크게 미치지 못한다. 베트남 콘텐츠를 유지하면서 영어 지시로 교차 언어 프롬프팅을 사용하는 것은 성능을 개선하지 못하고, 최첨단 VLMs의 정확도를 1%포인트 감소시킨다. 인간-루프 협업은 VLMs의 성능을 부분적으로 5%포인트 향상시킬 수 있다. 코드와 데이터는 https://vi-exam.github.io에서 확인할 수 있다.
대규모 언어 모델(LLMs)은 사고 연쇄(chain-of-thought, CoT) 추론과 같은 방법을 통해 추론 작업에서 상당한 진전을 이루었습니다. 그러나 정확한 계산이 필요한 작업에서는 종종 부족한 모습을 보입니다. 이를 해결하기 위해 외부 도구를 추론 과정에 통합한 도구 통합 추론(Tool-Integrated Reasoning, TIR)이 등장했습니다. 그럼에도 불구하고, TIR이 LLM의 추론 능력을 향상시키는 데 있어 일반화가 어떻게 이루어지는지는 여전히 명확하지 않습니다. 또한, TIR이 모델의 추론 행동을 개선하고 모델이 사고하는 데 도움을 주었는지에 대한 연구도 필요합니다. 우리는 다양한 도메인에서 TIR의 효과를 평가하기 위해 아홉 가지 다양한 추론 범주를 포함한 포괄적인 벤치마크인 ReasonZoo를 소개합니다. 또한, 추론 효율성을 평가하기 위해 성능 인지 비용(Performance-Aware Cost, PAC)과 성능-비용 곡선 아래 면적(Area Under the Performance-Cost Curve, AUC-PCC)이라는 두 가지 새로운 메트릭을 제안합니다. 우리의 실험적 평가는 TIR이 적용된 모델이 수학적 및 비수학적 작업 모두에서 TIR이 적용되지 않은 모델보다 지속적으로 우수한 성능을 보인다는 것을 입증합니다. 더 나아가, TIR은 개선된 PAC와 AUC-PCC를 통해 추론 효율성을 향상시키며, 이는 과도한 사고를 줄이고 더 간소화된 추론을 나타냅니다. 이러한 결과는 TIR의 도메인 일반적 이점과 복잡한 추론 작업에서 LLM의 능력을 발전시킬 잠재력을 강조합니다.
스케일 변이는 컴퓨터 비전에서 근본적인 도전 과제입니다. 동일한 클래스에 속하는 객체라도 크기가 다를 수 있으며, 카메라와의 거리에 따라 인지되는 크기가 더욱 달라질 수 있습니다. 이러한 변이는 객체에 국한된 현상으로, 동일한 이미지 내에서도 서로 다른 객체 크기가 다르게 변화할 수 있습니다. 이러한 스케일 변이를 효과적으로 처리하기 위해, 우리는 모델의 지역적 스케일 등변성(equivariance)을 개선하기 위한 딥 이퀄리브리엄 캐노니컬라이저(DEC)를 제안합니다. DEC는 기존 네트워크 아키텍처에 쉽게 통합될 수 있으며, 사전 훈련된 모델에도 적용 가능합니다. 특히, 경쟁력 있는 ImageNet 벤치마크에서 DEC가 ViT, DeiT, Swin, BEiT와 같은 네 가지 인기 있는 사전 훈련된 딥넷의 성능과 지역적 스케일 일관성을 모두 개선함을 보여줍니다. 우리의 코드는 https://github.com/ashiq24/local-scale-equivariance에서 확인할 수 있습니다.
본 논문은 완전 동형 암호화(Fully Homomorphic Encryption, FHE) 프레임워크 내에서, 특히 TFHE와 같은 3세대 암호화 기법을 대상으로 레벤슈타인(Levenshtein) 편집 거리를 계산하는 새로운 접근 방식을 제시한다. 편집 거리 계산은 DNA 서열 정렬과 같은 금융 및 유전체학 분야의 응용 프로그램에서 필수적이다. 우리는 Leuvenshtein이라는 편집 거리 계산 비용을 크게 줄이는 최적화된 알고리즘을 소개한다. 이 알고리즘은 계산 셀당 필요한 프로그래밍 가능한 부트스트랩(Programmable Bootstraps, PBS)의 수를 기존의 Wagner-Fisher 알고리즘이 요구하는 약 94회에서 단 1회로 줄인다. 또한, 문자 간 동등성 검사를 효율적으로 수행하는 방법을 제안하여 ASCII 문자 비교를 단 2회의 PBS 연산으로 축소한다. 마지막으로, 입력 문자열 중 하나가 암호화되지 않은 상태일 때 전처리를 활용하여 추가적인 성능 개선의 가능성을 탐구한다. 우리의 Leuvenshtein 알고리즘은 현재 사용 가능한 최고의 TFHE 구현 대비 최대 278배, 최적화된 Wagner-Fisher 알고리즘 구현 대비 최대 39배 빠른 성능을 달성한다. 또한, 서버 측에서 하나의 암호화되지 않은 입력이 존재할 때 오프라인 전처리가 가능한 경우, 추가로 3배의 속도 향상을 얻을 수 있다.
최근 추론 강화 대형 언어 모델(LLM)의 발전은 복잡한 추론 과제에서 놀라운 능력을 보여주고 있습니다. 그러나 이러한 모델이 다양한 인간의 추론 기술을 활용하는 메커니즘은 여전히 충분히 연구되지 않았으며, 특히 다양한 언어와 문화에 걸친 일상 지식을 포함하는 다국어 상식 추론의 경우 더욱 그러합니다. 이러한 격차를 해결하기 위해, 우리는 기술 기반 상식 추론을 위한 다국어 및 확장 가능한 벤치마크(mSCoRe)를 제안합니다. 우리의 벤치마크는 LLM의 추론 능력을 체계적으로 평가하기 위해 설계된 세 가지 핵심 요소를 포함합니다: (1) 모델의 추론 과정을 세밀하게 분석할 수 있는 새로운 추론 기술 분류 체계, (2) 상식 추론 평가를 위해 특별히 맞춤화된 강력한 데이터 합성 파이프라인, (3) LLM 능력의 향상에 따라 과제 난이도를 동적으로 조절할 수 있는 복잡성 확장 프레임워크. 다양한 크기와 학습 방식을 가진 8개의 최신 LLM에 대한 광범위한 실험 결과, mSCoRe는 특히 높은 복잡성 수준에서 현재 모델들에게 상당히 도전적인 과제로 남아 있음을 보여줍니다. 우리의 결과는 이러한 추론 강화 모델이 미묘한 다국어 일반 상식 및 문화적 상식에 직면했을 때의 한계를 드러냅니다. 또한, 모델의 추론 과정에 대한 상세한 분석을 제공함으로써 다국어 상식 추론 능력을 향상시키기 위한 미래 방향을 제시합니다.
다중 모드 추천 시스템은 아이템의 풍부한 모드 정보(예: 이미지와 텍스트 설명)를 활용하여 추천 성능을 향상시키는 데 초점을 맞춥니다. 현재의 방법들은 그래프 신경망의 강력한 구조 모델링 능력으로 인해 주목할 만한 성공을 거두었습니다. 그러나 이러한 방법들은 실제 시나리오에서 희소 데이터로 인해 종종 제약을 받습니다. 대조 학습과 동종 그래프(예: 동질 그래프)를 사용하여 데이터 희소성 문제를 해결하려는 시도가 있었음에도 불구하고, 기존 방법들은 여전히 두 가지 주요 한계를 겪고 있습니다: 1) 단순한 다중 모드 특징 대조는 효과적인 표현을 생성하지 못하여 모드 공유 특징에서의 노이즈와 모드 고유 특징에서의 유용한 정보 손실을 초래합니다; 2) 사용자 관심사와 아이템 동시 발생 간의 동종 그래프 관계를 충분히 탐구하지 못함으로써 사용자-아이템 상호작용의 불완전한 발굴이 발생합니다. 이러한 한계를 해결하기 위해, 우리는 다중 모드 대조 학습과 동종 그래프 관계를 정제하는 새로운 프레임워크인 REARM(REfining multi-modAl contRastive learning and hoMography relations)을 제안합니다. 구체적으로, 우리는 메타 네트워크와 직교 제약 전략을 활용하여 다중 모드 대조 학습을 보완함으로써 모드 공유 특징에서의 노이즈를 제거하고 모드 고유 특징에서의 추천 관련 정보를 보존합니다. 동종 관계를 효과적으로 발굴하기 위해, 우리는 새롭게 구성된 사용자 관심 그래프와 아이템 동시 발생 그래프를 기존의 사용자 동시 발생 그래프와 아이템 의미 그래프와 통합하여 그래프 학습을 수행합니다. 세 가지 실제 데이터셋에 대한 광범위한 실험을 통해 REARM이 다양한 최첨단 베이스라인보다 우수함을 입증했습니다. 우리의 시각화 결과는 REARM이 모드 공유 특징과 모드 고유 특징을 구분하는 데 있어 개선을 이루었음을 보여줍니다. 코드는 https://github.com/MrShouxingMa/REARM에서 확인할 수 있습니다.