번역이 포함된 일일 선별된 AI 연구 논문
본 연구에서는 Qwen 모델 패밀리의 최신 버전인 Qwen3를 소개합니다. Qwen3는 성능, 효율성, 다국어 처리 능력을 향상시키기 위해 설계된 대규모 언어 모델(LLM) 시리즈로, 밀집형(Dense)과 전문가 혼합(Mixture-of-Expert, MoE) 아키텍처를 모두 포함하며, 모델 파라미터 규모는 0.6B에서 235B까지 다양합니다. Qwen3의 주요 혁신은 복잡한 다단계 추론을 위한 '사고 모드(Thinking Mode)'와 빠른 컨텍스트 기반 응답을 위한 '비사고 모드(Non-Thinking Mode)'를 통합한 프레임워크입니다. 이를 통해 채팅 최적화 모델(예: GPT-4o)과 전용 추론 모델(예: QwQ-32B) 간 전환 없이 사용자 쿼리나 채팅 템플릿에 따라 동적으로 모드를 전환할 수 있습니다. 또한 Qwen3는 '사고 예산(Thinking Budget)' 메커니즘을 도입하여 추론 과정에서 사용자가 계산 자원을 적응적으로 할당할 수 있도록 하여, 작업 복잡도에 따라 지연 시간과 성능을 균형 있게 조정할 수 있습니다. 더불어, 플래그십 모델의 지식을 활용하여 소규모 모델 구축에 필요한 계산 자원을 크게 줄이면서도 높은 경쟁력을 유지할 수 있도록 했습니다. 실험 결과, Qwen3는 코드 생성, 수학적 추론, 에이전트 작업 등 다양한 벤치마크에서 최첨단 성능을 달성하며, 더 큰 규모의 MoE 모델 및 독점 모델과도 경쟁력을 보였습니다. 이전 버전인 Qwen2.5와 비교하여 Qwen3는 지원 언어를 29개에서 119개 언어 및 방언으로 확장함으로써 교차 언어 이해 및 생성 능력을 개선하여 글로벌 접근성을 강화했습니다. 재현성과 커뮤니티 주도의 연구 및 개발을 지원하기 위해 모든 Qwen3 모델은 Apache 2.0 라이선스 하에 공개되었습니다.
VLMs의 안전성을 강화하기 위해, 본 논문은 GuardReasoner-VL이라는 새로운 추론 기반 VLM 가드 모델을 소개한다. 핵심 아이디어는 온라인 강화 학습(RL)을 통해 가드 모델이 검열 결정을 내리기 전에 신중하게 추론하도록 유도하는 것이다. 먼저, 텍스트, 이미지, 텍스트-이미지 입력을 아우르는 123K 샘플과 631K 추론 단계로 구성된 GuardReasoner-VLTrain 추론 코퍼스를 구축한다. 이를 기반으로, SFT(Supervised Fine-Tuning)를 통해 모델의 추론 능력을 콜드 스타트한다. 또한, 온라인 RL을 통해 검열과 관련된 추론을 더욱 강화한다. 구체적으로, 샘플의 다양성과 난이도를 높이기 위해, 제안된 안전 인식 데이터 연결을 통한 데이터 증강 후 거부 샘플링을 수행한다. 또한, 초기 단계에서는 탐색을 장려하고 후기 단계에서는 활용을 촉진하기 위해 동적 클리핑 파라미터를 사용한다. 성능과 토큰 효율성의 균형을 맞추기 위해, 정확도, 형식, 토큰 비용을 통합한 길이 인식 안전 보상을 설계한다. 광범위한 실험을 통해 우리 모델의 우수성을 입증한다. 특히, 평균 F1 점수에서 2위 모델을 19.27% 앞섰다. GuardReasoner-VL의 데이터, 코드, 모델(3B/7B)을 https://github.com/yueliu1999/GuardReasoner-VL/에서 공개한다.
대규모 언어 모델(LLMs)과 그 다중모달 확장(MLLMs)의 최근 발전은 다양한 작업에서 기계 추론을 크게 향상시켰습니다. 그러나 이러한 모델들은 시각 정보가 존재하는 경우에도 주로 순수 텍스트를 추론을 표현하고 구조화하는 매체로 의존합니다. 본 연구에서는 특히 공간 및 기하학적 정보를 포함하는 작업에서 언어가 항상 가장 자연스럽거나 효과적인 추론 방식이 아닐 수 있다고 주장합니다. 이를 바탕으로 우리는 텍스트와 독립적으로 순수 시각적 표현을 통해 계획을 가능하게 하는 새로운 패러다임인 '시각적 계획(Visual Planning)'을 제안합니다. 이 패러다임에서는 인간이 스케치하거나 미래 행동을 시각화하는 방식과 유사하게, 시각적 영역에서 단계별 추론을 인코딩한 이미지 시퀀스를 통해 계획이 실행됩니다. 우리는 대규모 비전 모델의 사후 학습을 위해 GRPO로 강화된 새로운 강화 학습 프레임워크인 '강화 학습을 통한 시각적 계획(VPRL)'을 소개하며, 이를 통해 FrozenLake, Maze, MiniBehavior와 같은 대표적인 시각적 탐색 작업에서 계획 능력이 크게 개선되었음을 보여줍니다. 우리의 시각적 계획 패러다임은 텍스트만을 사용한 추론 방식의 모든 변형을 능가하는 성능을 보였습니다. 이러한 결과는 시각적 계획이 언어 기반 추론에 대한 실행 가능하고 유망한 대안임을 입증하며, 직관적이고 이미지 기반의 추론이 유리한 작업을 위한 새로운 가능성을 열었습니다.
대규모 시각-언어 모델의 컨텍스트 창 확장이 급속히 진행되면서, 수백 장의 이미지와 교차된 텍스트 토큰을 단일 순방향 전달로 처리할 수 있는 장문 컨텍스트 시각-언어 모델(LCVLMs)이 등장하였다. 본 연구에서는 LCVLMs를 효과적이고 철저히 평가하기 위해 다양한 장문 컨텍스트 시각-언어 작업을 포괄하는 첫 번째 벤치마크인 MMLongBench를 소개한다. MMLongBench는 Visual RAG 및 Many-Shot ICL과 같은 다섯 가지 하위 작업 범주에 걸친 13,331개의 예제로 구성되어 있으며, 다양한 자연 및 합성 이미지를 포함한 광범위한 이미지 유형을 제공한다. 모델의 다양한 입력 길이에 대한 견고성을 평가하기 위해, 모든 예제는 시각 패치와 텍스트 토큰을 결합한 교차 모달 토큰화 방식을 통해 다섯 가지 표준화된 입력 길이(8K-128K 토큰)로 제공된다. 46개의 클로즈드소스 및 오픈소스 LCVLMs에 대한 철저한 벤치마킹을 통해, 현재 모델들의 시각-언어 장문 컨텍스트 능력에 대한 포괄적인 분석을 제공한다. 우리의 결과는 다음과 같다: i) 단일 작업에서의 성능은 전체 장문 컨텍스트 능력을 대표하기에 부적절하다; ii) 클로즈드소스 및 오픈소스 모델 모두 장문 컨텍스트 시각-언어 작업에서 어려움을 겪으며, 이는 향후 개선의 여지가 크다는 것을 나타낸다; iii) 더 강력한 추론 능력을 가진 모델은 더 나은 장문 컨텍스트 성능을 보이는 경향이 있다. 광범위한 작업 범위, 다양한 이미지 유형, 엄격한 길이 제어를 통해, MMLongBench는 차세대 LCVLMs의 진단과 발전을 위한 필수적인 기반을 제공한다.
최근 대규모 언어 모델(LLM)의 발전은 자체 생성된 사고 사슬을 통한 추론의 힘을 입증해 왔다. 다수의 추론 에이전트가 협력하여 개별 결과보다 높은 공동 추론 품질을 달성할 수 있다. 그러나 이러한 에이전트들은 일반적으로 턴제 방식으로 상호작용하며, 품질 향상을 위해 지연 시간을 늘리는 방식을 취한다. 본 논문에서는 다수의 동시 추론 에이전트 또는 사고자(thinker)로 작동하는 단일 LLM인 Group Think를 제안한다. Group Think는 서로의 부분적 생성 진행 상황을 공유함으로써, 다수의 추론 궤적이 토큰 수준에서 동적으로 서로 적응하는 새로운 동시 추론 패러다임을 도입한다. 예를 들어, 한 추론 스레드는 다른 스레드가 더 나은 위치에 있음을 감지하면 문장 중간에 생성 방식을 전환할 수 있다. 이러한 세밀한 토큰 수준의 협업은 Group Think가 중복 추론을 줄이고 품질을 향상시키면서도 상당히 낮은 지연 시간을 달성할 수 있게 한다. 또한, 동시성 특성은 유휴 컴퓨팅 자원을 효율적으로 활용할 수 있게 하여, 매우 작은 배치 크기로 인해 로컬 GPU가 제대로 활용되지 않는 에지 추론에 특히 적합하다. 우리는 기존의 모든 LLM이 로컬 GPU에서 Group Think를 수행할 수 있도록 간단하고 일반화 가능한 수정 방식을 제시한다. 또한, 추론 지연 시간을 벤치마크하기 위한 평가 전략을 제시하고, Group Think를 위해 명시적으로 훈련되지 않은 오픈소스 LLM을 사용하여 지연 시간 개선을 실증적으로 입증한다. 이 연구가 향후 LLM이 더 정교하고 효율적인 협업 행동을 통해 더 높은 품질의 생성을 달성할 수 있는 길을 열어주기를 바란다.
비전-언어 모델(Vision-Language Models, VLMs)은 최소한의 레이블 데이터로도 풍부한 텍스트 정보를 활용하여 다양한 작업에서 뛰어난 성과를 달성해 왔다. 그러나 이러한 대규모 모델을 배포하는 것은 특히 자원이 제한된 환경에서 여전히 어려운 과제로 남아 있다. 지식 증류(Knowledge Distillation, KD)는 이 문제에 대한 잘 정립된 해결책을 제공하지만, 최근의 VLM 기반 KD 접근법은 다단계 학습 또는 추가 튜닝을 필요로 하여 계산 오버헤드와 최적화 복잡성을 증가시킨다. 본 논문에서는 반지도 학습 환경에서 VLM의 지식을 컴팩트한 작업 특화 모델로 전달하는 간단하면서도 효과적인 KD 프레임워크인 \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (\texttt{DHO})를 제안한다. 구체적으로, 레이블 데이터와 교사 모델의 예측으로부터 독립적으로 학습하는 이중 예측 헤드를 도입하고, 추론 시 이들의 출력을 선형적으로 결합하는 방식을 제안한다. DHO는 지도 학습 신호와 증류 신호 간의 그래디언트 충돌을 완화하여 단일 헤드 KD 베이스라인보다 더 효과적인 특징 학습을 가능하게 한다. 그 결과, 광범위한 실험을 통해 DHO가 여러 도메인과 세분화된 데이터셋에서 일관되게 베이스라인을 능가함을 확인하였다. 특히, ImageNet에서 1% 및 10%의 레이블 데이터로 각각 3%와 0.1%의 정확도 향상을 달성하면서도 더 적은 매개변수를 사용하여 최신 기술 수준의 성능을 달성하였다.
모델 병합은 기존 모델들의 기능을 새로운 모델로 결합할 수 있게 해주며, 추가적인 학습 없이 사후적으로 수행될 수 있다. 이는 낮은 비용과 소비자용 GPU에서 병합을 지원하는 라이브러리의 가용성 덕분에 점점 더 인기를 얻고 있다. 최근 연구에 따르면 병합을 진화 알고리즘과 결합하면 성능을 향상시킬 수 있지만, 현재까지는 언어 모델에서 이러한 전략을 유연하게 실험할 수 있는 프레임워크가 존재하지 않는다. 본 논문에서는 진화적 모델 병합을 위한 오픈소스 라이브러리인 Mergenetic을 소개한다. Mergenetic은 병합 방법과 진화 알고리즘을 쉽게 구성할 수 있도록 하며, 평가 비용을 줄이기 위해 경량화된 적합도 추정기를 통합한다. 본 논문에서는 Mergenetic의 설계를 설명하고, 적당한 하드웨어를 사용하여 다양한 작업과 언어에서 경쟁력 있는 결과를 도출함을 보여준다.
다중 토큰 예측은 언어 모델 사전 학습을 개선하기 위한 유망한 목표로 부상했지만, 그 이점은 미세 조정과 같은 다른 설정에서 일관되게 일반화되지 못했습니다. 본 논문에서는 입력 시퀀스에 학습 가능한 레지스터 토큰을 교차 배치하여 각각 미래의 목표를 예측하도록 하는 간단하면서도 효과적인 다중 토큰 예측 접근법인 MuToR을 제안합니다. 기존 방법과 비교하여 MuToR은 몇 가지 주요 장점을 제공합니다: 추가 매개변수의 수가 미미하며, 아키텍처 변경이 필요 없어 기존의 사전 학습된 언어 모델과의 호환성을 보장하고, 다음 토큰 사전 학습 목표와 일치하여 지도 학습 기반 미세 조합에 특히 적합합니다. 또한, 확장 가능한 예측 범위를 자연스럽게 지원합니다. 우리는 언어 및 비전 도메인에서의 도전적인 생성 작업을 포함한 다양한 사용 사례에서 MuToR의 효과성과 다용성을 입증합니다. 우리의 코드는 https://github.com/nasosger/MuToR에서 이용 가능할 예정입니다.
대규모 언어 모델(LLM)은 다양한 프로그래밍 작업에서 강력한 성능을 보여왔지만, 코드 최적화에 대한 잠재력은 아직 충분히 탐구되지 않았습니다. 본 연구는 LLM이 어셈블리 코드의 성능을 최적화할 수 있는지 조사하며, 여기서는 실행에 대한 세밀한 제어를 통해 고수준 언어에서는 표현하기 어려운 개선이 가능합니다. 우리는 강화 학습 프레임워크를 제시하여, 테스트 케이스를 통해 검증된 기능적 정확성과 산업 표준 컴파일러인 gcc -O3 대비 실행 성능을 고려한 보상 함수를 기반으로 Proximal Policy Optimization(PPO)을 사용해 LLM을 학습시킵니다. 이 연구를 지원하기 위해 8,072개의 실제 프로그램으로 구성된 벤치마크를 도입했습니다. 우리의 모델인 Qwen2.5-Coder-7B-PPO는 테스트 통과율 96.0%와 gcc -O3 기준 대비 평균 1.47배의 속도 향상을 달성하며, Claude-3.7-sonnet을 포함한 평가된 20개의 다른 모든 모델을 능가했습니다. 이러한 결과는 강화 학습이 LLM의 잠재력을 해제하여 어셈블리 코드 성능을 위한 효과적인 최적화 도구로 활용할 수 있음을 시사합니다.
형식 언어에서의 자동 정리 증명(Automated Theorem Proving, ATP)은 여전히 AI 분야에서 해결해야 할 중요한 과제로, 엄격한 논리적 추론과 방대한 탐색 공간을 요구합니다. 대규모 언어 모델(LLMs)이 유망한 성능을 보여주고 있지만, 기존의 단계별 증명기는 편향된 탐색 지도로 인해 비효율적이고 최적이 아닌 증명 전략을 보이는 경우가 많습니다. 본 논문은 이러한 한계를 극복하기 위해 설계된 새로운 단계별 ATP 시스템인 다중 관점 탐색 증명기(Multi-Perspective Search Prover, MPS-Prover)를 소개합니다. MPS-Prover는 두 가지 주요 혁신을 도입했습니다: 첫째, 성능 저하 없이 약 40%의 중복 훈련 데이터를 제거하는 고효율의 사후 훈련 데이터 정제 전략, 둘째, 다중 관점 트리 탐색 메커니즘입니다. 이 탐색 메커니즘은 학습된 비평 모델과 전략적으로 설계된 휴리스틱 규칙을 통합하여 전술 선택을 다양화하고, 비생산적인 상태에 빠지는 것을 방지하며, 탐색의 견고성을 강화합니다. 광범위한 평가 결과, MPS-Prover는 miniF2F와 ProofNet을 포함한 여러 도전적인 벤치마크에서 최신 기술을 능가하는 성능을 달성하며, 기존의 7B 파라미터 모델들을 능가함을 보여줍니다. 또한, 분석 결과 MPS-Prover는 기존의 단계별 및 전체 증명 방법에 비해 상당히 짧고 다양한 증명을 생성함으로써 그 효율성과 효과성을 입증했습니다. 본 연구는 LLM 기반 형식적 추론의 능력을 발전시키고, 더 강력한 정리 증명기를 개발하기 위한 견고한 프레임워크와 포괄적인 분석을 제공합니다.
생성 모델의 능력이 빠르게 발전하고 있음에도 불구하고, 사전 학습된 텍스트-이미지 모델은 여전히 여러 객체와 인스턴스 수준의 속성을 결합한 복잡한 프롬프트가 전달하는 의미를 포착하는 데 어려움을 겪고 있다. 이에 따라, 이러한 어려운 경우에 생성 과정을 더 잘 안내하기 위해 일반적으로 거친 경계 상자 형태의 추가적인 구조적 제약을 통합하려는 관심이 증가하고 있다. 본 연구에서는 구조적 안내의 아이디어를 한 단계 더 발전시켜, 현대의 이미지 생성 모델이 직접적으로 타당한 세밀한 구조적 초기화를 제공할 수 있다는 관찰을 바탕으로 새로운 기법을 제안한다. 우리는 이미지 기반의 구조적 안내와 대규모 언어 모델(LLM) 기반의 인스턴스 수준 지시를 결합한 기술을 제안하며, 이를 통해 객체 수, 인스턴스 수준의 속성, 그리고 인스턴스 간의 공간적 관계를 포함한 텍스트 프롬프트의 모든 부분을 준수하는 출력 이미지를 생성한다.
대규모 언어 모델(LLM)의 추론 능력에 대한 최근 연구들은, 특히 수학적 추론을 포함하는 과제에서, 추론 과정 중 긴 사고 과정과 추가적인 계산 자원을 활용함으로써 모델 성능의 유망한 개선을 보여주었다(Muennighoff et al., 2025). 그러나 더 긴 추론 체인이 본질적으로 사실적 정확성을 향상시키는지, 특히 수학적 맥락을 넘어서는지 여부는 여전히 불확실하다. 본 연구에서는 복잡한 개방형 도메인 질의응답(QA) 시나리오 내에서 LLM의 추론을 철저히 검토한다. 우리는 먼저 고급 대규모 추론 모델(QwQ-32B 및 DeepSeek-R1-671B)에서 추론 흔적을 추출한 후, Qwen2.5 기반의 더 작은 지시 튜닝 변형부터 더 큰 아키텍처에 이르기까지 다양한 모델을 미세 조정한다. 추론 흔적을 풍부하게 하기 위해, 우리는 지식 그래프에서 사실적 정보를 경로 형태로 추론 흔적에 도입한다. 우리의 실험 설정은 4개의 기준 접근법과 6개의 서로 다른 지시 튜닝 모델을 포함하며, 6개의 데이터셋에 걸쳐 22.6K개 이상의 질문을 평가한다. 전반적으로, 우리는 168개의 실험 실행을 수행하고 약 170만 개의 추론 흔적을 분석한다. 우리의 연구 결과는, 단일 실행 내에서, 더 작은 추론 모델이 원래의 지시 튜닝 모델에 비해 사실적 정확성에서 눈에 띄는 개선을 달성함을 나타낸다. 또한, 우리의 분석은 테스트 시간 계산 및 토큰 예산을 추가함으로써 사실적 정확성이 2-8% 일관적으로 향상됨을 보여주며, 이는 개방형 도메인 QA 과제에서 성능을 향상시키고 결과적으로 추론 정확성을 개선하기 위한 테스트 시간 스케일링의 효과를 추가로 확인한다. 우리는 추가 연구를 위해 모든 실험 아티팩트를 공개한다.
대형 언어 모델(LLMs)은 문헌 이해, 특성 예측, 신소재 발견 및 합금 설계를 포함한 재료 과학 문제에 점점 더 많이 적용되고 있다. 동시에, 재료 특성을 계산할 수 있는 다양한 물리 기반 계산 접근법이 개발되었다. 본 연구에서는 이러한 물리 기반 계산 재료 과학 패키지를 기반으로 코드를 생성하고 안전하게 실행함으로써 재료 과학 질문에 답변하는 LLMs의 숙련도를 평가하기 위한 벤치마크 애플리케이션을 제안한다. MatTools는 두 가지 상호 보완적인 구성 요소로 구성된다: 재료 시뮬레이션 도구 질문-답변(QA) 벤치마크와 실제 도구 사용 벤치마크. 우리는 실제 재료 과학 도구 사용 예제를 효율적으로 수집하기 위한 자동화된 방법론을 설계했다. pymatgen(Python Materials Genomics) 코드베이스와 문서에서 파생된 QA 벤치마크는 LLM이 재료 과학 도구를 이해하는 능력을 평가하는 69,225개의 QA 쌍으로 구성된다. 실제 벤치마크는 재료 특성 계산을 위한 기능적 Python 코드 생성을 요구하는 49개의 작업(138개의 하위 작업)을 포함한다. 다양한 LLMs에 대한 평가를 통해 세 가지 주요 통찰을 얻었다: (1) 일반주의자가 전문가를 능가한다; (2) AI는 AI를 알고 있다; (3) 단순함이 더 낫다. MatTools는 재료 과학 도구 애플리케이션을 위한 LLM 능력을 평가하고 개선하기 위한 표준화된 프레임워크를 제공하여, 재료 과학 및 일반 과학 연구를 위한 보다 효과적인 AI 시스템 개발을 촉진한다.
대규모 언어 모델(LLM)이 우리의 사회적, 경제적 상호작용에 통합됨에 따라, 인간이 전략적 환경에서 LLM 상대에 어떻게 반응하는지에 대한 이해를 심화할 필요가 있습니다. 우리는 다중 참가자 p-뷰티 콘테스트에서 인간 대 인간과 인간 대 LLM 간의 행동 차이를 살펴보는 최초의 통제된 금전적 인센티브 실험실 실험 결과를 제시합니다. 우리는 개인 수준에서의 행동을 비교하기 위해 피험자 내 설계를 사용합니다. 이 환경에서 인간 피험자들은 LLM과 대결할 때 인간과 대결할 때보다 유의미하게 낮은 숫자를 선택하며, 이는 주로 '제로' 내쉬 균형 선택의 증가된 빈도에 의해 주도됩니다. 이러한 변화는 주로 높은 전략적 추론 능력을 가진 피험자들에 의해 주도됩니다. 제로 내쉬 균형 선택을 하는 피험자들은 LLM의 추론 능력과, 예상치 못하게도 협력 성향에 대한 인식에 호소하여 자신의 전략을 설명합니다. 우리의 연구 결과는 동시 선택 게임에서의 다중 참가자 인간-LLM 상호작용에 대한 기초적인 통찰을 제공하고, LLM과 대결할 때 피험자들의 행동과 LLM의 플레이에 대한 믿음의 이질성을 밝히며, 인간-LLM 혼합 시스템에서의 메커니즘 설계에 중요한 시사점을 제시합니다.
자연어 지시를 사용하여 이미지를 편집하는 것은 시각적 콘텐츠를 수정하는 자연스럽고 표현력 있는 방법으로 자리 잡았으나, 이러한 모델의 성능을 평가하는 것은 여전히 도전적인 과제로 남아 있다. 기존의 평가 방법들은 종종 CLIP과 같은 이미지-텍스트 유사성 메트릭에 의존하는데, 이는 정밀도가 부족하다. 본 연구에서는 텍스트 기반 이미지 편집 모델을 보다 근거 있는 방식으로 평가하기 위한 새로운 벤치마크를 제안한다. 이 벤치마크는 두 가지 중요한 차원을 중심으로 설계되었다: (i) 기능적 정확성, 이는 의도된 변경이 성공적으로 적용되었는지 확인하기 위해 자동 생성된 객관식 질문을 통해 평가되며; (ii) 이미지 콘텐츠 보존, 이는 객체 인식 마스킹 기술과 보존 점수를 사용하여 이미지의 비대상 영역이 시각적으로 일관되게 유지되는지 확인한다. 이 벤치마크는 20개의 다양한 콘텐츠 카테고리에서 1000개 이상의 고품질 편집 예제를 포함하며, 각 예제는 상세한 편집 지시, 평가 질문, 공간적 객체 마스크로 주석 처리되어 있다. 우리는 텍스트 기반 이미지 편집 분야의 최신 플래그십 모델인 GPT-Image-1을 여러 최첨단 편집 모델과 비교하는 대규모 연구를 수행하고, 자동 메트릭을 인간 평가와 대조하여 검증한다. 결과는 GPT-Image-1이 지시 따르기 정확도에서 앞서지만, 종종 관련 없는 이미지 영역을 과도하게 수정하여 현재 모델 행동의 주요 트레이드오프를 강조한다. GIE-Bench는 텍스트 기반 이미지 편집의 보다 정확한 평가를 위한 확장 가능하고 재현 가능한 프레임워크를 제공한다.
손은 인간 상호작용에 필수적이며, 손과 세계 간의 접촉을 이해하는 것은 그 기능에 대한 포괄적인 이해를 촉진할 수 있습니다. 최근에는 물체, 다른 손, 장면, 신체와의 상호작용을 다루는 손 상호작용 데이터셋이 점점 더 많이 등장하고 있습니다. 이러한 작업의 중요성과 고품질 데이터의 증가에도 불구하고, 조밀한 손 접촉 추정을 효과적으로 학습하는 방법은 여전히 크게 탐구되지 않고 있습니다. 조밀한 손 접촉 추정을 학습하는 데는 두 가지 주요 과제가 있습니다. 첫째, 손 접촉 데이터셋에는 대부분의 샘플이 접촉하지 않는 클래스 불균형 문제가 존재합니다. 둘째, 손 접촉 데이터셋에는 대부분의 접촉이 손가락 끝에서 나타나는 공간적 불균형 문제가 있어, 다른 손 부위의 접촉에 대한 일반화가 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 불균형 데이터에서 조밀한 손 접촉 추정(HACO)을 학습하는 프레임워크를 제시합니다. 클래스 불균형 문제를 해결하기 위해, 우리는 균형 잡힌 접촉 샘플링을 도입했습니다. 이 방법은 접촉 및 비접촉 샘플 모두에 대해 다양한 접촉 통계를 공정하게 대표하는 여러 샘플링 그룹을 구축하고 샘플링합니다. 또한, 공간적 불균형 문제를 해결하기 위해, 우리는 정점 수준의 클래스 균형(VCB) 손실을 제안합니다. 이 손실은 데이터셋 전체에서 각 정점의 접촉 빈도에 기반하여 각 정점의 손실 기여도를 별도로 재조정함으로써 공간적으로 변화하는 접촉 분포를 통합합니다. 결과적으로, 우리는 클래스 및 공간적 불균형 문제 없이 대규모 손 접촉 데이터를 사용하여 조밀한 손 접촉 추정을 효과적으로 학습할 수 있습니다. 코드는 공개될 예정입니다.
생체의학 이미지에서 관심 영역의 정확한 분할은 이미지 분석에 있어 상당한 가치를 지닌다. 현재 여러 생체의학 분할을 위한 기초 모델들이 특정 데이터셋에서 우수한 성능을 달성했지만, 일반적으로 보지 못한 도메인 데이터에서는 차선의 성능을 보인다. 이러한 결핍은 분할 전 시각-언어 지식의 부재에 기인한다. 다중모드 대형 언어 모델(MLLMs)은 다중모드 작업에 뛰어난 이해와 추론 능력을 제공하며, 이는 우리가 MLLMs를 활용하여 시각-언어 지식(VLK)을 주입함으로써 시각 모델이 교차 도메인 데이터셋에서 우수한 일반화 능력을 보이도록 하는 데 영감을 준다. 본 논문에서는 MLLMs를 사용하여 SAM이 현미경 교차 도메인 데이터를 학습하도록 유도하는 방법을 제안하며, 이를 현미경에서의 Segment Anything 통합, 즉 uLLSAM이라고 명명한다. 구체적으로, 우리는 시각-언어 의미 정렬(VLSA) 모듈을 제안하여 Segment Anything Model(SAM)에 VLK를 주입한다. SAM이 전역 VLK 프롬프트를 받은 후 성능이 크게 향상되었지만, 경계 윤곽 인식에 있어 결핍이 있음을 발견했다. 따라서, 우리는 SAM을 유도하기 위해 의미 경계 정규화(SBR)를 추가로 제안한다. 우리의 방법은 9개의 인-도메인 현미경 데이터셋에서 Dice 7.71%, SA 12.10%의 성능 향상을 달성하여 최신 기술을 달성했다. 또한, 10개의 아웃-오브-도메인 데이터셋에서 Dice 6.79%, SA 10.08%의 성능 향상을 보이며 강력한 일반화 능력을 입증했다. 코드는 https://github.com/ieellee/uLLSAM에서 확인할 수 있다.
본 논문에서는 합성 흉부 방사선 사진 생성을 위한 엄격하고 다각적인 평가 프레임워크인 CheXGenBench를 소개한다. 이 프레임워크는 최신 텍스트-이미지 생성 모델을 대상으로 충실도, 프라이버시 위험, 그리고 임상적 유용성을 동시에 평가한다. 실세계 이미지 생성을 위한 생성형 AI의 급속한 발전에도 불구하고, 의료 분야의 평가는 방법론적 불일치, 구식 아키텍처 비교, 그리고 합성 샘플의 실질적인 임상적 가치를 거의 다루지 않는 단절된 평가 기준으로 인해 지체되어 왔다. CheXGenBench는 표준화된 데이터 분할과 20개 이상의 정량적 지표로 구성된 통합 평가 프로토콜을 통해 이러한 한계를 극복하며, 11개의 주요 텍스트-이미지 아키텍처를 대상으로 생성 품질, 잠재적 프라이버시 취약점, 그리고 하위 임상 적용 가능성을 체계적으로 분석한다. 우리의 결과는 특히 생성 충실도 평가에서 기존 평가 프로토콜의 중요한 비효율성을 드러내며, 이로 인해 일관성 없고 정보가 부족한 비교가 이루어지고 있음을 보여준다. 본 프레임워크는 의료 AI 커뮤니티를 위한 표준화된 벤치마크를 확립함으로써 객관적이고 재현 가능한 비교를 가능하게 하며, 기존 및 미래의 생성 모델의 원활한 통합을 촉진한다. 또한, 우리는 벤치마크에서 최고 성능을 보인 모델(Sana 0.6B)로 생성된 75,000개의 방사선 사진으로 구성된 고품질 합성 데이터셋인 SynthCheX-75K를 공개하여 이 중요한 분야의 추가 연구를 지원한다. CheXGenBench를 통해 우리는 새로운 최첨단 기술을 확립하고, 프레임워크, 모델, 그리고 SynthCheX-75K 데이터셋을 https://raman1121.github.io/CheXGenBench/에서 공개한다.
대규모 언어 모델(LLM)의 부상은 AI 생성 텍스트의 오용에 대한 우려를 고조시켰으며, 이에 워터마킹이 유망한 해결책으로 떠오르고 있습니다. LLM을 위한 주류 워터마킹 기법은 크게 로짓 기반과 샘플링 기반 두 가지 범주로 나뉩니다. 그러나 현재의 기법들은 견고성, 텍스트 품질, 보안 간의 트레이드오프를 수반합니다. 이를 완화하기 위해 우리는 로짓 기반과 샘플링 기반 기법을 통합하여 각각의 강점을 활용해 시너지를 달성합니다. 본 논문에서는 직렬, 병렬, 하이브리드 세 가지 전략을 갖춘 다용도 공생 워터마킹 프레임워크를 제안합니다. 하이브리드 프레임워크는 토큰 엔트로피와 의미론적 엔트로피를 활용하여 워터마크를 적응적으로 삽입함으로써 탐지 가능성, 견고성, 텍스트 품질, 보안 간의 균형을 최적화합니다. 또한, 다양한 데이터셋과 모델에 대한 포괄적인 실험을 통해 우리의 접근 방식을 검증합니다. 실험 결과는 우리의 방법이 기존 베이스라인을 능가하며 최첨단(SOTA) 성능을 달성함을 보여줍니다. 우리는 이 프레임워크가 다양한 워터마킹 패러다임에 대한 새로운 통찰을 제공할 것이라 믿습니다. 우리의 코드는 https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}에서 확인할 수 있습니다.
추론 시간 최적화를 통한 스타일 전이(ST-ITO)는 참조 오디오의 적용된 효과를 원시 오디오 트랙으로 전이시키기 위한 최근의 접근법입니다. 이 방법은 처리된 오디오와 참조 오디오의 스타일 임베딩 간의 거리를 최소화하기 위해 효과 파라미터를 최적화합니다. 그러나 이 방법은 모든 가능한 구성을 동등하게 취급하고 임베딩 공간에만 의존하기 때문에 비현실적이거나 편향된 결과를 초래할 수 있습니다. 우리는 이러한 문제를 해결하기 위해 보컬 프리셋 데이터셋인 DiffVox에서 도출된 가우시안 사전 분포를 파라미터 공간에 도입했습니다. 이로 인해 최적화는 최대사후확률(MAP) 추정과 동등하게 됩니다. MedleyDB 데이터셋에서 보컬 효과 전이에 대한 평가 결과, 제안된 방법은 블라인드 오디오 효과 추정기, 최근접 이웃 접근법, 그리고 보정되지 않은 ST-ITO를 포함한 베이스라인에 비해 다양한 메트릭에서 상당한 개선을 보였습니다. 제안된 보정은 파라미터 평균 제곱 오차를 최대 33%까지 감소시키고 참조 스타일을 더 잘 맞추는 것으로 나타났습니다. 16명의 참가자를 대상으로 한 주관적 평가는 특히 데이터가 제한된 상황에서 우리 방법의 우수성을 확인했습니다. 이 연구는 추론 시간에 사전 지식을 통합함으로써 오디오 효과 전이를 개선하고, 더 효과적이고 현실적인 오디오 처리 시스템을 위한 길을 열어줌을 보여줍니다.