번역이 포함된 일일 선별된 AI 연구 논문
우리는 자연어로부터 표현력 있는 스토리보드를 생성하기 위한 학습이 필요 없는 프레임워크인 Story2Board를 소개한다. 기존 방법들은 주체의 정체성에만 초점을 맞추어 공간 구성, 배경 변화, 서사적 속도 등 시각적 스토리텔링의 핵심 요소를 간과해 왔다. 이를 해결하기 위해, 우리는 두 가지 구성 요소로 이루어진 경량화된 일관성 프레임워크를 도입했다: 첫째, 패널 간 공유 캐릭터 참조를 유지하는 Latent Panel Anchoring과, 둘째, 강한 상호 주의를 가진 토큰 쌍 간의 시각적 특징을 부드럽게 혼합하는 Reciprocal Attention Value Mixing이다. 이 두 메커니즘은 아키텍처 변경이나 미세 조정 없이도 일관성을 강화하여, 최신 확산 모델이 시각적으로 다양하면서도 일관된 스토리보드를 생성할 수 있게 한다. 생성 과정을 구조화하기 위해, 우리는 자유 형식의 이야기를 패널 수준의 구체적인 프롬프트로 변환하는 데 기성 언어 모델을 사용한다. 평가를 위해, 우리는 일관성뿐만 아니라 레이아웃 다양성과 배경 기반 스토리텔링을 평가하기 위해 설계된 오픈 도메인 서사 모음인 Rich Storyboard Benchmark를 제안한다. 또한, 스토리보드 간 공간적 및 포즈 변화를 정량화하는 새로운 Scene Diversity 메트릭을 도입했다. 우리의 정성적 및 정량적 결과, 그리고 사용자 연구는 Story2Board가 기존 베이스라인보다 더 동적이고 일관성 있으며 서사적으로 매력적인 스토리보드를 생성한다는 것을 보여준다.
대형 언어 모델(LLM), 특히 DeepSeek-R1과 QWQ와 같은 명시적 장기 사고 연쇄(CoT) 추론 모델은 상식 추론 및 수학적 추론에서 인상적인 성능을 보이며 강력한 추론 능력을 입증했습니다. 그러나 이러한 장기 CoT 추론 모델은 분자 발견과 같은 지식 집약적 영역에서 제한된 능력과 낮은 효율성으로 인해 비판을 받고 있습니다. 이 분야에서의 성공은 분자 구조와 화학 원리를 포함한 도메인 지식에 대한 정확한 이해를 요구하는데, 이는 분자 데이터의 고유한 복잡성과 고품질 전문가 주석의 부족으로 인해 어려운 과제입니다. 이러한 격차를 해소하기 위해, 우리는 텍스트 기반 분자 생성에서 R1과 같은 명시적 장기 CoT 추론 LLM의 설명 가능성과 추론 성능을 향상시키기 위해 Mol-R1이라는 새로운 프레임워크를 소개합니다. 우리의 접근 방식은 사전 규제를 통한 인컨텍스트 증류(PRID)라는 전용 증류 전략을 통해 고품질 추론 데이터셋을 구축하는 것으로 시작합니다. 이를 기반으로, 분자 발견을 위한 R1과 같은 추론 모델의 성능을 향상시키기 위해 지도 미세 조정(SFT)과 강화 정책 최적화(RPO)를 반복적으로 결합하는 정교한 훈련 전략인 MoIA(분자 반복 적응)를 도입합니다. 마지막으로, Mol-R1의 성능을 텍스트 기반 분자 추론 생성 작업에서 평가하며, 기존 베이스라인 대비 우수한 성능을 보여줍니다.
사용자가 지정한 신원과 일치하는 고품질 인간 동영상을 생성하는 것은 생성 AI 분야에서 중요하면서도 도전적인 과제입니다. 기존 방법들은 과도한 수의 학습 파라미터에 의존하며 다른 AIGC 도구와의 호환성이 부족한 경우가 많습니다. 본 논문에서는 동영상 생성에서 신원 보존을 위한 경량화되고 플러그 앤 플레이 방식의 프레임워크인 Stand-In을 제안합니다. 구체적으로, 사전 학습된 동영상 생성 모델에 조건부 이미지 분기를 도입했습니다. 신원 제어는 조건부 위치 매핑을 통한 제한된 자기 주의 메커니즘으로 달성되며, 단 2000개의 데이터 쌍으로도 빠르게 학습할 수 있습니다. 단 sim1\%의 추가 파라미터만 통합하고 학습했음에도 불구하고, 우리의 프레임워크는 동영상 품질과 신원 보존 측면에서 우수한 결과를 달성하며, 다른 완전 파라미터 학습 방법들을 능가합니다. 더욱이, 본 프레임워크는 주체 기반 동영상 생성, 포즈 참조 동영상 생성, 스타일화, 얼굴 교체와 같은 다른 작업에도 원활하게 통합될 수 있습니다.
우리는 장기 기억을 갖춘 새로운 멀티모달 에이전트 프레임워크인 M3-Agent를 소개합니다. 인간과 마찬가지로 M3-Agent는 실시간 시각 및 청각 입력을 처리하여 장기 기억을 구축하고 업데이트할 수 있습니다. 에피소드 기억을 넘어, 이는 의미 기억도 발전시켜 시간이 지남에 따라 세계 지식을 축적할 수 있습니다. M3-Agent의 기억은 엔티티 중심의 멀티모달 형식으로 조직되어 환경에 대한 더 깊고 일관된 이해를 가능하게 합니다. 주어진 지시에 따라 M3-Agent는 자율적으로 다중 턴의 반복적 추론을 수행하고 기억에서 관련 정보를 검색하여 작업을 완료합니다. 멀티모달 에이전트의 기억 효과성과 기억 기반 추론을 평가하기 위해, 우리는 새로운 장기 비디오 질문 응답 벤치마크인 M3-Bench를 개발했습니다. M3-Bench는 로봇의 관점에서 촬영된 100개의 새로운 실세계 비디오(M3-Bench-robot)와 다양한 시나리오에서 수집된 929개의 웹 기반 비디오(M3-Bench-web)로 구성됩니다. 우리는 에이전트 애플리케이션에 필수적인 핵심 능력(예: 인간 이해, 일반 지식 추출, 크로스모달 추론)을 테스트하기 위해 설계된 질문-응답 쌍을 주석 처리했습니다. 실험 결과, 강화 학습을 통해 훈련된 M3-Agent는 Gemini-1.5-pro와 GPT-4o를 사용한 프롬프팅 에이전트라는 가장 강력한 베이스라인을 능가하며, M3-Bench-robot, M3-Bench-web 및 VideoMME-long에서 각각 6.7%, 7.7%, 5.3% 더 높은 정확도를 달성했습니다. 우리의 연구는 멀티모달 에이전트를 더 인간적인 장기 기억을 갖추도록 발전시키고, 실용적인 설계에 대한 통찰을 제공합니다. 모델, 코드 및 데이터는 https://github.com/bytedance-seed/m3-agent에서 확인할 수 있습니다.
확산 기반 대형 언어 모델(Diffusion Large Language Models, dLLMs)은 텍스트 생성 분야에서 자기회귀적(Autoregressive, AR) LLMs의 유망한 대안으로 부상하며, 단일 반복에서 다중 토큰을 디코딩할 수 있는 잠재력을 보여주고 있습니다. 그러나 기존의 오픈소스 dLLMs 중 어느 것도 비슷한 규모의 AR LLMs보다 우수한 추론 속도를 달성하지 못했습니다. 본 논문은 이 장벽을 단순하면서도 효과적인 전략인 이산 확산 강제(Discrete Diffusion Forcing, D2F)를 기반으로 극복합니다. D2F는 dLLMs에 두 가지 핵심 기능을 부여합니다: (1) KV 캐시 활용을 가능하게 하는 블록 단위 자기회귀 생성; (2) 이전 블록의 완료 없이도 후속 토큰을 예측하여 블록 간 병렬 디코딩을 가능하게 합니다. 이를 통해 기본 dLLMs는 효율적인 추론을 위한 AR-확산 하이브리드 패러다임으로 개선됩니다. D2F는 사전 훈련된 dLLMs를 기반으로 한 비대칭적 지식 증류 과정을 통해 구현될 수 있습니다. 또한, 우리는 효율성과 효과성 간의 균형을 가능하게 하는 파이프라인 병렬 디코딩 알고리즘을 제안합니다. 실험적으로, D2F dLLMs는 GSM8K에서 LLaMA3 및 Qwen2.5보다 2.5배 이상 빠른 추론 속도를 달성했습니다. LLaDA 및 Dream과 같은 기본 dLLMs와 비교할 때, 출력 품질을 유지하면서도 50배 이상의 가속화를 달성했습니다. 코드는 https://github.com/zhijie-group/Discrete-Diffusion-Forcing에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 급속한 발전으로 인해 지능형 에이전트가 복잡한 현실 세계 문제를 해결하기 위해 다양한 외부 도구를 활용할 수 있게 되었습니다. 그러나 에이전트가 여러 도구에 점점 더 의존함에 따라 새로운 과제에 직면하게 되었습니다: 다양한 출처에서 나온 확장된 컨텍스트와 잡음이 섞이거나 관련 없는 도구 출력은 시스템의 신뢰성과 정확성을 저해할 수 있습니다. 이러한 과제들은 에이전트 기반 시스템에서 강화된 안정성의 필요성을 강조합니다. 이를 해결하기 위해 우리는 동적 감독 및 조종 메커니즘을 도입하여 AWorld 프레임워크 내에서 견고하고 동적인 다중 에이전트 시스템(MAS) 아키텍처를 구축했습니다. 우리의 접근 방식에서 실행 에이전트는 중요한 단계에서 가드 에이전트를 호출하여 추론 과정을 검증하고 수정함으로써 잡음으로 인한 오류를 효과적으로 줄이고 문제 해결의 견고성을 강화합니다. GAIA 테스트 데이터셋에 대한 광범위한 실험을 통해 우리의 동적 조종 메커니즘이 솔루션의 효과성과 안정성을 크게 향상시키며, 단일 에이전트 시스템(SAS) 및 표준 도구 보강 시스템을 능가하는 것으로 나타났습니다. 결과적으로, 우리의 동적 MAS 시스템은 권위 있는 GAIA 리더보드에서 오픈소스 프로젝트 중 1위를 차지했습니다. 이러한 발견들은 더 신뢰할 수 있고 신뢰성 있는 지능형 시스템을 개발하는 데 있어 협력적인 에이전트 역할의 실용적 가치를 강조합니다.
최근 GPT-4o는 이미지 생성에서의 강력한 성능으로 큰 주목을 받았지만, 오픈소스 모델들은 여전히 뒤처져 있습니다. 여러 연구에서 GPT-4o로부터 이미지 데이터를 추출하여 오픈소스 모델을 개선하려는 시도가 이루어졌고, 이는 상당한 진전을 이루었습니다. 그러나 여전히 중요한 질문이 남아 있습니다: 실제 세계의 이미지 데이터셋이 이미 고품질 데이터의 자연스러운 원천인데, 왜 GPT-4o가 생성한 합성 데이터를 사용해야 하는가? 이 연구에서 우리는 합성 이미지의 두 가지 주요 장점을 확인했습니다. 첫째, 합성 이미지는 실제 데이터셋에서 드물게 나타나는 시나리오, 예를 들어 초현실적인 판타지나 다중 참조 이미지 생성과 같은 사용자 쿼리에서 빈번히 발생하는 상황을 보완할 수 있습니다. 둘째, 합성 이미지는 깨끗하고 제어 가능한 감독을 제공합니다. 실제 데이터는 종종 복잡한 배경 노이즈와 텍스트 설명과 이미지 내용 간의 불일치를 포함하지만, 합성 이미지는 순수한 배경과 긴 꼬리 감독 신호를 제공하여 텍스트-이미지 정렬을 더 정확하게 만듭니다. 이러한 통찰을 바탕으로, 우리는 GPT-4o로 생성된 180K 규모의 합성 데이터셋인 Echo-4o-Image를 소개하며, 합성 이미지 데이터의 힘을 활용하여 실제 세계 데이터의 사각지대를 해결합니다. 이 데이터셋을 사용하여 우리는 통합 멀티모달 생성 베이스라인인 Bagel을 미세 조정하여 Echo-4o를 얻었습니다. 또한, 이미지 생성 능력을 더 정확하고 도전적으로 평가하기 위해 두 가지 새로운 평가 벤치마크를 제안합니다: 점수 포화를 완화하기 위해 지시의 복잡성을 증가시킨 GenEval++와, 상상력 있는 콘텐츠의 이해와 생성을 모두 평가하는 데 초점을 맞춘 Imagine-Bench입니다. Echo-4o는 표준 벤치마크에서 강력한 성능을 보여줍니다. 더 나아가, Echo-4o-Image를 다른 기반 모델(예: OmniGen2, BLIP3-o)에 적용하면 여러 지표에서 일관된 성능 향상을 얻을 수 있으며, 이는 데이터셋의 강력한 전이성을 강조합니다.
언어 모델 정렬 능력을 강화하기 위한 핵심 접근법으로 정렬 방법론이 부상하고 있다. 지도 미세 조정(SFT)은 직접적인 토큰 수준 손실 개입을 통해 수렴을 가속하지만, 오프라인 정책 궤적에 의해 그 효율성이 제한된다. 반면, 강화 학습(RL)은 탐색적 정책 최적화를 가능하게 하지만, 낮은 샘플 효율성과 고품질 기본 모델에 대한 엄격한 의존성이라는 문제를 안고 있다. 이러한 이중 과제를 해결하기 위해, 우리는 GRAO(Group Relative Alignment Optimization)를 제안한다. 이 통합 프레임워크는 SFT와 RL의 각각의 강점을 시너지 효과적으로 결합하기 위해 세 가지 주요 혁신을 도입한다: 1) 보상 피드백을 통한 비교적 품질 평가를 가능하게 하는 다중 샘플 생성 전략; 2) 그룹 내 상대적 이점 가중치를 활용한 새로운 그룹 직접 정렬 손실 공식; 3) 쌍별 선호도 역학에 기반한 참조 인식 매개변수 업데이트. 우리의 이론적 분석은 GRAO가 기존 접근법에 비해 수렴 보장과 샘플 효율성 측면에서 우수함을 입증한다. 복잡한 인간 정렬 작업에 대한 포괄적 평가 결과, GRAO는 SFT, DPO, PPO, GRPO 기준선 대비 각각 57.70%, 17.65%, 7.95%, 5.18%의 상대적 개선을 달성하며 우수한 성능을 보여준다. 이 연구는 이론적으로 근거 있는 정렬 프레임워크와 언어 모델의 효율적 능력 진화에 대한 실증적 증거를 제공한다.
멀티모달 대형 언어 모델(MLLMs)은 기존의 다양한 벤치마크에서 시각적 수학적 추론 능력을 뛰어나게 보여주었습니다. 그러나 이러한 벤치마크는 주로 깔끔하거나 처리된 멀티모달 입력을 기반으로 하며, 실제 유치원부터 12학년(K-12) 교육 사용자가 제공한 이미지를 포함하지 않습니다. 이러한 격차를 해결하기 위해, 우리는 실제 시나리오에서 휴대용 모바일 기기로 촬영된 이미지와 함께 2,000개의 수학 문제로 구성된 신중하게 선별된 데이터셋인 MathReal을 소개합니다. 각 문제는 질문 텍스트와 시각적 요소를 포함한 이미지입니다. 우리는 실제 이미지를 이미지 품질 저하, 시각적 관점 변화, 관련 없는 내용 간섭이라는 세 가지 주요 범주로 체계적으로 분류하며, 이를 14개의 하위 범주로 세분화합니다. 또한, MathReal은 세 가지 문제 유형을 포함하고 세 가지 난이도 수준으로 나뉜 다섯 가지 핵심 지식 및 능력 범주를 아우릅니다. 최신 MLLMs의 멀티모달 수학적 추론 능력을 실제 시나리오에서 종합적으로 평가하기 위해, 우리는 그들의 성능을 체계적으로 분석할 수 있는 여섯 가지 실험 설정을 설계합니다. 광범위한 실험을 통해, 우리는 기존 MLLMs의 문제 해결 능력이 실제 교육 맥락에서 상당히 도전받는다는 것을 발견했습니다. 이를 바탕으로, 우리는 그들의 성능과 오류 패턴을 철저히 분석하여 인식, 이해, 추론 능력에 대한 통찰을 제공하고, 향후 개선 방향을 제시합니다. 데이터와 코드: https://github.com/junfeng0288/MathReal.
대규모 언어 모델(LLM)은 추론 작업에서 뛰어난 성능을 보여왔으며, 강화 학습(RL)은 이러한 추론 능력을 향상시키는 핵심 알고리즘으로 작용합니다. 현재 두 가지 주요 보상 패러다임이 존재합니다: 모델 기반 보상과 규칙 기반 보상. 그러나 두 접근법 모두 한계를 가지고 있습니다: 규칙 기반 보상은 견고성이 부족하고, 모델 기반 보상은 보상 해킹에 취약합니다. 이러한 문제를 해결하기 위해, 우리는 정책 모델과 보상 모델을 공동으로 최적화하는 RL 프레임워크인 Cooper(Co-optimizing Policy Model and Reward Model)를 제안합니다. Cooper는 정답을 식별할 때 규칙 기반 보상의 높은 정밀도를 활용하고, 보상 모델의 지속적인 학습을 위해 동적으로 양성-음성 샘플 쌍을 구성하고 선택합니다. 이 설계는 견고성을 강화하고 보상 해킹의 위험을 완화합니다. Cooper를 더욱 지원하기 위해, 우리는 보상 모델을 위한 훈련 데이터를 효율적이고 정확하게 생성하는 하이브리드 주석 전략을 도입했습니다. 또한, 보상 모델이 참조 답변을 입력으로 받는 참조 기반 보상 모델링 패러다임을 제안합니다. 이 설계를 기반으로, VerifyRM이라는 보상 모델을 훈련시켰으며, 이 모델은 동일한 크기의 다른 모델들에 비해 VerifyBench에서 더 높은 정확도를 달성했습니다. 우리는 VerifyRM과 Cooper를 모두 사용하여 강화 학습을 수행했습니다. 실험 결과, Cooper는 보상 해킹을 완화할 뿐만 아니라 종단 간 RL 성능을 개선하는 것으로 나타났습니다. 예를 들어, Qwen2.5-1.5B-Instruct에서 평균 정확도가 0.54% 향상되었습니다. 우리의 연구 결과는 보상 모델을 동적으로 업데이트하는 것이 보상 해킹을 방지하는 효과적인 방법임을 보여주며, 보상 모델을 RL에 더 잘 통합하기 위한 참고 자료를 제공합니다.
테스트 타임 스케일링(test-time scaling)이라는 새로운 패러다임은 대규모 언어 모델(LLMs, 예: 추론 모델)과 생성형 비전 모델에서 놀라운 돌파구를 마련하며, 모델이 추론 과정에서 추가적인 계산을 할당하여 점점 더 복잡한 문제를 효과적으로 해결할 수 있게 했습니다. 이러한 접근법의 개선에도 불구하고 중요한 한계가 나타납니다: 계산 시간의 상당한 증가로 인해 이 과정이 느려지고 많은 응용 분야에서 비실용적이 됩니다. 이 패러다임의 성공과 그 사용이 증가함에 따라, 우리는 추론 오버헤드를 피하면서도 그 이점을 유지하고자 합니다. 본 연구에서는 테스트 타임 스케일링 지식을 훈련 후(post-training) 모델에 통합하는 중요한 문제에 대한 하나의 해결책을 제안합니다. 구체적으로, 우리는 확산 모델(diffusion models)에서 보안 가이드 테스트 타임 노이즈 최적화를 초기 입력 노이즈를 조절하는 노이즈 하이퍼네트워크(Noise Hypernetwork)로 대체합니다. 우리는 기본 모델에 대한 충실도를 유지하면서 원하는 특성을 최적화하는 실현 가능한 노이즈 공간 목표를 통해, 증류된 생성기를 위한 보상 기울기 분포(reward-tilted distribution)를 학습하는 이론적으로 근거된 프레임워크를 제안합니다. 우리의 접근법이 명시적인 테스트 타임 최적화에서 얻는 품질 향상의 상당 부분을 훨씬 낮은 계산 비용으로 회복할 수 있음을 보여줍니다. 코드는 https://github.com/ExplainableML/HyperNoise에서 확인할 수 있습니다.
비전-언어 모델(VLMs)은 시각적 근거화(visual grounding)와 같은 작업에서 상당한 발전을 보여왔으며, 이는 자연어 질의와 이미지를 기반으로 특정 객체를 이미지 내에서 위치시키는 작업을 포함합니다. 그러나 VLMs의 시각적 근거화 작업에서의 보안 문제, 특히 백도어 공격과 관련된 문제는 아직 충분히 탐구되지 않았습니다. 본 논문에서는 VLMs의 근거화 행동을 조작하기 위해 설계된 새로운 입력 인식 백도어 공격 방법인 IAG를 소개합니다. 이 공격은 사용자의 질의와 무관하게 입력 이미지에서 특정 대상 객체를 근거화하도록 모델을 강제합니다. 우리는 텍스트 조건부 U-Net을 사용하여 공격 대상의 설명에 대한 의미 정보를 원본 이미지에 내장하는 적응형 트리거 생성기를 제안함으로써 개방형 어휘 공격 문제를 극복합니다. 공격의 은밀성을 보장하기 위해, 우리는 오염된 이미지와 깨끗한 이미지 간의 시각적 차이를 최소화하기 위해 재구성 손실을 활용합니다. 또한, 공격 데이터를 생성하기 위한 통합 방법을 제안합니다. IAG는 이론적 및 실증적으로 평가되어 그 타당성과 효과성을 입증합니다. 특히, InternVL-2.5-8B에서의 ASR@0.5는 다양한 테스트 세트에서 65% 이상을 달성합니다. IAG는 또한 Ferret-7B와 LlaVA-1.5-7B를 조작하는 데 있어서도 유망한 잠재력을 보이며, 깨끗한 샘플에서의 정확도 감소가 매우 적습니다. 다양한 특정 실험, 예를 들어 어블레이션 연구와 잠재적 방어 방법 등도 우리 공격의 견고성과 전이성을 나타냅니다.
멀티모달 대형 언어 모델(MLLMs)은 시각적 이해와 텍스트 이해의 통합을 크게 발전시켰습니다. 그러나 멀티모달 입력에서 코드를 생성하는 능력은 여전히 제한적입니다. 본 연구에서는 시각과 코딩 언어 모델을 원활하게 통합하여 MLLMs에 강력한 멀티모달 코드 생성 능력을 부여하는 통합 프레임워크인 VisCodex를 소개합니다. 태스크 벡터 기반 모델 병합 기술을 활용하여 최첨단 코딩 LLM을 강력한 시각-언어 백본에 통합하면서도 시각적 이해와 고급 코딩 기술을 모두 보존합니다. 훈련과 평가를 지원하기 위해 598k개의 샘플로 구성된 대규모 및 다양한 멀티모달 코딩 데이터셋(MCD)을 도입했습니다. 이 데이터셋은 고품질 HTML 코드, 차트 이미지-코드 쌍, 이미지가 강화된 StackOverflow QA, 그리고 알고리즘 문제를 포함합니다. 또한, 텍스트와 시각적 맥락의 미묘한 이해를 요구하는 시각적으로 풍부한 실제 프로그래밍 질문에 대해 모델을 평가하기 위해 특별히 설계된 새로운 도전적인 벤치마크인 InfiBench-V를 제안합니다. 광범위한 실험을 통해 VisCodex가 오픈소스 MLLMs 중에서 최첨단 성능을 달성하고 GPT-4o와 같은 독점 모델에 근접하는 성과를 보여주며, 우리의 모델 병합 전략과 새로운 데이터셋의 효과를 입증합니다.
최근 텍스트-이미지(T2I) 모델의 발전으로 인해 파운데이션 모델의 생성적 사전 정보를 활용하여 학습 없이도 지역적 이미지 편집이 가능해졌습니다. 그러나 기존 방법들은 편집된 영역에서의 텍스트 준수, 편집되지 않은 영역에서의 문맥 충실도, 그리고 편집의 자연스러운 통합 간의 균형을 맞추는 데 어려움을 겪고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 두 가지 주요 혁신을 도입한 새로운 학습 없는 프레임워크인 CannyEdit을 소개합니다: (1) 선택적 캐니 제어(Selective Canny Control)는 사용자가 지정한 편집 가능한 영역에서 Canny ControlNet의 구조적 지도를 마스킹하면서, 반전 단계의 ControlNet 정보 보존을 통해 편집되지 않은 영역의 소스 이미지 세부 사항을 엄격히 보존합니다. 이를 통해 문맥적 무결성을 훼손하지 않으면서도 정확한 텍스트 기반 편집이 가능합니다. (2) 이중 프롬프트 지도(Dual-Prompt Guidance)는 객체 특정 편집을 위한 지역적 프롬프트와 일관된 장면 상호작용을 유지하기 위한 전역적 목표 프롬프트를 결합합니다. 실제 이미지 편집 작업(추가, 교체, 제거)에서 CannyEdit은 KV-Edit과 같은 기존 방법을 능가하며, 텍스트 준수와 문맥 충실도의 균형에서 2.93%에서 10.49%의 개선을 달성했습니다. 편집의 자연스러움 측면에서, 사용자 연구 결과 일반 사용자의 49.2%와 AIGC 전문가의 42.0%만이 편집되지 않은 실제 이미지와 함께 제공된 CannyEdit 결과를 AI 편집으로 식별한 반면, 경쟁 방법들은 76.08%에서 89.09%로 나타났습니다.
빠르게 진화하는 설명 가능한 자연어 처리(NLP) 분야에서, 텍스트 기반 설명, 즉 인간과 유사한 논리적 근거는 모델 예측을 설명하고 해석 가능한 레이블로 데이터셋을 풍부하게 하는 데 핵심적인 역할을 합니다. 전통적인 접근 방식은 인간의 주석에 의존하는데, 이는 비용이 많이 들고 노동 집약적이며 확장성을 저해합니다. 본 연구에서는 최첨단 대형 언어 모델(LLMs)을 활용하여 고품질의 텍스트 설명을 자동으로 생성하는 프레임워크를 제시합니다. 우리는 자연어 생성(NLG) 평가 지표의 포괄적인 세트를 사용하여 이러한 LLM 생성 설명의 품질을 엄격히 평가합니다. 더 나아가, 두 가지 다양한 벤치마크 데이터셋에서 자연어 추론 작업에 대한 사전 학습된 언어 모델(PLMs)과 LLMs의 성능에 이러한 설명이 미치는 하류 영향을 조사합니다. 우리의 실험 결과는 자동 생성된 설명이 모델 성능 향상에 있어 인간이 주석을 단 설명과 비교해 매우 경쟁력 있는 효과를 보임을 입증합니다. 이러한 발견은 NLP 데이터셋을 확장하고 모델 성능을 강화하기 위한 확장 가능한 자동화된 LLM 기반 텍스트 설명 생성의 유망한 방향성을 강조합니다.
최근 몇 년간 대규모 언어 모델(LLM)에 대한 관심과 도입이 증가하면서, 대규모 학습에서 하이퍼파라미터 튜닝을 위한 핵심 기술로 muTransfer가 부상했습니다. 한편, 전문가 혼합(Mixture-of-Experts, MoE)은 초대형 모델에서 선도적인 아키텍처로 등장했습니다. 그러나 이 두 발전의 교차점은 아직 탐구되지 않았습니다. 본 연구에서 우리는 MoE를 위한 mu-파라미터화(muP)를 도출하여, 라우터와 전문가 모두에서 모델 폭에 걸친 특징 학습에 대한 이론적 보장을 제공합니다. 우리는 이 파라미터화를 실증적으로 검증하고, 전문가의 수와 세분화 정도를 확장함에 따라 최적 학습률이 어떻게 영향을 받는지 추가적으로 조사합니다.
검증 가능한 보상을 사용한 강화 학습으로 훈련된 대형 언어 모델은 정확도를 높이기 위해 응답 길이를 부풀리는 경향이 있습니다. 더 어려운 문제의 경우 긴 답변이 필요할 수 있지만, 많은 토큰이 단순히 "채우기" 역할을 하는 경우가 많습니다: 반복적이고 장황한 텍스트로 실제 진전을 이루지 못하는 경우입니다. 우리는 GFPO(Group Filtered Policy Optimization)를 소개합니다. 이 방법은 훈련 중에 문제당 더 큰 그룹을 샘플링하고 두 가지 주요 지표를 기반으로 응답을 필터링하여 훈련함으로써 이러한 길이 폭증을 억제합니다: (1) 응답 길이와 (2) 토큰 효율성(토큰당 보상 비율). 훈련 시간에 더 많이 샘플링함으로써, 우리는 모델이 추론 시간에 덜 생각하도록 가르칩니다. Phi-4-reasoning 모델에서 GFPO는 GRPO의 길이 폭증을 도전적인 STEM 및 코딩 벤치마크(AIME 24/25, GPQA, Omni-MATH, LiveCodeBench)에서 46-71% 줄이면서도 정확도를 유지합니다. 토큰당 보상을 최적화하면 길이 폭증 감소가 71-85%로 더욱 증가합니다. 또한, 우리는 Adaptive Difficulty GFPO를 제안합니다. 이 방법은 실시간 난이도 추정을 기반으로 더 어려운 문제에 더 많은 훈련 자원을 동적으로 할당하여, 특히 어려운 질문에서 계산 효율성과 정확성 사이의 균형을 개선합니다. GFPO는 훈련 시간 계산량의 증가가 테스트 시간 계산량의 감소로 직접 이어짐을 보여줍니다. 이는 효율적인 추론을 위한 간단하지만 효과적인 절충안입니다.
희소 뷰(sparse views)를 사용하여 3D Gaussian Splatting(3DGS)으로 3D 장면을 재구성하는 것은 정보가 부족하여 잘 정의되지 않은 문제(ill-posed problem)로, 종종 눈에 띄는 아티팩트(artifacts)를 초래합니다. 최근 접근법들은 생성적 사전 정보(generative priors)를 활용하여 제약이 적은 영역의 정보를 완성하려고 시도했지만, 입력 관측값과 일관된 콘텐츠를 생성하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 희소 입력으로부터 재구성된 3DGS 표현의 품질을 향상시키기 위해 설계된 새로운 프레임워크인 GSFixer를 제안합니다. 우리의 접근법의 핵심은 DiT 기반 비디오 확산 모델(video diffusion model)을 기반으로 구축된 참조 기반 비디오 복원 모델(reference-guided video restoration model)입니다. 이 모델은 아티팩트가 있는 3DGS 렌더링과 깨끗한 프레임을 추가적인 참조 기반 조건과 함께 훈련시켰습니다. 입력 희소 뷰를 참조로 고려하여, 우리의 모델은 시각적 기하학 기반 모델(visual geometry foundation model)에서 추출한 참조 뷰의 2D 의미론적 특징(semantic features)과 3D 기하학적 특징(geometric features)을 통합하여, 아티팩트가 있는 새로운 뷰를 수정할 때 의미론적 일관성(semantic coherence)과 3D 일관성(3D consistency)을 강화합니다. 또한, 3DGS 아티팩트 복원 평가를 위한 적절한 벤치마크가 부족한 점을 고려하여, 우리는 저품질 3DGS를 사용하여 렌더링된 아티팩트 프레임을 포함하는 DL3DV-Res를 제시합니다. 광범위한 실험을 통해 우리의 GSFixer가 3DGS 아티팩트 복원 및 희소 뷰 3D 재구성에서 현재 최신 방법들을 능가함을 입증합니다. 프로젝트 페이지: https://github.com/GVCLab/GSFixer.
본 논문은 마이크로 항공기(MAV) 팀을 이용하여 케이블로 매달린 하중의 실세계 6자유도 조작을 가능하게 하는 최초의 분산형 방법을 제시한다. 본 방법은 다중 에이전트 강화학습(MARL)을 활용하여 각 MAV에 대한 외부 루프 제어 정책을 학습한다. 중앙 집중형 방식을 사용하는 최신 제어기와 달리, 본 정책은 전역 상태, MAV 간 통신, 또는 인접 MAV 정보를 필요로 하지 않는다. 대신, 에이전트들은 하중 자세 관측만을 통해 암묵적으로 통신하며, 이는 높은 확장성과 유연성을 가능하게 한다. 또한, 이는 추론 시간 동안의 계산 비용을 크게 줄여 정책의 온보드 배치를 가능하게 한다. 추가적으로, 본 논문은 선형 가속도와 바디 속도를 사용한 MAV를 위한 새로운 액션 공간 설계를 소개한다. 이 선택은 견고한 저수준 제어기와 결합되어 동적 3D 운동 중 케이블 장력으로 인한 상당한 불확실성에도 불구하고 신뢰할 수 있는 시뮬레이션-실제 전이를 가능하게 한다. 본 방법은 하중 모델 불확실성 하에서의 전체 자세 제어를 포함한 다양한 실세계 실험에서 검증되었으며, 최신 중앙 집중형 방법과 비슷한 설정점 추적 성능을 보여준다. 또한, 이질적 제어 정책을 가진 에이전트 간의 협력과 한 MAV의 완전한 비행 중 손실에 대한 견고성을 입증한다. 실험 영상: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
정확한 병변 절제는 세밀한 해부학적 구조를 정확하게 식별하는 데 달려 있습니다. 많은 대규모 분할(CGS) 방법들이 장기와 같은 대규모 분할에서는 성공적이었지만, 소규모 해부학적 구조에서 빈번히 발생하는 개인별 변이로 인해 세밀한 분할(FGS)이 필요한 임상 시나리오에서는 한계를 보입니다. 최근 Mamba 기반 모델들이 의료 영상 분할을 발전시켰지만, 이들은 종종 고정된 수동 정의 스캔 순서에 의존하여 FGS에서의 개인별 변이에 대한 적응성이 제한됩니다. 이를 해결하기 위해, 우리는 FGS를 위한 새로운 Mamba 기반 아키텍처인 ASM-UNet을 제안합니다. ASM-UNet은 그룹 수준의 공통성과 개인 수준의 변이를 결합하여 생성된 적응형 스캔 점수를 도입하여 스캔 순서를 동적으로 안내합니다. 두 개의 공개 데이터셋(ACDC 및 Synapse)과 새로 제안된 도전적인 담도 FGS 데이터셋인 BTMS에서의 실험을 통해 ASM-UNet이 CGS와 FGS 작업 모두에서 우수한 성능을 달성함을 입증했습니다. 우리의 코드와 데이터셋은 https://github.com/YqunYang/ASM-UNet에서 확인할 수 있습니다.
멤버십 추론 공격은 언어 모델의 공정한 사용을 위한 유용한 도구로, 잠재적인 저작권 침해 탐지 및 데이터 유출 감사와 같은 목적으로 활용될 수 있습니다. 그러나 현재 최신 공격 기법들은 대부분 모델의 은닉 상태나 확률 분포에 대한 접근을 필요로 하기 때문에, GPT-4와 같이 API 접근만 가능한 널리 사용되는 모델에 대한 조사가 어렵습니다. 본 연구에서는 완전한 블랙박스 모델에 대한 공격을 가능하게 하는, 대상 모델의 텍스트 출력만을 활용한 멤버십 추론 공격인 N-Gram Coverage Attack을 소개합니다. 우리는 모델이 학습 데이터에서 자주 관찰된 텍스트 패턴을 더 잘 기억하고 생성할 가능성이 높다는 관찰을 활용합니다. 구체적으로, N-Gram Coverage Attack은 후보 멤버에 대한 예측을 위해 먼저 후보의 접두사를 조건으로 한 여러 모델 생성 결과를 얻습니다. 그런 다음, n-gram 중첩 메트릭을 사용하여 이러한 출력과 실제 접미사 간의 유사성을 계산하고 집계하며, 높은 유사성은 멤버십 가능성을 나타냅니다. 우리는 먼저 다양한 기존 벤치마크에서 N-Gram Coverage Attack이 다른 블랙박스 방법을 능가하며, 텍스트 출력만 접근 가능한 상황에서도 최신 화이트박스 공격 기법들과 비슷하거나 더 나은 성능을 보임을 입증합니다. 흥미롭게도, 우리의 방법의 성공률은 공격 계산 예산에 따라 확장되는데, 접두사를 조건으로 대상 모델에서 생성된 시퀀스의 수를 증가시킬수록 공격 성능이 향상되는 경향이 있습니다. 우리는 이 방법의 정확성을 검증한 후, 이를 사용하여 이전에 연구되지 않은 OpenAI의 폐쇄형 모델을 여러 도메인에서 조사합니다. 그 결과, GPT-4o와 같은 최신 모델들이 멤버십 추론에 대해 더 강인함을 보이며, 개인 정보 보호가 점점 강화되는 추세를 시사함을 발견했습니다.
대규모 언어 모델(LLMs)은 일반적으로 지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)의 두 단계 파이프라인을 통해 추론 작업에 맞게 미세 조정됩니다. 이 과정은 치명적인 망각(catastrophic forgetting)과 모방과 탐색 사이의 최적이 아닌 균형 문제로 가득 차 있습니다. 최근의 단일 단계 방법들은 휴리스틱을 사용하여 SFT와 RL을 통합하려고 시도하지만, 두 패러다임을 동적으로 균형 잡는 원칙적인 메커니즘이 부족합니다. 본 논문에서는 이 문제를 암시적 보상(implicit rewards)의 이론적 관점에서 재해석하여, SFT와 RL을 별개의 방법이 아닌 상호 보완적인 보상 신호로 간주합니다. 우리는 SFT의 암시적 경로 수준 보상과 RL의 명시적 결과 기반 보상 사이의 최적 균형을 학습하는 새로운 단일 단계 알고리즘인 적응형 메타 미세 조정(Adaptive Meta Fine-Tuning, AMFT)을 소개합니다. AMFT의 핵심은 SFT-RL 균형을 학습 가능한 매개변수로 취급하여 장기적인 작업 성능을 극대화하기 위해 동적으로 최적화하는 메타 그래디언트 적응 가중치 컨트롤러입니다. 이 전향적인 접근 방식은 안정성을 위해 정책 엔트로피(policy entropy)로 정규화되며, 효과적인 훈련 커리큘럼을 자율적으로 발견합니다. 우리는 수학적 추론, 추상적 시각적 추론(General Points), 그리고 시각-언어 내비게이션(V-IRL)을 아우르는 도전적인 벤치마크에서 포괄적인 평가를 수행했습니다. AMFT는 일관되게 새로운 최첨단 기술을 확립하고, 분포 외(OOD) 작업에서 우수한 일반화 능력을 입증했습니다. 제거 연구(ablation studies)와 훈련 동적 분석은 메타 학습 컨트롤러가 AMFT의 안정성, 샘플 효율성 및 성능에 중요한 역할을 하며, LLM 정렬을 위한 더 원칙적이고 효과적인 패러다임을 제공한다는 것을 확인했습니다. 우리의 코드는 https://github.com/hlxtsyj/AMFT에서 오픈소스로 제공됩니다.
대규모 언어 모델(LLM)의 급속한 확산은 사실 기반 질의응답(QA)이 가능한 공정한 AI 시스템의 개발에 크게 기여해 왔습니다. 그러나 질문을 난독화한 버전을 제시했을 때 LLM의 견고성을 테스트한 연구는 아직 알려져 있지 않습니다. 이러한 한계를 체계적으로 평가하기 위해, 우리는 새로운 기법인 ObfusQAte를 제안하고 이를 활용하여 ObfusQA라는 포괄적이며 최초의 프레임워크를 소개합니다. 이 프레임워크는 세 가지 독특한 차원에서 LLM의 능력을 검토하기 위해 다단계 난독화 수준을 포함하고 있습니다: (i) 명명된 개체 간접 참조, (ii) 주의 산만 요소 간접 참조, (iii) 문맥 과부하. 언어의 이러한 미세한 차이를 포착함으로써, ObfusQA는 LLM의 견고성과 적응성을 평가하기 위한 포괄적인 벤치마크를 제공합니다. 우리의 연구는 LLM이 점점 더 미묘한 변형에 직면했을 때 실패하거나 허구적인 응답을 생성하는 경향을 보인다는 것을 관찰했습니다. 이 방향으로의 연구를 촉진하기 위해, 우리는 ObfusQAte를 공개적으로 제공합니다.