번역이 포함된 일일 선별된 AI 연구 논문
추론 시간 최적화는 효과적인 성능을 위해 신중한 추론 단계를 도출하기 위해 계산을 확장합니다. 이전의 탐색 기반 전략들은 자동 회귀 생성의 근시안적 문제를 해결했지만, 방대한 탐색 공간으로 인해 과도한 탐색과 불충분한 활용이 발생했습니다. 최적의 단계를 도출하기 위해 효율적인 균형을 맞추기 위해, 우리는 디코딩 전략을 선견 샘플링으로 구성하여 시뮬레이션된 미래 단계를 활용하여 전역적으로 최적의 단계 추정을 얻습니다. 이를 기반으로, 우리는 phi-Decoding이라는 새로운 디코딩 전략을 제안합니다. 단계 값의 정확하고 표현력 있는 추정을 제공하기 위해, phi-Decoding은 선견과 클러스터링을 통해 두 가지 분포를 근사화합니다. 결합 분포에서 샘플링하여 최적의 단계를 선택하여 활용할 수 있습니다. 적응형 계산 할당을 지원하기 위해, 우리는 인-너비와 인-깊이 가지치기 전략을 제안하며, 이는 추론 효율성을 달성하기 위한 경량 솔루션을 특징으로 합니다. 7개의 벤치마크에 걸친 광범위한 실험은 phi-Decoding이 성능과 효율성 모두에서 강력한 베이스라인을 능가함을 보여줍니다. 추가 분석은 다양한 LLM에 걸친 일반화와 광범위한 컴퓨팅 예산에 걸친 확장성을 입증합니다. 코드는 https://github.com/xufangzhi/phi-Decoding에서 공개될 예정이며, 오픈소스 PyPI 패키지도 곧 출시될 예정입니다.
최근 CLIP과 SigLIP 같은 이미지-텍스트 대조 모델들이 성공을 거두었음에도 불구하고, 이러한 모델들은 종종 세밀한 이미지 이해를 요구하는 시각 중심 작업들, 예를 들어 물체 수 세기, 깊이 추정, 세밀한 객체 인식 등에서 어려움을 겪습니다. 이러한 모델들은 언어 정렬을 수행함으로써 시각적 이해보다는 높은 수준의 의미론을 우선시하는 경향이 있어, 이미지 이해가 약화됩니다. 반면, 시각 중심 모델들은 시각 정보를 처리하는 데 뛰어나지만 언어를 이해하는 데 어려움을 겪어 언어 주도 작업에서의 유연성이 제한됩니다. 본 연구에서는 기존의 CLIP 유사 모델들을 대체할 수 있는 오픈소스인 TULIP을 소개합니다. 우리의 방법은 생성적 데이터 증강, 강화된 이미지-이미지 및 텍스트-텍스트 대조 학습, 그리고 이미지/텍스트 재구성 정규화를 활용하여 세밀한 시각적 특징을 학습하면서도 전역적인 의미론적 정렬을 유지합니다. 10억 개 이상의 파라미터로 확장된 우리의 접근 방식은 여러 벤치마크에서 기존의 최첨단(SOTA) 모델들을 능가하며, ImageNet-1K에서 새로운 SOTA 제로샷 성능을 달성하고, RxRx1에서 SigLIP 대비 최대 2배 향상된 성능을 보이는 퓨샷 분류를 위한 선형 탐색을 제공하며, 시각-언어 모델들을 개선하여 MMVP에서 SigLIP 대비 3배 이상 높은 점수를 달성합니다. 우리의 코드/체크포인트는 https://tulip-berkeley.github.io에서 확인할 수 있습니다.
삼각형 메쉬는 3D 애플리케이션에서 효율적인 조작과 렌더링을 위해 중요한 역할을 합니다. 자동회귀(autoregressive) 방법은 이산적인 정점 토큰을 예측하여 구조화된 메쉬를 생성하지만, 제한된 면 수와 메쉬의 불완전성에 의해 종종 제약을 받습니다. 이러한 문제를 해결하기 위해, 우리는 DeepMesh라는 프레임워크를 제안합니다. DeepMesh는 두 가지 주요 혁신을 통해 메쉬 생성을 최적화합니다: (1) 새로운 토큰화 알고리즘을 포함한 효율적인 사전 학습 전략과 데이터 큐레이션 및 처리의 개선, 그리고 (2) 직접 선호 최적화(Direct Preference Optimization, DPO)를 통해 인간의 선호에 부합하는 3D 메쉬 생성을 위해 강화 학습(Reinforcement Learning, RL)을 도입합니다. 우리는 인간 평가와 3D 메트릭을 결합한 채점 기준을 설계하여 DPO를 위한 선호 쌍을 수집함으로써 시각적 매력과 기하학적 정확성을 모두 보장합니다. 포인트 클라우드와 이미지를 조건으로 하여, DeepMesh는 정교한 디테일과 정확한 토폴로지를 가진 메쉬를 생성하며, 정밀도와 품질 모두에서 최신 기술을 능가합니다. 프로젝트 페이지: https://zhaorw02.github.io/DeepMesh/
방대한 양의 데이터로 훈련된 파운데이션 모델들은 텍스트, 이미지, 오디오, 비디오 영역에서 놀라운 추론 및 생성 능력을 보여주고 있습니다. Roblox의 목표는 3D 지능을 위한 그러한 파운데이션 모델을 구축하는 것입니다. 이 모델은 개발자들이 3D 객체와 장면 생성부터 애니메이션을 위한 캐릭터 리깅, 객체 행동을 설명하는 프로그래밍 스크립트 생성에 이르기까지 Roblox 경험의 모든 측면을 제작하는 데 도움을 줄 수 있습니다. 우리는 이러한 3D 파운데이션 모델을 위한 세 가지 핵심 설계 요구사항을 논의한 후, 이러한 모델 구축을 향한 첫 번째 단계를 제시합니다. 3D 기하학적 형태가 핵심 데이터 타입이 될 것으로 예상하며, 3D 형태 토크나이저에 대한 우리의 솔루션을 설명합니다. 우리의 토큰화 방식이 텍스트-형태 생성, 형태-텍스트 생성, 텍스트-장면 생성 애플리케이션에서 어떻게 활용될 수 있는지 보여줍니다. 또한 이러한 애플리케이션이 기존의 대형 언어 모델(LLM)과 협력하여 장면 분석과 추론을 수행할 수 있는 방법을 시연합니다. 마지막으로, 3D 지능을 위한 완전히 통합된 파운데이션 모델을 구축하기 위한 우리의 로드맵을 논의하며 글을 마무리합니다.
일반화 지식 그래프(Generalized Knowledge Graph, GKG)의 구축은 지식 그래프, 이벤트 지식 그래프, 상식 지식 그래프를 포함하며, 다양한 자연어 처리 작업의 기초가 됩니다. 현재 연구들은 일반적으로 이러한 그래프 유형들을 별도로 구축함으로써 전체적인 통찰과 컴퓨팅 자원 및 사용 관점에서 유익할 수 있는 통합 가능성을 간과하고 있습니다. 그러나 GKG를 위한 통합 프레임워크 개발의 주요 과제는 작업별 차이에서 비롯된 장애물입니다. 본 연구에서는 이러한 과제를 해결하기 위해 일반화 지식 그래프 구축을 위한 통합 프레임워크를 제안합니다. 먼저, 세 가지 그래프 유형에 걸친 29개 데이터셋의 15개 하위 작업에서 데이터를 수집하여 이를 인-샘플(in-sample), 카운터-태스크(counter-task), 분포 외(out-of-distribution, OOD) 데이터로 분류합니다. 그런 다음, 세 가지 그래프 유형의 지식을 대규모 언어 모델(Large Language Models)에 반복적으로 주입하는 세 단계 커리큘럼 학습 미세 조정 프레임워크를 제안합니다. 광범위한 실험을 통해 제안된 모델이 인-도메인, OOD 및 카운터-태스크 데이터에 걸쳐 세 가지 그래프 유형 모두의 구축을 개선함을 보여줍니다.
시간적 품질은 프레임 간 일관된 움직임과 현실적인 동역학을 보장함으로써 비디오 생성의 중요한 측면입니다. 그러나 높은 시간적 일관성과 다양성을 달성하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 비디오 생성에서 시간적 증강을 처음으로 탐구하고, 시간적 품질을 향상시키기 위해 설계된 전략인 FluxFlow를 소개합니다. 데이터 수준에서 작동하는 FluxFlow는 아키텍처 수정 없이도 제어된 시간적 변형을 적용합니다. UCF-101 및 VBench 벤치마크에서의 광범위한 실험을 통해 FluxFlow가 U-Net, DiT, AR 기반 아키텍처를 포함한 다양한 비디오 생성 모델에서 시간적 일관성과 다양성을 크게 향상시키면서도 공간적 충실도를 유지한다는 것을 입증했습니다. 이러한 결과는 시간적 증강이 비디오 생성 품질을 향상시키는 간단하면서도 효과적인 접근법으로서의 잠재력을 강조합니다.
생성 기술의 급속한 발전은 양날의 검으로 등장했습니다. 편의성을 향상시키는 강력한 도구를 제공하는 동시에, 상당한 사회적 우려를 야기하고 있습니다. 현재의 합성 이미지 탐지 방법들은 방어자로서 아티팩트 수준의 텍스트 해석 가능성이 부족하고, 이미지 조작 탐지에 지나치게 초점을 맞추고 있으며, 현재의 데이터셋은 일반적으로 구식 생성기와 세분화된 주석의 부재로 고통받고 있습니다. 본 논문에서는 인간 전문가의 주석이 포함된 12,236개의 완전 합성 이미지로 구성된 고품질 및 다양한 데이터셋인 SynthScars를 소개합니다. 이 데이터셋은 4가지의 구별되는 이미지 콘텐츠 유형, 3가지 범주의 아티팩트, 그리고 픽셀 수준의 세분화, 상세한 텍스트 설명, 아티팩트 범주 레이블을 포함하는 세분화된 주석을 특징으로 합니다. 더 나아가, 아티팩트 탐지, 세분화, 설명을 통합한 멀티모달 대형 언어 모델(MLLM) 기반 이미지 위조 분석 프레임워크인 LEGION(LEarning to Ground and explain for Synthetic Image detectiON)을 제안합니다. 이 능력을 바탕으로, LEGION을 컨트롤러로 탐구하여 이미지 정제 파이프라인에 통합하여 더 높은 품질과 더 현실적인 이미지 생성을 안내합니다. 광범위한 실험을 통해 LEGION이 여러 벤치마크에서 기존 방법들을 능가하며, 특히 SynthScars에서 두 번째로 우수한 전통적 전문가를 mIoU에서 3.31%, F1 점수에서 7.75% 앞서는 것으로 나타났습니다. 또한, 그 지도 하에 생성된 정제된 이미지는 인간의 선호도와 더 강한 일치를 보입니다. 코드, 모델, 데이터셋은 공개될 예정입니다.
대형 언어 모델(LLMs)은 수학적 추론 과제 해결에서 유망한 능력을 보여주며, 답변 생성을 안내하는 중요한 요소로서 사고의 연쇄(Chain-of-Thought, CoT) 데이터를 활용하고 있습니다. 현재의 패러다임은 일반적으로 주어진 문제에 대해 직접 CoT와 답변을 생성하는데, 이는 인간의 문제 해결 전략과 어느 정도 차이가 있습니다. 인간은 종종 유사한 사례를 떠올리고 그 해결책을 활용하여 현재 과제에 대해 추론합니다. 이러한 인지 과정에서 영감을 받아, 우리는 MetaLadder라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 LLM이 대상 문제를 해결하기 전에 구조적 또는 의미적으로 유사한 문제인 메타 문제와 그들의 CoT 해결책을 명시적으로 상기하고 반영하도록 유도합니다. 또한, 문제 재진술 메커니즘을 도입하여 원래 질문을 재생성함으로써 모델이 대상 문제를 더 잘 이해하도록 하여 추론 정확도를 더욱 향상시킵니다. 따라서 모델은 유사 문제로부터의 추론 전달을 달성할 수 있으며, 인간과 같은 "예제로부터 학습" 및 일반화 능력을 모방할 수 있습니다. 수학적 벤치마크에 대한 광범위한 실험을 통해, 우리의 MetaLadder가 LLM의 문제 해결 정확도를 크게 향상시키며, 표준 CoT 기반 방법(10.3% 정확도 향상) 및 기타 방법을 크게 능가함을 입증했습니다. 우리의 코드와 데이터는 https://github.com/LHL3341/MetaLadder에서 공개되었습니다.
시각적 추론은 인간 인지의 핵심으로, 개인이 자신의 환경을 해석하고 추상적으로 이해할 수 있게 합니다. 최근의 다중모달 대형 언어 모델(MLLMs)이 언어 및 시각-언어 작업에서 인상적인 성능을 보여주었지만, 기존 벤치마크는 주로 인식 기반 기술을 측정하며 진정한 시각적 추론 능력을 충분히 평가하지 못하고 있습니다. 이러한 중요한 격차를 해소하기 위해, 우리는 최신 MLLMs의 시각적 추론 능력을 격리하고 엄격하게 평가하기 위해 명시적으로 설계된 벤치마크인 VERIFY를 소개합니다. VERIFY는 모델이 주로 시각 정보에서 추론하도록 강제하며, 도메인 특정 지식과 언어적 편향에 대한 의존을 줄이기 위해 최소한의 텍스트 컨텍스트를 제공합니다. 각 문제는 인간이 주석을 단 추론 경로와 함께 제공되어, 모델의 의사 결정 과정을 심층적으로 평가하는 최초의 벤치마크입니다. 또한, 우리는 단순한 정확도를 넘어 시각적 추론의 충실도를 평가하는 새로운 메트릭을 제안하여, 현재 모델의 추론 패턴에서 중요한 불균형을 강조합니다. 주요 MLLMs에 대한 포괄적인 벤치마킹은 상당한 한계를 드러내며, 지각과 추론 모두에 대한 균형 잡힌 종합적 접근의 필요성을 강조합니다. 더 많은 티저와 테스트를 위해 우리의 프로젝트 페이지(https://verify-eqh.pages.dev/)를 방문하세요.
디퓨전 모델은 이미지 합성에서 뛰어난 성능을 보여왔지만, 학습, 미세 조정 및 추론 과정에서 상당한 계산 및 메모리 자원을 요구합니다. 고급 양자화 기술이 추론 시 메모리 사용량을 최소화하는 데 성공했음에도 불구하고, 이러한 양자화된 모델의 학습과 미세 조정은 여전히 큰 메모리를 필요로 합니다. 이는 정확한 그래디언트 계산을 위한 역양자화 및/또는 그래디언트 기반 알고리즘을 위한 역전파 때문일 수 있습니다. 그러나 메모리 효율적인 미세 조정은 특히 개인화와 같은 애플리케이션에서 매우 바람직합니다. 이러한 애플리케이션은 종종 개인 데이터와 함께 모바일 폰과 같은 엣지 디바이스에서 실행되어야 하기 때문입니다. 본 연구에서는 Textual Inversion을 통해 개인화된 디퓨전 모델을 양자화하고, 역양자화 없이 개인화 토큰에 대해 제로차 최적화를 활용하여 상당한 메모리를 소모하는 역전파를 위한 그래디언트 및 활성화 저장이 필요하지 않도록 함으로써 이 문제를 해결합니다. 개인화에서 단일 또는 소수의 이미지에 대해 제로차 최적화를 사용한 그래디언트 추정은 상당히 노이즈가 많기 때문에, 우리는 과거 토큰의 기록으로 구성된 부분 공간에 추정된 그래디언트를 투영하여 노이즈를 제거하는 방법을 제안합니다. 이를 Subspace Gradient라고 명명합니다. 또한, 우리는 이미지 생성에서 텍스트 임베딩의 영향을 조사하여, 효과적인 디퓨전 타임스텝을 위한 샘플링 방법인 Partial Uniform Timestep Sampling을 제안합니다. 우리의 방법은 Stable Diffusion의 개인화에서 이전 방법들과 비교 가능한 이미지 및 텍스트 정렬 점수를 달성하면서, 순전파만을 사용하여 학습 메모리 요구량을 최대 8.2배까지 줄입니다.
긴 형식의 텍스트 사실성 평가를 위한 Decompose-Then-Verify 패러다임에 대한 현재 연구는 일반적으로 분해와 검증을 독립적으로 다루며, 이들 간의 상호작용과 잠재적인 불일치를 간과하고 있습니다. 우리는 기존의 분해 정책, 즉 일반적으로 수작업으로 제작된 데모가 원자성(atomicity)이라는 새로운 지표(정보 밀도를 정량화하는 지표) 측면에서 하위 검증기와 잘 맞지 않아 최적의 검증 결과를 얻지 못한다는 사실을 발견했습니다. 우리는 최적의 검증을 위한 최적의 분해 정책을 찾는 문제를 이중 최적화 문제로 공식화합니다. 이 강력한 NP-난제에 대한 근사 해를 구하기 위해, 우리는 검증기의 피드백을 활용하여 검증기가 선호하는 원자성으로 클레임을 동적으로 분해하는 정책을 학습하는 강화 학습 프레임워크인 동적 분해(dynamic decomposition)를 제안합니다. 실험 결과, 동적 분해는 다양한 검증기, 데이터셋, 입력 클레임의 원자성에 걸쳐 평균적으로 검증 신뢰도를 0.07, 정확도를 0.12(0-1 척도 기준) 향상시키며 기존 분해 정책을 능가하는 것으로 나타났습니다.
그래픽 사용자 인터페이스를 자율적으로 조작하는 AI 에이전트를 개발하는 것은 오랜 시간 동안 도전적인 과제로 여겨져 왔습니다. 최근 데이터 스케일링 법칙의 발전은 확장된 명령어 세트를 사용하여 컴퓨터 사용 에이전트를 훈련시킬 수 있는 가능성을 제시하지만, 행동 복제를 통해 에이전트를 훈련시키기 위해서는 여전히 방대한 양의 고품질 궤적 데이터가 필요합니다. 이러한 확장성 요구를 충족시키기 위해, 우리는 컴퓨터 사용 에이전트 훈련을 위한 단계 검증 파이프라인인 STEVE를 설계했습니다. 먼저, 컴퓨터 사용 에이전트를 위한 대규모 명령어 세트를 구축하고 일부 최적화되지 않은 에이전트로부터 궤적 데이터를 수집합니다. GPT-4o를 사용하여 각 궤적의 단계별 정확성을 검증하며, 이는 액션 실행 전후의 화면을 기반으로 각 단계에 이진 레이블을 할당합니다. 마지막으로, Kahneman과 Tversky 최적화를 도입하여 이진 단계별 레이블을 기반으로 에이전트를 최적화합니다. 광범위한 실험을 통해 우리의 에이전트가 궤적 내의 긍정적 및 부정적 액션을 모두 활용하여 지도 미세조정을 능가하는 성능을 보임을 입증했습니다. 또한, STEVE는 7B 규모의 시각-언어 모델을 컴퓨터 사용 에이전트로 훈련시켜, 도전적인 실시간 데스크톱 환경인 WinAgentArena에서 선도적인 성능을 달성하면서도 비용을 절감하고 효율성을 크게 향상시켰습니다. 코드와 데이터는 https://github.com/FanbinLu/STEVE에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 에이전트는 실제 작업에서 다중 턴 상호작용을 수행해야 합니다. 그러나 기존의 다중 턴 강화 학습(RL) 알고리즘은 LLM의 일반화 능력을 활용하면서 다중 턴에 걸쳐 효과적인 신용 할당을 수행하지 못하며, 이러한 알고리즘을 개발하는 방법은 여전히 명확하지 않습니다. 이를 연구하기 위해, 우리는 먼저 새로운 벤치마크인 ColBench를 소개합니다. 이 벤치마크에서는 LLM 에이전트가 인간 협력자와 다중 턴에 걸쳐 상호작용하며 백엔드 프로그래밍과 프론트엔드 디자인에서 현실적인 작업을 해결합니다. 이 벤치마크를 기반으로, 우리는 새로운 RL 알고리즘인 SWEET-RL(훈련 시간 정보를 활용한 단계별 평가를 통한 강화 학습)을 제안합니다. 이 알고리즘은 추가적인 훈련 시간 정보에 접근할 수 있는 비평 모델을 훈련하기 위해 신중하게 설계된 최적화 목표를 사용합니다. 비평 모델은 정책 모델을 개선하기 위한 단계별 보상을 제공합니다. 우리의 실험은 SWEET-RL이 ColBench에서 다른 최첨단 다중 턴 RL 알고리즘에 비해 성공률과 승률에서 6%의 절대적 개선을 달성함을 보여주며, Llama-3.1-8B가 현실적인 협업 콘텐츠 생성에서 GPT4-o의 성능을 따라잡거나 능가할 수 있게 합니다.
최근 LLM 사전 학습의 발전은 더 긴 시퀀스를 처리하기 위해 점점 확장되는 컨텍스트 윈도우를 특징으로 하고 있습니다. 그러나 우리의 파일럿 연구에 따르면, 고정된 토큰 예산 하에서 더 짧은 컨텍스트 윈도우로 사전 학습된 모델들이 긴 컨텍스트를 사용한 모델들보다 지속적으로 더 나은 성능을 보였습니다. 이러한 발견은 긴 컨텍스트 처리 능력과 사전 학습 효율성 사이의 균형을 더 잘 맞추기 위한 최적의 컨텍스트 윈도우 스케줄링 전략을 탐구하도록 동기를 부여했습니다. 이를 위해, 우리는 짧은 컨텍스트에서 긴 컨텍스트로의 전환을 구현하는 간단하면서도 효과적인 접근 방식인 SkyLadder를 제안합니다. SkyLadder는 강력한 표준 벤치마크 성능을 유지하면서, 긴 컨텍스트 작업에서 기준선 결과를 맞추거나 능가합니다. 광범위한 실험을 통해, 우리는 100B 토큰에 대해 1B 파라미터 모델(최대 32K 컨텍스트)과 3B 파라미터 모델(8K 컨텍스트)을 사전 학습하여, SkyLadder가 일반 벤치마크에서 최대 3.7%의 일관된 성능 향상을 제공하면서 기준선 대비 최대 22% 더 빠른 학습 속도를 달성함을 입증했습니다. 코드는 https://github.com/sail-sg/SkyLadder에서 확인할 수 있습니다.
우리는 특정 음악 트랙과 동기화된 고품질 댄스 비디오를 생성하기 위한 접근법인 MusicInfuser를 소개합니다. 새로운 멀티모달 오디오-비디오 모델을 설계하고 훈련시키려는 시도 대신, 기존의 비디오 확산 모델이 경량의 음악-비디오 교차 주의 메커니즘과 저랭크 어댑터를 도입함으로써 음악 입력과 정렬되도록 적응할 수 있음을 보여줍니다. 모션 캡처 데이터를 요구하는 기존 연구와 달리, 우리의 접근법은 댄스 비디오에 대해서만 미세 조정을 수행합니다. MusicInfuser는 기본 모델의 유연성과 생성 능력을 유지하면서도 고품질의 음악 기반 비디오 생성을 달성합니다. 우리는 Video-LLMs를 사용하여 댄스 생성 품질의 여러 차원을 평가하기 위한 평가 프레임워크를 도입합니다. 프로젝트 페이지와 코드는 https://susunghong.github.io/MusicInfuser에서 확인할 수 있습니다.
완전한 형태와 모든 객체의 세밀한 텍스처를 포함한 3D 장면의 분해적 재구성은 다운스트림 애플리케이션에 있어 매우 매력적이지만, 특히 희소한 뷰를 입력으로 사용할 때 여전히 어려운 과제로 남아 있습니다. 최근 접근법들은 이 문제를 해결하기 위해 의미론적 또는 기하학적 정규화를 도입했지만, 제약이 부족한 영역에서 심각한 성능 저하를 겪으며 가려진 영역을 복구하지 못합니다. 우리는 이 문제를 해결하기 위한 핵심이 이러한 영역에 대한 누락된 정보를 보완하는 데 있다고 주장합니다. 이를 위해 우리는 DP-Recon을 제안하며, 이는 Score Distillation Sampling (SDS) 형태의 확산 사전 지식을 활용하여 새로운 뷰에서 각 개별 객체의 신경망 표현을 최적화합니다. 이는 제약이 부족한 영역에 추가 정보를 제공하지만, 확산 사전 지식을 직접 통합하면 재구성과 생성적 지도 간의 잠재적 충돌이 발생할 수 있습니다. 따라서 우리는 픽셀 단위의 SDS 손실 가중치를 동적으로 조정하기 위한 가시성 기반 접근법을 추가로 도입합니다. 이러한 구성 요소들은 입력 이미지에 충실하면서도 기하학적 구조와 외관 복구를 모두 향상시킵니다. Replica와 ScanNet++에 걸친 광범위한 실험을 통해 우리의 방법이 SOTA 방법들을 크게 능가함을 입증했습니다. 특히, 10개의 뷰에서의 객체 재구성이 100개의 뷰를 사용한 베이스라인보다 더 나은 성능을 보였습니다. 우리의 방법은 SDS 최적화를 통해 기하학적 구조와 외관에 대한 원활한 텍스트 기반 편집을 가능하게 하며, 포토리얼리스틱 비주얼 효과(VFX) 편집을 지원하는 상세한 UV 맵을 포함한 분해된 객체 메시를 생성합니다. 프로젝트 페이지는 https://dp-recon.github.io/에서 확인할 수 있습니다.
최근 대규모 멀티모달 모델(Large Multi-modal Models, LMMs)의 발전은 주로 오프라인 비디오 이해에 초점을 맞추고 있습니다. 반면, 스트리밍 비디오 이해는 시간에 민감하고, 모든 모달리티를 포함하며, 상호작용적인 특성으로 인해 최근 모델들에게 큰 도전 과제로 남아 있습니다. 본 연구에서는 스트리밍 비디오 이해를 새로운 관점에서 확장하고, 모델이 시각적 콘텐츠를 인식하고 이를 통해 지시를 추출할 수 있어야 하는 새로운 과제인 '시각적 지시 피드백(Visual Instruction Feedback)'을 제안합니다. 예를 들어, 사용자가 에이전트에게 손을 흔들면, 에이전트는 그 제스처를 인식하고 환영 메시지로 대화를 시작해야 합니다. 따라서 시각적 모달리티에서 지시를 따르는 것은 사용자와 에이전트 간의 상호작용을 크게 향상시킵니다. 연구를 촉진하기 위해, 우리는 시각적 모달리티와 밀접하게 관련된 7개의 주요 하위 과제를 정의하고, 학습을 위한 ViSpeak-Instruct 데이터셋과 평가를 위한 ViSpeak-Bench 데이터셋을 수집했습니다. 또한, 다양한 스트리밍 비디오 이해 벤치마크에서 GPT-4o 수준의 성능을 보이는 최첨단 스트리밍 비디오 이해 LMM인 ViSpeak 모델을 제안합니다. ViSpeak-Instruct 데이터셋으로 미세 조정한 후, ViSpeak은 기본적인 시각적 지시 피드백 능력을 갖추게 되어 향후 연구를 위한 견고한 기준선으로서 역할을 합니다.
자동화된 특성 공학은 테이블 형식 학습 작업에서 예측 모델 성능을 향상시키는 데 중요한 역할을 합니다. 전통적인 자동화된 특성 공학 방법은 사전 정의된 변환에 의존하고 수동으로 설계된 고정된 탐색 공간에 제한되어 있어, 종종 도메인 지식을 간과합니다. 최근 대형 언어 모델(LLM)을 활용한 발전으로 인해 도메인 지식을 특성 공학 프로세스에 통합할 수 있게 되었습니다. 그러나 기존의 LLM 기반 접근법은 직접 프롬프팅을 사용하거나 검증 점수만을 기반으로 특성을 선택하여, 이전의 특성 발견 실험에서 얻은 통찰을 활용하거나 특성 생성과 데이터 기반 성능 간의 의미 있는 추론을 확립하지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 LLM-FE라는 새로운 프레임워크를 제안합니다. LLM-FE는 진화 탐색과 LLM의 도메인 지식 및 추론 능력을 결합하여 테이블 형식 학습 작업을 위한 효과적인 특성을 자동으로 발견합니다. LLM-FE는 특성 공학을 프로그램 탐색 문제로 공식화하며, LLM이 반복적으로 새로운 특성 변환 프로그램을 제안하고 데이터 기반 피드백이 탐색 과정을 안내합니다. 우리의 실험 결과는 LLM-FE가 다양한 분류 및 회귀 벤치마크에서 최첨단 기준선을 일관되게 능가하며, 테이블 형식 예측 모델의 성능을 크게 향상시킴을 보여줍니다.
오디오 기반 단일 이미지 말하는 초상화 생성은 가상 현실, 디지털 휴먼 제작, 영화 제작에서 중요한 역할을 합니다. 기존 접근 방식은 일반적으로 키포인트 기반 방법과 이미지 기반 방법으로 분류됩니다. 키포인트 기반 방법은 캐릭터 정체성을 효과적으로 보존하지만, 3D Morphable Model의 고정된 점 제한으로 인해 미세한 얼굴 세부 사항을 포착하는 데 어려움을 겪습니다. 또한, 전통적인 생성 네트워크는 제한된 데이터셋에서 오디오와 키포인트 간의 인과 관계를 설정하는 데 어려움을 겪어, 낮은 포즈 다양성을 초래합니다. 반면, 이미지 기반 접근 방식은 확산 네트워크를 사용하여 다양한 세부 사항을 가진 고품질 초상화를 생성하지만, 정체성 왜곡과 높은 계산 비용이 발생합니다. 본 연구에서는 비지도 학습 암묵적 3D 키포인트와 시공간 확산 모델을 결합한 첫 번째 프레임워크인 KDTalker를 제안합니다. 비지도 학습 암묵적 3D 키포인트를 활용하여 KDTalker는 얼굴 정보 밀도를 조정함으로써 확산 과정이 다양한 머리 포즈를 모델링하고 미세한 얼굴 세부 사항을 유연하게 포착할 수 있도록 합니다. 맞춤 설계된 시공간 주의 메커니즘은 정확한 입술 동기화를 보장하며, 시간적으로 일관된 고품질 애니메이션을 생성하면서 계산 효율성을 향상시킵니다. 실험 결과는 KDTalker가 입술 동기화 정확도, 머리 포즈 다양성, 실행 효율성 측면에서 최첨단 성능을 달성함을 보여줍니다. 우리의 코드는 https://github.com/chaolongy/KDTalker에서 확인할 수 있습니다.
우리는 특수 분야에서 고품질의 합성 훈련 데이터를 생성하기 위한 도메인 주도 프레임워크인 ELTEX(Efficient LLM Token Extraction)를 소개한다. 대규모 언어 모델(LLMs)은 일반적인 능력에서 인상적인 성능을 보여주지만, 사이버보안과 같은 특수 분야에서는 도메인 특화 훈련 데이터의 부족으로 인해 성능이 제한된다. ELTEX는 이러한 문제를 해결하기 위해 명시적 도메인 지표 추출과 동적 프롬프팅을 체계적으로 통합하여 생성 과정 전반에 걸쳐 중요한 도메인 지식을 보존한다. 우리는 블록체인 관련 사이버 공격 탐지 맥락에서 ELTEX의 효과를 입증하며, 실제 데이터와 ELTEX 생성 데이터의 다양한 조합을 사용하여 Gemma-2B를 미세 조정하였다. 실험 결과, ELTEX로 강화된 모델은 표준 분류 지표와 불확실성 보정 측면에서 GPT-4와 경쟁력 있는 성능을 달성하면서도 상당히 적은 계산 자원을 요구한다. 우리는 블록체인에서의 사이버 공격 탐지를 위한 소셜 미디어 텍스트의 정제된 합성 데이터셋을 공개한다. 이 연구는 도메인 주도 합성 데이터 생성이 특수 분야에서 자원 효율적인 모델과 더 큰 아키텍처 간의 성능 격차를 효과적으로 해소할 수 있음을 보여준다.
대규모 언어 모델(LLMs)의 최근 발전은 사고의 연쇄(Chain-of-Thought, CoT) 프롬프팅에서 OpenAI o1과 같은 고급 제품 지향 솔루션으로 진화하며 향상된 추론 능력을 보여주고 있습니다. 이 모델을 재구현하는 과정에서, 우리는 시각적 입력이 필요한 다중모드 작업(예: 기하학 문제)에서 다중모드 LLMs(MLLMs)가 시각 정보에 대한 집중력을 유지하는 데 어려움을 겪는다는 것을 발견했습니다. 즉, MLLMs는 추론이 진행됨에 따라 시각 정보에 대한 주의가 점차 감소하여 텍스트에 과도하게 의존하는 출력을 생성합니다. 이를 조사하기 위해, 우리는 장기 추론 과정에서 이미지 입력을 제거하는 실험을 수행했습니다. 구체적으로, 추론 과정을 중간에 중단한 후 입력 이미지를 제거한 상태에서 추론 과정을 다시 완료했습니다. MathVista의 test-hard 하위 집합에서 약 2%의 정확도 하락만 관찰되었으며, 이는 모델의 텍스트 출력이 이후 추론 과정을 지배한다는 것을 보여줍니다. 이를 바탕으로, 우리는 Take-along Visual Conditioning(TVC)을 제안합니다. 이 전략은 이미지 입력을 중요한 추론 단계로 이동시키고 동적 가지치기를 통해 중복된 시각 토큰을 압축합니다. 이 방법론은 모델이 추론 전반에 걸쳐 시각적 요소에 주의를 유지하도록 돕습니다. 우리의 접근 방식은 다섯 가지 수학적 추론 벤치마크에서 평균적으로 최첨단 성능을 달성하며(+3.4% vs 이전 sota), TVC가 다중모드 추론 시스템을 강화하는 데 효과적임을 입증했습니다.
과학적 문제 해결은 전문 지식을 적용하면서 정보를 종합하는 과정을 포함합니다. 우리는 과학적 문제 해결 및 과학자들의 실제 업무 지원에서 대규모 언어 모델(LLMs)의 잠재력을 측정하기 위해 CURIE(CURIE: 과학적 장문 맥락 이해, 추론 및 정보 추출 벤치마크)를 소개합니다. 이 벤치마크는 재료 과학, 응집 물리학, 양자 컴퓨팅, 지리공간 분석, 생물 다양성, 단백질 등 6개 분야의 전문가들이 선별한 총 580개의 문제와 해결 쌍으로 구성된 10개의 도전적인 과제를 제시합니다. 이 과제들은 과학의 실험적 및 이론적 워크플로우를 모두 다룹니다. 우리는 CURIE의 과제들에 대해 폐쇄형 및 오픈형 LLMs를 평가하며, 이는 도메인 전문 지식, 장문 맥락 정보 이해, 다단계 추론을 요구합니다. Gemini Flash 2.0과 Claude-3는 모든 도메인에서 일관되게 높은 이해력을 보여주는 반면, 인기 있는 GPT-4o와 command-R+는 단백질 서열 분석 과제에서 심각한 실패를 보입니다. 최고 성능이 32%에 불과한 만큼, 모든 모델에 개선의 여지가 많습니다. 우리는 CURIE에서 얻은 통찰이 과학 분야에서 LLMs의 미래 개발을 안내할 수 있기를 바랍니다. 평가 코드와 데이터는 https://github.com/google/curie에서 확인할 수 있습니다.
복잡한 다중 에이전트 환경에서 효율적인 학습과 바람직한 행동을 달성하는 것은 다중 에이전트 강화 학습(MARL) 시스템에게 중요한 과제입니다. 본 연구는 MARL과 대형 언어 모델(LLM)을 결합하여 에이전트가 더 바람직한 행동을 하도록 유도하는 가능성을 탐구합니다. 특히, 다중 에이전트의 학습 궤적을 형성하는 데 LLM이 어떻게 개입을 해석하고 촉진할 수 있는지 조사합니다. 우리는 두 가지 유형의 개입, 즉 컨트롤러를 실험했습니다: 자연어(NL) 컨트롤러와 규칙 기반(RB) 컨트롤러입니다. 인간과 유사한 개입을 시뮬레이션하기 위해 LLM을 사용하는 NL 컨트롤러는 RB 컨트롤러보다 더 강력한 영향을 보였습니다. 우리의 연구 결과는 에이전트가 특히 초기 개입에서 이점을 얻어 더 효율적인 훈련과 더 높은 성능을 달성한다는 것을 나타냅니다. 두 가지 개입 유형 모두 개입이 없는 기준선을 능가하며, 도전적인 환경에서 LLM을 통한 지도가 훈련을 가속화하고 MARL 성능을 향상시킬 수 있는 잠재력을 강조합니다.