AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效beat365亚洲体育在线官网增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected];[email protected]本文一作汤轶文本科结业于上海科技年夜学,导师是李学龙教学,在上海人工智能试验室练习。他的研讨兴致是 3D 视觉,年夜模子高效迁徙,多模态年夜模子跟具身智能等。重要任务有 Any2Point, Point-PEFT, ViewRefer 等。
论文题目: Exploring the Potential of Encoder-free Architectures in 3D LMMs作者单元:上海人工智能试验室,东南产业年夜学,喷鼻港中文年夜学,清华年夜学代码链接:https://github.com/Ivan-Tang-3D/ENEL论文链接:https://arxiv.org/pdf/2502.09620v1很多近期的研讨努力于开辟年夜型多模态模子(LMMs),使 LLMs 可能解读多模态信息,如 2D 图像(LLaVA)跟 3D 点云(Point-LLM, PointLLM, ShapeLLM)。主流的 LMM 平日是依附于强盛但盘算量年夜的多模态编码器(比方,2D 的 CLIP 跟 3D 的 I2P-MAE)。固然这些预练习编码器供给了强盛的多模态嵌入,富含事后存在的常识,但它们也带来了挑衅,包含无奈顺应差别的点云辨别率,以及编码器提取的点云特点无奈满意年夜言语模子的语义需要。因而,作者初次片面研讨了无编码器架构在 3D 年夜型多模态模子中利用的潜力,将 3D 编码器的功效直接整合到 LLM 自身。终极,他们展现了首个无编码器架构的 3D LMM—ENEL,其 7B 模子与以后开始进的 ShapeLLM-13B 相媲美,标明无编码器架构的宏大潜力。配景跟念头
对 3D LMMs,基于编码器的架构有以下潜伏毛病:点云辨别率限度:3D 编码器平日在牢固辨别率的点云数据长进行预练习,比方 PointLLM 的编码器 Point-BERT 应用 1,024 个点。但是,在推理进程中,输入点云的辨别率可能会有所差别(比方,8,192 个点或 512 个点)。练习跟推理辨别率之间的差别可能招致在提取 3D 嵌入时丧失空间信息,从而使 LLMs 懂得变得艰苦。如(a)所示,PointLLM 在差别的点云辨别率输入下机能差别过年夜,而咱们提出的 ENEL 表现出了必定的鲁棒性。嵌入语义差别:3D 编码器平日采取自监视方式(如掩码进修跟对照进修)停止预练习,但 3D 编码器跟年夜言语模子的练习分别招致练习目的可能与 LLMs 的特定语义需要纷歧致,无奈捕获到 LLMs 懂得 3D 物体所需的最相干语义。即便应用投影层将 3D 编码器与 LLMs 衔接,简略的 MLP 也每每缺乏以停止完整的语义转换。如图(b)所示,ENEL 架构中 text token 更能存眷到点云物体的要害部位,如椅脚跟机翼。详细计划作者抉择 PointLLM 作为基准模子停止摸索,并应用 GPT-4 评分尺度在 Objaverse 数据集上评价差别战略的表示。在无编码器构造的摸索中他们提出以下两个成绩:怎样补充 3D 编码器最初提取的高档次 3D 语义?在 3D LMMs 中,完整跳过编码器会招致难以捕获 3皇冠app最新版本下载D 点云的庞杂空间构造。怎样将演绎偏置整合到 LLM 中,以便更好地感知 3D 多少何构造?传统的 3D 编码器平日将显式的演绎偏置嵌入到其架构中,以逐渐捕获多档次的 3D 多少何。比方,像 Point-M2AE 如许的模子应用部分到全局的档次构造,这一律念在 2D 图像处置的卷积层中也很罕见。

