
机器人看得见西藏家具封边胶价格,但不定看得准。
大量 VLA 模型仍然主要依赖二维视觉,旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务,成功率就会明显下滑。
补空间信息的路有两条,但都有代价。
显式 3D 路线靠度传感器和点云重建,硬件链路长、对标定误差敏感;隐式 3D 路线从 RGB 学几何,省了硬件,但不少案依赖较重的基础模型,训练和理成本偏。
现在,上海交大 MINT 团队提出了条中间路线 :
Evo-Depth,约0.9B参数,不额外增加硬件负担,用紧凑的隐式度编码把空间感写进 VLA 策略里,仿真与真机同时兼顾能与部署率。
仿真端,Meta-World 84.4、LIBERO 95.4;真机平均成功率约 90;部署侧约 3.2 GB 显存、约 12.3 Hz 理频率。
代码、权重、训练脚本已开源。
轻量、可端到端训练
直入主题西藏家具封边胶价格,Evo-Depth 的核心思路是 :
从多视角 RGB 提取紧凑的隐式度表征,再以轻量式融入视觉 - 语言通路,后通过 flow-matching 动作输出连续动作。
整个系统主要由三部分组成 :
1、IDEM:Implicit Depth Encoding Module。
IDEM 负责从多视角图像中提取隐式度特征,强调空间布局与相对几何关系,而不是显式生成成本的 3D 中间表示。
论文中,IDEM 骨干约 0.13B 参数,保温护角专用胶并结多视角度预训练初始化,在轻量条件下引入与度相关的归纳偏置。
2、SEM:Spatial Enhancement Module。
SEM 将隐式度作为种调制信号,用于增强视觉 - 语言表征。
相比直接增加立度分支,这种融式克制 :
原有 VLM 继续负责语义理解西藏家具封边胶价格
度特征主要负责空间增强
同时尽量控制延迟与显存开销
3、Progressive Alignment Training。
多模块联训练通常容易出现优化不稳定的问题。
为此,作者采用 Progressive Alignment Training,通过分阶段训练式逐步完成:度表征对齐 - 多模态融 - 动作学习。
动作头则采用了当前 VLA 中较常见的 flow-matching 路线。
在约 0.9B 总参数设置下,论文报告的结果如下。
仿真:Meta-World 84.4、VLA-Arena 41.1、LIBERO 95.4、LIBERO-Plus 69.6。
真机:平均成功率约 90。
部署:约 3.2 GB GPU 显存、约 12.3 Hz 理频率西藏家具封边胶价格。
值得注意的是,相比只关注 benchmark 分数,论文也给出了部署侧开销与实时指标。
对于需要真正运行在机器人控制回路中的 VLA 来说,这部分信息往往同样重要。
能 - 成本 - 实时的折中
归根结底,Evo-Depth 解决的问题其实就是句话:
如何在不显著增加系统负担的情况下,提升 VLA 的空间能力。
结果是——相比纯二维 VLA,它补充了空间信息;相比重的 3D 路线,它又尽量保留了部署率。
对于正在做机器人操作、空间智能或 VLA 系统的团队来说,这类能 - 成本 - 实时之间的折中案,可能会越来越重要。
官仓库:https://github.com/MINT-SJTU/Evo-Depth
模型权重:https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO
键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
奥力斯 万能胶生产厂家 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �
感兴趣的小伙伴欢迎关注 � � 了解详情
� � 点亮星标 � �
科技前沿进展每日见
相关词条:铝皮保温 隔热条设备 钢绞线厂家玻璃棉 泡沫板橡塑板专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定西藏家具封边胶价格,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

