华体会平台官网电话


华体会平台官网电话:英伟达新型 AI 模型将静态图像变为 3D 模型 可用于训练自动驾驶汽车

2022-08-02 11:38:46 |来源:hth华体会最新网站 作者:hth华体会网页版

  盖世汽车讯 英伟达又为浅层图形增加了深度。在将 2D 图像转换为 3D 场景、模型和视频之后,该公司将重点转向了编辑。据外媒报道,当地时间 6 月 22 日,该家 GPU 巨头公布了一种新型 AI 方法,能够将静态图片转变成创造者可以轻松修改的 3D 物体。英伟达的研究人员研发了一种反向渲染产品——英伟达 3D MoMa,能够让用户将一系列静态照片重建成有关一个物体甚至一个场景的 3D 计算机模型。与更为传统的摄影制图法相比,该工作流程的主要益处在于其能够输出干净的 3D 模型,还能够通过 3D 游戏和视觉引擎导入和输出。

  据报道,其他摄影制图程序能够将 3D 图像转变为 3D 模型,而英伟达的 3D MoMa 技术则更进一步,通过创建物体的网格、材料和照明信息,并将其输出为与现有 3D 图形和建模工具可兼容的格式,而且都能够在较短的时间内完成。英伟达表示,3D MoMa 能够在一个小时内,采用单个的英伟达 Tensor Core GPU 生成三角网格模型。

  英伟达图形研究副总裁 David Luebke 表示: 通过将反向渲染问题的每一个部分当作 GPU 加速可微组件来打造,英伟达 3D MoMa 渲染工具采用现代 AI 机器以及英伟达 GPU 的原始计算能力来快速生成 3D 物体,而且创作者可以在现有的工具中不受限制地对输入、编辑和扩展该 3D 物体。

  英伟达表示,该项技术是首批将超快神经网络训练和快速渲染结合的模型之一。英伟达此前在博客中提到,即时 NeRF 可以在几秒钟内学习一个高分辨率的 3D 场景,还能够在几毫秒内渲染该场景的图像。而 3D MoMa 则比 NeRF 还要快上 1000 多倍。

  据英伟达所说,NeRF 采用神经网络基于 2D 图像来表现和渲染 3D 场景。收集数据输入到 NeRF 有点像一个红毯摄影师试图从各个角度捕捉明星的穿着,该神经网络也需要从场景周围以及的多个镜头位置拍摄几十张照片。

  在包含人或其他移动元素的场景中,此类镜头捕捉得越快,越好。如果在 2D 图像捕捉过程中有太多的移动过程,AI 生成的 3D 场景就会很模糊。因此,NeRF 基本就可以弥补这一点,其训练了一个小的神经网络,通过预测 3D 空间的任何一点向任意方向辐射的光的颜色来重建该场景。该技术甚至可以在遮挡物周围工作,即物体在某些图像中被柱子等障碍物遮挡时。

  该技术可用于训练机器人和自动驾驶汽车,通过捕捉 2D 图像或视频片段,来了解真实世界物体的尺寸和形状。其还可用于建筑和娱乐,快速生成真实环节的数字化表现形式,而且创作者可以在此基础上修改和构建。除了 NeRF 外,英伟达的研究人员还在探索如何将此种输入编码技术用于加速多种 AI 应用,如强化学习、语言翻译以及通用深度学习算法。