NVIDIA Research 通过人工智能,在一瞬间将 2D 平面照片变成 3D 立体场景

当人们在 75 年前使用宝丽来 (Polaroid ) 相机拍摄出世界上第一张即时成像照片时,便是一项以逼真 2D 影像迅速捕捉 3D 世界画面的创举。时至,人工智能 (AI) 研究人员反将此作法倒转过来,亦即在几秒钟内将一组静态影像变成数字 3D 场景。

这项称为逆向渲染 (inverse rendering) 的过程,利用 AI 来预估光线在真实世界中的表现,让研究人员能利用从不同角度拍摄的少量 2D 影像来重建 3D 场景。NVIDIA Research 团队开发出一种方法,几乎能在瞬间内完成这项任务,是同类中首批将超高速神经网络训练与快速渲染相结合的模型之一。

NVIDIA 将该方法应用在一种称为神经辐射场 (Neural Radiance Fields;NeRF) 的热门新技术上,创造出 Instant NeRF 这项当今渲染速度最快的 NeRF 技术,在某些情况下速度可以提升超过 1,000 倍。用数十张静态照片,便能在几秒钟内完成训练模型,再加上拍摄角度的数据,在几十毫秒内即可渲染出生成的 3D 场景。

NVIDIA 绘图研究部门副总裁 David Luebke 表示:「如果说多边形网格这样的传统 3D 表现方式像是向量图形,那么 NeRF 就像是点阵图,它们会密集捕捉光线从物体或场景中辐射出来的方式。从这个意义上来说,Instant NeRF 对 3D 的重要性,不亚于数字相机和 JPEG 压缩技术对 2D 摄影的重要性,其可大幅提升 3D 捕捉与分享的速度、便利性和范围。」

在 NVIDIA GTC 大会议程中展示的 Instant NeRF,可用于为虚拟世界建立化身或场景、以 3D 方式拍摄视频会议的与会者以及所处环境,或是为 3D 数字地图重建场景。

NVIDIA Research 团队为了向早期的宝丽来照片致敬,重现了安迪.沃荷 (Andy Warhol) 拍摄即时成像照片的经典照片,利用 Instant NeRF 将其转变为 3D 场景。

NeRF 是什么?

NeRF 会依照输入的一组 2D 影像,使用神经网络来表现及渲染逼真的 3D 场景。

收集数据再投入 NeRF 的做法,有点类似红毯上的摄影师试着从各个角度拍摄名人身上的华丽服装,而神经网络需要有从场景四周多个位置拍摄的数十张照片,以及每张照片的相机位置等数据支持。

场景里的人或物体若移动,拍摄照片的速度则是愈快愈好。要是在拍摄 2D 影像的过程中,人或物体有过多的移动,AI 便会生成模糊的 3D 场景。

基本上,NeRF 在此时会填补空白处,训练一个小型神经网络,预测从 3D 空间中任何一点朝着任意方向辐射出的光线颜色来重建场景。这项技术甚至能解决当某些照片里的物体被其它照片中的柱子等障碍物遮住时所产生的遮挡问题。

利用 Instant NeRF 将渲染速度提升 1,000 倍

人类天生就会按照一部分所见画面来估算物体的深度和外观,但这对 AI 来说却是一项高难度的任务。

根据画面的複杂性和分辨率,以传统方法建立一个 3D 场景须花费数小时甚至更长的时间。而利用 AI 则可加快处理速度。早期开发的 NeRF 模型在几分钟内便能渲染出无伪影的清晰场景,但仍需数小时进行训练。

然而,Instant NeRF 却大幅缩短了渲染时间,其以 NVIDIA 所开发出的 Multi-resolution Hash Encoding 技术为基础,而这项经过最佳化调整的技术可以在 NVIDIA GPU 上高效运行。研究人员通过一种新的输入编码法,可以利用一个高速运行的微型神经网络来创造高品质的结果。

研究人员使用 NVIDIA CUDA 工具套件与 Tiny CUDA 神经网络函式库来开发此模型。这个小巧的神经网络可以在单一 NVIDIA GPU 上进行训练和运行,并在搭载 NVIDIA Tensor 核心的显卡上有着最高的运行速度。

这项技术可以用于拍摄实体环境物体的 2D 照片或影片,以训练机器人和自动驾驶车来了解这些物体的大小及形状。建筑业与娱乐产业也能使用这项技术,快速为实体环境建立数字画面,创作者便能用它来进行修改和构建。

除了 NeRF,NVIDIA 的研究人员也在探索如何将这种输入编码技术用于加速处理多项 AI 领域的难题,包括强化学习、语言翻译和通用的深度学习演算法。

未经允许不得转载:藤条部落 » NVIDIA Research 通过人工智能,在一瞬间将 2D 平面照片变成 3D 立体场景


深夜美绣视频
已添加在线视频资源,免费欣赏