Google Research推出了DreamFusion,这是一种从文本提示生成 3D 模型的新方法。

该方法将文本到 2D 图像的扩散模型与神经辐射场 (NeRF) 相结合,生成质量适合用于 AR 项目或作为雕刻的基础网格的纹理 3D 模型。至关重要的是,它不需要一组真实的 3D 模型来用作训练数据——这可能为开发实用的、大众市场的基于 AI 的文本到 3D 工具铺平了道路。

DreamFusion 将文本描述转换为带纹理的 3D 模型 DreamFusion

由 Google Research 和加州大学伯克利分校的一个团队开发,从文本描述中生成 3D 模型,例如“一只穿着和服演奏萨克斯管的高度详细的松鼠金属雕塑”。除了 3D 模型的几何形状外,文本还定义了它的材料和纹理——您可以在在线演示中尝试将“金属雕塑”替换为“木雕”或“数码单反相机”。

结合神经辐射场和二维扩散

为了生成模型,DreamFusion 结合了两种关键方法:神经辐射场和二维扩散。它逐步改进初始的随机 3D 模型,以匹配从不同角度显示目标对象的 2D 参考图像:现有 AI 模型(如 Nvidia 的Instant NeRF )使用的方法。然而,与 Instant NeRF 不同,参考不是​​真实物体的照片,而是由 OpenAI 的DALL-E 2和 Stability.ai 的Stable Diffusion使用的类型的 2D 文本到图像模型生成的合成图像。在这种情况下,2D 扩散模型是 Google 自己的Imagen,但总体结果是相同的:生成的 3D 模型与原始文本描述生成的 2D 参考图像相匹配。

仍然只是一个研究演示

目前,使用 DreamFusion 的机会相当有限。该项目的 GitHub 页面允许您从一系列预设文本提示中进行选择,然后显示生成的 3D 模型,但不允许您输入自己的文本描述。资产本身的分辨率也相当低。DreamFusion 的在线画廊展示了一系列 .glb 格式的模型,它们看起来适合在 AR 项目中使用,或者作为可以手动细化以用于更高细节工作的基础网格。

为新一代商业文本到 3D 工具铺平道路?

然而,像 DreamFusion 这样的研究项目的真正意义不在于他们目前能做什么,而在于他们如何为开发更实用的工具开辟道路。虽然像 DALL-E 2 这样的 2D 扩散模型是在从互联网上抓取的 2D 图像上训练的,但对 3D 做同样的事情要困难得多。正如 DreamFusion 的摘要所说:“将这种方法应用于 3D 合成将需要标记 3D 资产的大规模数据集和有效的 3D 数据去噪[方法],目前这两者都不存在。”通过消除对此类大规模 3D 数据集的需求,DreamFusion 提出了新一波生成 AI 艺术工具的可能性,但针对 3D 模型,而不是 2D 图像。

鉴于像 DALL-E 这样的 2D AI 艺术工具从最初发布到大规模公开发布不到两年,它们的出现可能比你想象的要早得多。

在项目的 GitHub 页面上阅读有关 DreamFusion 的更多信息
(仅限研究论文和演示模型:没有实际代码)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。