我在谷歌的新AI世界生成器中建造了棉花糖城堡
从周四开始,美国的谷歌AI Ultra订阅者可以试用Project Genie,它由谷歌最新的世界模型Genie 3、图像生成模型Nano Banana Pro和Gemini组合驱动。结果是介于梦想和视频游戏之间的东西。
提示语似乎很简单:"一个带有棉花糖云朵和巧克力河流的浮动岛屿上的棉花糖城堡。"但谷歌Project Genie生成的不仅仅是图像——它是一个完整的世界。一个我可以探索的三维空间,具有合理的物理效果(棉花糖以令人满意的方式弹跳)和我甚至没有要求的细节(小橡皮糖村民,太妃糖吊桥)。
这就是Project Genie的承诺,谷歌的新AI世界生成器于周四向AI Ultra订阅者推出。它不仅仅是图像生成或3D建模——它是一个文本到世界的系统,创建可以探索、修改和共享的交互式环境。这要么是创意计算的未来,要么是我们拥有太多计算能力的迹象。
如何工作
Project Genie结合了三种不同的谷歌AI模型。Genie 3是世界模型——它理解物理、空间关系以及对象如何交互。Nano Banana Pro处理视觉效果,实时生成纹理和几何形状。Gemini提供语言理解,将您的文本提示转化为世界规范。
当您输入提示语时,系统首先生成一个基础世界——地形、照明、基本对象。然后根据您的描述细化细节。最后,应用物理和交互规则。整个过程大约需要10-15秒,具体取决于世界复杂性。
您创建的世界是完全可探索的。您可以四处走动、从头顶飞行或调整摄像机角度。对象对交互做出响应——门打开,水流,球滚动。这不是完整的游戏引擎真实感,但对于AI生成的内容来说令人惊讶地令人信服。
"目标是使世界创建像写句子一样简单。您不应该需要3D建模技能或游戏开发经验来使您的想象成真。"
亲身体验
生成我的棉花糖城堡后,我开始实验。如果我添加一条龙会怎样?Genie添加了一个鳞片生物——但它是由橡皮糖制成的,符合糖果主题。天气呢?系统生成"糖屑风暴"而不是雨。AI推断出一连贯的美学,即使我没有明确要求也能保持。
我尝试了一些更现实的东西:夜晚的黑色电影城市景观。Genie生成了雨水浸湿的街道,霓虹灯在水坑中反射,以及阴影小巷。氛围出奇地有效。我添加了一个侦探角色,系统用讲述故事的细节填充了世界——走私货物箱、闪烁的路灯、风中吹动的纸张。
当我尝试更雄心勃勃的东西时,局限性变得明显。我要求一个带有移动齿轮的运转时钟塔。外观很好,但齿轮实际上不动——物理模拟没有那么复杂。我要求一台我可以使用的运转电脑,系统生成了一台看起来逼真的PC,但它不起作用。
这些局限性是有道理的。Project Genie不是游戏引擎——它是世界的AI近似。视觉效果和基本交互效果很好,但复杂的机械系统超出了其当前能力。
创意潜力
尽管存在局限性,创意潜力是巨大的。作家可以为他们的故事生成场景并视觉地探索它们。游戏开发者可以无需从头开始构建资产来原型化环境。教育工作者可以为学生创建历史设置以供探索。建筑师可以快速可视化空间并迭代设计。
谷歌将Project Genie定位为创意工具而非专业3D软件的替代品。您生成的世界可以导出为标准格式并导入到Blender或Unity等工具中以供进一步细化。这种工作流可以通过提供起点而非空白画布来大幅加速创意项目。
共享功能同样重要。生成的世界可以通过链接共享,允许其他人探索您创建的内容。鼓励混音——用户可以复制世界并修改它,创建迭代创意链。这种社交维度可能使Genie成为协作世界构建的平台。
技术挑战
运行Project Genie需要大量的计算资源,这就是为什么它仅限于AI Ultra订阅者。世界不是预渲染的——它们在您探索时实时生成。这意味着您的设备不断运行AI模型来创建几何、纹理和物理。
谷歌通过云处理和本地计算的组合优化了系统。初始世界生成在云端进行,但探索和交互在本地处理以减少延迟。系统还使用预测缓存,在您实际访问之前生成世界的可能区域。
计算需求对用户可以创建的世界类型有影响。世界大小、对象数量和复杂性有限制。免费用户获得基本生成,而Ultra订阅者可以创建更大、更详细的世界。这种分层方法让谷歌管理成本,同时使技术易于访问。
隐私和安全
谷歌在世界生成方面实施了大量保护措施。对真实地点的真实描绘受到限制。暴力或露骨内容被阻止。系统避免生成受版权保护的角色或设置。
还有隐私考虑。您生成的世界由谷歌服务器处理,至少最初是这样。公司表示不会在未经明确许可的情况下使用生成的世界进行训练,但隐私政策允许"服务改进"使用,一些用户可能认为这很模糊。
对于交互世界,安全特别复杂。与静态图像不同,世界可能包含用户可能不会立即发现的隐藏细节。谷歌正在使用AI审核和人工审核的组合来捕捉有问题内容,但内容审核的猫鼠游戏性质表明一些问题不可避免地会漏掉。
接下来会发生什么
Project Genie朝着一些研究人员称之为"空间计算"的方向迈出了重要一步——在三维而非通过屏幕与计算机交互。随着VR和AR耳机变得更常见,生成3D内容的工具将变得越来越有价值。
谷歌暗示今年晚些时候将推出更先进的功能,包括多个用户可以探索和构建的多玩家世界、与谷歌地图集成以获得真实世界位置,以及更复杂的物理模拟。公司还在探索整合声音生成的方法,创造完整的感官体验。
目前,Project Genie是一个了不起但有些有限的玩具。我的棉花糖城堡令人愉快,但我不确定现在我已经建好了它要做什么。技术令人印象深刻,但用例仍在出现。与许多AI工具一样,最有趣的应用可能是用户发现的而不是谷歌预期的。
也就是说,描述一个世界然后能够在其中四处走动,这确实有一些神奇之处。感觉像超能力——或者也许只是我们失去的童年想象力,通过神经网络和GPU回归。无论Project Genie成为基本的创意工具还是仍然是一个迷人的新奇事物,它都是对未来的迷人一瞥,在这个未来中,我们的思想可以通过简单的提示语成为世界。