从2018年GeForce RTX 20系列发布,到2020年推出GeForce RTX 30系列,NVIDIA保持着两年一大升级的节奏,在不断的预热之后,GeForce RTX 40系列正式发布。首发产品包含GeForce RTX 4090和GeForce RTX 4080两个型号三款产品,用上了NVIDIA与台积电合作定制的4N工艺,性能爆表显然毫无悬念。
那么GeForce RTX 40系列将会有多厉害,又能弄哭多少男孩子?现在,就让我们一探究竟。
全球最速GPU:GeForce RTX 4090
让我们直奔主题,GeForce RTX 4090 GPU是GeForce RTX 40系列的旗舰产品,基于Ada Lovelace架构。在NVIDIA定制的台积电4N工艺下,GeForce RTX 4090 GPU拥有760亿个晶体管、16384个CUDA核心和美光24GB GDDR6X显存。以确保GPU能在4K分辨率的游戏中持续以超过100 FPS运行。
与此同时,GeForce RTX 4090也首次引入了DLSS 3技术,与上一代采用DLSS 2的RTX 3090 Ti相比,DLSS 3能让RTX 4090性能提升4倍。同时黄仁勋表示新GPU在功耗、静音和散热上都做足了功课,RTX 4090将与RTX 3090 Ti功耗持平,为450W。
按照计划,NVIDIA GeForce RTX 4090将于10月12日上市,建议零售价12999元起。
双版本加持:GeForce RTX 4080
通过显存进行产品定位区分似乎成了一种新途径。GeForce RTX 4080首发便分成两个版本,即GeForce RTX 4080 16GB和GeForce RTX 4080 12GB。两块GPU均使用美光GDDR6X显存,但要注意细节规格也有所不同。
其中GeForce RTX 4080 16GB拥有9728个CUDA核心,NVIDIA表示游戏性能可达GeForce RTX 3080 Ti的2倍。同时得益于台积电4N工艺,GeForce RTX 4080 16GB低功率下的表现甚至强于GeForce RTX 3090 Ti。
GeForce RTX 4080 12GB拥有7680个CUDA核心,低功耗仍然强于RTX 3090 Ti。
GeForce RTX 4080 16GB和GeForce RTX 4080 12GB将于11月上市,起始售价分别为9499元和7199元。
Ada Lovelace架构立功了
虽然黄仁勋现场留给GeForce RTX 40系列GPU的介绍不多,但是还是着重介绍了Ada Lovelace架构给GPU带来的几个重要的变化。
流式多处理器(Streaming Multiprocessors,SM)拥有了新的变化,开始具备最高90 TFLOPS的性能,吞吐量是上一代Ampere架构的2倍。
同时NVIDIA引入了一套全新的着色器执行重排序(SER)技术,你可以将其理解为GPU的乱序执行,通过即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源。作为与CPU的乱序执行一样的重大创新,SER为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。
第三代RT Core拥有了全新变化,拥有2倍的射线三角形相交吞吐量,有效光线追踪计算能力达到191 TFLOPS,是上一代产品的2.8倍。
具体的说,第三代RT Cores包含了两个全新硬件单元,即使Opacity Micromap和Micro-Mesh引擎。其中Opacity Micromap引擎将光线追踪的Alpha-Test几何性能提升2倍;而全新的Micro-Mesh引擎可动态生成微网格,以产生额外的几何图形。Micro-Mesh引擎可在提升几何图形丰富度的同时,不以传统复杂几何图形处理的性能和存储成本为代价。
以近期重新火爆的《赛博朋克2077》进行比较,如果对对每个像素执行超过600次光线追踪计算来确定光照,这与四年前推出的首批光线追踪游戏相比,提升达16倍。
黄仁勋表示,着色器执行重排序(SER)的引入能够更好的利用一致性来提升着色器的执行效率,从而减少了光线追踪技术在GPU上低效率的问题,因此Ada Lovelace的实时光线追踪性能也将比前一代更好。
DLSS 3将成为杀手锏
接下来是提升游戏帧率杀手锏DLSS,与常年来小版本更新不同,这一次DLSS直接升级到了DLSS 3,并将围绕如何在不破坏性能的前提下获得4K乃至更高分辨率的图像。
NVIDIA表示DLSS 3是一种全新的AI解决方案,它厉害的地方在于可以生成整个帧,而不仅仅是图像中的部分像素。换而言之,之前的DLSS局限于同一帧下图像的细节,现在DLSS 3将考虑到前后帧的变化趋势。
其实通过软硬件插值提升元器件特定环境下的性能并不稀奇,稀奇的是通过AI的形式剥渲染后,仍然能产生有效帧是相当厉害的。也因为如此,DLSS 3能够帮助游戏性能提升4倍。
在技术构成上,DLSS 3由第四代Tensor Core和全新的光流加速器实现。其中第四代Tensor Cores具有高达1.32 Petaflops的FP8张量处理性能,超过上一代使用FP8加速性能的5倍。
全新的光流加速器如前面所说,可分析两帧连续的游戏图像,并计算帧到帧中物体和元素的运动矢量数据,而不使用传统游戏引擎的运动矢量进行建模。这极大地减少了AI在渲染诸如粒子、反射、阴影和光照等元素时的视觉异常。
通过综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,就能计算生成出新的一帧,这在实时游戏渲染中是首次实现。将DLSS生成的全新帧与DLSS超级分辨率帧相结合,使DLSS 3能用AI重建八分之七的显示像素,与没有DLSS相比,游戏性能提升了4倍。
由于DLSS生成帧在GPU上作为后处理执行,即使游戏受到CPU性能限制,也能从中获得游戏性能提升。对于受到CPU限制的游戏,例如物理计算密集型游戏或大型场景游戏,DLSS 3 令GeForce RTX 40系列GPU以高达两倍于CPU可计算的性能渲染游戏。
同时,DLSS 3也直接集成了NVIDIA Reflex技术,确保GPU和CPU同步,通过降低系统延迟获得更高的电竞操作效率,这也已经是主流电竞游戏的标配。
除吃之外,DLSS 3已经获得了包括《黑神话:悟空》、《光明记忆: 无限》、《赛博朋克2077》、、《霍格沃茨: 遗产》、《微软模拟飞行》、《战锤40K: 暗潮》、《F1 22》等35款以上游戏支持,并且NVIDIA Omniverse、NVIDIA Racer RTX、寒霜引擎也已经提供对DLSS 3的支持。
如同手机界的计算摄影,游戏行业脱离渲染的计算帧普及也将离我们不远了。
创作再升级
最后NVIDIA也不忘强调GeForce RTX 40系列的创作性能,以及NVIDIA Studio带来的变化。新GPU使用的双NVIDIA编码器(NVENC)将输出时间至多缩短一半,并支持AV1。OBS、Blackmagic Design DaVinci Resolve、Discord以及更多的公司都已在采用NVENC AV1编码器。
视频编辑和直播也因GPU性能的提升和全新第八代编码器中AV1的加入而得以提升。NVIDIA Broadcast软件开发工具包有三个更新,包括面部表情预估,眼神追踪,以及虚拟绿幕的质量改进。
同时NVIDIA Omniverse还将增加一个特别的MOD平台,NVIDIA RTX Remix。RTX Remix允许MOD爱好者轻松捕捉游戏素材,利用强大的AI工具自动增强材质,并通过光线追踪和DLSS快速将游戏RTX化。比如喜闻乐见的《上古卷轴》系列,或者《传送门》RTX版。
其中《传送门》RTX版是NVIDIA Lightspeed Studios利用RTX Remix重新设计的游戏,在11月份将作为免费DLC供玩家下载。在未来,游戏玩家以及游戏工作室都可以利用RTX Remix实现对老游戏的翻新,让其获得RTX和高画质体验。
当然这并不是GeForce RTX 40系列的全部细节,按照惯例,NVIDIA将会向专业媒体公布更多Ada Lovelace架构的更多内容,由于爱极物也受邀在列,我们也会在第一时间放出Ada Lovelace架构和GeForce RTX 40系列的全面解析。
而对于游戏玩家而言,下面10月的NVIDIA GeForce RTX 4090和11月的NVIDIA GeForce RTX 4080 16GB和NVIDIA GeForce RTX 4080 12GB将是考验钱包的关键时刻,到时候如何秀翻周围的游戏小伙伴,就全看钱包实力了。
在新GPU发布的同时,包括七彩虹、耕升、影驰、技嘉、映众、微星和索泰在内的GPU厂商也已经宣布推出标频版和超频版显卡,比如七彩虹推出了iGame Vulcan、iGame Neptune、iGame Advanced & iGame Ultra等诸多系列,战斧系列也更新至绝地战斧。
Copyright © 2002-2023 南京文禹信科技发展有限公司 版权所有 备案号:苏ICP备2023003571号 苏公网安备32010202010091