“UE8M0 FP8是针对即将发布的下一代国产芯片设计。” 这是深度求索公司8月份在新发布新模型DeepSeek V3.1的文档中所留下的一个关键信息。 整个8月下旬,这串“符号”成为国产芯片与算力行业在资本市场狂欢的“财富密码”。然而,对于非行业专业投资者来说,只有一头雾水,很难明白这串略显晦涩的代码到底意味着什么,可以让市场如此兴奋。 “UE8M0 FP8”到底是什么意思?为什么它能引发资本市场对国产芯片的高度关注?而我们又需注意哪些不确定性?21世纪经济报道记者采访了数位AI和算力行业人士,并尝试为这三个问题找到一些解答。 极致的效率追求 首先“UE8M0 FP8”是什么意思? “FP”即“浮点”,是计算机二进制计算的基础单位,与“INT”整数计算相对应,常以科学计数法表达数据,适用于图形处理、科学计算、深度学习等应用场景。“FP8”即代表8位浮点,以此类推,FP16、FP32分别代表16位和32位浮点。而每个浮点位又分别用于记录符号(+、-)、“E”阶数(指数)、“M”尾数(小数)等关键数据信息,“通过科学计数法计算的方式”来记录数据。 所以,“UE8M0 FP8”,即代表无符号、8位指数、0位尾数的参数格式。 一个恰如其分的比喻是,“指数位E”是人工智能丈量世界的尺的刻度,它既能测量微观世界的尘埃,也能丈量宏观世界的山河——但是,它需要符号位和尾数“M”来帮它确认精度。 。而在主流的参数格式FP8、FP16、FP32等中,其主流参数格式对应的指数位分别为4位、5位和8位。 。 其中,“FP32”是科学计算、模型训练和推理的金标准,但因浮点位数高,计算资源耗费巨大,常用“混合”了FP16、FP8的混合精度进行高效化替代。 而“UE8M0”,就仿佛一个“百招会不如一招鲜”的高手,将自己所有的技能点全部聚焦到自己的量程之上,由此达到和FP32同样的数据范围。 “E8M0是用8位表示指数部分,尾数部分为0,所以Scale(标度)的值范围上和FP32差不多,因为FP32也是8位表示指数部分,可以保证量化范围大,有利于模型训练的数值稳定。”前全球头部数据库企业高管许天(化名)告诉记者:“所以我理解E8M0对比FP32速度更快,对比E5M2类的FP8数值范围更大,训练更稳定。” 当然,纯粹的“UE8M0”,自然会以舍弃精度作为代价。但是,由于Transformer架构(一种采用注意力机制的深度学习架构)下的AI大模型,其关键自注意力机制原本就依赖于浮点的大量程,因此 “UE8M0”创造了一种“牺牲局部精度,换取全局稳定”的人工智能计算格式。 “UE8M0 FP8指的是一种为中国市场而特别定制的模型格式,能有效降低计算功耗,基于芯片规格的限制,此格式对中国的芯片厂商比较友好。”Omdia首席分析师苏廉节告诉记者。“相比之下,海外的厂商是直接采用标准的FP,如E3M4或E5M2等。” 为“中国AI+”而生 那么“UE8M0 FP8”为何适用于国产芯片? 毫无疑问,受制于技术积淀时间较短,而基于中国标准的算力生态建设还需完善,因此,国产算力硬件在制程、速率、电耗等标准上存在较大的提升空间。 而采用“UE8M0 FP8”格式深度适配国产芯片,并不仅仅是一项技术上的选择,更是基于国产芯片的发展现状、实际产业需求以及特定应用场景所共同推动的结果。本质上是一次用算法创新弥补硬件短板,用生态协同构建自主路线的战略考量。 比如,国产芯片在先进制程(如7nm及以下)的制造和封装技术上与国际顶尖水平存在差距,直接影响了芯片的算力密度。主流的矩阵乘法和卷积等编码方式需要耗费极大算力以保留精度,而UE8M0的纯指数编码格式,将计算简化为指数移位和加法操作,大幅降低了大量算力负荷。 与此同时,长期以来AI领域由英伟达CUDA生态主导,导致国产芯片往往需要兼容CUDA,且难以充分发挥自身硬件特性,也很难开拓性地建立自己的生态系统。 而“UE8M0”作为一种更加开源、未被单一厂商绑定的格式,可能成为国产芯片重建生态体系的关键。 。 无独有偶,虽然未来“UE8M0 FP8”仍然会基于混合精度模式驱动语言类大模型应用,但是广义的人工智能又绝非“大语言模型”这么简单。比如,在今年年初DeepSeekV2问世之后,不仅人们在生活之中开始处处使用大语言模型交互,而且更多的企事业单位也对DeepSeek进行本地化、私有化部署,并通过语料后训练等用于各种专用用途。 事实上,除大语言模型之外,明确定义的专用用途AI大模型更需具备大量程、高稳定、高效率的算力特点。 比如,常被应用于自动驾驶和人形机器人具身智能的多模态VLA模型,满足高效计算、大内存带宽和极大动态范围的需求,特别是在处理多模态、大规模数据且部署在计算资源受限的边缘设备时,优势明显;而在工业质检、政务文档处理等场景,往往需要低延迟、高准确率的AI模型,并且对成本敏感。 简而言之,在明确定义的专用场景之中,“UE8M0 FP8”能够发挥其高效、稳定的特点,在配合混合参数精度的情况下,很可能是更适合“中国速度”,以及千行百业“AI+”的参数格式。 留意“不确定性” 当然,这个“UE8M0”背后仍然蕴藏着不确定性,如人形机器人精确操作依赖高精度的VLA架构,如原生的中文大语言模型,也需要高精度来显得更为“智慧”。 8月以来,随着DeepSeekV3.1的发布,AI芯片企业寒武纪股价8月涨幅高达110%。 资料显示,寒武纪的算力芯片思元590及可能于未来发布的690系列芯片均原生支持FP8计算,而沐曦、燧原等国产AI芯片厂商也均表态其适配FP8计算。 8月末,阿里巴巴公司也宣称,其即将推出自研的AI算力芯片,并且会适配英伟达的CUDA生态,但未明确其是否适配FP8参数格式。 那么,DeepSeek所预言的下一代FP8芯片究竟归属哪家?21世纪经济报道记者咨询多位业内人士之后,仍未获得进一步的信息。记者获得的绝大部分说法是:各家均没有明确的迹象,显示其使用了“UE8M0 FP8”混合参数模型。 “我认为这是DeepSeek在向国产芯片行业提出自己的标准,”另一位中资全球化数字科技企业高管告诉记者:“这一逻辑的根源是,DeepSeek已经在中国获得了绝对的行业地位和市占率,因此它有能力让芯片厂商根据自己的生态系统去定义芯片设计。” 这位不具名高管还向记者透露,虽然国产芯片对英伟达Hooper架构系列芯片的追赶已初见成效,如寒武纪等公司宣称其新品能力在专用场景下的能力达到H100的80%,但随着英伟达Blackwell系列芯片的推出(其甚至采用了FP4的混合精度架构),以及特供中国B30a系列芯片的发货,国产芯片追赶国际一流芯片能力上仍有较长的路要走。 不过,多数受访专家认为,国内企业芯片最终将获得成功,这需要仰赖其性能具备充分竞争优势。 (文章来源:21世纪经济报道) .appendQr_wrap{border:1px solid #E6E6E6;padding:8px;} .appendQr_normal{float:left;} .appendQr_normal img{width:100px;} .appendQr_normal_txt{float:left;font-size:20px;line-height:100px;padding-left:20px;color:#333;} 海量资讯、精准解读,尽在新浪财经APP
|