有人说,我做一款AI芯片,只要原生支持PyTorch就好了呀,用户直接用PyTorch跑模型,根本接触不到CUDA呀。
没错,一般的用户只要在PyTorch层面做应用,但是总是有新的模型架构出来,这些架构都需要做特定的性能优化才能在一个芯片上得到较高的性能,这时候就涉及到算子开发了。
比如说一开始LLM在GPU上的性能不好,后来社区针对Nvidia GPU做了flash attention等的优化才把LLM的性能提升到了比较可观的程度。
CUDA已经被各种开源AI框…。
作为一个服务器,node.js 是性能最高的吗?
为什么董明珠攻击小米空调,而公牛却没有攻击小米插座?
你自己觉得自己的身材好吗?
月薪一万在南宁能过什么样的生活?
儿子抑郁四年左右了,他的未来该怎么办?
吴柳芳的真实水平如何?
互联网研发运维都必用的Nginx到底是什么呢?
中美贸易协定取得重大突破!美股暴涨!美国近期宣布与多个经济体将达成实质贸易协定,对此你怎么看?
大龄剩女到底要不要妥协结婚?
为什么供应链,只有小米雷军做得好,其他人做不好?
电话:
座机:
邮箱:
地址: