有一个巨大的问题,根据我的研究,它的增长不是线性的。
“我大约计算过,实际的增长曲线就不说了,很复杂,但大约可以简化为这个函数:y=c·log(e)·(X+1)。
“这里边y指的是性能,X你们就姑且理解为算力堆积的基本单位,大约趋势如下图。”
就算是对数学再不懂的人,看到这个公式也该看出来了,因为这个函数的曲线到最后,几乎就是一条平平的横线。
也就是说,当显卡堆积达到一定规模之后,就算再堆积硬件,性能虽然也会增加,但增加的也会十分有限,到最后甚至肉眼都不可见了。
这么说着,孙博还举例道:“以现在的GPT4为例,如果想要一个2倍GPT4参数的大模型,对算力的需求大约会是多少呢?
“我计算过,大约需要十几倍。而且公式计算的只是理论效果,而更大规模的集群,片间互联的损失肯定也会更大,实际效果只会更差。”
孙博很是热情,只要不涉及他自己工作的机密和核心,只要他在的时候,那几乎是有问必答的。
纪弘也正好翻看到这儿,他没有过多的惊讶,片间互联损失这一块儿本身就不好解决,要不然超大规模智算中心也不至于这么稀有了——河州大学搞的那个还是纯国产第一例。
“按你这么说,微软这孤注一掷的效果,不一定会好啊!”有人这么回了一句。
“效果不好是一定的,花费两倍的价格,可能能得到1.5倍的性能,最多也就如此了,想要赶上耳语的能力,我觉得不大行。
“其实OpenAI自己肯定也清楚,GPT4乃至后续没有发布的4.5版本,之所以没这么堆规模,就是在卡能效比的两个节点。
“再堆规模下去,性价比会越来越低不高。但现在不是被耳语逼的没办法了吗?”
孙博本就是研究前沿理论的,现有模型的理论上限他清楚的很,哪个算力节点卡一下性价比最高他大约也都清楚。
到了一定程度,盲目的加规模肯定得不偿失。除非迫不得已,一般不会这么干的。
纪弘一边看着孙博的回复,一边分析这个人,越分析越是感兴趣了——这是一个有真材实料的理论家。
“如果能挖来卷耳科技,将会是一个巨大的臂助。”
……
纪弘在念叨孙博的时候,孙博也在念叨他——起因就是纪弘发的那个私信。
“最优化理论的
本章未完,请点击下一页继续阅读!