每日资讯：腾讯汤道生：大模型训练对网络速度与稳定性要求很高

来源：互联网时间：2023-06-21 14:57:35

【资料图】

据腾讯官微，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示，在大模型的训练和使用过程中，需要大量异构算力的支持，对网络速度与稳定性要求也很高，加上GPU服务器比一般服务器稳定性更低一些，服务器的运维、问题的排查更频繁，整体运维的难度与工作量会高很多。在训练集群中，一旦网络有波动，训练的速度就会受到很大的影响；只要一台服务器过热宕机，整个集群都可能要停下来，然后训练任务要重启，这些问题会使得训练时间大大增加，投入在大模型的成本也会飙升。

本文到此结束，希望对大家有所帮助。

X 关闭