中国初创企业开发低成本大模型性能比拟ChatGPT

18SZ图片处理

（香港综合讯）中国一家初创企业成功以较低成本开发出能比拟ChatGPT的大语言模型（LLM）。

总部位于杭州的DeepSeek星期四（12月26日）在微信公众号称，DeepSeek-V3在多项评测成绩中超越了meta开发的Llama-3.1，并在性能上与OpenAI开发的闭源模型GPT-4o不分伯仲。

18SZ图片处理

据《南华早报》报道，在较高性价比的新训练架构下，DeepSeek的训练成本仅558万美元，训练时长仅两个月，远低于GPT-4o逾1亿美元的成本及约三个月的训练时长。

DeepSeek在训练过程中仅使用2048个英伟达为中国市场定制的H800晶片，而据估算GPT-4o至少使用了上万个更先进的H100晶片来训练。美国禁止向中国出口H100晶片。

上海计划明年底建成世界级人工智能产业生态

18SZ图片处理

中国上海市发布人工智能实施方案，计划到2025年底建成世界级人工智能产业生态。

上海市政府官网星期五（12月27日）发布《关于人工智能“模塑申城”的实施方案》。

根据方案，上海计划到2025年年底，建成世界级人工智能产业生态，力争全市智能算力规模突破100EFLOPS（EFLOPS是指每秒进行百亿亿次浮点运算），形成50个左右具有显著成效的行业开放语料库示范应用成果，建设三至五个大模型创新加速孵化器，建成一批上下游协同的赋能中心和垂直模型训练场。

18SZ图片处理

方案共22条，其中对人工智能关键生产力工具的打造以及人工智能在重点垂直领域的应用有明确规划。

在“加快关键生产力工具打造”上，上海聚焦五项，即：智能终端、科学智能、在线新经济、自动驾驶和具身智能。

18SZ图片处理

另一方面，上海计划推动重点垂直领域的应用。垂直领域的相关应用一直备受关注，此次方案明确了上海聚焦的六大领域，即：金融、制造、教育、医疗、文旅和城市治理。

上海也将从基础底座、应用生态等多方面着手，抢抓人工智能发展机遇。

中国初创企业开发低成本大模型 性能比拟ChatGPT