XM官网首页

为什么没人说DeepSeek的数学和代码?(2025年01月31日)

XM

DeepSeek最早震惊我的是Coder V2版本 ,大概是2024年5月 ,V2能用一种类似数学验算的方式检查代码,体感上准确率高于同期的GPT 4o。

当时DeepSeek的PC端产品,Coder模式和Chat模式在网页上同时作为一级入口展示 。如果问同一个的问题 ,Coder比Chat逻辑性更强,思维链、校验机制明显在起作用,隐隐已经有了今天R1的影子 。

那会儿还意外发现一个玩法:所有大模型不让说的(包括DeepSeek Chat) ,在DeepSeek Coder里能说!黄赌毒 、玄学算命 、黑五类、权力名利名人......Coder里不仅大多能聊,还能详细推理论证!也有Coder里对话不让说的,但是可以写成代码来讲!于是我就用Coder V2参加了“香港全球算命师大赛” ,基于V2详细的推导过程,给出了算命答案。事后看准确度在60分左右。不过没有在比赛中得奖 。说回Coder本身,V2应该是国内第一个支持代码在线执行的:自动生成完代码 ,直接就在浏览器上运行查看。用Coder写网页能生成代码边看效果边改,体验上不亚于新发的Claude 3.5 Sonnet。

Cursor上我习惯选的模型也是DeepSeek,甚至我一度以为DeepSeek会是国产Agent / AI Coding的代名词 。但显然 ,做一个Cursor这种产品化封装的事 ,不在梁文锋他们的高优里。

2024年7、8月开始,在各种AI Coder榜单上,DeepSeek都是仅次于GPT 4o的常客 ,经常优于Claude 3.5 Sonnet 、Qwen Plus以及其他,但并未引起出圈关注。这就让我自己调V2 API的时候,经常觉得捡了大便宜:每百万输出tokens两块钱 ,相当于GPT4 turbo(30美元)百分之一的价格,而且输出更快、更稳定(5000~10000 tokens/s) 。

2024年9月,DeepSeek的Coder和Chat合二为一 ,变成了V2.5的版本。能感觉到代码能力、意图理解又提升了。缺点是很多bug都堵上了,擦边内容再也没法聊了——中外大模型最后一个漏子就这样被堵上了......按此趋势,DS大概率会成为国内最先推出类似GPT o1推理模型的公司 。当然 ,事实上2024年的最后一个季度,Kimi 、智谱、阶跃等也都展现了自身的推理能力,哪怕有的是残血版、实验版 ,总归发布节奏上没落下。在V2到V2.5的阶段 ,我一直觉得DeepSeek的数学 、代码能力,显著优于国内流量最大的几家。不过DS也是产品最简陋的:只有网页版,功能还极少 ,没有多模态更没有场景预设 。好消息是:2025年听说已经有高级产品经理的hc了 。

2024年圣诞节后发布的Coder V3版本,产品形态上依然简陋,但深度思考和联网搜索都很亮眼 ,效果似乎逐渐逼近了一个新的临界点......很快就到了2025年1月20日,DeepSeek-R1正式发布,性能对标OpenAI o1正式版 ,热度持续发酵至今。

R1最火的当然是自然语言能力,诗词歌赋样样精通,哲学批判、商业分析也不在话下 ,第一次让一众媒体老师为AI的文笔折服。数学、代码能力强不强相对没那么直观,也有一定门槛,各种图表也快被比烂了没人爱看 。之前DeepSeek和阿里Qwen就是两个技术没输过 、流量没赢过的产品。但是最近几天 ,用R1仿写《洛神赋》、写小说、辣评热点 、搞笑幽默 、写小红书帖子 ,却是能让人一眼看出来:比我写的强。甚至引发了玩梗、共创等一系列圈外的化学反应 。但R1最强的,我自己亲测下来还是数学,其次是Coding ,国内版Cursor的“炸裂登台 ”也许只是时间问题。只是,让我不禁想起“重庆某家手法独到的按摩店,因为饭好吃出名 ” ,可能多少有点让团队始料未及。

DeepSeek可以随时做出一个Cursor或者量化Agent,出圈只是时间问题 。KOL、KOC的集体颅内高潮和媒体狂欢,上一次还是去年2月的Sora ,此时此刻恰如彼时彼刻。

再说说我对DeepSeek团队的观感:最大的特点是没有门户之见 、也没有派系之分。这可能是“纯粹”的一个原因 。团队年轻、本土、学校分散,学术连接和职业关系均较弱。创始人梁文锋是浙大人工智能的,也不像清北的创始人 ,资本 、学术都早早绑定,外人/非核心成员眼里总是有小圈子、小队伍的。核心研究员、算法 、数据岗位,虽然清北的很多 ,但不是唯二 ,并且本科学校相对多元 。前亚研院、前商汤、前旷视 、前百度、前阿里、前字节......换一家模型公司,可能随手一拎就能拎出来一串人马,但在DeepSeek找不到 ,因为大多是年轻职场人 。而这一批优秀的年轻人,可能很快也将像种子一样飞向各方。杭州 、上海以及全国的研究员 、产品经理,也正在被DeepSeek所吸引。大厂的抢人动作或明或暗 ,类似Character AI、Inflection的收购并购故事,在国内似乎也正在2025年重现 。

值得开心的是,开源成了新共识 ,中国开源生态也正在加速实现世界水准。这是一个值得兴奋的信号。DeepSeek Coder的一些信息可以看这里:https://deepseekcoder.github.io/ 。