苹果手机下载小火箭的步骤
再度请神成功的美国华尔街,则开始了一系列「常规操作」,商业上连带着让一众西方软件硬件公司跟着鸡犬升天做剪刀差,政治上围追堵截严防死守、生怕让我们把这么高精尖的技术又给「偷学了去」。
最困难的时候,咱们在国内想登陆一下GPT都是一件很麻烦的事情:你需要有VPN,然后到一个俄罗斯网站上去买一个归属地为巴西或者马来西亚的虚拟手机号,用它去注册一个境外邮箱,最后才能注册一个GPT账号,之后终于可以顶着令人头皮发麻的卡顿去和这个传说中「天文地理无所不知」的新物种对话聊天,以及花高价体验一下它传说中更高深的「3.5版」付费服务,20美元一个月。
此后不久,中国的科技巨头大头小头们也纷纷开始了自己的上下求索,「豆包」、「KIMI」、「智谱清言」、「文心一言」、「通义千问」、「星火」……大家如同过江之鲫一般,誓要在这个人工智能新风口上抢得一席之地。——只不过,循着GPT思路做出来的产品,拿去和人家美国的正牌一比,实力上又都矮了一截。
过程中,有一家叫「幻方量化」的量化基金公司,为了方便自己的业务工作(主要是炒股和量化交易分析),在2021年囤积了上万颗当时还买不那么贵、且比较好买的「英伟达A100」GPU,在2023年成立了一家叫「深度求索」的AI公司,开发了一个就叫「深度求索」的同名大模型,英文名「Deepseek」。
大家原本并没有把这个小体量的模型当回事,因为在这场动辄迭代一个版本就得花掉数亿美元的销金运动里,虽说背靠基金公司不差钱吧,可「深度求索」相比竞品巨头投入还是不大,它的团队只有150人,且多为本土人士,没什么海外背景或者资深从业经验,创始人更是一个尚籍籍无名的年轻85后,叫「梁文锋」。
在这年春节前,全世界惊讶地发现,「深度求索」推出的最新AI模型「DeepSeek-R1」,已经拥有了「ChatGPT」最新「GPT-o1」同级别的表现。延续低成本打法的「Deepseek」,训练它的成本则连「OpenAI」的十分之一都不到。
到如今,发布20多天,「Deepseek」的日活早已突破2000万,甚至所有人在和它对话后,普遍还觉得它的回答表现要比「GPT-o1」要来得好。——包括大洋对岸的美国人。
他们现在只需要和我们大陆一样,忍受因为爆火而带来的卡顿问题就好,不必去像我们前年时用个「ChatGPT」跟做贼似的,绕弯子,花高价,打游击。
因为我们就连「DeepSeek-R1」整个大模型都是完全开源的,「深度求索」丝毫不屑于像「GPT」们那样藏着掖着。
而「Deepseek」更深刻的意义则是,不仅掀起了又一次AI革命,它还把革命的价格给打下来了。
朋友,如果读到这里,这个小故事还不足以让你怦然一动的话,那么我或许实在不知道,今年又该有什么更牛的故事可分享给你了。
要说「Deepseek」火爆,日活用户数上线万、20天2000万就是其最好的印证,相比GPT都花了244天才做到日活1500万来说,这速度简直令人咋舌,当然,这是因为不论身处全世界任何地方,想要登陆「Deepseek」都是一件相当简单的事,网站app都好使,代价就是随着爆火,所有人都得忍受卡顿的问题,一个问题问上八遍十遍才能响应一遍是常态。当然,因为「Deepseek」所有模型都是开源的,所以任何人只要想,都可以去下载它的包,然后本地运行,只不过因为大模型吃的是算力,且模型体量也不是一般的大,比如「DeepSeek-V3」总参数量有671B,所以这些要求也不是一般个人所能满足的。
但这已经足够震撼了。毕竟,对面的「OpenAI」都快被嘲讽成「CloseAI」了,开源并不是目前的主流玩法,稍稍有点实力的,花个九牛一毛的硬件和配套钱,就能够在本地部署一个自己专有的、全球最顶尖的大模型,这诱惑没人能抵挡。
AMD」这如今芯片三巨头对「Deepseek」的支持,意味着一台轻薄笔记本也可以完全离线、本地化运行之。「木曦」、「天数智芯」、「摩尔线程」这些国产
GPU的支持,则意味着一台中国研发、中国制造的100%自主可控国产AI产品已经来了,全程没什么能被卡脖子的地方。
除了芯片厂们,全球的云服务商们也积极出力。根据智东西的汇总,从1月28日除夕开始,近期已经陆续宣布支持「
AWS、微软这样的美国服务商,这对于想要做「Deepseek」相关产品的开发者更是天大的好消息,想要部署,直接去云服务商平台调用即可,不需要买卡、装驱动、配网络、配存储、装环境、装框架、下载模型等繁琐步骤。不过,目前云服务商所提供的「
V3原版模型」,而是1.5B、7B、8B、14B、32B等,从体量上你也能感受到他们的功力差距会有多大,想要体验满血版,只能通过目前还比较卡的公司官网、APP、官方API接入口。一直到2月7号,腾讯云率先公告称其上线B的「DeepSeek-R1和V3原版模型」,是为首家实现这一成就的云服务商。相信其他家的满血版也已经在路上了。日新月异了这么多年的科技圈,打了这么久的贸易战,大家互相猜忌防备了这么多年,都已经快记不起,上一次全球厂商如此团结地齐心跟进一个产品,是什么时候的事了。这一切都要感谢「Deepseek」坚持开源,且免费。居功至伟、胸怀大同。如今已名动天下的「Deepseek
DeepSeek的出发点是走到技术前沿,去推动整个生态发展。正如英伟达的领先不只是一个公司到努力,也是整个西方技术社区和产业共同努力的结果,中国AI
的发展,同样需要这样的生态。」「Deepseek」希望形成一种生态,「他们只负责基础模型和前沿的创新,其它公司在DeepSeek的基础上构建
、toC的业务。」也怪不得知名生物学家、北大终身教授饶毅会说:「鸦片战争以来,中国对人类最大的科技震撼:DeepSeek」。02 破局
App Store免费榜的双料第一。这是首次有AI助手类产品超越「ChatGPT」登顶美区App Store。也是在这天,美国科技公司们美股一开盘就缩没了1万亿美元,英伟达暴跌17%,缩水了5940亿美元,直接跌没了一个腾讯加美团;此外,甲骨文下跌13.78%,超微电脑下跌12.49%,芯片制造商博通下跌17.4%,台积电跌13%。直接被一把扯下神的伪装的「OpenAI」的反应也是贼有意思。1月28日,其
1月29日,「OpenAI」向外媒透露,称发现了「Deepseek」未经许可「蒸馏」了其专有技术的证据。——又酸又茶。英伟达也好,「OpenAI」也好,大家之所以突然开始这么狼狈,无它,实在是「Deepseek」破坏力太强了。在「Deepseek
」没有出名前,原本的全行业玩法大致是完全另外一种形态:「OpenAI」要像个尊者一样杵在那里显得高不可攀,对外公布的历代版本「ChatGPT
」训练成本动辄就是「上万块英伟达顶尖芯片算力、上亿美元训练费」,总之就是始终都保持技术领先,并且逐步从原本开源模式切换到闭源模式,将核心能力死死捂在手里再也不共享。「英伟达」作为被华尔街选出来的「打手」,满世界兜售它那被「OpenAI
」加持过的顶级算力GPU,这些显卡不仅贵的头皮发麻,还一块难求,这样,「英伟达」的市值就跟坐火箭一般上了天。公开财报显示,2023
年Q3财报当季度营收不到60亿美元,归母净利润6.8亿美元左右;等到「ChatGPT」发布后,英伟达股价在两年不到时间里一路爬升到了每股1255美元的最高点,2024年Q3
财报,总营收350亿美元,归母净利润高达193亿美元。「OpenAI」和「英伟达」,一个演砸锤的一个当卖药的,合伙唱双簧,满世界卖大力丸,光明正大地收割任何一个想要跟牌的玩家。这里还要多插一个片段:因为贸易战的因素,美国政府禁止英伟达「100
年悄悄在手里囤了1万块英伟达「A100」。然后,英伟达表示,为了做中国的生意,「被迫积极」搞出来一个「800」系列的特供阉割版,然后专门高价卖给中国。表演是要多拙劣有多拙劣。对手出招了,不能不接招,在被深深震撼的我们这边,互联网各巨头纷纷开启了自己的大模型研究,文心一言、智谱清言、通义千问、Kimi、讯飞星火、盘古、豆包,各个大厂大佬大手笔,其他叫不上名字的那就更多了。大家策略也都差不多,买GPU,学GPT
年开始,全球疯狂芯片扫货,并且也是循着「OpenAI」划好的道,大手笔砸成本搞训练研究,达到了一种「大力出奇迹」的效果,截止2024年11
月,字节旗下的「豆包」累计用户1.6亿,日活用户900万,全球范围内,仅次于「ChatGPT」。明眼人都知道,这就是一出双簧戏码;其他人都知道,人工智能这个局就是美国为中国准备的;所有人都知道,就这么跟在人家屁股后面,混到死也就是这么个格局。可那也没办法,这把牌不能不跟。——因为没有人能破这个局。感谢能耐心能读到这里的诸君,因为到这,我们才能引出「
原本在上节所述的「大力丸」框架下,在一唱一和的「OpenAI」和「英伟达」面前,没有任何人有能实现超车的可能,直道、弯道都不可能。想做?先去想办法绕过封禁囤一万张显卡;
于是,真正不差钱的字节等国内公司就开始表演「大力飞砖」——不就是成本吗,我就用比你还高地成本,不信搞不出来个和你差不多的东西。比如字节的「豆包」,在知识、代码、推理等多项公开评测基准上,其最新的1.5Pro
万,累计用户超1.6亿,日均tokens已破4万亿,看上去是走上了正轨的。代价?咱先不计代价。按照字母榜在《DeepSeek“小力出奇迹”》中的说法,就在DeepSeek成为焦点的这几天,字节被曝出今年还将投入超120
基础设施。其中,55亿美元将被用于购买芯片,68亿美元将被用于海外投资。没法停,还得烧。有此决心,差不多的东西,当然还是能搞出来的。只不过,已经背离了自己开源初衷的、如今被嘲笑应该改名「CloseAI」的「OpenAI」在发现「呦呵,有人追上来了」后,又立马在
月挤牙膏出了自己的下一代产品,「GPT-o1」,相比于已经领跑了一阵子的前代「GPT-4o」采用的是已经触达瓶颈的Scaling Law(模型定律规律),新的「GPT-o1」采用了名为「RL」的新训练方式,这被行业视作是大模型领域的一次「范式转移」。「OpenAI」都快激动地叫出太监音儿了:「快来啊,瞧啊,胡萝卜,新的。」然后在短短4个月后,在一众厂商均不出意料地未能推出对标「
」,成为了第一个攻破其技术黑匣子、并在性能上比肩之的选手。在AIME 2024数学基准测试中,「DeepSeek-R1」得分率为79.8%,「GPT-o1
」的得分率为79.2%;在MATH-500基准测试中,「DeepSeek-R1」得分率为97.3%,「GPT-o1」的得分率为96.4%。此前,没有人知道它是怎么这么快做到的。因为就连人家「OpenAI」都还一直是闭源的,你压根没东西抄才对,又怎么做出一模一样东西的呢?更夸张的是,「Deepseek-R1」不仅直接开源,免费挂在那任人下载使用,甚至自己还专门开网站做
」自己公布的论文,「Deepseek-R1」所调用的训练成本,仅仅是「GPT-o1」的十分之一。
听说这东西有人花几个亿做出来的?还在和大家收费?我花五百万帮家人们做了个接近的,大家免费用。「Deepseek」大模型的领先性,不是目前已经领先了对手多少,而是它用一个极小的成本,极小的资源量,火速追平了与全球当下最先进技术的差距。中美科技圈都被干蒙圈了。
」如今的价值可就太有水分了,国内字节这些大厂则活脱脱就成了个大傻子模样。这还怎么玩?「山姆·奥特曼」被逼得主动爆料:「OpenAI」很快将发布首个智能体「
」,并且即将上线更新一代的「GPT-o3-mini」。——胡萝卜是还有,只怕捧臭脚的没原来那么多了。
跳出了华尔街搭台、「OpenAI」与「英伟达」联手唱的这出绞杀戏,是我眼中「Deepseek-R1」此番最大的成就。这出戏,原本是华尔街想要再度虹吸全球顶级资源的好戏,也是美国准备在中美贸易战中继续宣誓霸权、明着放中国血的好戏。国内大厂们就真是大傻子吗?当然不可能。只不过他们原本打算的格局不够大,依然没逃脱自身阶级属性的限制,满脑子想的都是在一切尘埃落定前,在人家美国把这一轮AI
革命的大门被「OpenAI」给焊死前,成为那个上了车的人。——闭源,封禁,垄断,是大家都默认了的事情,也暂时基本不打算反抗了。「DeepSeek
」苹果手机下载小火箭的步骤,不仅让小美子这出恶心人的戏没法唱下去了,让拼命想上车的国内同行原本的小算盘落了空,并且一马当先,为此轮对抗中落于下风的中国科技界,生生抢回了一个先手。2月4
日,中国常驻联合国代表傅聪在纽约联合国总部会中回答记者提问时特别说道:「永远不要低估中国科研人员的聪明才智。DeepSeek引发全球轰动和一些人的焦虑恐慌,说明技术遏制和技术限制无法奏效,这是全世界、特别是美国需要学习的一课。」「
傅聪反问。04 为什么是「Deepseek」?专注AI的,不关注AI的,中国的,外国的,这是萦绕在他们心头的共同疑问。
Deepseek」是如何做到这一切的。对这部分感兴趣的,我推荐大家看「半导体行业观察」的这篇《成就DeepSeek奇迹的芯片,敲响英伟达警钟》,关于「Deepseek
Deepseek」凭什么可以用如此低的成本,达成如此顶尖的成就?为什么是它,而不是更有钱的其他?这得从「Deepseek
作为管理超过千亿资产的国内头部量化交易公司,「幻方量化」很早就开始涉足AI研究,起码在2021
」GPU。等到2023年5月,「幻方量化」组建「深度求索」的时候,国内拥有超过1万枚GPU的企业不超过5家,「深度求索」就是其中之一。按照「幻方量化」自己的说法,「Deepseek」通过混合使用A100、
H100、H800和国产替代芯片,构建了一个约5万颗GPU的全球最大的私有计算集群之一。这是一切的基础。要问,「幻方量化」这么早、囤这么多GPU是为了干嘛呢?答:炒股。作为一家基金公司的子公司,「DeepSeek」的初衷是,用
计算交易仓位,训练量化交易模型。这个目标听着很务实,且很专注于垂直领域,很难让人联想到其会对广义上的大模型们有什么竞争压力。并且,团队规模仅为百人的「DeepSeek
」,在研究投入上还很抠门,也从来没有想过要走一棒子大企业们跟在「OpenAI」背后大力飞砖的道路。设计一个能便于买进卖出的模型就行,要那么牛掰干嘛。日后回溯我们才发现,正是这个抠门的出发点,让「DeepSeek
」成功避开了那个美国人挖的、万亿美元都填不上的大坑。目前,主流玩法是「常理」路线。即用数以万亿计的海量参数投喂训练模型,让大模型尽可能达到一种「全知全能」的效果,对天上地下一切无所不知、无所不包,然后在解决具体问题时,通过调用比照,实现对各种不同领域问题的解答。这是一件十分枯燥且辛苦的工作。比如,「
OpenAI」的数据训练非常依赖人工干预,旗下数据团队甚至被建设成为不同水平的层级,数据量大、标注要求简单明确的浅层数据,交给肯尼亚等廉价外包劳工,高等级的数据则交给更高素质标记人员,不少都是训练有素的高校博士。——训练一次上亿美元看似奢侈,实则没有一分钱是白花的。其他家也一样,学的都是这个「常理」路线,于是整个行业的游戏规则也就变成了:在备好GPU
的前提下,各家比谁花的钱多,比谁花的更高效,比谁能实现的常理训练量更大。试想,照这么个笨鸟比法,那肯定是谁先起跑谁占优势,你字节再烧一万亿,也得老老实实跟在起步更靠前的「OpenAI
」团队从一开始就没那么多钱可烧,且他们从一开始想的就是有个模型能实现交易分析就行,所以压根不追求什么无所不知、无所不包。在量化交易这一垂直背景的限定下,「DeepSeek」的第一个目标是追求在这当中更重视的数学、代码方面的表现,琢磨这琢磨着,就走上了一条完全不同的思路,「推理」路线
」的方法是,通过「数据蒸馏」,先用一个通用大模型为「老师」,通过自己的推理能力,在这位老师的把关下,去给问题建一个「解题思路」,然后围绕着这个「思路」所限定的范围,再去调用相关的数据模块。解决同一个问题时候的差别就是:别的大模型回答任何问题都需要把自己的整个参数库都过一遍,「DeepSeek」则是会先让老师给自己「划个道」,标一下解题范围,再开始围绕这个范围进行自己的推理思考,最后围绕这个思考内容再进行细致作答。如果你有用过「
」每次都要先把自己是怎么想的给写出来,然后才开始输出正文,而不是像其他家那样直接作答,原因就在于,「推理」是其运行的出发点,而不是一上来就疯狂调用数据。试问,你开卷考试答题的时候是先读题干思考呢?还是看一眼题目前三个字就开始疯狂翻书了呢?这也是为什么,许多人评价「DeepSeek
」才是更接近人类思维方式的模型。从更务实的视角出发,这样的好处就在于,在如今再顶级显卡也依然有上限的情况下,「DeepSeek」对于显卡有一个相比而言低得多的使用频率。2024
」发布「DeepSeek-V2」,价格仅为「GPT-4-Turbo」的近百分之一。近期的「Deepseek-R1」,其预训练只花费了557.6万美元,在2048块「H800」上跑了55天就完成了。当上述「推理」路线获得成功印证后,「DeepSeek」开始将其应用在通用大模型领域,于是便在这么短时间内有了如今我们看到的、丝毫不输最新GPT的「Deepseek-R1」。
这便是「Deepseek-R1」能做成、别家没做成的技术层面原因。根本不是一个东西。但是也千万不要觉得「推理」路线从刚诞生就这么有看头。事实上,早期采用「推理」路线往往都会被视作是冒险,倘若出现了误判、或者模块间的知识隔离没做好,都很容易导致跨领域任务的失败,离谱程度属于是你问老师一道数学题,老师给你背了首唐诗那种。根据公开信息,早期「
实现这一步,就是更多深刻技术内容的实现了,这里就不展开了。要衷心夸一句能读到这里的诸君,你们的耐心值得钦佩。想必你此刻会比别人更明白「DeepSeek」的核心价值。「DeepSeek」属于是真正让大家看清楚了,原来这事儿有更高级的解法,这事儿还有这么高的可能性。
OpenAI」屁股后面吸尾气,也不是说没个几亿美金打底压根就不能玩,这列通往未来的时代列车的车门,并没有被美国老爷们给焊死,我们所有人,注意了是所有人,仍然拥有另辟蹊径的资格。
」凭一己之力,让我们所有人彻底看到了美国科技霸权的虚弱本质,让全世界再次见识了什么叫帝国主义都是纸老虎。
最后,就用我提问「你今天取得了足以影响人类文明的伟大成就,你希望以后的人类如何评价今天的你?」,「
.2025返回搜狐,查看更多平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。阅读 ()