DeepSeek-R1:热潮之下,我们看到了什么?

今年春节,DeepSeek-R1无疑成了热搜的“顶流”。就连我回家后,长辈们的饭局上也频频提起它。作为国产大模型的代表,DeepSeek-R1的崛起让我们倍感振奋——我们终于不再只是技术的跟随者,而是有机会站上全球舞台,争夺“地表最强大模型”的桂冠。然而,随着流量涌入大模型赛道,舆论场也变得鱼龙混杂。一些声音为了博眼球,刻意夸大DeepSeek-R1的能力和意义,甚至误导大众。面对这样的现象,我们更需要冷静思考,理性讨论。这篇文章将从非技术的角度,聊聊几个关于DeepSeek-R1的议题。仅代表个人观点,欢迎交流与指正。

DeepSeek-R1厉害在哪里?

简单来说,最重要的三点是——“模型效果强大”、“模型开源”、“模型成本极低”。

1.模型效果强大:这一点比较容易理解,意思就是DeepSeek-R1非常“聪明”。在它诞生之前,大模型领域一直由美国的OpenAI公司引领,最强的模型是2024年9月发布的o1,可以说是一骑绝尘(尽管很多厂商都自称超越了o1)。而DeepSeek-R1的出现,真正做到了与o1比肩。

35df3cc96ed9f3bd8353a406e866d405503080.png

2.模型开源:这一点也很好理解。DeepSeek不仅开源了模型权重(相当于《阿凡达》上映时直接公开了电影原片),甚至连训练技术也全部公开(相当于把4D电影的拍摄教程也一并分享)。这意味着所有人都可以免费使用(免费看《阿凡达》),也可以充分学习和复现(自己拍4D电影),从而推动技术社区的交流与协作。值得一提的是,OpenAI从GPT-3开始就坚持闭源路线,甚至被调为“ClosedAI”。如果你想用他们的模型?不好意思,请付费。如果你想追赶他们的效果?不好意思,自己猜技术路径吧!

3.模型成本极低:这一点可以从训练成本的角度展开聊聊。
根据公开信息,DeepSeek-R1的训练成本只有OpenAI的1/10不到。他们是怎么做到的?

60e12e1b988c1a7f8c441d5a371d09ac467934.png

💥技术路线换道超车,成本结构迎来核爆式变革💥

DeepSeek-R1的特别之处在于,它并没有主要采用OpenAI的监督微调策略,而是直接应用了强化学习。虽然OpenAI也使用了基于人类反馈的强化学习(RLHF),但其评分依赖于人类测试员,本质上仍受限于人力成本。而DeepSeek-R1的数学推理能力,则完全通过纯自动强化学习进行训练,彻底摆脱了对人力的依赖。

看不懂,没关系我们举个简单的例子: 话说「吃货城」里最有名的就是各色饭店,城西头老字号“欧式国际大酒店”久负盛名,无人能敌;但最近城东头一个叫做“迪迪家常菜”的小店却后来居上,风头正盛… 一个没什么本钱的小店是怎么做到的呢…

欧式国际大酒店(OpenAI)
迪迪家常菜(DeepSeek)
食材(训练数据)
在烹饪中使用更多种类和数量的高级食材
食材新鲜齐全,但数量和品质比不上大酒店
锅具(训练算力)
使用更多的锅具和更先进的厨房设备来提升烹饪效果
锅具虽也算齐全,但不多且不够高级(小店负担不起高级厨房和厨具,且城西头的锅具店也不准备再卖给你好的锅子了,真是让人烦恼啊)
烹饪方式(训练方式)
使用更复杂的烹饪技术来制作菜品,期望通过复杂性提升性能
创新烹饪方式。通过创新的烹饪技巧,即使在不增加食材和厨具的情况下,你也能做出更美味的菜肴
经营情况
价格高昂,但是由于实在菜品是在是好吃,食客络绎不绝
价格亲民,味道比肩欧式大酒店,客人蜂拥而入小店爆满

只有突破才能超越,这是DeepSeek-R1最可贵的一点。

DeepSeek-R1是万金油吗?

好了,前面我们从宏大叙事的角度吹了一大波牛。那么我们具体看看DeepSeek-R1到底好不好用,怎么用。

DeepSeek-R1不是万金油。模型这么厉害,是不是我们都切换成DeepSeek-R1就好?不同的应用场景,我们都需要根据任务特征,综合考虑模型效果、成本和性能(这很重要!)

  1. 简单的任务没必要

    简单的任务比如不复杂的打标类任务,没有必要用DeepSeek-R1(全参600+B)。不需要用大炮打苍蝇的道理大家都理解。有很多较小参数的模型(比如开源的Qwen2.5-1.5B~14B)在这些简单任务上,具备效果佳、成本低、性能好的特点。

  2. 要求时延极低的任务不太灵

image.jpg

模型的输出token越多,输出完毕的时间就越长(输出是一个个字吐的)。复杂推理类模型,他一定有个深度思考过程,这部分的推理,也是要占时间。所以如果任务要求时延极低,比如要求几十ms内输出,就太不灵了。

 3. 超长文本的任务不够用

DeepSeek-R1的最大上下文长度是64K,看着也不算短。但是别忘了深度思考过程也要占上下文,所以若为超长文本就不够用了,比如说部分AI Coding场景。

要跟DeepSeek-R1说人话。想让R1发挥更好的效果,需要抛弃提示词模版的那套思路,表达你原始需求,跟模型说人话

我要xx,要给xx用,希望达到xx效果,但担心xx问题…

举个例子,大家感受下区别:

说人话
提示词模版
我下周要和比亚迪的供应商谈判,但对动力电池一窍不通。帮我用最通俗的语言说明: 1. 他们的技术优势在哪 2. 可能要价多少 3. 有什么谈判时能用的专业术语 重点是让我听得懂,能装得像内行
请你扮演一位新能源行业谈判师,要和比亚迪谈判,按照以下步骤生成通俗易懂的谈判报告: 1. 比亚迪技术优势 2. 比亚迪出价策略 3. 谈判方案 要求:引用权威数据…

DeepSeek-R1官方服务不稳定,本地部署有手就行?

DeepSeek-R1大火并且纷纷登顶各国APP下载榜首后,DeepSeek官方服务顶不住了(小声吐槽:DeepSeek的服务在爆火之前也一直不咋稳定hhh)。

298257e4aecde7cf247c4ee58289cd4959264.png

纷纷有公众号宣称,DeepSeek-R1部署有手就行,电脑上手机上都能跑!这种消息很容易给大家造成误导😓

首先,市面上所有教程中,能在电脑&手机,或者少量消费级显卡上部署的,是DeepSeek-R1的蒸馏模型,可理解为残血版。参数量在1.5B~70B之间,官方共提供了6个。然后,由于算力显存等限制,很多教程里面还叠加了量化压缩的方法,也就是在小模型的基础上再次压缩,确保能塞得进去。模型效果再次打折扣。最后,在效果打折的基础上,推理性能还会比较差。具体表现是,推理速度慢、可承载并发低。

所以,如果是部署在本地试一试,对效果要求不高,这些方法是ok的;如果是正式的线上服务,大no特no。

一将功成万骨枯,没有“先烈”,就没有“先驱”

a966faabc24d7801450955c6aab4dce9482698.png

但DeepSeek-R1的出圈又好似是必然的。在大模型技术创新的道路上,无数团队在各自的领域默默耕耘,尝试不同的技术路径,攻克一个个技术难关。这些努力或许未能最终成就一番轰轰烈烈的事业,但正是这些铺路石般的尝试,为后来者指明了方向,提供了经验与教训。技术的进步从来都不是一蹴而就的,而是无数个体与团队共同努力、试错的结果。

站在当下,我们看到了DeepSeek-R1的成功,但技术发展的脚步永远不会停歇。未来的道路上,还会有新的技术瓶颈等待突破,新的挑战等待应对。

DeepSeek R1 本地部署教程 | 高效安装,轻松上手!

2025年 DeepSeek R1 大型模型本地安装部署(文件+教程)

文章版权声明 1、本网站名称:朝晞小屋
2、本站永久网址:https://www.zxiyun.com/
3、更多有趣网站:http://dh.zxiyun.com/
4、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长QQ2604140139进行删除处理。
5、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
6、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
7、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容