挥别旧世界:梁文锋的深度对话与AI新时代的来临
梁文锋,一位既拥有理想主义精神、又敢于创新突破的企业家。他曾在量化投资领域累积了丰富实战经验,如今却全身心投入对人工智能大模型的深度探索,直指**通用人工智能(AGI)**的终极目标。令人钦佩的是,他坚信语言大模型是通往 AGI 的关键通道,因此专注于底层技术研究,并不急于推出应用。 在技术研发理念上,梁文锋深谙创新的高昂成本和漫长周期,却依然保持坚定的信念与远见。面对风险与不确定性,他不愿为了短期商业利益而偏离长期目标,这种**“长期主义”无疑可贵。人才策略方面,他主要招募对 AI 充满热爱和好奇的年轻人,给他们最大化的自由空间与开放包容的工作环境,希望由此激发原生的探索精神。从商业视角来看,他强调普惠原则**,希望尽可能降低大模型的使用门槛,反对形成少数人的技术垄断。此外,他也认可开源对生态发展与人才汇聚的正向价值,认为这种文化行为能带动更大范围的技术共创。 虽然行业面临高端芯片禁运等不利因素,但他坚持不融资,仅凭自身力量投入研究与开发。对于中国 AI 发展,他呼吁应当摆脱对欧美成果的单向模仿,在原创方面形成突破,积极参与到全球创新浪潮之中。随着2024 年 12 月 16 日 DeepSeek R1 大模型的即将发布,梁文锋不禁在朋友圈罕见地转发文章并写道:“3 年过去了,旧世界分崩离析,新时代正在光速到来。” 这句看似“豪气干云”的评语,实则折射出他对当前 AI 格局的深刻洞见,也显示了他对于未来进程的强大自信。
DeepSeek 创始人梁文锋的 60 条思考以下内容,源于梁文锋在访谈、交流与内部研讨中的观点整理。它既是 DeepSeek 发展脉络的注脚,也是在 AGI 赛道上如何思考与行动的生动展现。 1. 我们做大模型,其实和量化投资、金融没有直接关联。 我们真正追求的,是通用人工智能(AGI)的终极形态。 2. 语言大模型是抵达 AGI 的必经之路, 因为它已经初步展现出某些通用智能特征,所以我们从这里切入。 3. 我们不会急于设计基于模型的衍生应用, 而是把全部精力放在基础研究上。从长远看,随着大模型技术门槛下降,无论何时入局,都能找到应用机会。我们的志向非常明确——不做垂直领域或应用,只做纯粹的研究和探索。 4. 我对“人类智能的本质就是语言”这一观点深信不疑。 人的思维过程,本质上就是一种语言编织。因此,基于语言大模型,未来极有可能出现“类人思考”的 AGI。 5. 单纯地复刻已有论文或开源代码,训练几次或做个微调(finetune)就能得到一个基础模型,成本并不高。 但如果真的要做前沿研究,需要大量算力和实验对比,也需要高水平科研人才参与,这样成本就会大幅上升。 6. 我们更想让每一个小 App 都能轻松用上大模型, 而非只掌握在少数企业之手。大厂的模型也许会与自家生态绑定,但我们的模式更加开放与自由。 7. 从商业投资角度看,基础研究的投入回报比并不高, 但既然我们有能力做,而且认为这是当下最合适的事情,就不会踌躇。 8. 从 1 张卡到 100 张卡,再到 1000 张卡,直至一万张卡的过程, 外界可能会揣测其中有什么神秘的商业逻辑,但其实主要是好奇心在驱动——我们想知道 AI 的极限在哪。 9. 对于行内人而言,ChatGPT 所引领的新一轮浪潮并不突兀, 因为早在 2012 年,AlexNet 就已经带来过一波重大冲击。其显著降低的错误率让深度神经网络重新回到中心舞台。虽然具体研究方向不断演变,但“模型 数据 算力”始终是核心组合。到了 2020 年 OpenAI 发布 GPT-3 时,所有人都意识到大模型的走向非常清晰,需要大量算力做支撑。于是我们也开始尽可能多地部署计算资源。 10. 有些事情的价值,无法单纯用金钱权衡。 就像家里买钢琴,一方面负担得起,另一方面还有一批“演奏者”对它充满激情。 11. 人力成本是面向未来的投资,也是公司最宝贵的资产。 我们希望招到对 AI 保持极高好奇心的人,他们能在这里沉心研究,而不是盲目跟随市场应用需求。 12. 招人时,我们更关注“基础能力”而非“经验”。 如果只盯短期产出,经验丰富的人可能确实更实用;但若着眼于长线布局,创造力和热爱才是关键。 13. 我们的核心技术团队,绝大多数都是应届或刚毕业一两年的人。 他们没有固化思维,会反复思考“怎么做才更适合现在”,而不是凭过去经验直接给出一个答案。 14. 我们选择的人必须对 AI 充满热爱, 因为热爱会让他们主动找到我们,表达想一起做事的意愿。 15. 在 DeepSeek,没有传统意义上的 KPI 或任务指标。 16. 创新需要减少干预,给每个人足够的施展空间和试错机会。 真正的原创突破多来自于自发性,而不是领导层“教”出来的。我们会赋予员工充分信任,把重要的事情交给他们自行决策。 17. 我们的企业文化不落成文字, 因为任何写进条文的东西,都可能在无形中限制创造力。更多时候,是依靠管理者用行动来示范,通过具体案例建立共识。 18. 用教科书式商业逻辑去衡量当下的创业公司,可能很难得出正确结论。 市场是动态的,真正起决定作用的往往是企业对变动的快速适应能力,而大公司由于组织结构庞大,常常受已有经验和惯性的束缚,这为新公司带来逆袭的机会。 19. 我们真正兴奋的是验证自己的猜想是否正确。 如果结果证明确实可行,那就是最大的动力。 20. 对 AGI 的信仰者,会在浪潮爆发前就准备好,并在浪潮过后仍然坚守。 他们通常会囤积大量算力,或者与云厂商签下长协,而不会只是短期租用资源。 21. 创新往往低效而昂贵,过程中还存在大量“浪费”。 只有经济发展到一定阶段,才能支撑起这种大规模实验式创新。OpenAI 之所以能成功,也离不开巨额资金的长期投入。 22. 有些动力很难用理性逻辑去解释, 就好比程序员在工作结束后还要为开源社区无偿贡献代码,类似长途跋涉后依旧乐此不疲。 23. 并不是所有人都能疯狂一辈子, 但大多数人在年轻时期,都可能为了热爱而不计回报地投入。 24. 我们的模型服务降价,主要跟随自身节奏,基于成本核算定价。 原则是不亏本,也不谋取暴利。 25. 抢占用户并非我们第一目标。 我们之所以降价,是因为在探索下一代模型结构的过程中,成本有所下降;同时也希望让更多人用得起大模型,让 AI API 成为真正普惠的服务。 26. 如果以应用为导向,那么“沿用 Llama 结构、快速上产品”也没问题。 但我们针对的是 AGI,需要持续深入研究新结构,以便在有限资源下获得更强模型能力。包括数据构造、人类思维方式模拟等,我们都进行了大量前沿探索,并在发布的模型中做了体现。 27. 最重要的是参与全球创新进程。 长期以来,中国更多是在应用端快速变现,但这一波大模型热潮,为我们提供了切入前沿技术的窗口。我们希望借此推动整个 AI 生态的成长,而不是单纯“趁机赚钱”。 28. 随着经济实力增长,中国需要从搭便车者转变为贡献者。 过去几十年里,我们几乎没真正参与到核心 IT 技术的创新过程,只是“等技术成熟”后进行商业化。但对 AI 而言,光靠跟随已不足以支撑未来,我们必须深入一线做创新。 29. 大多数中国公司更擅长“跟随”而不是“原创”, 这是我们必须去改变的现实。 30. 创新的成本一向不低。 我们之所以常年采用“拿来主义”,与早期国情以及资源禀赋有关。但当下的经济体量和互联网巨头利润规模,都足以支撑真正意义上的原创研发,我们缺的是组织高密度人才并给他们足够空间。 31. 过去三十年我们只强调“挣钱”,对“创新”关注不足, 但随着经济转型,我们必须让好奇心与创造力在商业之外也能被鼓励和实现。 32. 在颠覆性技术的面前,闭源壁垒往往难以长久。 即便 OpenAI 闭源,也无法阻止后来者追赶。DeepSeek 的护城河并不在“封闭”,而在于团队在不断成长的过程中积累到的 know-how 与文化。 33. 选择开源、发表论文其实并不会损失太多, 对技术人员来说,看到自己的工作被同行使用,是一种极大成就感。开源也带有额外的文化吸引力。 34. 美国最赚钱的一批企业,正是那些对硬核科技抱有极高耐心和投入的公司。 35. 中美 AI 差距最核心的部分在于“原创”与“模仿”。 如果我们无法打破模仿的依赖,就会永远只充当追随者。所以有些高成本、高风险探索并不是可选项,而是必经之路。 36. 英伟达的崛起,是整个西方技术社区协同努力的结果, 他们能够持续不断预判下一代技术,并在产业链上紧密联动。中国想要在 AI 领域取得同样成就,也需要形成自己的协同生态体系。 37. 我们不会闭源, 因为构建强大的技术生态比封闭自守更为重要。 38. 短期内我们也不考虑融资, 目前最大的瓶颈并非资金,而是高端芯片遭遇禁运。 39. 投入资金并不一定等同于创造力, 否则大厂就能将所有创新尽数包揽。 40. 我们认为当下正处于技术创新的爆发期,而非应用大规模落地的爆发期。 长期来看,我们希望能形成一个生态:社会各界都能基于我们的基础模型做二次开发,而我们专注于前沿研究。 41. 如果商业上有需求,我们也能涉足应用, 但技术突破和创新始终摆在第一位。 42. 技术没有绝对秘密,但重现和追赶需要大量时间与资源。 英伟达的显卡从原理上而言并无不可复制之处,但他们在多代产品迭代中积累的团队、经验和专利,构成了极深的护城河。 43. 我们提供云服务并非核心目标, 真正的终点还是 AGI。 44. 大厂虽有庞大的用户基础,却常受制于既有业务体系。 就像船体越大越难转向,一旦技术革新到来,包袱也就随之加重。 45. 也许未来能活下来的大模型创业公司只有两三家, 现在还是普遍“烧钱”状态,但那些对自身定位清晰、能精细化管理成本的团队,更有机会坚持到最后。 46. 我经常思考的是,某项技术能否提升社会整体运行效率, 以及我们能否在产业分工链上找到适合的位置。只要大趋势是让社会更高效,这条路就有价值。 47. 我们最新发布的 V2 模型,完全由本土人才打造, 并没有海外回归的核心成员。虽然顶尖人才前 50 名或许还在国外,但我们正在努力培养本地的顶尖队伍。 48. DeepSeek 内部多数是自下而上的创新管理模式, 并不预先规定好每个人的分工。只要一个想法有潜力,团队自然会协作投入。 49. 我们每个人对算力和人员调度没有上限限制, 只要有人想做新实验,随时可以调用训练集群的显卡,也可自由邀请同事参与,前提是对方也感兴趣。 50. 我们选人的首要标准永远是热爱与好奇心。 只有这样,大家才会不计报酬去钻研,拥有强烈的研究渴望。 51. 创新首先是一种“相信自己能行”的态度。 当 ChatGPT 问世后,国内不少人感慨差距巨大,转而专注应用,但创新需要冒险精神,而年轻人往往更有这份自信。 52. 我们在做行业里最有难度的事情,这恰恰能吸引真正的顶尖人才。 国内不乏优秀研究者,只是很多时候缺少被识别或被施展的机会。 53. OpenAI 也并非高高在上的“神”, 无法保证一直引领最前沿。 54. AGI 的实现期限可能是 2 年、5 年或 10 年, 但一定会在我们有生之年到来。公司内部也没有统一的路线图,但我们在数学、代码、多模态和自然语言等方向多点布局,保持对各种可能性的开放态度。 55. 未来将出现专门提供基础模型和基础算力的公司, 同时会有许多上下游伙伴在其之上衍生出多样化产品和服务。 56. 我个人主要精力放在研发下一代大模型, 还有许多待解难题。 57. 所有曾经的商业模式,都是属于上一代的经验。 拿互联网的路子去思考 AI 的盈利逻辑,可能就是刻舟求剑。 58. 外界关注到的是幻方量化 2015 年之后的部分, 但我们积累已经有十多年了。 59. 中国产业结构的转型,越来越依赖硬核技术突破。 当社会意识到之前的“快钱”多半来自时代红利,就会更加愿意投入真正的技术创新。 60. 未来将有更多“硬核创新”出现,现在之所以缺乏共鸣, 是因为尚未有足够多的成功案例为其正名。只有当那些潜心研究的人最终收获成功,社会整体认知才会随之转变。
梁文锋也曾为“量化之王”詹姆斯·西蒙斯(James Simons)的传记《征服市场的人:西蒙斯传》撰写序言。在那篇序言的最后,他引用了西蒙斯的一句话: “每当在工作中遇到困难的时候,我会想起西蒙斯的话:‘一定有办法对价格建模。’” 这句话在一定程度上,映射了梁文锋对于**“创造、理解市场和模型”**的坚定信念。 詹姆斯·西蒙斯是量化投资领域的不朽传奇,他所开创的文艺复兴科技公司长久以来都蒙着一层神秘面纱,但这并不妨碍一代又一代年轻人被他的故事所激励,纷纷投身量化行业。和所有颠覆式创新一样,量化投资在萌芽时也曾被广泛质疑:“计算机怎么可能像人类那样投资?” 可是西蒙斯却预感到,随着计算机软硬件的演进,“不可能”总有一天会变为现实。 在量化投资的早年探索中,西蒙斯几经失败,却没有放弃,笃信时间会站在他这边。直到 20 世纪 80 年代末,计算机技术抵达一个临界点,实用模型的初步成功让西蒙斯抓住了关键机遇。1988 年,他创建大奖章基金,年近 50 的西蒙斯终于迎来转折。从此之后,华尔街许多量化巨头也陆续崛起,并且大都可以追溯到那一时期。 而在随后的三十余年间,计算机技术持续演进,量化投资发展成为资本市场的宠儿。越来越多的“不可能”被技术击破,也让量化投资逐步成为 21 世纪金融领域的一大趋势。文艺复兴科技公司则借此势能,始终站在行业前列。 值得一提的是,这三十余年也是金融监管朝着更严格、更透明的方向进化的阶段。昔日基金经理依靠“内幕消息”获得交易优势的方式,已难以为继。在信息时代,随着规则的完善和数据的开放,量化投资与传统投资几乎站在同一起跑线上,也因此催生了量化的爆发。 当我们回看西蒙斯与文艺复兴科技公司时,会发现他们之所以能持续辉煌数十年,离不开执着的科研精神和对团队组织的高度重视。更重要的是,西蒙斯所身处的时代,技术和市场环境都为量化铺平了道路。本书中文版的出版,或许可以为国内更多研究者和从业者带来启示:怎么在变动的时代中把握难得的机遇?如何管理一个始终站在潮头的团队?又怎样看待科技对金融市场的深远影响? 梁文锋自称“后辈”,能为西蒙斯的中文传记作序,感觉十分荣幸:“每当我在工作中遭遇瓶颈时,都会想起西蒙斯那句‘一定有办法对价格建模。’” 这既是一种技术自信,也是一种持续创新的动力。纵观量化投资乃至当今大模型的兴起,不断挑战“不可能”的过程,也是人类一次次突破认知边界的旅程。
|