李开复:APP加上大模型?我们不会投资,这不是AI first
2024-03-19
更新时间:2024-03-19 04:17:51作者:橙橘网
开源,这个词在当今科技领域中愈发引人瞩目。它不仅仅是一种技术,更是一种思想的体现。随着数字化时代的到来,开源已然成为了推动创新、加速发展的一股强大力量。
最近,马斯克开源的大模型Grok-1引起了广泛关注。整个事件其实可以追溯到2月29日,马斯克因认为OpenAI未能“信守开源政策”而将其告上法庭。然而,当时马斯克自己的Grok其实也是没有开源,仅是向付费用户开放,这不免会引发一些质疑。
或为了弥补这个漏洞,马斯克于3月11日在社交媒体上表示,xAI将开放聊天机器人Grok的源代码,使公众可以免费使用该公司背后的大型模型技术。Meta的CEO扎克伯格也在社交媒体上发表评论,对此表示支持。
马斯克也是说到做到,在3月17日,其旗下的人工智能初创公司xAI正式宣布了开源大模型Grok-1,并遵循Apache 2.0协议开放模型权重和架构。根据官方网站显示,xAI已将Grok-1的权重和架构在GitHub等软件托管平台上进行了开源。
值得一提的是,在Grok-1开源的当天,马斯克还与ChatGPT在X平台上展开了一场口水战,“告诉我们更多关于OpenAI的’open’部分”。网友们甚至开玩笑称,xAI才是真正的“OpenAI”。
在2023年11月,xAI推出了其首款大型语言模型Grok,正式加入了大模型的战争。当时,Grok作为“Premium+”订阅服务的一部分,每月费用为16美元。最初的版本Grok-0拥有330亿参数,随后xAI推出了经过多次改进的Grok-1,为X平台上的Grok聊天机器人提供了支持。
根据官方网站的信息,Grok-1是一款3140亿参数的混合专家模型,是Llama 2的4倍,被称为“迄今为止全球参数量最大的开源大型语言模型”。Grok-1是xAI利用JAX和Rust构建的自定义训练堆栈从零开始训练的。它采用了3140亿参数的Mixture-of-Experts模型,其中25%的权重在给定令牌上处于活动状态。
根据xAI公布的数据,在一系列基准测试中,包括GSM8K、HumanEval和MMLU,Grok-1的表现超越了Llama-2-70B和GPT-3.5,但是与GPT-4相比仍是有些差距。
此次xAI开源Grok-1,遵守的是Apache-2.0许可证,即:
1、允许用户自由地使用、复制、修改、合并、发布和再许可被授权软件的副本。
2、用户可以修改被授权软件的源代码,并将修改后的代码以源代码形式重新分发。
3、用户可以以二进制形式或源代码形式分发被授权软件,无需支付费用或提供专门的授权。
4、在分发被授权软件时,用户需要包含原始版权、许可和免责声明,以确保软件的来源和许可信息被保留。
5、用户可以自由地将软件用于商业目的,不必支付许可费。
我们知道,开源大模型对中国市场有着特殊的意义。某种程度上,Llama-2这样的开源大模型,已经成为中国大模型产业的一个关键“基础设施”。所以,此次马斯克开源了一个更大参数规模的大模型,就像是扔进水池里的一块石子,必然会在中国大模型市场泛起“涟漪”。
那么,开源的Grok-1将对中国市场带来哪些影响呢?具体表现在以下两个方面:
不仅国外在搞开源大模型,国内不少企业和机构也在推进开源大模型。
国内开源大模型(不完全统计)
国外开源大模型(不完全统计)
根据了解,马斯克开源的Grok-1模型的参数规模达到了3140亿。相比之下,其他国内公司开源的模型参数规模较小,比如阿里巴巴的Qwen-72B模型有720亿参数等。
马斯克的Grok-1刷新了开源大模型的参数记录,可能会促使更多的公司将注意力转向基于这个新模型进行定制研发,而不再仅仅依赖于现有的LLaMA2。
在这种情况之下,开源大模型领域的竞争势必会更加激烈。Grok-1的参数规模之大将为其他公司提供更高的标杆,其他公司不得不尽快推出更大参数规模的开源模型。
对于那些已经开源了较小规模模型的公司来说,他们可能需要重新评估自己的研发策略。面对Grok-1这样规模庞大的模型,他们可能需要考虑是否要增加研发投入,以提升模型的规模和性能,以提高竞争力。而对于那些尚未开源大模型的公司来说,他们可能需要重新评估自己的战略,考虑是否要加快开源步伐。
另一方面来讲,目前国内很多“套壳”大模型,都是基于llama2来微调的,如果转成马斯克的Grok-1,将会对国内大模型行业带来不小的影响。
Grok-1拥有远远超过Llama2的参数规模和性能,因此,转换到Grok-1可能会使这些模型的性能和规模得到显著提升,从而提高其在各种自然语言处理任务中的表现。
Grok-1的开源可能意味着更多的开发者可以访问和使用该模型,从而加快了新模型的开发和迭代速度,这将提高国内大模型行业的整体创新速度和效率。
但享受好处的同时带来的也是风险,虽然Grok-1开源为行业带来了更多的创新机会,但如果Grok-1成为主导地位,可能会导致技术垄断的风险。在这种情况下,依赖于Grok-1的公司可能会失去对技术发展的控制权。
总的来说,马斯克大模型开源这一波属实是属于降维打击,当然,其中受到伤害最大的应是大模型创业公司了。
2023年,百“模”征战已经打响,不仅大型科技公司正向布局,更是涌现出一批创业公司,月之暗面、百川智能、智谱AI等已成为大模型创业公司的佼佼者。
但投资人朱啸虎的一番话却给这些创业公司泼了一盆冷水,指出即使有公司愿意投入巨额资金,一旦遇到别人的大模型开源,投资可能会化为乌有。
2023年7月19日,Llama 2宣布开源,自Llama 2后,开源逐渐成为主流趋势。以Llama架构为首,先掀起了一波以其为核心的开源,如Llama 2低成本训练版、Llama 2最强版、微调版等等。之后,创业者们的目光从解构、增强Llama 2转向了构建行业专有大模型,于是又掀起了一波Llama 2+司法、Llama 2+医疗等一系列的行业开源大模型。据不完全统计,Llama 2开源后,国内就涌现出了十几个开源行业大模型。
大模型创业公司在自研大模型的道路上一直秉持着一个核心逻辑:他们自研的大模型要比开源的大模型更优秀,能力更强。然而,如果开源大模型的规模和能力确实超越了闭源模型,那对于这些创业公司将是一个巨大的打击。其中,融资难度的加大将成为他们面临的一个严峻挑战。
创业公司通常需要大量的资金用于技术研发、团队建设、市场推广等方面,如果开源大模型的规模和能力确实更强,那么创业公司为了保持竞争力,可能需要更多的资金用于自研大模型,以及相关的研发和推广活动。
马斯克的3000亿参数模型,无疑需要巨大的计算资源来进行训练和部署。这对于大型企业可能不是问题,但对于创业公司来说,成本可能是一个巨大的负担。他们可能无法承担购买和维护庞大的服务器群所需的费用,这会限制他们在利用这一先进技术方面的能力。
另外,模型的训练需要大量的数据,而这些数据往往只有大型企业才能够轻松获取到。对于创业公司来说,要想获得足够的数据来训练一个高质量的模型可能会面临诸多困难。
投资者在考虑是否投资创业公司时,会综合考虑多个因素,其中技术实力和核心竞争力是关键考量之一。如果开源大模型的规模和能力确实更强,那么投资者可能会更加谨慎地考虑投资创业公司。
可以说,无论对于开源大模型市场,还是发展商用大模型的创业公司,马斯克的Grok-1都是一个不可忽视的“X”变量。当然,以后还会有更大、更好的大模型陆续开源出来,马斯克的加入,只是为这场竞赛又增加了一些难度。
马斯克已经亮剑,接下来就看各方怎么出招了。相信接下来的故事一定会更加精彩,毕竟,有马斯克的地方,就不会缺少看点。