文 丨 新浪科技 周文猛
期数:No.54
嘉宾:第四范式联合创始人、总裁胡时伟
作为诞生于AI 1.0时代且成功上市的人工智能企业,第四范式在当前大模型盛行的时代,同样有着自己的布局与思考。
近日,第四范式联合创始人、总裁胡时伟在与新浪科技《科创100人》沟通中分享了公司对于行业大模型的构建思路和行业发展思考。
当前,越来越多的企业正在将AI大模型研发的重点转向垂直行业领域,在胡时伟看来,“行业大模型的构建,它最终体现的是这个模型在行业当中预测越来越准,它的来源并不简单是算力的堆砌,或者简单算法的优化,更重要的是数据,数据决定了预测准确性的上限。”
“你最好能把数据的价值全部榨取出来,所以进行数据建设特别重要。”胡时伟表示。在他看来,行业大模型不是靠买来的,而是需要靠构建得来,“因为每个企业的数据,它都有一定的差异性,你能够买来的只有共性。”
在他看来,企业做自己的行业大模型,其实是需要先投入的,渴望“短平快”快速见效并不可取。“短平快只是做启蒙,认识到这个东西有用,才能真正起效。”
以下,附新浪科技与胡时伟对话内容,略有修改:
“大家越来越关心有用的AI,AI 1.0仍存在巨大价值”
新浪科技:近期您参加了今年的世界人工智能大会,你最大的感受是什么?观察到了哪些趋势和变化?
胡时伟:我觉得大家其实现在会越来越多地关注到底什么是有用的AI、有价值的AI,我觉得越来越多的人在关注了,特别是来参展的观众,不是厂商,大家关心的心理、关心的话题越来越偏向于怎么去落地应用和(实现)价值。
新浪科技:您的意思是之前存在一些没有价值的AI?
胡时伟:刚出来的时候,就像当年的AI 下围棋,大家更多地把它当成一个热点的新闻去看待,为什么会这样呢?其实我们有一个规律,我觉得科技的发展,其实往往都是媒体先关注大家听得懂的,就是比较容易给人形成冲击的,然后才会存在深度的思考,我觉得这个是很正常的这个过程。
新浪科技:外界倾向于把这一轮基于大模型的人工智能叫做AI2.0,你觉得这两代人工智能有什么区别?
胡时伟:我觉得 AI 1.0 还在青年期,大语言模型在交互上、在认知上其实是引爆了一轮,但实际上来讲, AI 1.0仍然有它存在的巨大价值。如果说你认为AI 1.0就是AI的产业价值的话,那我觉得AI 1.0的这个潜力远远没有发挥出来,我们这么多产业,各行各业,每个行业的智能化程度仍然有巨大的开发空间。我们不能说这个企业里面有了一个人脸识别,有了一个对话框,我们就说它是智能化了。
你的核心的产业、核心的生意有多大程度上在真的被AI所改变?有AI和没AI,你的利润、你的营收,你的客户服务水平和质量差了多少?那如果按照这个角度上来讲,各行各业的 AI 价值,那今天非常早期的阶段。
“行业大模型的构建,更重要的是数据”
新浪科技:公司之前发布的先知5.0行业大模型平台,宣称可以预测下一个任意模态,这与大模型技术领域一直在提的“下一个tokens”有何区别?本质上是否也都差不多?
胡时伟:其实就是下一个 token 或者是下一几个token,这涉及算法的结构里,你定义的输入输出层对应的表现,这个其实都是可以对于不同的问题来进行不同的设计,进行算法和整个算法架构的设计,相对来讲比较灵活。
所以,我说最关键的问题是你真实世界当中的各模态的数据,你怎么能输入进这个算法里边去,你经过什么样的构建,然后进了这个算法里边,进去后再怎么通过数据进行训练,让这个模型的效能越来越好。
其实我们去把这个模型的效能变得越来越好,是有很多不同的方式,其中有个很重要的方式就是我定义一个核心的指标,然后我们通过不停地训练,不停地创新去逼近这个指标。此外,我们还可以引入更多的数据,对已有的数据进行不一样的处理,或者甚至有的时候我为了引入更多的数据,我去改变我的业务流程。
所以,行业大模型的构建,其实最终体现为这个模型在行业当中它预测得越来越准,但它的来源其实并不简单地是算力的堆砌,或者简单就是算法的优化,我们看起来更重要的是数据,是数据决定了这件事情的上限,你最好就是能把数据的价值全部榨取出来,所以进行数据建设特别重要。
而且,一个企业永远不能说我已经有数据了,或者一个企业也不应该说我没有数据,因为数据就是来自你的生产过程。而真正的研发过程、训练过程你投入多少算力,投入了多少工程师,决定了上限能达到什么样的程度,而你懂不懂大模型的构建?懂不懂管理?是否拥有这个经验或知识?决定了你的效率是如何的。
有的人花三份的成本,有的人花一份的成本,比如你用大语言模型的架构可能也能从数学理论上去达到一个上限,但是你整个所需要的数据,所需要的训练过程,可能是几个数量级的,但是它的价值是一样的,那你为什么要花几个数量级的代价去做这件事情?
新浪科技:公司的“先知AI平台5.0”已经具备规模交付能力了吗?是如何实现的?
胡时伟:是的,其实我们有非常多的经验,帮助你的产业如何能更快地构建起你的大模型?就是整个产业的流水线,从业务到最后的模型出来,业务到数据到算法、算力一直到实现上的应用,再到整个大模型用起来,再反馈到生产过程当中,再产生数据,再回来整个闭环的流程,经过这么多年,其实它打造了一套标准的方法,这个事情是可以让大家少走弯路、降低门槛的。
“行业大模型不是买来的,短平快只是做启蒙”
新浪科技:在帮企业去做行业大模型或智能化转型时,很多客户的兴趣都很浓厚,但到了付款时却很冷静,你怎么看这个现象?有什么办法改变这种现状?
胡时伟:首先我觉得这里面有两个点是要变化的。
第一,他(企业)在做这件事情,起初至少要朝着有价值的方向做,因为有一些问题他生来就没有什么价值,他就是做出来了,他也没有价值,那你没有价值的事情,自然大家最后为这个买单的意愿就不强,这是第一个点。
第二,我觉得 AI 这件事情是用数据持续进行训练的,它是一个长期的过程,有很多企业其实它一开始的数据基础设施和平台基础设施,它是要先行投入的,那很多企业它其实没有长期的这个关注,就是期望说我能不能短平快,那其实某种意义上来讲,短平快只是做启蒙,让他认识到这个东西有用才行。这是一个播种和收获的过程,你在数据上,在架构上,在整个的研发团队上,你不做足够的投资,其实你是出不来效果的。很多企业要意识到,行业大模型是要构建的,而不是靠买来。
每个企业它的问题,它的数据,都有一定的差异性,你能购买来的只有共性能力,比如软件平台、硬件算力以及管理方法这些是共性的,但是到了你这个企业里面,还要根据自己的特性来把这个价值真正地落下来,价值落下来他一定要买单的,因为价值落下来了不买单这个价值就没有了。
新浪科技:现阶段企业落地行业大模型成本跟价值能匹配了吗?
胡时伟:我觉得长期来讲一定是很赚的,短期的角度来讲其实要做AI,还是要有一定的投入的。