“Token”有了中文名“词元”那么Token(词元)到 2026-05-28 23:50 J9.COM·官方网站
分享到:

  我认为,新的数据要素市场的呈现,对立异型企业、中小企业、草创企业可能会愈加敌对。由于,大大都保守企业会更多享受保守要素市场的益处,而对新的数据要素市场可能会有必然的惰性。所以,这是企业立异成长的一个最好的机会。

  正在Token(词元)呈现之前,数据的价值很难界定。但跟着人工智能的成长,原始数据变成了Token(词元),Token(词元)通过大模子以必然的体例进行畅通,并向那些使用人工智能的消费者收取必然的费用。能够说,Token(词元)使数据本身完成了富丽转型。

  2026年1月底,一款名为Open Claw(昵称“小龙虾”)的开源AI智能体俄然爆火,从手艺圈敏捷席卷全网,了全平易近“养虾”时代。这款以小龙虾为Logo的智能体,完全打破了保守AI只会聊天、不会干活的局限,凭仗、决策、施行的闭环能力和24小时自从运转,成为可以或许领受指令、挪用东西、读写文件、施行脚本的全功能数字帮手。

  别的,需要指出的是,Token(词元)的迸发式增加是需要强大的物质根本来支持的,因而,单个Token(词元)的成本必然要降低。大师设想一下,若是用电成本不降到脚够低的话,老苍生是不成能遍及利用的。而单元Token(词元)成本的降低,除了进一步提拔人工智能手艺、算力手艺外,还需要不竭改良人工智能模子的使用。这就像晚年我们用白炽灯,大部门的电都被热量耗损掉了,所以现正在我们遍及利用节能灯。我相信将来的人工智能使用也会不竭改良,尽量节制Token(词元)的消费量,这是一个不竭迭代、不竭成长的过程。

  我们日常平凡利用的通俗的数据,也称为原始数据。人工智能模子利用原始数据之前,起首必需把所有的数据Token(词元)化。我们能够把模子理解成一个“文字翻译器”,但它并不像人类那样间接理解句子或段落,它必需先将输入的文字切分成一个个小块,然后给每个小块分派一个独一的数字ID,再把这些数字交给神经收集进行计较。这些被切分出来的“小块”,就是Token(词元)。它既不是英文里的单词,也不是中文里的字,它是以它本人的体例组合的最小单位。

  正在软件时代,一个软件有几多行代码,根基上代表了这个软件的复杂度,也就是它的价值。今天,当我们用AI模子的时候,Token(词元)就会发生畅通,这个畅通既显示出本来锻炼模子时所耗损的算力,同时也显示出其本身运转需要耗损的算力。所以,Token(词元)的消费量激增,代表人工智能使用成长到了一个新的程度。

  此前,良多人对人工智能的关心大多逗留正在大模子的手艺竞速上,而Token(词元)的价值正正在把一场深层的财产变化带到所有人的面前,它不只反映正在手艺层面,更将沉构整个行业、整个财产的成本布局、贸易模式和协做体例,继而全面影响人们的糊口。

  从数据要素市场的角度来说,它还将有益于数据和算力的全球畅通。好比,你今天拿动手机到南美一个处所使用了AI,这就意味着Token(词元)从中国到了南美。若是一个南美的开辟者用中国的模子开辟了使用,并向南美消费者供给办事的话,天然而然Token(词元)就畅通到了南美。所以,当人工智能平台办事全球的时候,Token(词元)就变成了一种结算体例。

  Token(词元)是大模子理解、处置、生成消息的最小单位。打个例如,一般环境下我们是用两个字节表达一个汉字,所以,若是要表达“我喜好你”,加起来就是8个字节。而正在AI模子中,若何把“我喜好你”这4个字拆成最小的数据单位呢?按照我们的理解,“我”是一个最小的单位,“喜好”是一个最小的单位,“你”是一个最小的单位。可是从Token的角度来看并不是如许,“我喜好”可能是一个最小的单位,那么“我喜好你”就变成了两个Token。正在良多场景中,它跟我们日常平凡的经验是不分歧的。所以,Token(词元)是以它本人的体例组合、供模子处置消息的最小根本单位,它更像是一个“词块”,能够是一个完整的词、一个常见短语,以至是一个标点符号或特殊字符。

  其实,正在过去几年,人工智能的背后曾经有Token(词元)的概念了。人们利用豆包或千问时,你问一句,它答一句,Token(词元)的消费量没那么大,也就是说算力的消费量没那么大,所以可免得费利用豆包或千问。

  人工智能模子的运转逻辑,就是找到分歧Token(词元)之间的关系。试想一下,要锻炼一个狂言语模子,可能要用上亿个Token(词元),所以就要找准它们之间的关系,而且很好地正在模子中表达出来。当大模子取某个使用连系时,好比你向大模子提问,它就会正在算力“算”完后输出响应的Token(词元)做为谜底。

  这里需要强调的是,“智能体”这个词的翻译不太精确,其实它本来的意义是“代办署理”,翻译成“智能代办署理”该当更合适。从这个角度来看,未来会呈现各类各样分歧的“智能代办署理”,好比“旅行代办署理”“看病代办署理”等,能够帮帮我们处理糊口中方方面面的问题。

  总而言之,Token(词元)正在人工智能时代是一个很是环节的概念,它取手艺、贸易、使用以及财产成长都互相关注。但愿大师可以或许领会Token(词元),用好我们手里很是贵重的资本——数据资本。

  Token(词元)正在范畴被大师所认识,是由于2017年颁发的一篇文章《你所需要的只是留意力》。这篇文章由谷歌的8位科学家创做,此中提出的Transformer架形成为人工智能模子的基石,同时也提出了Token(词元)这个概念。Token(词元)的呈现,意味着数据有了本人的“人格”,数据有了本人的身份。也就是说,任何数据若是没有Token(词元)的身份,就进不了人工智能模子。

  若是没有根基的计量单元,是不成能构成一个新兴财产的。打个例如,你跑到菜市场去买菜,若是没有计量单元,称不出几斤几两,这个菜市场就不成立。卖鱼的、卖肉的、卖鸡鸭的都没有同一的计量单元,那是难以构成必然的经济规模的。这也是过去市场一曲没有成立起来的次要缘由。

  因而,Token(词元)的呈现,现实上标记着市场的。这是一件具有深远意义的工作。我们晓得,一个工具正在市场上畅通时,它会颠末良多人的手,每次过手的时候,它都要做一次结算。有了Token(词元)这么一个可计量、可计价的单元,就意味着所有的数据正在畅通过程中能够从动结算,这将使财产链的成本大大降低,畅通速度大大加速,并成为人工智能财产贸易化的主要径。未来,当一个企业为另一个企业出产Token(词元)时,它们正在收集上能够轻松完成买卖,因而,数据要素市场将比其他要素市场愈加高效。

  无独有偶,2026年3月25日,美国人工智能公司OpenAI颁布发表终止旗下AI视频生成模子Sora所有的办事取运营。现实上,自2024年2月初次表态以来,Sora正在约25个月的运营时间里,使用法式的总收入仅约210万美元。而据福布斯测算,Sora项目年化运营成本高达50多亿美元。每日数亿级的Token(词元)耗损,让即便获得了大量投资的OpenAI仍感不胜沉负,只能忍痛将其关停。像Sora如许的事务,恰是由于生成视频需要花费比大师想象多得多的Token(词元),成果,花费那么多Token(词元)生成的视频的价值还抵不外Token(词元)本身的价值,所以贸易逻辑无法成立。

  正在人工智能大模子范畴,Token(词元)是权衡算力取成本的计量单元,因而它具有可计量、可订价、可买卖的特征。

  人类成长的速度很是快,之前是消息时代,很快又进入了AI时代。可是,正在很长时间里,我们并没有把消息和数据进行很好的区分。我们过去讲的比特、字节都是消息的计量单元,正在很长时间里我们也用这些计量单元来计较数据。而Token(词元)这一概念的呈现,使数据有了明白的计量单元。这是把数据和消息区分隔来的一个很是主要的分水岭。

  拿电来打例如。晚期的时候,家里只要一个电灯,只用一点点电,洗衣机、空调,用电量大增,这代表了糊口程度的提高,也申明电对社会糊口和经济的影响。Token(词元)的迸发式增加也是一样,这是一个很是可喜的庞大变化。所以说,Token(词元)的耗损量是人工智能时代的标尺。

  没有任何一家企业是能够不和出产要素市场打交道的。所以,我们必然要把Token(词元)放到数据要素市场的布景下,而不是简单地放到人工智能的布景下去理解。

  我认为,人工智能的变化将远远超出之前所有手艺带来的变化,这可能是自人类发现电以来最大的一次变化。大师想一下,自从发现电当前,发生了几多财产,发生了几多分歧的工业门类,人工智能也会有那么大的能量。

  同时,Token(词元)也是AI范畴的计量单元。用通俗的话来说,Token(词元)这个概念像我们日常平凡讲的斤、两之类的计量单元。并且,就像糊口中一斤肉比一斤青菜贵一样,分歧的Token(词元)也有分歧的价值。若是一种Token(词元)背后耗损的资本比力多、生成比力复杂,那么它本身就比力有价值,可能这种Token(词元)就会贵一些。所以,Token(词元)不克不及简单地等同于货泉,它是数据的通用计量单元。

  以“小龙虾”为例,它素质上使我们的工做体例发生了一次很大的改变。以前我们经常讲,要提高工做效率或者改变工做体例,而以“小龙虾”为代表的智能体的呈现,以至改变了工做本身,几乎每一项工做城市晤对大的变化。

  AI大模子呈现当前,大师一曲有如许一个迷惑的问题:到底用什么形式、什么方式来利用人工智能模子呢?这正在过去是一个问题。而“小龙虾”的呈现,申明人工智能有它本人奇特的使用体例。好比,“小龙虾”把过去App的概念了,利用人工智能使用不需要再去拆一个个App。一个“小龙虾”现实上做了过去十几个、二十几个App做的工作。能够说,“小龙虾”的形态和建立体例取人工智能是相婚配的。

  可是,实正用过“小龙虾”的开辟者和用户都晓得一个痛点:Token(词元)耗损太猛了。一个看似简单的查询,就能耗损几十万Token(词元),从而让消费者收到超出想象的高额账单。

  其次,意味着人工智能正在中国的成长到了一个很是主要的拐点。正在国内,开辟、利用人工智能的人越来越多,每小我利用的量也越来越多。日均Token(词元)挪用量的大量添加,充实表白中国的人工智能成长曾经进入了快速增加的阶段。从能对话的言语大模子到能决策施行的智能体,跟着使用场景的不竭深化,中国人工智能财产的合作力也显著加强。

  国度数据局局长刘烈宏正在本年3月24日国务院旧事办举行的旧事发布会上发布了一组令人的数据:2024岁首年月,中国日均Token(词元)挪用量为1000亿,至2025岁尾该数据跃升至100万亿,到本年3月曾经冲破140万亿。两年间,增加跨越1000倍。

  设想一下,我们的工做有几多分工,未来就会呈现几多分歧形式的工做代办署理。“小龙虾”只是此中的一种代办署理罢了。可是成心思的是,“小龙虾”完成的一部门工做是以前没有人做过的。若是你用过“小龙虾”就会发觉,以前没有人会把本人所有硬盘上的工具都看一遍,把本人几十年的照片都看一遍,但“小龙虾”能够做到,只需它感觉这件事跟工做是相关系的。所以我认为,未来“智能代办署理”会完成一些没有人做过的工做。如许的话,一种新的经济模式可能会呈现。

  跟着“小龙虾”从小众东西成为公共使用,国度互联网应急核心取中国收集空间平安协会于2026年3月发布了《Open Claw平安利用实践指南》,面向通俗用户、企业用户、云办事商以及手艺开辟者等提出平安防护,为这一新兴生态系上“平安带”。

  正在消息时代,软件正在很长一段时间里不晓得怎样才能挣钱。正在微软公司呈现之前,软件只是硬件的附庸,所以软件财产一曲没有成长起来,曲到公司成为第一家挣钱的软件企业。所以今天,我们不克不及用静态的体例来对待人工智能,由于这是一个变化性的财产,就像昔时软件财产俄然降生并敏捷成长那样,可强人工智能财产的成长也会呈现如许的场合排场。

  可是,像“小龙虾”之类的使用,意味着人工智能成长到了必然程度,它对数据的需求大大添加。为什么此次“小龙虾”的呈现会Token(词元)这个概念呢?由于“小龙虾”的Token(词元)耗损不是按需触发,而是持续发生的,所以其消费的Token(词元)量大大超出了本来那些人工智能的使用,从而导以致用者需要为耗损的巨量Token(词元)领取账单。“小龙虾”正在素质上取其他的人工智能使用比拟,因为Token(词元)挪用量出格大,才使这个问题出来。