户外常识 分类>>
什么是AI的“智能涌现”以及为什么理解它对创业者、从业者、普通人都价值巨大
什么是AI的“智能涌现”以及为什么理解它对创业者、从业者、普通人都价值巨大篇。它适合AI创业者、AI从业者、AI关注者阅读。所有文章遵循简洁、简短的原则,力图把复杂的洞察用人话讲清楚。未来你会发现,这些文章会很有远见、价值巨大,
AI大模型存在智能涌现的现象。当规模超过约600亿参数时,它们将展现出前所未有的新能力,这就是我们所说的“智能涌现”。
别这样,你要相信你自己,学术界尚无定论的议题,不代表普通人不能理解,因为理解一个现象和用公式证明它是两码事。
在数学领域,有许多命题难以证明,但你却可以轻松理解。例如,你明白1+1=2,但要严格证明这个等式,却需要使用研究生水平的数学知识。
在物理学领域,情况更是如此。人类利用了许多现象却不了解其原理,例如骑自行车——为什么超过一定速度,车就不会倒?这个物理原理至今未明,但亿万人每天仍然骑车不倒。
还要强调一点:相比从数理上证明一件事,从直觉理解一件事,并不“肤浅”。正确的直觉理解恰恰可指导后续的数理证明。
爱因斯坦曾意识到要推导相对论,他必须先“体验”相对论,因此他花费许多时间去思索“一个人坐在光上会看到什么”。
相反,如果你能用方程描述一个现象,却不能从直觉上理解它,这往往意味着你并未真正理解,理查德·费曼曾说过:“尽管我们能用公式计算,但我敢说没有人真正理解量子力学”。
真正的挑战也许是:要使用简明易懂的语言,让普通人从直觉上理解“智能涌现”这个概念,本身是一个极具野心且难以完成的目标。
读完本文,你会看到,当你从直觉层面理解“智能涌现”这个概念后,它会成为你思考其他AI问题的基础;成为你构建更大、更复杂思维的“乐高积木”。
这意味着,对于AI的发展,你将更有洞察力和预判力,相关概念,你能懂、能用、还能拿去在朋友面前装个x。
没错,不仅你看出来了,所有人到这一步都看出来了,且毫不费劲:一艘船、水面、远山、太阳、云朵、树木,以及整体的圆形。
“图片实验”的结果是:前4步无人看出,第5步极少数人能依稀辨认,而到了第6步,突然所有人都看明白了。
图片在第6步突然有了意义,这就是涌现,一种突然的理解、突然的获得;在涌现之前毫无痕迹,在涌现后轻而易举。
说得很对,而这正是涌现的特征:涌现存在一个临界点(下文中又叫“阈值”),在这个点附近,涌现不是一定发生或不发生,而是会不稳定地发生。
反过来,当观察到涌现在不稳定地发生时,我们就可以据此确定:当前的要素规模(比如像素规模)正好处于涌现的阈值附近。
在上述“图片实验”中,由于图片的像素规模在32x32这个附近时,涌现变得不稳定,具体表现为:有的人能看出图里的内容,有的人看不出;有时这张32x32的图能看出,另一张32x32的图却又看不出,我们可以据此认定:32x32的像素规模就是一张图片涌现出意义的阈值。
请注意,图像是否能涌现意义,只与像素规模有关,而与图像大小无关,图像太小看不清是一个单纯的视力问题,用放大镜就好了,而像素规模小造成的“看不清”,无论什么镜都帮不了你。另外,把32x32定为图片涌现图像意义的阈值,这是一个经验值,我们会在后面反复用到它。
在本文最开头我们说:AI涌现新能力的阈值是在600亿参数,也就意味着一个参数规模在600亿左右的大模型,会表现出不稳定的高级智能:有的问题它能回答,但稍微改变一下问法,它可能就懵了;同样的问题,这次它能答对,下次却又错了……等等。
你可能还会质疑:第五步图片的像素规模是32x32,第六步是64x64,这之间差距可不小啊,怎么能称之为“突然涌现”呢?多了这么多像素,一点都不突然嘛!
但要我提醒你的是:微观渐变并不能否定宏观的质变(即突然地涌现),宏观的质变也不能简化为微观渐变。
举个例子:沙堡是由沙粒组成,但沙堡会崩塌,沙粒不会,“坍塌”是成规模的沙粒涌现出来的宏观特性。
以上我们通过“图像实验”直观体验了什么是涌现,然后回答了两个关键质疑,一个涉及涌现的稳定性和阈值,另一个涉及宏观与微观的关系。
恭喜你,你已深入探索了涌现的本质,也许你没有意识到,在直觉层面,你对涌现的理解已经跟这个领域的顶尖科学家差不多了,只是他们还将用数学语言做进一步研究,而你停留在直觉理解——已经很够用了,想想爱因斯坦。
类比是很重要的思维方式,但运用不当会得出荒谬结论,比如:把天体运动和人生命运进行类比和关联。
人类几乎无法理解和想象高维系统,而AI模型恰恰拥有海量维度,要想从直觉上理解它的涌现现象,不太可能。所以我们降维,用二维图像来完成对涌现现象的理解过程。
无论你是创业者、从业者还是普通人,当你从直觉上理解了智能涌现后,你将能更好地理解以下7个极深刻的问题。
我们还是拿“图片实验”来回答这个问题——插一句,好的实验就是这样,可以回答不同现象和不同问题。
但无论你怎么看,哪怕用尽全身力气,你都不可能“看清“这个人到底有没有挥动扇子,因为要涌现出”挥扇子“这一事件,至少需要两张图,像下面这样:
而这个例子告诉我们:要涌现一个扇动扇子的事件至少需要两张32x32像素的图,即至少要2x32x32=2048的像素规模才能涌现。
图片是如此,跟图片等价(只是维度更高)的AI模型也是如此。所以,600亿不会是涌现的唯一阈值,甚至可能不是最关键的那个。
其次,人类对AI进步的感知,会受到阈值的深刻影响,表现为,刚突破阈值时,兴奋不已,之后越来越习以为常,直到突破下一个阈值时情绪再次high起来。
第三,但最终人类将抵达这样一个临界点:越过它后,人类再也无法感知到AI的进步——即便它依然在大幅进步和突破新的阈值。
接下来二十年里,每当AI的参数规模跨过一个新的阈值进而涌现出新的能力后,你都会强烈地、清晰地感觉到AI能力的提升,但之后,即便AI的参数规模仍在扩大,你对它进步的感知会越来越弱,直到AI再次跨越下一个阈值,你才会再次“哇哦!”。
过去十几年,iPhone屏幕分辨率在持续提高,但最让人惊叹的始终是iPhone第一次发布视网膜屏幕那一年,之后,虽然每次新iPhone发布都会强调屏幕又升级了,你却越来越难感知到屏幕的变化。
尤其这两年,拿到新款iPhone时,你多半会说:屏幕好像…是比上一代iPhone又好了些,好像是吧?但具体的…我也说不上来。
而最有趣的地方在于,在你使用新款iPhone几个月后,如果再次开机旧iPhone,你多半会感慨:“呀!老款iPhone的显示原来这么拉垮啊,怎么我之前用的时候不觉得?”
每当AI涌现出新的能力,你会“哇哦!”一下,之后,虽然每一代AI都在进步,你却越来越难感到差别,逐渐陷入一种”是有点不一样,但说不出来”的感觉里。
未来的你会说:“ChatGPT14好像确实比ChatGPT13更善解人意一些,但具体好在哪里我也说不清楚。”
这是今天正在发生的事:使用过GPT4后,很多人会很难再回去使用GPT3.5,即便在某些任务上二者表现差不多。
这种感觉不到AI进步的局面,将一直持续到AI的参数规模跨过下一个阈值,然后新能力涌现,你又会大声地“哇哦!”。
故事到这里还没有结束,终有一天,你以及整个人类将彻底地感知不到AI的进步,即便它依然在飞速进步、跨越阈值。
人类对图片的精细度存在一个终局性的感知上限一样,这个上限就是人眼的分辨率,具体数值还有争论,但这个上限是硬性存在的。同样的,人感知智能也将有上限。是多少呢?目前没人知道,但我猜测是在100万亿参数这个量级附近。
有句话是这么说的:当你遇到一个人,你说什么他都能理解,你们沟通无比顺畅,跟他在一起时你感觉自己聪明、自信、有魅力,你觉得找到了人生伴侣、灵魂伴侣。那99%的可能性是你遇到了一个情商智商都很高的人,他在对你向下兼容。
当AI智能超过到人类感知的上限后,面对AI你不会自卑,相反会更加自信,你会觉得自己更聪明,你会更愿意跟AI相处,你甚至会爱AI 胜过人类,“他/她”是你的Soulmate。
”知识压缩“是过去几个月被讨论得很多的一个概念,理解它对理解AI有巨大的意义。但很难用人话解释清楚,其大意是:对完成某个任务有效方法的最小描述长度代表了对该任务的最大理解,因此我们可以通过比较不同AI模型对同一个任务的描述长度(即压缩效率)来评价AI大模型对该任务的理解能力。
按理说,即便是像素规模达到32x32,涌现也是不稳定的,只能让少数人看出来。为什么这幅图这么特殊,绝大多数人都看出来?
你甚至可以轻易地指出正在亲吻的两人是什么姿势、轻吻的位置在哪里。而没看过的人,则一脸懵逼:我是谁,我在哪里,你们在说什么?。
更进一步,如果有一千张这样的图你都能看出来(即便你不知道画家是谁,画作叫什么名字),我们可以说:你在绘画方面有丰富的知识。
因为知识就是对现象的规律性总结,当我们说“这个知识概括、总结了一系列现象”,我们本质上是在说这个知识压缩了这些现象!
上面两句话都很好懂,但将它们联系起来就很厉害了,将不仅让你能理解为什么你可以看清极度模糊的蒙娜丽莎,更能让你理解AI工程的本质——而这正是我们的目的。
训练大模型的过程本质是一种“尝试-验证”的过程:大模型猜测一个可能的压缩方法,然后验证它是否正确。这个过程会重复很多次,消耗巨大的算力。
那么,如何验证一个压缩方法(知识)是否正确呢?要满足两个条件:首先,这个方法(知识)确实可以让数据被压缩,比如一张蒙娜丽莎图片;其次,逆向使用这个压缩方法时,还能够让压缩后的图片依然涌现原本的意义。
如果一个压缩方法(知识)压缩率很高,还原度又很高,我们可以说:这个压缩方法(知识)更具有本质性。
除了AI,你的大脑也是这么工作的,当你第一眼看到蒙娜丽莎时,你的大脑就完成了上面所有的步骤。
实际上,你大脑确实是这么工作的,回想一下,当你看到上面在那张16x16像素的图时,发生了什么?
你的脑海里是不是出现了(生成了)蒙娜丽莎大致的样子?并出现了(生成了)一些细节,比如她手放的位置,她的眼睛,乃至她那神秘的嘴角?
举一个直觉上很好理解的例子:如果一个学生A看了例题后,可以背着把例题做对,我们可以说,这个学生掌握了些知识,但如果他只会解这一道例题,显然不能说他学得好。
假设另一个学生B,他看了例题后不但做得出原本这道例题,还能做出更多题来,我们显然可以认为他学得比A好。
学生B找到了更多的压缩方法(知识),因此相比A,学生B才能压缩(总结、概括、解答)更多的题目。
我不知道,有没有别人从这个角度定义过泛化(ChatGPT告诉我没有),但我真的认为它是一个直指本质的定义。
顺着以上的理解,关于智能的本质,我们可以写n篇文章。同样的,限于篇幅所限(用费马的话叫做,“此处空白太小我写不下”),我们先做一个总结,直接给出几个很重要的结论:
当我们正向使用压缩方法(知识)时,可以压缩(总结概括)数据;当我们逆向使用压缩方法(知识)时,则可以让被压缩后的数据涌现出原貌。
低级智能以还原主要表现。高级智能则拥有更强的泛化能力。而泛化本质是大量的、成规模的知识涌现的结果。
你电脑里那个小小的压缩软件就是一种人工智能,只不过它是一种原始、低级的人工智能。它的压缩算法(知识)数量有限,这造成它主要做的是还原而非生成。
在进化领域,有一种叫做“前生命体”的东西,指的是一种在进化上介于“生命和非生命”之间的物质。它极其简单,缺少某些连最原始细胞都有的细胞零件,但它呈现出生命特有的物质交换特点,它是所有生物最早的祖先。压缩软件就是一种“前智能体”,它介于“智能和非智能”之间。
在训练AI大模型的过程中,不存在无损压缩,也不应该追求无损压缩(即预测无误差),误差(Loss)是智能涌现的必要条件,它的本质是知识之间不可避免的“空隙”,以及知识之间的不可调和。
如果你是AI领域的从业者,上面对泛化的理解可以很好地指导你的工作。比如,选择训练数据集的技巧,就可以从这条结论中推论出来。同时这条结论还可以让你从一个全新的角度去理解训练误差(Loss)。具体我们以后另找机会再聊。
关于OpenAI的成功已经有很多论述,但下面要讲的你一定从未看到过(如果你看到过,当我没说)。
在问题5中我们说了,你电脑中那个小小的压缩软件就是最原始的智能体,我们还说了它之所以原始是因为它掌握的压缩算法(知识)数量有限,这造成它主要做的是还原而非生成。
其实压缩软件最大的问题是:它的压缩方法(知识)是开发者写进代码里的。这就造成它的压缩算法(知识)不会太多,只能是寥寥几条。
同时,为了有商业价值,压缩软件本来就是以“精确还原”为目的去设计和开发的,你显然不希望明明解压的是”美女帅哥.rar”,得到的却是 “葫芦娃全集.mp4” 。
相比压缩软件,AI工程的最大特点是搭建了一套训练架构,可以让AI大模型自行寻找可能的压缩方法(知识),这样的架构存在两个优势:
一是,只要算力和数据够,它可以尽可能地寻找所有的压缩方法(知识),这里面将包括海量的、人类没有找到的压缩方法(知识);
二是,由于AI是自行从数据中寻找压缩方法(知识),因此AI天然地具备反向利用压缩算法进行生成的能力!
但为什么它们远不如ChatGPT让你惊叹?为什么我们会说ChatGPT开启了AI2.0时代?
过去10年,绝大多数研究者、工程师们都没有意识让AI自己去找压缩方法(知识)这件事极为重要和有价值,几乎所有研究者都自负的认为:应该是由人类来教会AI压缩算法(知识),而不是AI自己。
尤其考虑到让AI自己干所需要的算力、数据量,你就更明白这样选择的合理性。假设一个活儿,实习生干要花1000万,你亲自干只需要1000块,你怎么决策?
更不要说,你在一开始完全不知道需要1000万还是1000亿,你面对的风险是:这活拿给实习生干,没准能把公司干垮100次,还没有结果。
本质上,研究人员陷入了某种“求职悖论”:除非实习生有这个能力,否则你永远不会让他干这个活儿;但如果你不让他干这个活儿,他就永远不会有这个能力。
过去10年,人类没有意识到高级智能必须是一个生成过程,生成和高级智能本质是一回事。这意味着,人们没有意识到必须以生成为目标去打造人工智能,否则人工智能就不会智能——至少不会非常智能。
这背后的原因是:人们一直误以为,生成不过是人工智能达到一种程度后,其发挥价值的商业场景之一。
一方面他们要在算力和数据投入上不计代价,这才能给AI机会,让AI自己可以大规模地发现压缩算法(知识)。
另一方面,他们要在商业上不计回报,不以任何具体使用场景为目标,而仅仅以生成为首先和首要的目标,这样才能给AI机会,让AI可以去尝试逆向使用压缩算法去生成,然后持续调优。
很多人没有看到事情背后的悖论,把OpenAI的成功简单的归结于大力出奇迹、有AGI信仰。却是OpenAI完成了两个悖论的解套。
尤其第二个悖论,根据目前的线索看,OpenAI自己直到ChatGPT推出前夜,也没有充分意识到生成的重要性——他们意识到了它非常重要,但依然低估了它。
而对于第一个悖论,很多知名的专家至今很难接受,Rich Sutton作为业界的大神,曾在2019年发表过一篇名为《Bitter Lesson》的著名短文,文中感叹:过去70年的AI发展史证明,在算力上追求大力出奇迹才是最有效的方法。
Sutton 用几个AI史上的著名案例证明了他的观点,但纵观全文,至少Sutton在写他这篇文章时没有想明白为什么“大力”就可以出奇迹。
我不清楚Sutton现在是否想明白了,但我想你现在应该搞明白了。也许整个故事里面最重要的一点是要意识到:
强大的泛化能力是从成规模的知识中涌现出来的,而要获得成规模的知识,唯一的办法是让AI自己去找,而这需要算力。
所以,哪里有什么大力出奇迹,海量的算力是基础,是前提,就像水到100度才能开一样的必然。当然这种必然,需要有勇气的人才能发现。
所以,你是说让AI自己去发掘海量的知识,把它们堆成一堆,就能涌现强大的、有生成能力的智能吗?
我们说,像素需要达到32x32的规模才能涌现出意义,但并不是说,达到了32x32的规模,像素就必定涌现出意义,也可能只是一个有32x32个像素的“垃圾堆”。
但ChatGPT就是AI的终极形式吗?接下来的工作就是在原有基础上持续优化,让AI从语言乃至图片中(从编码角度看图片其实也是一种语言)挖掘出更多的知识,涌现更好的智能?
作为一个基于文本训练的模型,ChatGPT等大模型主要掌握了关于语言本身的知识(比如语法),以及可以用语言(包括数学语言)描述的知识,这是一个伟大的成就,但十年后我们回看今天,我们会发现这只是渺小的开端。
这就引出一个问题,如果我们可以穷尽所有知识,我们应该用怎样的形式让这些知识涌现出更强大的智能?
世界模型并不是一个很新的概念,几十年前就有研究者在思考。以至于当图灵奖获得者、Meta的首席AI科学家Yann Lecun 提出“世界模型才是AI的未来”时,受到了不少人的嘲讽,人们认为他是在“新瓶装旧酒”。
OpenAI的首席科学家Ilya就在访谈中认为,世界模型不是一个值得深究的概念。他唯一承认的是,也许世界模型有价值,并且很高效,但仍然嘴硬地认为不是必须。他甚至恰好用AI如何理解“绿色”作为例子,来证明自己的观点。
我认为,如果Ilya不是兵不厌诈、误导竞争对手,如果他是真的这么想,OpenAI其实很危险。是的,盲人是可以理解绿色,但毕竟还是盲人啊。
一个台球运动员,可以不知晓“球体碰撞物理学”,却可以无需计算动能、动量,仅凭对球体碰撞的直觉把握,就可以击球乃至赢得比赛。
第二步,在击球前,他不是拿出小本本来计算物理公式,而是在脑子里模拟击球的球路、碰撞后的走位,俗称“过电影”,然后——挥杆击球!
每个专业台球运动员的脑子里都有一个台球桌,桌上有球。这个脑中的台球桌就是外部真实台球桌在脑袋内部的模型。
就像台球手不计算物理公式,而是让脑中的模型“动”起来、去模拟真实台球一样,我们思考时,也是如此。
想象一下,当你思考“明天怎么跟老板谈加薪”,脑子里会出现什么?——老板的办公室、老板、你自己……,然后你会让这些东西在脑子里“动”起来。
你和你老板的行为要符合你理解的社会法则,你的老板不会突然掏出一箱金条给你(哪怕你非常希望这件事发生)。
最终你根据模拟的结果去行动。在这个过程中有语言吗?有,但不是全部,甚至可能不是最重要的东西。
通过模拟一个台球桌,模拟一个办公室+老板+自己,就可以去比赛,去加薪。那如果有一个AI能穷尽整个世界的知识,并在它的神经网络里将这些知识以特定的层次组织起来,然后让这个世界“动”起来,会发生什么?
实际上曹雪芹在写作红楼梦时,脑中就有一个精细完整的荣府、宁府模型,以至于书中那些关于支出进项的片言碎语汇集起来,居然是一本很清晰的账目,可以撑起后世学者进行相关的经济学研究。
一个爱因斯坦+曹雪芹水平的AI…想想就让人激动。也许下一个评估AI智能的标准就是看它能不能续写《红楼梦》后40回。
这不是在讲科幻,你要知道,在十年前乃至五年前的人看来,今天的AI已经很科幻了。你更要知道,乐观预估AGI(通用人工智能)将会在2027年出现……
同样,关于世界模型的话题,我们还可以讲很多,先就此打住,这里直接给出一些有价值的结论,不少是我的原创思考(可能别人也说过,但我不知道):
OpenAI对于ChatGPT所做的RLHF(基于人类反馈的强化学习),本质上就是在搭建一种初级的世界模型——它将人类的社交禁忌知识,用“人肉”的方式告诉AI,并要求AI把这些知识置于其他知识的下方,成为其更底层的“信念”。
世界模型也不是AI的终局,更之后的智能,将在更高维度涌现,比如从1000万个智能体的协同中涌现出来。
一开始,我们是以“从直觉上理解AI”为目标而出发的,绕了一大圈后回来却发现,AI的终局恰恰是“让AI从直觉上理解世界”。
如果你是一家宣称致力于大模型的公司,请你务必严肃认真地思考“世界模型”这个议题,不要因为它还很遥远就搁置一边。
实际上,一旦你涉足了这个领域,你就是领先的。因为即便是OpenAI的 Ilya,或者Meta的 Yann Lecun 对这个议题都还一知半解。
Yann Lecun 最近刚提出了一个世界模型的架构,其本质是一个类脑架构,很有启发性,唯一的问题是他对于大脑生理的认知也算不得多深。作为一个AI、脑科学、心理学“三修”的人士,我真的可以做出这样的评价。
还需要特别要注意的是,如果你真的致力于搞大模型,也许你要捺住去搞AI应用的念头。你应该让你的AI有更具普遍性的商业价值,比如生成、意图实现等等。
但不要奔着很具体的商业场景去搞AI应用,最主要的原因不是因为要构建什么生态,而是存在一个核心判断:现有的AI能力远没到上限,且很可能很快跨越下一个阈值。
反过来,对于没有打算/能力做大模型的公司,应该踏踏实实的做好AI应用,你要相信开源的力量,而不是担心大模型公司会侵蚀应用层。既然发明不了“火车头”,那做一家“铺铁轨”的公司,从历史上看,后者往往同样赚钱,且成功率更高。
要用最简明的语言解释清楚本文所涉及到的议题,是一个巨大的挑战。在这个过程中,我自己对AI的理解也深化了很多。
问题4和问题5,受到了OpenAI 研发主管Jack Rae 所做的名为《Compression for AGI》的访谈的启发。Jack 的观点极有启发性,但同时,我认为他犯了很严重错误,因此我的部分观点与他不一致。
本文中的一些观点,可以从信息论中获得解释,但我认为对普通人不太必要,而且它们缺乏直觉性,同时是微观而非宏观的。
本文的讨论主要集中在大语言模型(LLM),但也适用于对图像生成模型的理解。实际上,本文揭示了二者底层的统一性。后面会有文章进一步讨论。
由于我的愚蠢和精力有限,本文中多个议题无法彻底展开,只能直接给一些结论,剩下的留待以后再另文探讨。见谅。
本文其实有一个重要的隐含议题,没有被讨论,那就是“观察者和被观察对象”的问题——你有意识到吗?“涌现”是需要观察者的。而这恰恰是我认为智能必须是一种生成过程的底层逻辑,具体的后面再讲。
如果你要引用本文的观点,请注明来源,因为我的观点很可能是错的。——对,我说的所有的,都是错的。
今年1月,在咱们“AI产品经理大本营”的成都闭门会上,文君做的1.5小时超干货分享《从n走到n+1:未来5年,AI创业公司CEO和产品经理的生存法则》,得到了广大好评。
作者:黄钊hanniman,前腾讯PM,前图灵机器人-人才战略官/AI产品经理BWIN必赢,11年AI、14年互联网经验;垂直于AI产品经理的第一社群“AI产品经理大本营”(6年)和自媒体“hanniman”(9年);作品有《AI产品经理的实操手册》。返回搜狐,查看更多