Introduction
Readings
Some interesting readings.
新时代研究的组织方式
随着大语言模型研究对算力、数据和人力的要求越来越高,高校在大模型时代的定位越显尴尬。事情已经比较清楚了,AI研究的组织方式,已经产生了质变,而且我很怀疑这只是一个开始,很快会扩散到其他领域。 我之前在另一个blog《OpenAI与古田军号》 对这个问题有过一些思考,现在我对这种变化的认识更加深刻了。 这种变化背后是“还原论”的失败。所谓还原论,指的是一种研究的范式或者指导思想,即“复杂的系统可以通过将其化解、拆解各部分的方法来加以理解和描述”。实验室的研究,正是还原论的实践:通过少量人力和物力研究分解的模型。这种研究的组织范式在过去几百年都是比较成功的,很多新科学新技术都是脱胎于实验室。工业界承担的任务主要是技术集成和工程实现,做成产品。 但是大模型有独特的性质:作为一个复杂系统,必须在一定规模之上才能产生效果。还原论在大模型面前是彻底失效的,因此实验室的组织方式也失效了。不仅仅是“产品”,连新技术都无法在实验室中产生。我怀疑大模型只是一个起点,随着复杂科学的兴起,还原论的失败可能在更多领域显现,比如量子计算机、脑科学等等。 新时代的研究组织方式的特点有: 规模化:大量的人力物力 工业化:组织形式类似工业界,集团作战,且有明确的任务和分工。 商业化:以商业化产品为目的,而不是paper。只有商业化,至少是商业化的可能,才能筹集足够的资金。 探索性:不仅仅是技术集成和工程实现,也需要探索性的研究,发现新的科学和技术。这是和一般工业界的区别。 其实在OpenAI之前,航天的研究也是这样的,只是我没有重视。比如马斯克的可回收火箭,也必须是一定规模之上才能看到效果。某种程度上,SpaceX就已经是新时代研究组织方式的先驱者了。 特别值得强调的是,并非人多钱多就是“新时代研究组织方式”了。有的高校实验室有上百人,却是各自为战,一团散沙。即便是工业界,很多公司也没有进入新时代。据我了解,商汤内部的研究组织方式非常松散,更接近传统的实验室,虽然产生了很多paper,但并没有带来类似大语言模型的突破。 如果不能意识到这种变化,必然会落后。我未来数年的任务,不仅仅是技术本身,也包括探索研究的组织方式,比如如何开展实验室和工业界之间有效双赢的合作;如何分配任务,发挥两者各自长处;在何时进行规模化,等等。发表paper是相对容易的,但如果想真正做出有影响力的工作,并推动社会的进步,这种探索是必要的。
资本主义
这篇blog很难写,我先写点东西,然后再慢慢修改。 引言 2023年2月3日晚间8时55分,一列载有氯乙烯等危险化学品的货运列车于美国俄亥俄州东巴勒斯坦脱轨,随即爆炸。这场事故基本可以认为是人祸,具体不再阐述。这是资本主义的一面。 2022年11月30日,OpenAI 开放了ChatGPT,引发了一场人工智能的热潮。这是资本主义的另一面。 资本的增殖作为社会运转的驱动力 所谓资本主义,我理解就是以资本的增殖作为社会运转的主要驱动力。资本的增殖之于社会,仿佛温差之于热机:温差驱动热机做功,而资本的增殖本能驱动了社会活动。在资本主义中,社会活动的目的并不是“造福社会”本身,而是资本的增殖,我们甚至可以说,“造福社会”是资本主义的副产品。这其中就有“不匹配(missalignment)”了。 然而值得注意的是,“不匹配”不代表“错误”。以A为目的,歪打正着达到了B,这种事情比比皆是。就拿大语言模型(LLM)为例,LLM的训练目的仅仅是预测下一个词,可以说是非常简单粗暴了,结果却涌现出了“智能”的迹象,我们也可以认为,“智能”是LLM训练的副产品。 既然是副产品,那就有善有恶了。资本投资技术,技术促进产业,产业回馈资本,正是这种循环造成了创新的活力,我认为这也是OpenAI的成功之源。而资本要求“降本增效”,“降本增效”带来安全隐患,同时资本勾结监管,允许安全隐患存在,这也是资本增殖逻辑下的必然。 资本主义的恶 在公司发展到一定程度之后,资本一定会要求“一切为了利润”。生产的目的是为了利润,劳动者的报酬成为“支出”,无论创始人初心如何,最后大概率都会被资本的逻辑所吞噬。作为社会绝大多数的劳动者无法控制劳动的走向,无法享受劳动的成果,这是资本主义的恶。 这不是我想要的副产品,我还是更喜欢“劳动者拥有公司,劳动者控制劳动,劳动者获得利益”。 值得注意的是,我并不讨厌市场经济,更不讨厌竞争。我觉得这些都是很有活力的东西,和我喜欢的副产品并不矛盾。 超越资本主义 从唯物的角度出发,要替代资本主义,在道义上批判资本主义的恶是没有用的,一定要在生产力上超越资本主义,取得竞争优势。 我现在能想到的唯一机会,就是“生产积极性”。这也不是新的概念,劳动者掌握生产工具,爆发出强大的生产积极性,这在历史上屡见不鲜。但是资本主义也有自己的武器:募资。以未来的利润为抵押,短期募集大量资金,快速成长(包括雇佣更多人),获得竞争优势。单靠少数人的劳动积极性,要如何竞争呢?我现在能想到的,就是员工募资,也就是让劳动者成为公司的股东,让劳动者和资本成为一体,并用筹集的资金加速成长。可是这里还有很多问题,比如筹资股价如何计算?如果员工离职,按照“劳动者和资本成为一体”的原则,应该把股份收回,这又如何计算? 历史上的探索 华为。华为99%的股份由工会持有,基本可以说达成了“劳动者和资本成为一体”的目标。但是华为的前期处于野蛮生长的顺风局,我不知道现在能不能复制。 OpenAI选择了一种新的股权投资协议模式。未来盈利后的OpenAI的利润分配将按照以下四个阶段进行。第一阶段将优先保证埃隆•马斯克、彼得•泰尔、雷德•霍夫曼等首批投资者收回初始资本;在第二阶段,微软将有权获得OpenAI 75%的利润,直至收回其130亿美元投资;第三阶段,在OpenAI的利润达到920亿美元后,微软在该公司利润分配比例将下降到49%,剩余49%的利润由其他风险投资者和OpenAI的员工作为有限合伙人分享。第四阶段,在利润达到1,500亿美元后,微软和其他风险投资者的股份将无偿转让给目前负责OpenAILP投资管理的普通合伙人——OpenAI Nonprofit。 从OpenAI利润分配阶段安排来看,其股权投资协议设计有以下特点。其一,优先保证早期风险投资和2019年开始进入的最大投资者微软的初始投资的回报安全。这体现在对这些投资者在利润分配前两个阶段的优先补偿。其二,这些投资者的投资收益主要体现在OpenAI利润分配的第三阶段。投资130亿美元的微软,将在OpenAI利润达到1500亿进入第四阶段前的第三阶段,将至少获得OpenAI49%的利润分配,在扣除初始投资后,投资回报自然是十分可观的,而其他投资者在这一阶段将同样有望获得不菲的利润分配。由于其股权投资协议强调风险投资回报安全和稳定的设计特点,乃至于《财富》该文的作者Jeremy Kahn对此的评论是,“OpenAI的做法是(类似于)将公司出租给微软,租期取决于OpenAI的盈利速度”。 reference 按:投资者无法永久拥有公司,只能租用公司,也许可以吃掉糖衣吐掉炮弹。但是这个社会实验还没有结束,我也不知道结果如何。 南斯拉夫的社会主义市场经济。这个我不太了解,我也不知道为啥会失败。
AI时代的应用数学研究
We Are Becoming Irrelavant 应用数学有极为光辉的历史,曾经在力学、控制、信号处理等等很多领域,起到核心的作用。甚至可以说,很多学科做到最后就是应用数学。但是在最近十年AI的发展过程中,我整体觉得应用数学community的贡献是远小于计算机科学community的。 有人可能会有以下辩解,我也将一一反驳: AI的发展是因为计算机硬件的发展,而非数学。诚然,硬件的发展是AI发展的主要推动力,我极端一点甚至可以说,算法的发展本质是为了“动员”算力和数据,好比生产关系动员了生产力。诚然,神经网络黑盒很难做数学建模。过去几次尝试,包括mean field perspective,neural tangent kernel,基本都比较无力。但是我们依然可以举出一些数学的力量推动AI发展的例子,比如diffusion model,Wasserstein GAN。我不认为数学无益于AI的发展,我只是认为目前数学的力量没有得到充分发挥。 应用数学界关心的问题和AI关心的问题不一样。 如果仅仅是关心的问题不一样,那么在mindset和技术上是不应该存在代差的。但是事实并非如此。而且我认为,应用数学本来就是一个发展的学科,应该不断地去关心新的问题。AI作为如此重要的新学科,值得获得应用数学界的关注。 We Need to Change 问题导向 我们不应该定义自己为“数学知识的使徒”,而应该定义为“懂数学的problem solver”。具体来说,前者执着于擅长的数学知识,拿着锤子到处找钉子,而后者强调关注重要的问题,然后试图应用数学,甚至开发新的数学,去解决问题。说到底,学科的划分本来就是人为的,我们应该以问题为导向,而不是以学科为导向。 与工业界的联系 工业的需求是应用数学发展的活水源泉!纵观应用数学的发展历史,最优秀的成果,都是回应了工业的需求。不应该觉得工业界只关心结果不关心理论,因为轻视他们,不屑去了解。不应该闭门造车,自己想出一个问题,然后去解决(远离了工业界就只能自己想问题了)。而是应该放下意义不明的傲慢,不断问自己:工业界发展到什么程度了?工业界关心什么?工业界遇到了什么问题?以此做出好的东西,自然会获得工业界的认可。 community的力量 在组织研究的方式上,也不应该执着于传统的组织形式,完全可以借鉴其他学科发展的经验。我觉得CS的发展应该极大归功于动员了整个community,超越了个人或者小团体的单打独斗,各自为战。比如,开源代码,开放的数据集,标准benchmark。这些在应用数学界没有得到足够的重视。 有些人可能会问,我做数学理论的,为啥要关心community,关心开源代码、数据集?在我另一篇博文《学术界应该从工业界学习什么》里,我提到: 应用数学离不开数值实验,灵感也是从信息中来的。快速实验,快速获得反馈。有些实验甚至必须建立在极高的效率之上。 节省时间与脑力,多花在阅读文献,思考,讨论之上。 提高效率不仅仅限于软件开发,比如说教程库与文献库的建设。我个人认为数学和软件工程有非常多的相似性,数学定理的封装与应用,也可以理解成“复用”。 在那篇博文里,我强调“效率”,其实放在这里也是一样的道理。