编者按:Matt Turck是FirstMark的一名投资者,机器学习创业公司正在改变我们的工作方式,他从近距离见证了这一点。最近,Journal联合创始人Sam DeBrule与Matt Turck交流看法,二人讨论了一些与机器学习创业公司有关的话题。 背景 Sam:能介绍一下你自己吗?有些人可能不了解,麻烦你稍微介绍一下自己的工作? Matt:好的。我是纽约FirstMark的合伙人。只用了短短几年时间,我们就成为纽约面向早期阶段的最大的VC公司,管理16亿美元资产,当中包括去年融入的5亿美元。 从投资角度看,我对许多东西感兴趣,不过大多时候我特别关注两个领域。 第一个是“数据世界”,从宽泛的层面定义正是这样的。当中包括大数据、机器学习、AI公司,还有一些创业公司,对于它们来说数据就是“秘密调料”,是核心竞争力,我们通过一些企业向该领域投资,比如ActionIQ、Dataiku、x.ai、Sense360、HyperScience。我还写了很多博文谈论这些主题,同时还运营Data Driven NYC,这是一个很大的社区,有14000名大数据、AI专家。 第二个重点关注的领域是前沿技术。所谓前沿技术包括新兴计算平台、AR/VR、物联网,以及其它你能想到的流行词。同样的,我也向这个领域投资,写博文介绍它,运营一个很大的社区,名叫Hardwired NYC,里面有5000多人,大家一起探索前沿技术。 人们炒作AI,但它是真实的机会 Sam:很酷。什么时候机器学习创业公司进入你的视线,成为投资机会呢? Matt:当我进入科技行业工作时,基本上只关注数据和分析。不久之前,我还是搜索软件创业公司的联合创始人、企业家,我们关注贝叶斯算法的应用,贝叶斯是一种机器学习技术,我们用它查找、检索问题。 所以说,多年来我一直关注机器学习,直到最近一段时间兴趣才渐渐深厚起来。大数据流行,基础设施完善,我们可以捕捉并处理大量数据,成本更合理,速度更快。最终这些因素导致机器学习技术飞速进步,在一些领域尤其明显,比如需要大量数据才能执行的项目,类似于神经网络。 成为这个领域的企业家、投资者,现在恰逢其时,我们有一种感觉,似乎几十年的努力突然有了回报,孕育了许多的可能性。人们对AI不断吹捧,不断炒作,但它是真实的,并非虚无。 言论相比技术现实有所夸大 Sam:让们讨论一个有争议的问题。今天有许多大企业正在开发AI,看看这些企业,就兑现承诺而言,哪家的表现最糟糕? Matt:就我从市场上听到的消息来看,可能是IBM。 为什么?主要是因为IBM极力宣传,野心很大,这样导致自己陷入一个尴尬的境地:承诺太多,同时进入的垂直领域太多。 没错,只要你愿意投入几个月时间并投入许多金钱,训练系统,你的确可以用IBM沃森做许多有趣的事,但是现实再清楚不过,IBM在宣传中所说的东西有点夸大,事实上沃森没有那么强大。 IBM是一家大公司,所有大公司似乎都背负一个诅咒:因为公司很庞大,如果想让业务的规模扩大哪怕一点点,新业务必须以非常快的速度壮大起来,这样一来就会给牵涉的每一个人施加很大压力。 IBM在每一个垂直领域争夺交易,据我所知,他们失去了许多交易,因为小企业更专注、更敏捷,IBM输给了他们。 不过它可是IBM,我们现在还不能将它排除出去。 获得机器学习人才有点难 Sam:Salesforce会不会走上同样的道路? Matt:我可不这样认为。去年,Salesforce CEO Marc Benioff介绍了爱因斯坦AI系统,他的言论让企业内部的人吓了一跳,当然部分是因为他的个性。 对接创业公司生态系统、收购企业可以带来很大的变化,部分是因为你可以获得更棒的机器学习人才,就现阶段而言,获得人才是一个关键要素。 Salesforce与创业生态系统的联系更紧密,这点很重要。 它组建了Salesforce Ventures,通过这个分支机构不断投资,Marc Benioff还以个人名义向许多不同的创业公司投资,这些创业公司都在研究机器学习。 接入专有数据库是一个挑战 Sam:执行AI需要大量的数据,正因如此,创业公司相比大企业处在劣势位置。有没有数据工程师正在寻找办法用更少的数据优化模型? Matt:就这点来说创业公司的确处在不利位置,但它们最终会获得相当多的资源,以前是这样,未来也是这样。 就技术角度来说,行业内许多顶尖人物(不只是创业公司)都在尝试用更少的数据开发更棒的神经网络。在可以预见的未来,这个目标就是“圣杯”。我认识几家公司,他们取得一些突破,在迁移学习方面研究出一些有趣的技术。不得不说,这是一个很难的问题,解决要花点时间。 与此同时,创业公司还在寻找办法进入更大的数据库。例如,医疗成像领域的AI公司需要庞大的数据。据我所知,有几家企业与一家大医院合作,拿到一些专有数据,与放射图像有关。我还看到一些企业也在做同样的事,只是它们所处的领域不同,比如碰撞保险、工业机械、农业等领域。 德国有一家创业公司名叫TwentyBn,它建了一个众包数据库,里面有几百甚至几千段视频,人在摄像头前演示特定手势和动作,计算机系统处理之后就可以学习并识别动作。从本质上讲,TwentyBn搭建了自己的数据库。 曾几何时,获得大量数据似乎是一个不可逾越的障碍,不过创业公司正在寻找各种办法克服困难。 顺便说一句,挑战很多,获得数据只是其中的一个,有了数据你还要贴上标签,让深度学习可以处理。给数据贴标签时,创业公司也有许多的资源可以用。 我接触过几家创业公司,它组建“小团队”,里面的人来自世界各地,他们给数据贴标签,工作方式与亚马逊“Mechanical Turk”差不多。还有一些企业招募深度学习专家,让他们给特定数据类型贴标签,比如让外科医生团队给复杂的医疗图像数据贴标签。 网络数据效应浮现 Sam:通过Netflix、Spotify、Facebook这样的产品,许多人感受到“数据网络效应”带来的好处。创业公司如何才能打造强大的下一代“数据网络”呢? Matt:不久之前,我曾在博文中讨论过“数据网络效应”,这个主题很有趣。 从理论上讲,任何机器学习公司都可以从多个用户手中提取足够多的数据,让算法在数据集中运行,然后将数据发回去,向每一个独立客户学习,这样就可以形成“数据网络效应”。  以FirstMark投资公司x.ai为例,这家公司开发AI助手,安排会议,助手安排的会议越多,算法就会变得越聪明。算法越聪明,体验就会越好。体验越好,就会有更多的人用x.ai安排会议,公司也就可以拿到更多数据,还有其它东西。这样“数据网络效应”就浮现出来了。 数据网络效应会出现在行多地方,这才是最棒的。x.ai帮助人们安排会议,加快速度;Phosphorous 与医院合作,帮助它们运营基因检测实验室,这些场所都会出现。 在B2B领域,要想获得“数据网络效应”会困难一些,因为企业喜欢保护自己的数据,不愿意行业内的其它企业使用自己的数据。 尽管如此,我们可以用创造性的解决方法化解这一问题。几个月前,Google Research在Federated Learning发表论文,意思就是说要在数据独立的前提下促进机器学习行业合作。这样就可以解决数据隐私问题,让各种“数据网络效应”显现出来。 不论怎样,有一点需要注意:数据网络效应需要很多年才能出现,因为创业公司要积累客户,收集足够多的数据让自己的模型学习。一旦这种效应在你的身上形成,那就很有竞争力了。 AI会让产品的性能大幅提升 Sam:投资者之所以关注AI创业公司,是不是因为它们很快会成为收购目标?或者说它们有可能成为庞大的独立企业? Matt:从VC经济学的角度看,你必须信奉后一种理念。 没错,我们看到大企业收购各类小型AI企业。与此同时,人们或多或少会认同另一个观点:AI是下一个大事件,机器学习人才很稀缺。 正因如此,有许多企业更像研究实验室而不是创业公司,它们很快被收购,有时金额还很高。对于创始人来说,这样的结果很好,有时拿到的钱可以改变整个生活。站在投资者的角度看,这样的结果不错,但算不上很好,风险回报率并不高。现在这种交易形式快走到尽头了,要改变了。 正是因为这个原因,像我这样的投资者才会关注垂直AI创业公司。因为瞄准垂直领域,AI创业公司非常专注,它的定位离大型科技公司很遥远,在大企业收购之前也许有足够的时间壮大起来。 只要定位正确,我相信这些AI企业有时间抢占领先位置,在这段时间里,AI会让企业分化,大量使用机器学习的企业会领先。当然,你必须挑选一个“使用案例”(use case),让AI大幅提升产品性能,不是修修补补,而是突破性的提升。如果使用案例正确,AI创业公司的产品性能可以比现有替代产品好10倍。 如果使用机器学习技术,许多企业的产品性能可以提升10倍。它可以创造机会,让企业成为真正的市场领导者。 不论是你是创始人还是投资人,抓住下一个重大市场拐点就是你的使命。几年前是SaaS,现在机器学习代表下一轮革命。最终,机会之窗会关闭,但就目前来说,许多AI优先的企业有机会在自己所处的领域领先,或者开辟新市场。   原文链接:https://machinelearnings.co/why-ai-companies-cant-be-lean-startups-734a289792f5 编译组出品。编辑:郝鹏程