刷脸支付的出现让“靠脸吃饭”不再只是句玩笑,摄像头识别人脸让不法分子无处遁形……这背后所用到的视觉识别技术,就是人工智能创业公司商汤科技所擅长的领域。
公司成立不到3年,已经受到多家投资机构追捧。在今年7月,商汤科技宣布完成4.1亿美元B轮融资,有投资人判断这“可能成为这一波人工智能投资潮的巅峰”。
9月26日,在GPU技术大会间隙,商汤科技联合创始人、CEO徐立与包括凤凰科技在内的多家媒体谈到时下热门的人脸解锁、刷脸支付等问题,并分享了商汤科技面对新行业如何做选择,以及人才管理与培养计划。
商汤科技是典型的、在技术浪潮中诞生于高校的创业公司,它的摇篮是香港中文大学的多媒体实验室。实验室在汤晓鸥教授的指导下,诞生了多篇知名论文,在2014年LFW检测中人脸识别的准确率首次超过人眼。
这些成果吸引了IDG合伙人牛奎光的注意力,资本主动找上门,讨论成立公司的可能性。于是在2014年10月,几个香港中文大学的毕业生、微软前员工加上一些清华毕业的研究人员,成立了这一公司。
学术研究贯穿了整个公司的发展。眼下团队已从30多人扩展到700多人,其中有18名教授,120多名博士。并与香港中文大学、浙江大学、清华大学等高校都建有联合培养实验室。在去年和前年,香港中文大学-商汤科技联合实验室共发了76篇论文。这对尚在学校的“未来人才”来说,就是一个不小的诱惑。“垄断”人才,也是商汤的野心。
如何做好底层人工智能模块,去应用于有潜力的行业?人脸解锁与刷脸支付是否安全?在以下内容中都能找到答案,内容整理自对徐立的采访。
Face ID
谈手机上的人脸解锁:技术早已成熟,商汤和主流手机厂商都有合作
苹果在手机行业有这一领先的创举,不在于技术领先,而是在他之前别人都不太敢去做大规模的尝试。人脸识别做解锁,之前就已经成熟了,一年前就已经能商用了。另外,这一变化可能和全面屏相关,指纹移到后面去,比较麻烦,人脸解锁就变成了一个自然的选择。
商汤科技在这一方面进行了较长期的储备,最早在互联网金融方面做解锁,跟手机人脸解锁是完全一样的。我们每天有一百万调用,20万次是攻击,任何一个新的东西都要接受大量的攻击。在攻防当中,大部分的企业可能没有这样一个前期准备。我们在互联网金融行业里面,积累了大量的攻击实例,我们在活体检测上是有一定的优势。
人脸识别准确率其实跟很多环境相关,比如超远光等情况下。在大规模测试的情况下,人脸比对比指纹比对要准确。指纹某种意义上特征没有那么丰富,人脸特征维度就高很多。所以从生物特征来说,人脸是一个更好的生物特征。
我们现在跟很多主流手机厂商都有做解锁的合作。量大了,大家都做,自然可以带来一些行业的标准。
在刷脸支付领域,现在1:1的成熟度很高,1:N的就要看库有多大,要是存全中国14亿人的库,你跑来刷一次,做14亿次的比例,可能每刷一次这个人就可能出错,关键要看库的大小。假设有一个APP的用户达到了数亿级别的,可能就会有风险,现在百万级别,千万级别,1:N的准确率还是很高的。
谈发展阶段与业务扩展:判断一年内技术能超过人的行业,我们就会进入
2015年9月,我们开始真正商业化,当时与银行和P2P公司合作,签到千万级别的合同,之后才进入安防领域。目前的情况是每一个工作日签一个合同。
我们在选择进入一个新行业时,首先会拿市场上各种信息来形成一个市场反馈,有了这些反馈之后,我们找出公共点,定义一个新的研究问题。第二,我们看技术能不能超过人,一年之内我们能够把技术做到人的准确率,过了那条红线,我们就会投入去做这个行业。第三,看它的市场空间有多大,如果能替代人,这个行业本身有多少人,有多少市场空间,既有的空间有多大,如果这个市场能够扩展,会有多大的份额。
我们不可能把所有场景走完,所以我们采用的是1+1+X的模式。1+1是产和研,+X就是说我在一些垂直行业里面,我本身不去把这个行业做穿,一定是要跟我的合作伙伴来快速结合去做。
智慧商业这些行业比较分散,我们会找这个行业背后的集成商。把我的东西包在他们的解决方案里,这是很多细分行业的打法。比如有一百多家银行,地方都不一样,跑到这些地方是很难服务的,你通过集成商的方法,1+1+X,X就起到了很大的作用。
刷脸支付
为什么我们有一些行业不会进去,原因是有可能是太细分,你是人海战术,每个省必须得有人,每个地方得有支持,只能跟合作伙伴来做,找到最好的合作伙伴。
商汤科技某种意义上是卖人工智能的乐高玩具,我要针对这个场景,去搭建一个乐高的车,才能卖给这个行业的甲方,甲方根据我搭了这个车,可以直接用,也可以改造一下,用这个东西去搭其他的东西,某种意义上是卖底层人工智能模块,赋能这些行业。
这个赋能未来能够形成核心竞争力。第一是你模块越来越多时,就形成了聚集优势,平台上你可能有更多的流量,数据和场景,你用这些场景搭这个模块,别人不具备。第二,这些模块和应用系统是耦合的。希望商汤成为这个软的AI平台的提供者。
谈人才与管理:人工智能这本账背后是人才的账
驱动这一波人工智能兴起的是核心引擎和算法,你要真正掌握核心能力,要有5-7年的积累。
有一个故事,当年谷歌收购DeepMind,DeepMind是12个博士,价值4亿英镑。一个没有产品的公司,12个人价值4亿英镑。当时全球真正懂深度学习这个大脑的人,大概只有50个。意思就是说你其实买的是核心的运算能力,买的是未来,不是这12个人值不值这个钱。果然一年之后,有了AlphaGo。
我们招人没有设任何博士的门槛,博士和硕士没有太大的差别,但是发现能做这件事情基本上都是博士。
第二,我们当时前期融资只融了2千万美金,人工智能这本账背后是人才的账。我们把那些真正能做大脑设计、底层算法研究的这批人垄断,行业再培养一批人还有5年时间,你就有足够的时间窗口用行业领先的人。
第三,一群科学家坐在桌面去讨论算法和想法,会有指数级的发现。你把一群聪明的人聚集在一起时,演进的速度是非常快的。
我们的企业文化和团队的技术背景是相关的,我们想要坚持做一些原创事情。当时我们在学习这个方向时,明明感觉研究能在某个阶段突破所谓的工业红线,但是行业里没人起头,把这个场景落地,所以我们做了这样的事。我们也会借鉴各种管理经验,很多高管来自于成熟大型公司。
在去年和前年,香港中文大学-商汤科技联合实验室共发了76篇论文,在行业里面要远远领先于谷歌,facebook,仅次于微软。在这个过程当中,学生们也会有成就感,我们有比较好的员工培养体系。
谈当下困惑与未来发展:看好视频和交互
我们面临的困难有当团队从30人扩到700多人,如何更有效地利用资源。第二,选择垂直行业时,考虑如何选择能带来最大商业价值与社会价值。
整个行业的困惑点在于技术的大众化。我们一直讲智能手机,人工智能+手机还不如一个手机的价钱,人工智能的钱谁收呢?人工智能加了人脸解锁,加了50元,这个钱向谁收?这是行业的困惑,怎样让普罗大众真正给技术买单。大众对带来的价值要有足够的认可度,这个行业的发展就会变得更好。
未来我们看好的两块,一块是视频,现在互联网上真正带来很大商业价值是搜索、电商、社交游戏,这些都很赚钱。这些完全都可以被视频颠覆,如果视频整个识别理解做得很好,未来就是谷歌搜索可以新做一个谷歌,视频领域的谷歌。视频都可以连接到背后的电商,你就是淘宝。我觉得视频未来可以带来很大的爆发力。
还有就是交互,现在整个互联网的发展路径,从传统PC到移动互联网,其实核心的点是交互模式发生了核心的变化,未来我们看到手势、肢体,可能就会带来下一波新的入口。人工智能已经赋能了这样一个交互的行业,谁把这些交互变成真正的产品入口,会带来下一步的变化。我觉得不远,可能五年之后,手机里面的APP,要么被颠覆,要么被转型。