看Facebook员工评价扎克伯格的Jarvis AI代码
:如何评价扎克伯格自己写的 Jarvis AI? 此问题缘起于扎克伯格2016年12月19日发布的文章Building Jarvis,小扎称自己打造了一个像钢铁侠里 Jarvis 那样的家庭AI助手。雷锋网已在第一时间翻译出这篇笔记:《扎克伯格开发笔记:打造Jarvis的日子,我庆幸自己从未停止过编程》,建议没看过的读者可以先浏览一下。
Zuck原贴
Jarvis demo视频:Jarvis From the Perspective of Priscilla Chan (is different)
帖子头图是一段 Jarvis 的代码。作为一个技术流作者,我在最后的附录解读那段代码:
输入端为各种家用硬件,也就是上图中左边那一列,依次是:
1. Crestron:Crestron Home Automation for SmartHome 此为美国最著名的智能家居控制器的厂商,专门提供一整套硬件和技术方案让爱折腾的老美实现这些功能:
“Alexa, turn on the kitchen lights”
“Alexa, raise the living room lights by fifty percent”
“Alexa, set the basement thermostat to 70 degrees”
黑人脸 -_- 这也能解释为什么在网上看到的智能家庭的视频来来回回都是这几个控制指令。
2. Lights:灯
3. Thermostat:调温度的
4. Doors:门和门禁系统
5. Sonos:老美喜欢的智能音响品牌:Sonos PLAY:1 Compact Wireless Smart Speaker for Streaming Music (White)
6. Spotify:美国版的网易云音乐。Spotify由Sean Parker创立(前Facebook CEO和联合创业人之一;也就是在《社交网络》电影里抽大麻的那个。注意:大麻在美国一些州已经合法,另外它的成瘾性和危害都小于香烟),Spotify和Facebook关系很好,在2011年深度集成在Facebook中。
7. Cameras:摄像头
8. Toaster:
9. T-shirt cannon:T恤加农炮。很多读者这时估计懵逼了,问:“小魔王同学,你是不是说错了?扎克伯格没事在家里放一个加农炮干嘛?” 对的,其实他的衣柜里安装了一个T恤的发射器,可以直接把T恤喷射出来,打到他的手里。
架构图里的右侧为三个用户系统:messenger bot、语音app和门禁摄像头。接下来小扎说了他一步步是如何走过来的:
第一章:连接家里的家具设备。
这块Zuck坦言做这个AI家庭系统比跑365英里的任务要稍微简单一些(至少少费时),但是最麻烦的环节就是连接这些家里的各种设备。他甚至需要“逆向工程”一些硬件设备的API(比如灯和音响),使得可以通过程序来控制它们。Toaster换了一个1950年的硬件,另外Zuck还专门给Beast(zuck的狗)的喂食器以及T恤的弹射炮做了硬件的改动。
由此可见以后IoT(物联网)的重要性和前景。
第二章:自然语言处理
分为两部分:文字消息处理和语音处理。前者处理的难度是同义词和上下文,而后做音乐控制的时候发现播放指令的处理更加麻烦,比如:
“播放周杰伦”:这句命令在处理的时候要判断周杰伦到底是人还是歌名;另外Zuck的例子:
“Play someone like you”, “Play someone like Adele”,前者是歌名,后者则是进行类似风格的歌曲推荐。Zuck通过不断训练和加强Jarvis AI,使得它现在对于Zuck的歌曲喜好有记忆和认知,所以Zuck一般直接说:“Play me some music”。Jarvis便直接开始播放,另外Zuck有时心情不对的时候,想听轻音乐,便说:“that’s not light, play something light”,Jarvis自己换歌曲并且学习。
第三章:视觉和面部识别
人的大脑有1/3的部分专门用来做视觉处理,包括图像、模式识别和追踪。Zuck的房子门禁同样也需要支持视觉和面部识别功能:
Zuck为了做智能门禁,在大门口装了好几个摄像头,为了可以更好地捕捉人脸图片。Jarvis系统24小时不断进行人脸探测和识别,当有人且是Zuck好友的时候,给Zuck发消息询问是不是想见的人。
AI视觉还帮助Jarvis做其他事情,比如看Max(Zuck女儿)是否睡醒,如果醒了的话,Jarvis边自动开始播放Max喜欢的歌曲或者给Max上中文课(从小开始学习中文 -_-)。另外借助视觉系统,可以更加有效地知道家里的人的所在位置,这对于更好地执行有上下文的指令有巨大帮助。比如当有人说:“Turn on the lights”,肯定最佳的动作是打开此人所在位置的灯。
第四章:Messenger bot
老外现在喜欢用 bot,所以Zuck把各种操作指令都放在手机上,具体说来是 Facebook messenger 的 bot上(类似于Slack的bot或者微信的一个公众号)。于是Zuck只需要像这个公众号发消息即可。如下图:
Zuck自己没有料想到的是:平时和Jarvis的交流大部分都是通过文字信息;虽然开始Zuck以为自己会是说话为主,但是后来发现text更加方便更加能保护个人隐私,不打扰别人。这从一个侧面也能反应出来 voice message 在北美的messenger流行不起来的一个重要原因:随着社会进步,人会越来越重视隐私或是变得有些缄默。Zuck还透露不管是FB messenger还是WhatsApp上也看出类似的趋势:文本信息的消息数量远比语音消息增长得快。这里给做AI的各位公司一个启示:虽然现在语音识别仿佛是标配,但是AI系统可能更加需要注意在文本处理上的成熟度,因为人们会大量使用文本控制而不是之前设想的语音控制。虽然后者让PM或者CEO觉得好像是更便捷更cool的人机交互方式。
第五章:语音处理
Zuck当然也做了语音识别的模块来辅助控制 Jarvis:
Zuck说之前开发iOS还是在2012年,现在再次开发,他感受到整个ios和fb的toolchain的改进巨大,语言和xcode的增强使得编程和做app的门槛大大降低。
通过开发和使用这个voice app,zuck对于AI和语音识别在产品上的思考:
语音识别的算法在上下文和联想方面需要加强得还不少;类比人类进行语音识别的时候,不仅在听你当前说什么并记下来,同时要时刻在预测你接下来准备说什么,大脑表现得非常自然而且高效。而计算机,即使最近开始使用RNN(recurrent neurol network)好了不少,但是依然有很大的提升空间;
语音识别现在在理解人类的支离片语上表现不佳,另外对于常规情况下使用的语音识别能力比较弱。大部分的系统都在做特别功能范围(比如Google Search, Amazon Echo)内的语音识别。
语音的加入让产品和人之间更加有情感交流,Zuck觉得这肯定是以后产品发展的方向。能用语音进行交流之后,Zuck自己越用越觉得有意思,然后开始改进Jarvis,让其变得更加幽默有趣。还加入了一些游戏和黑话给Jarvis。
语音的识别和运用方面,zuck认为可以做的创业才刚刚开始。(所以各位抓住机会!)
第六章:Facebook的工程师环境
这一段,Zuck说自己虽然是CEO,但是从未停止过coding,但主要以个人项目为主。通过这次开发 Jarvis,zuck又重新体会了一次整个FB的技术环境的魅力,就类似于一个新入职的工程师一样走完了整个bootcamp的过程。他说不仅上手实践AI和了解了最新AI方面的进展,同时意外收获了很多关于开发技术方面的知识。Zuck赞赏FB的代码非常有条不絮,另外在开源上做得很好,甚至zuck在文章里亲自列举出 Jarvis上使用的开源框架:
Messenger bot: messenger.com/platform
Atom plugin for bot: facebook/nuclide
Buck: A fast build tool
FastText, 文本处理和识别:facebookresearch/fastText
Facebook AI research:facebookresearch
最后zuck欢迎开发者都来使用下这些开源库,来感受下AI最新发展的魅力。另外他一直坚持内部工具和技术的基础设施对于一个互联网公司的重要性,所以最后他说:“Building internal tools that make engineering more efficient is important to any technology company, but this is something we take especially seriously. So I want to give a shout out to everyone on our infra and tools teams that make this so good.” 所以这里可以看出,硅谷公司把技术部门真真切切地当做是公司的重要资产,去鼓励去培养;而国内很多公司对于技术团队,更多当成是一种工具,甚至是开支部门。所以各位想单纯醉心于技术钻研的人,早点去硅谷是一条最好的出路。
第七章:下一步
Zuck的文章到了这里,已经进行到了尾声。Zuck说虽然2016年的挑战已经结束,但是对于Jarvis的开发和优化会继续。具体需要做:
开发Android下的语音识别app
接入更多的室内硬件和更多的应用
让Jarvis拥有学习能力。Zuck原话:“If I spent another year on this challenge, I’d focus more on learning how learning works.” 即希望教会Jarvis如何学习,或者说得更加酷炫:让Jarvis学习如何学习。(小魔王补充:chunk it up,deliberate practicing,feedbacks,10000 hours theory!)
最后Zuck准备再抽象一层自己的代码,然后在明年将其开源(接受小魔王覃超的进一步code review :-D)
第八章:结论
关于结论这部分,Zuck原文相当得精炼且有意义,我实在觉得应该把英文贴上来,各位都能阅读一下:
“Building Jarvis was an interesting intellectual challenge, and it gave me direct experience building AI tools in areas that are important for our future.
I’ve previously predicted that within 5-10 years we’ll have AI systems that are more accurate than people for each of our senses — vision, hearing, touch, etc, as well as things like language. It’s impressive how powerful the state of the art for these tools is becoming, and this year makes me more confident in my prediction.
At the same time, we are still far off from understanding how learning works. Everything I did this year — natural language, face recognition, speech recognition and so on — are all variants of the same fundamental pattern recognition techniques. We know how to show a computer many examples of something so it can recognize it accurately, but we still do not know how to take an idea from one domain and apply it to something completely different.
To put that in perspective, I spent about 100 hours building Jarvis this year, and now I have a pretty good system that understands me and can do lots of things. But even if I spent 1,000 more hours, I probably wouldn’t be able to build a system that could learn completely new skills on its own — unless I made some fundamental breakthrough in the state of AI along the way.
In a way, AI is both closer and farther off than we imagine. AI is closer to being able to do more powerful things than most people expect — driving cars, curing diseases, discovering planets, understanding media. Those will each have a great impact on the world, but we’re still figuring out what real intelligence is.
Overall, this was a great challenge. These challenges have a way of teaching me more than I expected at the beginning. This year I thought I’d learn about AI, and I also learned about home automation and Facebook’s internal technology too. That’s what’s so interesting about these challenges. Thanks for following along with this challenge and I’m looking forward to sharing next year’s challenge in a few weeks.”
这里可以看出Zuck的执行力以及实践能力。一方面通过写Jarvis来亲自学习了一下AI现在的最近进展,另一方面这种第一手经验很好地反馈回来让他更加有信心来判断以后5-10年AI和相关产品的发展方向。我觉得我自己以及中国的广大创业者特别是投资人都应该学习这种实干的态度,而不是停留在嘴皮上预测未来。
Zuck认为计算机智能在某些领域做得已经很好,但是最关键的“自学能力”和“举一反三”能力几乎没有(原文:We know how to show a computer many examples of something so it can recognize it accurately, but we still do not know how to take an idea from one domain and apply it to something completely different.)。Zuck自己话了100个小时来做Jarvis,但是他认为就算花1000个小时,也无法让机器能够有自学能力,除非在人工智能领域可以有学术、科学上的重大突破。
从demo视频里来看的话,很多时候Jarvis感觉并不好用。但是毕竟能够用messenger+声音来控制自己的家庭设备是一件非常酷炫的事情。
—- 附带图片中代码的解读 —-
其中代码细节:
最开始两行:$task这个变量不需要,直接往 “image” => … 这里灌即可;而且 $task 这个太泛的名字也没有具体含义。要不就改成:$face_detect_task,当然最好就直接放入map里算了。
print “Configured…\n” 这句话太萌,典型的学生项目代码。
类似于: console.log(xxx) 或者 System.out.println(“Configured…) 或 NSLog(@”Configured…”); 要是公司项目的代码这么写,估计要被tech lead直接骂死。
不过这里Zuck敢于自己动手开始写代码,并且最后可以有一个prototype上线开始能够使用,已经非常厉害了(毕竟很多CEO一天到晚忙除了开会,几乎什么都做不了)。
最后Zuck那段代码的最佳形态是: