AI
理解
人工智能技术没有什么神奇,大多数情况下都是人工智障。好的效果都要工程师一点一点打磨出来,有多少人工就有多少智能。控制开发成本,追求有限目标。创始人自己懂AI,就先招优秀的工程师,而不只招一堆科学家。
过去10年我们一直在做一件事,那就是打造移动优先的世界。 而在接下来的10年时间里,我们将转到一个AI优先的世界。——Google CEO Sundar Pichai,2016年10月
扫盲
- 最小二乘法:最小平方
- 信息熵:系统有序化程度,越有序越低
- 支持向量机SVM
- 卷积神经网络CNN
- 数据分析扫盲 – 1.传统数据分析
- 数据分析扫盲 – 2.机器学习
资料
- 斯坦福大学公开课 :机器学习课程_全20集
- 2016年不可错过的21个深度学习视频、教程和课程
- 初学者入门指南:深度学习的五级分类
- 初学者必读:从迭代的五个层面理解机器学习
- 程序员实用深度学习免费课程:从入门到实践
- 九本不容错过的深度学习和神经网络书籍
- 2016AI巨头开源IP盘点 50个最常用的深度学习库
思考
- 联想
- 学习现有知识,创造新知识
- 计算和存储分离
- 流程
- 建模:特征值
- 自学:自动/人工提问和回答
- 纠错改进
数据
流程
- 数据抓爬,清洗
- 保存到数据仓库
- 分析处理数据
- 业务系统提取数据到DB
系统架构及功能
整体() 抓取清洗系统():同时负责数据腐坏处理? 语义分析(析木):对数据仓库的数据做分析 数据仓库(同抓爬):提供业务系统对接接口
人员架构(参考百度的架构)
机器学习(集成应用) 深度学习(研究) 系统开发(研发)
分类
活动,信息
抓爬
- 第三方库
- python版本:https://scrapy.org/
- java版本:webmagic
- 数据来源类型:微信,网页,API
- 技术核心:JS动态网页,防盗链,验证码登录
- 可配置可视化平台
清洗
语义分析
数据仓库
业务系统对接数据仓库的方法:获取从指定时间开始的新增data,处理,业务系统需检查data是否重复(已处理)。