您好!欢迎访问北京赛车投注平台! 2018年05月16日   星期三
VIP登录 热线电话:010-86008600
当前位置: 北京赛车投注平台 > 北京赛车资讯 > 产业数据 >

产业数据

机器学习项目实践:30+ 必备数据库(预测模型、


发布时间:2018-10-29 08:07    来源:未知    阅读次数:()

  原标题:机器学习项目实践:30+ 必备数据库(预测模型、图像分类、文本分类)

  :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。

  【新智元导读】有了好的数据,机器学习项目也就成功了一半。希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,将对你的技术成长大有益处。

  data.gov- 这是美国政府开放数据集总部。这些数据集的主题包括气候、教育、能源、金融和更多领域的数据。

  - 这是印度政府公开数据库,你可以在这里查找关于印度各行业、气候、医疗保健等数据。同样,稍微改变后缀,就能查看不同地区国家政府的公开数据库,比如

  当然,也并非全世界国家的公开数据库都是“data.gov”加更改后缀就可以了,比如

  总之,国家公开数据库相关权威标准,是你进行机器学习项目实践的一个不错的选择。

  World Bank- 世界银行的公开数据库。该平台提供了好几个工具,比如开放数据目录(Open Data Catalog)、世界发展指数、教育指数等等。

  Five Thirty Eight Datasets- 这里是美国偏政治新闻网站 Five Thirty Eight 在他们的文章中使用的数据集。每个数据集里不仅包括了数据,还有解释这些数据的字典,以及相关报道链接。如果你想学习如何创建数据报道,这是你的最佳选择。

  Youtube labeled Video Dataset- 几个月前,谷歌发布了YouTube标记的资料集,其中包含800万个YouTube影片ID和4800个视觉实体的相关标签。不仅如此,这个数据集里面还配备了几十亿帧经过预计算的、最先进的视觉feature。

  UCI Machine Learning Repository- UCI机器学习库显然是最著名的数据库,也是寻找与机器学习知识库相关数据集最常去的地方之一。该数据集包括从诸如 Iris 和Titanic 等流行数据集,以及诸如空气质量和GPS轨迹等新建的数据集。UCI机器学习库包含超过350个数据集,其标签分类包括域、目的(分类、回归)。你可以使用这些过滤器找到你所需要的数据集。

  Kaggle-Kaggle提出了一个平台,人们可以在这里捐赠数据集,其他社区成员则可以对这些数据集进行投票或在这些数据集上运行内核/脚本。Kaggle共有超过350个数据集,其中,超过200个作为精选数据集(Featured datasets)。 虽然一些数据集跟其他地方有重复,但在这里我也发现了在其他平台没有的一些有趣的数据集。此外,Kaggle 界面的另一个好处是,您可以在同一界面上查看社区成员的脚本和问题。

  Analytics Vidhya- 这是我们自己网站的数据集,包括使用问题数据集和黑客马拉松数据集。这里的数据集都是基于现实生活中的行业问题,并且有专为为期2 - 7天的黑客马拉松的相对较小的数据集。虽然关于真实生活中的实际问题数据集哪里都有,但黑客马拉松比赛之后相关数据集就不可再用。所以,你需要参加黑客马拉松,才能获得相关数据集。

  Quandl-Quandl 通过其网站/ API或其他一些工具直接集成金融、财经方面的数据,分为Open 和 Premium 两种。其中,所有 Open 数据集都是免费的。

  Past KDD- Cup KDD Cup是由ACM知识发现和数据挖掘特别兴趣小组组织举办的年度数据挖掘和知识发现比赛。这里的存档包括数据集和比赛说明。大多数年份的冠军机器数据库都能在这里找到。

  Driven Data- 现实世界实际问题数据库,你可以用它来创造积极的社会影响。Driven Data 举行在线模拟竞赛,从而让参赛者开发出最好的模型来解决这些现实问题。如果你有兴趣使用数据科学对社会做贡献,这就是你该去的地方。

  MNIST 数据库- 使用手写数字进行图像识别最流行的数据集,包括 6 万个训练样本和 1 万个示例测试集。MNIST数据库是你用作练习图像识别的第一数据集。

  Chars74K- 这是 MNIST 数据库的下一级,北京赛车安全平台:其中几包括一些自然图像中字符识别数据集。Chars74K 数据集包含 7.4 万个图像,这也是该数据集名称的由来。

  Frontal Face Images- 如果您已经处理过前面的2个项目,并且能够识别数字和字符,那么这里是图像识别中的下一级挑战。这些图像由CMU 和 MIT 整理收集,列在四个文件夹中。

  ImageNet -这个数据集想必不用多做介绍,这里简单说一下。ImageNet 是根据 WordNet 层次结构组织的图像数据库(目前只有名词)。每个节点由数百个图像分层次行描绘。刚想治疗术了; 具有每个节点图像平均超过500个图像(并且持续增加中)。

  Spam - Non-Spam- 一个有趣的数据集,你需要构建一个分类器将 SMS 分类为垃圾邮件或非垃圾邮件。

  Movie Review Data -提供电影评论文档资料的集合,这些资料根据内容的情绪极性(正面或负面)或主观评价(例如“两颗半星”),以及根据句子的主观性状态(主观或客观 )或极性(polarity)进行了标记。

  MovieLens- 帮人找电影的网站,有上万的注册用户。这些用户会填写 MovieLens 在线问卷,包括自动内容推荐、推荐界面、基于标签的推荐等等。这些数据集可供下载,用于创建你自己的推荐系统。

  KDNuggets- KDNuggets的数据集页面一直是寻找数据集的人的常用参考。这里有一个非常全面的列表,但有些源不再提供数据集。因此,在使用时需要对数据集及源自行判断。

  Awesome Public Datasets- GitHub 库,包含按域分类的数据集的完整列表。数据集在各个域中被整齐地分类。但是,没有关于库本身的数据集的描述。

  Reddit 数据集 Subreddit- 由于是社区驱动的论坛,这个数据集可能会相对有一点凌乱(与前两个源相比)。但是,你可以按热门程度或投票排序数据集,以查看最受欢迎的数据集。此外,Reddit 网站上还有一些有趣的关于数据集的讨论。

  我希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,这将对你的技术成长大有益处。

  如果你能想到这些数据集的任何其他应用或知道任何其他流行的资源,欢迎在分下面的评论里分享。

  负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力

  3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作

  对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解

  具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力

  新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。返回搜狐,查看更多

  4. 成熟应用。CCI容器服务支持Tensorflow、Caffe等主流深度学习框架,并在华为云EI的深度学习、推理平台、人脸/图像/文字识别等多个服务得到广泛应用与验证。

  让郑晖苦恼的是,他们研发“车联网”智能终端已经集各家之所长,无限接近真实的车联网,但成本就是下不来,这也导致了产品的滞销。

  据悉,2017年全球集成电路产业收入突破4000亿美元。各大研究机构预最新预测显示,今年将实现15%左右的增长,2019年有望突破5000亿美元。长远来看,集成电路行业前景一片明朗。

  本报讯 记者沈则瑾报道:经过22个月艰苦奋战,上海最大的集成电路产业投资项目——华力二期12英寸先进生产线日前正式建成投片。

  在全联接大会上,华为轮值董事长徐直军重磅发布了华为的AI战略和全栈解决方案,同时发布了两款AI芯片,华为昇腾910和310,重点提出对当前AI行业现状作出改变:第一,“训练模型从需要数日、数月到只需要几分钟、几秒钟”,即让用户享受高性能带来的极致体验;第二,“算力稀缺且昂贵变得充裕且经济”,大幅降低AI计算成本,让算力具有普遍可获得性;第三,“AI无处不在,任何场景适用,而且尊重和保护用户隐私“,意在打造全场景安全可信的AI计算平台。

  27年前,整个西安高新区155平方公里的土地都是农田、农村。“一无人、二无钱、三无房”的高新区改革开路,负债经营,滚动发展,经历了一次创业、二次创新,走出了一条具有中国内陆自主创新特色的科技园区发展之路,成为西安、陕西经济发展的引擎以及国家重点建设的六个世界一流科技园区之一。”西安高新区管委会副主任杨华说,2017年,西安高新区启动“三次创业”,抓住“一带一路”机遇加快打造“创新之都”。

  登陆微信,在微信发现游戏中找到dnf移动版进行预约,和同上方式一样需要注意的时,如果dnf移动版短期内没有开测的消息,官方是不会在微信和QQ开放预约的。

  2018,浪潮智能存储G2系列的中端旗舰AS5500G2在SPC-1TM性能测试首次在中端存储阵营中以亚毫秒延迟、突破百万级IOPS(1,500,346),媲美高端存储性能,刷新了全球中端存储的性能记录,为浪潮的世界级存储厂商进程构筑了新的里程碑。

  用户只要在手机端输入关键词查询讲话内容,就能随时随地学习习系列重要讲话精神,线小时学习不间断!

  基于这些行业需求,华为云率先推出了基因容器服务,让基因测序的海量应用和工具能够跑在K8s上,享受云原生快速、弹性伸缩、灵活调度的特性优势,同时也能降低客户在应用迁移过程中的投入和门槛,从而弥补行业应用K8s技术的鸿沟。

  数据的语义不仅表现为完整性约束,对关系模式的设计也提出了一定的要求。 如何构造一个合适的关系模式,....

  陈氏对教育亦不遗余力,出任香港及海外多间大学之校董或顾问委员会成员,包括中国外交学院、美国南加州大学、印度商学院、香港科技大学、耶鲁大学校长国际事务委员会、美国史丹福在大兴安岭FreemanSpogli国际研究中心国际顾问委员会、波莫纳大学环太平洋盆地研究所国际顾问委员会、日本东京早稻田大学亚洲太平洋学院国际顾问委员会、以及耶鲁大学出版社与中国对外出版集团合作编辑的《中国文化与文明》丛书毓的国际顾问委员会联席主席。陈氏曾担任美国麻省理工学院房地产中心顾问委员会联席主席,及威斯康辛大学麦迪逊分校Brittingham客座教席。...

  “还有关于违章建筑具体制订问题,想鉴定一个建筑物是不是违章制度很难,因为我们国家有很长的历史遗留问题,有的时候房产证跟实际面积不一样的,比如房产证有50多平,实际就200多平,到底该怎么界定,是不是多少年以前算违章建筑,多少年以后不算,没有这样说。”徐斌说。

  《ICEY》全剧情任务完成结局介绍 在痛苦的轮回中获得所谓的永生

  日前,在存储性能委员会(Storage Performance Council, SPC)组织的SPC-1TM 基准测试中,浪潮存储AS5500G2获得1,500,346 SPC-1? IOPS(每秒进行读/写操作的次数)、亚毫秒延迟的评测值。IOPS性能达到此前中端存储SPC-1TM性能最高纪录的2.5倍,媲美高端存储,成为全球中端存储的性能领跑者。

  “习系列重要讲话数据库”重点收录了人民日报、新华社等权威媒体公开发表的十八大以来习总书记系列重要讲线余篇,相关重要论述、活动、会议、批示、书信、致辞、音视频等共计6000多篇,涵盖经济、政治、文化、社会、生态、党建、国防、外交等各个领域。

  华为云是国内第一批掌握容器云原生技术,并快速进行商业化的公司,不仅将容器技术用在私有云上,还运用至公有云,被Forrester评为中国全栈公有云平台的领导者。

咨询热线

咨询服务热线

友情链接

Copyright 2018 北京赛车投注平台_>>PK10正规投注网站〖国内最佳赛车安全平台】 京ICP备12004330号-5 网站地图