博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Dataset】Goodbooks-10k: 图书推荐数据
阅读量:4348 次
发布时间:2019-06-07

本文共 957 字,大约阅读时间需要 3 分钟。

当前推荐领域一些公开的据集都是关于电影和音乐的(比如Netflix、Movielens等),没有关于图书推荐的数据。本文将要介绍的就是一份用于图书推荐的数据集,该数据来源于goodreads网站,包含1万本最受欢迎图书的6百万评分数据,由以下数据组成:

  • 评分数据
  • 被用户标记为想读的图书
  • 图书详情(作者、年份等)
  • 图书标签

ratings.csv

包含按时间存储的评分数据,大小为69MB,结构如下:

user_id,book_id,rating1,258,52,4081,42,260,52,9296,52,2318,3

评分范围1-5;图书ID是1-10000的连续数字;用户ID是1-53424的连续数字。

to_read.csv

被用户标记为想读的数据,有将近1百万条按照时间存储的user_id、book_id对。

books.csv

从goodreads的XML文件中抽取出来的每本书的详情(goodreads ID、作者、书名、平均分等),XML源文件保存在books_xml目录下。

books_tags.csv

用户分配给图书的标签,通过ID表示;按照goodreads_book_id升序、count降序存储,其中count表示有多少用户为该图书标记该标签。

goodreads_book_id,tag_id,count1,30574,1676971,11305,371741,11557,34173

tags.csv

标签ID对应的标签名。

tag_id,tag_name0,-19,--your-message-here--25,-fiction26,-fictional27,-fictitious

关于图书ID

一本书可能有很多版本,goodreads_book_id和best_book_id通常是指最受欢迎的版本。而goodreads中的work_id指的是抽象意义的书,通过该ID会列出该书的所有版本。ratings.csvto_read.csv中的book_id指的是work_id而不是goodreads_book_id,这意味着不同版本的评分是经过聚合处理的。

转载于:https://www.cnblogs.com/cling-cling/p/10136020.html

你可能感兴趣的文章
Maximum Subarray
查看>>
Java学习笔记XML(3)
查看>>
java学习笔记—Tomcat(9)
查看>>
错排问题 (Mathematics)
查看>>
Uml学习-用例建模简介
查看>>
石子合并问题(一) (基础的区间dp)
查看>>
让你的JS更优雅的小技巧
查看>>
报错:the input device is not a TTY
查看>>
小菜鸟第一次面试总结!长姿势了!(一)
查看>>
javascript 第27节 jQuery选择器
查看>>
Amazon S3云存储服务器的功能及编程接口
查看>>
json学习系列(8)JSON与JAVA数据的相互转换实例
查看>>
初步了解会计学
查看>>
java MD5加密
查看>>
预加载动画,移动端常用的加载前的百分比动画
查看>>
最大连续和(线段树+分治)
查看>>
Linux 引导过程内幕
查看>>
C# winform post请求数据
查看>>
英语中的同位语
查看>>
您的位置:首页 » IOS » iOS中全局悬浮按钮,类似IPhone中的AssistiveTouch iOS中全局悬浮按钮,类似IPhone中的AssistiveTouch...
查看>>