Changelog 3.9 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116
  1. 2013-07-01: version 0.30
  2. ==========================
  3. 1) 新增jieba.tokenize方法,返回每个词的起始位置
  4. 2) 新增ChineseAnalyzer,用于支持whoosh搜索引擎
  5. 3)添加了更多的中英混合词汇
  6. 4)修改了一些py文件的加载方法,从而支持py2exe,cxfree打包为exe
  7. 2013-06-17: version 0.29.1
  8. ==========================
  9. 1) 优化了viterbi算法的代码,分词速度提升15%
  10. 2) 去除了词典中的一些低质词
  11. 2013-06-07: version 0.29
  12. ==========================
  13. 1) 提升了finalseg子模块命名体识别的准确度
  14. 2) 修正了一些badcase
  15. 2013-06-01: version 0.28.4
  16. ==========================
  17. 1) 修正了一些badcase
  18. 2) add wraps decorator, by @cloudaice
  19. 3) unittest, by @cloudaice
  20. 2013-05-02: version 0.28.3
  21. ==========================
  22. 1) 修正了临时cache文件生成在pypy解析器下出错的问题
  23. 2013-04-28: version 0.28.2
  24. ==========================
  25. 1) 修正了initialize函数默认参数绑定的bug.
  26. 2013-04-27: version 0.28
  27. ========================
  28. 1) 新增词典lazy load功能,用户可以在'import jieba'后再改变词典的路径. 感谢hermanschaaf
  29. 2) 显示词典加载异常时错误的词条信息. 感谢neuront
  30. 3) 修正了词典被vim编辑后会加载失败的bug. 感谢neuront
  31. 2013-04-22: version 0.27
  32. ========================
  33. 1) 新增并行分词功能,可以在多核计算机上显著提高分词速度
  34. 2) 修正了“的”字频过高引起的bug;修正了对小数点和下划线的处理
  35. 3) 修正了python2.6存在的兼容性问题
  36. 2013-04-07: version 0.26
  37. ========================
  38. 1) 改进了对标点符号的处理,之前的版本会过滤掉所有的标点符号;
  39. 2) 允许用户在自定义词典中添加词性;
  40. 3) 改进了关键词提取的功能jieba.analyse.extract_tags;
  41. 4) 修复了一个在pypy解释器下运行的bug.
  42. 2013-02-18: version 0.25
  43. ========================
  44. 1)支持繁体中文的分词
  45. 2)修正了多python进程时生成cache文件失败的bug
  46. 2012-12-28: version 0.24
  47. ========================
  48. 1) 解决了没有标点的长句子分词效果差的问题,问题在于连续的小概率乘法可能会导致浮点下溢或为0.
  49. 2) 修复了0.23的全模式下英文分词的bug
  50. 2012-12-12: version 0.23
  51. ========================
  52. 1) 修复了之前版本不能识别中英混合词语的问题
  53. 2012-11-28: version 0.22
  54. ========================
  55. 1) 新增jieba.cut_for_search方法, 该方法在精确分词的基础上对“长词”进行再次切分,适用于搜索引擎领域的分词,比精确分词模式有更高的召回率。
  56. 2) 开始支持Python3.x版。 之前一直是只支持Python2.x系列,从这个版本起有一个单独的jieba3k
  57. 2012-11-23: version 0.21
  58. ========================
  59. 1) 修复了全模式分词中散字过多的问题
  60. 2) 用户自定义词典函数load_userdict支持file-like object作为输入
  61. 2012-11-06: version 0.20
  62. ========================
  63. 1) 新增词性标注功能
  64. 2012-10-25: version 0.19
  65. ========================
  66. 1) 提升了模块加载的速度
  67. 2) 增加了用户自定义词典的接口
  68. 2012-10-16: version 0.18
  69. ========================
  70. 1) 增加关键词提取功能
  71. 2012-10-12: version 0.17
  72. ========================
  73. 1) 将词典文件dict.txt排序后存储,提升了Trie树构建速度,使得组件初始化时间缩短了10%;
  74. 2) 增强了人名词语的训练,增强了未登录人名词语的识别能力
  75. 2012-10-09: version 0.16
  76. ========================
  77. 1)将求最优切分路径的记忆化递归搜索算法改用循环实现,使分词速度提高了15%
  78. 2) 修复了Viterbi算法实现上的一个Bug
  79. 2012-10-07: version 0.14
  80. ========================
  81. 1) 结巴分词被发布到了pypi,用户可以通过easy_install或者pip快速安装该组件;
  82. 2) 合并了搜狗开源词库2006版,删除了一些低频词
  83. 3) 优化了代码,缩短了程序初始化时间。
  84. 4) 增加了在线效果演示