Site Network: Home | Blog'1998-2002 | Blog' 2005-2010 | MANAGE

一,通过word清洗数据

1、复制该页面链接到word
2、打开word-preference-view
3、勾选Show in Document中的
4、Edit-Find-Advanced find&replace, Search-勾选Use wildcards, 勾选Highlight all items found in: Main Document, Find what填写http://*html
5、Copy
(如果有重复的,复制到emacs,全选,使用M-x del-dup-line删除复行)
二,使用chrome插件ImageAssistant下载图片
复制上述清洗后网址,大小根据情况过滤网站图片(如300x300),最后Select All- Download Selected(注意在chrome-Setting-Advance-Downloads中关闭Ask where to save each file before downloading选项,否则会痛苦至死)