| Thành viên | Trả lời |
seekill

20 bài
| 24-7-2010 14:3:5 E mới hoàn thành đồ án lấy tin tự động từ các site tin tức. Nói chung là ở dạng chấp nhận được. E đang có dự định làm 1 module cho DNN lấy tin từ vnexpress về. Tuy nhiên cái khó là cái lấy tin kia của e phát triển trên windows service (cho chạy nền lấy tin tự động --> chỉ có thể triển khai trên các server riêng) nên h muốn tham khảo các giải pháp sao cho triển khai trên dnn tránh tải quá lớn và cả việc lưu tin tức như thế nào? Giờ cái csdl ở localhost của e đã 35MB (mới lấy tin đc có 1 tuần - k liên tục). Các bác nêu ý kiến cho em với. Demo qua cái e đã làm.
http://blog.seekill.tk/2010/07/28/dien-the/
|
aspnet
 Lập trình không biên giới 608 bài
| 26-7-2010 22:10:53 Lấy tin tự động thì data tăng nhanh vùn vụt là đúng rồi còn gì, nó khác gì google, trên DNN thì chỉ còn cái scheduler nhưng mà cái này mình cũng chưa tìm hiểu rõ nó hoạt động thế nào. Mà chú chỉ công bố có thế thì cũng chẳng có gì để nói. Quan trọng là hệ thống của chú phân tích html theo cách nào hay là chỉ lấy RSS. Nếu phân tích html thì sai lệch là chắc chắn khó bao giờ chạy đúng 100%, google cũng chịu nên họ làm 1 cách trâu bò hơn là download tất cả nội dung html về rồi tìm trong đống đó sau. --- Coding for food http://yenbai.awas.vn http://tknd.vn http://coder.awas.vn http://awas.vn http://bieuquyet.vn http://webhocsinh.com
|
seekill

20 bài
| 28-7-2010 0:18:50 A xem demo bên kia thì sẽ rõ. Em lấy trên vnexpress là bóc tách HTML chứ k fai lấy từ RSS. Riêng với vnexpress thì các tin không bị lỗi, lấy đầy đủ (duy lỗi chưa hiển thị video là chưa khắc phục được). Việc lấy tin em dựa vào HTML DOM Tree
|
 |