Gordon,<br><br>I have an ORA book on web spidering that you can probably cannibalize useful stuff from.  If you're coming to the BLUG talk this Thursday, and want to borrow it, let me know and I'll bring it.<br><br>
<div class="gmail_quote">On Mon, May 5, 2008 at 10:18 AM,  <<a href="mailto:gordongoldin@aim.com">gordongoldin@aim.com</a>> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

<div> <font face="Arial, Helvetica, sans-serif">I'm doing a project to analyze text content on the web:<br>
<br>
</font>i need to:<br>
<br>
start with a list of URLs<br>
for each URL in the URL list<br>
   fetch the page<br>
   throw away non-English pages<br>
   extract the sentence text content, (not hidden text, menus, lists, etc.)<br>
      write that content to a file<br>
   extract all the links<br>
      add just the new links to the URL list (not those already in the list of URLs)<br>
<br>
i could just use java, but then i would have to write everything.<br>
beautiful soup (written in python) would probably work well to parse the pages, but i don't see that it can fetch pages.<br>
i can't tell to what extent nutch can parse the pages. i know it can give me the links, but i don't know if it can extract just the text i care about.<br>
<br>
</div>

<div> <br>
</div>

<div style="clear: both;"><font><br>
Gordon Golding<br>
<br>
</font></div>
<div><font style="color: black; font-family: ARIAL,SAN-SERIF; font-style: normal; font-variant: normal; font-weight: normal; font-size: 10pt; line-height: normal; font-size-adjust: none; font-stretch: normal;"><hr style="margin-top: 10px;">
Plan your next roadtrip with <a title="http://www.mapquest.com/?ncid=mpqmap00030000000004" href="http://www.mapquest.com/?ncid=mpqmap00030000000004" target="_blank">MapQuest.com</a>: America's #1 Mapping Site.</font> </div>

<br>_______________________________________________<br>
Web Page:  <a href="http://lug.boulder.co.us" target="_blank">http://lug.boulder.co.us</a><br>
Mailing List: <a href="http://lists.lug.boulder.co.us/mailman/listinfo/lug" target="_blank">http://lists.lug.boulder.co.us/mailman/listinfo/lug</a><br>
Join us on IRC: <a href="http://lug.boulder.co.us" target="_blank">lug.boulder.co.us</a> port=6667 channel=#colug<br></blockquote></div><br><br clear="all"><br>-- <br>Jeffrey Haemer <<a href="mailto:jeffrey.haemer@gmail.com">jeffrey.haemer@gmail.com</a>><br>
720-837-8908 [cell]<br><a href="http://goyishekop.blogspot.com">http://goyishekop.blogspot.com</a>