urlreg.py
by
admin
—
last modified
2007-05-25 12:26
Få information fra bestemte hjemmesider Jeg har en liste over en rækkehjemmesider der alle indeholder information der skal indhentes. Den fælles information er tekst lignende: "brugernavn: XXXXX" Hvor det der skal gemmes er brugernavnet. Listen over de sider der skal indhentes information fra er kendt på forhånd og teksten er fælles for alle sammen. Er der en nem og hurtig måde man kan hente informationen på? Uden at man manuelt skal søge hver side igennem?
Size 1 kB - File type text/python-sourceFile contents
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""Usage: urlreg.py <url>
<url> : is page to look up on the internet
<regexp>: Regular expression to match
Output all the matches on stdout
svar på spørgsmål på http://www.eksperten.dk/spm/779634
example:
på kommandolinien skrives
pyton.exe urlreg.py http://www.databassen.dk:8090/bfcl/Members/bauer/test 'brugernavn:\w+'
brugernavn:bertel
brugernavn:niels
"""
import urllib, re, sys
try: # Fetch the arguments
url = sys.argv[1]
regexp = sys.argv[2]
except:
print __doc__
source = urllib.urlopen(url).read()
regexp = re.compile(r'%s' % ( regexp ) )
res = regexp.findall( source )
for match in res:
print match
Click here to get the file