Небольшая проблема с парсингом ссылок

 
0
 
Python
ava
ShaiTan | 16.12.2011, 11:03
Такой код:

soup = BeautifulSoup.BeautifulSoup(body)
urls = [tag['href'] for tag in soup.findAll('a')]
random.shuffle(urls)
print (urls[1])
rurl = ('http://domain.com' + (urls[1]))

Собирает внутреннии ссылки, выбирает рандомную, приводит в норм. вид. Проблема в том, что некоторые ссылки имеют в начале слеш /, а другие нет. Соответственно часть ссылок нерабочая - http://domain.com//(urls[1]) или http://domain.com(urls[1]) в зависимости от наличия слеша здесь:

rurl = ('http://domain.com' + (urls[1]))

Плюс попадаются внешние ссылки. Они тоже собираются и портят картину.
Возможно в некоторых случаях внутренние ссылки будут также начинаться с http://domain.com...
Как все это грамотно и макс просто разрулить?
Нужны только внутренние ссылки, 100% рабочие.
Kommentare (0)

Kommentare werden nicht hinzugefügt

Registrieren Sie sich oder melden Sie sich an, um schreiben zu können.
Unternehmen des Tages
Вы также можете добавить свою фирму в каталог IT-фирм, и публиковать статьи, новости, вакансии и другую информацию от имени фирмы.
Подробнее
Mitwirkende
  ShaiTan
advanced
Absenden