BeautifulSoupを使ってGoogleの表示順位を調べる

python

BeautifulSoupはHTML解析用のライブラリです。htmllib.HTMLParserやHTMLPaprser.HTMLParserと違い、正しくないHTMLも扱えるようです。これを使ってGoogleの表示順位を調べるスクリプトを書いてみました。 #!python # vim:fileencoding=utf-8 import re impor…

2008-02-06

HTMLParser.HTMLParserでリンクを抽出

python

#!python # vim:fileencoding=utf-8 from HTMLParser import HTMLParser import urllib2 from urlparse import urlparse class ExtractTextLinkParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.links = [] self.url = "" self.text…

2008-02-06

htmllib.HTMLParserでリンクを抽出

python

#!python # vim:fileencoding=utf-8 from htmllib import HTMLParser from formatter import NullFormatter import urllib2 from urlparse import urlparse class ExtractTextLinkParser(HTMLParser): def __init__(self): HTMLParser.__init__(self, NullFo…

2008-02-04

重複する要素を取り除く

python

>>> xs = [5, 8, 5, 1, 1, 4, 2, 4, 3, 2] >>> set(xs) set([1, 2, 3, 4, 5, 8]) >>> sorted(set(xs), key=xs.index) # 順序を維持 [5, 8, 1, 4, 2, 3]

2008-02-04

整数を漢数字に変換

python

#!python # vim:fileencoding=utf-8 def num2kanji(num): KNUM = [u"", u"一", u"二", u"三", u"四", u"五", u"六", u"七", u"八", u"九"] DIGIT1 = (u"", u"十", u"百", u"千") DIGIT2 = (u"", u"万", u"億", u"兆", u"京") try: num = int(num) except Val…

2008-02-04

文字列を逆順にする

python

>>> str = "abcdefg" >>> str[::-1] 'gfedcba' >>> >>> str[0:5:2] # 0番目から5番目までを2つおきに取り出す 'ace' >>> str[-1:-5:-1] # 後ろの4つの要素を逆順に取り出す 'gfed'

2008-02-01

wgetでYouTube等から動画を落とす

python

今度は正規表現を使わずに書いてみました。 #!python #encoding=utf-8 import urllib import urllib2 import re import os import sys import time save_dir = r"c:\My Documents" interval = 3 def get_video_detail(url): for host, video in VIDEOS.items…

ひきメモ

2008-02-01から1ヶ月間の記事一覧

BeautifulSoupを使ってGoogleの表示順位を調べる

HTMLParser.HTMLParserでリンクを抽出

htmllib.HTMLParserでリンクを抽出

重複する要素を取り除く

整数を漢数字に変換

文字列を逆順にする

wgetでYouTube等から動画を落とす