AsanHtmlParser のお行儀の悪いHTML対策

javascriptが<!-- -->で囲まれていない。

<script>タグが始まったときに、コメントがあればそのまま解析、
なければ、</script>直前までを読み込むようにしました。

文字セット指定がない。

yahooなど。
http://headlines.yahoo.co.jp
charsetの指定がない場合は、"JISAutoDetect" で解析するようにしました。
また、元々粒度の細かい呼び方もできるので、文字セットが自明ならば、呼び出し側でテキストに変換してから解析することもできます。

属性の値で、”で開始して、その末尾がない。

まさか、あのjavanewsが・・・。
http://javanews.jp/arc/java2008-01-03.html
008.010.023の"[ BROWSER ] 「Firefox 3.1」ベータ版ついに公開"
コレは明らかにおかしいです。
以前は例外を吐いて解析をやめていましたが、
例外を吐かず、次の"<"までスキップして解析を継続するようにしました。
エラー箇所は、HtmlErrorクラスにそのHTMLの内容とエラー内容を保持して返すようにしました。