是否有从Java字符串中删除HTML的好方法？一个简单的正则表达式

<pre><code> replaceAll("\\&lt;.*?&gt;","") 
</code></pre>

会起作用，但是<code>&amp;amp;</code>不会正确转换，并且两个尖括号之间的非HTML也会被删除（即<code>.*?</code>，正则表达式中的将会消失）。

Java

从字符串中删除HTML标签

HTML

使用HTML解析器代替正则表达式。对于<a href="http://jsoup.org" rel="noreferrer">Jsoup来说，</a>这<a href="http://jsoup.org" rel="noreferrer">简直太</a>简单了。

<pre><code>public static String html2text(String html) {
 return Jsoup.parse(html).text();
}
</code></pre>

Jsoup also <a href="https://jsoup.org/cookbook/cleaning-html/whitelist-sanitizer" rel="noreferrer">supports</a> removing HTML tags against a customizable whitelist, which is very useful if you want to allow only e.g. <code>&lt;b&gt;</code>, <code>&lt;i&gt;</code> and <code>&lt;u&gt;</code>.

<h3>See also:</h3>

<ul>
<li><a href="https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags">RegEx match open tags except XHTML self-contained tags</a></li>
<li><a href="https://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers">What are the pros and cons of the leading Java HTML parsers?</a></li>
<li><a href="https://stackoverflow.com/questions/2658922/xss-prevention-in-jsp-servlet-web-application">XSS prevention in JSP/Servlet web application</a></li>
</ul>

使用<a href="http://jericho.htmlparser.net/docs/index.html" rel="noreferrer">Jericho</a>也非常简单，您可以保留一些格式（例如，换行符和链接）。

<pre><code> Source htmlSource = new Source(htmlText);
 Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
 Renderer htmlRend = new Renderer(htmlSeg);
 System.out.println(htmlRend.toString());
</code></pre>

我认为过滤html标签的最简单方法是：

<pre><code>private static final Pattern REMOVE_TAGS = Pattern.compile("&lt;.+?&gt;");

public static String removeTags(String string) {
 if (string == null || string.length() == 0) {
 return string;
 }

 Matcher m = REMOVE_TAGS.matcher(string);
 return m.replaceAll("");
}
</code></pre>

如果您是为Android编写的，则可以执行此操作...

<pre><code>android.text.Html.fromHtml(instruction).toString()
</code></pre>

另一种方法是使用 javax.swing.text.html.HTMLEditorKit提取文本。

<pre><code>import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
 StringBuffer s;

 public Html2Text() {
 }

 public void parse(Reader in) throws IOException {
 s = new StringBuffer();
 ParserDelegator delegator = new ParserDelegator();
 // the third parameter is TRUE to ignore charset directive
 delegator.parse(in, this, Boolean.TRUE);
 }

 public void handleText(char[] text, int pos) {
 s.append(text);
 }

 public String getText() {
 return s.toString();
 }

 public static void main(String[] args) {
 try {
 // the HTML to convert
 FileReader in = new FileReader("java-new.html");
 Html2Text parser = new Html2Text();
 parser.parse(in);
 in.close();
 System.out.println(parser.getText());
 } catch (Exception e) {
 e.printStackTrace();
 }
 }
}
</code></pre>

ref：<a href="http://www.rgagnon.com/javadetails/java-0424.html" rel="noreferrer">从文件中删除HTML标记以仅提取TEXT</a>

如果用户输入<code>&lt;b&gt;hey!&lt;/b&gt;</code>，要显示<code>&lt;b&gt;hey!&lt;/b&gt;</code>还是<code>hey!</code>？如果是第一个，请转义小于号，并用html编码“与”号（以及可选的引号），您就可以了。为了实现第二个选项而对您的代码进行的修改是：

<pre><code>replaceAll("\\&lt;[^&gt;]*&gt;","")
</code></pre>

但是如果用户输入格式错误的内容，您就会遇到问题<code>&lt;bhey!&lt;/b&gt;</code>。

您还可以签出<a href="http://jtidy.sourceforge.net/" rel="noreferrer">JTidy</a>，它将解析“肮脏”的html输入，并应为您提供一种删除标记并保留文本的方法。

尝试剥离html的问题在于浏览器的解析器非常宽松，比您可以找到的任何库都宽松，因此即使您尽力剥离所有标签（使用上述替换方法，DOM库或JTidy） ，您仍然需要确保对所有剩余的HTML特殊字符进行编码，以确保输出安全。

在Android上，尝试以下操作：

<pre><code>String result = Html.fromHtml(html).toString();
</code></pre>

HTML转义真的很难做到正确-我绝对建议您使用库代码来执行此操作，因为它比您想象的要微妙得多。请查看Apache的<a href="http://commons.apache.org/proper/commons-lang/javadocs/api-release/org/apache/commons/lang3/StringEscapeUtils.html" rel="nofollow noreferrer">StringEscapeUtils</a>，以获取一个相当不错的库来用Java处理该库。

您可能希望在剥离HTML之前用换行符替换<code>&lt;br/&gt;</code>和<code>&lt;/p&gt;</code>标记，以防止HTML变得像Tim所建议的那样混乱。

我想删除HTML标签但将非HTML放在尖括号之间的唯一方法是对照<a href="http://www.w3schools.com/tags/default.asp" rel="noreferrer">HTML标签列表</a>进行检查。遵循这些原则...

<pre><code>replaceAll("\\&lt;[\s]*tag[^&gt;]*&gt;","")
</code></pre>

然后HTML解码特殊字符，例如<code>&amp;amp;</code>。结果不应视为经过消毒。

或者，可以使用<a href="http://htmlcleaner.sourceforge.net/index.php" rel="noreferrer">HtmlCleaner</a>：

<pre><code>private CharSequence removeHtmlFrom(String html) {
 return new HtmlCleaner().clean(html).getText();
}
</code></pre>

我知道这很旧，但是我只是在一个需要过滤HTML的项目上正常工作：

<pre><code>noHTMLString.replaceAll("\\&amp;.*?\\;", "");
</code></pre>

代替这个：

<pre><code>html = html.replaceAll("&amp;nbsp;","");
html = html.replaceAll("&amp;amp;"."");
</code></pre>

这是如何替换所有内容的另一种变体（HTML标记| HTML实体| HTML内容中的空白区域）

<code>content.replaceAll("(&lt;.*?&gt;)|(&amp;.*?;)|([ ]{2,})", "");</code> 内容是一个字符串。

听起来您想从HTML变为纯文本。 
如果是这种情况，请访问www.htmlparser.org。这是一个示例，该示例从URL处的html文件中剥离所有标签。 
它利用了org.htmlparser.beans.StringBean。

<pre><code>static public String getUrlContentsAsText(String url) {
 String content = "";
 StringBean stringBean = new StringBean();
 stringBean.setURL(url);
 content = stringBean.getStrings();
 return content;
}
</code></pre>

另一种方法是使用com.google.gdata.util.common.html.HtmlToText类，例如 

<pre><code>MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));
</code></pre>

但是，这不是防弹代码，当我在Wikipedia条目上运行它时，我也会得到样式信息。但是我相信对于小型/简单的工作，这将是有效的。

也可以将<a href="http://tika.apache.org/" rel="nofollow">Apache Tika</a>用于此目的。默认情况下，它会保留剥离的html中的空格，这在某些情况下可能是需要的：

<pre class="lang-java prettyprint-override"><code>InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())
</code></pre>

这是另一种方法：

<pre><code>public static String removeHTML(String input) {
 int i = 0;
 String[] str = input.split("");

 String s = "";
 boolean inTag = false;

 for (i = input.indexOf("&lt;"); i &lt; input.indexOf("&gt;"); i++) {
 inTag = true;
 }
 if (!inTag) {
 for (i = 0; i &lt; str.length; i++) {
 s = s + str[i];
 }
 }
 return s;
}
</code></pre>

我的5美分：

<pre><code>String[] temp = yourString.split("&amp;amp;");
String tmp = "";
if (temp.length &gt; 1) {

 for (int i = 0; i &lt; temp.length; i++) {
 tmp += temp[i] + "&amp;";
 }
 yourString = tmp.substring(0, tmp.length() - 1);
}
</code></pre>

使用JSoup保留换行信息的一种方法是，在所有新行标记之前添加一些伪字符串，执行JSoup并将伪字符串替换为“ \ n”。

<pre><code>String html = "&lt;p&gt;Line one&lt;/p&gt;&lt;p&gt;Line two&lt;/p&gt;Line three&lt;br/&gt;etc.";
String NEW_LINE_MARK = "NEWLINESTART1234567890NEWLINEEND";
for (String tag: new String[]{"&lt;/p&gt;","&lt;br/&gt;","&lt;/h1&gt;","&lt;/h2&gt;","&lt;/h3&gt;","&lt;/h4&gt;","&lt;/h5&gt;","&lt;/h6&gt;","&lt;/li&gt;"}) {
 html = html.replace(tag, NEW_LINE_MARK+tag);
}

String text = Jsoup.parse(html).text();

text = text.replace(NEW_LINE_MARK + " ", "\n\n");
text = text.replace(NEW_LINE_MARK, "\n\n");
</code></pre>

您只需使用Android的默认HTML过滤器

<pre><code> public String htmlToStringFilter(String textToFilter){

 return Html.fromHtml(textToFilter).toString();

 }
</code></pre>

上面的方法将为您的输入返回经过HTML过滤的字符串。

采用 <code>Html.fromHtml</code>

HTML标签是

<pre><code>&lt;a href=”…”&gt; &lt;b&gt;, &lt;big&gt;, &lt;blockquote&gt;, &lt;br&gt;, &lt;cite&gt;, &lt;dfn&gt;
&lt;div align=”…”&gt;, &lt;em&gt;, &lt;font size=”…” color=”…” face=”…”&gt;
&lt;h1&gt;, &lt;h2&gt;, &lt;h3&gt;, &lt;h4&gt;, &lt;h5&gt;, &lt;h6&gt;
&lt;i&gt;, &lt;p&gt;, &lt;small&gt;
&lt;strike&gt;, &lt;strong&gt;, &lt;sub&gt;, &lt;sup&gt;, &lt;tt&gt;, &lt;u&gt;
</code></pre>

根据<a href="http://developer.android.com/intl/es/reference/android/text/Html.html" rel="nofollow">Android的官方文档</a>，HTML中的任何标签都将显示为通用替换字符串，您的程序可以通过该字符串替换并用真实字符串替换。

<code>Html.formHtml</code>方法采用<code>Html.TagHandler</code>和Html.ImageGetter作为参数以及要解析的文本。

<h2>例</h2>

<pre><code>String Str_Html=" &lt;p&gt;This is about me text that the user can put into their profile&lt;/p&gt; ";
</code></pre>

然后

<pre><code>Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());
</code></pre>

输出量

这是关于我的文字，用户可以将其放入个人资料中

要获取带格式的纯html文本，可以执行以下操作：

<pre><code>String BR_ESCAPED = "&amp;lt;br/&amp;gt;";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "&lt;br/&gt;");
nodeValue=nodeValue.replaceAll("(\\s*&lt;br[^&gt;]*&gt;){3,}", "&lt;br/&gt;&lt;br/&gt;");
</code></pre>

要获得带格式的纯文本，请将 &lt;br/&gt;更改为\ n，并将最后一行更改为：

<pre><code>nodeValue=nodeValue.replaceAll("(\\s*\n){3,}", "&lt;br/&gt;&lt;br/&gt;");
</code></pre>

您可以简单地使用多个replaceAll（）方法

<pre><code>String RemoveTag(String html){
 html = html.replaceAll("\\&lt;.*?&gt;","")
 html = html.replaceAll("&amp;nbsp;","");
 html = html.replaceAll("&amp;amp;"."");
 ----------
 ----------
 return html;
}
</code></pre>

使用此链接进行所需的最常见替换：<a href="http://tunes.org/wiki/html_20special_20characters_20and_20symbols.html" rel="nofollow">http</a> :
 <a href="http://tunes.org/wiki/html_20special_20characters_20and_20symbols.html" rel="nofollow">//tunes.org/wiki/html_20special_20characters_20and_20symbols.html</a>

它简单但有效。我首先使用此方法删除垃圾，但不删除第一行，即replaceAll（“ \ &lt;。*？&gt;”，“”），然后我使用特定的关键字搜索索引，然后使用.substring（start，end ）剥离不必要的东西的方法。由于这更可靠，因此您可以在整个html页面中准确指出所需的内容。

这是一个稍微充实的更新，以尝试处理一些中断和列表格式。我以Amaya的输出为指导。 

<pre><code>import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Stack;
import java.util.logging.Logger;

import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

public class HTML2Text extends HTMLEditorKit.ParserCallback {
 private static final Logger log = Logger
 .getLogger(Logger.GLOBAL_LOGGER_NAME);

 private StringBuffer stringBuffer;

 private Stack&lt;IndexType&gt; indentStack;

 public static class IndexType {
 public String type;
 public int counter; // used for ordered lists

 public IndexType(String type) {
 this.type = type;
 counter = 0;
 }
 }

 public HTML2Text() {
 stringBuffer = new StringBuffer();
 indentStack = new Stack&lt;IndexType&gt;();
 }

 public static String convert(String html) {
 HTML2Text parser = new HTML2Text();
 Reader in = new StringReader(html);
 try {
 // the HTML to convert
 parser.parse(in);
 } catch (Exception e) {
 log.severe(e.getMessage());
 } finally {
 try {
 in.close();
 } catch (IOException ioe) {
 // this should never happen
 }
 }
 return parser.getText();
 }

 public void parse(Reader in) throws IOException {
 ParserDelegator delegator = new ParserDelegator();
 // the third parameter is TRUE to ignore charset directive
 delegator.parse(in, this, Boolean.TRUE);
 }

 public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
 log.info("StartTag:" + t.toString());
 if (t.toString().equals("p")) {
 if (stringBuffer.length() &gt; 0
 &amp;&amp; !stringBuffer.substring(stringBuffer.length() - 1)
 .equals("\n")) {
 newLine();
 }
 newLine();
 } else if (t.toString().equals("ol")) {
 indentStack.push(new IndexType("ol"));
 newLine();
 } else if (t.toString().equals("ul")) {
 indentStack.push(new IndexType("ul"));
 newLine();
 } else if (t.toString().equals("li")) {
 IndexType parent = indentStack.peek();
 if (parent.type.equals("ol")) {
 String numberString = "" + (++parent.counter) + ".";
 stringBuffer.append(numberString);
 for (int i = 0; i &lt; (4 - numberString.length()); i++) {
 stringBuffer.append(" ");
 }
 } else {
 stringBuffer.append("* ");
 }
 indentStack.push(new IndexType("li"));
 } else if (t.toString().equals("dl")) {
 newLine();
 } else if (t.toString().equals("dt")) {
 newLine();
 } else if (t.toString().equals("dd")) {
 indentStack.push(new IndexType("dd"));
 newLine();
 }
 }

 private void newLine() {
 stringBuffer.append("\n");
 for (int i = 0; i &lt; indentStack.size(); i++) {
 stringBuffer.append(" ");
 }
 }

 public void handleEndTag(HTML.Tag t, int pos) {
 log.info("EndTag:" + t.toString());
 if (t.toString().equals("p")) {
 newLine();
 } else if (t.toString().equals("ol")) {
 indentStack.pop();
 ;
 newLine();
 } else if (t.toString().equals("ul")) {
 indentStack.pop();
 ;
 newLine();
 } else if (t.toString().equals("li")) {
 indentStack.pop();
 ;
 newLine();
 } else if (t.toString().equals("dd")) {
 indentStack.pop();
 ;
 }
 }

 public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
 log.info("SimpleTag:" + t.toString());
 if (t.toString().equals("br")) {
 newLine();
 }
 }

 public void handleText(char[] text, int pos) {
 log.info("Text:" + new String(text));
 stringBuffer.append(text);
 }

 public String getText() {
 return stringBuffer.toString();
 }

 public static void main(String args[]) {
 String html = "&lt;html&gt;&lt;body&gt;&lt;p&gt;paragraph at start&lt;/p&gt;hello&lt;br /&gt;What is happening?&lt;p&gt;this is a&lt;br /&gt;mutiline paragraph&lt;/p&gt;&lt;ol&gt; &lt;li&gt;This&lt;/li&gt; &lt;li&gt;is&lt;/li&gt; &lt;li&gt;an&lt;/li&gt; &lt;li&gt;ordered&lt;/li&gt; &lt;li&gt;list &lt;p&gt;with&lt;/p&gt; &lt;ul&gt; &lt;li&gt;another&lt;/li&gt; &lt;li&gt;list &lt;dl&gt; &lt;dt&gt;This&lt;/dt&gt; &lt;dt&gt;is&lt;/dt&gt; &lt;dd&gt;sdasd&lt;/dd&gt; &lt;dd&gt;sdasda&lt;/dd&gt; &lt;dd&gt;asda &lt;p&gt;aasdas&lt;/p&gt; &lt;/dd&gt; &lt;dd&gt;sdada&lt;/dd&gt; &lt;dt&gt;fsdfsdfsd&lt;/dt&gt; &lt;/dl&gt; &lt;dl&gt; &lt;dt&gt;vbcvcvbcvb&lt;/dt&gt; &lt;dt&gt;cvbcvbc&lt;/dt&gt; &lt;dd&gt;vbcbcvbcvb&lt;/dd&gt; &lt;dt&gt;cvbcv&lt;/dt&gt; &lt;dt&gt;&lt;/dt&gt; &lt;/dl&gt; &lt;dl&gt; &lt;dt&gt;&lt;/dt&gt; &lt;/dl&gt;&lt;/li&gt; &lt;li&gt;cool&lt;/li&gt; &lt;/ul&gt; &lt;p&gt;stuff&lt;/p&gt; &lt;/li&gt; &lt;li&gt;cool&lt;/li&gt;&lt;/ol&gt;&lt;p&gt;&lt;/p&gt;&lt;/body&gt;&lt;/html&gt;";
 System.out.println(convert(html));
 }
}
</code></pre>