从字符串中删除HTML标签

卡卡西 · 03月23日

是否有从Java字符串中删除HTML的好方法?一个简单的正则表达式

 replaceAll("\\<.*?>","") 

会起作用,但是&amp;不会正确转换,并且两个尖括号之间的非HTML也会被删除(即.*?,正则表达式中的将会消失)。

HTMLJava
回答(23)
时间
阳光Itachi
23 · 2020-03-23 09:11:06

这是一个稍微充实的更新,以尝试处理一些中断和列表格式。我以Amaya的输出为指导。

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Stack;
import java.util.logging.Logger;

import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

public class HTML2Text extends HTMLEditorKit.ParserCallback {
    private static final Logger log = Logger
            .getLogger(Logger.GLOBAL_LOGGER_NAME);

    private StringBuffer stringBuffer;

    private Stack<IndexType> indentStack;

    public static class IndexType {
        public String type;
        public int counter; // used for ordered lists

        public IndexType(String type) {
            this.type = type;
            counter = 0;
        }
    }

    public HTML2Text() {
        stringBuffer = new StringBuffer();
        indentStack = new Stack<IndexType>();
    }

    public static String convert(String html) {
        HTML2Text parser = new HTML2Text();
        Reader in = new StringReader(html);
        try {
            // the HTML to convert
            parser.parse(in);
        } catch (Exception e) {
            log.severe(e.getMessage());
        } finally {
            try {
                in.close();
            } catch (IOException ioe) {
                // this should never happen
            }
        }
        return parser.getText();
    }

    public void parse(Reader in) throws IOException {
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("StartTag:" + t.toString());
        if (t.toString().equals("p")) {
            if (stringBuffer.length() > 0
                    && !stringBuffer.substring(stringBuffer.length() - 1)
                            .equals("\n")) {
                newLine();
            }
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.push(new IndexType("ol"));
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.push(new IndexType("ul"));
            newLine();
        } else if (t.toString().equals("li")) {
            IndexType parent = indentStack.peek();
            if (parent.type.equals("ol")) {
                String numberString = "" + (++parent.counter) + ".";
                stringBuffer.append(numberString);
                for (int i = 0; i < (4 - numberString.length()); i++) {
                    stringBuffer.append(" ");
                }
            } else {
                stringBuffer.append("*   ");
            }
            indentStack.push(new IndexType("li"));
        } else if (t.toString().equals("dl")) {
            newLine();
        } else if (t.toString().equals("dt")) {
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.push(new IndexType("dd"));
            newLine();
        }
    }

    private void newLine() {
        stringBuffer.append("\n");
        for (int i = 0; i < indentStack.size(); i++) {
            stringBuffer.append("    ");
        }
    }

    public void handleEndTag(HTML.Tag t, int pos) {
        log.info("EndTag:" + t.toString());
        if (t.toString().equals("p")) {
            newLine();
        } else if (t.toString().equals("ol")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("ul")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("li")) {
            indentStack.pop();
            ;
            newLine();
        } else if (t.toString().equals("dd")) {
            indentStack.pop();
            ;
        }
    }

    public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
        log.info("SimpleTag:" + t.toString());
        if (t.toString().equals("br")) {
            newLine();
        }
    }

    public void handleText(char[] text, int pos) {
        log.info("Text:" + new String(text));
        stringBuffer.append(text);
    }

    public String getText() {
        return stringBuffer.toString();
    }

    public static void main(String args[]) {
        String html = "<html><body><p>paragraph at start</p>hello<br />What is happening?<p>this is a<br />mutiline paragraph</p><ol>  <li>This</li>  <li>is</li>  <li>an</li>  <li>ordered</li>  <li>list    <p>with</p>    <ul>      <li>another</li>      <li>list        <dl>          <dt>This</dt>          <dt>is</dt>            <dd>sdasd</dd>            <dd>sdasda</dd>            <dd>asda              <p>aasdas</p>            </dd>            <dd>sdada</dd>          <dt>fsdfsdfsd</dt>        </dl>        <dl>          <dt>vbcvcvbcvb</dt>          <dt>cvbcvbc</dt>            <dd>vbcbcvbcvb</dd>          <dt>cvbcv</dt>          <dt></dt>        </dl>        <dl>          <dt></dt>        </dl></li>      <li>cool</li>    </ul>    <p>stuff</p>  </li>  <li>cool</li></ol><p></p></body></html>";
        System.out.println(convert(html));
    }
}
神无Sam
22 · 2020-03-23 09:11:06

您可以简单地使用多个replaceAll()方法

String RemoveTag(String html){
   html = html.replaceAll("\\<.*?>","")
   html = html.replaceAll("&nbsp;","");
   html = html.replaceAll("&amp;"."");
   ----------
   ----------
   return html;
}

使用此链接进行所需的最常见替换:http : //tunes.org/wiki/html_20special_20characters_20and_20symbols.html

它简单但有效。我首先使用此方法删除垃圾,但不删除第一行,即replaceAll(“ \ <。*?>”,“”),然后我使用特定的关键字搜索索引,然后使用.substring(start,end )剥离不必要的东西的方法。由于这更可靠,因此您可以在整个html页面中准确指出所需的内容。

古一
21 · 2020-03-23 09:11:06

要获取带格式的纯html文本,可以执行以下操作:

String BR_ESCAPED = "&lt;br/&gt;";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "<br/>");
nodeValue=nodeValue.replaceAll("(\\s*<br[^>]*>){3,}", "<br/><br/>");

要获得带格式的纯文本,请将 <br/>更改为\ n,并将最后一行更改为:

nodeValue=nodeValue.replaceAll("(\\s*\n){3,}", "<br/><br/>");
G
GO猴子
20 · 2020-03-23 09:11:06

采用 Html.fromHtml

HTML标签是

<a href=”…”> <b>,  <big>, <blockquote>, <br>, <cite>, <dfn>
<div align=”…”>,  <em>, <font size=”…” color=”…” face=”…”>
<h1>,  <h2>, <h3>, <h4>,  <h5>, <h6>
<i>, <p>, <small>
<strike>,  <strong>, <sub>, <sup>, <tt>, <u>

根据Android的官方文档HTML中的任何标签都将显示为通用替换字符串,您的程序可以通过该字符串替换并用真实字符串替换

Html.formHtml方法采用Html.TagHandler和Html.ImageGetter作为参数以及要解析的文本。

String Str_Html=" <p>This is about me text that the user can put into their profile</p> ";

然后

Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());

输出量

这是关于我的文字,用户可以将其放入个人资料中

J
JinJinGreen
19 · 2020-03-23 09:11:06

您只需使用Android的默认HTML过滤器

    public String htmlToStringFilter(String textToFilter){

    return Html.fromHtml(textToFilter).toString();

    }

上面的方法将为您的输入返回经过HTML过滤的字符串。

P
ProJinJin
18 · 2020-03-23 09:11:06

使用JSoup保留换行信息的一种方法是,在所有新行标记之前添加一些伪字符串,执行JSoup并将伪字符串替换为“ \ n”。

String html = "<p>Line one</p><p>Line two</p>Line three<br/>etc.";
String NEW_LINE_MARK = "NEWLINESTART1234567890NEWLINEEND";
for (String tag: new String[]{"</p>","<br/>","</h1>","</h2>","</h3>","</h4>","</h5>","</h6>","</li>"}) {
    html = html.replace(tag, NEW_LINE_MARK+tag);
}

String text = Jsoup.parse(html).text();

text = text.replace(NEW_LINE_MARK + " ", "\n\n");
text = text.replace(NEW_LINE_MARK, "\n\n");
P
Pro
17 · 2020-03-23 09:11:05

我的5美分:

String[] temp = yourString.split("&amp;");
String tmp = "";
if (temp.length > 1) {

    for (int i = 0; i < temp.length; i++) {
        tmp += temp[i] + "&";
    }
    yourString = tmp.substring(0, tmp.length() - 1);
}
J
Jim
16 · 2020-03-23 09:11:05

这是另一种方法:

public static String removeHTML(String input) {
    int i = 0;
    String[] str = input.split("");

    String s = "";
    boolean inTag = false;

    for (i = input.indexOf("<"); i < input.indexOf(">"); i++) {
        inTag = true;
    }
    if (!inTag) {
        for (i = 0; i < str.length; i++) {
            s = s + str[i];
        }
    }
    return s;
}
飞云
15 · 2020-03-23 09:11:05

也可以将Apache Tika用于此目的。默认情况下,它会保留剥离的html中的空格,这在某些情况下可能是需要的:

InputStream htmlInputStream = ..
HtmlParser htmlParser = new HtmlParser();
HtmlContentHandler htmlContentHandler = new HtmlContentHandler();
htmlParser.parse(htmlInputStream, htmlContentHandler, new Metadata())
System.out.println(htmlContentHandler.getBodyText().trim())
S
Stafan
14 · 2020-03-23 09:11:05

另一种方法是使用com.google.gdata.util.common.html.HtmlToText类,例如

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

但是,这不是防弹代码,当我在Wikipedia条目上运行它时,我也会得到样式信息。但是我相信对于小型/简单的工作,这将是有效的。

G
GO
13 · 2020-03-23 09:11:05

听起来您想从HTML变为纯文本。
如果是这种情况,请访问www.htmlparser.org。这是一个示例,该示例从URL处的html文件中剥离所有标签。
它利用了org.htmlparser.beans.StringBean

static public String getUrlContentsAsText(String url) {
    String content = "";
    StringBean stringBean = new StringBean();
    stringBean.setURL(url);
    content = stringBean.getStrings();
    return content;
}
神无
12 · 2020-03-23 09:11:05

这是如何替换所有内容的另一种变体(HTML标记| HTML实体| HTML内容中的空白区域)

content.replaceAll("(<.*?>)|(&.*?;)|([ ]{2,})", ""); 内容是一个字符串。

E
Eva神乐
11 · 2020-03-23 09:11:05

我知道这很旧,但是我只是在一个需要过滤HTML的项目上正常工作:

noHTMLString.replaceAll("\\&.*?\\;", "");

代替这个:

html = html.replaceAll("&nbsp;","");
html = html.replaceAll("&amp;"."");
蛋蛋
10 · 2020-03-23 09:11:05

或者,可以使用HtmlCleaner

private CharSequence removeHtmlFrom(String html) {
    return new HtmlCleaner().clean(html).getText();
}
老丝
9 · 2020-03-23 09:11:05

您可能希望在剥离HTML之前用换行符替换<br/></p>标记,以防止HTML变得像Tim所建议的那样混乱。

我想删除HTML标签但将非HTML放在尖括号之间的唯一方法是对照HTML标签列表进行检查遵循这些原则...

replaceAll("\\<[\s]*tag[^>]*>","")

然后HTML解码特殊字符,例如&amp;结果不应视为经过消毒。

G
GO
8 · 2020-03-23 09:11:05

HTML转义真的很难做到正确-我绝对建议您使用库代码来执行此操作,因为它比您想象的要微妙得多。请查看Apache的StringEscapeUtils,以获取一个相当不错的库来用Java处理该库。

神乐神无LEY
7 · 2020-03-23 09:11:05

在Android上,尝试以下操作:

String result = Html.fromHtml(html).toString();
小小
6 · 2020-03-23 09:11:04

如果用户输入<b>hey!</b>,要显示<b>hey!</b>还是hey!如果是第一个,请转义小于号,并用html编码“与”号(以及可选的引号),您就可以了。为了实现第二个选项而对您的代码进行的修改是:

replaceAll("\\<[^>]*>","")

但是如果用户输入格式错误的内容,您就会遇到问题<bhey!</b>

您还可以签出JTidy,它将解析“肮脏”的html输入,并应为您提供一种删除标记并保留文本的方法。

尝试剥离html的问题在于浏览器的解析器非常宽松,比您可以找到的任何库都宽松,因此即使您尽力剥离所有标签(使用上述替换方法,DOM库或JTidy) ,您仍然需要确保对所有剩余的HTML特殊字符进行编码,以确保输出安全。

M
Mandy卡卡西
5 · 2020-03-23 09:11:04

另一种方法是使用 javax.swing.text.html.HTMLEditorKit提取文本。

import java.io.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
    StringBuffer s;

    public Html2Text() {
    }

    public void parse(Reader in) throws IOException {
        s = new StringBuffer();
        ParserDelegator delegator = new ParserDelegator();
        // the third parameter is TRUE to ignore charset directive
        delegator.parse(in, this, Boolean.TRUE);
    }

    public void handleText(char[] text, int pos) {
        s.append(text);
    }

    public String getText() {
        return s.toString();
    }

    public static void main(String[] args) {
        try {
            // the HTML to convert
            FileReader in = new FileReader("java-new.html");
            Html2Text parser = new Html2Text();
            parser.parse(in);
            in.close();
            System.out.println(parser.getText());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

ref:从文件中删除HTML标记以仅提取TEXT

达蒙
4 · 2020-03-23 09:11:04

如果您是为Android编写的,则可以执行此操作...

android.text.Html.fromHtml(instruction).toString()
伽罗
3 · 2020-03-23 09:11:04

我认为过滤html标签的最简单方法是:

private static final Pattern REMOVE_TAGS = Pattern.compile("<.+?>");

public static String removeTags(String string) {
    if (string == null || string.length() == 0) {
        return string;
    }

    Matcher m = REMOVE_TAGS.matcher(string);
    return m.replaceAll("");
}
理查德
2 · 2020-03-23 09:11:04

使用Jericho也非常简单,您可以保留一些格式(例如,换行符和链接)。

    Source htmlSource = new Source(htmlText);
    Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
    Renderer htmlRend = new Renderer(htmlSeg);
    System.out.println(htmlRend.toString());
I
Itachi
1 · 2020-03-23 09:11:04

使用HTML解析器代替正则表达式。对于Jsoup来说,简直太简单了

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup also supports removing HTML tags against a customizable whitelist, which is very useful if you want to allow only e.g. <b>, <i> and <u>.

See also:

你的回答

加载中...
⌘+Return 发表
发表

温馨提示:登录后可发表评论或回复

关闭,朕知道了

扫码关注微信公众号或小程序