`
zhangweioak
  • 浏览: 61874 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

使用java正则表达式获取url地址

阅读更多
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetUrl {

	//使用java正则表达式获取url地址中的主域名代码如下:
	/**
	 * 如果要得到 chinajavaworld.com/entry/4545/0/正则表达式最后加上 .* 即可.
	 *如要取完整域名,使用以下代码:
	 *Pattern.compile("[^//]*?\\.(com|cn|net|org|biz|info|cc|tv)", Pattern.CASE_INSENSITIVE);
	 */
	public static void main(String[] args) {
		String url = "http://anotherbug.blog.chinajavaworld.com/entry/4545/0/";
		//Pattern p = Pattern.compile("(?<=http://|\\.)[^.]*?\\.(com|cn|net|org|biz|info|cc|tv)",Pattern.CASE_INSENSITIVE);
		
		//获取完整的域名
		Pattern p =Pattern.compile("[^//]*?\\.(com|cn|net|org|biz|info|cc|tv)", Pattern.CASE_INSENSITIVE);
		Matcher matcher = p.matcher(url);
		matcher.find();
		System.out.println(matcher.group());
	}
}
1
2
分享到:
评论
4 楼 z172362753 2015-07-14  
这个正则并不能准确提取出主域名 像http://cn0917.com/ 这种URL
3 楼 wxcking 2014-12-27  
"(?<=http\\://)(?:[^.\\s]*?\\.)+(com|cn|net|org|biz|info|cc|tv)";
2 楼 lysongfei 2013-12-06  
多级域名获取二级域名,同问
1 楼 lipeng1 2013-09-10  
你好,如果你的url换成http://www.sina.com.cn好像就不行了,多级域名应该怎么写呢

相关推荐

    java正则表达式获取url的host示例

    使用httpclient抓取页面信息时需要填写HOST,使用此正则提取抓取URL的HOST内容

    java正则表达式实例(邮箱,车牌,密码,url,IP,身份证,车牌等等)

    正则表达式 实例

    正则表达式经典实例

    即使有经验的用户也经常会遇到性能不佳、误报、漏报等让人挠头的错误,本书对于如何使用正则表达式来解决一些常见的问题给出了按部就班的解决方案,其中包括c#、Java、JavaScript、Perl、PHP、Python、Ruby和VB...

    正则表达式经典实例.pdf

    即使有经验的用户也经常会遇到性能不佳、误报、漏报等让人挠头的错误,本书对于如何使用正则表达式来解决一些常见的问题给出了按部就班的解决方案,其中包括c#、Java、JavaScript、Perl、PHP、Python、Ruby和VB...

    正则表达式

    JavaScript的RegExp对象和String对象定义了使用正则表达式来执行强大的模式匹配和文本检索与替换函数的方法. 在JavaScript中,正则表达式是由一个RegExp对象表示的.当然,可以使用一个RegExp()构造函数来创建RegExp...

    java正则表达式解析html示例分享

    主要介绍了java正则表达式解析html示例,用到获取url的正则表达式,获取图片的正则表达式,需要的朋友可以参考下

    使用正则表达式实现网页爬虫的思路详解

    网页爬虫:就是一个程序...4.建立正则规则,因为这里我们是爬去网页中的邮箱信息,所以建立匹配 邮箱的正则表达式:String regex=”\w+@\w+(\.\w+)+”; 5.将提取到的数据放到集合中。 代码: import java.io.Buffered

    javascript 获取url参数的正则表达式(用来获取某个参数值)

    例子: //javascript传参数(多个) var url = “B.aspx?txtA=”+document.getElementById(“txtName”).value; url +=”&txtB=”+document.getElementById(“txtAge”).value; window.open(url,’xWindow’,’width=...

    常见网络爬虫的实现,基于Java版获取并收集不同网页信息

    基于Java的网络爬虫实现 1、能够通过10个以内的起始URL爬取1万个不重复的网页; 2、通过文件系统或者数据库系统保存网页; 3、合理使用输入输出类库,采用必要的IO优化策略;...使用正则表达式正确处理URL去重。

    java解析给定url

    * 正则表达式匹配关键数据 * @param line * @return */ private Set&lt;String&gt; parse(String line) { Set resSet = new LinkedHashSet(); Pattern pattern = Pattern.compile(reg); Matcher matcher = pattern...

    java解析出url请求的路径和参数键值对类(解析出url请求的路径,包括页面)

    解析url,本想用正则表达式处理,但正则表达式速度较慢。用split处理一下就可以了

    struts2+hibernate+spring源码

    将这数值弹出一个alert并且发信给指定的邮件地址 获取页面内所有地方的以"&lt;&lt; &gt;&gt;"为标示的这个符号代表书名号,获取之中的内容 使用正则表达式&gt;&gt; 功能点: 1)URL抓取页面。 2)正则表达式匹配。 3)邮件系统调用 请注意...

    javascript/jquery获取地址栏url参数的方法

    2、jquery获取url参数比较复杂,要用到正则表达式,所以学好javascript正则式多么重要的事情 首先看看单纯的通过javascript是如何来获取url中的某个参数 代码如下:function getUrlParam(name){var reg = new RegExp...

    非阻塞式服务器Web.Java.zip

    Web.Java使用正则表达式来配置URL,这样做可以提供足够强大和灵活的URL模式。比如像用“/Article/23”想获取文章的ID可以这样来配置URL HttpServer.setPATH("/Article/(\\d )",new ArticleHandler());  //...

    Python v3.1 Final for Linux

    Python是一门跨平台的脚本语言,Python规定了一个Python语法规则,...同时,Python支持几乎所有常用的操作系统,包括从某个URL中获取信息、正则表达式、获得某个文件或字符串的MD5特征字符串、多线程、XML及HTML的分析等.

    java股票实时查询小软件

    界面用javaFx实现,访问sina博客的url获取股票得信息,并用正则表达式筛选出股票信息,点击每行可以获取该股票的走势图

    模拟登录的Java爬虫实现.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    JAVA爬虫程序

    java多线程技术,Download...FunctionUtils.java 的功能是提供不同的静态方法,包括:页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。

    java爬虫获取网页数据导出到excle.zip

    常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用...

    java jdk实列宝典 光盘源代码

    获取URL信息,主要是使用URLConnection类,GetUrlInfo.java; web浏览器,webbrowser.java; 获取IP地址和域名,GetIpAddress.java; Http客户端,httpClient.java; 基本socket编程,介绍socket编程的基本步骤,启动...

Global site tag (gtag.js) - Google Analytics