注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

回首望星辰

See you in the next world

 
 
 

日志

 
 

[ZT]epoll  

2010-01-26 13:13:10|  分类: 软件开发 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

epoll有两种模式,Edge Triggered(简称ET) 和 Level Triggered(简称LT).在采用这两种模式时要注意的是,如果采用ET模式,那么仅当状态发生变化时才会通知,而采用LT模式类似于原来的select/poll操作,只要还有没有处理的事件就会一直通知.

以代码来说明问题:

首先给出server的代码,需要说明的是每次accept的连接,加入可读集的时候采用的都是ET模式,而且接收缓冲区是5字节的,也就是每次只接收5字节的数据:

#include <iostream>

#include <sys/socket.h>

#include <sys/epoll.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <fcntl.h>

#include <unistd.h>

#include <stdio.h>

#include <errno.h>

using namespace std;

#define MAXLINE 5

#define OPEN_MAX 100

#define LISTENQ 20

#define SERV_PORT 5000

#define INFTIM 1000

void setnonblocking(int sock)

{

    int opts;

    opts=fcntl(sock,F_GETFL);

    if(opts<0)

    {

        perror("fcntl(sock,GETFL)");

        exit(1);

    }

    opts = opts|O_NONBLOCK;

    if(fcntl(sock,F_SETFL,opts)<0)

    {

        perror("fcntl(sock,SETFL,opts)");

        exit(1);

    }   

}

int main()

{

    int i, maxi, listenfd, connfd, sockfd,epfd,nfds;

    ssize_t n;

    char line[MAXLINE];

    socklen_t clilen;

    //声明epoll_event结构体的变量,ev用于注册事件,数组用于回传要处理的事件

    struct epoll_event ev,events[20];

    //生成用于处理accept的epoll专用的文件描述符

    epfd=epoll_create(256);

    struct sockaddr_in clientaddr;

    struct sockaddr_in serveraddr;

    listenfd = socket(AF_INET, SOCK_STREAM, 0);

    //把socket设置为非阻塞方式

    //setnonblocking(listenfd);

    //设置与要处理的事件相关的文件描述符

    ev.data.fd=listenfd;

    //设置要处理的事件类型

    ev.events=EPOLLIN|EPOLLET;

    //ev.events=EPOLLIN;

    //注册epoll事件

    epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);

    bzero(&serveraddr, sizeof(serveraddr));

    serveraddr.sin_family = AF_INET;

    char *local_addr="127.0.0.1";

    inet_aton(local_addr,&(serveraddr.sin_addr));//htons(SERV_PORT);

    serveraddr.sin_port=htons(SERV_PORT);

    bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr));

    listen(listenfd, LISTENQ);

    maxi = 0;

    for ( ; ; ) {

        //等待epoll事件的发生

        nfds=epoll_wait(epfd,events,20,500);

        //处理所发生的所有事件     

        for(i=0;i<nfds;++i)

        {

            if(events[i].data.fd==listenfd)

            {

                connfd = accept(listenfd,(sockaddr *)&clientaddr, &clilen);

                if(connfd<0){

                    perror("connfd<0");

                    exit(1);

                }

                //setnonblocking(connfd);

                char *str = inet_ntoa(clientaddr.sin_addr);

                cout << "accapt a connection from " << str << endl;

                //设置用于读操作的文件描述符

                ev.data.fd=connfd;

                //设置用于注测的读操作事件

                ev.events=EPOLLIN|EPOLLET;

                //ev.events=EPOLLIN;

                //注册ev

                epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);

            }

            else if(events[i].events&EPOLLIN)

            {

                cout << "EPOLLIN" << endl;

                if ( (sockfd = events[i].data.fd) < 0) 

                    continue;

                if ( (n = read(sockfd, line, MAXLINE)) < 0) {

                    if (errno == ECONNRESET) {

                        close(sockfd);

                        events[i].data.fd = -1;

                    } else

                        std::cout<<"readline error"<<std::endl;

                } else if (n == 0) {

                    close(sockfd);

                    events[i].data.fd = -1;

                }

                line[n] = '\0';

                cout << "read " << line << endl;

                //设置用于写操作的文件描述符

                ev.data.fd=sockfd;

                //设置用于注测的写操作事件

                ev.events=EPOLLOUT|EPOLLET;

                //修改sockfd上要处理的事件为EPOLLOUT

                //epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);

            }

            else if(events[i].events&EPOLLOUT)

            {   

                sockfd = events[i].data.fd;

                write(sockfd, line, n);

                //设置用于读操作的文件描述符

                ev.data.fd=sockfd;

                //设置用于注测的读操作事件

                ev.events=EPOLLIN|EPOLLET;

                //修改sockfd上要处理的事件为EPOLIN

                epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);

            }

        }

    }

    return 0;

}

下面给出测试所用的Perl写的client端,在client中发送10字节的数据,同时让client在发送完数据之后进入死循环, 也就是在发送完之后连接的状态不发生改变--既不再发送数据, 也不关闭连接,这样才能观察出server的状态:

#!/usr/bin/perl

use IO::Socket;

my $host = "127.0.0.1";

my $port = 5000;

my $socket = IO::Socket::INET->new("$host:$port") or die "create socket error $@";

my $msg_out = "1234567890";

print $socket $msg_out;

print "now send over, go to sleep[ZT]epoll - 辉 - 回首望星辰\n";

while (1)

{

    sleep(1);

}

运行server和client发现,server仅仅读取了5字节的数据,而client其实发送了10字节的数据,也就是说,server仅当第一次监听到了EPOLLIN事件,由于没有读取完数据,而且采用的是ET模式,状态在此之后不发生变化,因此server再也接收不到EPOLLIN事件了.

(友情提示:上面的这个测试客户端,当你关闭它的时候会再次出发IO可读事件给server,此时server就会去读取剩下的5字节数据了,但是这一事件与前面描述的ET性质并不矛盾.)

如果我们把client改为这样:

#!/usr/bin/perl

use IO::Socket;

my $host = "127.0.0.1";

my $port = 5000;

my $socket = IO::Socket::INET->new("$host:$port") or die "create socket error $@";

my $msg_out = "1234567890";

print $socket $msg_out;

print "now send over, go to sleep[ZT]epoll - 辉 - 回首望星辰\n";

sleep(5);

print "5 second gone[ZT]epoll - 辉 - 回首望星辰send another line\n";

print $socket $msg_out;

while (1)

{

    sleep(1);

}

可以发现,在server接收完5字节的数据之后一直监听不到client的事件,而当client休眠5秒之后重新发送数据,server再次监听到了变化,只不过因为只是读取了5个字节,仍然有10个字节的数据(client第二次发送的数据)没有接收完.

如果上面的实验中,对accept的socket都采用的是LT模式,那么只要还有数据留在buffer中,server就会继续得到通知,读者可以自行改动代码进行实验.

基于这两个实验,可以得出这样的结论:ET模式仅当状态发生变化的时候才获得通知,这里所谓的状态的变化并不包括缓冲区中还有未处理的数据,也就是说,如果要采用ET模式,需要一直read/write直到出错为止,很多人反映为什么采用ET模式只接收了一部分数据就再也得不到通知了,大多因为这样;而LT模式是只要有数据没有处理就会一直通知下去的.

补充说明一下这里一直强调的"状态变化"是什么:

1)对于监听可读事件时,如果是socket是监听socket,那么当有新的主动连接到来为状态发生变化;对一般的socket而言,协议栈中相应的缓冲区有新的数据为状态发生变化.但是,如果在一个时间同时接收了N个连接(N>1),但是监听socket只accept了一个连接,那么其它未 accept的连接将不会在ET模式下给监听socket发出通知,此时状态不发生变化;对于一般的socket,就如例子中而言,如果对应的缓冲区本身已经有了N字节的数据,而只取出了小于N字节的数据,那么残存的数据不会造成状态发生变化.

2)对于监听可写事件时,同理可推,不再详述.

而不论是监听可读还是可写,对方关闭socket连接都将造成状态发生变化,比如在例子中,如果强行中断client脚本,也就是主动中断了socket连接,那么都将造成server端发生状态的变化,从而server得到通知,将已经在本方缓冲区中的数据读出.

把前面的描述可以总结如下:仅当对方的动作(发出数据,关闭连接等)造成的事件才能导致状态发生变化,而本方协议栈中已经处理的事件(包括接收了对方的数据,接收了对方的主动连接请求)并不是造成状态发生变化的必要条件,状态变化一定是对方造成的.所以在ET模式下的,必须一直处理到出错或者完全处理完毕,才能进行下一个动作,否则可能会发生错误.

另外,从这个例子中,也可以阐述一些基本的网络编程概念.首先,连接的两端中,一端发送成功并不代表着对方上层应用程序接收成功, 就拿上面的client测试程序来说,10字节的数据已经发送成功,但是上层的server并没有调用read读取数据,因此发送成功仅仅说明了数据被对方的协议栈接收存放在了相应的buffer中,而上层的应用程序是否接收了这部分数据不得而知;同样的,读取数据时也只代表着本方协议栈的对应buffer中有数据可读,而此时时候在对端是否在发送数据也不得而知.

===========================================

epoll是多路复用IO(I/O Multiplexing)中的一种方式,但是仅用于linux2.6以上内核,在开始讨论这个问题之前,先来解释一下为什么需要多路复用IO.

以一个生活中的例子来解释.

假设你在大学中读书,要等待一个朋友来访,而这个朋友只知道你在A号楼,但是不知道你具体住在哪里,于是你们约好了在A号楼门口见面.

如果你使用的阻塞IO模型来处理这个问题,那么你就只能一直守候在A号楼门口等待朋友的到来,在这段时间里你不能做别的事情,不难知道,这种方式的效率是低下的.

现在时代变化了,开始使用多路复用IO模型来处理这个问题.你告诉你的朋友来了A号楼找楼管大妈,让她告诉你该怎么走.这里的楼管大妈扮演的就是多路复用IO的角色.

进一步解释select和epoll模型的差异.

select版大妈做的是如下的事情:比如同学甲的朋友来了,select版大妈比较笨,她带着朋友挨个房间进行查询谁是同学甲,你等的朋友来了,于是在实际的代码中,select版大妈做的是以下的事情:

int n = select(&readset,NULL,NULL,100);

for (int i = 0; n > 0; ++i)

{

   if (FD_ISSET(fdarray[i], &readset))

   {

      do_something(fdarray[i]);

      --n;

   }

}

epoll版大妈就比较先进了,她记下了同学甲的信息,比如说他的房间号,那么等同学甲的朋友到来时,只需要告诉该朋友同学甲在哪个房间即可,不用自己亲自带着人满大楼的找人了.于是epoll版大妈做的事情可以用如下的代码表示:

n=epoll_wait(epfd,events,20,500);

   

for(i=0;i<n;++i)

{

    do_something(events[n]);

}

在epoll中,关键的数据结构epoll_event定义如下:

typedef union epoll_data {

                void *ptr;

                int fd;

                __uint32_t u32;

                __uint64_t u64;

        } epoll_data_t;

        struct epoll_event {

                __uint32_t events;      /* Epoll events */

                epoll_data_t data;      /* User data variable */

        }; 

可以看到,epoll_data是一个union结构体,它就是epoll版大妈用于保存同学信息的结构体,它可以保存很多类型的信息:fd,指针,等等.有了这个结构体,epoll大妈可以不用吹灰之力就可以定位到同学甲.

别小看了这些效率的提高,在一个大规模并发的服务器中,轮询IO是最耗时间的操作之一.再回到那个例子中,如果每到来一个朋友楼管大妈都要全楼的查询同学,那么处理的效率必然就低下了,过不久楼底就有不少的人了.

对比最早给出的阻塞IO的处理模型, 可以看到采用了多路复用IO之后, 程序可以自由的进行自己除了IO操作之外的工作, 只有到IO状态发生变化的时候由多路复用IO进行通知, 然后再采取相应的操作, 而不用一直阻塞等待IO状态发生变化了.

从上面的分析也可以看出,epoll比select的提高实际上是一个用空间换时间思想的具体应用.

============================================

看我的测试代码,似乎应该是在创建子进程之后创建epoll的fd,否则程序将会有问题,试将代码中两个CreateWorker函数的调用位置分别调用,一个在创建epoll fd之前,一个在之后,在调用在创建之前的代码会出问题,在我的机器上(linux内核2.6.26)表现的症状就是所有进程的epoll_wait函数返回0, 而客户端似乎被阻塞了:

服务器端:

#include <iostream>

#include <sys/socket.h>

#include <sys/epoll.h>

#include <netinet/in.h>

#include <arpa/inet.h>

#include <fcntl.h>

#include <unistd.h>

#include <stdio.h>

#include <errno.h>

#include <sys/types.h>

#include <sys/wait.h>

using namespace std;

#define MAXLINE 5

#define OPEN_MAX 100

#define LISTENQ 20

#define SERV_PORT 5000

#define INFTIM 1000

typedef struct task_t

{

    int fd;

    char buffer[100];

    int n;

}task_t;

int CreateWorker(int nWorker)

{

    if (0 < nWorker)

    {

        bool bIsChild;

        pid_t nPid;

        while (!bIsChild)

        {

            if (0 < nWorker)

            {

                nPid = ::fork();

                if (nPid > 0)

                {

                    bIsChild = false;

                    --nWorker;

                }

                else if (0 == nPid)

                {

                    bIsChild = true;

                    printf("create worker %d success!\n", ::getpid());

                }

                else

                {

                    printf("fork error: %s\n", ::strerror(errno));

                    return -1;

                }

            }

            else 

            {

                int nStatus;

                if (-1 == ::wait(&nStatus))

                {

                    ++nWorker;

                }

            }

        }

    }

    return 0;

}

void setnonblocking(int sock)

{

    int opts;

    opts=fcntl(sock,F_GETFL);

    if(opts<0)

    {

        perror("fcntl(sock,GETFL)");

        exit(1);

    }

    opts = opts|O_NONBLOCK;

    if(fcntl(sock,F_SETFL,opts)<0)

    {

        perror("fcntl(sock,SETFL,opts)");

        exit(1);

    }   

}

int main()

{

    int i, maxi, listenfd, connfd, sockfd,epfd,nfds;

    ssize_t n;

    char line[MAXLINE];

    socklen_t clilen;

    struct epoll_event ev,events[20];

    struct sockaddr_in clientaddr;

    struct sockaddr_in serveraddr;

    listenfd = socket(AF_INET, SOCK_STREAM, 0);

       bzero(&serveraddr, sizeof(serveraddr));

    serveraddr.sin_family = AF_INET;

    char *local_addr="127.0.0.1";

    inet_aton(local_addr,&(serveraddr.sin_addr));//htons(SERV_PORT);

    serveraddr.sin_port=htons(SERV_PORT);

      // 地址重用

    int nOptVal = 1;

    socklen_t nOptLen = sizeof(int);

    if (-1 == ::setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &nOptVal, nOptLen))

    {

        return -1;

    }    

    setnonblocking(listenfd);

    bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr));

    listen(listenfd, LISTENQ);    

    

    CreateWorker(5);

    

    //把socket设置为非阻塞方式

    

    //生成用于处理accept的epoll专用的文件描述符

    epfd=epoll_create(256);    

    //设置与要处理的事件相关的文件描述符

    ev.data.fd=listenfd;

    //设置要处理的事件类型

    ev.events=EPOLLIN|EPOLLET;

    //ev.events=EPOLLIN;

    //注册epoll事件

    epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);

 

     //CreateWorker(5);

     

    maxi = 0;

    

    task_t task; 

    task_t *ptask;

    while(true) 

    {

        //等待epoll事件的发生

        nfds=epoll_wait(epfd,events,20,500);

        //处理所发生的所有事件     

        for(i=0;i<nfds;++i)

        {

            if(events[i].data.fd==listenfd)

            {                

                connfd = accept(listenfd,NULL, NULL);

                if(connfd<0){                    

                    printf("connfd<0, listenfd = %d\n", listenfd);

                    printf("error = %s\n", strerror(errno));

                    exit(1);

                }

                setnonblocking(connfd);

               

                //设置用于读操作的文件描述符

                memset(&task, 0, sizeof(task));

                task.fd = connfd;

                ev.data.ptr = &task;

                //设置用于注册的读操作事件

                ev.events=EPOLLIN|EPOLLET;

                //ev.events=EPOLLIN;

                //注册ev

                epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);

            }

            else if(events[i].events&EPOLLIN)

            {

                cout << "EPOLLIN" << endl;

                ptask = (task_t*)events[i].data.ptr;

                sockfd = ptask->fd;

                

                if ( (ptask->n = read(sockfd, ptask->buffer, 100)) < 0) {

                    if (errno == ECONNRESET) {

                        close(sockfd);

                        events[i].data.ptr = NULL;

                    } else

                        std::cout<<"readline error"<<std::endl;

                } else if (ptask->n == 0) {

                    close(sockfd);

                    events[i].data.ptr = NULL;

                }

                ptask->buffer[ptask->n] = '\0';

                cout << "read " << ptask->buffer << endl;

                

                //设置用于写操作的文件描述符                                

                ev.data.ptr = ptask;

                //设置用于注测的写操作事件

                ev.events=EPOLLOUT|EPOLLET;

                                

                //修改sockfd上要处理的事件为EPOLLOUT

                epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);

            }

            else if(events[i].events&EPOLLOUT)

            {   

                cout << "EPOLLOUT" << endl;

                ptask = (task_t*)events[i].data.ptr;

                sockfd = ptask->fd;

                

                write(sockfd, ptask->buffer, ptask->n);

                

                //设置用于读操作的文件描述符              

                ev.data.ptr = ptask;

                

                //修改sockfd上要处理的事件为EPOLIN

                epoll_ctl(epfd,EPOLL_CTL_DEL,sockfd,&ev);

                cout << "write " << ptask->buffer;

                memset(ptask, 0, sizeof(*ptask));

                close(sockfd);

            }

        }

    }

    return 0;

}

测试客户端:

#!/usr/bin/perl

use strict;

use Socket;

use IO::Handle;

sub echoclient

{

    my $host = "127.0.0.1";

    my $port = 5000;

    my $protocol = getprotobyname("TCP");

    $host = inet_aton($host);

    socket(SOCK, AF_INET, SOCK_STREAM, $protocol) or die "socket() failed: $!";

    my $dest_addr = sockaddr_in($port, $host);

    connect(SOCK, $dest_addr) or die "connect() failed: $!";

    SOCK->autoflush(1);

    my $msg_out = "hello world\n";

    print "out = ", $msg_out;

    print SOCK $msg_out;

    my $msg_in = <SOCK>;

    print "in = ", $msg_in;

    close SOCK;

}

#&echoclient;

#exit(0);

for (my $i = 0; $i < 9999; $i++)

{

    echoclient;

}

我查看了lighttpd的实现,也是在创建完子进程之后才创建的epoll的fd.

请问谁知道哪里有讲解这个的文档?

这是美丽的分割线:

-----------------------------------------------------------------------

感谢luke, 他帮我解释了这个问题的原因:

假如fd1是由A进程加入epfd的,而且用的是ET模式,那么加入通知的是进程B,显然B进程不会对fd1进行处理,所以以后fd1的事件再不会通知,所以经过几次循环之后,所有的fd都没有事件通知了,所以epoll_wait在timeout之后就返回0了。而在客户端的结果可想而知,只能是被阻塞。

也就是说, 这是一种发生在epoll fd上面的类似于"惊群"的现象.

  评论这张
 
阅读(475)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017