天道酬勤

RDBMS and My Life

Archive for the ‘Database’ Category

ORA-12547: TNS:lost contact

one comment

这个错误还真没碰到过,记录一下。

背景:原本想在VMware+OEL5.3+ORACLE 11.2(已创建了单实例数据库,32bit)上安装Grid Infrastructure,最终目的就是想使用Oracle Restart,Restart是集成在Grid Infrastructure里面的不能单独安装,可以像在10g里使用SRVCTL来管理数据库,当然单实例也是可以的,且还有另一大好处就是用restart管理的资源譬如instance、listener等在进程异常终止后会自动启动(注:在sqlplus中用命令停止的restart不能再次自动启动)。结果grid是安装成功了,但是在SRVCTL中配置实例、监听信息的时候报错无法配置成功,后来想是不是应该先安装grid再安装Oracle最后再建库(后查阅资料grid是可以在已有库上安装的),说干就干,反正按照自己写的文档ctrl+c、ctrl+v的也快,再加上RHEL不久前发布了5.5,ORACLE在之后的一个多星期也放出了OEL5.5,想着测试一下新版本,从安装OS->修改系统参数、配置Oracle用户环境变量—>安装Oracle软件一切顺利,哪知DBCA到最后一步出现:

ORA-12547: TNS:lost contact

好家伙,半道杀出个程咬金,最初以因xmanager出问题了,由于建库的脚本刚刚已经创建,心想用CRT手工建库得了,往往越想快点看得结果却越看不到结果:

[oracle@ora11.2 ~]$ sqlplus ‘/as sysdba’

SQL*Plus: Release 11.2.0.1.0 Production on Sun Apr 18 09:24:31 2010

Copyright (c) 1982, 2009, Oracle.  All rights reserved.

ERROR:
ORA-12547: TNS:lost contact

Enter user-name:

兄弟,咋的了,装了无数次系统还从未遇到这种情况啊,什么原因引起的还真不知道,唉,先google一下,说可能是libaio-0.3.106、binutils相关包没有安装,打开Oracle在线文档一个一个检查,可结果是都安装了啊

[root@ora11.2 ~]# uname -a
Linux ora11.2 2.6.18-194.el5 #1 SMP Mon Mar 29 20:06:41 EDT 2010 i686 i686 i386 GNU/Linux
[root@ora11.2 ~]# cat /etc/issue
Enterprise Linux Enterprise Linux Server release 5.5 (Carthage)

[root@ora11.2 ~]# rpm -q –verify `uname -r | awk -FEL ‘{ printf(“kernel-%s-%sEL\n”,$2,$1); }’ | sed ‘s/–/-/g’`
package kernel-2.6.18-194.el5EL is not installed

不知道为什么说我没有安装kernel,实际上是安装了的

[root@ora11.2 ~]# rpm -qa|grep kernel
kernel-headers-2.6.18-194.el5
kernel-2.6.18-194.el5

不行了,上MOS找找,根据ID 272516.1说的,应该是kernel参数设置问题,这里RedHat给出了一张

Name Description Reasonable Values
SHMMAX Maximum size of shared memory segment (bytes) 250kB + 8.2kB * shared_buffers + 14.2kB * max_connections or infinity
SHMMIN Minimum size of shared memory segment (bytes) 1
SHMALL Total amount of shared memory available (bytes or pages) if bytes, same as SHMMAX; if pages, ceil(SHMMAX/PAGE_SIZE)
SHMSEG Maximum number of shared memory segments per process only 1 segment is needed, but the default is much higher
SHMMNI Maximum number of shared memory segments system-wide like SHMSEG plus room for other applications
SEMMNI Maximum number of semaphore identifiers (that is, sets) >= ceil(max_connections / 16)
SEMMNS Maximum number of semaphores system-wide ceil(max_connections / 16) * 17 + room for other applications
SEMMSL Maximum number of semaphores per set >= 17
SEMMAP Number of entries in semaphore map see text
SEMVMX Maximum value of semaphore >= 255 (The default is often 32767, do not change unless asked to.)

结果反复的检查调整内核参数,二个比较重要的参数:

kernel.shmall = 2097152  共享内存总量,以页为单位,对于32位系统,一页=4k,也就是4096字节,2097152*4k/1024/1024 = 8G 就是说可用共享内存一共8G
kernel.shmmax = 2147483648 (默认536870912,512M)  以字节为单位

检查oracle的环境变量,relink all等一系列操作结果错误依旧没有消除。突然想起在安装64位系统的时候,默认只安装了32位的包,必须手工再次安装相应64位的包,那反过来是不是安装32位是不是也需要64位的某些包(当时确实这样想的,现在觉得有点扯啊),在经历三个多小时的下载时间后强行安装部分64位的包后重启系统,测试,FT。

现在怀疑是OEL与Oracle软件版本兼容的问题,如果有解决过相同问题的朋友还请告之。

-The End-

Written by ochef

April 18th, 2010 at 9:21 pm

Posted in Database

Tagged with

db_files and maxdatafiles argument

leave a comment

今天学习了db_files和maxdatafiles两个参数,记录一下。比较了9i、10g、11g三个版本,在我的实验环境中(都是默认没有修改过的),9i、10g、11g的db_files默认值为200,而9i、11g的maxdatafiles为100,10g rac环境为1024,单实例为100。db_files参数在数据库的初始化参数文件中指定,maxdatafiles在控制文件中指定,一般db_files<=maxdatafiles。如果在添加一个数据文件时,其编号已经超出了maxdatafiles的设定值,但是小于或等于db_files的设定值,控制文件会自动扩展maxdatafiles的值以满足容纳更多的数据文件信息的需求,所以指定db_files参数的值对数据库更为关键和重要,因为maxdatafiles会自动扩展。

BTW:指定db_files的值会影响数据库内存的使用,详情请参考eagle相关文章

-The End-

Written by ochef

April 9th, 2010 at 10:33 pm

Posted in Database

Tagged with

AIX network buffer参数设置引起RAC故障

leave a comment

故障日期:2010年3月23日 11:30 AM

生产环境:数据库:  Oracle 10.2.0.4  2Nodes RAC

操作系统:AIX 5309

故障现象:

现象1:在23日上午11:30,发现应用系统不能连接到RAC的实例1(Instance name:int1),此时实例2是正常的。

现象2:使用辅助工具TOAD也不能连接到实例1。

现象3:在实例1所在机器的本地使用SQLPLUS可以连接到实例1,此时也能在实例2上通过TNS连接到实例1。

现象4:15:19重启实例1后系统恢复正常。

故障分析:

1.根据实例1的alert log日志记载,在11:30记录的错误如下:

Tue Mar 23 11:30:08 2010

WARNING: inbound connection timed out (ORA-3136)

Tue Mar 23 11:32:05 2010

WARNING: inbound connection timed out (ORA-3136)

首先来了解ORA-3136这个错误,该错误表示客户端在sqlnet.ora文件中SQLNET.INBOUND_CONNECT_TIMEOUT参数定义的时间内没有完成登录认证,该参数默认值为60S,据Oracle官方文档记载,此默认值能够满足绝大多数条件;此外该错误还涉及到listener.ora文件中定义的参数INBOUND_CONNECT_TIMEOUT_LISTENER,Oracle 10.2.0.1之前默认值为0,从10.2.0.1开始默认值为60S,根据alert log日志记录的其它信息,目前暂时排除实例1的错误是由以上参数造成。

2.Alert log还记载

……

Tue Mar 23 12:15:36 2010

Errors in file /soft/oracle/admin/int/udump/int1_ora_2617378.trc:

ORA-00600: internal error code, arguments: [12333], [7], [2], [49], [], [], [], []

……

根据Oracle metalink文档[ID 35928.1]描述:“Fatal Two-Task Protocol Violation”

ORA-600 [12333]描述收到一个没有经过验证的无效的网络数据包,这里有二个可能:一是客户端多线程的应用发送了一个无顺序的OCI调用请求,二是网络缓冲区中的数据可能被覆盖,进一步查看trace文件,可以看到每个trace文件的开关处都有:PROTOCOL VIOLATION DETECTED。

另外,由贵行的带内网管软件Tivoli监控到故障当时RAC心跳网络(ent8)的通信流量信息证明,当时心跳网络流量确实比正常情况下高,RAC 采用UDP 协议进行节点间的互联通信,查询系统统计如下:

RACDB1# netstat -p udp -s

udp:

574337869 datagrams received

0 incomplete headers

0 bad data length fields

0 bad checksums

169617 dropped due to no socket

32335 broadcast/multicast datagrams dropped due to no socket

243 socket buffer overflows

574135674 delivered

500048775 datagrams output

RACDB2# netstat -p udp -s

udp:

500187207 datagrams received

0 incomplete headers

0 bad data length fields

0 bad checksums

171357 dropped due to no socket

32333 broadcast/multicast datagrams dropped due to no socket

2108 socket buffer overflows

499981409 delivered

574427147 datagrams output

以上信息可以看到,由于系统网络参数network buffer设置不当出现通信问题,查看涉及network buffer大小的参数:

#no -a |pg

sb_max = 1310720

udp_recvspace = 655360

udp_sendspace = 65536

sb_max被用来指定允许的TCP和UDP socket的最大缓冲区大小,默认值为1048576 bytes,1048576 bytes,很显然,udp_recvspace与udp_sendspace设置不对称且sb_max参数设置过小。

3.ORA-600 [12333]的错误也可以由JDBC驱动版本与Oracle数据库版本不一致造成,但贵行此套系统已上线很久,由此可以暂时先排除该原因。另外,根据trace文件的记录,在故障期间有大量的UNION联合查询操作,而这种大量的UNION操作会增加节点间的通信,ashrpt的报告也证实了gc buffer busy随故障时间增加,到最后被剔出RAC降下来。

初步结论:

基于以上情况分析,现初步判断此次故障为:由系统网络buffer参数设置不当引起RAC 节点间的互联网络故障,而节点间的互联网络用于协调各个节点的运行,包括全局锁(global locking) ,队列(enqueue) 和缓存管理(buffer cache management),建议udp_sendspace 的起始值为db_block_size * db_file_multiblock_read_count ,udp_recvspace 设为udp_sendspace 的4 倍,上限为1048576 。如果发生socket 缓存溢出( 可通过 netstat -s | grep “socket buffer overflows” 命令察看) udp_recvspace 参数值需要增加,netstat -p udp -s的结果也证实了这一点。

BTW:这里还有EYGLE大师的文章供参考:

IBM AIX Oracle 9i RAC 性能因素 – udp及其他

-The End-

Written by ochef

March 26th, 2010 at 12:49 pm

Posted in Troubleshooting

Tagged with ,

中国Oracle用户组

one comment

最近一老失眠,今儿一大清早就爬起来上网,从google的订阅服务得知:由EYGLEKAMUS二位大师发起并成立了中国Oracle用户组ACOUG(All China Oracle User Group)。届时,越来越多的数据库爱好者、Oracle爱好者将会出没这里。well,so……一线民工以此博文当贺电来表达喜悦心情,各位工友欲知更多详情请参考官网,谢谢!

-The End-

Written by ochef

March 7th, 2010 at 6:31 pm

Posted in Database

Tagged with