Hive Analytics Functions - rank() vs dense_rank() vs percent_rank() vs row_umber() vs cume

Hive Analytics Functions - rank() vs dense_rank() vs percent_rank() vs row_umber() vs cume_dist()

RANK - Rank of each row within partition of result set.

DENSE_RANK - Mostly, similar to RANK. But, there will be no gaps in ranking.

PERCENT_RANK - Relative Rank of row within group of rows.

ROW_NUMBER - Sequential number of row within partition of a result set.

CUME_DIST - For row r, the number of rows with value lower than or equal to value of r , divided by number of rows evaluated in partition.

Practice -

hive> create table test (v string ) row format delimited fields terminated by ',';

hive> alter table test add columns (t string);

hive> load data local inpath '/root/test' overwrite into table test;

test data in local looks like below -

a,1
a,2
a,3
a,1
a,2
b,1
c,1
c,2
d,1
e,1

Execute below query and analyze the result -

hive> select v, t, rank() over (partition by v ), dense_rank() over (partition by v ), row_number() over (partition by v ), percent_rank()over (partition by v ), cume_dist() over (partition by v ) from test;

a 2 1 1 1 0.0 1.0

a 1 1 1 2 0.0 1.0

a 3 1 1 3 0.0 1.0

a 2 1 1 4 0.0 1.0

a 1 1 1 5 0.0 1.0

b 1 1 1 1 0.0 1.0

c 2 1 1 1 0.0 1.0

c 1 1 1 2 0.0 1.0

d 1 1 1 1 0.0 1.0

e 1 1 1 1 0.0 1.0

Note - Output of rank(), dense_rank() is same. Also, percent_rank() & cume_dist() results same output for each row in entire data set.

Above, example only clears us functioning of row_number() as each row within partition is given a sequential number.

But, this example will also help us to understand that there is something wrong and we will hence forth proceed to correct results.

By the way, we can also execute analytics functions with empty over clause. For example -

hive> select v, t, rank() over ( ), dense_rank() over ( ), row_number() over ( ), percent_rank()over (), cume_dist() over ( ) from test;

e 1 1 1 1 0.0 1.0

d 1 1 1 2 0.0 1.0

c 2 1 1 3 0.0 1.0

c 1 1 1 4 0.0 1.0

b 1 1 1 5 0.0 1.0

a 2 1 1 6 0.0 1.0

a 1 1 1 7 0.0 1.0

a 3 1 1 8 0.0 1.0

a 2 1 1 9 0.0 1.0

a 1 1 1 10 0.0 1.0

What happened above is pretty explanatory. But, to hint you see row_number() column results.

Now, Lets execute below query -

hive> select v, t, rank() over (partition by v order by t), dense_rank() over (partition by v order by t), row_number() over (partition by v order by t), percent_rank()over (partition by v order by t), cume_dist() over (partition by v order by t) from test;

a 1 1 1 1 0.0 0.4

a 1 1 1 2 0.0 0.4

a 2 3 2 3 0.5 0.8

a 2 3 2 4 0.5 0.8

a 3 5 3 5 1.0 1.0

b 1 1 1 1 0.0 1.0

c 1 1 1 1 0.0 0.5

c 2 2 2 2 1.0 1.0

d 1 1 1 1 0.0 1.0

e 1 1 1 1 0.0 1.0

In above results see that same rows are given same rank(). But rank = 2 is missing.
Whereas, in dense_rank() there is no missing sequential number.
Row_number() works fine for us.
percent_rank() actually gives us relative rank
cume_dist() finds distance of each row within result set.

QueryDB

Search This Blog

Hive Analytics Functions - rank() vs dense_rank() vs percent_rank() vs row_umber() vs cume_dist()

Comments

Post a Comment

Popular posts

Spark MongoDB Connector Not leading to correct count or data while reading

Scala Spark building Jar leads java.lang.StackOverflowError

MongoDB Chunk size many times bigger than configure chunksize (128 MB)

AWS EMR Spark – Much Larger Executors are Created than Requested

Hive Count Query not working