Gradio

Compass Academic Leaderboard (Full Version)

The CompassAcademic currently focuses on the comprehensive reasoning abilities of LLMs.

The datasets selected so far include General Knowledge Reasoning (MMLU-Pro/GPQA-Diamond), Logical Reasoning (BBH), Mathematical Reasoning (MATH-500, AIME), Code Completion (LiveCodeBench, HumanEval), and Instruction Following (IFEval).
Currently, the evaluation primarily targets chat models, with updates featuring the latest community models at irregular intervals.
Prompts and reproduction scripts can be found in OpenCompass: A Toolkit for Evaluation of LLMs🏆.

Index	Model Name	Release Time	Parameters	OpenSource	IFEval	BBH	GPQA_diamond	Math-500	AIME2024	MMLU-Pro	LiveCodeBench	HumanEval	Drop	Hellaswag	MUSR	KorBench	CMMLU	MMLU	BigCodeBench
10	Llama4-Maverick-17B-128E-Instruct	2024/10/22	456B	OpenSource	83.55	80.92	58.08	76.80	10.00	75.09	36.25	89.02	89.37	88.46	68.55	55.12	83.86	88.92	22.97

Index

Model Name

Release Time

Parameters

OpenSource

IFEval

BBH

GPQA_diamond

Math-500

AIME2024

MMLU-Pro

LiveCodeBench

HumanEval

Drop

Hellaswag

MUSR

KorBench

CMMLU

MMLU

BigCodeBench

Llama4-Maverick-17B-128E-Instruct

2024/10/22

456B

OpenSource

83.55

80.92

58.08

76.80

10.00

75.09

36.25

89.02

89.37

88.46

68.55

55.12

83.86

88.92

22.97

Index	Model Name	Release Time	Parameters	OpenSource	IFEval	BBH	GPQA_diamond	Math-500	AIME2024	MMLU-Pro	LiveCodeBench	HumanEval	Drop	Hellaswag	MUSR	KorBench	CMMLU	MMLU	BigCodeBench
1	MiniMax-Text-01	2025/1/15	456B	OpenSource	83.55	80.92	58.08	76.80	10.00	75.09	36.25	89.02	89.37	88.46	68.55	55.12	83.86	88.92	22.97
2	Claude 3.5 Sonnet 20241022	2024/10/22	N/A	API	85.58	89.78	57.58	76.80	13.33	77.92	65.00	92.68	-	-	-	-	-	-	-
3	Claude 3.7 Sonnet 20250219	2025/2/19	N/A	API	87.25	77.62	67.68	79.80	30.00	80.74	63.25	93.90	-	-	-	-	-	-	-
4	DeepSeek-V2.5	2024/9/5	236B	OpenSource	77.63	80.72	42.42	74.60	13.33	65.19	52.00	87.20	81.38	90.70	74.54	46.88	78.57	82.38	20.27
5	DeepSeek-V2.5-1210	2024/12/10	236B	OpenSource	79.30	85.10	46.97	84.60	16.67	67.15	58.25	87.80	89.08	91.23	62.78	58.88	80.23	83.28	22.30
6	DeepSeek-V3	2024/12/26	671B	OpenSource	85.77	81.55	57.07	89.60	26.67	75.93	65.50	92.07	92.12	84.67	73.98	63.36	85.22	88.96	26.35
7	DeepSeek-V3-0324	2025/3/24	671B	OpenSource	81.89	87.38	65.15	92.80	53.33	82.67	79.75	95.12	-	-	-	-	-	-	-
8	DeepSeek-R1	2025/1/20	671B	OpenSource	83.36	90.89	69.70	97.60	86.67	83.60	83.75	98.17	-	-	-	-	-	-	-
9	DeepSeek-R1-Distill-Llama-8B	2025/1/20	8B	OpenSource	66.17	75.77	20.71	82.80	40.00	44.50	45.75	75.61	-	-	-	-	-	-	-
10	DeepSeek-R1-Distill-Llama-70B	2025/1/20	70B	OpenSource	79.85	90.00	58.59	94.20	56.67	72.97	70.25	95.73	-	-	-	-	-	-	-
11	DeepSeek-R1-Distill-Qwen-1.5B	2025/1/20	1.5B	OpenSource	36.04	43.51	7.07	69.60	16.67	21.46	18.25	56.10	-	-	-	-	-	-	-
12	DeepSeek-R1-Distill-Qwen-7B	2025/1/20	7B	OpenSource	57.67	69.61	27.78	87.40	43.33	43.95	43.50	79.88	-	-	-	-	-	-	-
13	DeepSeek-R1-Distill-Qwen-14B	2025/1/20	14B	OpenSource	75.23	86.38	44.95	90.80	60.00	65.36	65.50	92.68	-	-	-	-	-	-	-
14	DeepSeek-R1-Distill-Qwen-32B	2025/1/20	32B	OpenSource	73.75	88.15	43.43	90.20	60.00	66.05	61.50	90.24	-	-	-	-	-	-	-
15	Doubao-pro-32k-241215	2024/12/15	N/A	API	82.44	82.99	52.53	81.40	26.67	73.74	56.75	87.20	-	-	-	-	-	-	-
16	Doubao-pro-32k-240828	2024/8/28	N/A	API	77.63	77.87	45.96	84.40	23.33	70.50	43.00	82.32	-	-	-	-	-	-	-
17	Doubao-1.5-pro-32k-250115	2025/1/15	N/A	API	85.21	86.28	58.08	90.40	30.00	78.46	62.75	90.85	-	-	-	-	-	-	-
18	Gemini-1.5-Pro-Latest	2024/11/29	N/A	API	86.69	84.27	60.10	86.20	33.33	75.12	49.50	87.80	-	-	-	-	-	-	-
19	Gemini-2.0-Flash-Exp	2024/12/11	N/A	API	87.99	85.60	59.60	93.20	30.00	74.95	50.50	89.63	-	-	-	-	-	-	-
20	Gemma-2-27B-it	2024/6/27	27B	OpenSource	78.19	68.53	39.90	57.00	0.00	58.08	29.50	74.39	83.33	86.83	60.71	45.36	62.77	77.84	16.89
21	Gemma-2-9B-it	2024/6/27	9B	OpenSource	72.46	63.22	30.81	50.40	0.00	50.44	21.75	59.76	80.57	85.27	57.27	41.44	57.16	74.56	8.78
22	Gemma-3-27B-it	2025/3/12	27B	OpenSource	80.96	77.88	51.01	86.40	23.33	67.84	35.50	87.20	89.72	68.64	69.20	51.76	68.90	82.43	22.97
23	GLM-4-Plus	2024/8/30	N/A	API	79.11	83.17	46.46	74.80	3.33	70.24	43.50	85.37	-	-	-	-	-	-	-
24	GLM-4-9B-Chat	2024/6/4	9B	OpenSource	69.32	51.38	26.26	53.20	3.33	48.86	17.75	75.61	-	-	-	-	-	-	-
25	GPT-4o-20241120	2024/11/20	N/A	API	79.30	86.36	50.00	77.60	20.00	65.60	51.00	93.90	-	-	-	-	-	-	-
26	GPT-4o-20240806	2024/8/6	N/A	API	83.92	87.47	56.57	79.20	16.67	74.43	46.75	91.46	-	-	-	-	-	-	-
27	GPT-4o-mini-20240718	2024/7/18	N/A	API	79.30	80.40	43.43	-	6.67	64.53	39.00	86.59	85.31	89.51	50.96	-	65.80	83.03	24.32
28	GPT-4.5-Preview-20250227	2025/2/27	N/A	API	87.99	76.32	69.70	85.40	43.33	81.12	78.00	95.12	-	-	-	-	-	-	-
29	GPT-4.1-20250414	2025/4/14	N/A	API	88.17	87.55	69.19	91.80	50.00	81.02	68.25	95.73	-	-	-	-	-	-	-
30	GPT-4.1-mini-20250414	2025/4/14	N/A	API	85.03	86.55	62.63	92.00	43.33	76.36	70.75	95.73	-	-	-	-	-	-	-
31	GPT-4.1-nano-20250414	2025/4/14	N/A	API	77.82	74.75	52.02	83.80	26.67	64.99	53.00	87.20	-	-	-	-	-	-	-
32	o1-mini-2024-09-12	2024/9/12	N/A	API	75.42	88.65	61.11	95.00	56.67	73.19	75.00	96.34	-	-	-	-	-	-	-
33	o3-mini-2025-01-31	2025/1/31	N/A	API	91.87	89.97	68.69	96.20	83.33	77.71	80.75	96.34	-	-	-	-	-	-	-
34	Hunyuan-Standard-256k	2024/10/28	N/A	API	71.90	66.77	15.15	60.00	3.33	16.41	16.75	80.49	-	-	-	-	-	-	-
35	InternLM2.5-Chat-7B	2024/7/5	7B	OpenSource	57.30	72.81	26.77	64.60	3.33	45.30	17.50	70.12	77.64	94.79	50.38	32.08	74.19	70.67	7.43
36	Llama3.1-405B-Instruct-FP8	2024/7/23	405B	OpenSource	84.84	85.62	54.55	74.00	30.00	73.78	44.75	87.20	-	-	-	-	-	-	-
37	Llama3.1-70B-Instruct	2024/7/23	70B	OpenSource	80.22	81.69	44.95	67.00	20.00	67.99	34.00	78.66	-	-	-	-	-	-	-
38	Llama3.1-8B-Instruct	2024/7/23	8B	OpenSource	73.38	54.21	25.25	52.60	6.67	48.00	19.75	71.95	81.61	76.73	61.24	42.64	53.91	71.81	20.27
39	Llama3.2-3B-Instruct	2024/9/25	3B	OpenSource	70.98	51.55	19.70	44.80	6.67	39.50	16.75	57.93	71.14	62.88	50.29	36.40	42.67	63.76	8.78
40	Llama3.3-70B-Instruct	2024/12/6	70B	OpenSource	88.54	84.19	50.00	76.00	20.00	71.25	40.00	87.20	90.15	89.04	73.07	52.64	73.04	86.43	25.68
41	Llama4-Scout-17B-16E-Instruct	2025/4/5	109B	OpenSource	86.32	82.26	57.07	83.20	30.00	73.37	47.50	84.15	-	-	-	-	-	-	-
42	Llama4-Maverick-17B-128E-Instruct	2025/4/5	400B	OpenSource	87.06	84.62	67.68	90.00	36.67	79.56	63.25	88.41	-	-	-	-	-	-	-
43	Ministral-8B-Instruct-2410	2024/10/16	8B	OpenSource	55.08	57.38	28.28	55.80	3.33	43.72	22.75	78.05	-	-	-	-	-	-	-
44	Mistral-Large-Instruct-2411	2024/11/18	123B	OpenSource	80.59	83.90	48.99	72.80	6.67	70.94	46.25	88.41	-	-	-	-	-	-	-
45	Mistral-Small-Instruct-2409	2024/9/17	22B	OpenSource	63.03	67.98	39.90	59.20	3.33	55.60	22.25	76.83	-	-	-	-	-	-	-
46	Moonshot-v1-32K	2024/9/1	N/A	API	60.26	65.85	32.32	65.80	20.00	45.18	25.75	71.95	-	-	-	-	-	-	-
47	Qwen-Max-0919	2024/9/19	N/A	API	81.70	86.32	46.46	83.00	23.33	70.25	57.25	90.85	-	-	-	-	-	-	-
48	Qwen2.5-max	2025/1/25	N/A	API	84.66	89.63	54.04	79.60	20.00	73.61	66.50	92.68	88.79	93.60	73.43	55.52	87.11	87.54	29.73
49	Qwen2.5-72B-Instruct	2024/9/19	72B	OpenSource	82.99	82.47	52.02	84.80	23.33	71.31	57.25	84.15	87.45	87.24	69.34	51.36	85.05	86.33	22.30
50	Qwen2.5-7B-Instruct	2024/9/19	7B	OpenSource	73.01	62.02	34.34	76.60	6.67	56.24	38.25	84.76	79.76	77.64	47.96	42.24	77.35	74.27	16.22
51	Qwen2.5-14B-Instruct	2024/9/19	14B	OpenSource	77.63	74.87	41.92	81.00	20.00	64.50	48.00	82.93	85.65	90.65	64.98	49.76	80.09	81.48	20.27
52	Qwen2.5-32B-Instruct	2024/9/19	32B	OpenSource	78.93	80.95	49.49	82.40	23.33	68.61	53.75	88.41	88.05	92.11	69.37	54.80	82.88	84.05	23.65
53	QwQ-32B	2025/3/6	32B	OpenSource	81.52	77.35	54.04	93.20	70.00	73.94	90.00	98.17	-	-	-	-	-	-	-
54	Step-2-16K	2024/7/4	N/A	API	82.62	82.76	47.98	77.60	10.00	68.13	40.50	86.59	-	-	-	-	-	-	-
55	Yi-1.5-9B-Chat	2024/5/12	9B	OpenSource	52.50	52.10	24.24	52.80	6.67	46.94	22.25	67.07	-	-	-	-	-	-	-
56	Yi-Lightning	2024/10/16	N/A	API	79.85	79.28	45.45	76.00	10.00	65.27	44.50	83.54	-	-	-	-	-	-	-
57	YAYI-Ultra	2025/1/17	N/A	API	82.99	84.32	47.47	84.00	23.33	71.67	57.00	85.98	-	-	-	-	-	-	-
58	Phi-4	2024/12/12	14B	OpenSource	63.96	81.99	53.03	80.40	23.33	72.04	36.00	86.59	-	-	-	-	-	-	-

Index

Model Name

Release Time

Parameters

OpenSource

IFEval

BBH

GPQA_diamond

Math-500

AIME2024

MMLU-Pro

LiveCodeBench

HumanEval

Drop

Hellaswag

MUSR

KorBench

CMMLU

MMLU

BigCodeBench

MiniMax-Text-01

2025/1/15

456B

OpenSource

83.55

80.92

58.08

76.80

10.00

75.09

36.25

89.02

89.37

88.46

68.55

55.12

83.86

88.92

22.97

Claude 3.5 Sonnet 20241022

2024/10/22

N/A

API

85.58

89.78

57.58

76.80

13.33

77.92

65.00

92.68

Claude 3.7 Sonnet 20250219

2025/2/19

N/A

API

87.25

77.62

67.68

79.80

30.00

80.74

63.25

93.90

DeepSeek-V2.5

2024/9/5

236B

OpenSource

77.63

80.72

42.42

74.60

13.33

65.19

52.00

87.20

81.38

90.70

74.54

46.88

78.57

82.38

20.27

DeepSeek-V2.5-1210

2024/12/10

236B

OpenSource

79.30

85.10

46.97

84.60

16.67

67.15

58.25

87.80

89.08

91.23

62.78

58.88

80.23

83.28

22.30

DeepSeek-V3

2024/12/26

671B

OpenSource

85.77

81.55

57.07

89.60

26.67

75.93

65.50

92.07

92.12

84.67

73.98

63.36

85.22

88.96

26.35

DeepSeek-V3-0324

2025/3/24

671B

OpenSource

81.89

87.38

65.15

92.80

53.33

82.67

79.75

95.12

DeepSeek-R1

2025/1/20

671B

OpenSource

83.36

90.89

69.70

97.60

86.67

83.60

83.75

98.17

DeepSeek-R1-Distill-Llama-8B

2025/1/20

OpenSource

66.17

75.77

20.71

82.80

40.00

44.50

45.75

75.61

DeepSeek-R1-Distill-Llama-70B

2025/1/20

70B

OpenSource

79.85

90.00

58.59

94.20

56.67

72.97

70.25

95.73

DeepSeek-R1-Distill-Qwen-1.5B

2025/1/20

1.5B

OpenSource

36.04

43.51

7.07

69.60

16.67

21.46

18.25

56.10

DeepSeek-R1-Distill-Qwen-7B

2025/1/20

OpenSource

57.67

69.61

27.78

87.40

43.33

43.95

43.50

79.88

DeepSeek-R1-Distill-Qwen-14B

2025/1/20

14B

OpenSource

75.23

86.38

44.95

90.80

60.00

65.36

65.50

92.68

DeepSeek-R1-Distill-Qwen-32B

2025/1/20

32B

OpenSource

73.75

88.15

43.43

90.20

60.00

66.05

61.50

90.24

Doubao-pro-32k-241215

2024/12/15

N/A

API

82.44

82.99

52.53

81.40

26.67

73.74

56.75

87.20

Doubao-pro-32k-240828

2024/8/28

N/A

API

77.63

77.87

45.96

84.40

23.33

70.50

43.00

82.32

Doubao-1.5-pro-32k-250115

2025/1/15

N/A

API

85.21

86.28

58.08

90.40

30.00

78.46

62.75

90.85

Gemini-1.5-Pro-Latest

2024/11/29

N/A

API

86.69

84.27

60.10

86.20

33.33

75.12

49.50

87.80

Gemini-2.0-Flash-Exp

2024/12/11

N/A

API

87.99

85.60

59.60

93.20

30.00

74.95

50.50

89.63

Gemma-2-27B-it

2024/6/27

27B

OpenSource

78.19

68.53

39.90

57.00

0.00

58.08

29.50

74.39

83.33

86.83

60.71

45.36

62.77

77.84

16.89

Gemma-2-9B-it

2024/6/27

OpenSource

72.46

63.22

30.81

50.40

0.00

50.44

21.75

59.76

80.57

85.27

57.27

41.44

57.16

74.56

8.78

Gemma-3-27B-it

2025/3/12

27B

OpenSource

80.96

77.88

51.01

86.40

23.33

67.84

35.50

87.20

89.72

68.64

69.20

51.76

68.90

82.43

22.97

GLM-4-Plus

2024/8/30

N/A

API

79.11

83.17

46.46

74.80

3.33

70.24

43.50

85.37

GLM-4-9B-Chat

2024/6/4

OpenSource

69.32

51.38

26.26

53.20

3.33

48.86

17.75

75.61

GPT-4o-20241120

2024/11/20

N/A

API

79.30

86.36

50.00

77.60

20.00

65.60

51.00

93.90

GPT-4o-20240806

2024/8/6

N/A

API

83.92

87.47

56.57

79.20

16.67

74.43

46.75

91.46

GPT-4o-mini-20240718

2024/7/18

N/A

API

79.30

80.40

43.43

6.67

64.53

39.00

86.59

85.31

89.51

50.96

65.80

83.03

24.32

GPT-4.5-Preview-20250227

2025/2/27

N/A

API

87.99

76.32

69.70

85.40

43.33

81.12

78.00

95.12

GPT-4.1-20250414

2025/4/14

N/A

API

88.17

87.55

69.19

91.80

50.00

81.02

68.25

95.73

GPT-4.1-mini-20250414

2025/4/14

N/A

API

85.03

86.55

62.63

92.00

43.33

76.36

70.75

95.73

GPT-4.1-nano-20250414

2025/4/14

N/A

API

77.82

74.75

52.02

83.80

26.67

64.99

53.00

87.20

o1-mini-2024-09-12

2024/9/12

N/A

API

75.42

88.65

61.11

95.00

56.67

73.19

75.00

96.34

o3-mini-2025-01-31

2025/1/31

N/A

API

91.87

89.97

68.69

96.20

83.33

77.71

80.75

96.34

Hunyuan-Standard-256k

2024/10/28

N/A

API

71.90

66.77

15.15

60.00

3.33

16.41

16.75

80.49

InternLM2.5-Chat-7B

2024/7/5

OpenSource

57.30

72.81

26.77

64.60

3.33

45.30

17.50

70.12

77.64

94.79

50.38

32.08

74.19

70.67

7.43

Llama3.1-405B-Instruct-FP8

2024/7/23

405B

OpenSource

84.84

85.62

54.55

74.00

30.00

73.78

44.75

87.20

Llama3.1-70B-Instruct

2024/7/23

70B

OpenSource

80.22

81.69

44.95

67.00

20.00

67.99

34.00

78.66

Llama3.1-8B-Instruct

2024/7/23

OpenSource

73.38

54.21

25.25

52.60

6.67

48.00

19.75

71.95

81.61

76.73

61.24

42.64

53.91

71.81

20.27

Llama3.2-3B-Instruct

2024/9/25

OpenSource

70.98

51.55

19.70

44.80

6.67

39.50

16.75

57.93

71.14

62.88

50.29

36.40

42.67

63.76

8.78

Llama3.3-70B-Instruct

2024/12/6

70B

OpenSource

88.54

84.19

50.00

76.00

20.00

71.25

40.00

87.20

90.15

89.04

73.07

52.64

73.04

86.43

25.68

Llama4-Scout-17B-16E-Instruct

2025/4/5

109B

OpenSource

86.32

82.26

57.07

83.20

30.00

73.37

47.50

84.15

Llama4-Maverick-17B-128E-Instruct

2025/4/5

400B

OpenSource

87.06

84.62

67.68

90.00

36.67

79.56

63.25

88.41

Ministral-8B-Instruct-2410

2024/10/16

OpenSource

55.08

57.38

28.28

55.80

3.33

43.72

22.75

78.05

Mistral-Large-Instruct-2411

2024/11/18

123B

OpenSource

80.59

83.90

48.99

72.80

6.67

70.94

46.25

88.41

Mistral-Small-Instruct-2409

2024/9/17

22B

OpenSource

63.03

67.98

39.90

59.20

3.33

55.60

22.25

76.83

Moonshot-v1-32K

2024/9/1

N/A

API

60.26

65.85

32.32

65.80

20.00

45.18

25.75

71.95

Qwen-Max-0919

2024/9/19

N/A

API

81.70

86.32

46.46

83.00

23.33

70.25

57.25

90.85

Qwen2.5-max

2025/1/25

N/A

API

84.66

89.63

54.04

79.60

20.00

73.61

66.50

92.68

88.79

93.60

73.43

55.52

87.11

87.54

29.73

Qwen2.5-72B-Instruct

2024/9/19

72B

OpenSource

82.99

82.47

52.02

84.80

23.33

71.31

57.25

84.15

87.45

87.24

69.34

51.36

85.05

86.33

22.30

Qwen2.5-7B-Instruct

2024/9/19

OpenSource

73.01

62.02

34.34

76.60

6.67

56.24

38.25

84.76

79.76

77.64

47.96

42.24

77.35

74.27

16.22

Qwen2.5-14B-Instruct

2024/9/19

14B

OpenSource

77.63

74.87

41.92

81.00

20.00

64.50

48.00

82.93

85.65

90.65

64.98

49.76

80.09

81.48

20.27

Qwen2.5-32B-Instruct

2024/9/19

32B

OpenSource

78.93

80.95

49.49

82.40

23.33

68.61

53.75

88.41

88.05

92.11

69.37

54.80

82.88

84.05

23.65

QwQ-32B

2025/3/6

32B

OpenSource

81.52

77.35

54.04

93.20

70.00

73.94

90.00

98.17

Step-2-16K

2024/7/4

N/A

API

82.62

82.76

47.98

77.60

10.00

68.13

40.50

86.59

Yi-1.5-9B-Chat

2024/5/12

OpenSource

52.50

52.10

24.24

52.80

6.67

46.94

22.25

67.07

Yi-Lightning

2024/10/16

N/A

API

79.85

79.28

45.45

76.00

10.00

65.27

44.50

83.54

YAYI-Ultra

2025/1/17

N/A

API

82.99

84.32

47.47

84.00

23.33

71.67

57.00

85.98

Phi-4

2024/12/12

14B

OpenSource

63.96

81.99

53.03

80.40

23.33

72.04

36.00

86.59