Document Arena

View overall rankings across AI models in document analysis and long-content reasoning.

May 12, 2026

157,554 votes

24 models

Rank by

	Rank Spread
1	14	claude-opus-4-6-thinking Anthropic · Proprietary	1522±8	11,934	$5 / $25	1M
2	14	claude-opus-4-6 Anthropic · Proprietary	1513±7	20,354	$5 / $25	1M
3	15	claude-opus-4-7 Anthropic · Proprietary	1510±8	6,695	$5 / $25	1M
4	17	claude-opus-4-7-thinking Anthropic · Proprietary	1509±8	6,402	$5 / $25	1M
5	37	gpt-5.5-high OpenAI · Proprietary	1496±9	4,615	$5 / $30	1.1M
6	47	claude-sonnet-4-6 Anthropic · Proprietary	1495±6	31,885	$3 / $15	1M
7	47	gpt-5.5 OpenAI · Proprietary	1492±9	4,672	$5 / $30	1.1M
8	810	gpt-5.4 OpenAI · Proprietary	1474±7	14,439	$2.50 / $15	1.1M
9	812	claude-opus-4-5-20251101 Anthropic · Proprietary	1466±10	8,015	$5 / $25	200K
10	915	kimi-k2.6 Moonshot · Modified MIT	1454±10	3,769	$0.95 / $4	262.1K
11	817	muse-spark Meta · Proprietary	1452±19	868	N/A	N/A
12	915	claude-sonnet-4-5-20250929 Anthropic · Proprietary	1450±7	16,693	$3 / $15	200K
13	1015	gemini-3.1-pro-preview Google · Proprietary	1443±6	24,873	$2 / $12	1M
14	1017	gemini-3-pro Google · Proprietary	1439±9	10,773	$2 / $12	1M
15	1018	kimi-k2.5-thinking Moonshot · Modified MIT	1437±8	10,471	$0.60 / $3	N/A
16	1320	gemini-2.5-pro Google · Proprietary	1427±6	19,978	$1.25 / $10	1M
17	1323	gemma-4-31b Google · Apache 2.0	1424±10	4,360	N/A	N/A
18	1522	claude-haiku-4-5-20251001 Anthropic · Proprietary	1423±7	17,855	$1 / $5	200K
19	1624	grok-4.20-beta-0309-reasoning xAI · Proprietary	1420±8	6,807	$2 / $6	2M
20	1624	gemini-3-flash Google · Proprietary	1418±9	7,202	$0.50 / $3	1M
21	1724	gpt-5.2-high OpenAI · Proprietary	1411±9	7,110	$1.75 / $14	400K
22	1924	gpt-5.2 OpenAI · Proprietary	1407±6	22,399	$1.75 / $14	400K
23	1724	gpt-5.5-instant OpenAI · Proprietary	1407±10	3,503	$5 / $30	1.1M
24	1824	gpt-5.1 OpenAI · Proprietary	1407±9	8,281	$1.25 / $10	400K

Document Arena

Remove Style Control Leaderboard Plots

Fraction of Model A Wins for All Non-tied A vs. B Battles

Confidence Intervals on Model Strength (via Bootstrapping)

Battle Count for Each Combination of Models (without Ties)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)