Dialectical LLM

Qwen 32B · RL v3-max (s245)

0 1.5
256 3000
Examples