À chaque sortie de modèle, les éditeurs de modèles d'IA brandissent des scores de benchmarks, toujours plus élevés. Mais ces évaluations sont de plus en plus contestées par la communauté scientifique, ...
Some results have been hidden because they may be inaccessible to you
Show inaccessible results