Anzeige
Skip to content
Read full article about: ElevenLabs Scribe v2 schlägt Google und OpenAI im neuen Speech-to-Text-Benchmark

Artificial Analysis hat Version 2.0 seines Speech-to-Text-Benchmarks AA-WER veröffentlicht, der die Genauigkeit von Spracherkennungsmodellen misst. Im Gesamtranking führt Scribe v2 von ElevenLabs mit einer Wortfehlerrate von nur 2,3 Prozent. Auf den Plätzen zwei und drei folgen Googles Gemini 3 Pro (2,9 %) und Voxtral Small von Mistral (3,0 %). Auch Gemini 3 Flash von Google (3,1 %) und Scribe v1 von ElevenLabs (3,2 %) schneiden gut ab. Im Mittelfeld landen unter anderem OpenAIs GPT-4o Transcribe (4,0 %) und Whisper Large v3 (4,2 %). Am unteren Ende liegen Modelle wie Qwen3 ASR Flash von Alibaba (5,9 %), Amazons Nova 2 Omni (6,0 %) und Rev AI (6,1 %).

Balkendiagramm des AA-WER v2.0 Gesamtrankings mit Wortfehlerraten von 2,3 % (Scribe v2) bis 6,1 % (Rev AI).
ElevenLabs Scribe v2 führt das Gesamtranking des AA-WER v2.0 Benchmarks mit der niedrigsten Wortfehlerrate an, gefolgt von Google Gemini 3 Pro und Mistral Voxtral Small. | Bild: Artificial Analysis

Im separaten Test mit Sprache, die speziell an Sprachassistenten gerichtet ist, bestätigt sich das Bild: Scribe v2 (1,6 %) und Gemini 3 Pro (1,7 %) liegen klar vorn. Universal-3 Pro von AssemblyAI folgt mit 2,3 Prozent auf Platz drei.

Balkendiagramm des AA-AgentTalk-Rankings mit Wortfehlerraten von 1,6 % (Scribe v2) bis 6,1 % (Rev AI).
Auch im AA-AgentTalk-Test für Sprache an Sprachassistenten dominieren Scribe v2 von ElevenLabs und Gemini 3 Pro von Google mit den geringsten Fehlerquoten. | Bild: Artificial Analysis
Read full article about: Auch neue LLMs wie GPT-5.2 und Claude 4.6 verlieren bei langen Chats massiv an Leistung

Auch die neue Generation großer Sprachmodelle (LLMs) ab GPT-5 hat nach wie vor Probleme, wenn Aufgaben über mehrere Gesprächsrunden verteilt werden. Forscher Philippe Laban und sein Team testeten aktuelle Modelle in sechs Aufgaben: Code, Datenbanken, Aktionen, Daten-zu-Text, Mathematik und Zusammenfassungen. Ergebnis: Die Leistung sinkt deutlich, wenn Informationen über mehrere Nachrichten verteilt (sharded) statt in einer einzigen Anfrage (concat) gegeben werden.

Laban et al.

Neuere Modelle schneiden zwar etwas besser ab – sie verlieren im Schnitt 33 statt zuvor 39 Prozent ihrer Leistung –, doch das Problem bleibt bestehen. Verbesserungen zeigten sich primär bei Python-Programmieraufgaben, wo einige Modelle nur noch 10 bis 20 Prozent Leistung einbüßten. Die Tests nutzten einfache, unkomplizierte Nutzersimulationen. Laban vermutet, dass der Verlust noch größer ausfallen könnte, wenn Nutzer etwa mitten im Gespräch ihre Meinung ändern.

Die ursprüngliche Studie zeigte, dass technische Anpassungen wie niedrigere Temperaturwerte das Problem nicht lösen. Die Forscher empfehlen daher: Bei Problemen lieber ein neues Gespräch starten und am Ende einer Sitzung eine Zusammenfassung aller Anforderungen erstellen lassen. Mehr "Context-Engineering"-Strategien gibt’s im heise KI Pro Webinar zum Thema.

Read full article about: Nach Amoklauf in Kanada: OpenAI will bei ChatGPT-Verdachtsmomenten schneller Behörden informieren

OpenAI hat der kanadischen Regierung in einem Schreiben an KI-Minister Evan Solomon zugesagt, seine Sicherheitsprotokolle zu verschärfen. Anlass ist eine tödliche Schießerei an einer Schule in Tumbler Ridge, British Columbia, bei der acht Menschen starben. Der Verdächtige, Jesse Van Rootselaar, hatte zuvor mit ChatGPT interagiert. OpenAI-Angestellte stuften die Interaktionen als mögliche Warnung vor realer Gewalt ein. Das Unternehmen sperrte das Konto, informierte aber nicht die Polizei.

Laut Wall Street Journal will OpenAI nun flexiblere Kriterien für die Weitergabe von Kontodaten an Behörden einführen, direkte Kontakte zur kanadischen Polizei aufbauen und seine Systeme zur Umgehungserkennung verbessern. OpenAI-Vizepräsidentin Ann O'Leary sagte, man hätte das Konto nach den neuen Regeln gemeldet. Kanadas Justizminister Sean Fraser drohte mit neuen KI-Regulierungen, sollte OpenAI nicht schnell handeln.

Read full article about: Wegen Verbot durch Kriegsminister: KI-Firma Anthropic will gegen US-Regierung vor Gericht ziehen

Anthropic will das US-Verteidigungsministerium verklagen. Kriegsminister Pete Hegseth will das KI-Unternehmen als Lieferkettenrisiko einstufen, eine Maßnahme, die bisher nur gegen ausländische Gegner der USA eingesetzt wurde. Laut Anthropic ist diese Einordnung gegen das Gesetz, und man werde jede Anschuldigung vor Gericht anfechten.

Wir glauben, dass diese Einstufung sowohl rechtlich unhaltbar ist als auch einen gefährlichen Präzedenzfall für jedes amerikanische Unternehmen schaffen würde, das mit der Regierung verhandelt.

Anthropic

Hegseth hatte zudem gesagt, dass auch Militärzulieferer keine Geschäfte mehr mit Anthropic machen dürften. Laut Anthropic fehlt ihm dafür die gesetzliche Grundlage: Die Einstufung nach 10 USC 3252 betreffe nur die Nutzung von Claude in direkten Aufträgen des Kriegsministeriums. Für Privatkunden, kommerzielle Verträge und den Zugang über API oder claude.ai ändere sich nichts.

Auslöser des Konflikts ist ein gescheiterter Verhandlungsprozess: Anthropic weigert sich, Claude für massenhafte Inlandsüberwachung und vollautonome Waffen freizugeben. Heutige KI-Modelle seien dafür zu unzuverlässig, Massenüberwachung verletze Grundrechte. OpenAI hat den Deal übernommen.

Read full article about: Widerstand gegen Pentagon: Anthropic-, Google- und OpenAI-Mitarbeiter fordern rote Linien für KI-Nutzung

Anthropics Streit mit dem Pentagon geht auch an Google und OpenAI nicht spurlos vorbei. Mehr als 100 Google-KI-Mitarbeiter haben laut der New York Times einen Brief an Jeff Dean, den Chefwissenschaftler von Google Deepmind, geschickt. Dean hatte sich schon zuvor zugunsten von Anthropic ausgesprochen.

Darin fordern sie, dass Google dieselben roten Linien wie Anthropic zieht: keine Überwachung amerikanischer Bürger und keine autonomen Waffen ohne menschliche Beteiligung durch das KI-Modell Gemini. Zusätzlich veröffentlichten fast 50 OpenAI- und 175 Google-Mitarbeiter einen offenen Brief, der die Verhandlungstaktik des Pentagons kritisiert.

Wir hoffen, dass unsere Führungskräfte ihre Differenzen beiseitelegen und gemeinsam weiterhin die aktuellen Forderungen des Kriegsministeriums ablehnen, unsere Modelle für die inländische Massenüberwachung und das autonome Töten von Menschen ohne menschliche Aufsicht einsetzen zu dürfen.

Zitat aus dem offenen Brief "We will not be divided"

Parallel dazu teilte OpenAI-Chef Sam Altman laut dem Wall Street Journal seinen Angestellten mit, dass OpenAI an einem eigenen Vertrag mit dem Pentagon arbeite. Dieser solle die gleichen Sicherheitsleitplanken beibehalten, die Anthropic fordert. Altman hofft, eine Lösung zu finden, die auch für andere KI-Unternehmen funktioniert.

Read full article about: Google schließt Milliarden-Deal mit Meta über KI-Chips und greift Nvidia an

Meta hat einen mehrjährigen Vertrag über mehrere Milliarden Dollar mit Google abgeschlossen, um dessen KI-Chips – Tensor Processing Units (TPUs) – für die Entwicklung neuer KI-Modelle zu mieten. Das berichtet The Information. Meta prüfe zudem, ab nächstem Jahr TPUs direkt für eigene Rechenzentren zu kaufen.

Der Deal fordert Nvidia heraus, das den KI-Chip-Markt dominiert und Meta bisher mit GPUs für das KI-Training beliefert. Erst wenige Tage zuvor hatte Meta angekündigt, Millionen GPUs von Nvidia und von AMD zu kaufen. Google-Cloud-Führungskräfte hätten intern angedeutet, mit TPUs bis zu zehn Prozent von Nvidias Jahresumsatz – rund 200 Milliarden Dollar – erobern zu wollen. Zusätzlich hat Google ein Joint Venture mit einer Investmentfirma gegründet, um TPUs an weitere Kunden zu vermieten.

Der Balanceakt: Google ist selbst einer der größten Nvidia-Kunden, da Cloud-Kunden weiterhin GPU-Server verlangen. Google muss also Nvidias neueste Chips einkaufen, um im Cloud-Markt wettbewerbsfähig zu bleiben – während es Nvidia mit eigenen Chips Marktanteile abnehmen will. OpenAI konnte angeblich allein wegen der Existenz von TPUs die Preise von Nvidia drücken.

Read full article about: OpenAI und Figma verbinden Code und Design nahtlos in beide Richtungen

Eine neue Integration verbindet Figmas Design-Plattform direkt mit OpenAIs Coding-Tool Codex. Teams können damit aus Code automatisch bearbeitbare Figma-Designs erzeugen und umgekehrt Designs in funktionierenden Code umwandeln. Die Verbindung nutzt den offenen MCP-Standard und unterstützt Figma Design, Figma Make und FigJam. Die Einrichtung erfolgt direkt in der Codex-Desktop-App für macOS.

Bisherige Lösungen für den Übergang zwischen Figma und Code waren meist Einbahnstraßen: Figmas Dev Mode lieferte einfache HTML/CSS-Schnipsel, Plugins exportierten Designs als React- oder HTML-Code, Figma Make generierte React-Komponenten per Texteingabe. Diese Werkzeuge arbeiteten jedoch einzeln und ohne tiefes Verständnis des gesamten Projekts. Die neue Integration soll erstmals eine durchgängige Verbindung schaffen, bei der die KI gleichzeitig auf Code, Figma-Dateien und Design-System zugreifen kann.

Figma war bereits einer der ersten Partner mit einer eigenen ChatGPT-App und nutzt intern ChatGPT Enterprise. Laut OpenAI greifen über eine Million Menschen wöchentlich auf Codex zurück, die Nutzung stieg seit Jahresbeginn um über 400 Prozent.

Read full article about: MEMORY.md: Claude Code merkt sich jetzt Vorlieben und wendet sie automatisch an

Claude Code kann sich ab sofort selbstständig Notizen machen und Gelerntes innerhalb eines Projekts über Sitzungen hinweg abrufen, etwa Debugging-Muster, Projektkontext und bevorzugte Arbeitsweisen. Bisher mussten Nutzer solche Informationen manuell bzw. per /init in CLAUDE.md-Dateien festhalten. Die neue Auto-Memory-Funktion ergänzt das: Claude legt pro Projekt eigenständig eine MEMORY.md-Datei an, in der es Erkenntnisse festhält und in späteren Sitzungen desselben Projekts automatisch wieder abruft. Wer zum Beispiel in einem Projekt auf ein kniffliges Debugging-Problem stößt, muss die Lösung nicht erneut erklären. Nutzer können Claude auch direkt auffordern, bestimmte Informationen zu speichern. Die Funktion ist standardmäßig aktiviert und lässt sich per /memory, Einstellungsdatei oder Umgebungsvariable deaktivieren.

Kürzlich hat Claude Code noch ein weiteres großes Update bekommen: Eine lokal laufende Sitzung lässt sich jetzt von unterwegs per Smartphone, Tablet oder Browser über claude.ai/code weiterführen, ohne dass Daten in die Cloud wandern.

Read full article about: Anthropics KI-Assistent Claude erledigt mit Cowork jetzt Aufgaben automatisch nach Zeitplan

Anthropics KI-Assistent Claude bekommt in seiner Desktop-Anwendung Cowork neue Funktionen. Nutzer können nun geplante Aufgaben einrichten, die Claude automatisch zu festgelegten Zeiten ausführt, etwa ein morgendliches Briefing, wöchentliche Tabellen-Updates oder Freitags-Präsentationen für das Team.

Ergänzend verweist Anthropic auf die bereits verfügbaren Plugins, die Cowork Fachwissen in bestimmten Bereichen wie Design, Technik oder Recht verleihen. Eine Übersicht der verfügbaren Plugins gibt es hier. Außerdem gibt es einen neuen "Customize"-Bereich in der Seitenleiste von Cowork, über den sich Plugins, Fähigkeiten und Verbindungen zentral verwalten lassen.

Cowork ist als Forschungsvorschau für macOS und Windows verfügbar und steht allen zahlenden Claude-Abonnenten offen. Wie bei allen agentischen KI-Systemen, die anfällig sind für Cybersecurity-Probleme, empfiehlt es sich, genau zu prüfen, auf welche Bereiche des eigenen Computers man der Software Zugriff gewährt.

Read full article about: Anthropic kauft Startup Vercept, um Claudes Computersteuerung zu verbessern

Anthropic übernimmt das KI-Startup Vercept, um die Computernutzungsfähigkeiten seines KI-Modells Claude zu verbessern. Vercept entwickelte KI, die direkt auf dem Computer des Nutzers arbeitet, Bildschirminhalte versteht und Aufgaben ausführt. Die Gründer Kiana Ehsani, Luca Weihs und Ross Girshick wechseln mit ihrem Team zu Anthropic, die Übernahmesumme ist nicht bekannt.

Laut Anthropic löst Vercept schwierige Wahrnehmungs- und Interaktionsprobleme, die für die Computernutzung durch KI zentral sind. Gemeint ist damit, dass ein KI-Modell Screenshots oder Videos von für Menschen gemachten Oberflächen auswerten und bedienen kann, ohne dafür eine spezielle Programmierschnittstelle (API) zu benötigen.

Vercept wird sein eigenes Desktop-KI-Agenten-Produkt "Vy" in den kommenden Wochen einstellen. Anthropic dürfte insbesondere am Oberflächenerkennungsmodell "VyUI" interessiert sein, das angeblich in Vergleichstests besser abschnitt als vergleichbare OpenAI-Technologie.

Benchmark (UI element identification / grounding) VyUI accuracy OpenAI model
ScreenSpot v1 92% 18.3%
ScreenSpot v2 94.7% 87.9%
GroundUI Web 84.8% 82.3%

Claude kann bereits mehrstufige Aufgaben in laufenden Anwendungen erledigen: Mit dem kürzlich veröffentlichten Modell Sonnet 4.6 erreicht Claude auf dem OSWorld-Vergleichstest 72,5 Prozent, der genau diese Fähigkeit misst, gegenüber weniger als 15 Prozent Ende 2024. Das Vercept-Team soll diese Fähigkeit weiter steigern.